DNA測(cè)序技術(shù)在過(guò)去的40年中,經(jīng)歷了巨大的改進(jìn)與變化。早在1977年,首次報(bào)道了Sanger和Maxam–Gilbert測(cè)序方法,Sanger測(cè)序的最大序列長(zhǎng)度約1 kb。其對(duì)DNA總量的要求較高,一般通過(guò)克隆靶標(biāo)DNA序列并連接載體,進(jìn)而通過(guò)原核細(xì)胞大腸桿菌(E. coli)擴(kuò)增(當(dāng)時(shí)基因組De novo采用BAC文庫(kù)測(cè)序方式),其讀長(zhǎng)短且耗時(shí);NGS(Next-Generation Sequencing )二代測(cè)序包含很多技術(shù)平臺(tái),其特征是對(duì)大量的DNA分子并行測(cè)序,多年來(lái)已有4個(gè)主要的NGS平臺(tái)投入商業(yè)使用:羅氏454平臺(tái), Illumina GA/Solexa 平臺(tái), ABI SOLiD平臺(tái)和Life Torrent平臺(tái)。在過(guò)去的10年中,Illumina因其低成本,高速和高產(chǎn)而成為測(cè)序市場(chǎng)的主要供應(yīng)商,Illumina測(cè)序平臺(tái)具有廣適性,因此NGS已廣泛用于探索基因組學(xué)的各個(gè)領(lǐng)域,包括腫瘤學(xué),微生物學(xué),環(huán)境基因組學(xué),宏基因組學(xué)及醫(yī)學(xué),環(huán)境和農(nóng)業(yè)研究等,隨時(shí)其廣泛的應(yīng)用,其劣勢(shì)也逐漸的突顯,即:二代測(cè)序(Illumina為代表)讀長(zhǎng)短仍然是生物學(xué)研究的重要瓶頸,這限制了許多生物學(xué)研究的準(zhǔn)確性,尤其是在基因組組裝研究中。在片段重復(fù)(segmental duplication),結(jié)構(gòu)變異(SV,structural variations)或旁系同源區(qū)段分析中使用短讀長(zhǎng)測(cè)序可能會(huì)導(dǎo)致大量假陽(yáng)性。盡管測(cè)序技術(shù)和生物信息學(xué)分析在進(jìn)步,但大型基因組的從頭組裝仍然具有挑戰(zhàn)性。自2015年起,以PacBio和Nanopore為代表的長(zhǎng)讀長(zhǎng)測(cè)序技術(shù)開始在動(dòng)植物基因組De novo中初露鋒芒(圖1 A和B)。
圖1 不同測(cè)序技術(shù)讀長(zhǎng),準(zhǔn)確性及基因組連續(xù)性評(píng)估
一、三代長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)的發(fā)展
?長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)(Long read single-molecule sequencing technology)又稱第三代測(cè)序技術(shù)TGS(Third-Generation Sequencing),早在2004年,由美國(guó)太平洋生物科學(xué)公司Pacific Biosciences (PacBio)?創(chuàng)立的實(shí)時(shí)(SMRT)測(cè)序是較早被廣泛使用的長(zhǎng)讀測(cè)序技術(shù),SMRT測(cè)序產(chǎn)生的Reads可達(dá)到約200 kb。其提供了技術(shù)上的優(yōu)勢(shì),以鑒定遺傳變異并進(jìn)一步研究其基因功能,同時(shí)作為動(dòng)植物基因組組裝日臻進(jìn)步完善的主要驅(qū)動(dòng)力,自2015年,首篇純PacBio三代數(shù)據(jù)組裝復(fù)活草(Nature. 2015)基因組見刊Nature,開啟了三代動(dòng)植物基因組De novo的紀(jì)元。與Sanger測(cè)序和NGS測(cè)序類似,PacBio測(cè)序同樣采用邊合成邊測(cè)序的方式,以其中一條DNA鏈為模板,通過(guò)DNA聚合酶合成另外一條鏈(圖2 A和B)。PacBio測(cè)序平臺(tái)相繼推出RS II,Sequel和Sequel II平臺(tái)并投入使用(Table 1)。2005年,英國(guó)牛津納米孔技術(shù)公司
圖2 三代PacBio測(cè)序原理

圖3 三代Nanopore測(cè)序原理
二、三代長(zhǎng)讀長(zhǎng)單分子測(cè)序技術(shù)PacBio和Nanopore的比較
PacBio和Nanopore具有共同的優(yōu)點(diǎn),即長(zhǎng)讀長(zhǎng);同時(shí)也具有共同的缺點(diǎn)即高錯(cuò)誤率(糾錯(cuò)前隨機(jī)分布的?5–20%堿基錯(cuò)誤率),隨著新測(cè)序儀和生物信息學(xué)的不斷發(fā)展,測(cè)序平臺(tái)的優(yōu)缺點(diǎn)有望發(fā)生改變,無(wú)論是PacBio還是ONT測(cè)序平臺(tái)都致力于獲得更長(zhǎng)讀長(zhǎng)的reads的同時(shí),兼獲高準(zhǔn)確的堿基序列信息。

圖4 PacBio與Nanopore測(cè)序原理及信號(hào)識(shí)別原理比較

圖5 PacBio CCS測(cè)序原理及準(zhǔn)確性評(píng)估
Nanopore超長(zhǎng)讀長(zhǎng)測(cè)序:盡管組裝方法不斷在改進(jìn),且已開發(fā)物理圖譜技術(shù)(光學(xué)圖譜),但讀長(zhǎng)長(zhǎng)短仍然是高質(zhì)量動(dòng)植物基因組的限制因素。如植物基因組由于高雜合,及其復(fù)雜的多倍性和高重復(fù)含量,其組裝仍然具有挑戰(zhàn)性,讀長(zhǎng)必須超過(guò)基因組中的主要重復(fù)序列長(zhǎng)度,及嵌合的長(zhǎng)末端重復(fù)序列(LTR)或單倍型Blocks,其長(zhǎng)度可能跨越20–200 kb。雖然PacBio是提供Long Reads(>1 kb)的技術(shù),且通常 Reads N50長(zhǎng)度可大于20 kb,但即便是幾乎完美的15 kb reads可能無(wú)法組裝復(fù)雜植物基因組中經(jīng)常出現(xiàn)的嵌合及高度相似的重復(fù)序列。而ONT測(cè)序平臺(tái)大大解決了這一問題,與PacBio reads平均長(zhǎng)度項(xiàng)目(圖6),一小部分ONT reads讀長(zhǎng)超過(guò)300 kb,同時(shí)PacBio不包含任何大于150 kb的reads。許多復(fù)雜的植物基因組具有大于20 kb或更長(zhǎng)的重復(fù)序列,所以即便目前ONT具有一定錯(cuò)誤率,但其大大促進(jìn)了基因組的組裝,從而顯著提高了基因組連續(xù)性或完整性。例如:使用ONT測(cè)序更新的擬南芥Col-0基因組最終通過(guò)組裝,減少到40個(gè)Contigs,且跨越了染色體臂(端粒到著絲粒),同時(shí)解決了前期在TAIR10參考基因組中存在的gaps及組裝錯(cuò)誤(Jupe et al. 2020)。
圖6 三代Nanopore和PacBio測(cè)序讀長(zhǎng)比較
三、百邁客雙平臺(tái)(Nanopore+PacBio)動(dòng)植物基因組De novo研究策略—魚和熊掌可兼得
“魚,我所欲也,熊掌亦我所欲也;二者不可得兼,舍魚而取熊掌者也。正如在動(dòng)植物基因組研究中,針對(duì)基因組組裝,為了兼顧長(zhǎng)讀長(zhǎng)的同時(shí),獲得高準(zhǔn)確性的物種基因組密碼信息,在選擇測(cè)序技術(shù)選擇(PacBio or Nanopore?)上總會(huì)有魚和熊掌不可兼得的感覺。長(zhǎng)久以來(lái),百邁客一直致力于成為“專業(yè)的基因組組裝專家”,擁有雙平臺(tái)的基礎(chǔ)上(2015年首次引進(jìn)PacBio平臺(tái);2017年首次引進(jìn)Nanopore平臺(tái)),力求整合雙平臺(tái)各自的優(yōu)勢(shì),著力于開發(fā)各種軟件、算法,為每個(gè)物種提供訂制的“基因組套餐”,即打造高質(zhì)量,高完整性的物種基因組。從本章節(jié)起,小編后續(xù)會(huì)結(jié)合新的技術(shù)策略、測(cè)試數(shù)據(jù)及文章案例,為大家?guī)?lái)全新的基因組研究策略,旨在獲得高度連續(xù)性基因組的前提下,同時(shí)完成高準(zhǔn)確性動(dòng)植物基因組密碼的破譯,即魚與熊掌可兼得。
首先通過(guò)百邁客三代Nanopore和PacBio平臺(tái)相關(guān)物種測(cè)序讀長(zhǎng)(表1)及組裝結(jié)果的比較(表2),進(jìn)一步通過(guò)我們的實(shí)際案例來(lái)看一下Nanopore測(cè)序平臺(tái)在基因組組裝中的優(yōu)勢(shì)。

通過(guò)雙平臺(tái)實(shí)測(cè)數(shù)據(jù)的比較分析: Nanopore平臺(tái)平均讀長(zhǎng)為28.5 Kb左右,Reads N50平均讀長(zhǎng) 38Kb左右;PacBio CLR平均讀長(zhǎng)20 Kb左右,Reads N50平均讀長(zhǎng) 28Kb左右;CCS平均讀長(zhǎng)12-15 Kb,Reads N50 16~18Kb,發(fā)現(xiàn)Nanopore比PacBio平臺(tái)讀長(zhǎng)高10 Kb左右,而PacBio CCS模式讀長(zhǎng)遠(yuǎn)低于CLR模式。
同時(shí)通過(guò)PacBio和Nanopore雙平臺(tái)測(cè)序數(shù)據(jù)組裝結(jié)果的比較發(fā)現(xiàn),利用PacBio數(shù)據(jù)進(jìn)行基因組組裝Contig N50一般達(dá)到Mb級(jí)別,而利用Nanopore數(shù)據(jù)進(jìn)行基因組組裝,Contig N50指標(biāo)平均水平基本能再提升2倍或者更高,甚至許多物種能達(dá)到幾十Mb(如百邁客利用Nanopore測(cè)序平臺(tái)組裝的水產(chǎn)動(dòng)物綠鰭?cǎi)R面鲀基因組,Contig N50高達(dá)22 Mb)。

由于Nanopore測(cè)序Reads讀長(zhǎng)長(zhǎng),PacBio Sequel II HiFi模式測(cè)序準(zhǔn)確性高達(dá)99%以上,為了同時(shí)利用其雙平臺(tái)各自的優(yōu)勢(shì),我們擬通過(guò)Nanopore測(cè)序數(shù)據(jù)對(duì)某多倍體植物進(jìn)行基因組組裝,同時(shí)通過(guò)低深度PacBio CCS數(shù)據(jù)進(jìn)行Polish,進(jìn)而對(duì)該多倍體植物基因組連續(xù)性,完整性及準(zhǔn)確性進(jìn)行評(píng)估,以獲得高連續(xù)性,高準(zhǔn)確的基因組密碼信息,測(cè)試結(jié)果如下:



4.?不同深度CCS 數(shù)據(jù)Polish后二代數(shù)據(jù)回比結(jié)果

5.?通過(guò)將20?x?CCS數(shù)據(jù)分別回比到10 x PacBio CCS polish及100 x Nanopore+50 x Illumina Polish后基因組,截取基因組上特性區(qū)域,進(jìn)行組裝基因組單堿基準(zhǔn)確性的比對(duì)與評(píng)估,發(fā)現(xiàn)10?x?PacBio CCS polish后的結(jié)果提升效果明顯,我們挑選了幾個(gè)實(shí)例如下:
區(qū)域1:

PacBio CCS回比結(jié)果(10x CCS Polish基因組)

PacBio CCS回比結(jié)果(100 x ONT+50 x Illumina Polish基因組)
區(qū)域2:
PacBio CCS回比結(jié)果(10x CCS Polish基因組)
PacBio CCS回比結(jié)果(100x Nanopore+50x Illumina Polish基因組)
上述分析結(jié)果中,進(jìn)一步證實(shí)了前期的推測(cè),利用Nanopore超長(zhǎng)讀長(zhǎng)的優(yōu)勢(shì),組裝獲得高連續(xù)性基因組(Contig N50 約10 Mb),同時(shí)結(jié)合PacBio CCS高準(zhǔn)確性測(cè)序,進(jìn)一步提升基因組中單堿基的準(zhǔn)確度,即魚和熊掌可兼得。高連續(xù)性基因組的獲得,對(duì)后續(xù)功能基因定位,結(jié)構(gòu)變異檢測(cè)具有重要的意義;同時(shí)高準(zhǔn)確的基因組的獲得,對(duì)于超大基因組,多倍體基因組等復(fù)雜基因組的LTR的熱點(diǎn)區(qū)域的研究更具突破性的意義。除此之外。在很多動(dòng)植物基因組上的確存在高度復(fù)雜的區(qū)域,即使通過(guò)高深度PacBio?CCS數(shù)據(jù)依然無(wú)法矯正,這就需要通過(guò)其它相應(yīng)的技術(shù)及軟件參數(shù)整合來(lái)提升基因組的準(zhǔn)確性。
四、雙平臺(tái)(Nanopore+PacBio)基因組De novo高分文章賞析

在對(duì)同源四倍體紫花苜蓿(Medicago sativa?L.)基因研究中,首先利用了70 GB,~22x PacBio CCS數(shù)據(jù)進(jìn)行基因組組裝,組裝獲得紫花苜?;蚪M大小3154 Mb,Contig N50=459 kb, 然后利用ALLHiC進(jìn)行同源染色體組群的劃分,最后通過(guò)Hi-C互作熱圖、遺傳圖譜共線性、ONT數(shù)據(jù)回比、BUSCO完整性、轉(zhuǎn)錄組對(duì)基因組完整性等進(jìn)行評(píng)估,值得注意的是在ONT數(shù)據(jù)回比評(píng)估中(Table 3),文中篩選了99 GB ONT long reads中的最長(zhǎng)200條reads(ranged from 95 to 263 Kb)進(jìn)行回比,發(fā)現(xiàn)89%的的reads都能比對(duì)到single染色體上,結(jié)合其它評(píng)估方法,進(jìn)一步說(shuō)明了組裝及染色體位置的準(zhǔn)確性。
在小墊柳(Cushion willow)基因組組裝中,首先利用SMARTdenovo對(duì)糾錯(cuò)后的74xONT數(shù)據(jù)進(jìn)行組裝,然后分別利用125xPacBio數(shù)據(jù)(two rounds )與Illumina數(shù)據(jù)(five rounds )進(jìn)行polish,基因組完整性評(píng)估后,利用Hi-C將Contig掛載到染色體水平,最終組裝獲得小墊柳基因組大小339.588 Mb,Contig N50=9.522 Mb。?(Table 4)
五、百邁客Nanopore、PacBio平臺(tái)動(dòng)植物基因組合作文章總覽(部分)

北京百邁客生物科技有限公司自2015年引入Pacbio測(cè)序平臺(tái),2017年初引入Nanopore測(cè)序平臺(tái)以來(lái),截止到目前百邁客已擁PacBio平臺(tái):RS Ⅱ、PacBio Sequel、PacBio sequel Ⅱ;Nanopore 平臺(tái):PromethION-48、PromethION-β、Nanopore GridION、MinION,擁有主流三代測(cè)序儀,尤其針對(duì)復(fù)雜超大基因組測(cè)序,百邁客生物具有三代測(cè)序通量,以滿足超大基因組的組裝需求。同時(shí)PacBio和Nanopore兩大主流三代測(cè)序平臺(tái)各自及組合經(jīng)驗(yàn),為老師們提供了可參考且全面優(yōu)質(zhì)的選擇!選擇我們,提供專屬于您基因組套餐!
