DNA在染色體上是高度折疊的,DNA與DNA片段之間不可避免的形成了高強(qiáng)度的交互作用。最先提出的3C(Chromosome Conformation Capture)技術(shù),用于測定染色體特定位點之間的交互作用。之后發(fā)展出了4C、5C?技術(shù),?分別用于測定染色體上一點到多點和多點與多點之間的交互作用。在2009年Job Dekker?又開發(fā)出了Hi-C?技術(shù)實現(xiàn)了全基因組范圍內(nèi)的染色體片段間的相互作用的捕獲。Hi-C主要將空間結(jié)構(gòu)臨近的DNA片段進(jìn)行交聯(lián),并將交聯(lián)的DNA片段富集,然后進(jìn)行高通量測序,對測序數(shù)據(jù)進(jìn)行分析即可揭示染色體片段間的交互信息。
目前Hi-C?技術(shù)主要的應(yīng)用方向是輔助基因組組裝和染色質(zhì)互作。輔助基因組組裝:在已有二代或三代組裝的Draft genome序列和已知染色體數(shù)目的前提下,利用Hi-C測序數(shù)據(jù)將Draft genome序列進(jìn)行染色體群組的劃分,并確定各序列在染色體上的順序和方向,使基因組組裝組裝水平提升到染色體水平。染色質(zhì)互作:利用Hi-C技術(shù)揭示基因組的一般結(jié)構(gòu)特征,包括從隔室(A/B Compartments)到拓?fù)湎嚓P(guān)結(jié)構(gòu)域(TAD),最后再到環(huán)(loop)的染色質(zhì)層級結(jié)構(gòu);還可以與ATAC-seq、ChIP-seq、DNase-seq和RNA-seq等數(shù)據(jù)進(jìn)行多組學(xué)分析揭示基因組三維結(jié)構(gòu)與表觀遺傳修飾、基因密度和轉(zhuǎn)錄活性之間的關(guān)系。
說到Hi-C輔助基因組組裝,百邁客還真是碩果累累呢!2018年就有三篇Nature Genetics和一篇Giga Science見刊,2019年才過去短短兩個多月,就已經(jīng)有2篇Molecular Plant見刊了,這成果真是可喜可賀??!
下面就聽小編娓娓道來吧~~
百邁客成功案例一:二倍體亞洲棉Hi-C輔助基因組組裝
英文題目:Sequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits.
中文題目:以更新的亞洲棉A基因組為基礎(chǔ)的243份二倍體棉花的重要農(nóng)藝性狀的研究
發(fā)表期刊:Nature Genetics
發(fā)表時間:2018年5月
合作單位:中國農(nóng)業(yè)科學(xué)院棉花研究所
研究方法:基因組、遺傳進(jìn)化和全基因組關(guān)聯(lián)分析等
研究背景
材料選擇
基因組測序材料:二倍體G. arboreum栽培品種cultivar Shixiya1(SXY1);
自然群體材料選擇:243份棉花,包含230份亞洲棉G. arboretum和13份草棉G. herbaceum?[243份棉花選自國家種質(zhì)基因庫(中國安陽),種植在中國農(nóng)業(yè)科學(xué)院棉花研究所(ICR,CAAS)的溫室中],插入片段長度500 bp;測序深度6X;
遺傳群體材料選擇:親本(GA0146和GA0149),測序深度20X;2個混池(F2群體,有絨型和無絨型各20個子代),測序深度30X;
主要研究結(jié)果
1、亞洲棉基因組組裝更新
利用三代測序儀PacBio平臺共獲得142.54Gb的原始數(shù)據(jù),組裝1.71Gb亞洲棉基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術(shù)獲得超過20×的reads,將組裝的1573Mb的數(shù)據(jù)定位到13條染色體上,與已經(jīng)發(fā)表的基因組相比,當(dāng)Hi-C數(shù)據(jù)比對到更新的基因組后,對角線外的不一致性明顯減少(見圖1a和b)。
圖1,Hi-C數(shù)據(jù)在兩版亞洲棉基因組上的比對
注:a. Hi-C數(shù)據(jù)與亞洲棉原基因組比對;b. Hi-C數(shù)據(jù)與亞洲棉更新基因組比對
2、二倍體棉花群體遺傳進(jìn)化分析
共計選擇了243份二倍體棉花材料:230份亞洲棉G. arboreum?(A2)?和13份草棉G. herbaceum?(A1),來自于中國南部(SC),長江(YZR)和黃河(YER)。以雷蒙德氏棉(G. raimondii)為外群,構(gòu)建系統(tǒng)發(fā)育樹顯示,G. herbaceum(草棉)和G. arboretum(亞洲棉)聚類成2個獨立的群(見圖2a和b)。G. arboretum(亞洲棉)進(jìn)一步又分為SC,YZR和YER三個群,顯示了地理分布模式的差異,進(jìn)而利用PCA分析支持這一結(jié)果(見圖2c)。
圖2 二倍體棉花的群體分層分析
注:a,243份二倍體棉花系統(tǒng)發(fā)育樹;b,243份二倍體棉花的群體結(jié)構(gòu)分析c,PCA主成分分析(中國亞洲棉的PCA分析;亞洲棉和草棉的PCA分析)
3、選擇性清除分析與GWAS分析
人工選擇在農(nóng)作物的馴化和遷徙的過程中具有重要的作用。群體結(jié)構(gòu)分析顯示當(dāng)K=4時,YER與SC和YZR明顯不同(圖2b,K=4)。通過兩兩群體間的選擇性清除分析(FST)鑒定出了分別覆蓋到59,53和51個顯著遺傳分化的區(qū)域。SC和YZR之間的21個分化的區(qū)域(約43.5 Mb?含有915個基因)在群體SC和YER之間是保守的(圖3a)。對來自不同環(huán)境下的11個重要性狀進(jìn)行全基因組關(guān)聯(lián)分析,在98個顯著關(guān)聯(lián)的信號中,其中25信號個來自基因區(qū)(外顯子或內(nèi)含子區(qū)),包含與形態(tài)性狀相關(guān)的8個信號區(qū),與產(chǎn)量性狀相關(guān)的6個信號區(qū),與油籽性狀相關(guān)的3個信號區(qū);剩余73個信號來自非編碼區(qū)。大部分農(nóng)藝性狀的GWAS關(guān)聯(lián)信號中顯示地理差異,如分支數(shù),開花期,鈴重和抗病性這些性狀定位在保守的基因區(qū)(圖4b)。
參考文獻(xiàn):Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits[J]. Nature genetics, 2018, 50(6): 796.
百邁客成功案例二:異源四倍體陸地棉和海島棉Hi-C輔助基因組組裝
英文題目:Reference genome sequences of two cultivated allotetraploid cottons?Gossypium hirsutum?and?Gossypium barbadense.
中文題目:兩個異源四倍體陸地棉和海島棉基因組破譯
發(fā)表期刊:Nature Genetics
發(fā)表時間:2018年12月
合作單位:華中農(nóng)業(yè)大學(xué)作物遺傳改良國家重點實驗室
研究方法:基因組、比較基因組分析、遺傳圖譜構(gòu)建及QTL定位等
研究背景
棉花是世界上最大的天然紡織纖維來源,每年纖維產(chǎn)量的90%以上來自異源四倍體棉花(G. hirsutum和G. barbadense),它起源于大約1-2百萬年前的異源多樣化事件,隨后是數(shù)千年的不對稱亞基因組選擇。陸地棉(G. hirsutum)由于其高產(chǎn)而在全世界種植。G. barbadense以其卓越的纖維質(zhì)量而受贊譽(yù)。為了培育產(chǎn)生纖維更長,更細(xì)和更強(qiáng)韌的陸地棉(G. hirsutum)品種,一種合理有效的方法是將海島棉(G. barbadense)的優(yōu)良纖維性狀引入陸地棉?;蚪M學(xué)啟動的育種策略需要對基因組組織進(jìn)行詳細(xì)而有力的理解。
材料選擇
測序策略:PacBio RS II、BioNano和Illumina HiSeq
分析軟件:
基因組組裝:Canu (version 1.3)?,BLASR (version 1.3.1)?,BWA (version 0.7.10-r789)?,Pilon(version 1.22)?;光學(xué)圖譜糾錯:核酸內(nèi)切酶Nt.BssSI23,AutoDetect,IrysSolve;Hi-C染色體掛載:核酸內(nèi)切酶HindIII,BWA(version 0.7.10-r789),LACHESIS,HiC-Pro;基因組完整性評估:BUSCO評估;TE注釋:PASTEClassifier (version 1.0);RepeatMasker (version 4.0.6);基因預(yù)測和注釋:Genscan,Augustus (version 2.4),GlimmerHMM (version 3.0.4),GeneID (version 1.4)和SNAP (version 2006-07-28);GeMoMa (version 1.3.1);假基因組預(yù)測:GenBlastA (version 1.0.4),GeneWise (version 2.4.1);
著絲粒區(qū)域鑒定:blastn,SPSS software (version 17.0)?;基因組共線性分析:MUMmer (version 3.23),GATK(version 3.1.1),Samtools(version 0.1.19)?,MCScanX package;結(jié)構(gòu)變異檢測:MUMmer3 (version 3.23);二倍體棉重測序SNPs鑒定:Trimmomatic (version 0.32),BWA;包含168個個體的CSSLs群體SNPs鑒定:BWA,GATK和Samtools;CSSLs群體QTLs定位與表達(dá)分析:QTL IciMapping (version 4.0)?;TopHat2 (version 2.0.13)?;Cufflinks (version 2.2.1);STRUCTURE (version 2.3)?;TASSEL software (version 5.0)?;
主要研究結(jié)果
1、陸地棉Gossypium hirsutum和海島棉Gossypium barbadense基因組組裝及注釋
???本研究利用PacBio RSII、BioNano和Hi-C技術(shù)組裝出了高質(zhì)量的異源四倍體陸地棉G. hirsutum?acc. TM-1和海島棉G. barbadense?acc. 3-79基因組,最終組裝出26條染色體。在陸地棉和海島棉中分別預(yù)測到70,199和71,297個基因,PacBio數(shù)據(jù)分析顯示,在全基因組范圍內(nèi)陸地棉6mA甲基化占所有腺嘌呤的0.21%,海島棉占0.22%。且6mA甲基化修飾在每條染色體上是均勻分布的,而5mC修飾在染色體臂中分布較少(見圖1)。
圖1 陸地棉和海島棉染色體特征(含表觀遺傳標(biāo)記)
?2、陸地棉和海島棉染色體結(jié)構(gòu)變異分析
高質(zhì)量的參考基因組使研究人員直接通過比較基因組就能鑒定大的結(jié)構(gòu)變異成為可能。發(fā)現(xiàn)有170.2 Mb的基因組序列被鑒定為G. hirsutum和G. barbadense之間的倒位,包括120.4 Mb的At亞基因組和49.8 Mb的Dt在A06染色體中發(fā)現(xiàn)了4個大的倒位變異,包括3個染色體臂內(nèi)倒位(in1, in3 and in4)和1個染色體臂間倒位(in2),通過Hi-C數(shù)據(jù)在斷點周圍離散的染色質(zhì)相互作用(圖2a),突出了Hi-C技術(shù)識別大規(guī)模染色體重排的優(yōu)勢。光學(xué)圖(BioNano optical maps)譜數(shù)據(jù)進(jìn)一步支持了這些反轉(zhuǎn)斷裂位點(圖2b)。
圖2,陸地棉和海島棉A06染色體倒位鑒定
注:a,Hi-C互作熱圖;b,光學(xué)圖譜鑒定
3、漸滲系的構(gòu)建及QTLs定位
由陸地棉Emian22作為受體親本,海島棉3-79作為供體親本構(gòu)建包含168個個體的CSSLs群體,旨在引入有利的變異,如纖維質(zhì)量。QTL定位分析,共鑒定到5個性狀的13個QTLs位點,其中控制纖維長度位點2個,控制纖維強(qiáng)度位點4個,馬克隆值位點2個,纖維伸長率位點2個,纖維均勻度位點3個(圖3)。在這些QTLs位點中,9個位點之前未被鑒定出,通過檢驗13個QTLs中的基因表達(dá)水平,研究人員檢測到了235個在纖維發(fā)育過程中高度表達(dá)的基因,同時還整合了基因組變異數(shù)據(jù)來預(yù)測候選基因,而這些基因值得進(jìn)一步進(jìn)行精細(xì)定位以確認(rèn)對這些性狀具有重要影響的基因。
圖4,QTL定位結(jié)果展示
注:a,陸地棉纖維質(zhì)量相關(guān)QTLs分布(紅框);b,纖維長度相關(guān)QTL定位;c,纖維伸長率相關(guān)QTL定位
參考文獻(xiàn):Wang M, Tu L, Yuan D, et al. Reference genome sequences of two cultivated allotetraploid cottons, Gossypium hirsutum and Gossypium barbadense[J]. Nature genetics, 2019, 51(2): 224.
英文題目:Allele-defined genome of the autopolyploid?sugarcane Saccharum spontaneum L.
中文題目:同源多倍體(Saccharum spontaneum L.)基因組等位基因鑒定
發(fā)表期刊:Nature Genetics
發(fā)表時間:2018年10月
合作單位:福建農(nóng)林大學(xué)基因組與生物技術(shù)研究中心
研究方法:基因組、比較基因組、群體遺傳進(jìn)化等
研究背景
栽培甘蔗(Saccharum?spp., Poaceae)相比其它主要作物與眾不同,因為它是多倍體種間雜種,具有極其復(fù)雜的基因組。目前甘蔗是世界上收獲量最大的第一作物和第五價值作物(FAO, 2012),甘蔗種植在90多個國家的約2600萬公頃土地上,每年收獲18.3億公噸,總產(chǎn)值接近570億美元,提供80%的糖和40%的乙醇,作為主要的糖和生物燃料原料作物。雖然現(xiàn)代甘蔗栽培種的高含糖量來源于栽培種“S. officinarum”,但是它們的耐寒性,抗病性和再生能力更多的來自于與含糖量低的親本“S. spontaneum”的回交中。Saccharum officinarum品種(2n= 8x=80),在莖中積累蔗糖達(dá)到干重的50%,但是易受生物和非生物脅迫的影響。自然狀態(tài)記錄下染色體數(shù)目最少的S. spontaneum種質(zhì)(2n = 5x =?40)已經(jīng)不存在了,然而,由另一種八倍體SES208單倍化形成的S.spontaneum“AP85-441”(1n = 4x = 32)為甘蔗染色體的原型的組裝提供了基礎(chǔ)。本研究闡釋了最重要,復(fù)雜基因組的基因組作物S. spontaneum遺傳藍(lán)圖和進(jìn)化歷史。
材料選擇
S. spontaneum?AP85-441用于基因組測序;64份世界種質(zhì)資源庫材料進(jìn)行重測序;
測序策略:IlluminaHiSeq 2500和PacbioRSII
分析軟件:
基因組組裝:BAC文庫測序數(shù)據(jù)初步組裝(組裝軟件:ALLPATH-LG,SPAdes和SOAPdenovo2,保留組裝結(jié)果);PacBio測序數(shù)據(jù)糾錯組裝(CANUv1.5);Hi-C染色體分群(ALLHIC)。
基因注釋:重復(fù)序列預(yù)測(RepeatModeler),TE轉(zhuǎn)座子序列鑒定(RepeatMaskerversion 4.05;TEclassversion 2.1.3),串聯(lián)重復(fù)序列分析(TRFpackageversion 4.07);基因注釋(MAKER,JBrowse,Trinity,PASA,SNAP,GENEMARK,AUGUSTUS等);注釋完整性評估(BUSCOversion 3);
等位基因變異及優(yōu)勢表達(dá)分析:單倍體基因組構(gòu)建(nucmer,MUMmerpackage,Assemblytics);等位基因鑒定(MCScanX,GMAP);等位基因變異分析(nucmer,Assemblytics);等位基因的優(yōu)勢表達(dá)(Trimmomatic,HiSAT2)。
重測序群體結(jié)構(gòu)分析:序列比對與變異檢測(Bowtie2,SAMtools,BWA,GATK,SnpEffv3.6c);基因組遺傳多樣性評估(π,Tajima’sD);PCA分析(VCFtools,PLINK);系統(tǒng)發(fā)育分析(ML trees,PHYLIP package);群體結(jié)構(gòu)分析(Admixture,STRUCTURE);基因組重排區(qū)遺傳多樣性與不同多倍體種質(zhì)的基因組遺傳多樣性分析(π,SNP density,Tajima’sD)。
主要研究結(jié)果
1、基因組測序組裝
本研究中利用Illumina、PacBio和Hi-C技術(shù),加之本研究團(tuán)隊研發(fā)的算法ALLHIC成功的將甘蔗基因組組裝到染色體水平,最終組裝出32條染色體,錨定了2.9 Gb基因組,涵蓋了97%的基因含量。進(jìn)一步利用998,370 SNPs的高密度遺傳圖譜來驗證Hi-C組裝的結(jié)果,在兩種方法中,89%的contigs的順序是一致的。32條染色體中包含了8個同源組群和4組單倍型A,B,C和D(見圖1)。
圖1?S. spontaneum?AP85-441染色體與高粱染色體的比對
2、基礎(chǔ)染色體數(shù)目的減少
AP85-441基因組的組裝顯示了S. spontaneum的染色體數(shù)目從10降到8,而這與頻繁復(fù)制的古復(fù)制染色體對相關(guān),通過與高粱的聚類比對,發(fā)現(xiàn)高粱祖先5號染色體和8號染色體同源物經(jīng)歷了染色體裂變(見圖2)。SbChr05(A12)的祖先染色體斷裂分為兩個主要部分,即C5S(A12S)和C5L(A12L),分別轉(zhuǎn)移到SbChr06(A2)和SbChr07(A5)的祖先染色體;SbChr8(A11)的祖先染色體斷裂為兩個主要的部分,即C8S(A11S)和C8L(A11L),分別轉(zhuǎn)移到SbChr09(A6)和SbChr02(A7 + A9)的祖先染色體中。SbChr8和SsChr5之間及SbChr5和SsChr7之間近乎同源的短片段是在高粱與甘蔗分化前,高粱SSA形成于13.4 MYA同源基因的殘留物,同時發(fā)現(xiàn),S5中較小的SSA區(qū)域和S8中SSA的較大區(qū)域在重排的AP85-441基因組中也是保守的。
圖2 禾本科染色體數(shù)進(jìn)化(高粱n = 10到甘蔗n = 8)
3、S. spontaneum的起源與遺傳多樣性分析
研究中對世界種質(zhì)資源庫的64份S. spontaneum材料進(jìn)行重測序,發(fā)現(xiàn)其核苷酸多態(tài)性(π)[0.00021±0.000002 ]遠(yuǎn)遠(yuǎn)低于其它克隆繁殖的作物,如馬鈴薯,木薯,葡萄和柑。通過PCA主成分分析及群體結(jié)構(gòu)分析發(fā)現(xiàn)64份材料分為3個群,這些群體也受到自然和地理起源推斷的64份種質(zhì)的系統(tǒng)發(fā)育關(guān)系的支持(見圖3),group1來源于菲律賓,印度尼西亞和巴布亞新幾內(nèi)亞;group2和group3來源于印度,巴基斯坦和伊朗?;蚪M倍性在三組中差異很大(從6x-16x)。通過系統(tǒng)進(jìn)化分析發(fā)現(xiàn),表明不同的倍性可能是從祖先獨立進(jìn)化而來的。
圖3 64份甘蔗的群體結(jié)構(gòu)與進(jìn)化關(guān)系分析
參考文獻(xiàn):Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature genetics, 2018, 50(11): 1565.
百邁客成功案例四:異源四倍體野生花生Hi-C輔助基因組組裝
英文題目:Genome of an allotetraploid wild peanut?Arachis monticola: a de novo assemble.
中文題目:異源四倍體野生花生(Arachis monticola)基因組組裝
發(fā)表期刊:Giga Science
發(fā)表時間:2018年6月
合作單位:河南農(nóng)業(yè)大學(xué)
研究方法:基因組
研究背景
花生作為我國重要的經(jīng)濟(jì)作物,廣泛種植于熱帶和亞熱帶地區(qū),是提供重要的蛋白和油料的基礎(chǔ)。作為豆科的重要分支之一,花生屬一共包括30個二倍體品種,1個異源四倍體野生花生(A.monticola)和1個異源四倍體栽培花生(A.hypogaea)(2n = 4x = 40)。作為栽培花生農(nóng)藝性狀改良的重要野生資源供體,野生四倍體花生的基因組也一直是國內(nèi)外學(xué)者的研究熱點。成功破譯四倍體野生花生的基因組有助于科學(xué)家和育種專家對A.hypogaea起源及馴化過程的理解。
材料選擇
野生四倍體花生A.monticola;
測序策略:Illumina X-ten、PacbioRSII和Bionano
分析軟件:
基因組組裝:Canu v1.5,WTDBG,Pilon(v1.22),LoRDEC v0.5,F(xiàn)alcon v0.7,quickmerge v0.2,Allpath-LG v1.4,IrysView v2.5.1等;Hi-C染色體掛載:HiC-Pro,LACHESIS,Pbjerlly2,GapCloser,Pilon;基因組質(zhì)量評估:BUSCO pipeline v3.0.2?等。
主要研究結(jié)果
在這項研究中,研究人員以野生四倍體花生A.monticola為研究材料,進(jìn)行測序得到36X SMRT subreads + 76X HiC data + 210X Bionano Irys data + 50XIllumina reads的測序數(shù)據(jù),整合多種組裝工具的優(yōu)勢,最終獲得了參考基因組水平的高質(zhì)量組裝結(jié)果。又利用BioNano和Hi-C等方法對基因組進(jìn)行區(qū)分最終A.monticola得到的subgenome與祖先A基因組A.duranensis、祖先B基因組A.ipaensis之間的比較。并利用Hi-C數(shù)據(jù)對獲得的基因組進(jìn)行準(zhǔn)確性評估(見圖1)。
圖1 四倍體野生花生及兩個二倍體祖先熱圖評估
參考文獻(xiàn):Yin D, Ji C, Ma X, et al. Genome of an allotetraploid wild peanut Arachis monticola: a de novo assembly[J]. GigaScience, 2018, 7(6): giy066.
百邁客成功案例五:雜草稻Hi-C輔助基因組組裝
英文題目:Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game.
中文題目:群體基因組分析結(jié)合從頭組裝揭示雜草稻作為進(jìn)化演繹的起源
發(fā)表期刊:Molecular Plant
發(fā)表時間:2019年1月
合作單位:沈陽農(nóng)業(yè)大學(xué)
研究方法:基因組、比較基因組、群體遺傳進(jìn)化
研究背景
材料選擇
測序策略:Illumina Hiseq和PacBio
分析軟件:
303份水稻樣本的SLAF-seq結(jié)果SNP鑒定及系統(tǒng)發(fā)育樹構(gòu)建:SOAP,MEGA 7.0;遺傳多樣性分析:BioPerl;QTL定位:利用親本W(wǎng)R04-6和Qishanzhan構(gòu)建F8RIL群體,包含168個子代,通過SLAF-seq技術(shù)HighMap軟件構(gòu)建遺傳圖譜和QTL定位;群體進(jìn)化推演分析:DIYABC v. 2.0.3
基因組組裝:Canu,WTDBG,Pilon(v1.22),bwa;Hi-C染色體掛載:bwa,LACHESIS,Pbjerlly2;重復(fù)注釋:LTR-FINDER v1.05,MITE-Hunter,Repeat Scout v1.0.5,PILER-DF v2.4,PASTEClassifier,RepeatMasker v4.0.6;蛋白編碼基因預(yù)測及評估:Genscan,Augustus v2.4,GlimmerHMM v3.0.4,GeneID v1.4,SNAP(version 2006-07-28),GeMoMa v1.3.1,PASA v2.0.2,EVM v1.1.1;非編碼RNA預(yù)測:tRNAscan-SE v1.3.1;假基因預(yù)測:GenBlastA v1.0.4,GeneWise v2.4.1;基因功能和motif注釋:BLAST v2.2.31,BLAST2GO,InterProScan;結(jié)構(gòu)變異檢測:MUMmer4;共線性分析:MCScanX;選擇壓力分析:PAML v4;
主要研究結(jié)果
本研究利用來自中國和日本的48份WRAH種系,43份與WRAH共存的溫帶粳稻品種(Japonica-C),26份中國溫帶粳稻品種(Japonica-L),四個典型的栽培稻亞群(12tropical?japonica,145?indica/xian,,11?aus和?3?aromatic),15份來自中國南方中緯度雜草稻(WRSC)以及已經(jīng)發(fā)表了全基因組SNP信息的30份野生祖先種,基于SLAF-seq共檢測到122,777個高質(zhì)量SNP,叫做122k-SNP,用于系統(tǒng)發(fā)育樹的構(gòu)建(見圖1)。系統(tǒng)發(fā)育樹顯示,WRAH在系統(tǒng)發(fā)育上不同于Japonica-C,并且與溫帶粳稻Japonica-L群體形成了明確分群;WRSC種質(zhì)與秈稻種質(zhì)劃分到一個亞群。
圖1 系統(tǒng)發(fā)育樹分析
2、基因組測序、組裝及注釋
本研究基于單分子實時測序(SMRT)、高通量NGS和染色質(zhì)構(gòu)象捕獲(Hi-C)技術(shù)組裝了高質(zhì)量的亞洲高緯度雜草稻W(wǎng)R04-6基因組。最終組裝出染色體水平的高質(zhì)量基因組,包含12條染色體,大小為373.93Gb,contigN50位6.09Mb。最后,去除重復(fù)序列后通過從頭預(yù)測、同源預(yù)測和RNA-seq分析共獲得41,385個基因,有96.32%的基因在NR,KOG,,GO,KEGG,TrEMBL數(shù)據(jù)庫中得到了注釋(見圖3)。
圖3 Hi-C輔助基因組組裝熱圖
圖4 雜草稻基因組分布圖
3、比較基因組分析
利用OrthoMCL軟件檢測WR04-6、R498、Nipponbare和W1943(O. rufipogon)間核心的、非必須的和共有的基因家族。在WR04-6中鑒定到了909個擴(kuò)張的基因家族,并且通過通路分析顯示,這些基因在光合作用和呼吸作用中顯著富集(p<0.01),例如氧化磷酸化、光合作用和核糖體的KEGG途徑,考慮其可以作為遺傳改良的信號。以O. barthii作為外群構(gòu)建的進(jìn)化樹顯示W(wǎng)R04-6與粳稻祖先的分化時間估計在3,706ya(1,235ya-6,326ya),見圖4。
圖4 以O(shè). barthii作為外群構(gòu)建的最大似然樹
參考文獻(xiàn):Sun J, Ma D, Tang L, et al. Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game[J]. Molecular plant, 2019.
英文題目:A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Reveals the Genetic Basis of Its Forage and Papermaking Usage.
中文題目:染色體水平的基因組揭示構(gòu)樹飼用和造紙的遺傳基礎(chǔ)
發(fā)表期刊:Molecular Plant
發(fā)表時間:2019年2月
合作單位:中國科學(xué)院植物研究所北方資源植物重點實驗室
研究方法:基因組、比較基因組等
研究背景
構(gòu)樹(Broussonetia papyrifera,2n=2x=26)屬于??疲?em>Moraceae)構(gòu)屬(Broussonetia)多年生喬木,是我國鄉(xiāng)土樹種和先鋒植物,有悠久的歷史和文化,因為蔡倫用它造紙而世界聞名。構(gòu)樹的樹皮和樹干是造紙的優(yōu)質(zhì)原料,樹葉還可以作為蛋白飼料,其根、莖、葉、果實及種子均可入藥,富含黃酮類化合物;還是尾礦處理、生態(tài)綠化的理想樹種。然而,有關(guān)構(gòu)樹的研究主要集中于造紙、藥理藥化、養(yǎng)殖以及生態(tài)綠化等應(yīng)用方面,基礎(chǔ)生物學(xué)的研究很少。因此,構(gòu)樹栽培改良的第一步是獲得其遺傳背景,以便能更好地掌握其特有特征的生物學(xué)機(jī)制。
材料選擇
生長5年的雌性構(gòu)樹用于基因組測序;基因組測序的雌性構(gòu)樹與未知雄性構(gòu)樹雜交,獲得包含120個F1個體的CP群體用于構(gòu)建遺傳圖譜輔助基因組組裝。
測序策略:Illumina Hiseq和PacBio
分析軟件:
基因組組裝注釋:基因組組裝:?ALLPATHS-LG,SSPACE,GapCloser,BioNano Genomics?,RefAligner,LoRDEC,Pbjelly,MAPS,ALLMAPS;Hi-C輔助基因組組裝:Hi-C-Pro,LACHESIS;基因組注釋:RepeatMasker (version open-4.0.5),PILER (version 1.0),RepeatScout (version 1.0.5),LTR-finder,MITE,PASTEClassifer,PASA,AUGUSTUS(vertion 3.0.3),SNAP,GlimmerHMM,GeneID,Genescan (version 1.1.0),),Genewise (version 2.2.0),TopHat2 (version 2.0.7),Cufflinks (version 2.2.1),GeneMarkS-T (version 5.1),?Genewise;基因功能注釋,InterProScan (version 5),Hmmscan (HMMER, version 3.0),BLAST2GO (version 2.5),BLASTP,Trembl,tRNAscan-SE (version 1.3.1),Infernal cmscan (version 1.1.1)。
比較基因組分析:直系同源基因鑒定:?OrthoMCL (version 2.0);系統(tǒng)發(fā)育樹構(gòu)建與分化時間估算:?MUSCLE、Gblocks (version 0.91b)和RaxML(version 8),MCMCTREE評估分化時間;基因家族擴(kuò)張和收縮分析:CAFE(vertion 3.1);染色體共線性分析、4DTV檢測及Ks值計算:MCscan。
主要研究結(jié)果
1、基因組組裝與注釋
本研究使用Illumina HiSeq和PacBio Sequel測序平臺,用Hi-C、光學(xué)(BioNano Irys)和遺傳圖譜輔助,進(jìn)行雌性構(gòu)樹的基因組組裝。獲得染色體水平的高質(zhì)量構(gòu)樹基因組,其大小為386.93Mb,scaffold N50是29.48Mb,有99.25%(357.56Mb)的基因組被錨定在13條染色體上,Hi-C熱圖評估(見圖1)。一共預(yù)測了30,512個基因,98.09%與已知基因同源并且得到了功能上的注釋。
圖1 熱圖驗證Hi-C輔助染色體組裝
??圖2 構(gòu)樹染色體分布圖
2、構(gòu)樹的基因組進(jìn)化
利用14個物種(無油樟、亞麻、毛楊、棉花、擬南芥、黃瓜、苜蓿、桑樹、構(gòu)樹、桃樹、葡萄、番茄、毛竹和玉米)的單拷貝直系同源基因構(gòu)建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)構(gòu)樹與桑樹在同一分支,在大約3100萬年前與桑樹分開,與桃子的分化時間在大約7800萬年前(見圖3),該結(jié)果被4DTv的分析結(jié)果所證實,通過Ks分析進(jìn)一步得到證實。
圖3 14個物種的系統(tǒng)發(fā)育樹
根據(jù)已報道的雙子葉植物祖先和譜系特異性WGD,本研究推測,古六倍化始祖的21條染色體至少經(jīng)歷了11次大的染色體融和(cfus)和2次染色體裂變后產(chǎn)生了??浦虚g狀態(tài)的12條始祖染色體(見圖4)。??频氖甲嫒旧w的數(shù)目與葫蘆科和楊柳科是相似的,但是與薔薇科(n = 9)、豆科(n = 6)、錦葵科(n = 16)和茄科(n = 16)是不同的。進(jìn)化推演分析表明,構(gòu)樹的染色體是從??频?2條始祖染色體經(jīng)27次融合和28次裂變重構(gòu)的,說明構(gòu)樹基因組在進(jìn)化過程中至少經(jīng)歷了68次的染色體融合和裂變。
圖4 構(gòu)樹和其他6種植物基因組重構(gòu)的進(jìn)化推演
3、比較基因組分析
在構(gòu)樹基因組中共發(fā)現(xiàn)15,254個基因家族,與桑樹分化之后,有431個基因家族擴(kuò)張,230個基因家族收縮,表明在適應(yīng)進(jìn)化過程中,構(gòu)樹中更多的基因家族經(jīng)歷了擴(kuò)張而不是收縮。另外,與苜蓿、毛楊和甜橙相比,轉(zhuǎn)錄因子發(fā)生明顯收縮(58個家族共1,342個轉(zhuǎn)錄因子,占蛋白編碼基因的4.4%)。肌動蛋白在植物的生長和發(fā)育的很多層面扮演著重要的角色,在酵母和很多動物中,肌動蛋白僅被一個單基因編碼。在構(gòu)樹中僅發(fā)現(xiàn)4個肌動蛋白,少于藻類、小立碗蘚和無油樟。
參考文獻(xiàn):Peng X, Liu H, Chen P, et al. A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Provides New Insights into Its Forage and Papermaking Usage[J].?Molecular plant, 2019.

如果您的科研項目有問題,歡迎點擊下方按鈕咨詢我們,我們將免費為您設(shè)計文章方案。