三年成全在线观看大全,中文字幕av一区二区,免费看的黄色视频,中文字幕无码在线
 分類: 基因組測序

DNA在染色體上是高度折疊的,DNA與DNA片段之間不可避免的形成了高強(qiáng)度的交互作用。最先提出的3C(Chromosome Conformation Capture)技術(shù),用于測定染色體特定位點之間的交互作用。之后發(fā)展出了4C、5C?技術(shù),?分別用于測定染色體上一點到多點和多點與多點之間的交互作用。在2009年Job Dekker?又開發(fā)出了Hi-C?技術(shù)實現(xiàn)了全基因組范圍內(nèi)的染色體片段間的相互作用的捕獲。Hi-C主要將空間結(jié)構(gòu)臨近的DNA片段進(jìn)行交聯(lián),并將交聯(lián)的DNA片段富集,然后進(jìn)行高通量測序,對測序數(shù)據(jù)進(jìn)行分析即可揭示染色體片段間的交互信息。

目前Hi-C?技術(shù)主要的應(yīng)用方向是輔助基因組組裝和染色質(zhì)互作。輔助基因組組裝:在已有二代或三代組裝的Draft genome序列和已知染色體數(shù)目的前提下,利用Hi-C測序數(shù)據(jù)將Draft genome序列進(jìn)行染色體群組的劃分,并確定各序列在染色體上的順序和方向,使基因組組裝組裝水平提升到染色體水平。染色質(zhì)互作:利用Hi-C技術(shù)揭示基因組的一般結(jié)構(gòu)特征,包括從隔室(A/B Compartments)到拓?fù)湎嚓P(guān)結(jié)構(gòu)域(TAD),最后再到環(huán)(loop)的染色質(zhì)層級結(jié)構(gòu);還可以與ATAC-seq、ChIP-seq、DNase-seq和RNA-seq等數(shù)據(jù)進(jìn)行多組學(xué)分析揭示基因組三維結(jié)構(gòu)與表觀遺傳修飾、基因密度和轉(zhuǎn)錄活性之間的關(guān)系。

說到Hi-C輔助基因組組裝,百邁客還真是碩果累累呢!2018年就有三篇Nature Genetics和一篇Giga Science見刊,2019年才過去短短兩個多月,就已經(jīng)有2篇Molecular Plant見刊了,這成果真是可喜可賀??!

下面就聽小編娓娓道來吧~~

 

百邁客成功案例一:二倍體亞洲棉Hi-C輔助基因組組裝

英文題目:Sequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits.

中文題目:以更新的亞洲棉A基因組為基礎(chǔ)的243份二倍體棉花的重要農(nóng)藝性狀的研究

發(fā)表期刊:Nature Genetics

發(fā)表時間:2018年5月

合作單位:中國農(nóng)業(yè)科學(xué)院棉花研究所

研究方法:基因組、遺傳進(jìn)化和全基因組關(guān)聯(lián)分析等

研究背景

棉花是世界上最重要的商業(yè)作物之一,同時也是研究植物多倍化的有價值的資源。亞洲棉最可能在馬達(dá)加斯加或印度河流域文明(巴基斯坦摩亨佐達(dá)羅)開始馴化,隨后分散到非洲和亞洲一些地區(qū)。亞洲棉最初在1000多年前作為觀賞植物引入中國。當(dāng)在地方的農(nóng)業(yè)生態(tài)環(huán)境適應(yīng)和人類選擇影響的過程中,中國的Gossypium arboreum形成了獨特的地理種群,稱之為“sinense cotton”。雖然棉花種植者已經(jīng)基于RFLP和SSR markers構(gòu)建了各種遺傳圖譜,但是G. arboreumG. herbaceum優(yōu)良農(nóng)藝和經(jīng)濟(jì)性狀的基因尚未被鑒定。本研究中,利用了三代PacBio和Hi-C技術(shù),重新組裝了高質(zhì)量的亞洲棉基因組,分析了243份二倍體棉花種質(zhì)的群體結(jié)構(gòu)和基因組分化趨勢,同時確定了一些有助于棉花皮棉產(chǎn)量遺傳改良的候選基因位點。

材料選擇

基因組測序材料:二倍體G. arboreum栽培品種cultivar Shixiya1(SXY1);

自然群體材料選擇:243份棉花,包含230份亞洲棉G. arboretum和13份草棉G. herbaceum?[243份棉花選自國家種質(zhì)基因庫(中國安陽),種植在中國農(nóng)業(yè)科學(xué)院棉花研究所(ICR,CAAS)的溫室中],插入片段長度500 bp;測序深度6X;

遺傳群體材料選擇:親本(GA0146和GA0149),測序深度20X;2個混池(F2群體,有絨型和無絨型各20個子代),測序深度30X;

測序策略:PacBio RSII和Illumina HiSeq 2500分析軟件:基因組組裝(Canu和Falcon;Quiver;Pbjelly);TEs轉(zhuǎn)座元件注釋(RepeatScout,LTR-FINDER,MITE和PILER;Repbase;REPET;RepeatMasker);基因預(yù)測注釋(geMoMa;Augustus;PASA;EVidenceModeler;InterProScan)群體研究:比對注釋(BWA,Picard,GATK,ANNOVAR);群體結(jié)構(gòu)分析(FastTree,PHYLIP,STRUCTURE);連鎖不平衡分析(Haploview);遺傳多樣性分析(π,F(xiàn)st);全基因組關(guān)聯(lián)分析(EMMAX);

主要研究結(jié)果

1、亞洲棉基因組組裝更新

利用三代測序儀PacBio平臺共獲得142.54Gb的原始數(shù)據(jù),組裝1.71Gb亞洲棉基因組,Contig N50=1.1 Mb,最長的Contig為12.37 Mb。利用Hi-C技術(shù)獲得超過20×的reads,將組裝的1573Mb的數(shù)據(jù)定位到13條染色體上,與已經(jīng)發(fā)表的基因組相比,當(dāng)Hi-C數(shù)據(jù)比對到更新的基因組后,對角線外的不一致性明顯減少(見圖1a和b)。

圖1,Hi-C數(shù)據(jù)在兩版亞洲棉基因組上的比對
注:a. Hi-C數(shù)據(jù)與亞洲棉原基因組比對;b. Hi-C數(shù)據(jù)與亞洲棉更新基因組比對

2、二倍體棉花群體遺傳進(jìn)化分析

共計選擇了243份二倍體棉花材料:230份亞洲棉G. arboreum?(A2)?和13份草棉G. herbaceum?(A1),來自于中國南部(SC),長江(YZR)和黃河(YER)。以雷蒙德氏棉(G. raimondii)為外群,構(gòu)建系統(tǒng)發(fā)育樹顯示,G. herbaceum(草棉)和G. arboretum(亞洲棉)聚類成2個獨立的群(見圖2a和b)。G. arboretum(亞洲棉)進(jìn)一步又分為SC,YZR和YER三個群,顯示了地理分布模式的差異,進(jìn)而利用PCA分析支持這一結(jié)果(見圖2c)。

圖2 二倍體棉花的群體分層分析
注:a,243份二倍體棉花系統(tǒng)發(fā)育樹;b,243份二倍體棉花的群體結(jié)構(gòu)分析c,PCA主成分分析(中國亞洲棉的PCA分析;亞洲棉和草棉的PCA分析)

3、選擇性清除分析與GWAS分析

人工選擇在農(nóng)作物的馴化和遷徙的過程中具有重要的作用。群體結(jié)構(gòu)分析顯示當(dāng)K=4時,YER與SC和YZR明顯不同(圖2b,K=4)。通過兩兩群體間的選擇性清除分析(FST)鑒定出了分別覆蓋到59,53和51個顯著遺傳分化的區(qū)域。SC和YZR之間的21個分化的區(qū)域(約43.5 Mb?含有915個基因)在群體SC和YER之間是保守的(圖3a)。對來自不同環(huán)境下的11個重要性狀進(jìn)行全基因組關(guān)聯(lián)分析,在98個顯著關(guān)聯(lián)的信號中,其中25信號個來自基因區(qū)(外顯子或內(nèi)含子區(qū)),包含與形態(tài)性狀相關(guān)的8個信號區(qū),與產(chǎn)量性狀相關(guān)的6個信號區(qū),與油籽性狀相關(guān)的3個信號區(qū);剩余73個信號來自非編碼區(qū)。大部分農(nóng)藝性狀的GWAS關(guān)聯(lián)信號中顯示地理差異,如分支數(shù),開花期,鈴重和抗病性這些性狀定位在保守的基因區(qū)(圖4b)。

參考文獻(xiàn):Du X, Huang G, He S, et al. Resequencing of 243 diploid cotton accessions based on an updated A genome identifies the genetic basis of key agronomic traits[J]. Nature genetics, 2018, 50(6): 796.

 

百邁客成功案例二:異源四倍體陸地棉和海島棉Hi-C輔助基因組組裝

英文題目:Reference genome sequences of two cultivated allotetraploid cottons?Gossypium hirsutum?and?Gossypium barbadense.

中文題目:兩個異源四倍體陸地棉和海島棉基因組破譯

發(fā)表期刊:Nature Genetics

發(fā)表時間:2018年12月

合作單位:華中農(nóng)業(yè)大學(xué)作物遺傳改良國家重點實驗室

研究方法:基因組、比較基因組分析、遺傳圖譜構(gòu)建及QTL定位等

研究背景

棉花是世界上最大的天然紡織纖維來源,每年纖維產(chǎn)量的90%以上來自異源四倍體棉花(G. hirsutumG. barbadense),它起源于大約1-2百萬年前的異源多樣化事件,隨后是數(shù)千年的不對稱亞基因組選擇。陸地棉(G. hirsutum)由于其高產(chǎn)而在全世界種植。G. barbadense以其卓越的纖維質(zhì)量而受贊譽(yù)。為了培育產(chǎn)生纖維更長,更細(xì)和更強(qiáng)韌的陸地棉(G. hirsutum)品種,一種合理有效的方法是將海島棉(G. barbadense)的優(yōu)良纖維性狀引入陸地棉?;蚪M學(xué)啟動的育種策略需要對基因組組織進(jìn)行詳細(xì)而有力的理解。

材料選擇

高度純合陸地棉(TM-1)和海島棉(3-79),用于基因組測序;由陸地棉Emian22作為受體親本,海島棉3-79作為供體親本構(gòu)建包含168個個體的CSSLs群體,做重測序,平均深度?> 6×;13份二倍體D型基因組的棉花做重測序,平均深度?> 15×;Xuzhou 142與其自然突變體Xuzhou 142f1雜交,構(gòu)建F2群體,做混池測序。

測序策略:PacBio RS II、BioNano和Illumina HiSeq

分析軟件:

基因組組裝:Canu (version 1.3)?,BLASR (version 1.3.1)?,BWA (version 0.7.10-r789)?,Pilon(version 1.22)?;光學(xué)圖譜糾錯:核酸內(nèi)切酶Nt.BssSI23,AutoDetect,IrysSolve;Hi-C染色體掛載:核酸內(nèi)切酶HindIII,BWA(version 0.7.10-r789),LACHESIS,HiC-Pro;基因組完整性評估:BUSCO評估;TE注釋:PASTEClassifier (version 1.0);RepeatMasker (version 4.0.6);基因預(yù)測和注釋:Genscan,Augustus (version 2.4),GlimmerHMM (version 3.0.4),GeneID (version 1.4)和SNAP (version 2006-07-28);GeMoMa (version 1.3.1);假基因組預(yù)測:GenBlastA (version 1.0.4),GeneWise (version 2.4.1);

著絲粒區(qū)域鑒定:blastn,SPSS software (version 17.0)?;基因組共線性分析:MUMmer (version 3.23),GATK(version 3.1.1),Samtools(version 0.1.19)?,MCScanX package;結(jié)構(gòu)變異檢測:MUMmer3 (version 3.23);二倍體棉重測序SNPs鑒定:Trimmomatic (version 0.32),BWA;包含168個個體的CSSLs群體SNPs鑒定:BWA,GATK和Samtools;CSSLs群體QTLs定位與表達(dá)分析:QTL IciMapping (version 4.0)?;TopHat2 (version 2.0.13)?;Cufflinks (version 2.2.1);STRUCTURE (version 2.3)?;TASSEL software (version 5.0)?;

主要研究結(jié)果

1、陸地棉Gossypium hirsutum和海島棉Gossypium barbadense基因組組裝及注釋

???本研究利用PacBio RSII、BioNano和Hi-C技術(shù)組裝出了高質(zhì)量的異源四倍體陸地棉G. hirsutum?acc. TM-1和海島棉G. barbadense?acc. 3-79基因組,最終組裝出26條染色體。在陸地棉和海島棉中分別預(yù)測到70,199和71,297個基因,PacBio數(shù)據(jù)分析顯示,在全基因組范圍內(nèi)陸地棉6mA甲基化占所有腺嘌呤的0.21%,海島棉占0.22%。且6mA甲基化修飾在每條染色體上是均勻分布的,而5mC修飾在染色體臂中分布較少(見圖1)。

圖1 陸地棉和海島棉染色體特征(含表觀遺傳標(biāo)記)

?2、陸地棉和海島棉染色體結(jié)構(gòu)變異分析

高質(zhì)量的參考基因組使研究人員直接通過比較基因組就能鑒定大的結(jié)構(gòu)變異成為可能。發(fā)現(xiàn)有170.2 Mb的基因組序列被鑒定為G. hirsutumG. barbadense之間的倒位,包括120.4 Mb的At亞基因組和49.8 Mb的Dt在A06染色體中發(fā)現(xiàn)了4個大的倒位變異,包括3個染色體臂內(nèi)倒位(in1, in3 and in4)和1個染色體臂間倒位(in2),通過Hi-C數(shù)據(jù)在斷點周圍離散的染色質(zhì)相互作用(圖2a),突出了Hi-C技術(shù)識別大規(guī)模染色體重排的優(yōu)勢。光學(xué)圖(BioNano optical maps)譜數(shù)據(jù)進(jìn)一步支持了這些反轉(zhuǎn)斷裂位點(圖2b)。

 

圖2,陸地棉和海島棉A06染色體倒位鑒定
注:a,Hi-C互作熱圖;b,光學(xué)圖譜鑒定

3、漸滲系的構(gòu)建及QTLs定位

由陸地棉Emian22作為受體親本,海島棉3-79作為供體親本構(gòu)建包含168個個體的CSSLs群體,旨在引入有利的變異,如纖維質(zhì)量。QTL定位分析,共鑒定到5個性狀的13個QTLs位點,其中控制纖維長度位點2個,控制纖維強(qiáng)度位點4個,馬克隆值位點2個,纖維伸長率位點2個,纖維均勻度位點3個(圖3)。在這些QTLs位點中,9個位點之前未被鑒定出,通過檢驗13個QTLs中的基因表達(dá)水平,研究人員檢測到了235個在纖維發(fā)育過程中高度表達(dá)的基因,同時還整合了基因組變異數(shù)據(jù)來預(yù)測候選基因,而這些基因值得進(jìn)一步進(jìn)行精細(xì)定位以確認(rèn)對這些性狀具有重要影響的基因。

圖4,QTL定位結(jié)果展示
注:a,陸地棉纖維質(zhì)量相關(guān)QTLs分布(紅框);b,纖維長度相關(guān)QTL定位;c,纖維伸長率相關(guān)QTL定位

參考文獻(xiàn):Wang M, Tu L, Yuan D, et al. Reference genome sequences of two cultivated allotetraploid cottons, Gossypium hirsutum and Gossypium barbadense[J]. Nature genetics, 2019, 51(2): 224.

 

英文題目:Allele-defined genome of the autopolyploid?sugarcane Saccharum spontaneum L.

中文題目:同源多倍體(Saccharum spontaneum L.)基因組等位基因鑒定

發(fā)表期刊:Nature Genetics

發(fā)表時間:2018年10月

合作單位:福建農(nóng)林大學(xué)基因組與生物技術(shù)研究中心

研究方法:基因組、比較基因組、群體遺傳進(jìn)化等

研究背景

栽培甘蔗(Saccharum?spp., Poaceae)相比其它主要作物與眾不同,因為它是多倍體種間雜種,具有極其復(fù)雜的基因組。目前甘蔗是世界上收獲量最大的第一作物和第五價值作物(FAO, 2012),甘蔗種植在90多個國家的約2600萬公頃土地上,每年收獲18.3億公噸,總產(chǎn)值接近570億美元,提供80%的糖和40%的乙醇,作為主要的糖和生物燃料原料作物。雖然現(xiàn)代甘蔗栽培種的高含糖量來源于栽培種“S. officinarum”,但是它們的耐寒性,抗病性和再生能力更多的來自于與含糖量低的親本“S. spontaneum”的回交中。Saccharum officinarum品種(2n= 8x=80),在莖中積累蔗糖達(dá)到干重的50%,但是易受生物和非生物脅迫的影響。自然狀態(tài)記錄下染色體數(shù)目最少的S. spontaneum種質(zhì)(2n = 5x =?40)已經(jīng)不存在了,然而,由另一種八倍體SES208單倍化形成的S.spontaneum“AP85-441”(1n = 4x = 32)為甘蔗染色體的原型的組裝提供了基礎(chǔ)。本研究闡釋了最重要,復(fù)雜基因組的基因組作物S. spontaneum遺傳藍(lán)圖和進(jìn)化歷史。

材料選擇

S. spontaneum?AP85-441用于基因組測序;64份世界種質(zhì)資源庫材料進(jìn)行重測序;

測序策略:IlluminaHiSeq 2500和PacbioRSII

分析軟件:

基因組組裝:BAC文庫測序數(shù)據(jù)初步組裝(組裝軟件:ALLPATH-LG,SPAdes和SOAPdenovo2,保留組裝結(jié)果);PacBio測序數(shù)據(jù)糾錯組裝(CANUv1.5);Hi-C染色體分群(ALLHIC)。

基因注釋:重復(fù)序列預(yù)測(RepeatModeler),TE轉(zhuǎn)座子序列鑒定(RepeatMaskerversion 4.05;TEclassversion 2.1.3),串聯(lián)重復(fù)序列分析(TRFpackageversion 4.07);基因注釋(MAKER,JBrowse,Trinity,PASA,SNAP,GENEMARK,AUGUSTUS等);注釋完整性評估(BUSCOversion 3);

等位基因變異及優(yōu)勢表達(dá)分析:單倍體基因組構(gòu)建(nucmer,MUMmerpackage,Assemblytics);等位基因鑒定(MCScanX,GMAP);等位基因變異分析(nucmer,Assemblytics);等位基因的優(yōu)勢表達(dá)(Trimmomatic,HiSAT2)。

重測序群體結(jié)構(gòu)分析:序列比對與變異檢測(Bowtie2,SAMtools,BWA,GATK,SnpEffv3.6c);基因組遺傳多樣性評估(π,Tajima’sD);PCA分析(VCFtools,PLINK);系統(tǒng)發(fā)育分析(ML trees,PHYLIP package);群體結(jié)構(gòu)分析(Admixture,STRUCTURE);基因組重排區(qū)遺傳多樣性與不同多倍體種質(zhì)的基因組遺傳多樣性分析(π,SNP density,Tajima’sD)。

主要研究結(jié)果

1、基因組測序組裝

本研究中利用Illumina、PacBio和Hi-C技術(shù),加之本研究團(tuán)隊研發(fā)的算法ALLHIC成功的將甘蔗基因組組裝到染色體水平,最終組裝出32條染色體,錨定了2.9 Gb基因組,涵蓋了97%的基因含量。進(jìn)一步利用998,370 SNPs的高密度遺傳圖譜來驗證Hi-C組裝的結(jié)果,在兩種方法中,89%的contigs的順序是一致的。32條染色體中包含了8個同源組群和4組單倍型A,B,C和D(見圖1)。

圖1?S. spontaneum?AP85-441染色體與高粱染色體的比對

2、基礎(chǔ)染色體數(shù)目的減少

AP85-441基因組的組裝顯示了S. spontaneum的染色體數(shù)目從10降到8,而這與頻繁復(fù)制的古復(fù)制染色體對相關(guān),通過與高粱的聚類比對,發(fā)現(xiàn)高粱祖先5號染色體和8號染色體同源物經(jīng)歷了染色體裂變(見圖2)。SbChr05(A12)的祖先染色體斷裂分為兩個主要部分,即C5S(A12S)和C5L(A12L),分別轉(zhuǎn)移到SbChr06(A2)和SbChr07(A5)的祖先染色體;SbChr8(A11)的祖先染色體斷裂為兩個主要的部分,即C8S(A11S)和C8L(A11L),分別轉(zhuǎn)移到SbChr09(A6)和SbChr02(A7 + A9)的祖先染色體中。SbChr8和SsChr5之間及SbChr5和SsChr7之間近乎同源的短片段是在高粱與甘蔗分化前,高粱SSA形成于13.4 MYA同源基因的殘留物,同時發(fā)現(xiàn),S5中較小的SSA區(qū)域和S8中SSA的較大區(qū)域在重排的AP85-441基因組中也是保守的。

圖2 禾本科染色體數(shù)進(jìn)化(高粱n = 10到甘蔗n = 8)

 

3、S. spontaneum的起源與遺傳多樣性分析

研究中對世界種質(zhì)資源庫的64份S. spontaneum材料進(jìn)行重測序,發(fā)現(xiàn)其核苷酸多態(tài)性(π)[0.00021±0.000002 ]遠(yuǎn)遠(yuǎn)低于其它克隆繁殖的作物,如馬鈴薯,木薯,葡萄和柑。通過PCA主成分分析及群體結(jié)構(gòu)分析發(fā)現(xiàn)64份材料分為3個群,這些群體也受到自然和地理起源推斷的64份種質(zhì)的系統(tǒng)發(fā)育關(guān)系的支持(見圖3),group1來源于菲律賓,印度尼西亞和巴布亞新幾內(nèi)亞;group2和group3來源于印度,巴基斯坦和伊朗?;蚪M倍性在三組中差異很大(從6x-16x)。通過系統(tǒng)進(jìn)化分析發(fā)現(xiàn),表明不同的倍性可能是從祖先獨立進(jìn)化而來的。

圖3 64份甘蔗的群體結(jié)構(gòu)與進(jìn)化關(guān)系分析

參考文獻(xiàn):Zhang J, Zhang X, Tang H, et al. Allele-defined genome of the autopolyploid sugarcane Saccharum spontaneum L[J]. Nature genetics, 2018, 50(11): 1565.

 

百邁客成功案例四:異源四倍體野生花生Hi-C輔助基因組組裝

英文題目:Genome of an allotetraploid wild peanut?Arachis monticola: a de novo assemble.

中文題目:異源四倍體野生花生(Arachis monticola)基因組組裝

發(fā)表期刊:Giga Science

發(fā)表時間:2018年6月

合作單位:河南農(nóng)業(yè)大學(xué)

研究方法:基因組

研究背景

花生作為我國重要的經(jīng)濟(jì)作物,廣泛種植于熱帶和亞熱帶地區(qū),是提供重要的蛋白和油料的基礎(chǔ)。作為豆科的重要分支之一,花生屬一共包括30個二倍體品種,1個異源四倍體野生花生(A.monticola)和1個異源四倍體栽培花生(A.hypogaea)(2n = 4x = 40)。作為栽培花生農(nóng)藝性狀改良的重要野生資源供體,野生四倍體花生的基因組也一直是國內(nèi)外學(xué)者的研究熱點。成功破譯四倍體野生花生的基因組有助于科學(xué)家和育種專家對A.hypogaea起源及馴化過程的理解。

材料選擇

野生四倍體花生A.monticola;

測序策略:Illumina X-ten、PacbioRSII和Bionano

分析軟件:

基因組組裝:Canu v1.5,WTDBG,Pilon(v1.22),LoRDEC v0.5,F(xiàn)alcon v0.7,quickmerge v0.2,Allpath-LG v1.4,IrysView v2.5.1等;Hi-C染色體掛載:HiC-Pro,LACHESIS,Pbjerlly2,GapCloser,Pilon;基因組質(zhì)量評估:BUSCO pipeline v3.0.2?等。

主要研究結(jié)果

在這項研究中,研究人員以野生四倍體花生A.monticola為研究材料,進(jìn)行測序得到36X SMRT subreads + 76X HiC data + 210X Bionano Irys data + 50XIllumina reads的測序數(shù)據(jù),整合多種組裝工具的優(yōu)勢,最終獲得了參考基因組水平的高質(zhì)量組裝結(jié)果。又利用BioNano和Hi-C等方法對基因組進(jìn)行區(qū)分最終A.monticola得到的subgenome與祖先A基因組A.duranensis、祖先B基因組A.ipaensis之間的比較。并利用Hi-C數(shù)據(jù)對獲得的基因組進(jìn)行準(zhǔn)確性評估(見圖1)。

圖1 四倍體野生花生及兩個二倍體祖先熱圖評估

參考文獻(xiàn):Yin D, Ji C, Ma X, et al. Genome of an allotetraploid wild peanut Arachis monticola: a de novo assembly[J]. GigaScience, 2018, 7(6): giy066.

 

百邁客成功案例五:雜草稻Hi-C輔助基因組組裝

英文題目:Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game.

中文題目:群體基因組分析結(jié)合從頭組裝揭示雜草稻作為進(jìn)化演繹的起源

發(fā)表期刊:Molecular Plant

發(fā)表時間:2019年1月

合作單位:沈陽農(nóng)業(yè)大學(xué)

研究方法:基因組、比較基因組、群體遺傳進(jìn)化

研究背景

作物雜草化一直以來都是作物學(xué)領(lǐng)域的一大難題,尤其是雜草稻(Oryza sativa f. spontanea)的起源與演化,至今尚未破解。雜草稻具有很強(qiáng)的生態(tài)適應(yīng)性,但其種群獨特的遺傳特征是如何被逐漸塑造的還不是十分清楚。在氣候快速變化和人口增長的的世界,從雜草植物中分離基因?qū)μ岣弋a(chǎn)量和糧食安全至關(guān)重要。然而,由于缺乏雜草種的參考基因組,已經(jīng)極大地限制了優(yōu)良基因的發(fā)現(xiàn)和基因組結(jié)構(gòu)水平上水稻雜草性的遺傳基礎(chǔ)。由于亞洲高緯度雜草稻(WRAH)分布到水稻種植的北部邊界(N50°14′),并且經(jīng)歷了比栽培稻更強(qiáng)的選擇壓力,因此它強(qiáng)大的生態(tài)適應(yīng)性可以為栽培的遺傳優(yōu)良的水稻提供有利的基因資源。

材料選擇

研究中一共使用303個水稻樣本用于測序,包括從中國東北和日本北部的亞洲高緯度(WRAH)采樣的248種雜草稻中篩選出的48份核心資源;43份現(xiàn)在或已大面積種植的共存栽培稻商業(yè)品種(Japonica-C);26份從粳稻核心種質(zhì)資源中篩選的溫帶粳稻地方品種(Japonica-L),在本研究中Japonica-M代表Japonica-CJaponica-L的混合組。此外,本研究中還使用了145份秈型水稻樣本,包括136份地方品種和9份優(yōu)良品種以及其他3個典型的栽培稻亞群樣本(12份tropical?japonica、11份aus和3份aromatic)作者還收集了15份來自中國南方的中緯度雜草稻(WRSC)。

測序策略:Illumina Hiseq和PacBio

分析軟件:

303份水稻樣本的SLAF-seq結(jié)果SNP鑒定及系統(tǒng)發(fā)育樹構(gòu)建:SOAP,MEGA 7.0;遺傳多樣性分析:BioPerl;QTL定位:利用親本W(wǎng)R04-6和Qishanzhan構(gòu)建F8RIL群體,包含168個子代,通過SLAF-seq技術(shù)HighMap軟件構(gòu)建遺傳圖譜和QTL定位;群體進(jìn)化推演分析:DIYABC v. 2.0.3

基因組組裝:Canu,WTDBG,Pilon(v1.22),bwa;Hi-C染色體掛載:bwa,LACHESIS,Pbjerlly2;重復(fù)注釋:LTR-FINDER v1.05,MITE-Hunter,Repeat Scout v1.0.5,PILER-DF v2.4,PASTEClassifier,RepeatMasker v4.0.6;蛋白編碼基因預(yù)測及評估:Genscan,Augustus v2.4,GlimmerHMM v3.0.4,GeneID v1.4,SNAPversion 2006-07-28),GeMoMa v1.3.1,PASA v2.0.2,EVM v1.1.1;非編碼RNA預(yù)測:tRNAscan-SE v1.3.1;假基因預(yù)測:GenBlastA v1.0.4,GeneWise v2.4.1;基因功能和motif注釋:BLAST v2.2.31,BLAST2GO,InterProScan;結(jié)構(gòu)變異檢測:MUMmer4;共線性分析:MCScanX;選擇壓力分析:PAML v4;

主要研究結(jié)果

1、系統(tǒng)發(fā)育分析

本研究利用來自中國和日本的48份WRAH種系,43份與WRAH共存的溫帶粳稻品種(Japonica-C),26份中國溫帶粳稻品種(Japonica-L),四個典型的栽培稻亞群(12tropical?japonica,145?indica/xian,,11?aus和?3?aromatic),15份來自中國南方中緯度雜草稻(WRSC)以及已經(jīng)發(fā)表了全基因組SNP信息的30份野生祖先種,基于SLAF-seq共檢測到122,777個高質(zhì)量SNP,叫做122k-SNP,用于系統(tǒng)發(fā)育樹的構(gòu)建(見圖1)。系統(tǒng)發(fā)育樹顯示,WRAH在系統(tǒng)發(fā)育上不同于Japonica-C,并且與溫帶粳稻Japonica-L群體形成了明確分群;WRSC種質(zhì)與秈稻種質(zhì)劃分到一個亞群。

圖1 系統(tǒng)發(fā)育樹分析

2、基因組測序、組裝及注釋

本研究基于單分子實時測序(SMRT)、高通量NGS和染色質(zhì)構(gòu)象捕獲(Hi-C)技術(shù)組裝了高質(zhì)量的亞洲高緯度雜草稻W(wǎng)R04-6基因組。最終組裝出染色體水平的高質(zhì)量基因組,包含12條染色體,大小為373.93Gb,contigN50位6.09Mb。最后,去除重復(fù)序列后通過從頭預(yù)測、同源預(yù)測和RNA-seq分析共獲得41,385個基因,有96.32%的基因在NR,KOG,,GO,KEGG,TrEMBL數(shù)據(jù)庫中得到了注釋(見圖3)。

圖3 Hi-C輔助基因組組裝熱圖
圖4 雜草稻基因組分布圖

3、比較基因組分析

利用OrthoMCL軟件檢測WR04-6、R498、Nipponbare和W1943(O. rufipogon)間核心的、非必須的和共有的基因家族。在WR04-6中鑒定到了909個擴(kuò)張的基因家族,并且通過通路分析顯示,這些基因在光合作用和呼吸作用中顯著富集(p<0.01),例如氧化磷酸化、光合作用和核糖體的KEGG途徑,考慮其可以作為遺傳改良的信號。以O. barthii作為外群構(gòu)建的進(jìn)化樹顯示W(wǎng)R04-6與粳稻祖先的分化時間估計在3,706ya(1,235ya-6,326ya),見圖4。

圖4 以O(shè). barthii作為外群構(gòu)建的最大似然樹

參考文獻(xiàn):Sun J, Ma D, Tang L, et al. Population Genomic Analysis and De novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary Game[J]. Molecular plant, 2019.

 

英文題目:A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Reveals the Genetic Basis of Its Forage and Papermaking Usage.

中文題目:染色體水平的基因組揭示構(gòu)樹飼用和造紙的遺傳基礎(chǔ)

發(fā)表期刊:Molecular Plant

發(fā)表時間:2019年2月

合作單位:中國科學(xué)院植物研究所北方資源植物重點實驗室

研究方法:基因組、比較基因組等

研究背景

構(gòu)樹(Broussonetia papyrifera,2n=2x=26)屬于??疲?em>Moraceae)構(gòu)屬(Broussonetia)多年生喬木,是我國鄉(xiāng)土樹種和先鋒植物,有悠久的歷史和文化,因為蔡倫用它造紙而世界聞名。構(gòu)樹的樹皮和樹干是造紙的優(yōu)質(zhì)原料,樹葉還可以作為蛋白飼料,其根、莖、葉、果實及種子均可入藥,富含黃酮類化合物;還是尾礦處理、生態(tài)綠化的理想樹種。然而,有關(guān)構(gòu)樹的研究主要集中于造紙、藥理藥化、養(yǎng)殖以及生態(tài)綠化等應(yīng)用方面,基礎(chǔ)生物學(xué)的研究很少。因此,構(gòu)樹栽培改良的第一步是獲得其遺傳背景,以便能更好地掌握其特有特征的生物學(xué)機(jī)制。

材料選擇

生長5年的雌性構(gòu)樹用于基因組測序;基因組測序的雌性構(gòu)樹與未知雄性構(gòu)樹雜交,獲得包含120個F1個體的CP群體用于構(gòu)建遺傳圖譜輔助基因組組裝。

測序策略:Illumina Hiseq和PacBio

分析軟件:

基因組組裝注釋:基因組組裝:?ALLPATHS-LG,SSPACE,GapCloser,BioNano Genomics?,RefAligner,LoRDEC,Pbjelly,MAPS,ALLMAPS;Hi-C輔助基因組組裝:Hi-C-Pro,LACHESIS;基因組注釋:RepeatMasker (version open-4.0.5),PILER (version 1.0),RepeatScout (version 1.0.5),LTR-finder,MITE,PASTEClassifer,PASA,AUGUSTUS(vertion 3.0.3),SNAP,GlimmerHMM,GeneID,Genescan (version 1.1.0),),Genewise (version 2.2.0),TopHat2 (version 2.0.7),Cufflinks (version 2.2.1),GeneMarkS-T (version 5.1),?Genewise;基因功能注釋,InterProScan (version 5),Hmmscan (HMMER, version 3.0),BLAST2GO (version 2.5),BLASTP,Trembl,tRNAscan-SE (version 1.3.1),Infernal cmscan (version 1.1.1)。

比較基因組分析:直系同源基因鑒定:?OrthoMCL (version 2.0);系統(tǒng)發(fā)育樹構(gòu)建與分化時間估算:?MUSCLE、Gblocks (version 0.91b)和RaxML(version 8),MCMCTREE評估分化時間;基因家族擴(kuò)張和收縮分析:CAFE(vertion 3.1);染色體共線性分析、4DTV檢測及Ks值計算:MCscan。

主要研究結(jié)果

1、基因組組裝與注釋

本研究使用Illumina HiSeq和PacBio Sequel測序平臺,用Hi-C、光學(xué)(BioNano Irys)和遺傳圖譜輔助,進(jìn)行雌性構(gòu)樹的基因組組裝。獲得染色體水平的高質(zhì)量構(gòu)樹基因組,其大小為386.93Mb,scaffold N50是29.48Mb,有99.25%(357.56Mb)的基因組被錨定在13條染色體上,Hi-C熱圖評估(見圖1)。一共預(yù)測了30,512個基因,98.09%與已知基因同源并且得到了功能上的注釋。

圖1 熱圖驗證Hi-C輔助染色體組裝

??圖2 構(gòu)樹染色體分布圖

2、構(gòu)樹的基因組進(jìn)化

利用14個物種(無油樟、亞麻、毛楊、棉花、擬南芥、黃瓜、苜蓿、桑樹、構(gòu)樹、桃樹、葡萄、番茄、毛竹和玉米)的單拷貝直系同源基因構(gòu)建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)構(gòu)樹與桑樹在同一分支,在大約3100萬年前與桑樹分開,與桃子的分化時間在大約7800萬年前(見圖3),該結(jié)果被4DTv的分析結(jié)果所證實,通過Ks分析進(jìn)一步得到證實。

圖3 14個物種的系統(tǒng)發(fā)育樹

根據(jù)已報道的雙子葉植物祖先和譜系特異性WGD,本研究推測,古六倍化始祖的21條染色體至少經(jīng)歷了11次大的染色體融和(cfus)和2次染色體裂變后產(chǎn)生了??浦虚g狀態(tài)的12條始祖染色體(見圖4)。??频氖甲嫒旧w的數(shù)目與葫蘆科和楊柳科是相似的,但是與薔薇科(n = 9)、豆科(n = 6)、錦葵科(n = 16)和茄科(n = 16)是不同的。進(jìn)化推演分析表明,構(gòu)樹的染色體是從??频?2條始祖染色體經(jīng)27次融合和28次裂變重構(gòu)的,說明構(gòu)樹基因組在進(jìn)化過程中至少經(jīng)歷了68次的染色體融合和裂變。

圖4 構(gòu)樹和其他6種植物基因組重構(gòu)的進(jìn)化推演

3、比較基因組分析

在構(gòu)樹基因組中共發(fā)現(xiàn)15,254個基因家族,與桑樹分化之后,有431個基因家族擴(kuò)張,230個基因家族收縮,表明在適應(yīng)進(jìn)化過程中,構(gòu)樹中更多的基因家族經(jīng)歷了擴(kuò)張而不是收縮。另外,與苜蓿、毛楊和甜橙相比,轉(zhuǎn)錄因子發(fā)生明顯收縮(58個家族共1,342個轉(zhuǎn)錄因子,占蛋白編碼基因的4.4%)。肌動蛋白在植物的生長和發(fā)育的很多層面扮演著重要的角色,在酵母和很多動物中,肌動蛋白僅被一個單基因編碼。在構(gòu)樹中僅發(fā)現(xiàn)4個肌動蛋白,少于藻類、小立碗蘚和無油樟。

參考文獻(xiàn):Peng X, Liu H, Chen P, et al. A Chromosome-Scale Genome Assembly of Paper Mulberry (Broussonetia papyrifera) Provides New Insights into Its Forage and Papermaking Usage[J].?Molecular plant, 2019.

百邁客HI-C研究優(yōu)勢百邁客自2016年初以來,利用Hi-C技術(shù)進(jìn)行染色體水平的基因組組裝及染色體三維構(gòu)象的研究,成功開發(fā)出六堿基、四堿基酶切方案,組裝、互作輕松拿下。在植物Hi-C領(lǐng)域,更是邁進(jìn)了一大步,在同行還只能處理植物活體樣本的時候,我們已經(jīng)可以輕松“駕馭”離體枝條。迄今為止,保持著近100%的建庫成功率,完成近300個物種,近千個文庫構(gòu)建;文庫含酶切位點的有效數(shù)據(jù)比例最高達(dá)93%以上,平均比例高達(dá)68%。另外百邁客在Hi-C技術(shù)方面獲得一個專利和兩個軟著。Nature Genetics、Nature Communications、Molecular Plant等一大波Hi-C的高分文章在審稿或已接收的路上,后續(xù)會陸續(xù)與大家見面,敬請期待~~

如果您的科研項目有問題,歡迎點擊下方按鈕咨詢我們,我們將免費為您設(shè)計文章方案。

 

推薦文章