文章名稱:Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology
發(fā)表期刊:中國農(nóng)業(yè)科學
發(fā)表時間:2020年11月
影響因子:2.302
研究背景
蜜蜂球囊菌(Ascosphaeraapis,簡稱球囊菌)是專性侵染蜜蜂幼蟲的致死性真菌病原,引發(fā)的白堊病是長期危害養(yǎng)蜂生產(chǎn)的頑疾,不僅可導致蜜蜂幼蟲的大量死亡,還能導致成年蜜蜂數(shù)量的銳減以及蜂群群勢和蜂產(chǎn)品產(chǎn)量的驟降。目前,球囊菌的基因組注釋信息尚不完善,高質(zhì)量參考轉(zhuǎn)錄組匱乏,嚴重限制了球囊菌的組學和分子生物學研究。
材料和方法
球囊菌菌株由福建農(nóng)林大學動物科學學院(蜂學學院)蜜蜂保護實驗室分離、純化和保存。純化得到的純凈菌絲樣品和孢子樣品經(jīng)液氮速凍后迅速轉(zhuǎn)移到-80℃超低溫冰箱保存?zhèn)溆?。利用納米孔長讀段測序技術對球囊菌的純化菌絲(Aam)和純化孢子(Aas)分別進行測序,將高質(zhì)量的三代測序數(shù)據(jù)混合后用于構(gòu)建全長轉(zhuǎn)錄組,并通過比對主流數(shù)據(jù)庫進行功能注釋,同時對球囊菌的長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行鑒定和分析。
結(jié)果
1、納米孔測序數(shù)據(jù)質(zhì)控
球囊菌菌絲和孢子的納米孔測序分別得到6321704和6259727條原始讀段,N50分別達到1094和1157bp,平均長度分別為992和1047bp,長的長度分別為9421和13060bp(表1)。來源于Aam和Aas的原始讀段的長度分布介于1-10kb以上,其中分布reads數(shù)多的長度均為1kb(圖1-A、1-B);原始讀段的Q值分布介于Q6-Q15,分布reads數(shù)多的質(zhì)量值分別為Q9和Q11(圖1-C、1-D)。

圖1球囊菌菌絲和孢子納米孔長讀段測序的原始讀段長度和質(zhì)量值分布Fig.1Lengthandqualitydistributionofrawreadsgeneratedfromnanoporelong-readsequencingofA.apismyceliumandspore
2、全長轉(zhuǎn)錄本的鑒定和分析
進一步過濾冗余全長有效讀段,分別得到9859和16795條非冗余全長轉(zhuǎn)錄本,N50分別達到1482和1658bp,平均長度分別達到1187和1303bp,長的長度分別為6472和6815bp(表2);上述非冗余全長轉(zhuǎn)錄本的長度介于1-7kb,其中分布在1kb的全長轉(zhuǎn)錄本數(shù)多。進一步對Aam和Aas的非冗余全長轉(zhuǎn)錄本進行Venn分析,結(jié)果顯示有6512個非冗余全長轉(zhuǎn)錄本為菌絲和孢子所共有,分別有3347和10283個非冗余全長轉(zhuǎn)錄本為二者特有(圖2-A)。

圖2球囊菌菌絲和孢子全長轉(zhuǎn)錄本的Venn分析(A)、全長轉(zhuǎn)錄本的Nr數(shù)據(jù)庫注釋(B)Fig.2Vennanalysisoffull-lengthtranscriptsinA.apismyceliumandspore(A)、Nrdatabaseannotationoffull-lengthtranscripts(B)
3、全長轉(zhuǎn)錄本的數(shù)據(jù)庫注釋
在球囊菌菌絲和孢子中共鑒定出20142條全長轉(zhuǎn)錄本,數(shù)據(jù)庫注釋結(jié)果顯示,分別有20809、11151、17723、12164、11340和9833全長轉(zhuǎn)錄本可注釋到Nr、KOG、eggNOG、Pfam、GO和KEGG數(shù)據(jù)庫。注釋全長轉(zhuǎn)錄本數(shù)量多的物種是球囊菌、Polytolypahystricis和莢膜組織胞漿菌(Histoplasmacapsulatum)(圖2-B)
4、lncRNA的鑒定及分析
利用CPC、CPAT、CNCI和Pfam4種方法依次鑒定出1906、1682、750和648條lncRNA,四者的交集為648個(圖3-A);其中基因間區(qū)lncRNA(longintergenicRNA,lincRNA)、反義鏈lncRNA(anti-senselncRNA)和正義鏈lncRNA(senselncRNA)的數(shù)量分別為480、119和49個(圖3-B)。

圖 3 球囊菌 lncRNA 的數(shù)量(A)和種類(B) Fig. 3 Number (A) and type (B) of A. apis lncRNAs
總結(jié)
構(gòu)建和注釋了球囊菌的高質(zhì)量全長轉(zhuǎn)錄組,為探究球囊菌轉(zhuǎn)錄組的復雜性、完善參考基因組的序列和功能注釋信息以及深入開展球囊菌可變剪接體的功能研究提供了關鍵依據(jù)。
深度挖掘數(shù)據(jù)和拓展
同期作者利用納米孔全長轉(zhuǎn)錄組測序數(shù)據(jù)對蜜蜂球囊菌(Ascosphaeraapis)和另一蜜蜂真菌病原東方蜜蜂微孢子蟲(Nosemaceranae)的現(xiàn)有參考基因組在結(jié)構(gòu)功能注釋上進行了較好的完善,同時也對基因的可變剪接(alternativesplicing,AS)和可變多聚腺苷酸化(alternativepolyadenylation,APA)進行解析。通過gffcompare軟件將全長轉(zhuǎn)錄本與參考基因組注釋的轉(zhuǎn)錄本進行比較,對基因組注釋基因的非編碼區(qū)向上游或下游延伸,修正基因的邊界。利用MISA軟件鑒定長度在500bp以上的全長轉(zhuǎn)錄本的簡單重復序列(simplesequencerepeat,SSR)位點信息。使用Blast工具將鑒定到的新基因和新轉(zhuǎn)錄本比對Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,從而獲得功能注釋。通過Astalavista軟件鑒定基因的AS事件類型,統(tǒng)計分析可變剪切的結(jié)果。采用TAPISpipeline對基因的APA位點進行鑒定,得到APA的位點信息。分別利用CPC、CNCI、CPAT、Pfam4種方法對長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行預測,取四者的交集作為高可信度的lncRNA。研究結(jié)果較好地優(yōu)化了現(xiàn)有的東方蜜蜂微孢子蟲和蜜蜂球囊菌參考基因組已注釋基因的結(jié)構(gòu)和功能注釋信息,并補充和注釋了大量參考基因組未注釋的新基因和新轉(zhuǎn)錄本,同時也為其他真菌的AS和APA研究提供了有益的思路和方法借鑒。