一级婬片A片AAAA毛片A级,欧美激情婬妇A片AAA毛多水多 http://specchiomagico.net BioMarker Mon, 03 May 2032 15:33:46 +0000 zh-CN hourly 1 https://wordpress.org/?v=4.7.22 http://specchiomagico.net/wp-content/uploads/2020/04/cropped-512-512-32x32.png Nanopore – 百邁客生物 http://specchiomagico.net 32 32 利用第三代納米孔長讀段測序技術構建和注釋蜜蜂球囊菌的全長轉錄組 http://specchiomagico.net/archives/29804 Fri, 17 Mar 2023 12:58:48 +0000 http://specchiomagico.net/?p=29804 文章名稱:Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology

發(fā)表期刊:中國農(nóng)業(yè)科學

發(fā)表時間:2020年11月

影響因子:2.302

研究背景

蜜蜂球囊菌(Ascosphaeraapis,簡稱球囊菌)是專性侵染蜜蜂幼蟲的致死性真菌病原,引發(fā)的白堊病是長期危害養(yǎng)蜂生產(chǎn)的頑疾,不僅可導致蜜蜂幼蟲的大量死亡,還能導致成年蜜蜂數(shù)量的銳減以及蜂群群勢和蜂產(chǎn)品產(chǎn)量的驟降。目前,球囊菌的基因組注釋信息尚不完善,高質(zhì)量參考轉錄組匱乏,嚴重限制了球囊菌的組學和分子生物學研究。

材料和方法

球囊菌菌株由福建農(nóng)林大學動物科學學院(蜂學學院)蜜蜂保護實驗室分離、純化和保存。純化得到的純凈菌絲樣品和孢子樣品經(jīng)液氮速凍后迅速轉移到-80℃超低溫冰箱保存?zhèn)溆?。利用納米孔長讀段測序技術對球囊菌的純化菌絲(Aam)和純化孢子(Aas)分別進行測序,將高質(zhì)量的三代測序數(shù)據(jù)混合后用于構建全長轉錄組,并通過比對主流數(shù)據(jù)庫進行功能注釋,同時對球囊菌的長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行鑒定和分析。

結果

1、納米孔測序數(shù)據(jù)質(zhì)控

球囊菌菌絲和孢子的納米孔測序分別得到6321704和6259727條原始讀段,N50分別達到1094和1157bp,平均長度分別為992和1047bp,長的長度分別為9421和13060bp(表1)。來源于Aam和Aas的原始讀段的長度分布介于1-10kb以上,其中分布reads數(shù)多的長度均為1kb(圖1-A、1-B);原始讀段的Q值分布介于Q6-Q15,分布reads數(shù)多的質(zhì)量值分別為Q9和Q11(圖1-C、1-D)。

圖1球囊菌菌絲和孢子納米孔長讀段測序的原始讀段長度和質(zhì)量值分布Fig.1Lengthandqualitydistributionofrawreadsgeneratedfromnanoporelong-readsequencingofA.apismyceliumandspore

2、全長轉錄本的鑒定和分析

進一步過濾冗余全長有效讀段,分別得到9859和16795條非冗余全長轉錄本,N50分別達到1482和1658bp,平均長度分別達到1187和1303bp,長的長度分別為6472和6815bp(表2);上述非冗余全長轉錄本的長度介于1-7kb,其中分布在1kb的全長轉錄本數(shù)多。進一步對Aam和Aas的非冗余全長轉錄本進行Venn分析,結果顯示有6512個非冗余全長轉錄本為菌絲和孢子所共有,分別有3347和10283個非冗余全長轉錄本為二者特有(圖2-A)。

圖2球囊菌菌絲和孢子全長轉錄本的Venn分析(A)、全長轉錄本的Nr數(shù)據(jù)庫注釋(B)Fig.2Vennanalysisoffull-lengthtranscriptsinA.apismyceliumandspore(A)、Nrdatabaseannotationoffull-lengthtranscripts(B)

3、全長轉錄本的數(shù)據(jù)庫注釋

在球囊菌菌絲和孢子中共鑒定出20142條全長轉錄本,數(shù)據(jù)庫注釋結果顯示,分別有20809、11151、17723、12164、11340和9833全長轉錄本可注釋到Nr、KOG、eggNOG、Pfam、GO和KEGG數(shù)據(jù)庫。注釋全長轉錄本數(shù)量多的物種是球囊菌、Polytolypahystricis和莢膜組織胞漿菌(Histoplasmacapsulatum)(圖2-B)

4、lncRNA的鑒定及分析

利用CPC、CPAT、CNCI和Pfam4種方法依次鑒定出1906、1682、750和648條lncRNA,四者的交集為648個(圖3-A);其中基因間區(qū)lncRNA(longintergenicRNA,lincRNA)、反義鏈lncRNA(anti-senselncRNA)和正義鏈lncRNA(senselncRNA)的數(shù)量分別為480、119和49個(圖3-B)。

圖 3 球囊菌 lncRNA 的數(shù)量(A)和種類(B) Fig. 3 Number (A) and type (B) of A. apis lncRNAs

總結

構建和注釋了球囊菌的高質(zhì)量全長轉錄組,為探究球囊菌轉錄組的復雜性、完善參考基因組的序列和功能注釋信息以及深入開展球囊菌可變剪接體的功能研究提供了關鍵依據(jù)。

深度挖掘數(shù)據(jù)和拓展

同期作者利用納米孔全長轉錄組測序數(shù)據(jù)對蜜蜂球囊菌(Ascosphaeraapis)和另一蜜蜂真菌病原東方蜜蜂微孢子蟲(Nosemaceranae)的現(xiàn)有參考基因組在結構功能注釋上進行了較好的完善,同時也對基因的可變剪接(alternativesplicing,AS)和可變多聚腺苷酸化(alternativepolyadenylation,APA)進行解析。通過gffcompare軟件將全長轉錄本與參考基因組注釋的轉錄本進行比較,對基因組注釋基因的非編碼區(qū)向上游或下游延伸,修正基因的邊界。利用MISA軟件鑒定長度在500bp以上的全長轉錄本的簡單重復序列(simplesequencerepeat,SSR)位點信息。使用Blast工具將鑒定到的新基因和新轉錄本比對Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,從而獲得功能注釋。通過Astalavista軟件鑒定基因的AS事件類型,統(tǒng)計分析可變剪切的結果。采用TAPISpipeline對基因的APA位點進行鑒定,得到APA的位點信息。分別利用CPC、CNCI、CPAT、Pfam4種方法對長鏈非編碼RNA(longnon-codingRNA,lncRNA)進行預測,取四者的交集作為高可信度的lncRNA。研究結果較好地優(yōu)化了現(xiàn)有的東方蜜蜂微孢子蟲和蜜蜂球囊菌參考基因組已注釋基因的結構和功能注釋信息,并補充和注釋了大量參考基因組未注釋的新基因和新轉錄本,同時也為其他真菌的AS和APA研究提供了有益的思路和方法借鑒。

]]>
ONT全長轉錄組測序揭示了精神疾病風險基因CACNA1C的復雜剪接特征 http://specchiomagico.net/archives/18358 Wed, 22 Jul 2020 06:24:59 +0000 http://specchiomagico.net/?p=18358  

英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain

發(fā)表雜志:Mol. Psychiatry,2020年1月

影響因子:11.973

研究背景

在人腦中,與精神分裂癥相關的基因組區(qū)域富集了在神經(jīng)發(fā)育過程中表現(xiàn)出不同異構體使用的基因,RNA剪接是將遺傳變異與精神疾病聯(lián)系起來的關鍵機制。剪接圖譜在大腦中特別多樣,很難準確識別和量化。短讀長RNA-Seq方法不能準確地重建和定量大多數(shù)轉錄物和蛋白質(zhì)異構體,為解決這一挑戰(zhàn),本文將long-range PCR和nanopore全長轉錄組測序與一種新的生信分析流程結合。

CACNA1C是一種精神危險基因,編碼電壓門控鈣通道CaV1.2,CACNA1C基因很大而且很復雜,至少有50個注釋外顯子和31個預測的轉錄本。它的大小和復雜性使得用標準的基因表達方法準確鑒定和量化轉錄本變得極其困難,本文在人腦中鑒定了CACNA1C的全長編碼轉錄本,識別了38個新的外顯子和241個新的轉錄本,對異構體多樣性的詳細了解對于將精神病學基因組發(fā)現(xiàn)轉化為病理生理學見解和新的精神藥理靶點至關重要。

研究方法

樣本:來自利伯腦發(fā)育研究所儲存庫的三名成年捐贈者的尸檢腦組織(提取小腦、紋狀體、背外側前額葉皮質(zhì)、扣帶回、枕葉和頂葉皮質(zhì)的RNA,并進行逆轉錄)
測序方法:使用PCR擴增CACNA1C全長CDS,使用MinION進行測序
分析流程:https://github.com/twrze/TAQLoRe

研究結果

1、CACNA1C有很多外顯子和異構體

由于CACNA1C的復雜性,本文使用了兩種互補的方法來鑒定轉錄本:外顯子水平和剪接位點水平的分析,分析流程見補充圖2。該方法共鑒定了251種存在于人腦中獨特的CACNA1C轉錄異構體,其中241種是新的,包括使用新的外顯子,新的剪接位點和連接。

補充圖2

在CACNA1C基因座內(nèi)總共注釋了39個潛在的新外顯子,其中38個在至少2個人或組織中被識別,并在每個文庫中得到至少5條nanopore reads的支持(圖2A)。通過PCR和Sanger測序確認了新的外顯子與其周圍的注釋外顯子之間的剪接連接,從而驗證了四個新的外顯子。這種新的外顯子的成功驗證提供了很高的可信度,即通過納米孔測序鑒定的新的外顯子是真實的,并且被整合到CACNA1C轉錄本中。表達量最高的10條轉錄本中,有9條是新的且其中有8條被預測保持CACNA1C閱讀框架,這表明這些最豐富的新轉錄本中有一些編碼功能不同的蛋白質(zhì)異構體(圖2B,C)。這些結果表明,新的CACNA1C轉錄本表達豐富,數(shù)量也很多,目前的注釋缺少許多最豐富的CACNA1C轉錄本。

圖2

通過設置轉錄本的高置信度,在6個大腦區(qū)域確定了90個高可信的CACNA1C轉錄本,包括7個先前注釋的(GENCODE V27)和83個新的(補充圖3)。7個新的高置信度轉錄本包含新的外顯子,而其余76個包含以前未描述的連接和連接組合。

補充圖3

上述外顯子水平的轉錄本鑒定方法為鑒定新的外顯子和表征全長轉錄本結構提供了穩(wěn)健和保守的手段。使用了更為保守的依賴于連接處無錯誤映射所支持的連接的識別,以及規(guī)范剪接位點的方法,確定了497個新的剪接位點,其中393個由至少10條reads支持,這些剪接位點,在篩選了至少24條reads支持的轉錄本后,鑒定了195個轉錄本,其中111個被預測為編碼的。

2、CACNA1C亞型在不同腦區(qū)的表達譜不同

小腦、紋狀體與皮質(zhì)等組織觀察到了CACNA1C轉錄本差異,但在不同個體之間的表達是相似的。在小腦中觀察到了明顯的轉錄本表達轉換;在小腦之外,ENST00000399641是主要的轉錄本,而在小腦中,ENST00000399641和CACNA1C n2199的表達水平相似。

圖3 C

3、預測新isoforms對CaV1.2蛋白模型的影響

CACNA1C編碼CaV1.2 的主要成孔亞基。鈣孔由24個跨膜重復序列組成,由細胞內(nèi)環(huán)連接成4個結構域(I-IV)(圖4A)。在我們鑒定的83個新的外顯子水平的轉錄本中,51個可能編碼功能性的CaV1.2通道?;疑娇虮硎拘碌?、框架內(nèi)的插入和刪除的位置(值表示包含每個isoforms的reads的平均比例)。使用兩種分析方法(外顯子水平和剪切連接水平)鑒定變體的情況,外顯子水平計數(shù)用于得出豐度(紅色文本);僅使用剪接位點水平方法鑒定的變體用藍色文本表示。包含三個微缺失的蛋白質(zhì)異構體的數(shù)量:(I)在I-II接頭中,(Ii)在IV4-5接頭中,以及(Iii)在IV3-4接頭中先前報道的微缺失(圖4B)。


圖4

總結

長讀長測序技術的快速發(fā)展為準確獲得轉錄多樣性提供了可能,因為每一條read都包含一個完整的轉錄本。這對于具有復雜模型的基因尤其重要。由于CACNA1C剪接產(chǎn)生的CaV1.2蛋白對現(xiàn)有的鈣通道阻滯劑表現(xiàn)出不同的敏感性,因此有可能選擇性地針對疾病相關的CACNA1C亞型和/或那些在大腦與外周差異表達的CACNA1C亞型,提供既更有效又更無外周副作用的新型精神藥物。綜上,這些觀察結果證明了ONT長讀長測序對于準確描述轉錄本結構和選擇性剪接的重要性。

參考文獻:
Clark Michael B,Wrzesinski Tomasz,Garcia Aintzane B et al. Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain.[J] .Mol. Psychiatry, 2020, 25: 37-47.

 

 

]]>
Nanopore測序數(shù)據(jù)展示|基因組 http://specchiomagico.net/archives/16587 Fri, 10 May 2019 10:44:33 +0000 http://specchiomagico.net/?p=16587 三代測序儀以其超長讀長的優(yōu)勢,在基因組組裝中備受青睞,目前廣泛應用的是PacBio三代單分子熒光測序和Nanopore三代單分子納米孔測序,因Nanopore測序讀長更長且通量高的特點,近幾年在基因組組裝應用中嶄露頭角,先后在Nature Biotechnology上發(fā)表了人的基因組、Plant cell上發(fā)表了野生番茄基因組、Nature Genetics上發(fā)表了高粱基因組等等,測序技術已相當成熟。

百邁客自2017年3月開啟ONT平臺研發(fā)立項,2018年8月又引進2臺高通量測序儀PromethION。截至目前,百邁客已經(jīng)構建將近200個物種的文庫,組裝近百個物種,從測序到分析已經(jīng)擁有相當豐富的經(jīng)驗。今天小編拿到了新鮮出爐的數(shù)據(jù)結果,忍不住和大家一起分享~~

ONT測序結果展示

作物類(部分)

林木類(部分)

動物(部分)

水產(chǎn)(部分)

中藥材(部分)

注:Species:分析的物種信息;SeqNum:各個長度范圍內(nèi)序列的數(shù)目;SumBase:指各個長度范圍內(nèi)序列的總長度;N50Len:reads N50長度;N90Len:readsN90長度;MeanLen:平均reads長度;MaxLen:最長reads長度;MeanQual:質(zhì)量值。

以上是總結的部分作物類、林木類、動物、水產(chǎn)和中藥材的下機數(shù)據(jù)結果展示,從以上的數(shù)據(jù)不難看出,平均raeds長度幾乎均在20Kb以上,最長reads高達1.6Mb以上(不同樣品DNA抽提難易程度不同,會造成一定的影響)。

基因組組裝結果展示

上表中最后一列MeanQual就是下機數(shù)據(jù)的質(zhì)量值,與堿基準確度的換算公式為:準確度 = 1-10^(-Q/10),經(jīng)計算? Nanopore下機數(shù)據(jù)單堿基的平均準確率約為86%左右,這樣經(jīng)過校正的數(shù)據(jù)再用Canu、SMARTdenovo、WTDBG等軟件進行基因組的組裝,再經(jīng)過二代數(shù)據(jù)的polish之后,堿基的準確度可達到99.99%以上呢!

廢話少說,直接上組裝結果!

植物(部分)

動物(部分)

注:Species:分析的物種信息;CtgNum:contig數(shù)目;CtgLen:contig總長度;CtgN50:contigN50長度;CtgN90:contigN90長度;CtgMax:最長contig長度;GC(%):GC含量占比。
從上表中的組裝結果展示,ContigN50平均達到了Mb級別(測序深度對Contig深度也是有一定影響的)Contig N50最長高達26.9Mb。組裝連續(xù)性還不錯,但是基因完整性怎樣呢?不妨再看一下評估結果吧~組裝評估結果
BUSCO評估結果(部分物種)

注:物種:分析的物種信息;Complete BUSCOs:找到完整基因數(shù);Complete and single-copy BUSCOs:其中單拷貝基因數(shù);Complete and duplicated BUSCOs:多拷貝基因數(shù);Fragmented BUSCOs:預測不完整基因數(shù);Missing BUSCOs:沒有預測出來的基因數(shù)。

評估結果顯示基因完整度均在90%以上??!說明Nanopore數(shù)據(jù)的組裝連續(xù)性和完整性都是非常好的,是值得廣大科研工作者信賴的哦!

百邁客ONT平臺發(fā)展歷程

百邁客在Nanopore測序方面已經(jīng)積累了大量的經(jīng)驗,也是中國大陸一家全部通過PromthION/GridION平臺及DNA/RNA樣本官方認證的公司!若您對Nanopore測序感興趣,可隨時與我們聯(lián)系,我們將為您提供免費的方案,助力您的科研之行!

?

 

]]>
淺談基因測序 http://specchiomagico.net/archives/16378 Tue, 16 Apr 2019 10:03:11 +0000 http://specchiomagico.net/?p=16378 1869年,F(xiàn)riedrich Miescher 發(fā)現(xiàn)和分離出脫氧核糖核苷酸,人類對生命的研究開始向分子方向啟程,自1977年Sanger發(fā)明了雙脫氧鏈終止法一代測序技術開始,涌現(xiàn)出GS FLX,Solexa,SOLID,PicBio,Oxford Nanopore Technologies(ONT)多種測序平臺,測序技術發(fā)展至今已有四十多年時間,而每次新興平臺的出現(xiàn),無不顯現(xiàn)出生物領域人類文明的又一次大的向前邁步,是人類科技奮斗史中的里程碑。而也正是一代代測序技術的發(fā)展和我們一代代科學家不斷努力,測序技術被不斷應用于基因組組裝,功能基因定位,進化分析,育種以及精準醫(yī)療等領域,為人類的生活帶來一次次便利的同時也帶來了無限可能。

第一代測序技術應用了Sanger雙脫氧鏈終止法,它的讀長可達1000bp,準確率高達99.999%,但測序前需要對特定區(qū)段進行引物設計且通量低,很難應用于組學方面的研究?;诖颂攸c,涌現(xiàn)出二代測序技術,它主要的特點為短讀長,高通量。以Illumina?Solexa為例,它采用邊測序邊合成的方法,首先利用超聲波將DNA打斷成200-500bp小片段文庫,加接頭后DNA片段隨機附著于flowcell表面,經(jīng)過橋式PCR擴增形成“DNA簇”,實現(xiàn)堿基信號強度放大,采用邊合成邊測序的方法,進行全基因組全面,準確的測序。

 

圖1? NovaSeq 6000

百邁客目前主要應用2017年Illumina平臺推出的NovaSeq系列測序平臺,雖然較于以往二代平臺,它的測序質(zhì)量值、Index的測序識別、DNA文庫冗余度等指標有了明顯提升,但無法克服短讀長的reads 在基因組組裝、大片段變異檢測、轉錄組、甲基化等研究中的短板。基于此情況,三代測序應運而生。

目前,三代測序的主要代表為PicBio和Oxford Nanopore Technologies(ONT)這兩大測序平臺,以ONT平臺為例,它主要通過電信號識別堿基序列,單鏈DNA/RNA通過納米孔(蛋白通道),不同的堿基會形成特征性離子電流變化信號,通過對這些信號的檢測,得到堿基序列,完成測序。與二代相比,它主要的優(yōu)勢在于在測序前,不會將DNA樣品打斷成小片段,而是對我們提取DNA進行片段篩選,一般篩選10-100kb大小的片段進行測序,這就對我們前期提取的DNA質(zhì)量要求較高。

三代測序技術的出現(xiàn),為復雜的多倍體基因組組裝帶來了福音。這種基因組由于倍性多,重復序列高,而二代測序局限于產(chǎn)生單倍體間的共有序列,導致此類物種的研究停滯不前。而ONT平臺由于其長讀長,跨越完整的重復區(qū)域,大的結構變異也得到了很好的檢測。eg. 納米孔測序技術可以將T-DNA結構的分辨率提升到36Kb。這就意味著,在這類突變體功能基因定位時,可以直接通過測序的方式,找到材料中T-DNA的插入位置及拷貝數(shù),從而找到功能基因,實現(xiàn)基因克隆。和傳統(tǒng)的圖位克隆比較,將大大縮短定位周期。傳統(tǒng)的自然突變材料,如果已經(jīng)有定位區(qū)段,應用二代檢測SNP,ONT檢測SV的方式可以讓我們的功能基因克隆方面事半功倍。

在基因組組裝方面,以生菜基因組為例,短讀長的二代測序組裝出21116個contig和2.21G的基因組,基于ONT平臺,則產(chǎn)生了1169個contig,contig N50為7.3Mb。二代數(shù)據(jù)產(chǎn)生了想較于三代數(shù)據(jù)18倍的contig用于基因組組裝,而三代平臺讀長的優(yōu)勢為高質(zhì)量的基因組組裝提供了便利。在轉錄組研究方面,ONT平臺的長讀長可以為我們帶來完整的轉錄異構體的序列,且可做定量研究,這將避免二代短片段數(shù)據(jù)在轉錄本組裝上的錯誤,更好的應用于轉錄組研究。

ONT做為新一代測序技術,已逐漸廣泛應用于科學研究中。百邁客一直致力于ONT平臺的探索與研發(fā),目前擁有MinION、GridION X5、PromethION等多種3代測序平臺,且積累了豐富的項目經(jīng)驗,期待你的加入哦~

如果您的科研項目有問題,歡迎點擊下方按鈕咨詢我們,我們將免費為您設計文章方案。

 

]]>
Nanopore全長轉錄組測序數(shù)據(jù)評估 http://specchiomagico.net/archives/15694 Tue, 05 Mar 2019 03:00:18 +0000 http://specchiomagico.net/?p=15694 納米孔測序是一種由ONT(Oxford Nanopore Technology)研發(fā)的單分子測序技術。在轉錄組測序應用中,相比于傳統(tǒng)二代RNA-Seq測序技術,長讀長的納米孔RNA測序可以在無需打斷的條件下得到全長序列并進行定量,同時直接RNA測序還可以檢測多種堿基修飾,且測序無需擴增,減少了PCR過程引入的堿基偏倚。

ONT測序技術在多個方面具有非常強悍的優(yōu)勢,然而,一份合格的下機數(shù)據(jù)才是科研成功研究的基礎,為保證得到準確的轉錄組結構分析和定量結果,需要對測序數(shù)據(jù)進行嚴格的質(zhì)控評估。那么我們今天一起學習一下《Summary statistics and QC tutorial》,ONT官方提供的對測序raw?data進行全面數(shù)據(jù)質(zhì)控的教程。

介紹

此教程適用于指導對單個nanopore測序芯片產(chǎn)出的數(shù)據(jù)進行評估,評估的主要內(nèi)容如下所示:

1、測序產(chǎn)出(測序得到多少reads,多大數(shù)據(jù)量);

2、測序數(shù)據(jù)的質(zhì)量和長度分布;

3、如果加入了barcode序列進行混樣建庫,測序數(shù)據(jù)在不同樣品的分布。

準備

1、下載教程相關文件

直接到教程的github頁面下載或通過git命令下載:

git clone https://github.com/nanoporetech/ont_tutorial_basicqc.git QCTutorial

后續(xù)分析會用到下載目錄QCTutorial下的以下內(nèi)容:

1) Nanopore_SumStatQC_Tutorial.Rmd:Rmarkdown文件,說明文檔和用于執(zhí)行分析。

2) RawData/lambda_sequencing_summary.txt.bz2:示例文件,Guppy對測序reads進行堿基識別生成的相關信息文件。

3) RawData/lambda_barcoding_summary.txt.bz2:示例文件,用于區(qū)分混樣建庫時多樣品的barcode信息。

4) environment.yaml:指定分析所需軟件包及計算環(huán)境的文本文檔。

5) config.yaml:配置文件,用于指定分析所需的輸入。

2、創(chuàng)建Conda環(huán)境

為了方便執(zhí)行分析所需軟件包及其依賴的安裝及管理,需要安裝Conda并創(chuàng)建用于此分析的環(huán)境。

1)?Conda安裝(Python3版本的Miniconda):

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

bash Miniconda3-latest-Linux-x86_64.sh

bash

2)?創(chuàng)建Conda環(huán)境及環(huán)境激活(第1步中下載的environmen.yaml用于環(huán)境初始化):

創(chuàng)建環(huán)境:conda env create –name BasicQC –file environment.yaml

激活環(huán)境:source activate BasicQC

分析

進行分析之前需先準備配置文件,通過修改準備步驟下載的config.yaml中相應的參數(shù)來完成,需要修改的內(nèi)容主要有:

 

修改內(nèi)容 內(nèi)容說明 示例
inputFile 堿基識別的統(tǒng)計信息 sequencing_summary.txt.bz2
barcodeFile 混樣建庫的barcode信息 barcoding_summary.txt.bz2
basecaller 堿基識別工具 Guppy 2.1.3
flowcellId 測序芯片ID FAK41706

注:如為單樣品測序無barcode信息,則barcodeFile部分為空。

準備完成后,可以通過命令行啟動分析,命令如下:

R –slave -e ‘rmarkdown::render(“Nanopore_SumStatQC_Tutorial.Rmd”, “html_document”)’

如果習慣圖形界面操作,也可以通過Rstudio載入Rmarkdown文件執(zhí)行分析:

結果

上述分析完成后會將分析結果存放至HTML文件,可用瀏覽器打開Nanopore_SumStatQC_Tutorial.html進行查看。對單個芯片約1M reads分析的部分結果展示如下(結果來自教程,堿基識別使用Guppy 2.1.3,根據(jù)識別序列的平均質(zhì)量值將其分為pass和fail兩種,質(zhì)量值閾值默認為7):

1、總結

展示了數(shù)據(jù)產(chǎn)出的總體情況(如下圖,本分析中堿基識別共產(chǎn)出991,715條序列,14.6G堿基)。

2、質(zhì)量長度

此部分展示了對識別出的所有序列質(zhì)量和長度信息的統(tǒng)計結果,包括序列的平均長度,N50和平均質(zhì)量,序列長度和質(zhì)量的密度分布等

3、測序表現(xiàn)

此部分內(nèi)容統(tǒng)計了隨測序時間變化,測序累計序列個數(shù),堿基個數(shù),測序速度和有效工作納米孔數(shù)等指標的變化情況。

4、區(qū)分混樣

在加入barcode序列混樣測序的情況下,barcode識別區(qū)分的結果展示如下,包括barcode識別效率,區(qū)分的文庫個數(shù)及每個文庫中序列個數(shù)占比和長度信息等。

上面展示了分析結果的部分內(nèi)容,更多細節(jié)的內(nèi)容可參考底部的相關鏈接。

rawdata的質(zhì)控評估只是整個信息分析的開始,是為了對測序數(shù)據(jù)有大致的整體認識,以便更好地指導后續(xù)分析。然而分析的每個環(huán)節(jié)都會對最終結果產(chǎn)生影響,因此每一步的處理都要深思熟慮。

小編寄語

2018年8月牛津納米孔公司與百邁客公司達成長期合作,擁有MinION、GridION X5和PromethION三種型號全套納米孔測序儀。至今已積累了豐富的項目經(jīng)驗,全長轉錄組成功案例先后發(fā)表在《Plant Biotechnol J》、《J Hazard Mater》、《Biotechnol Biofuels》、《Sci Rep》、《Fish & Shellfish Immunology》等國際知名期刊,已發(fā)表文章研究物種分別有楊樹、吳松草、風箏果、甘薯、野生甘薯、兔子、跳甲、花羔紅點鮭和辣椒,覆蓋領域分別為林木、哺乳動物、昆蟲、水產(chǎn)和作物等。

如您有任何全長轉錄組等相關問題,歡迎點擊下方按鈕,我們將竭盡全力為您答疑、設計方案和提供高分成功案例等。

 

參考鏈接:

https@//github.com/nanoporetech/ont_tutorial_basicqc(@換成:)

https@//community.nanoporetech.com/knowledge/bioinformatics(@換成:)

 

]]>