Nanopore全長(zhǎng)轉(zhuǎn)錄組測(cè)序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測(cè)序平臺(tái)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,無(wú)需打斷,可直接讀取從5’端到3’端polyA尾的高質(zhì)量單個(gè)RNA分子全長(zhǎng)序列,準(zhǔn)確辨別二代測(cè)序無(wú)法準(zhǔn)確識(shí)別的可變剪接(AS)、可選擇性多聚腺苷酸化(APA)、融合基因、lncRNA及其靶基因,且可同時(shí)對(duì)基因和轉(zhuǎn)錄本進(jìn)行定量分析。ONT全長(zhǎng)轉(zhuǎn)錄組已廣泛應(yīng)用于生長(zhǎng)發(fā)育、環(huán)境適應(yīng)、免疫互作、突變表型、腫瘤的發(fā)生、臨床診斷和藥物研發(fā)等領(lǐng)域。
數(shù)據(jù)質(zhì)控
Nanopore測(cè)序通過(guò)對(duì)納米孔的DNA/RNA單分子實(shí)時(shí)電信號(hào)進(jìn)行檢測(cè)及對(duì)應(yīng),即可計(jì)算獲得相應(yīng)堿基的類(lèi)型,完成序列的實(shí)時(shí)測(cè)定。為確保Reads有足夠高的質(zhì)量,將下機(jī)原始測(cè)序數(shù)據(jù)(raw reads)過(guò)濾短片段和低質(zhì)量的reads,得到clean reads,保證后續(xù)分析的準(zhǔn)確性。
將reads按照長(zhǎng)度從短到長(zhǎng)排序,平均分成10份,每一份統(tǒng)計(jì)reads的平均質(zhì)量值,平均質(zhì)量值Q10以上,即為合格。
可變剪切鑒定
基因轉(zhuǎn)錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產(chǎn)生不同的成熟mRNA,從而翻譯為不同的蛋白質(zhì),構(gòu)成生物性狀的多樣性。這種轉(zhuǎn)錄后的mRNA加工過(guò)程稱(chēng)為可變剪接或選擇性剪接(Alternative splicing)??勺兗艚宇?lèi)型包括:(A) 外顯子跳躍;(B) 可變轉(zhuǎn)錄終止位點(diǎn);(C) 可變外顯子;(D)可變轉(zhuǎn)錄起始位點(diǎn);(E) 內(nèi)含子保留。
轉(zhuǎn)錄因子預(yù)測(cè)
轉(zhuǎn)錄因子(Transcription factor)是指能夠結(jié)合在某基因上游特異核苷酸序列上的蛋白質(zhì),這些蛋白質(zhì)可以調(diào)控RNA聚合酶與DNA模板的結(jié)合,從而調(diào)控基因的轉(zhuǎn)錄。
可選擇性多聚腺苷酸化分析-APA
多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價(jià)鏈結(jié)。在蛋白質(zhì)生物合成的過(guò)程中,這是產(chǎn)生準(zhǔn)備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機(jī)制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護(hù)mRNA,免受核酸外切酶攻擊,并且對(duì)轉(zhuǎn)錄終結(jié)、將mRNA從細(xì)胞核輸出及進(jìn)行翻譯都十分重要。前體mRNA的可變多聚腺苷酸化(alternative polyadenylation, APA)可能貢獻(xiàn)于轉(zhuǎn)錄組多樣性,基因組的編碼能力以及基因的調(diào)控機(jī)制。
差異表達(dá)基因/轉(zhuǎn)錄本KEGG通路富集
KEGG Pathway富集可以系統(tǒng)分析基因產(chǎn)物在細(xì)胞中的代謝途徑以及這些基因產(chǎn)物功能,把基因/轉(zhuǎn)錄本及表達(dá)信息作為一個(gè)整體的網(wǎng)絡(luò)進(jìn)行研究。
差異表達(dá)基因/轉(zhuǎn)錄本GO注釋
GO注釋分類(lèi)統(tǒng)計(jì)圖,直觀的反映出在生物過(guò)程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function),可深入挖掘差異基因和轉(zhuǎn)錄本的功能及所在的信號(hào)通路,篩選關(guān)注差異基因和轉(zhuǎn)錄本注釋情況。
nanopore全長(zhǎng)轉(zhuǎn)錄組測(cè)序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測(cè)序平臺(tái)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序。全長(zhǎng)轉(zhuǎn)錄組測(cè)序,無(wú)需打斷,基于三代測(cè)序平臺(tái)直接獲取轉(zhuǎn)錄本的5ˊ到3ˊ高質(zhì)量全長(zhǎng)序列,可準(zhǔn)確識(shí)別可變剪接、基因融合、可選擇性多聚腺苷酸化APA、等位基因特異性表達(dá)等轉(zhuǎn)錄本結(jié)構(gòu)方面變異?;趎anopore三代測(cè)序平臺(tái)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,除了可準(zhǔn)確鑒別上述轉(zhuǎn)錄本結(jié)構(gòu)變異,還可實(shí)現(xiàn)轉(zhuǎn)錄本(mRNA或polyA+ lncRNA)表達(dá)水平準(zhǔn)確定量。
主要在于測(cè)序平臺(tái)不同。Illumina平臺(tái)主要是PE150測(cè)序,構(gòu)建小片段文庫(kù),為邊合成邊測(cè)序,在建庫(kù)以及測(cè)序過(guò)程中均需要PCR擴(kuò)增,主要用于基因水平表達(dá)定量及差異表達(dá)分析。nanopre全長(zhǎng)轉(zhuǎn)錄組測(cè)序無(wú)需打斷RNA,可獲得5’到3’全長(zhǎng)轉(zhuǎn)錄本序列及其表達(dá)信息,對(duì)片段大小無(wú)偏好,直接檢測(cè)電信號(hào)無(wú)需邊合成邊測(cè)序其GC偏好性遠(yuǎn)低于二代平臺(tái);同時(shí)由于無(wú)需拼接其在轉(zhuǎn)錄本層面的結(jié)構(gòu)變異檢測(cè)方面,比如可變剪接、融合基因、APA、新基因預(yù)測(cè)等具有絕對(duì)優(yōu)勢(shì)。
nanopore測(cè)序是基于電信號(hào)識(shí)別堿基序列的三代測(cè)序技術(shù)。DNA/RNA上不同堿基或帶不同修飾時(shí)化學(xué)性質(zhì)存在差異,當(dāng)單鏈分子通過(guò)納米孔通道時(shí),堿基造成的阻礙大小不一,因此會(huì)形成特征性離子電流變化信號(hào)。通過(guò)對(duì)這些信號(hào)進(jìn)行實(shí)時(shí)檢測(cè),即可獲得相應(yīng)堿基類(lèi)型,完成測(cè)序。目前通過(guò)“遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)”的復(fù)雜算法對(duì)堿基進(jìn)行判讀。
其特點(diǎn)為:
1)讀長(zhǎng)長(zhǎng):最長(zhǎng)讀長(zhǎng)能達(dá)到2 Mb以上級(jí)別[ref1],有利于可變剪接、基因融合等結(jié)構(gòu)變異檢測(cè);
2)低成本:相比其他三代測(cè)序技術(shù),ONT測(cè)序樣本處理極其簡(jiǎn)單,無(wú)需DNA聚合酶、連接酶和dNTPs,測(cè)序價(jià)格低;
3)測(cè)序過(guò)程不涉及PCR擴(kuò)增:避免二代測(cè)序中PCR擴(kuò)增可能引入的錯(cuò)誤或豐度變化;
4)direct-RNA/DNA方式建庫(kù),可直接獲取堿基修飾信息,如甲基化修飾5mC、6mA等,無(wú)須像二代測(cè)序需要經(jīng)過(guò)重硫酸鹽轉(zhuǎn)化或者免疫沉淀富集實(shí)驗(yàn);
5)低GC含量和堿基偏好性,針對(duì)RNA測(cè)序無(wú)需打斷,轉(zhuǎn)錄本水平表達(dá)定量更準(zhǔn)確。
二代轉(zhuǎn)錄組測(cè)序一般基于邊合成邊測(cè)序二代短讀長(zhǎng)的Illumina等平臺(tái),由于讀長(zhǎng)短(通常PE 150bp),需要進(jìn)行片斷化,打斷到200-300bp,測(cè)序過(guò)程需要DNA聚合酶和dNTPs以及進(jìn)行橋式PCR形成clusters放大熒光信號(hào)。
從二代轉(zhuǎn)錄組到nanopore三代全長(zhǎng)轉(zhuǎn)錄組,平臺(tái)升級(jí),技術(shù)革新,解決二代不能解決的問(wèn)題!
樣品類(lèi)型:PolyA RNA;樣品濃度:≥50 ng/ul(Qubit HS RNA定量); 樣品總量:cDNA-direct方式:>250ng(單次);總量>750 ng;(若提供總RNA,動(dòng)物樣品總量需按照PolyA RNA要求的100倍以上準(zhǔn)備); cDNA-PCR方式:>1μg(單次);總量>3μg 樣品純度:OD260/280 ~2.0,OD260/230在2.0-2.2 之間,260nm處有正常峰值;樣品無(wú)基因組DNA污染; 總RNA完整性: RIN值≥8.0,28S/18S≥1.0;圖譜基線無(wú)上抬;5S峰正常。
研究表明,生物學(xué)重復(fù)可提高所有基因表達(dá)水平鑒定的準(zhǔn)確性,而增加測(cè)序深度主要提高低表達(dá)基因表達(dá)量鑒定準(zhǔn)確性。每種處理?xiàng)l件下至少3個(gè)生物學(xué)重復(fù),當(dāng)研究樣本的生物學(xué)差異比較高,或者想研究更多的微小表達(dá)差異/fold change時(shí),需要更多生物學(xué)重復(fù)。也就是,比如對(duì)于個(gè)體差異較大的臨床樣本可以5-10個(gè)/組以上,而生物學(xué)差異較小的細(xì)胞系樣本則每組3個(gè)生物學(xué)重復(fù)以上即可。
使用三種納米孔建庫(kù)方式(PCR-cDNA、direct-cDNA和direct-RNA)數(shù)據(jù)和典型的短讀長(zhǎng)cDNA技術(shù)制備酵母轉(zhuǎn)錄組文庫(kù)進(jìn)行比較:
a)在所有情況下,納米孔長(zhǎng)讀長(zhǎng)數(shù)據(jù)集的GC偏好都比短讀長(zhǎng)數(shù)據(jù)集低。
b)與短讀長(zhǎng)測(cè)序數(shù)據(jù)相比,納米孔長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù)的長(zhǎng)度偏倚都較小。
綜上,nanopore全長(zhǎng)轉(zhuǎn)錄組測(cè)序受基因的GC含量和長(zhǎng)度偏好更小。
——圖片來(lái)源于Oxford Nanopore Technologies官方白皮書(shū)The value of full-length transcripts without bias。
ONT平臺(tái)目前我司下機(jī)數(shù)據(jù)堿基質(zhì)量Q值平均約在10左右,即堿基平均錯(cuò)誤率為10^(-1)=10%左右,但這是單堿基錯(cuò)誤率;
比對(duì)時(shí)用的是全長(zhǎng)序列和參考基因組或參考轉(zhuǎn)錄組進(jìn)行比對(duì),序列越長(zhǎng)比對(duì)時(shí)對(duì)于堿基錯(cuò)配度容忍越高,因此不會(huì)對(duì)表達(dá)定量有影響;
當(dāng)然由于比二代單堿基錯(cuò)誤率高,故而百邁客將SNP和InDel檢測(cè)分析內(nèi)容去除了,因此想從RNA水平檢測(cè)snp/indel的客戶(hù)可能考慮做二代轉(zhuǎn)錄組測(cè)序。其實(shí)目前不乏使用nanopore測(cè)序數(shù)據(jù)檢測(cè)snp的文章,如NC|nanopore全基因組重測(cè)序鑒定人類(lèi)基因組非同義新生SNP。
下面列舉了2個(gè)百邁客真實(shí)項(xiàng)目的數(shù)據(jù)質(zhì)量表,大家可以參考。
ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序一條reads即代表該轉(zhuǎn)錄本表達(dá)一次,而二代短reads需要非常多條才能覆蓋一個(gè)轉(zhuǎn)錄本;oxford nanopore公司官方白皮書(shū)中數(shù)據(jù)顯示:當(dāng)相同數(shù)量的轉(zhuǎn)錄本被覆蓋達(dá)95%時(shí),ONT所需要的reads數(shù)比Illumina約少50倍,所需要堿基數(shù)約少7倍。
故而2G ONT數(shù)據(jù)能達(dá)到6G Illumina檢測(cè)效果;
——圖片來(lái)源于Oxford Nanopore Technologies官方白皮書(shū)The value of full-length transcripts without bias。
針對(duì)同一樣本進(jìn)行的飽和度分析顯示,2G ONT全長(zhǎng)除表達(dá)量極低的(CPM<1)其他轉(zhuǎn)錄本都達(dá)到飽和了,和二代Illumina 6G除表達(dá)量極低FPKM<1外的基因檢測(cè)也飽和了,且前者更早趨向飽和;
目前已發(fā)表的人鼠文獻(xiàn)中ONT全長(zhǎng)測(cè)序的數(shù)據(jù)量大多也不到2G,比如文獻(xiàn)精讀|nanopore全長(zhǎng)轉(zhuǎn)錄組測(cè)序揭示B細(xì)胞表面受體廣泛的轉(zhuǎn)錄變異。
應(yīng)用于慢性淋巴細(xì)胞白血病
英文題目:Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns
發(fā)表雜志:Nature Communications
發(fā)表時(shí)間:2020.03
影響因子:11.878
使用Nanopore分別對(duì)慢性淋巴細(xì)胞白血?。–LL)分離的SF3B1野生型,突變株和正常組B細(xì)胞樣本進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序?;贜anopore的全長(zhǎng)cDNA測(cè)序可以檢測(cè)轉(zhuǎn)錄本全長(zhǎng),通過(guò)算法優(yōu)化,相對(duì)于短序列,可以更準(zhǔn)確的檢測(cè)3′末端剪切,內(nèi)含子保留,分辨生產(chǎn)性異構(gòu)體和非生產(chǎn)性異構(gòu)體。該研究證明了Nanopore測(cè)序在癌癥和可變剪切中的潛在使用價(jià)值。
應(yīng)用于精神疾病
英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發(fā)表雜志:Mol. Psychiatry
發(fā)表時(shí)間:2020.03
影響因子:11.973
在人腦中,與精神分裂癥相關(guān)的基因組區(qū)域富集了在神經(jīng)發(fā)育過(guò)程中表現(xiàn)出不同異構(gòu)體使用的基因,本文通過(guò)ONT全長(zhǎng)轉(zhuǎn)錄組技術(shù)研究疾病相關(guān)的CACNA1C亞型,有可能提供既有效又無(wú)外周副作用的新型精神藥物。
應(yīng)用于阿爾茨海默病
英文題目:Deleterious ABCA7 mutations and transcript rescue mechanisms in early onset Alzheimer’s disease
發(fā)表雜志:Acta Neuropathol
發(fā)表時(shí)間:2017.09
影響因子:14.251
阿爾茨海默病(AD)是一種起病隱匿的進(jìn)行性發(fā)展的神經(jīng)系統(tǒng)退行性疾病。本文研究了ABCA7 PTC突變?cè)谝粋€(gè)大型早發(fā)性AD對(duì)照隊(duì)列中的患病率和疾病外顯性,并用ONT全長(zhǎng)轉(zhuǎn)錄組檢查了其對(duì)轉(zhuǎn)錄水平的影響。揭示了不同程度的NMD和轉(zhuǎn)錄修飾事件,可能影響ABCA7的劑量、疾病的嚴(yán)重程度,并可能為AD的治療干預(yù)創(chuàng)造機(jī)會(huì)。
應(yīng)用于多囊腎病
英文題目:Human-Specific Abnormal Alternative Splicing of Wild-Type PKD1 Induces Premature Termination of Polycystin-1
發(fā)表雜志:Journal of The American Society of Nephrology
發(fā)表時(shí)間:2018.10
影響因子:9.274
常染色體顯性遺傳性多囊腎病的主要形式是由編碼多囊蛋白-1(PC1)的基因雜合突變引起的,通過(guò)ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序等方法確認(rèn)存在多種剪接形式。研究發(fā)現(xiàn),在雜合子個(gè)體中,低水平的全長(zhǎng)PC1可能會(huì)將多囊蛋白信號(hào)降低到臨界的“成囊”閾值以下。
應(yīng)用于乳腺癌
英文題目:Nanopore sequencing of full-length BRCA1 mRNA transcripts reveals co-occurrence of known exon skipping events
發(fā)表雜志:Breast Cancer Res
發(fā)表時(shí)間:2017.11
影響因子:4.988
本研究探索了納米孔測(cè)序技術(shù)在檢測(cè)整個(gè)BRCA1 mRNA轉(zhuǎn)錄本以及對(duì)框內(nèi)和框外剪接事件進(jìn)行準(zhǔn)確分類(lèi)方面的應(yīng)用。研究鑒定了32個(gè)完整的BRCA1亞型,其中包括18個(gè)新的亞型,還發(fā)現(xiàn)已知的BRCA1外顯子跳躍事件,如Δ(9,10)和Δ21。這些發(fā)現(xiàn)對(duì)預(yù)測(cè)剪接轉(zhuǎn)錄本的翻譯框架具有重要意義,對(duì)解釋剪接變異體的臨床意義也很重要。
應(yīng)用于肺癌
英文題目:Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications
bioRxiv
本研究中利用ONT全長(zhǎng)轉(zhuǎn)錄組和ONT重測(cè)序技術(shù)在肺癌基因組中識(shí)別和表征結(jié)構(gòu)畸變,揭示了由局部重復(fù)、倒位和微缺失的復(fù)雜組合組成的獨(dú)特結(jié)構(gòu)畸變CLCL,進(jìn)一步分析并發(fā)現(xiàn),即使在關(guān)鍵的癌癥相關(guān)基因中,這些突變也發(fā)生在體內(nèi),這些突變可能闡明了致癌性事件和治療策略仍然難以捉摸的患者的分子病因。
應(yīng)用于細(xì)胞表面受體
英文題目:Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells
發(fā)表雜志:Nature Communications
發(fā)表時(shí)間:2017.07
影響因子:12.121
短reads RNAseq解析復(fù)雜isoform的能力有限,因?yàn)樗鼰o(wú)法測(cè)序RNA分子的全長(zhǎng)cDNA拷貝。作者研究了使用長(zhǎng)讀取單分子Oxford Nanopore測(cè)序儀的RNAseq是否能夠在不犧牲準(zhǔn)確的基因表達(dá)定量的情況下,鑒定和定量復(fù)雜的isoform。在小鼠B1a細(xì)胞中鑒定了數(shù)千個(gè)未注釋的轉(zhuǎn)錄起始和終止位點(diǎn),以及數(shù)百個(gè)可變剪接事件,鑒定了在B1a細(xì)胞中表達(dá)的數(shù)百種基因,這些基因顯示出多種復(fù)雜的isoform,包括幾種B細(xì)胞特異性表面受體。本研究表明,可以在單細(xì)胞水平上識(shí)別和定量復(fù)雜的isoform。