今天與大家分享的這篇關(guān)于腫瘤標(biāo)志物研究的文章,內(nèi)容比較多,分為引言、研究背景、實(shí)驗(yàn)設(shè)計(jì)、研究結(jié)果、討論、研究結(jié)論、文章亮點(diǎn)7個(gè)部分,每一部分都做了詳細(xì)的解讀,各位看官可以視情況跳躍或選擇性閱讀,收藏后可以慢慢看。
?Part1 引言
陽(yáng)春三月,天地俱生,萬(wàn)物以榮,大地一片生機(jī),人們?cè)诮?jīng)過(guò)一個(gè)冬天的蟄伏后開(kāi)始活動(dòng)頻繁。隨著氣溫的升高,細(xì)菌、病毒也開(kāi)始生長(zhǎng)繁殖,因此,春天是疾病多發(fā)的季節(jié)?!饵S帝內(nèi)經(jīng)》說(shuō):“是故圣人不治已病治未病”,寓意是要防病于未然,不要等病入膏肓了才四處求醫(yī)。
腫瘤標(biāo)志物是腫瘤細(xì)胞本身合成、分泌,或是機(jī)體對(duì)腫瘤反應(yīng)而異常產(chǎn)生或表達(dá)異常的一類(lèi)特異性物質(zhì),在腫瘤早期發(fā)現(xiàn)、診斷、治療及預(yù)后判斷中均起到非常重要的作用,這與中醫(yī)“未病先防,既病防變”的治療理念十分契合的。
目前,通過(guò)整合多組學(xué)數(shù)據(jù)在多個(gè)層面上鑒定腫瘤標(biāo)致物的研究還比較少,下面我們通過(guò)荷蘭科學(xué)家對(duì)結(jié)腸癌腫瘤標(biāo)致物的研究成果,來(lái)了解一下將RNA-seq、Iso-seq及LC-MS/MS數(shù)據(jù)進(jìn)行整合研究的思路。
Part2 研究背景
結(jié)直腸癌是荷蘭常見(jiàn)的第二種癌癥,死亡率高,現(xiàn)以每年超過(guò)15000例患者的速度增長(zhǎng),大多數(shù)患者年齡在60-79歲之間。從腺瘤發(fā)展到結(jié)腸癌大概分為4個(gè)階段,整個(gè)過(guò)程大約需要20-40年的時(shí)間,早期篩查對(duì)該病的預(yù)防和治療至關(guān)重要。
通常人們會(huì)通過(guò)免疫法檢測(cè)糞潛血的方式進(jìn)行結(jié)直腸癌篩查,但是這種方法對(duì)病變前體即晚期腺瘤的檢出率只有27%,靈敏度很低,所以目前臨床上需要新的標(biāo)志物來(lái)輔助結(jié)直腸癌的篩查。
人類(lèi)轉(zhuǎn)錄組比基因組要復(fù)雜得多,這是因?yàn)榧s95%的多外顯子轉(zhuǎn)錄本會(huì)進(jìn)行選擇性剪接。作為選擇性剪接的結(jié)果,isoform被翻譯成的蛋白質(zhì)在結(jié)構(gòu)、位置和功能上都會(huì)有所不同。相比于正常情況下產(chǎn)生的RNA剪接事件,異常剪接(aberrant splicing)可以導(dǎo)致疾病的發(fā)生,特別是腫瘤特異的異常剪接(tumor-sepecfic aberrant splicing)通常與該腫瘤的進(jìn)展和轉(zhuǎn)移有密切聯(lián)系。因此,研究剪接變異(splice variant)可能會(huì)進(jìn)一步揭示腫瘤的發(fā)生發(fā)展機(jī)制。
剪接因子在剪接調(diào)節(jié)和isoform表達(dá)中起著直接的作用。剪接因子不僅可以通過(guò)體細(xì)胞突變和異常表達(dá)產(chǎn)生致癌作用,還可以通過(guò)異常剪接產(chǎn)生致癌活性。SF3B1和SRSF1是癌癥中常見(jiàn)的突變剪接因子,乳腺癌和結(jié)腸癌中都有它們的參與。MYC是一個(gè)致癌轉(zhuǎn)錄因子,通過(guò)激活SRSF1, 它可以影響SRSF1靶基因子集的選擇性剪接,從而助于腫瘤的發(fā)展。
蛋白質(zhì)異形體(protein isoforms)作為生物標(biāo)志物具有很大的潛力,可以提高診斷的準(zhǔn)確性。識(shí)別疾病特異的蛋白質(zhì)異形體(disease-specific protein isoforms),能夠發(fā)現(xiàn)更敏感、更特異的生物標(biāo)記物。通過(guò)高深度的串聯(lián)質(zhì)譜測(cè)序可以在蛋白層面上研究蛋白質(zhì)異形體,可以鑒定通過(guò)單核苷酸變異或異常剪接產(chǎn)生的新型變異蛋白。但目前受制于現(xiàn)有的蛋白質(zhì)序列數(shù)據(jù)庫(kù),50%的質(zhì)譜信息仍無(wú)法進(jìn)行確定。構(gòu)建蛋白數(shù)據(jù)庫(kù)時(shí)補(bǔ)充RNA-seq的結(jié)果可以發(fā)現(xiàn)人類(lèi)參考基因組注釋中沒(méi)有表示的新的剪接事件,使蛋白鑒定數(shù)目得到了很大提升。另外,通過(guò)RNA-seq也可以在轉(zhuǎn)錄組層面對(duì)可變剪接進(jìn)行研究,但是轉(zhuǎn)錄組水平上的研究無(wú)法確定哪些isoforms翻譯成了蛋白,而這一點(diǎn)對(duì)于弄清楚可變剪接可以導(dǎo)致什么結(jié)果及鑒定腫瘤蛋白分子標(biāo)記物是至關(guān)重要的。所以將高深度的串聯(lián)質(zhì)譜測(cè)序和RNA-seq結(jié)合起來(lái),既能得到豐富的蛋白質(zhì)數(shù)據(jù)庫(kù)提升蛋白鑒定數(shù)據(jù),又能在轉(zhuǎn)錄組和蛋白組兩個(gè)水平上對(duì)腫瘤特異的isoforms進(jìn)行研究。
現(xiàn)有的蛋白組數(shù)據(jù)分析工具通常是為單個(gè)或一類(lèi)樣本分析而設(shè)計(jì)的,不具備在RNA和蛋白質(zhì)水平上對(duì)患病組和對(duì)照組進(jìn)行差異比較的靈活性。為了識(shí)別疾病特異的蛋白質(zhì)異形體,需要使用一種工具來(lái)進(jìn)行不同層面的分析。
本文提出了一種名為Splicify的腫瘤特異性蛋白質(zhì)異形體(tumor-specific protein isoforms)的鑒定流程,其中,RNA-seq分析用于對(duì)isoform定量及差異分析;LC-MS/MS用于證明有哪些剪接isoform被翻譯成了蛋白質(zhì);另外,通過(guò)Iso-seq鑒定Splicify得到isoforms,同時(shí)增加新的轉(zhuǎn)錄本信息。
Part3 實(shí)驗(yàn)設(shè)計(jì)
為了測(cè)試splicify這種蛋白組學(xué)數(shù)據(jù)的分析方法,建立了一種可以對(duì)isoform變化進(jìn)行調(diào)控的實(shí)驗(yàn)?zāi)P?,?duì)SW480結(jié)腸癌細(xì)胞系中的剪接因子SF3B1和SRSF1進(jìn)行siRNA干擾以下調(diào)其表達(dá),然后通過(guò)RNA-seq和質(zhì)譜進(jìn)行結(jié)果檢測(cè)。
RNA-seq及LC-MS/MS:
SW480結(jié)腸癌細(xì)胞系,siRNA 干擾剪接因子SF3B1和SRSF1及陰性對(duì)照siNT-treatedSW480細(xì)胞系。
SF3B1被siRNA轉(zhuǎn)染48h,簡(jiǎn)寫(xiě)為siSF3B1;
SRSF1被siRNA轉(zhuǎn)染72h,簡(jiǎn)寫(xiě)為siSRSF1。
RT-qPCR:
RT-qPCR用以檢測(cè)SF3B1和SRSF1的敲低效率及用于評(píng)估ADD3、CTNND1、RAC1、SYK、MKI67和OSBPL3的可變剪接的效率。
全長(zhǎng)轉(zhuǎn)isoform測(cè)序Iso-Seq:
siSF3B1及對(duì)照組siNT-treatedSW480細(xì)胞系。
用RSII檢測(cè),文庫(kù)片段0-1kbp, 1kbp-2kbp, 2kbp-3kbp and 3kbp-50kbp。
Splicify中的RNA-seq和LC-MS/MS分析:
(1)參考基因組版本為UCSChg19;差異剪接變異(differential splice variants )軟件為rMATS version 3.2.5;顯著性的篩選標(biāo)準(zhǔn)FDR≤0.05;
(2)isoforms分exclusion-isoforms和inclusion-isoforms兩種類(lèi)型(如下圖1B所示)。
(3)剪接區(qū)域轉(zhuǎn)化成氨基酸序列。
將得到的差異剪接變異以及剪接區(qū)域的氨基酸序列作為潛在的剪接變異的蛋白序列,和Uniprot數(shù)據(jù)庫(kù)中人類(lèi)蛋白數(shù)據(jù)一起形成一個(gè)更豐富的人類(lèi)蛋白質(zhì)數(shù)據(jù)庫(kù)。
(4)通過(guò)MaxQuant 1.5.3.8軟件進(jìn)行蛋白鑒定。
(5)此外,人類(lèi)標(biāo)準(zhǔn)蛋白質(zhì)數(shù)據(jù)庫(kù)(Swissprot, canonical,)被用來(lái)檢測(cè)代表非標(biāo)準(zhǔn)isoform剪接變異。
splicify的原理概述及其檢測(cè)模型:
Part4 研究結(jié)果
圖1A中給出了splicify的原理概述,既鑒定不同剪接isoform的蛋白組數(shù)據(jù)分析流程
轉(zhuǎn)錄組學(xué)和蛋白組學(xué)分析的實(shí)驗(yàn)設(shè)計(jì)概述如下圖2所示:
RT-qPCR檢測(cè)顯示經(jīng)siRNA轉(zhuǎn)染一定時(shí)間后SF3B1和SRSF1表達(dá)水平平均降低50%和40%;同時(shí)細(xì)胞活性檢測(cè)表明SF3B1的下調(diào)使癌細(xì)胞存活率降低了10-30%(下調(diào)SRSF1細(xì)胞存活率的變化則不是很明顯)。這些數(shù)據(jù)表明,在所建立的模型系統(tǒng)中,isofrm的產(chǎn)生可以得到調(diào)控,適合于測(cè)試splicify流程。
通過(guò)splicify鑒定差異RNA和蛋白isoform:
用RNA-seq和串聯(lián)質(zhì)譜分析了每個(gè)樣品的蛋白質(zhì)組和轉(zhuǎn)錄組。在RNA-seq數(shù)據(jù)分析中,通過(guò)對(duì)橫跨exon-exon和exon-intron junction的reads,鑒定了isoforms,連同比對(duì)到剪接片段上的reads,進(jìn)一步量化以區(qū)分兩個(gè)條件之間的差異事件。在蛋白質(zhì)組學(xué)數(shù)據(jù)分析當(dāng)中,exon-exon和exon-intron junction覆蓋肽段和比對(duì)到剪接片段上的肽段被用來(lái)證明RNA水平上檢測(cè)出來(lái)的isoform被翻譯成了蛋白質(zhì)(圖1 B)。這些肽的強(qiáng)度被用于定量,以確定差異表達(dá)的蛋白質(zhì)的isoform。
siSF3B1和siSRSF1產(chǎn)生的差異mRNA isoform:
轉(zhuǎn)錄組分析顯示siSF3B1和siSRSF1的可變剪接事件與對(duì)照組相比有顯著差異(圖3A),證明對(duì)剪接因子的操作導(dǎo)致了差異剪接的產(chǎn)生。
與SRSF1相比,選擇性剪接受SF3B1的操作影響更大,因?yàn)槭躍F3B1調(diào)控的剪接事件更多,特別是對(duì)于外顯子跳躍和互斥的外顯子事件(圖3A)。這可能是由于剪接因子在剪接體復(fù)合物中扮演的角色不同。
為了保證siSF3B1和siSRSF1對(duì)isoform的表達(dá)有功能上的影響,引入已研究過(guò)的結(jié)腸癌細(xì)胞中ADD3和CTNND1中的外顯子跳躍作為其選擇性剪接的陽(yáng)性對(duì)照。后續(xù)對(duì)實(shí)驗(yàn)?zāi)P椭械腁DD3 exon 14和CTNND1 exon 20進(jìn)行RT-qPCR檢測(cè)的結(jié)果顯示siSF3B1和siSRSF1確實(shí)對(duì)isoform的表達(dá)有功能上的影響。
為了進(jìn)一步驗(yàn)證,作者選擇了4個(gè)外顯子跳躍事件進(jìn)行RT-qPCR驗(yàn)證,包括SYK exon 7, RAC1 exon 4, OSBPL3 exon 9, MKI67 exon 7(如圖4所示)。根據(jù)RNA-seq分析,所有的事件在SRSF1下調(diào)后都發(fā)生了差異剪接,而OSBPL3和MKI67則受SF3B1下調(diào)的影響。
siSF3B1和siSRSF1產(chǎn)生的差異蛋白isoform
在RNA水平上確定的所有重要剪接事件,包括inclusion 和exclusion變異,都被用于質(zhì)譜鑒定的數(shù)據(jù)庫(kù)構(gòu)建(圖1A)。為了證明這些剪接事件被翻譯成蛋白質(zhì),作者搜索了isoform特異的肽段庫(kù)(圖1B)。
在siSF3B1和siSRSF1的差異剪接結(jié)果中,分別確定了5079和374個(gè)isoform特異肽段(如表1所示)。
肽段數(shù)量上的差別直接和兩個(gè)實(shí)驗(yàn)剪接isoform數(shù)據(jù)庫(kù)的數(shù)目相關(guān)??偟膩?lái)說(shuō),大約60%的isoform特異肽段會(huì)比對(duì)到目標(biāo)區(qū)域,跨越exon-econ junction的split 肽段約占40%,跨越 exon-intron junctions 的spanning肽段則很少被發(fā)現(xiàn)(如表2所示)。
基于所有的isoform特異肽段,siSF3B1和siSRSF1在蛋白水平上分別確定了2172和149個(gè)剪接事件(如表3所示)。
平均15%的剪接事件的肽段在屬于同一事件的inclusion和exclusion isoform中被觀察到。大多數(shù)的isoform都被認(rèn)為是基于Swissprot規(guī)范序列數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)蛋白質(zhì)。大約5%和25%的鑒定isoform被歸類(lèi)為siSF3B1和siSRSF1的非標(biāo)準(zhǔn)亞型。肽段的一個(gè)子集比對(duì)到兩個(gè)或更多的isoform,通常是由于不同的isoform之間的重疊的外顯子導(dǎo)致的。相比于exclusion isoform,由于inclusion isoform的序列較長(zhǎng),因此確認(rèn)率更高。在被確定的isoforms中,所有類(lèi)別的選擇性剪接事件都有所涉及,與RNA水平上的結(jié)果一致,外顯子跳躍事件占的比例*大。從RNA和蛋白水平上剪接事件數(shù)目的比例看,互斥外顯子更常被檢測(cè)到(如圖3B所示)。
這是由于互斥外顯子的剪接結(jié)果中每一個(gè)isoform都含有一個(gè)額外的外顯子,從而增加了整個(gè)片段的長(zhǎng)度,也就增加了剪接區(qū)域的識(shí)別。雖然陽(yáng)性對(duì)照ADD3和CTNND1并沒(méi)有檢測(cè)到特異肽段,但SYK、RAC1、OSBPL3和MKI67的外顯子跳躍事件在肽水平上得到了驗(yàn)證。
通過(guò)對(duì)剪接特異肽段進(jìn)行差異表達(dá)分析,揭示了這些肽的子集在實(shí)驗(yàn)組和對(duì)照組之間有顯著差異,指出了mRNA基因組和蛋白質(zhì)組結(jié)果之間的一致性事件(如表4所示)。
約65%的顯著差異表達(dá)的splice-specific-peptides在RNA水平上表現(xiàn)出一致的表達(dá)差異。例如,下調(diào)SF3B1的實(shí)驗(yàn)組中,OSBPL3 9號(hào)外顯子中分別有3個(gè)支持外顯子保留和1個(gè)支持外顯子去除的peptides被鑒定出來(lái)。兩種inclusion specific-peptides表達(dá)明顯較低,而exclusion specific -peptides則與對(duì)照相比表現(xiàn)出較高的表達(dá)量(如圖5所示)。
另一個(gè)例子是siSRSF1中,由于RAC1基因中4號(hào)外顯子的保留,Rac1b isoform的表達(dá)較低,這與當(dāng)前SRSF1對(duì)結(jié)腸直腸癌中RAC1選擇性剪接的影響是一致的,通過(guò)RNA-seq和RT-qPCR檢測(cè)(如圖4所示)。蛋白水平上,只有inclusion specific-peptides可以得到確認(rèn)。雖然下調(diào)siSRSF1和對(duì)照之間的肽強(qiáng)度差異不顯著,但log2 fold變化提示與RNA水平相似。
全長(zhǎng)轉(zhuǎn)錄本的驗(yàn)證:
為了驗(yàn)證能通過(guò)splicify得到的isoform,同時(shí)增加新的轉(zhuǎn)錄本,Iso-seq被用于在SW480細(xì)胞中SF3B1的下調(diào)和siNT對(duì)照(如圖2所示)的檢測(cè)中。
通過(guò)Iso-Seq得的轉(zhuǎn)錄本替代人基因組注釋被用作轉(zhuǎn)錄組變異的來(lái)源進(jìn)行定性分析,同時(shí)可以通過(guò)對(duì)較短但更高密度的reads來(lái)進(jìn)行定量分析。在RNA水平上,在每種剪接事件中,使用Iso-Seq數(shù)據(jù)確定的顯著差異的isoforms數(shù)量超過(guò)了使用參考基因組注釋法的結(jié)果(如圖6A所示)。
illumina所測(cè)reads通過(guò)使用人類(lèi)參考基因組注釋及使用Iso-Seq所得全長(zhǎng)轉(zhuǎn)錄本進(jìn)行定量的結(jié)果有很大的重疊,從而驗(yàn)證選擇性剪接事件的檢測(cè)(如圖6B所示)。
此外,Iso-Seq的測(cè)序結(jié)果揭示了一些由于參考基因組注釋的缺乏沒(méi)有檢測(cè)到這些事件。其中突出的就是內(nèi)含子保留事件,可變剪接分析軟件rMATS使用的是帶注釋的內(nèi)含子保留的數(shù)據(jù)庫(kù),而不是基因組中的所有內(nèi)含子。在蛋白水平上,大多數(shù)isoform特異性肽都可以通過(guò)兩種方法鑒定,Iso-seq所測(cè)全長(zhǎng)轉(zhuǎn)錄組本對(duì)于參考基因組的注釋信息是一個(gè)很好的補(bǔ)充,增加了確定的isoform特異肽段的數(shù)量(如圖6C所示)。
例如,全長(zhǎng)轉(zhuǎn)錄本進(jìn)行測(cè)序結(jié)果支持FXR1內(nèi)含子保留的三種肽段,因此這種內(nèi)含子保留事件也存在于注釋文件中。Illumina 測(cè)到的短 reads支持這一事件,并提供了定量的證據(jù),表明它在SF3B1的下調(diào)過(guò)程中比其對(duì)照組(圖6D)更高表達(dá)。
這些數(shù)據(jù)表明,為了更全面地揭示差異剪接事件,我們應(yīng)該提供豐富的注釋文件,其中包括一些新的轉(zhuǎn)錄本,如轉(zhuǎn)錄本組裝工具或全長(zhǎng)轉(zhuǎn)錄序列。
Part5 討論
Splicify的意義在于識(shí)別RNA水平和蛋白質(zhì)水平上的isoform。通過(guò)對(duì)RNA和蛋白水平的對(duì)比分析證明該方法能夠成功地識(shí)別特定條件下蛋白質(zhì)水平上的異常剪接事件。
在研究可變剪接方面,Iso-Seq測(cè)到的全長(zhǎng)轉(zhuǎn)錄本對(duì)基因組注釋結(jié)果是一個(gè)極大補(bǔ)充,尤其在內(nèi)含子保留、3 ‘可變剪接和5 ‘端可變剪接事件中,Iso-Seq測(cè)到的全長(zhǎng)轉(zhuǎn)錄本與基因組注釋的重疊較小。這表明,基因組注釋中缺少一些完整的或部分的內(nèi)含子序列可變剪接的isoform形式。
蛋白質(zhì)水平上發(fā)現(xiàn)的一些非典型的isoform翻譯成的蛋白質(zhì)可能在與常規(guī)類(lèi)型的蛋白的功能不同。比如,Rac1b,相比于常見(jiàn)的RAC1蛋白能夠增強(qiáng)細(xì)胞存活能力。在不同的組織中,OSBPL3的isoform在RNA水平上表現(xiàn)出不同的表達(dá),表明它們可能具有不同的功能。 基于RNA-seq數(shù)據(jù)檢測(cè)到的少量的蛋白isoform揭示了目前蛋白質(zhì)組學(xué)的研究難點(diǎn)。mRNA 水平上發(fā)現(xiàn)的isoform在蛋白質(zhì)水平上沒(méi)有識(shí)別出來(lái)可能有很多原因,包括生物和技術(shù)層面。首先,并非所有的異常的isoform都被翻譯成蛋白質(zhì)。另外,轉(zhuǎn)錄和翻譯的動(dòng)力學(xué)相關(guān),特別是關(guān)于siRNA介導(dǎo)的下調(diào)制。同時(shí),isoform個(gè)數(shù)少也可能是剪接區(qū)域的翻譯后修飾的結(jié)果,例如磷酸化。還有一些技術(shù)上的問(wèn)題限制了splice-specific peptides的鑒定,比如exclusion 變異。
所有這些問(wèn)題都說(shuō)明了RNA-seq相比于質(zhì)譜分析對(duì)剪接片段的定量分析優(yōu)勢(shì)。異常的isoform通常比常規(guī)蛋白的表達(dá)量低,這進(jìn)一步使isoform在蛋白質(zhì)水平的分析變得復(fù)雜。在多個(gè)研究報(bào)告中,RNA與蛋白表達(dá)的相關(guān)性中,RNA和蛋白水平的表達(dá)差異有65%的一致性。然而,質(zhì)譜可以確定哪些isoforms可以被翻譯成蛋白質(zhì),使RNA水平上識(shí)別出的剪接isoform的功能更確定,并能在分子領(lǐng)域確定候選生物標(biāo)志物以進(jìn)行進(jìn)一步研究。
Part6 研究結(jié)論
Splicify提供了一種蛋白組數(shù)據(jù)分析方法,可以用于確定由mRNA選擇性剪接產(chǎn)生的疾病特異性蛋白生物標(biāo)志物,適合用臨床前模型系統(tǒng)來(lái)解決基礎(chǔ)研究問(wèn)題。其中剪接變異在RNA水平上的驗(yàn)證是通過(guò)RT-qPCR以及Iso-seq得到的全長(zhǎng)轉(zhuǎn)錄本進(jìn)行的;通過(guò)Iso-seq得到的全長(zhǎng)轉(zhuǎn)錄本可以對(duì)新的剪接事件在蛋白層面上進(jìn)行驗(yàn)證。
Part7 文章亮點(diǎn)
相比目前蛋白組數(shù)據(jù)分析,存在的問(wèn)題:
1、許多生物信息學(xué)工具在得到質(zhì)譜結(jié)果后缺乏自動(dòng)友好的下游分析;
2、分析工具通常是為單個(gè)或一類(lèi)樣本分析而設(shè)計(jì)的,不具備在RNA和蛋白質(zhì)水平上對(duì)病例和對(duì)照組進(jìn)行差異比較的靈活性。
splicify作為一種基于整合RNA大規(guī)模并行測(cè)序數(shù)據(jù)和串聯(lián)質(zhì)譜蛋白質(zhì)組學(xué)數(shù)據(jù)的分析方法其新穎性在于兩組分子間選擇性剪接的差異分析,可應(yīng)用范圍很廣泛,如基因敲低與對(duì)照樣品或癌癥與健康樣品間的比較。
轉(zhuǎn)錄調(diào)控事業(yè)部 張 琪 | 文案
吳戈宇 | 審核
圖片來(lái)自網(wǎng)絡(luò),侵刪