二代真核轉(zhuǎn)錄組采用Illumina測序平臺,對有參、無參真核生物特定細胞在某一功能狀態(tài)下轉(zhuǎn)錄的所mRNA進行測序。在定量層面,有參可以對基因進行定量分析,無參只能對Unigene(優(yōu)化的轉(zhuǎn)錄本)進行定量分析,并進行下游的差異基因分析和功能注釋等;在結(jié)構(gòu)層面,有參可進行可變剪切、SNP分析、基因結(jié)構(gòu)優(yōu)化、新基因預測。目前已廣泛應用于基礎研究、臨床診斷、藥物研發(fā)和分子育種等領域。
轉(zhuǎn)錄組可搭配任意其他產(chǎn)品進行多組學的分析,同時為了沖刺高分可選擇大樣本量方案進行設計。從選材到后續(xù)研究內(nèi)容相關(guān)信息的挖掘,整個流程嚴謹進行,全程跟蹤。
可視化操作、交互性基因深度挖掘,關(guān)注哪里“點”哪里。【基本操作】基因功能、基因名稱、序列和ID的檢索、關(guān)鍵基因功能及通路分析、WGCNA分析等基因功能挖掘?!緜€性化挖掘】個性化差異分析方案,個性化圖表優(yōu)化、共表達趨勢分析、基因結(jié)構(gòu)分析。
數(shù)據(jù)質(zhì)控
為確保Reads有足夠高的質(zhì)量,將下機原始測序數(shù)據(jù)(raw reads)去掉含有帶接頭的、低質(zhì)量的reads,得到clean reads,保證后續(xù)分析的準確性。測序因受測序儀本身、測序試劑、樣品等因素影響,存在一定的錯誤率。堿基測序錯誤率分布圖可以反映測序數(shù)據(jù)的質(zhì)量。
參考序列比對
將Clean Reads與參考基因組進行序列比對,獲取在參考基因組或基因上的位置信息,定位區(qū)域分為Exon(外顯子)、Intron(內(nèi)含子)
和Intergenic(基因間區(qū))。比對到參考基因組上的Reads稱為Mapped Reads,Mapped Reads占Clean Reads的百分比,可以評估所選參考基因組組裝是否能滿足信息分析的需求。
重復相關(guān)性評估
生物學重復的相關(guān)性不僅可以檢驗生物學實驗操作的可重復性,還可以評估差異表達基因的可靠性和輔助異常樣品的篩查。
差異表達基因分析
差異表達基因以火山圖、MA圖、韋恩圖、聚類熱圖、蛋白互作圖等形式呈現(xiàn),通過火山圖(Volcano Plot)可以快速地查看基因在兩個(組)樣品中表達水平的差異,以及差異的統(tǒng)計學顯著性。對于有生物學重復的樣本,我們采用DEseq進行樣品組間的差異表達分析,獲得兩個生物學條件之間的差異表達基因集;對于沒有生物學重復的樣本,使用EBseq進行差異分析。篩選差異基因標準一般為:Fold Change≥2,F(xiàn)DR<0.01。
差異表達基因聚類分析
聚類分析用于判斷差異基因在不同實驗條件下的表達模式,可通過將表達模式相同或相近的基因聚集成類,從而識別未知基因的功能或已知基因的未知功能,同類基因可能具有相似的功能或共同參與同一代謝過程。
差異表達基因GO分類
差異表達基因GO注釋分類統(tǒng)計圖,直觀的反映出在生物過程(biological process)、細胞組分(cellular component)
和分子功能(molecular function),所有基因和差異基因注釋GO term的個數(shù)分布??缮钊胪诰虿町惢虻墓δ芗八诘男盘柾?,篩選關(guān)注差異基因注釋情況。
差異表達基因蛋白互作網(wǎng)絡
STRING收錄多個物種預測的和實驗驗證的蛋白質(zhì)-蛋白質(zhì)互作的數(shù)據(jù)庫,包括直接的物理互作和間接的功能相關(guān)。結(jié)合差異表達分析結(jié)果和數(shù)據(jù)庫收錄的互作關(guān)系對,構(gòu)建差異表達基因互作網(wǎng)絡。
測序數(shù)據(jù)組裝
對于無參轉(zhuǎn)錄組,過濾得到的高質(zhì)量clean reads需通過Trinity軟件進行組裝得到轉(zhuǎn)錄本序列。轉(zhuǎn)錄本測序深度除了受測序數(shù)據(jù)量等影響,還與該轉(zhuǎn)錄本的表達豐度有關(guān)。為了使各樣品中表達豐度較低的轉(zhuǎn)錄本組裝得更完整,對于同物種的測序樣品推薦合并組裝可以間接增加測序深度,從而使轉(zhuǎn)錄結(jié)果更完整,同時也有利于后續(xù)的數(shù)據(jù)分析;而對于不同物種的樣品,由于基因組間存在差異,推薦采用分別組裝或分開分析。
差異表達基因KEGG通路富集
差異表達基因的KEGG Pathway富集分析,系統(tǒng)分析基因產(chǎn)物在細胞中的代謝途徑以及這些基因產(chǎn)物功能,把基因及表達信息作為一個整體的網(wǎng)絡進行研究。利用富集因子(Enrichment Factor)分析Pathway的富集程度,并利用超幾何檢驗方法計算富集顯著性。
答:針對每個樣品,同一個基因的不同轉(zhuǎn)錄本會存在可變剪接,我們只是根據(jù)測序的實際數(shù)據(jù)對可變剪接進行預測,而不是進行驗證;如果要判斷是否存在相應的剪接方式,需要實驗去驗證。重復實驗存在一定的差異,會導致可變剪接的不同。
答:我們分析流程中是將測序的Reads比對到參考基因組,然后進行拼接,其中一些reads比對到基因間區(qū)并且能拼接出完整的開放閱讀框,拼接出來的位于基因間區(qū)的這些基因即為新基因。預測得到的新基因才會進行功能注釋,所以注釋結(jié)果與新基因的判斷沒有關(guān)系。
答:為了確保分析結(jié)果的準確性,老師通常會設置3個生物學重復,這樣就可能出現(xiàn)生物學重復中某個樣品相關(guān)性不好的情況,影響后續(xù)差異分析結(jié)果的準確性。通??蓪⒃撎幚斫M中相關(guān)性不好的樣品剔除,再進行差異分析。后期可通過RT-qPCR等試驗手段彌補生物學重復的不足,不會影響文章的發(fā)表。
答:可從所有基因,差異基因及SNP三個方面進行數(shù)據(jù)挖掘。所有基因可通過功能注釋信息,基因ID,基因名稱,序列信息幾個方面進行挖掘,同時還可以做表達基因集維恩圖,WGCNA等分析。差異基因則可通過維恩圖分析不同處理批次幾個差異組合共同的差異基因;通常表達量變化趨勢一致的基因,可能會有相似的功能,故可通過基因共表達趨勢分析來進行差異基因的深入挖掘。SNP則可通過PCA分析,系統(tǒng)進化樹,樣品間差異SNP篩選及目標區(qū)域SNP查詢等進行挖掘。以上這些分析均可在我公司云平臺免費完成。
答:?K number Count指相關(guān)的酶的數(shù)目,比如8(6)代表8個基因注釋到這個通路,涉及到這個通路的6個酶,某兩個基因(或多個)涉及到同一個酶。
答:Go富集我們使用的是Blast2GO R包;KEGG是我們根據(jù)fisher檢驗算法自己編寫的程序。
KS<0.05,這個值和p-value的意義相同,是TopGO軟件包中的一個檢驗方法。
Q-value<0.01,這個值是對p-value值的一個校正,和FDR概念相似,是fisher檢驗中的一個檢驗方法。
測序文章一般不用這兩個指標,涉及到算法的文獻中才有。
答:(1)用實驗的方法: 針對5’端和3’端的序列來設計引物,通過PCR實驗進行延長和擴增.
(2)生信辦法: 將該基因與它的近源物種做同源,如果能找到同源基因,則將該區(qū)域的所有read比對到同源基因上,進而來確定中間部分的序列。
公司成立多年以來,擁有豐富的項目分析經(jīng)驗,據(jù)不完全統(tǒng)計,完成轉(zhuǎn)錄組項目10000+,完成樣本數(shù)200000+;年處理樣本數(shù)10000+;農(nóng)學物種涉及糧食作物、果蔬、觀賞植物、害蟲、家禽牲畜、水產(chǎn)動植物等,醫(yī)學物種涉及人、鼠,研究方向包括發(fā)育調(diào)控、環(huán)境適應、突變表現(xiàn)、遺傳進化、疾病發(fā)生發(fā)展機制、耐藥機制和藥物的研發(fā)診斷等各種領域??筛鶕?jù)項目需要選擇方案,保障結(jié)果精準。