隨著測序行業(yè)的飛速發(fā)展,探究影響表型變化的因素的產品層出不窮,不管是從DNA水平還是RNA水平,還是現在火熱的代謝物水平,都有各自的組學研究系統(tǒng),這些組學之間的關系就像一條從上到下的河流,DNA水平的基因組學處于最上游,決定了河流的開始和基本屬性,好比不同的物種都有特定的基因序列特征,并且是相對保守的。但是河流的上游無法決定河流下游的去向,就像基因不能完全決定最后的表型。因為基因后面還有表觀遺傳修飾,還有轉錄,翻譯,環(huán)境的影響,并且這些改變和影響最終都會體現在代謝物的差異上。所以我們可以看出,單一組學的數據難以系統(tǒng)全面地解析復雜生理過程的調控機制,多組學聯(lián)合分析可以共同探究生物體內潛在的調控網絡機制,為生物體作用機制提供了更多證據。當然,除了基因發(fā)生突變,會直接影響代謝物水平和表型,環(huán)境的影響也會體現在表型和代謝物水平上,比如根際微生物和植物的互作作用,腸道微生物對于宿主的影響等等。
中心法則是遺傳的基礎,在中心法則中,RNA處于重要的中央樞紐地位,轉錄組作為生信科研中的“萬金油”,最大的特點就是“短平快”,是功能基因的研究利器,是利用率最高,最成熟的測序手段,在多組學聯(lián)合中扮演中重要的角色。代謝組是表型的直接體現者,“代謝組+ ”研究模式已經在多個領域廣泛使用,成為深入研究科學問題,系統(tǒng)闡釋作用機制的利器。以下就是常見的基于這兩個組學的聯(lián)合分析策略。
今天主要先從轉錄組+代謝組方向進行聯(lián)合分析內容的說明。
mRNA+代謝組
轉錄組測序可以得到大量差異基因、眾多調控網絡。難以確定關鍵途徑,也無法鑒定控制關鍵途徑的結構,而代謝物是生命活動最終的體現者,表型性狀的微小變化在代謝水平會呈指數放大,可以利用代謝組來反映表型的狀態(tài)變化,但是單獨代謝組檢測,無法解釋影響表型的基因機理。轉錄本水平的基因變化是否真的是決定表型變化的關鍵基因?這個問題需要通過轉錄組和代謝組的聯(lián)合分析進行回答。
轉錄組+代謝組的多組學分析,可以同時實現從“因”和“果”兩個層面來探究生物學問題,相互間進行驗證,從海量的數據中篩選出關鍵基因、代謝物及代謝通路,深度解析生物系統(tǒng)的宏觀發(fā)育過程,解釋生物過程的復雜性和整體性,提高文章的水平。
樣本準備
轉錄組和代謝組的聯(lián)合分析通常為一份材料同時送測兩個組學,這樣對于樣本量準備會有更高的要求,普通轉錄組推薦準備有三個生物學重復,而代謝組的要求更高,需推薦單樣本有六個生物學重復,生物學重復不僅能夠消除組內誤差、作為實驗設計質控點用于判斷實驗設計過程是否異常、檢測離群樣本有效規(guī)避實驗失敗的風險,更重要的是可以增強結果的可靠性,嚴謹的實驗更容易發(fā)表高分文章。(特別對于臨床研究的項目,由于研究的對象有復雜的遺傳背景,生活方式,個體年齡性別體質等等,導致難以實現背景一致性的樣本,所以更要通過生物學重復的設置來降低樣本間的背景差異造成的影響。)
分析思路
轉錄組通過標準分析流程得到差異表達基因功能富集等分析結果,代謝組根據不同的產品類型,可以鑒定得到樣本中表達的代謝物,并分析得到差異代謝物及代謝通路富集結果。將差異基因和差異代謝物在KEGG上共富集的基因和代謝物進行聯(lián)合分析,并計算差異基因和差異代謝物的相關性,構建相關性網絡,可以找出引起代謝物發(fā)生變化的關鍵作用基因,確定關鍵的調控通路。
分析內容
代謝與轉錄組聯(lián)合分析是基于兩個組學各自的標準分析結果,將差異代謝物和差異基因在代謝通路上的注釋結果進行關聯(lián)分析,可以在代謝通路上更好地解釋轉錄調控機制。常規(guī)的聯(lián)合分析內容主要包括代謝組和轉錄組KEGG通路分析、KEGG共富集分析、相關性分析、差異基因和差異代謝物趨勢分析、典型相關性分析、限制性對應分析等內容。
一、代謝組和轉錄組KEGG通路分析
差異代謝物分析結果結合轉錄組差異基因分析結果,將相同分組的差異基因及差異代謝物同時映射到KEGG通路圖上,用綠色和紅色標注基因或代謝物表達量顯著下調或上調的節(jié)點,藍色標注既有上調又有下調的基因,更好的了解基因與代謝物之間的關系。
二、KEGG共富集分析
進行KEGG注釋時,差異代謝物與差異基因同時注釋的通路往往有很多。這種情況下,挑選基因和代謝的通路富集系數pvalue<0.05優(yōu)先進行分析,這樣可以節(jié)約篩選數據的時間,快速找到與研究目的相關的通路進行后續(xù)分析。
三、基因與代謝物相關性分析
將不同差異分組基于皮爾遜相關性(pearson)方法計算所有基因和代謝物之間的相關性,然后按照相關性系數(Correlation Coefficient,CC)和相關性的pvalue篩選表達相關性較高的基因和代謝物。并利用九象限圖對于篩選后的基因和代謝物的表達趨勢進行分析,例如基因和代謝物表達趨勢一致或相反,表明基因可能是正向或者負向調控代謝物,或者基因/代謝物表達發(fā)生變化,但是對應的代謝物/基因表達不變,則說明還有其他的調控機制參與到整個代謝通路中。
四、差異基因和差異代謝物趨勢分析
將各個分組對差異代謝物和差異基因分別用Kmeans進行分類,然后按分類進行繪圖,可找到變化趨勢一致代謝物和基因,這些趨勢一致代謝物和基因之間可能存在一定的關系,為研究提供了一定的方向。
五、相關性網絡圖
按通路選取經過相關性篩選的差異基因和差異代謝物繪制網絡圖,通過網絡圖來可直觀的表示代謝物和基因之間的關系。
六、典型相關分析
典型相關分析(canonical correlation analysis, CCA),是利用綜合變量對之間的相關關系來反映兩組指標之間的整體相關性的多元統(tǒng)計分析方法。對相關性網絡圖中的差異基因及差異代謝物進行典型相關分析,圖中以十字區(qū)分出四個區(qū)域,在同一個區(qū)域內,距原點越遠關聯(lián)性越高,在同一個象限內距離較近的代謝物和基因之間相關聯(lián)的程度高,基于此結果可進一步挖掘和代謝物最相關的基因。
七、 限制性對應分析
對應分析(Correspondence Analysis)也稱關聯(lián)分析,是一種多元統(tǒng)計分析技術,通過分析由定性變量構成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應關系。對通路中的差異代謝物和差異基因進行限制性對應分析可直觀展示他們之間的關聯(lián)關系。
以上就是轉錄組和代謝組聯(lián)合分析的主要內容,由于生物過程具有復雜性和整體性,多種物質共同影響生命系統(tǒng)的表型和性狀,例如環(huán)境、基因、mRNA、調控因子、蛋白、代謝等,這些組學之間,既相互獨立,又互相影響,既有很大的差別,又有相似之處。多種多樣的組學聯(lián)合分析將不同層面之間信息進行整合,從不同的組學角度共同探究生物體內潛在的調控網絡機制,深層次理解各個分子之間的調控及因果關系,從而更深入的認識生物進程和疾病過程中復雜性狀的分子機理和遺傳基礎,后續(xù)我們還將推出其他常見的組學聯(lián)合分析內容的介紹,敬請期待。
百邁客生物科技致力于多組學聯(lián)合分析的組學研究內容,現已經有非常成熟的基因組、轉錄組、代謝組、蛋白組、非編碼RNA之間的聯(lián)合分析方案及分析流程,協(xié)助客戶發(fā)表幾百篇高分文章,現在您可以點擊下方按鈕聯(lián)系我們,我們將免費為您設計文章研究思路方案。