WGCNA簡介
WGCNA(Weighted Gene Co-Expression Network Analysis, 加權(quán)基因共表達網(wǎng)絡(luò)分析),是用來描述不同樣品之間基因關(guān)聯(lián)模式的系統(tǒng)生物學(xué)方法??设b定表達模式相似的基因集合(module),解析基因集合與樣品表型之間的聯(lián)系,繪制基因集合中基因之間的調(diào)控網(wǎng)絡(luò)并鑒定關(guān)鍵調(diào)控基因。要了解 WGCNA, 首先需要理解什么是基因共表達網(wǎng)絡(luò)。我們定義每個節(jié)點為一個基因,在不同樣本中存在表達共性的基因處于同一個基因網(wǎng)絡(luò),而基因之間的共表達關(guān)系一般由它們之間的表達相關(guān)系數(shù)衡量。WGCNA 算法首先假定基因網(wǎng)絡(luò)服從無尺度分布,并定義基因共表達相關(guān)矩陣、基因網(wǎng)絡(luò)形成的鄰接函數(shù),然后計算不同節(jié)點的相異系數(shù),并據(jù)此構(gòu)建分層聚類樹(hierarchical clustering tree),該聚類樹的不同分支代表不同的基因模塊(module),模塊基因共表達程度高,而分屬不同模塊的基因共表達程度低。最后探索模塊與特定表型或疾病的關(guān)聯(lián)關(guān)系,最終達到鑒定基因網(wǎng)絡(luò)的目的。
結(jié)果說明
1. 基因共表達網(wǎng)絡(luò)熱圖分析
WGCNA的核心步驟其實就是通過對TOM矩陣進行分層聚類,TOM (Topological overlap matrix)即為把鄰接矩陣轉(zhuǎn)換為拓撲重疊矩陣,以降低噪音和假相關(guān),獲得的新距離矩陣,可以用來計算基因之間關(guān)聯(lián)程度?;赥OM矩陣,圖A中的行和列均代表基因,灰色模塊為無法分配到初級模塊中的基因,樹枝的頂端為核心基因,顏色越深代表TOM值越高。熱圖中方塊的顏色越深(紅)表示共表達相關(guān)性越高,越淺(黃)表示相關(guān)性越弱。
2. 模塊間相關(guān)性熱圖
下圖展示模塊與模塊間的相關(guān)性。橫軸縱軸分別代表不同的模塊,相關(guān)性越弱則呈現(xiàn)藍色,相關(guān)性越強則呈現(xiàn)紅色。
3. 模塊與性狀間的熱圖
模塊與性狀相關(guān)性熱圖:下圖展示模塊與給定性狀的相關(guān)系熱圖。某一性狀與某一模塊的相關(guān)性越接近 1 的絕對值,很可能此性狀與模塊的基因功能相關(guān)。橫軸代表著性狀,縱軸代表著模塊(下圖中我們沒有選擇性狀,所以展示的是樣品的名稱)。
4.基因表達量的樣本系統(tǒng)聚類樹
基于基因表達量的樣本系統(tǒng)聚類樹: 在聚類中歐氏距離求兩點的距離,聚類中用類平均法(average)計算集合之間的距離。同一枝上的樣本具有更高的相似性。
5.樣本系統(tǒng)聚類樹及相關(guān)性狀熱圖
在基因表達量的樣本系統(tǒng)聚類樹的基礎(chǔ)上我們添加了熱圖,樣本與性狀之間的相關(guān)性越高熱圖中模塊顏色也會越深。例如我們將熱圖左邊的T01看作是性狀標簽,它與分支樣本TP01的熱圖模塊呈現(xiàn)紅色,說明性狀T01與樣本T01的相關(guān)性非常高。
6.基因的系統(tǒng)樹圖及性狀相關(guān)性熱圖
基因的系統(tǒng)樹圖及性狀相關(guān)性熱圖主要分為三個部分:第一個部分為基因聚類繪制的聚類樹,分枝代表基因;第二部分為基因聚類樹根據(jù)不同的聚類對應(yīng)到的不同模塊;第三部分為性狀的熱圖,如圖中T01~T06為性狀,對應(yīng)熱圖中的顏色越深,說明該模塊中的基因與該性狀的相關(guān)性越高。
7.樣品 PCA 分析二/三維圖
PCA分析橫坐標代表著第一主成分,縱坐標代表第二主成分,可以根據(jù)圖看出在第一主成分方向上樣本的距離越近,說明它們的主成分越相近,相關(guān)性越高。
8.基因網(wǎng)絡(luò)模塊
基因網(wǎng)絡(luò)模塊主要分為三個部分:第一部分為基因的聚類樹;第二部分為根據(jù)基因聚類樹劃分的不同模塊;第三部分為根據(jù)第二部分模塊進行了矯正,最后結(jié)果為校正后的模塊。
9.模塊COG/KEGG/GO二級分類圖
將每一個模塊中的基因繪制了跟它功能相關(guān)的COG/KEGG/GO分類富集圖。
在COG富集分析中橫軸代表功能分類,縱軸代表基因頻數(shù)。
在GO富集分析中橫軸代表GO term,左側(cè)縱軸代表基因占比,右側(cè)為基因的數(shù)目。
在KEGG富集中縱軸代表路徑,橫軸代表注釋到的基因數(shù)目
GSEA介紹
基因集富集分析(GSEA: Gene Set Enrichment Analysis),可以在沒有先驗經(jīng)驗存在的情況下根據(jù)所有基因表達情況對所有基因進行富集分析。一般的差異分析通常只集中關(guān)注于一些顯著的上調(diào)或下調(diào)基因,而這會遺漏部分差異表達不顯著卻有重要生物學(xué)意義的基因。而GSEA不會設(shè)置差異閾值,能夠檢測出微弱但是一致的趨勢。其輸入數(shù)據(jù)包含兩部分:一為已知功能的基因集 (可以是GO注釋、MsigDB的注釋或其它符合格式的基因集定義);二是表達矩陣 (也可以是排序好的列表)。
軟件會對基因根據(jù)其與表型的關(guān)聯(lián)度從大到小排序,然后判斷基因集內(nèi)每條注釋下的基因是否富集于表型相關(guān)度排序后基因表的上部或下部,從而判斷此基因集內(nèi)基因的協(xié)同變化對表型變化的影響。
結(jié)果說明
百邁客中的GSEA分析采用KEGG通路以及GO的BP、CC、MF分支的基因集作為感興趣的基因集合,以每個差異分組的log2FC作為背景基因集的打分來分析感興趣基因集合的富集情況,最后控制pvalue<0.001,F(xiàn)DR 圖片
GSEA計算中幾個關(guān)鍵概念
1、計算富集得分 (ES, enrichment score)。ES反應(yīng)基因集成員(差異基因)在排序總基因列表的兩端富集的程度。計算方式是,從總基因集的第一個基因開始,計算一個累計統(tǒng)計值。當遇到一個落在差異基因里面,則增加統(tǒng)計值。遇到一個不在差異基因里面,則降低統(tǒng)計值。
2、每一步統(tǒng)計值增加或減少的幅度與基因的表達變化程度(更嚴格的是與基因和表型的關(guān)聯(lián)度,可能是fold-change,也可能是pearson corelation值,后面有介紹幾種不同的計算方式)是相關(guān)的,可以是線性相關(guān),也可以是指數(shù)相關(guān) (具體見后面參數(shù)選擇)。富集得分ES最后定義為峰值。正值ES表示基因集在列表的頂部富集,負值ES表示基因集在列表的底部富集。
3、評估富集得分(ES)的顯著性。通過基于表型而不改變基因之間關(guān)系的排列檢驗 (permutation test)計算觀察到的富集得分(ES)出現(xiàn)的可能性。若樣品量少,也可基于基因集做排列檢驗 (permutation test),計算p-value。
4、多重假設(shè)檢驗校正。首先對每個差異基因子集計算得到的ES根據(jù)基因集的大小進行標準化得到Normalized Enrichment Score (NES),隨后針對NES計算假陽性率。(計算NES也有另外一種方法,是計算出的ES除以排列檢驗得到的所有ES的平均值)Leading-edge subset為對富集得分貢獻大的基因成員。
從前文中我們了解到GSEA分析的目的是要判斷差異集基因(基于先驗知識的基因注釋信息,某個關(guān)注的基因集合)中的基因是隨機分布還是聚集在排序好的總基因集的頂部或底部(這便是富集分析)。與GO富集分析的差異在于GSEA分析不需要指定閾值(p值或FDR)來篩選差異基因,我們可以在沒有經(jīng)驗存在的情況下分析我們感興趣的基因集,而這個基因集不一定是顯著差異表達的基因。GSEA分析可以將那些GO/KEGG富集分信息中容易遺漏掉的差異表達不顯著卻有著重要生物學(xué)意義的基因包含在內(nèi)。
蛋白網(wǎng)絡(luò)互作
蛋白質(zhì)互作網(wǎng)絡(luò)(protein protein interaction network,PPI network)是由蛋白通過彼此之間的相互作用構(gòu)成,來參與生物信號傳遞、基因表達調(diào)節(jié)、能量和物質(zhì)代謝及細胞周期調(diào)控等生命過程的各個環(huán)節(jié)。系統(tǒng)分析大量蛋白在生物系統(tǒng)中的相互作用關(guān)系,對了解生物系統(tǒng)中蛋白質(zhì)的工作原理,了解疾病等特殊生理狀態(tài)下生物信號和能量物質(zhì)代謝的反應(yīng)機制,以及了解蛋白之間的功能聯(lián)系都有重要意義。在生物醫(yī)藥領(lǐng)域有助于從系統(tǒng)的角度研究疾病分子機制、發(fā)現(xiàn)新藥靶點等等。
主要主要是基STRING數(shù)據(jù)庫提取目標基因集的互作關(guān)系。對于數(shù)據(jù)庫中未收錄信息的物種,使用BLAST軟件,將目的基因與數(shù)據(jù)庫中的蛋白質(zhì)進行序列比對,尋找同源蛋白,根據(jù)同源蛋白的互作關(guān)系對構(gòu)建互作網(wǎng)絡(luò)。構(gòu)建完成的蛋白質(zhì)互作網(wǎng)絡(luò)可導(dǎo)入Cytoscape軟件進行可視化。
圖片
結(jié)果說明
如圖中的節(jié)點為蛋白質(zhì),邊為互作關(guān)系?;プ骶W(wǎng)絡(luò)中節(jié)點(node)的大小與此節(jié)點的度(degree)成正比,即與此節(jié)點相連的邊越多,它的度越大,節(jié)點也就越大。節(jié)點的顏色與此節(jié)點的聚集系數(shù)(clustering coefficient)相關(guān),顏色梯度由綠到紅對應(yīng)聚集系數(shù)的值由低到高,聚集系數(shù)值越高表示此節(jié)點的鄰接點之間的連通性越好。邊(edge)的寬度表示此邊連接的兩個節(jié)點間的互相作用的關(guān)系強弱,互相作用的關(guān)系越強,邊越寬。沒有的組合代表沒有互作關(guān)系。
圖片
百邁客轉(zhuǎn)錄組測序服務(wù)針對不同樣品類型采用全面解析mRNA信息的策略,不僅能獲得樣本的轉(zhuǎn)錄本結(jié)構(gòu)和轉(zhuǎn)錄豐度信息,還能探究相關(guān)基因結(jié)構(gòu)變異(SNP、CNV、SV、 Indel等)。此外,百邁客云的生物大數(shù)據(jù)分析平臺,可以深入挖掘差異表達基因,完成多種高級分析內(nèi)容,例如上文提到的WGCNA、GSEA、PPI等內(nèi)容,為您提供全面、高效的生物信息分析以及整合利用公共數(shù)據(jù)庫的解決方案。
歡迎點擊下方按鈕聯(lián)系我們,我們將免費為您設(shè)計文章思路方案。