此款工具基于DAVID的富集結(jié)果進(jìn)行可視化分析,為客戶解決了個(gè)性化展示GO/KEGG富集結(jié)果的需求,目前百邁客云平臺(tái)上已經(jīng)部署了相關(guān)的小工具,可助力客戶實(shí)現(xiàn)相關(guān)需求。
在進(jìn)行差異表達(dá)分析的時(shí)候,我們會(huì)獲得大量的差異基因。就基于得到的差異基因,我們很難看出基因之間復(fù)雜的關(guān)系。為了更進(jìn)一步了解這些基因的功能,富集分析在這一方面能夠幫助我們。
GO是Gene Ontology的縮寫,其中文我們翻譯為基因本體論。到目前為止,GO的數(shù)據(jù)庫(kù)由三大獨(dú)立的Ontology建立起來(lái):Biological Process生物過(guò)程、Molecular Function分子功能以及Cellular Component細(xì)胞組分,它們之間也具有聯(lián)系。
Biological Process:細(xì)胞的每個(gè)部分和基因產(chǎn)物在細(xì)胞中的位置
Molecular Function:描述分子水平的活性
Cellular Component:由一個(gè)或多個(gè)分子功能有序組合而產(chǎn)生的生物學(xué)事件
GO的基本單位是term,每一個(gè)term對(duì)應(yīng)一個(gè)屬性。
KEGG是Kyoto Encyclopedia of Genes and Genomes的縮寫,京都基因與基因組百科全書。
KEGG數(shù)據(jù)庫(kù)是一個(gè)與通路相關(guān)的數(shù)據(jù)庫(kù),是大家最常見(jiàn)的代謝通路分析。
DAVID是一款免費(fèi)的在線分析軟件,我們只需要準(zhǔn)備一列基因名(gene list)。下載其結(jié)果,如下圖所示:
這與用R包跑出來(lái)的結(jié)果稍微有所不同,但都大同小異。
- (1)Count:即List-hits,也就是我們提交gene list中進(jìn)入BP分類的某Term的數(shù)量
- (2)List total:提交gene list中進(jìn)入BP分類的所有term的總數(shù)量
- (3)Pop hits:目前已被注釋進(jìn)入BP分類某Term的gene 數(shù)量
- (4)Pop total:目前已被注釋進(jìn)入BP分類的總gene數(shù)量
了解了這四個(gè)數(shù)值,計(jì)算出GeneRatio和富集因子,就可以利用ggplot對(duì)其進(jìn)行可視化了,GeneRatio即注釋在該條目中的感興趣基因占所有差異基因數(shù)的比例;Rich.factor 富集因子,表示差異基因中注釋到該通路的基因比例與所有基因中注釋到該通路的基因比例的比值。富集因子越大,表示差異表達(dá)基因在該通路中的富集水平越顯著。
data$GeneRatio <- data$Count / data$`List Total`
data$Rich.factor <- (data$Count / data$`List Total`)/(data$`Pop Hits`/data$`Pop Total`)
利用ggplot對(duì)其進(jìn)行可視化
p = ggplot(data,aes(GeneRatio,Term))
p=p + geom_point()+theme(axis.text.x = element_text(colour=”black”,size=1))p=p + geom_point(aes(size=Count))pbubble = p+ geom_point(aes(color=Pvalue,size=Count))pr = pbubble+scale_color_gradient(low=”red”,high = “blue”)
pr = pr+labs(color=expression(Pvalue),size=”Count”,
x=”GeneRatio”,y=”Pathway”)
pr + theme_bw()
再對(duì)圖片進(jìn)行一下修飾,按照gene ratio大小排序畫圖,就可以得到一張整齊的氣泡圖啦,具體代碼如下:
data <- data[order(data$GeneRatio),]
data$Term <- factor(data$Term,levels=data$Term)

關(guān)注我們,隨時(shí)學(xué)習(xí)