此款工具基于DAVID的富集結果進行可視化分析,為客戶解決了個性化展示GO/KEGG富集結果的需求,目前百邁客云平臺上已經(jīng)部署了相關的小工具,可助力客戶實現(xiàn)相關需求。
在進行差異表達分析的時候,我們會獲得大量的差異基因。就基于得到的差異基因,我們很難看出基因之間復雜的關系。為了更進一步了解這些基因的功能,富集分析在這一方面能夠幫助我們。
GO是Gene Ontology的縮寫,其中文我們翻譯為基因本體論。到目前為止,GO的數(shù)據(jù)庫由三大獨立的Ontology建立起來:Biological Process生物過程、Molecular Function分子功能以及Cellular Component細胞組分,它們之間也具有聯(lián)系。
Biological Process:細胞的每個部分和基因產(chǎn)物在細胞中的位置
Molecular Function:描述分子水平的活性
Cellular Component:由一個或多個分子功能有序組合而產(chǎn)生的生物學事件
GO的基本單位是term,每一個term對應一個屬性。
KEGG是Kyoto Encyclopedia of Genes and Genomes的縮寫,京都基因與基因組百科全書。
KEGG數(shù)據(jù)庫是一個與通路相關的數(shù)據(jù)庫,是大家最常見的代謝通路分析。
DAVID是一款免費的在線分析軟件,我們只需要準備一列基因名(gene list)。下載其結果,如下圖所示:
這與用R包跑出來的結果稍微有所不同,但都大同小異。
- (1)Count:即List-hits,也就是我們提交gene list中進入BP分類的某Term的數(shù)量
- (2)List total:提交gene list中進入BP分類的所有term的總數(shù)量
- (3)Pop hits:目前已被注釋進入BP分類某Term的gene 數(shù)量
- (4)Pop total:目前已被注釋進入BP分類的總gene數(shù)量
了解了這四個數(shù)值,計算出GeneRatio和富集因子,就可以利用ggplot對其進行可視化了,GeneRatio即注釋在該條目中的感興趣基因占所有差異基因數(shù)的比例;Rich.factor 富集因子,表示差異基因中注釋到該通路的基因比例與所有基因中注釋到該通路的基因比例的比值。富集因子越大,表示差異表達基因在該通路中的富集水平越顯著。
data$GeneRatio <- data$Count / data$`List Total`
data$Rich.factor <- (data$Count / data$`List Total`)/(data$`Pop Hits`/data$`Pop Total`)
利用ggplot對其進行可視化
p = ggplot(data,aes(GeneRatio,Term))
p=p + geom_point()+theme(axis.text.x = element_text(colour=”black”,size=1))p=p + geom_point(aes(size=Count))pbubble = p+ geom_point(aes(color=Pvalue,size=Count))pr = pbubble+scale_color_gradient(low=”red”,high = “blue”)
pr = pr+labs(color=expression(Pvalue),size=”Count”,
x=”GeneRatio”,y=”Pathway”)
pr + theme_bw()
再對圖片進行一下修飾,按照gene ratio大小排序畫圖,就可以得到一張整齊的氣泡圖啦,具體代碼如下:
data <- data[order(data$GeneRatio),]
data$Term <- factor(data$Term,levels=data$Term)

關注我們,隨時學習