三年成全在线观看大全,中文字幕av一区二区,免费看的黄色视频,中文字幕无码在线
 分類: 基因組測(cè)序
為什么要做調(diào)研圖
基因組測(cè)序現(xiàn)在已經(jīng)成為生物學(xué)研究的一個(gè)重要手段,基因組的雜合度和重復(fù)序列對(duì)后續(xù)基因組組裝有很大的影響。高雜合的基因組往往無法合并姊妹染色體,導(dǎo)致組裝的結(jié)果偏大,而重復(fù)序列在組裝中會(huì)被折疊,使組裝中出現(xiàn)缺口、錯(cuò)誤,導(dǎo)致組裝的結(jié)果偏小。不同的生物體的基因組之間雜合率和重復(fù)序列含量差異巨大,因此在進(jìn)行基因組測(cè)序前往往需要對(duì)基因組的特征進(jìn)行調(diào)研,以確定測(cè)序方案,周期等。目前常用的調(diào)研手段有三種:
  1. 用流式細(xì)胞儀測(cè)定細(xì)胞核內(nèi)的DNA總量
  2. 用核型分析方法,識(shí)別染色體數(shù)量、倍性
  3. 用調(diào)研圖,通過二代測(cè)序,估算基因組大小、雜合度、重復(fù)序列比例、GC含量等。
不同的技術(shù)手段有不同的側(cè)重,其中調(diào)研圖以低成本,低難度和更多的評(píng)估內(nèi)容成為使用最多的技術(shù)手段,同時(shí)調(diào)研圖所測(cè)的二代數(shù)據(jù)還可以用于回比基因組,以評(píng)估組裝質(zhì)量。
調(diào)研圖是基于數(shù)學(xué)統(tǒng)計(jì)學(xué)手段獲取物種信息的方式,因此對(duì)于已經(jīng)研究的較為清晰的物種——主要是普通二倍體和簡(jiǎn)單多倍體,其染色體條數(shù)、倍性、大概基因組大小是已知的,此時(shí)僅選擇調(diào)研圖就足以滿足了解基因組特征的需要,但對(duì)于多倍體復(fù)雜基因組更推薦補(bǔ)充核型分析和流式的結(jié)果,以和調(diào)研圖相互印證補(bǔ)充。
調(diào)研圖原理(二倍體調(diào)研圖為例)
評(píng)估基因組大小

調(diào)研圖最重要的用處是對(duì)基因組的大小進(jìn)行估計(jì)。,對(duì)于沒有測(cè)序錯(cuò)誤的理想情況下,用測(cè)序數(shù)據(jù)估算基因組大小可以按照這個(gè)公式:基因組大小=測(cè)序量/reads平均覆蓋深度。但由于測(cè)序錯(cuò)誤的存在,較長(zhǎng)的reads非常容易受到錯(cuò)誤的影響,而將reads切碎為“長(zhǎng)度為k的片段”,即k-mer,能大大減輕這個(gè)問題,因此調(diào)研圖繪制的是k-mer的深度-頻率分布圖。此時(shí)估算基因組大小的公式就變成了:基因組大小=正常kmer數(shù)量/k-mer平均覆蓋深度。因?yàn)殄e(cuò)誤總是隨機(jī)出現(xiàn)的,所以這里正常的k-mer數(shù)是過濾掉過低頻率的k-mer(即錯(cuò)誤)后得到的數(shù)量。
在理想狀態(tài)下,K-mer曲線服從泊松分布,即只會(huì)出現(xiàn)一個(gè)明顯的主峰。但對(duì)于一個(gè)雜合二倍體,主峰前1/2出會(huì)出現(xiàn)一個(gè)雜合峰,在雜合度較高的時(shí)候可能出現(xiàn)高過主峰的情況。下圖即為一個(gè)高雜合二倍體kmer的頻率-深度分布圖。主峰后二倍位置內(nèi)的峰為重復(fù)峰。但如果雜合度很低,可能分布圖中只有一個(gè)峰存在。主峰所代表的就是k-mer平均覆蓋深度,用主峰深度代替公式中的k-mer平均覆蓋深度即可算得該基因組的大小。

Figure 1,一個(gè)二倍體的kmer頻率-深度分布圖,橫軸為深度,縱軸為kmer出現(xiàn)的頻率,主峰位于深度100左右,雜合峰位于深度50左右
k-mer也并不是切的越小越好,過短的k-mer將無法保證多數(shù)k-mer在基因組中只出現(xiàn)一次,導(dǎo)致主峰深度估計(jì)偏大,而較長(zhǎng)的k-mer具有跨越更長(zhǎng)重復(fù)片段的能力,因此k-mer的選擇其實(shí)是一個(gè)平衡錯(cuò)誤和重復(fù)的過程。通常k的選擇為15到21的奇數(shù),既能夠保證k-mer的種類能覆蓋基因組,又足夠小以避免錯(cuò)誤的影響。基因組中往往還存在一些重復(fù)序列,這些重復(fù)序列也會(huì)引起kmer的重復(fù),但這些重復(fù)的存在雖然會(huì)削低主峰的高度,卻不會(huì)改變主峰的位置,上圖主峰后的小峰即為重復(fù)峰。
評(píng)估雜合率和重復(fù)序列
前面已經(jīng)提到了雜合率的高低對(duì)基因組的組裝有非常大的影響,那么如何計(jì)算基因組的雜合率和重復(fù)率呢?通常有兩種不同的方法,一種是直接計(jì)算峰的面積,即上圖中雜合峰和重復(fù)峰的面積占總面積的比例,從而估算出雜合率和重復(fù)率。另一種是通過模型擬合各個(gè)峰
genomescope21就是一個(gè)通過負(fù)二項(xiàng)分布擬合基因組k-mer分布來評(píng)估基因組特征的工具,其結(jié)果被普遍認(rèn)可。以下圖為例,一個(gè)二倍體的genomeScope分析結(jié)果。
  • 藍(lán)色柱子是kmer的觀測(cè)值;
  • 橙紅色擬合線部分對(duì)應(yīng)著深度過低的kmer,這些kmer被認(rèn)為是測(cè)序錯(cuò)誤引入的;
  • 黑色擬合線是除去被認(rèn)為是錯(cuò)誤的部分(橙紅色擬合線部分)之后剩下的所有k-mer,這些被認(rèn)為是可靠的kmer數(shù)據(jù);
  • 黃色擬合線被認(rèn)為來自基因組非重復(fù)區(qū)域的K-mer分布;
  • 垂直的黑色虛線為預(yù)測(cè)最低深度峰的整數(shù)倍覆蓋度;

Figure 2一個(gè)二倍體的調(diào)研圖,橫軸是測(cè)序深度(覆蓋度),縱軸是k-mer出現(xiàn)的頻率,主峰位于100左右。
多倍體調(diào)研圖
多倍體又分為異源多倍體和同源多倍體,其調(diào)研圖的情況更為復(fù)雜。以四倍體為例,異源四倍體又被稱為雙二倍體,從k-mer分析的角度來說,其調(diào)研圖和二倍體并無太大差異。雖然如此,他們的染色體之間仍然存在一定的相似性,所以在主峰二倍的位置上往往存在一個(gè)小的凸起,這樣的凸起和高重復(fù)率的二倍體調(diào)研圖非常接近。如下圖是一個(gè)異源四倍體的調(diào)研圖:

Figure 3一個(gè)異源四倍體的調(diào)研圖,主峰位于212深度,三個(gè)峰的比例為1:2:4
同源四倍體的兩套亞基因組之間的區(qū)別比異源四倍體更為接近,體現(xiàn)在調(diào)研圖上就是在主峰的二倍位置處有一個(gè)明顯隆起的峰。如果存在一定的雜合率,調(diào)研圖上就會(huì)存在三個(gè)比例為1:2:4的峰,但如果基因組的雜合率很低,雜合峰不明顯,此時(shí)調(diào)研圖看起來和二倍體仍然非常接近。
不同的倍性對(duì)整套基因組的大小影響不大,所以面對(duì)多倍體時(shí),調(diào)研圖的結(jié)果盡量同時(shí)結(jié)合流式細(xì)胞儀或者核型來判斷。對(duì)于雜合率約在0.5%~20%左右,重復(fù)序列不超過約40%的物種,也可以利用smudgeplot軟件1對(duì)雜合k-mer進(jìn)行分析,得到可能的物種倍性,從而輔助基因組雜合率和重復(fù)序列的估計(jì)。
Smudgeplot通過尋找雜合k-mer來研究基因組的倍性,其定義的雜合k-mer對(duì)指的是一對(duì)k-mer之間只相差一個(gè)堿基,且沒有第三個(gè)k-mer與他們?cè)傧嗖钜粋€(gè)堿基(如ATGATCA, ATGCTCA, ATGGTCA)。對(duì)于一個(gè)AB形式的雜合,smudgeplot試圖從所有k-mer中尋找一對(duì)雜合k-mer,而對(duì)于一個(gè)AAB形式的雜合,smudgeplot試圖尋找兩條相同的k-mer和一條它們的雜合k-mer,在圖中表示為更高的亮度。如下圖對(duì)一個(gè)四倍體的smudgeplot分析,可以明顯的看出AABB雜合模式附近的k-mer數(shù)量明顯高于其它k-mer,左上角也描述了這個(gè)結(jié)果。

Figure 4一個(gè)四倍體的smudgeplot分析結(jié)果,橫軸是雜合k-mer對(duì)的深度占總深度的比例,縱軸是所有k-mer對(duì)的總深度,二者的交點(diǎn)即代表了不同的雜合結(jié)構(gòu)。交點(diǎn)的亮度代表了落入其中的k-mer數(shù)。
需要注意的是,調(diào)研圖一般需要50x以上的數(shù)據(jù)對(duì)基因組進(jìn)行評(píng)估,在測(cè)序深度不足的情況下,調(diào)研圖可能無法很好的形成真正意義上的峰,此時(shí)好的選擇是加測(cè)數(shù)據(jù),重新繪制調(diào)研圖進(jìn)行評(píng)估。

[1] ?Ranallo-Benavidez, T.R., Jaron, K.S. & Schatz, M.C. GenomeScope 2.0 and Smudgeplot for reference-free profiling of polyploid genomes. Nat Commun?11,?1432 (2020).

最近文章