基因組survey以測序技術(shù)為基礎(chǔ),基于小片段文庫的低深度測序,通過K-mer分析,快速獲得基因組大小、雜合度、重復(fù)序列比例等基本信息,為制定該物種的全基因組de novo測序策略提供有效依據(jù)。
調(diào)研圖分析原理
調(diào)研圖分析基于k-mer的方法,所謂k-mer是指將核酸序列以滑窗的方法分成包含k個(gè)堿基的短序列,“mer”這個(gè)單詞的來源monomeric unit,單體單元。K是常數(shù),且一般為奇數(shù)(避免正反鏈混淆)。統(tǒng)計(jì)所有reads中所出現(xiàn)的k-mer類型及各類型k-mer的深度(或者頻率),繪制特定k-mer下不同深度k-mer片段的頻數(shù)統(tǒng)計(jì)圖,通常選擇K-mer分布最多的峰為主峰,從而得到基因組大小=K-mer總數(shù)/K-mer主峰深度值。
由于基因組存在雜合位點(diǎn)和重復(fù)序列,k-mer曲線往往不會(huì)呈現(xiàn)出良好的泊松分布,而是在主峰前后出現(xiàn)其他的峰,如果存在一定雜合度,會(huì)導(dǎo)致在主峰對應(yīng)的橫坐標(biāo)的二分之一處出現(xiàn)雜合峰,而一定的重復(fù)度則會(huì)在主峰對應(yīng)的橫坐標(biāo)的整數(shù)倍處出現(xiàn)重復(fù)峰。
調(diào)研圖分析內(nèi)容
評估基因組大??;
評估基因組雜合情況;
評估重復(fù)序列含量;
評估基因組GC含量;
為后續(xù)精細(xì)圖階段的文庫構(gòu)建提供策略建議。
基因組調(diào)研圖的意義
啟動(dòng)全基因組測序的必要前提
了解與近緣物種間的基因組差異信息
獲得某物種基因組的基本信息及難易程度
(1) 測序得到不低于50倍覆蓋度的數(shù)據(jù)量。
(2) 樣本質(zhì)量評估:
????a)外源物種污染率評估;
????b)線粒體含量評估;
(3) 基因組評估:
????a) 基因組大小評估;
????b) 雜合率評估;
????c) 重復(fù)序列比例評估;
????d) GC含量評估。
(1) 測序獲得xx ?Gb數(shù)據(jù),總測序深度約為xx ×,Q20比例達(dá)到xx %以上,Q30比例達(dá)到xx %以上。
(2) 通過與NT庫比對表明樣品不存在污染。
(3) 對物種的線粒體評估,發(fā)現(xiàn)線粒體含量很低。
(4) 估計(jì)基因組的大小約xx Mb,雜合率約xx %,重復(fù)序列含量約xx %。
(5) 估計(jì)基因組的GC含量約xx %。
????????分析表明,樣品不存在外源物種污染,且質(zhì)體含量低,能用于構(gòu)建精細(xì)圖;同時(shí),估計(jì)基因組大小約xx? Mb,基因組的雜合率約xx %,重復(fù)序列含量約xx %,因此該物種基因組屬于高雜合的復(fù)雜基因組。推薦的測序方案為xx? ×的270 bp文庫數(shù)據(jù)和xx? ×的20 Kb三代測序文庫數(shù)據(jù)。見表1。
表1 ??精細(xì)圖文庫建庫方案
Sequence data | Library | Depth (×) | Data (Gb) |
---|---|---|---|
Fragment library | 270 bp (sequenced) | xx | xx |
Pacbio | 20 Kb | xx | xx |
Total | — | xx | xx |
????????實(shí)驗(yàn)流程按照Illumina公司提供的標(biāo)準(zhǔn)protocol執(zhí)行,包括:DNA文庫制備實(shí)驗(yàn)和測序?qū)嶒?yàn)。實(shí)驗(yàn)流程見圖1
圖1 實(shí)驗(yàn)流程圖
????????提取基因組DNA ,進(jìn)行小片段文庫建庫測序。分為以下四個(gè)步驟:
(1)文庫構(gòu)建:物理破碎法(超聲波震蕩)將合格的基因組DNA破碎至目的片段(270 bp),然后經(jīng)過末端修復(fù)、加A、加接頭、目標(biāo)片段選擇和PCR等步驟構(gòu)建小片段測序文庫文庫;
(2)文庫質(zhì)檢:利用2100和Q-PCR檢測文庫片段大小和文庫定量,確定文庫是否符合測序標(biāo)準(zhǔn) ;
(3)芯片固定:通過橋式PCR將文庫固定到測序芯片上;
(4)上機(jī)測序利用Hiseq測序儀對文庫進(jìn)行雙端150 bp(PE 150)測序,測序所產(chǎn)生的數(shù)據(jù)經(jīng)過質(zhì)控后用于下一步信息分析。
雙端測序數(shù)據(jù)通過評估雙端測序數(shù)據(jù)通過評估(GC分布統(tǒng)計(jì)、質(zhì)量值Q20、Q30評估)、過濾后得到高質(zhì)量的數(shù)據(jù)(clean reads),用于基因組大小的評估、基因組的組裝、GC含量的統(tǒng)計(jì)、雜合率的統(tǒng)計(jì)(以及組裝后的評估)。具體信息分析流程見圖2。
圖2 基因組調(diào)研圖信息分析流程
????????使用醫(yī)蛭樣品的基因組DNA構(gòu)建270 bp文庫,在 Illumina Hiseq測序平臺(tái)測序并過濾得到12.43 Gb高質(zhì)量的數(shù)據(jù),總測序深度約為76 ×,測序數(shù)據(jù)Q20比例均在95.34%以上,Q30比例均在89.23%以上,滿足合同要求的50 ×以上的測序數(shù)據(jù)量。文庫高質(zhì)量的數(shù)據(jù)量的統(tǒng)計(jì)信息見表2。
表2 ??樣品測序結(jié)果統(tǒng)計(jì)表
Library | Data (Gb) | Depth (×) | Q20 (%) | Q30 (%) |
---|---|---|---|---|
270 bp | 8.96 | 54 | 96.27 | 90.93 |
270 bp_add | 3.47 | 21 | 95.34 | 89.23 |
Total | 12.43 | 76 | — | — |
注:Library:調(diào)研圖的測序文庫;Data (Gb):相應(yīng)測序文庫的測序數(shù)據(jù)量;Depth (×):測序深度;Q20 (%):測序質(zhì)量值在20以上的堿基比例;Q30 (%):測序質(zhì)量值在30以上的堿基比例。
????????樣品如果存在污染不僅會(huì)降低有效數(shù)據(jù)量,同時(shí)還會(huì)影響調(diào)研圖分析結(jié)果的準(zhǔn)確性,導(dǎo)致基因組大小、雜合率、重復(fù)序列比例和GC含量等基因組特征評估結(jié)果出現(xiàn)較大偏差,使得基因組組裝建庫策略出現(xiàn)偏差,最終影響后續(xù)的基因組組裝效果。為了判斷提取的樣品DNA是否受到污染,我們從測序得到的270 bp文庫中,隨機(jī)取10,000條單端reads,與NT庫進(jìn)行BLAST[1]比對,270 bp文庫能夠比對上NT庫的reads分別占總reads數(shù)的1.71%,其中比對到xx 和xx上的reads數(shù)分別占比對上NT庫reads數(shù)的34.5%和6.43%,這兩個(gè)物種皆為醫(yī)蛭的近緣物種,且比對結(jié)果中未發(fā)現(xiàn)植物等異常比對,因此該樣品測序數(shù)據(jù)不存在污染,可用于基因組調(diào)研圖分析。一般的評估標(biāo)準(zhǔn):如果有一定比例的reads比對上進(jìn)化距離較遠(yuǎn)的物種如植物,微生物等,則判斷樣品可能存在污染,需要進(jìn)一步檢查原因。具體比對統(tǒng)計(jì)表見表3。
表3 ??270 bp文庫NT庫比對詳表
Species | Aligned percentage (%) |
---|---|
A | 34.5 |
B | 6.43 |
C | 2.92 |
D | 2.92 |
E | 2.33 |
注:Species:比對上的物種名稱;Aligned percentage (%):比對到該物種的reads占所有比上NT庫reads的比例。
????????由于線粒體中存在核酸序列,如果物種測序文庫中線粒體DNA含量過高時(shí),會(huì)影響后期基因組組裝。因此評估文庫中線粒體DNA含量對判斷數(shù)據(jù)能否用于后續(xù)基因組組裝非常必要。為了評估測序數(shù)據(jù)中線粒體的含量,我們利用Illumina Hiseq測序得到的270 bp文庫與醫(yī)蛭近緣物種的線粒體序列(42,362 bp)進(jìn)行SOAP[2]比對。比對結(jié)果發(fā)現(xiàn)雙端比上的reads數(shù)為166,占總reads的0.00%,單端比上的reads數(shù)為13,占總reads的0.00%,這兩個(gè)的比例都低于經(jīng)驗(yàn)值5%。由此判斷270 bp文庫測序數(shù)據(jù)的質(zhì)體含量很低,不影響后期基因組的組裝。比對統(tǒng)計(jì)結(jié)果見表4。
表4-1 ??270 bp文庫SOAP比對結(jié)果統(tǒng)計(jì)表
Type | Aligned reads number | Total reads number | Percentage (%) |
---|---|---|---|
Paired-read | 166 | 59,800,490 | 0.00 |
Single-read | 13 | 59,800,490 | 0.00 |
注:Type:比對上的reads的類型;Aligned reads number:比對上的reads條數(shù);Total reads number:總的reads條數(shù);Percentage (%):比對上的reads占總的比例。
????????利用基因組調(diào)研圖進(jìn)行基因組特征的評估,分為四個(gè)方面:
1) 評估基因組大小;
2) 評估重復(fù)序列比例;
3) 評估雜合情況;
4) GC含量情況。
????????利用270 bp文庫數(shù)據(jù)構(gòu)建k=19的kmer分布圖(見圖3),進(jìn)行基因組大小、重復(fù)序列比率和雜合率的評估。由圖3知,平均kmer深度即主峰對應(yīng)的kmer深度為62。kmer深度出現(xiàn)在主峰對應(yīng)深度2倍以上的序列為重復(fù)序列,即深度大于125的kmer序列為重復(fù)序列。kmer深度出現(xiàn)在主峰對應(yīng)深度一半處的序列為雜合序列,即深度出現(xiàn)在31附近的kmer序列為雜合序列。根據(jù)kmer深度信息,總kmer數(shù)目/平均kmer深度即為基因組大小,估計(jì)基因組大小約162.99 Mbp。依據(jù)kmer分布情況,估計(jì)重復(fù)序列含量約16.23%,評估出的雜合率約為1.79%,因此該物種基因組屬于高雜合的復(fù)雜基因組。
圖3 Kmer分布圖
????????基因組GC含量對二代基因組測序的隨機(jī)性有較大影響。過高(>65%)或過低(<25%)的GC含量會(huì)導(dǎo)致測序偏向性,嚴(yán)重影響基因組分析結(jié)果。物種GC含量是評估調(diào)研圖分析準(zhǔn)確性和后續(xù)基因組組裝難度的重要指標(biāo)之一。通過對調(diào)研圖文庫測序數(shù)據(jù)分析,該物種基因組的GC含量約38.03%,較為適中,不會(huì)影響調(diào)研圖分析的準(zhǔn)確性。見表5。
表5 ??基因組GC含量評估
Species | GC content (%) |
---|---|
Hirudo nipponia | 38.03 |
注:Species:物種名;GC content (%):GC含量。
????????綜上所述,該基因組大小約為162.99 Mb,重復(fù)序列比例約16.23%,雜合率約1.79%,基因組的GC含量約38.03%,從基因組基本結(jié)構(gòu)特征上看,該物種基因組屬于高雜合的復(fù)雜基因組。
基因組de novo測序也叫基因組從頭測序,主要針對未知物種的基因組序列以及需要更新的基因組,通過構(gòu)建基因組DNA文庫,并進(jìn)行測序。然后通過生物信息學(xué)的方法對測序所得到的數(shù)據(jù)進(jìn)行拼接、組裝和注釋,從而獲得該物種完整的基因組序列圖譜。
三代測序具有長度長的特點(diǎn),平均讀長在10-15Kb,而二代測序的讀長為PE125-250bp,所以二代測序在遇到重復(fù)序列,雜合難題時(shí),就很無力。而三代測序能有效的解決這些問題。所以三代基因組具有超高的組裝指標(biāo),組裝錯(cuò)誤率更低,組裝的完整性更好等優(yōu)點(diǎn)。
三代的錯(cuò)誤率是隨機(jī)的堿基錯(cuò)誤率,錯(cuò)誤率達(dá)15%,但隨著自身覆蓋度的增加就可以進(jìn)行糾錯(cuò),當(dāng)覆蓋度在30X以上時(shí),堿基準(zhǔn)確度達(dá)99.99%以上。所以三代數(shù)據(jù)用于基因組組裝是完全沒有問題的。
基因組精細(xì)圖的樣品要盡量與調(diào)研圖樣品為同一個(gè)體,植物樣品盡量選擇無污染的組培苗、嫩葉等,而動(dòng)物樣品盡量選擇全血或者內(nèi)臟組織。
基因組大小、雜合度、重復(fù)序列比例及倍性判斷精準(zhǔn),k-mer圖示清晰易懂。
林木、草本、海洋、淡水動(dòng)植物等300余種物種類型,擁有逾千例調(diào)研圖項(xiàng)目經(jīng)驗(yàn)。
提取建庫+生信分析,實(shí)力穩(wěn)扎穩(wěn)打,輔助參與多篇高質(zhì)量基因組合作文章見刊于國內(nèi)外雜志。