基因組Survey測序分析

高效，精準(zhǔn)，快速

產(chǎn)品介紹

基因組survey以測序技術(shù)為基礎(chǔ)，基于小片段文庫的低深度測序，通過K-mer分析，快速獲得基因組大小、雜合度、重復(fù)序列比例等基本信息，為制定該物種的全基因組de novo測序策略提供有效依據(jù)。

調(diào)研圖分析原理

調(diào)研圖分析基于k-mer的方法，所謂k-mer是指將核酸序列以滑窗的方法分成包含k個(gè)堿基的短序列，“mer”這個(gè)單詞的來源monomeric unit，單體單元。K是常數(shù)，且一般為奇數(shù)（避免正反鏈混淆）。統(tǒng)計(jì)所有reads中所出現(xiàn)的k-mer類型及各類型k-mer的深度（或者頻率），繪制特定k-mer下不同深度k-mer片段的頻數(shù)統(tǒng)計(jì)圖，通常選擇K-mer分布最多的峰為主峰，從而得到基因組大小=K-mer總數(shù)/K-mer主峰深度值。

由于基因組存在雜合位點(diǎn)和重復(fù)序列，k-mer曲線往往不會(huì)呈現(xiàn)出良好的泊松分布，而是在主峰前后出現(xiàn)其他的峰，如果存在一定雜合度，會(huì)導(dǎo)致在主峰對應(yīng)的橫坐標(biāo)的二分之一處出現(xiàn)雜合峰，而一定的重復(fù)度則會(huì)在主峰對應(yīng)的橫坐標(biāo)的整數(shù)倍處出現(xiàn)重復(fù)峰。

調(diào)研圖分析內(nèi)容

評估基因組大??；

評估基因組雜合情況；

評估重復(fù)序列含量；

評估基因組GC含量；

為后續(xù)精細(xì)圖階段的文庫構(gòu)建提供策略建議。

基因組調(diào)研圖的意義

啟動(dòng)全基因組測序的必要前提

了解與近緣物種間的基因組差異信息

獲得某物種基因組的基本信息及難易程度

案例展示

基因組調(diào)研圖報(bào)告

1 項(xiàng)目概況

1.1合同分析內(nèi)容

(1) 測序得到不低于50倍覆蓋度的數(shù)據(jù)量。

(2) 樣本質(zhì)量評估：

????a)外源物種污染率評估；

????b)線粒體含量評估；

(3) 基因組評估：

????a) 基因組大小評估；

????b) 雜合率評估；

????c) 重復(fù)序列比例評估；

????d) GC含量評估。

1.2 分析結(jié)果概述

(1) 測序獲得xx ?Gb數(shù)據(jù)，總測序深度約為xx ×，Q20比例達(dá)到xx %以上，Q30比例達(dá)到xx %以上。

(2) 通過與NT庫比對表明樣品不存在污染。

(3) 對物種的線粒體評估，發(fā)現(xiàn)線粒體含量很低。

(4) 估計(jì)基因組的大小約xx Mb，雜合率約xx %，重復(fù)序列含量約xx %。

(5) 估計(jì)基因組的GC含量約xx %。

1.3 項(xiàng)目分析總結(jié)

????????分析表明，樣品不存在外源物種污染，且質(zhì)體含量低，能用于構(gòu)建精細(xì)圖；同時(shí)，估計(jì)基因組大小約xx? Mb，基因組的雜合率約xx %，重復(fù)序列含量約xx %，因此該物種基因組屬于高雜合的復(fù)雜基因組。推薦的測序方案為xx? ×的270 bp文庫數(shù)據(jù)和xx? ×的20 Kb三代測序文庫數(shù)據(jù)。見表1。

表1 ??精細(xì)圖文庫建庫方案

Sequence data	Library	Depth (×)	Data (Gb)
Fragment library	270 bp (sequenced)	xx	xx
Pacbio	20 Kb	xx	xx
Total	—	xx	xx

2 項(xiàng)目流程

2.1 實(shí)驗(yàn)流程

????????實(shí)驗(yàn)流程按照Illumina公司提供的標(biāo)準(zhǔn)protocol執(zhí)行，包括：DNA文庫制備實(shí)驗(yàn)和測序?qū)嶒?yàn)。實(shí)驗(yàn)流程見圖1

圖1 實(shí)驗(yàn)流程圖

????????提取基因組DNA ,進(jìn)行小片段文庫建庫測序。分為以下四個(gè)步驟：

（1）文庫構(gòu)建：物理破碎法（超聲波震蕩）將合格的基因組DNA破碎至目的片段（270 bp），然后經(jīng)過末端修復(fù)、加A、加接頭、目標(biāo)片段選擇和PCR等步驟構(gòu)建小片段測序文庫文庫；

（2）文庫質(zhì)檢：利用2100和Q-PCR檢測文庫片段大小和文庫定量，確定文庫是否符合測序標(biāo)準(zhǔn) ;

（3）芯片固定：通過橋式PCR將文庫固定到測序芯片上；

（4）上機(jī)測序利用Hiseq測序儀對文庫進(jìn)行雙端150 bp（PE 150）測序，測序所產(chǎn)生的數(shù)據(jù)經(jīng)過質(zhì)控后用于下一步信息分析。

2.2 信息分析流程

雙端測序數(shù)據(jù)通過評估雙端測序數(shù)據(jù)通過評估（GC分布統(tǒng)計(jì)、質(zhì)量值Q20、Q30評估）、過濾后得到高質(zhì)量的數(shù)據(jù)(clean reads)，用于基因組大小的評估、基因組的組裝、GC含量的統(tǒng)計(jì)、雜合率的統(tǒng)計(jì)(以及組裝后的評估)。具體信息分析流程見圖2。

圖2 基因組調(diào)研圖信息分析流程

3 分析結(jié)果

3.1 測序結(jié)果統(tǒng)計(jì)

????????使用醫(yī)蛭樣品的基因組DNA構(gòu)建270 bp文庫，在 Illumina Hiseq測序平臺(tái)測序并過濾得到12.43 Gb高質(zhì)量的數(shù)據(jù)，總測序深度約為76 ×，測序數(shù)據(jù)Q20比例均在95.34%以上，Q30比例均在89.23%以上，滿足合同要求的50 ×以上的測序數(shù)據(jù)量。文庫高質(zhì)量的數(shù)據(jù)量的統(tǒng)計(jì)信息見表2。

表2 ??樣品測序結(jié)果統(tǒng)計(jì)表

Library	Data (Gb)	Depth (×)	Q20 (%)	Q30 (%)
270 bp	8.96	54	96.27	90.93
270 bp_add	3.47	21	95.34	89.23
Total	12.43	76	—	—

注：Library：調(diào)研圖的測序文庫；Data (Gb)：相應(yīng)測序文庫的測序數(shù)據(jù)量；Depth (×)：測序深度；Q20 (%)：測序質(zhì)量值在20以上的堿基比例；Q30 (%)：測序質(zhì)量值在30以上的堿基比例。

3.2 樣本質(zhì)量評估

3.2.1 樣品污染評估

????????樣品如果存在污染不僅會(huì)降低有效數(shù)據(jù)量，同時(shí)還會(huì)影響調(diào)研圖分析結(jié)果的準(zhǔn)確性，導(dǎo)致基因組大小、雜合率、重復(fù)序列比例和GC含量等基因組特征評估結(jié)果出現(xiàn)較大偏差，使得基因組組裝建庫策略出現(xiàn)偏差，最終影響后續(xù)的基因組組裝效果。為了判斷提取的樣品DNA是否受到污染，我們從測序得到的270 bp文庫中，隨機(jī)取10,000條單端reads，與NT庫進(jìn)行BLAST^[1]比對，270 bp文庫能夠比對上NT庫的reads分別占總reads數(shù)的1.71%，其中比對到xx 和xx上的reads數(shù)分別占比對上NT庫reads數(shù)的34.5%和6.43%，這兩個(gè)物種皆為醫(yī)蛭的近緣物種，且比對結(jié)果中未發(fā)現(xiàn)植物等異常比對，因此該樣品測序數(shù)據(jù)不存在污染，可用于基因組調(diào)研圖分析。一般的評估標(biāo)準(zhǔn)：如果有一定比例的reads比對上進(jìn)化距離較遠(yuǎn)的物種如植物，微生物等，則判斷樣品可能存在污染，需要進(jìn)一步檢查原因。具體比對統(tǒng)計(jì)表見表3。

表3 ??270 bp文庫NT庫比對詳表

Species	Aligned percentage (%)
A	34.5
B	6.43
C	2.92
D	2.92
E	2.33

注：Species：比對上的物種名稱；Aligned percentage (%)：比對到該物種的reads占所有比上NT庫reads的比例。

3.2.2 線粒體含量評估

????????由于線粒體中存在核酸序列，如果物種測序文庫中線粒體DNA含量過高時(shí)，會(huì)影響后期基因組組裝。因此評估文庫中線粒體DNA含量對判斷數(shù)據(jù)能否用于后續(xù)基因組組裝非常必要。為了評估測序數(shù)據(jù)中線粒體的含量，我們利用Illumina Hiseq測序得到的270 bp文庫與醫(yī)蛭近緣物種的線粒體序列（42,362 bp）進(jìn)行SOAP^[2]比對。比對結(jié)果發(fā)現(xiàn)雙端比上的reads數(shù)為166，占總reads的0.00%，單端比上的reads數(shù)為13，占總reads的0.00%，這兩個(gè)的比例都低于經(jīng)驗(yàn)值5%。由此判斷270 bp文庫測序數(shù)據(jù)的質(zhì)體含量很低，不影響后期基因組的組裝。比對統(tǒng)計(jì)結(jié)果見表4。

表4-1 ??270 bp文庫SOAP比對結(jié)果統(tǒng)計(jì)表

Type	Aligned reads number	Total reads number	Percentage (%)
Paired-read	166	59,800,490	0.00
Single-read	13	59,800,490	0.00

注：Type：比對上的reads的類型；Aligned reads number：比對上的reads條數(shù)；Total reads number：總的reads條數(shù)；Percentage (%)：比對上的reads占總的比例。

3.3 基因組特征評估

????????利用基因組調(diào)研圖進(jìn)行基因組特征的評估，分為四個(gè)方面：

1) 評估基因組大小;

2) 評估重復(fù)序列比例；

3) 評估雜合情況；

4) GC含量情況。

3.3.1 基因組大小、重復(fù)序列比例和雜合率評估

????????利用270 bp文庫數(shù)據(jù)構(gòu)建k=19的kmer分布圖（見圖3），進(jìn)行基因組大小、重復(fù)序列比率和雜合率的評估。由圖3知，平均kmer深度即主峰對應(yīng)的kmer深度為62。kmer深度出現(xiàn)在主峰對應(yīng)深度2倍以上的序列為重復(fù)序列，即深度大于125的kmer序列為重復(fù)序列。kmer深度出現(xiàn)在主峰對應(yīng)深度一半處的序列為雜合序列，即深度出現(xiàn)在31附近的kmer序列為雜合序列。根據(jù)kmer深度信息，總kmer數(shù)目/平均kmer深度即為基因組大小，估計(jì)基因組大小約162.99 Mbp。依據(jù)kmer分布情況，估計(jì)重復(fù)序列含量約16.23%，評估出的雜合率約為1.79%，因此該物種基因組屬于高雜合的復(fù)雜基因組。

圖3 Kmer分布圖

3.3.2 評估GC含量

????????基因組GC含量對二代基因組測序的隨機(jī)性有較大影響。過高(>65%)或過低(<25%)的GC含量會(huì)導(dǎo)致測序偏向性，嚴(yán)重影響基因組分析結(jié)果。物種GC含量是評估調(diào)研圖分析準(zhǔn)確性和后續(xù)基因組組裝難度的重要指標(biāo)之一。通過對調(diào)研圖文庫測序數(shù)據(jù)分析，該物種基因組的GC含量約38.03%，較為適中，不會(huì)影響調(diào)研圖分析的準(zhǔn)確性。見表5。

表5 ??基因組GC含量評估

Species	GC content (%)
Hirudo nipponia	38.03

注：Species：物種名；GC content (%)：GC含量。

????????綜上所述，該基因組大小約為162.99 Mb，重復(fù)序列比例約16.23%，雜合率約1.79%，基因組的GC含量約38.03%，從基因組基本結(jié)構(gòu)特征上看，該物種基因組屬于高雜合的復(fù)雜基因組。

參考文獻(xiàn)

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. Journal of molecular biology 1990, 215:403-410.

Li R, Li Y, Kristiansen K, Wang J: SOAP: short oligonucleotide alignment program. Bioinformatics 2008, 24:713-714.

其他案例

【項(xiàng)目文章】百邁客助力苦蕎基因組在線發(fā)表

【項(xiàng)目文章】NG芥菜基因組文章解讀

【項(xiàng)目文章】百邁客NG文章?lián)屜瓤?/a>

常見問題

基因組de novo測序是什么？

基因組de novo測序也叫基因組從頭測序，主要針對未知物種的基因組序列以及需要更新的基因組，通過構(gòu)建基因組DNA文庫，并進(jìn)行測序。然后通過生物信息學(xué)的方法對測序所得到的數(shù)據(jù)進(jìn)行拼接、組裝和注釋，從而獲得該物種完整的基因組序列圖譜。

三代基因組相比二代基因組的優(yōu)勢有哪些？

三代測序具有長度長的特點(diǎn)，平均讀長在10-15Kb，而二代測序的讀長為PE125-250bp，所以二代測序在遇到重復(fù)序列，雜合難題時(shí)，就很無力。而三代測序能有效的解決這些問題。所以三代基因組具有超高的組裝指標(biāo)，組裝錯(cuò)誤率更低，組裝的完整性更好等優(yōu)點(diǎn)。

三代的錯(cuò)誤率高能否用于基因組組裝？

三代的錯(cuò)誤率是隨機(jī)的堿基錯(cuò)誤率，錯(cuò)誤率達(dá)15%，但隨著自身覆蓋度的增加就可以進(jìn)行糾錯(cuò)，當(dāng)覆蓋度在30X以上時(shí)，堿基準(zhǔn)確度達(dá)99.99%以上。所以三代數(shù)據(jù)用于基因組組裝是完全沒有問題的。

基因組的樣品選擇？

基因組精細(xì)圖的樣品要盡量與調(diào)研圖樣品為同一個(gè)體，植物樣品盡量選擇無污染的組培苗、嫩葉等，而動(dòng)物樣品盡量選擇全血或者內(nèi)臟組織。

百邁客技術(shù)優(yōu)勢

評估準(zhǔn)確

基因組大小、雜合度、重復(fù)序列比例及倍性判斷精準(zhǔn)，k-mer圖示清晰易懂。

經(jīng)驗(yàn)豐富

林木、草本、海洋、淡水動(dòng)植物等300余種物種類型，擁有逾千例調(diào)研圖項(xiàng)目經(jīng)驗(yàn)。

實(shí)力認(rèn)證

提取建庫+生信分析，實(shí)力穩(wěn)扎穩(wěn)打，輔助參與多篇高質(zhì)量基因組合作文章見刊于國內(nèi)外雜志。

免費(fèi)獲取設(shè)計(jì)方案

基因組Survey測序分析

產(chǎn)品介紹

產(chǎn)品介紹

案例展示

基因組調(diào)研圖報(bào)告

1 項(xiàng)目概況

1.1合同分析內(nèi)容

1.2 分析結(jié)果概述

1.3 項(xiàng)目分析總結(jié)

2 項(xiàng)目流程

2.1 實(shí)驗(yàn)流程

2.2 信息分析流程

3 分析結(jié)果

3.1 測序結(jié)果統(tǒng)計(jì)

3.2 樣本質(zhì)量評估

3.2.1 樣品污染評估

3.2.2 線粒體含量評估

3.3 基因組特征評估

3.3.1 基因組大小、重復(fù)序列比例和雜合率評估

3.3.2 評估GC含量

參考文獻(xiàn)

其他案例

常見問題

相關(guān)文獻(xiàn)解讀

百邁客技術(shù)優(yōu)勢

評估準(zhǔn)確

經(jīng)驗(yàn)豐富

實(shí)力認(rèn)證

3.3.1 基因組大小、重復(fù)序列比例和雜合率評估