三年成全在线观看大全,中文字幕av一区二区,免费看的黄色视频,中文字幕无码在线

基因組Survey測序分析

高效,精準(zhǔn),快速

產(chǎn)品介紹

基因組survey以測序技術(shù)為基礎(chǔ),基于小片段文庫的低深度測序,通過K-mer分析,快速獲得基因組大小、雜合度、重復(fù)序列比例等基本信息,為制定該物種的全基因組de novo測序策略提供有效依據(jù)。

5

調(diào)研圖分析原理

調(diào)研圖分析基于k-mer的方法,所謂k-mer是指將核酸序列以滑窗的方法分成包含k個(gè)堿基的短序列,“mer”這個(gè)單詞的來源monomeric unit,單體單元。K是常數(shù),且一般為奇數(shù)(避免正反鏈混淆)。統(tǒng)計(jì)所有reads中所出現(xiàn)的k-mer類型及各類型k-mer的深度(或者頻率),繪制特定k-mer下不同深度k-mer片段的頻數(shù)統(tǒng)計(jì)圖,通常選擇K-mer分布最多的峰為主峰,從而得到基因組大小=K-mer總數(shù)/K-mer主峰深度值。

由于基因組存在雜合位點(diǎn)和重復(fù)序列,k-mer曲線往往不會(huì)呈現(xiàn)出良好的泊松分布,而是在主峰前后出現(xiàn)其他的峰,如果存在一定雜合度,會(huì)導(dǎo)致在主峰對應(yīng)的橫坐標(biāo)的二分之一處出現(xiàn)雜合峰,而一定的重復(fù)度則會(huì)在主峰對應(yīng)的橫坐標(biāo)的整數(shù)倍處出現(xiàn)重復(fù)峰。

 

 

調(diào)研圖分析內(nèi)容

評估基因組大??;

評估基因組雜合情況;

評估重復(fù)序列含量;

評估基因組GC含量;

為后續(xù)精細(xì)圖階段的文庫構(gòu)建提供策略建議。

6
002k1kalzy76lsbnmdn2b

 

 

 

基因組調(diào)研圖的意義

啟動(dòng)全基因組測序的必要前提

了解與近緣物種間的基因組差異信息

獲得某物種基因組的基本信息及難易程度

基因組調(diào)研圖報(bào)告

1 項(xiàng)目概況

1.1合同分析內(nèi)容

(1) 測序得到不低于50倍覆蓋度的數(shù)據(jù)量。

(2) 樣本質(zhì)量評估:

????a)外源物種污染率評估;

????b)線粒體含量評估;

(3) 基因組評估:

????a) 基因組大小評估;

????b) 雜合率評估;

????c) 重復(fù)序列比例評估;

????d) GC含量評估。

1.2 分析結(jié)果概述

(1) 測序獲得xx ?Gb數(shù)據(jù),總測序深度約為xx ×,Q20比例達(dá)到xx %以上,Q30比例達(dá)到xx %以上。

(2) 通過與NT庫比對表明樣品不存在污染。

(3) 對物種的線粒體評估,發(fā)現(xiàn)線粒體含量很低。

(4) 估計(jì)基因組的大小約xx Mb,雜合率約xx %,重復(fù)序列含量約xx %。

(5) 估計(jì)基因組的GC含量約xx %。

1.3 項(xiàng)目分析總結(jié)

????????分析表明,樣品不存在外源物種污染,且質(zhì)體含量低,能用于構(gòu)建精細(xì)圖;同時(shí),估計(jì)基因組大小約xx? Mb,基因組的雜合率約xx %,重復(fù)序列含量約xx %,因此該物種基因組屬于高雜合的復(fù)雜基因組。推薦的測序方案為xx? ×的270 bp文庫數(shù)據(jù)和xx? ×的20 Kb三代測序文庫數(shù)據(jù)。見表1。

表1 ??精細(xì)圖文庫建庫方案

Sequence data Library Depth (×) Data (Gb)
Fragment library 270 bp (sequenced) xx xx
Pacbio 20 Kb xx xx
Total xx xx

2 項(xiàng)目流程

2.1 實(shí)驗(yàn)流程

????????實(shí)驗(yàn)流程按照Illumina公司提供的標(biāo)準(zhǔn)protocol執(zhí)行,包括:DNA文庫制備實(shí)驗(yàn)和測序?qū)嶒?yàn)。實(shí)驗(yàn)流程見圖1

圖1 實(shí)驗(yàn)流程圖

????????提取基因組DNA ,進(jìn)行小片段文庫建庫測序。分為以下四個(gè)步驟:

(1)文庫構(gòu)建:物理破碎法(超聲波震蕩)將合格的基因組DNA破碎至目的片段(270 bp),然后經(jīng)過末端修復(fù)、加A、加接頭、目標(biāo)片段選擇和PCR等步驟構(gòu)建小片段測序文庫文庫;

(2)文庫質(zhì)檢:利用2100和Q-PCR檢測文庫片段大小和文庫定量,確定文庫是否符合測序標(biāo)準(zhǔn) ;

(3)芯片固定:通過橋式PCR將文庫固定到測序芯片上;

(4)上機(jī)測序利用Hiseq測序儀對文庫進(jìn)行雙端150 bp(PE 150)測序,測序所產(chǎn)生的數(shù)據(jù)經(jīng)過質(zhì)控后用于下一步信息分析。

2.2 信息分析流程

雙端測序數(shù)據(jù)通過評估雙端測序數(shù)據(jù)通過評估(GC分布統(tǒng)計(jì)、質(zhì)量值Q20、Q30評估)、過濾后得到高質(zhì)量的數(shù)據(jù)(clean reads),用于基因組大小的評估、基因組的組裝、GC含量的統(tǒng)計(jì)、雜合率的統(tǒng)計(jì)(以及組裝后的評估)。具體信息分析流程見圖2。

圖2 基因組調(diào)研圖信息分析流程

3 分析結(jié)果

3.1 測序結(jié)果統(tǒng)計(jì)

????????使用醫(yī)蛭樣品的基因組DNA構(gòu)建270 bp文庫,在 Illumina Hiseq測序平臺(tái)測序并過濾得到12.43 Gb高質(zhì)量的數(shù)據(jù),總測序深度約為76 ×,測序數(shù)據(jù)Q20比例均在95.34%以上,Q30比例均在89.23%以上,滿足合同要求的50 ×以上的測序數(shù)據(jù)量。文庫高質(zhì)量的數(shù)據(jù)量的統(tǒng)計(jì)信息見表2。

表2 ??樣品測序結(jié)果統(tǒng)計(jì)表

Library Data (Gb) Depth (×) Q20 (%) Q30 (%)
270 bp 8.96 54 96.27 90.93
270 bp_add 3.47 21 95.34 89.23
Total 12.43 76

注:Library:調(diào)研圖的測序文庫;Data (Gb):相應(yīng)測序文庫的測序數(shù)據(jù)量;Depth (×):測序深度;Q20 (%):測序質(zhì)量值在20以上的堿基比例;Q30 (%):測序質(zhì)量值在30以上的堿基比例。

3.2 樣本質(zhì)量評估

3.2.1 樣品污染評估

????????樣品如果存在污染不僅會(huì)降低有效數(shù)據(jù)量,同時(shí)還會(huì)影響調(diào)研圖分析結(jié)果的準(zhǔn)確性,導(dǎo)致基因組大小、雜合率、重復(fù)序列比例和GC含量等基因組特征評估結(jié)果出現(xiàn)較大偏差,使得基因組組裝建庫策略出現(xiàn)偏差,最終影響后續(xù)的基因組組裝效果。為了判斷提取的樣品DNA是否受到污染,我們從測序得到的270 bp文庫中,隨機(jī)取10,000條單端reads,與NT庫進(jìn)行BLAST[1]比對,270 bp文庫能夠比對上NT庫的reads分別占總reads數(shù)的1.71%,其中比對到xx 和xx上的reads數(shù)分別占比對上NT庫reads數(shù)的34.5%和6.43%,這兩個(gè)物種皆為醫(yī)蛭的近緣物種,且比對結(jié)果中未發(fā)現(xiàn)植物等異常比對,因此該樣品測序數(shù)據(jù)不存在污染,可用于基因組調(diào)研圖分析。一般的評估標(biāo)準(zhǔn):如果有一定比例的reads比對上進(jìn)化距離較遠(yuǎn)的物種如植物,微生物等,則判斷樣品可能存在污染,需要進(jìn)一步檢查原因。具體比對統(tǒng)計(jì)表見表3。

表3 ??270 bp文庫NT庫比對詳表

Species Aligned percentage (%)
A 34.5
B 6.43
C 2.92
D 2.92
E 2.33

注:Species:比對上的物種名稱;Aligned percentage (%):比對到該物種的reads占所有比上NT庫reads的比例。

3.2.2 線粒體含量評估

????????由于線粒體中存在核酸序列,如果物種測序文庫中線粒體DNA含量過高時(shí),會(huì)影響后期基因組組裝。因此評估文庫中線粒體DNA含量對判斷數(shù)據(jù)能否用于后續(xù)基因組組裝非常必要。為了評估測序數(shù)據(jù)中線粒體的含量,我們利用Illumina Hiseq測序得到的270 bp文庫與醫(yī)蛭近緣物種的線粒體序列(42,362 bp)進(jìn)行SOAP[2]比對。比對結(jié)果發(fā)現(xiàn)雙端比上的reads數(shù)為166,占總reads的0.00%,單端比上的reads數(shù)為13,占總reads的0.00%,這兩個(gè)的比例都低于經(jīng)驗(yàn)值5%。由此判斷270 bp文庫測序數(shù)據(jù)的質(zhì)體含量很低,不影響后期基因組的組裝。比對統(tǒng)計(jì)結(jié)果見表4。

表4-1 ??270 bp文庫SOAP比對結(jié)果統(tǒng)計(jì)表

Type Aligned reads number Total reads number Percentage (%)
Paired-read 166 59,800,490 0.00
Single-read 13 59,800,490 0.00

注:Type:比對上的reads的類型;Aligned reads number:比對上的reads條數(shù);Total reads number:總的reads條數(shù);Percentage (%):比對上的reads占總的比例。

3.3 基因組特征評估

????????利用基因組調(diào)研圖進(jìn)行基因組特征的評估,分為四個(gè)方面:

1) 評估基因組大小;

2) 評估重復(fù)序列比例;

3) 評估雜合情況;

4) GC含量情況。

3.3.1 基因組大小、重復(fù)序列比例和雜合率評估

????????利用270 bp文庫數(shù)據(jù)構(gòu)建k=19的kmer分布圖(見圖3),進(jìn)行基因組大小、重復(fù)序列比率和雜合率的評估。由圖3知,平均kmer深度即主峰對應(yīng)的kmer深度為62。kmer深度出現(xiàn)在主峰對應(yīng)深度2倍以上的序列為重復(fù)序列,即深度大于125的kmer序列為重復(fù)序列。kmer深度出現(xiàn)在主峰對應(yīng)深度一半處的序列為雜合序列,即深度出現(xiàn)在31附近的kmer序列為雜合序列。根據(jù)kmer深度信息,總kmer數(shù)目/平均kmer深度即為基因組大小,估計(jì)基因組大小約162.99 Mbp。依據(jù)kmer分布情況,估計(jì)重復(fù)序列含量約16.23%,評估出的雜合率約為1.79%,因此該物種基因組屬于高雜合的復(fù)雜基因組。

圖3 Kmer分布圖

3.3.2 評估GC含量

????????基因組GC含量對二代基因組測序的隨機(jī)性有較大影響。過高(>65%)或過低(<25%)的GC含量會(huì)導(dǎo)致測序偏向性,嚴(yán)重影響基因組分析結(jié)果。物種GC含量是評估調(diào)研圖分析準(zhǔn)確性和后續(xù)基因組組裝難度的重要指標(biāo)之一。通過對調(diào)研圖文庫測序數(shù)據(jù)分析,該物種基因組的GC含量約38.03%,較為適中,不會(huì)影響調(diào)研圖分析的準(zhǔn)確性。見表5。

表5 ??基因組GC含量評估

Species GC content (%)
Hirudo nipponia 38.03

注:Species:物種名;GC content (%):GC含量。

????????綜上所述,該基因組大小約為162.99 Mb,重復(fù)序列比例約16.23%,雜合率約1.79%,基因組的GC含量約38.03%,從基因組基本結(jié)構(gòu)特征上看,該物種基因組屬于高雜合的復(fù)雜基因組。

參考文獻(xiàn)

Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ: Basic local alignment search tool. Journal of molecular biology 1990, 215:403-410.

Li R, Li Y, Kristiansen K, Wang J: SOAP: short oligonucleotide alignment program. Bioinformatics 2008, 24:713-714.

其他案例

基因組de novo測序是什么?

基因組de novo測序也叫基因組從頭測序,主要針對未知物種的基因組序列以及需要更新的基因組,通過構(gòu)建基因組DNA文庫,并進(jìn)行測序。然后通過生物信息學(xué)的方法對測序所得到的數(shù)據(jù)進(jìn)行拼接、組裝和注釋,從而獲得該物種完整的基因組序列圖譜。

三代基因組相比二代基因組的優(yōu)勢有哪些?

三代測序具有長度長的特點(diǎn),平均讀長在10-15Kb,而二代測序的讀長為PE125-250bp,所以二代測序在遇到重復(fù)序列,雜合難題時(shí),就很無力。而三代測序能有效的解決這些問題。所以三代基因組具有超高的組裝指標(biāo),組裝錯(cuò)誤率更低,組裝的完整性更好等優(yōu)點(diǎn)。

三代的錯(cuò)誤率高能否用于基因組組裝?

三代的錯(cuò)誤率是隨機(jī)的堿基錯(cuò)誤率,錯(cuò)誤率達(dá)15%,但隨著自身覆蓋度的增加就可以進(jìn)行糾錯(cuò),當(dāng)覆蓋度在30X以上時(shí),堿基準(zhǔn)確度達(dá)99.99%以上。所以三代數(shù)據(jù)用于基因組組裝是完全沒有問題的。

基因組的樣品選擇?

基因組精細(xì)圖的樣品要盡量與調(diào)研圖樣品為同一個(gè)體,植物樣品盡量選擇無污染的組培苗、嫩葉等,而動(dòng)物樣品盡量選擇全血或者內(nèi)臟組織。

百邁客技術(shù)優(yōu)勢

評估準(zhǔn)確

基因組大小、雜合度、重復(fù)序列比例及倍性判斷精準(zhǔn),k-mer圖示清晰易懂。

經(jīng)驗(yàn)豐富

林木、草本、海洋、淡水動(dòng)植物等300余種物種類型,擁有逾千例調(diào)研圖項(xiàng)目經(jīng)驗(yàn)。

實(shí)力認(rèn)證

提取建庫+生信分析,實(shí)力穩(wěn)扎穩(wěn)打,輔助參與多篇高質(zhì)量基因組合作文章見刊于國內(nèi)外雜志。