全基因組關(guān)聯(lián)分析是對多個個體在全基因組范圍的遺傳變異多態(tài)性進行檢測,獲得基因型,進而將基因型與可觀測的性狀,即表型,進行群體水平的統(tǒng)計學分析,根據(jù)統(tǒng)計量或P值篩選出有可能影響該性狀的遺傳變異。
通過全基因組大樣本重測序?qū)又参镏匾N質(zhì)資源進行全基因組的基因型鑒定,并與關(guān)注的表型數(shù)據(jù)進行全基因組關(guān)聯(lián)分析(GWAS),進而找到與關(guān)注表型相關(guān)的SNP位點,定位與性狀相關(guān)基因,為后續(xù)動植物的育種提供科學理論依據(jù)。
SLAF-GWAS是應用簡化測序的方式,以基因組中檢測到的單核苷酸多態(tài)性(single?nucleotide?ploymorphism,SNP)為分子遺傳標記,進行全基因組水平上的對照分析或相關(guān)性分析,統(tǒng)計分析每個變異與目標性狀之間的關(guān)聯(lián)性大小,通過比較發(fā)現(xiàn)影響復雜性狀的基因變異的一種策略。
百邁客自2009年成立以來,經(jīng)過多年的厚積薄發(fā),在群體GWAS研究方面已完成上百個物種的項目,不完全統(tǒng)計,協(xié)助研究者發(fā)表文章70余篇,累計影響因子達340+,其中包含多篇Nature Communications、Molecular?Plant Plant?Biotechnology?Journal及The?Plant?Journal等國際等級期刊。
在某一群體中,不同座位上某兩個基因同時遺傳的頻率明顯高于預期的隨機頻率的現(xiàn)象,稱連鎖不平衡?(linkage?disequilibrium)?。自然群體中連鎖強度以D’或r2表示,D’或r2越接近于1,代表連鎖關(guān)系越強。一般用r2大于0.1的數(shù)據(jù)作為連鎖不平衡的衰減(LD?decay)的數(shù)值,LD-decay越長,代表物種的SNP間發(fā)生重組的概率越小,LD-decay越短,代表物種的SNP間發(fā)生重組的概率越大。
基于SNP,利用TASSEL軟件的混合線性模型(compressed?MLM)得到關(guān)聯(lián)值,公式計算為:y=?Xα+Qβ+Kμ+e。其中,通過admixture軟件計算樣品群體結(jié)構(gòu)Q,通過SPAGeDi軟件計算樣品間親緣關(guān)系K,X為基因型,y為表型,最終每個SNP位點都能得到一個關(guān)聯(lián)值。最終將性狀關(guān)聯(lián)到基因組XX號染色體上。
基于SNP,利用Haploview單體型預測軟件,預測得到單體型塊(趨向于整體遺傳的基因序列,Block)。Block大小分布體現(xiàn)了在整個基因組范圍內(nèi)趨向于整體往下遺傳的基因序列的長度,block越小,說明基因組重組越多。
一般情況下,全基因組關(guān)聯(lián)分析的曼哈頓圖常常與染色體位置、LD-Block圖進行聯(lián)合分析,根據(jù)顯著關(guān)聯(lián)的SNP位點確定注釋的染色體區(qū)域,同時在該區(qū)域進行LD-Block分析,找到與該位點連鎖較強的其他SNP位點,并對其所在的基因進行功能注釋。
1、保證選取的樣本具有足夠的代表性;
2、樣本中不能有明顯的亞群分化(例如生殖隔離等),因為明顯分化的群體會使得遺傳背景的噪音較大;
3、建議選擇幾個比較重要且遺傳力較高的表型性狀作為研究的重點;
4、質(zhì)量性狀盡量為0、1二值性狀,并且兩類性狀的樣本數(shù)應當盡量相近;
5、數(shù)量性狀盡量√準量化記錄(如抗病性可以量化為發(fā)病率、死亡率、存活率、病斑數(shù)、病斑面積等,而不是簡單的多級衡量),并使表型總體呈近似正態(tài)分布;
6、栽培植物可以進行多年多點多重復記錄,多年多點的觀測結(jié)果可以分別進行關(guān)聯(lián)分析,多重復可以取平均值進行關(guān)聯(lián)分析;
7、表型變異豐富、性狀有明顯的主效位點控制時樣本量可以適當減小,推薦200個以上;表型差異較小,多基因控制時樣本量應當增大,推薦500個以上。
非嚴格遺傳群體:
1、種質(zhì)資源
2、半同胞家系,混合家系
3、MAGIC/NAM家系
4、多個F2/RIL/全同胞家系
5、高雜合類物種:F1群體