预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

GWAS分析培训班第⼆期
 张磊 2017-3-30 博奥⽣物集团有限公司 ⽣物芯⽚北京国家⼯程研究中⼼ 北京博奥晶典⽣物技术有限公司 ⽬录 基础知识介绍 PLINK介绍 TASSEL介绍 典型案例 Contents Contents⽬录 part1基础知识介绍 基础知识介绍 常⽤术语 ●基因座(Locus): 染⾊体上的⼀个固定位置。 ●等位基因(Allele) 同源染⾊体上的⼀段DNA序列在给定locus上的多种变化形式。 ●等位基因频率 某个allele在所有样本中的频率。 ●次等位基因频率(MAF) minorallelefrequency 4 基础知识介绍 ●基因型(genotype) AC、AT、AG、CG、CT、GC、GT、AA、TT、CC、GG ●单体型(haplotype) ●哈代-温伯格平衡(Hardy-Weinbergequilibrium,HWE): 对于⼀个⼤且随机交配的种群,基因频率和基因型频率在没有迁移、突变和选择的条件下会保 持不变。 f(A)=pandf(a)=q p2,2pq,andq2:Hardy–Weinbergproportions 5 基础知识介绍 基因型AAACCC总数 数⽬146913851612 p=(2*1469+138)/(2*1612)=0.954 q=1–p=0.046 假设HWE: Exp(AA)=p^2*1612=1467.4 Exp(AC)=2pq*1612=141.2 Exp(CC)=q^2*1612=3.4 Pearson’s卡⽅检验统计量: =(1469-1467.4)^2/1467.4+(141.2-138)^2/141.2+ (3.4-5)^2/3.4 =0.83<3.84 Pvalue>0.05=>不能拒绝HWE的零假设6 基础知识介绍 Callrate(分型成功率): ●SNPcallrate:分型成功的个体数⽬/样本量 ●个体callrate:分型成功的SNP数⽬/芯⽚上SNP总数⽬ e.g.Axiom™hNCG-SNP有551363个SNPs,检测192个体。某个体分型成功的SNPs数⽬为 523120,则个体callrate=523120/551363=0.948776;SNPAX-123在188个体中成功分型,则 SNPcallrate=188/192=0.9791667 基因型导出软件: Affymetrix:GTC Illumina:GenomeStudio 7 基础知识介绍 全基因组关联分析常⽤⽅法 Case-control试验设计: ●卡⽅检验、fisher精确检验 ●Logistic回归分析:可校正年龄、性别、群体分层、体重等可能的混杂因素。 8 基础知识介绍 全基因组关联分析常⽤⽅法 动植物常⽤的试验设计: ●针对数量性状:⽐如体重、⾁质、产奶量、千粒重、株⾼、穗⻓、抗病性等等。 ●线性回归分析(GLM):可校正年龄、性别、群体分层、体重等可能的混杂因素。 ●混合线性模型分析(MLM):除校正上述因素外,还可校正个体间亲缘关系。 9 基础知识介绍 全基因组关联分析常⽤⽅法 ⼀般线性模型(GLM):Y=Xβ+e Y:性状表型值向量; β:SNP、群体结构、环境等的固定效应向量 22 e:残差效应向量,e~N(0,Iσe),其中I为单位阵,σe表示随机残差⽅差 混合线性模型(MLM):Y=Xβ+Sα+Qv+Zu+e Y:性状表型值向量 β:除SNP和群体结构之外的固定效应向量 α:SNP效应向量 v:群体结构效应向量 u:多基因背景效应向量 22 e:残差效应向量,e~N(0,Iσe),其中I为单位阵,σe表示随机残差⽅差 X、S、Q、Z分别为β、α、v、u的关联矩阵。10 基础知识介绍—替换 全基因组关联分析基本流程 Affymetrix:cel lllumina:idat Affymetrix:GTC Illumina:GenomeStudio PCA或MDS 卡⽅检验、fisher精确检验、 logistic回归、GLM、MLM 11 基础知识介绍 12 3 1:ManhattanPlot 2:QQ图 3:SNP分型聚类图 12 Contents⽬录 part2 PLINK介绍 ⽂件格式 ●PED 第1列:家系ID●MAP 第2列:个体ID第1列:染⾊体ID 第3列:⽗亲ID第2列:SNPID 第4列:⺟亲ID第3列:SNP的遗传位置(cM) 第5列:性别(1:男性;2:⼥性)第4列:SNP的物理位置(bp) 第6列:患病状态(0