预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

浅谈系统发育分析 任航行、哈斯、何晓红 2008年1月13日 主要内容 {一、理论依据 {二、系统发育分析步骤 {三、注意及存在问题 理论依据(1) {分子时钟假说: 对于每一个给定的基因(或者蛋白质),其分子 进化大致是恒定的。 {意义: 如果蛋白质序列的进化保持一个恒定的速率,那么 这个速率就能被用于推算不同物种序列的发生分化的时 间。 分子时钟假说并不适用于所有的蛋白质。分子时钟 只能用于在长期进化历程中仍保持其生物学功能的那些 基因。 理论依据(1) 理论依据(1) {中性理论: “在生物分子层次上的进化改变不是由自然选择作用 于有利突变引起的,而是在连续的突变压之下由选择 中性或非常接近中性的突变的随机固定造成的,中性 突变是指对当前适应度无影响的突变。” {否认自然选择在生物进化中的作用,认为生物大分子 的进化的主要因素是机会和突变压力。 理论依据(2) {进化及遗传模型(Pennyetal.,1994) {模型组成: 1、序列有指定的来源并且正确无误。 2、序列是同源的,而序列不是“paralog“的混合物。 3、序列比对中,不同序列的同一个位点都是同源的 4、在接受分析的一个序列组中,序列之间的系统发育史 是相同的。 5、样本足以解决感兴趣的问题。 理论依据(2) 模型组成: 6、样本序列之间的差异代表了感兴趣的宽组。 7、样本序列之间的差异包含了足以解决感兴趣的问题 的系统发育信号。 8、样本序列是随机进化的。 9、序列中的所有位点的进化都是随机的。 10、序列中的每一个位点的进化都是独立的。 系统发育数据分析步骤 比对 建立取代模型 建立进化树 进化树评估 系统发育数据分析步骤(1) 1、建立数据模型(比对) 基本步骤包括: {选择合适的比对程序(计算机依赖性;系统发 育标准;比对参数评估;利用基本结构或者 高级结构进行比对;数学优化) {从比对结果中提取数据集(注意:空位分值的 处理) 系统发育数据分析步骤(2) 2、决定取代模型: {碱基取代速率模型 在DNA中四种转换的频率比八种颠换的频率要 高;这些偏向会影响两个序列之间的预计的分歧。 {位点内速率差异模型 关于位点之间的速率差异(或者叫做位点异质 性),有一个最明显的例子,就是在一个编码序列中, 三联体编码的位点差异。 系统发育数据分析步骤(2) 3、建树方法 3.1、基于算法和基于标准 相邻连接方法(NJ)是一个纯粹的基于算法的 建树方法,这个方法只得到一个进化树; 一个基于标准的距离建树方法,将得到多个进化 树并对所有可能的进化树(不管这些进化树是否产生) 进行评估。 3、建树方法 3.2、基于距离和基于特征符 {距离建树方法 根据一些尺度计算出双重序列的距离,然后抛 开真实数据,只是根据固定的距离建立进化树; {基于特征符的建树方法 在建立进化树时,优化了每一个特征符的真实 数据模式的分布,于是双重序列的距离不再固 定,而是取决于进化树的拓扑结构。——最常用 的基于特征符的建树方法包括MP和ML。 距离建树方法 {非加权配对组算术方法(UPGMA, unweightedpairgroupmethodwith arithmeticmean) {相邻连接方法(NJ,neighborjoining) {最小进化方法(ME,MinimumEvolution) Distance-basedmethods 6个分类单元的距离矩阵 NJ法构造的系统发育树 究竟哪一个基于距离的建树程序最好? {模拟研究表明ME最好(Huelsenbeck,1995)。 {对于绝大多数数据集而言,一般理想模型会 比MEGA方法要好些。 究竟哪一个基于距离的建树程序最好? {模拟研究指出,对于一个大范围的进化树形 状空间,UPGMA的可操作性很差 (Huelsenbeck,1995)。 {NJ是最快的程序,并且所产生的进化树同ME 进化树相比,非常相近(RzhetskyandNei, 1992;Li,1997)。 特征符建树方法 {最大简约方法(MP,MaximumParsimony) 是一种优化标准:对数据最好的解释也是最简单 的,而最简单的所需要的特别假定也最少。 在实际应用中,MP进化树是最短的,也是变化 最少的进化。MP分析期望能够产生大量的(有时候 是成千上万个)具有相同分值的进化树。 特征符建树方法 {最大似然方法(ML,MaximumLikelihood) ML期望能够搜寻出一种进化模型,使得这个模型所能 产生的数据与观察到的数据最相似。 可以计算出每个位点的似然值,所有位点的似然值相 乘就得到了整个进化树的似然值。 在模拟研究中,如果对由