预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第四节基因表达数据的聚类分析聚类分析是模式识别中一种非常有吸引力的方法,特别适用于模式分类数不知道的情况。 从机器学习的角度来看,有两种基本的聚类分析: 有教师聚类 无教师聚类基因表达数据聚类分析一般包括以下几个步骤: (1)确定基因表达的数据 (2)计算相似性矩阵,各个矩阵元素代表两个基因的表达是否相似 (3)选择算法进行聚类分析 (4)显示分析结果。对数据进行聚类分析之前,必须将包含在基因表达矩阵中的数据进行相似程度分析,并且对分析结果进行量化。 通常情况下,相似往往被赋于一个较大的量化的值,而不相似则由一个较小的量化的值来表示。 在实际计算中,往往以距离代替相似的概念,相似性度量被转化为两个基因表达模式之间的距离。距离越小,表达模式越相近,反之,则表达模式差异大。几种常用的聚类方法1、简单聚类 假设有n个基因 表达数据向量分别为X1,X2,…,XN 令任意一个基因的表达向量为第一个聚类的中心 依次处理其它基因 在处理第i个基因时,首先计算该基因的表达数据向量与现有各类中心的距离 假设与第j类的距离Dij最小,并且Dij<T,则将基因i分配到第j类;否则生成一个新类,该类的中心为第i个基因的表达向量。2、层次式聚类3、K平均聚类 任意选取K个基因表达向量作为初始聚类中心 Z1,Z2,…,Zk 反复迭代计算 如果||X-Zj(l)||<||X-Zi(l)||(i=1,2,…,K,ij),则将X所代表的基因归于第j类。按照上述办法处理所有的基因; 经过上述处理,聚类可能发生变化,因此需要重新计算K个新聚类中心: 对于所有的聚类中心,如果Zj(l+1)=Zj(l)(j=1,2,…,K),则迭代结束,得到最后的聚类结果;否则继续进行迭代计算。4、自组织映射神经网络图9.12SOM聚类结果示意5、模糊聚类分析方法 主要过程: (1)建立模糊相似矩阵 (2)生成模糊等价矩阵 (3)构建动态聚类图6、聚类结果显示 分类分析方法 有监督学习 疾病诊断、细胞类型识别 样本分类:(例) 急性淋巴细胞白血病(ALL) 急性髓性白血病(AML)例:两类划分 问题: 基因的选择? 分类的方法? 贝叶斯分类法 支持向量机(SVM) k最近邻法 神经网络方法 决策树方法 投票分类法(多分类器) 7、主成分分析PCA图9.13主元素对应特征值图示分析基因表达数据 发现与疾病直接相关的基因 发现这些基因的活动规律第五节基因调控网络分析图9.16基因表达在化学催化中的作用图9.17代谢路径示例:脯氨酸的生物合成基因表达实际上是细胞、组织、器官受遗传和环境影响的结果。 一个基因的转录和表达由细胞的生化状态所决定,在一个基因的转录过程中,一组转录因子作用于该基因的启动子区域,控制该基因转录,而这些转录因子本身又是其它基因的产物。 当一个基因通过转录、翻译形成功能基因产物后,它将改变细胞的生化状态,从而直接或间接地影响其它基因的表达,甚至影响自身的表达。多个基因的表达不断变化,使得细胞的生化状态不断地变化。一个基因的表达受其它基因的影响,而这个基因又会影响其它基因的表达,这种相互影响、相互制约关系构成了复杂的基因表达调控网络。 基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网络。几种基因调控网络模型ABC ABC 2、线性组合模型3、加权矩阵模型4、互信息关联网络5、基因调控网络实例该基因网描述了四类实体: (a)细胞(组织,器官) (b)蛋白质 (c)基因 (d)物质 该基因网还描述了实体间两种关系: (a)反应(reaction),即通过交互作用产生新的实体或过程 (b)调控(regulatory)事件,特定反应对实体的作用。GeneNet网络