预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基因表达聚类分析及在肿瘤研究中的应用价值【摘要】基因芯片技术日益广泛应用于生物学和医学领域包括肿瘤研究。其中一项重要的工作是分析实验产生的海量数据。聚类分析是基因表达数据分析的一种重要工具它包括三种常用的聚类算法:分层聚类k-均值聚类和som聚类。基因表达谱在肿瘤研究中有广泛的应用通过基因表达聚类分析已经获得许多有价值的发现。该文介绍了基因聚类分析的常用算法以及聚类分析在肿瘤基因表达研究中的应用。【关键词】基因芯片;聚类分析;肿瘤数的被诱导水平或被抑制水平在视觉上和数学上都能达到一致。经过数据过滤和标准化处理的数据可进行下一步的分析如聚类分析。2基因聚类分析基因数据标准化处理后可以进行基因聚类分析。基因聚类分析的目的在于按某种相似性标准(如皮尔逊相关系数或欧氏距离)将基因划为若干类(群)使同类基因具有高度同质性。所以基因聚类分析实质上是建立各种不同的数学模型这些模型把基于相似数据特征的基因组合在一起。在基因表达聚类中归为一个类的基因在功能上可能相似或存在关联它们可能具有相同的调控元件或执行相似的功能所以通过基因聚类分析可以考察未知基因的功能信息或已知基因的未知功能信息[7]。值得注意的是目前基因聚类方法已不局限于只对基因进行聚类合并由于基因芯片数据的高维性只对基因进行聚类合并有时并不能正确反映基因的表达模式对基因和样本进行双聚类可以更好地发现基因表达模式并且具有更清晰的生物学解释[8]。基因聚类分析包括多种算法最常用的算法有三种:分层聚类法、k-均值聚类和som聚类。2.1分层聚类分层聚类(hierarchicalclusteringhcl)本质上是将有相似表达模式的类聚合在一起并以分层的系统形式表示出来。分层聚类根据聚类方式可分为自底向上法(bottom-upmethod)和自顶向下法(top-downmethod)[9]。自底向上法的聚类过程为:将基因当作元素计算所有基因间的距离在所有基因中找到两个基因距离最小基因将它们归入一个类中然后将距离这个类最近的基因加入到这个类中形成新的类反复进行这个过程直到只剩下一个类而这个类包含了所有的基因。分层聚类可根据聚类结果自动构建具有分层结构的系统树所以结果是可视的和基因间的关系是明确的(图1)。eisen等[7]将分层聚类首次用于基因的共表达分析并用于酵母共表达基因的研究。为了利于生物学家判断基因表达情况作者提出使用系统树和线条颜色变化结合的方法使分层聚类成为基因聚类的经典算法。由于聚类结果易判断和解释分层聚类在肿瘤研究分析中获得了广泛的应用。分层聚类方法也有不足之处首先是不能很好聚类没有层次结构的数据(这些数据是很常见的)容易受噪声影响其次它没有统一的评价函数使聚类具有了任意性而且计算复杂度较高。2.2k-均值聚类k-均值聚类(k-meanclusteringkmc)算法需要先根据预先指定的类数k来选择初始凝聚点根据欧式距离将每个样本归到最接近或相似的凝聚点形成类再用各类的重心代替初始凝聚点重新分配将每个样品不断地归类直至分类达到稳定。k-均值聚类算法是一种动态聚类方法以最小误差平方和作为评价函数其聚类过程简单并且适用于各种类型数据在基因聚类中有广泛应用(图2)。sorensen等[10]在黑腹果蝇的热胁迫全基因表达分析中利用类数设为20的k-均值聚类来比较差异表达的基因。k-均值聚类的缺点是对初始凝聚点敏感聚类结果很容易受初使凝聚点的影响聚类产生的结果没有结构感不易让人理解。2.3som聚类som聚类(self-organizingmapclusteringsom)本质是由teuvokohonen提出的一种人工神经网络聚类分析模型。它是一种结构简单的单层竞争性神经网络通过自身的训练自动对输入模式进行分类。som网络中的各个神经元通过竞争来获取对输入模式的响应机会最后仅剩下一个神经元成为对应输入模式响应的胜利者并将胜利的神经元的信息以拓扑的形式给出来聚类结果是相似的模式(用神经元代表)被放入一组(图3)。som聚类应用了类间的全局关系能够比较大数据集内的相似性关系更加稳健和准确对噪声也较为稳定。wang等[11]为理解评价和分析基因芯片实验产生的大量数据从而发现基因表达中隐藏的模式使用som降低原始数据的维性并在som拓扑平面上显示肿瘤样本然后再使用分层聚类和k-均值聚类识别样本分类的基因表达模式。他们的研究表明通过使用som作为中间步骤分析全基因组的基因表达数据可以更早地揭示基因表达模式。3基因聚类在肿瘤研究中的应用在遗传上肿瘤是涉及到多基因改变的产物所以肿瘤研究中要高通量高效比较多基因的表达水平这正是