预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于支持向量机和极限学习机的功能位点识别的开题报告 一、研究背景 功能位点是蛋白质分子中具有特定生物学功能的区域,其在细胞内发挥着重要作用。功能位点的研究能够为药物设计、酶催化机制等方面提供重要的参考。因此,功能位点识别一直是计算生物学研究的热点。 当前,有许多的计算方法可以对蛋白质序列进行功能位点识别。例如,传统的手工特征提取和分类算法、深度学习模型等。其中,支持向量机(SupportVectorMachine,SVM)和极限学习机(ExtremeLearningMachine,ELM)是两种应用较为广泛的机器学习方法,都有着不错的性能表现,也被应用到了蛋白质功能位点识别中。然而,目前尚未有较为完整的功能位点数据集能够满足功能位点识别的需要。因此,进行一个较完备的功能位点数据集搜集并对比SVM和ELM方法在功能位点上的性能表现,实现即是基础和进步意义。 二、研究内容 1.数据搜集 对当前公开数据库的功能位点数据进行筛选和搜集,建立较为完整的功能位点数据库,充分反映各种类型、各种规模的蛋白质结构学和生物数据学研究领域,包括但不限于SWISS-MODEL、瑞典斯德哥尔摩大学和Harvard一些研究组发布的蛋白质结构生物数据等。 2.特征提取 对搜集到的数据库,在基础的蛋白质结构信息(如氨基酸序列、氨基酸物理化学性质等)的基础上,采用文献相对完备的基于氨基酸生物信息学信息提取筛选。其目的在于建立较高维度的特征,并去除部分无效特征,以达到更好的分类结果。 3.算法选用 本论文将基于支持向量机(SVM)和极限学习机(ELM)两种机器学习算法,分别完成对功能位点的识别,对两种算法的性能指标进行比较。其中SVM是一种二分类判别模型,通过寻找两类样本之间的最佳分割面进行分类,基于Vapnik-Chervonenkis猜想,并将不可分的样本通过核方法映射到一个高维空间中。而ELM是一种单层前馈神经网络,其使用随机初始化的输入权重和偏置,通过最小化输出误差而不是权重来学习。 4.实验比较 使用所搜集的功能位点数据集,对比SVM和ELM在不同参数下的准确率、召回率、F1分数等指标。并分析两种算法的性能差别,讨论精度提升的可能性。 三、研究意义和创新点 本论文将对蛋白质功能位点的识别进行较为系统的研究,并探讨支持向量机和极限学习机在这一问题上的应用。主要的意义和创新点如下: 1.搜集较为完整的功能位点数据集,基于氨基酸生物信息学信息提取,建立较高维度的特征,接近现有的最高维度。 2.在这个数据集上,对比支持向量机和极限学习机在精度、误差等方面的性能,并通过性能差异说明两种算法的适用性。 3.深入探讨各个算法的参数调优问题,在此基础上提出优化算法的方案,提高实验准确性。 4.对基于氨基酸生物信息学的抽取技术合理性进行了考察并分析了其实际应用价值。 综上所述,本论文将对蛋白质功能位点识别领域起到积极推动作用,具有一定的实际应用价值和学术意义。