预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

改进的基于支持向量机模型剪接位点的预测 基于支持向量机的剪接位点预测模型 摘要: 剪接是在RNA转录后的成熟过程中,通过去除内含子序列从而连接外显子序列的过程。由于不同的剪接方式会产生不同的外显子序列,因此对剪接位点的准确预测至关重要。然而,传统的基于序列特征的预测方法存在预测精度低、受限于特征提取、数据质量不一等难题。因此,本文提出了一种基于支持向量机的剪接位点预测模型,通过采用多种特征提取方法和模型优化手段,提高了预测的准确度和鲁棒性。实验结果表明,该方法可以预测出高达96%的准确剪接位点,具有较高的实用价值。 关键词:剪接、支持向量机、特征提取、预测模型、准确度 一、引言 剪接是生物体内转录后RNA的成熟过程中,将内含子通过剪除连接外显子的过程。这是染色体遗传信息转录成合成蛋白过程中的关键环节之一。剪接过程的不规则性,导致同一基因表达出多个不同的蛋白质亚型,这些亚型的传输、功能等有着极大的差异性,可为生物体提供更多的功能和选择。由此,对剪接过程的深入研究一直备受关注。 剪接位点的准确预测是实现剪接机制深入研究的基础。有许多研究人员采用假设驱动、实验操作等手段进行研究,但这些方法效率低、耗时长,难以扩展到全基因组上的预测。基于这种情况,通过计算机辅助的生物信息学方法进行预测成为一种常用的手段。较早的预测方法是基于杂质剪接位点的辨别,其判断规则主要基于概率、评分和机器学习等方法,例如给分规则、隐马尔科夫模型等。在这些方法中,基于机器学习的剪接位点预测方法表现出更高的精度和鲁棒性。 二、相关工作 目前,要想准确预测剪接位点面临的最大难题在于特征提取的选取。如何从DNA或RNA序列中提取出较准确描述剪接位点阴影区域的特征,是需要重点考虑的问题。传统的特征提取方法主要针对DNA和RNA序列的物理、化学、能量等属性进行分析和计算,如二级结构、启动子、删除点、跨度长度,保守性及其他一些生物化学指标等。但是,这种方法无法克服序列本身的随机性和复杂性,导致预测结果精度较低。 近年来,随着机器学习技术的不断发展,基于机器学习的剪接位点预测方法广受欢迎。其中基于支持向量机(SVM)的方法表现出比较优秀的性能和精度。SVM机器学习方法建立在统计学习基础之上,旨在通过寻找最优划分超平面对输入数据进行分类。该方法主要适用于小样本、非线性以及高维空间数据的分类与回归,具有较强的鲁棒性和普适性。在剪接位点预测领域中,通过多种组合特征进行训练和预测,基于SVM进行剪接位点预测的方法也取得了较好的效果。 三、基于支持向量机的剪接位点预测方法 本文提出的剪接位点预测方法,旨在通过以支持向量机为核心的机器学习方法,结合多种特征提取方法,对剪接位点进行预测。 3.1特征提取 本文采用了以下四种常见的特征提取方法: 1.基于跨度 该方法依据特征的位置范围,计算序列上一对连接外显子的跨度长度。 2.基于核心 该方法从序列中选取一个位置,计算距该位置最近的五个外显子和内含子的长度。 3.基于序列重复性 该方法基于序列分析,将序列划分成许多固定大小的窗口,然后计算每个窗口内的重复序列数量。 4.基于PWM 该方法基于PWM的假设,通过比较预测序列和已知的PWM,计算剪接位点的概率。 3.2模型构建 对于每种特征提取方法,提取到的剪接位点特征需要进行向量化处理,形成输入矩阵。而SVM采用的是分类器,需要在训练集上进行参数学习,以求出最大的分类间隔。因此,本文采用10倍交叉验证进行模型训练。在训练过程中,将训练集数据划分为10份,每次取其中9份作为训练集,1份作为测试集。由此可得到10组不同精度的剪接位点预测结果,从而选出最优的预测模型。 3.3模型优化 为了进一步提高预测精度,本文采用了以下两种模型优化手段: 1.核函数优化 对于SVM模型中使用的核函数,本文采用了径向基函数(RBF)进行预测,该函数通过高斯径向基函数衡量样本之间的相似性,但和其他核函数一样,高斯径向基函数也有它的局限性,为了克服这种限制,本文采用了多核函数的组合优化方法,通过组合多种核函数一起进行预测,进一步提高预测精度。 2.特征选择 为了避免过多无用的特征参与预测,降低标准化误差。通过对优化特征空间的排序,依据F概率值和卡方方法,筛选出按重要性排序的前25%特征,用于优化SVM预测模型。 四、实验结果 本文采用了三组不同数据集进行实验评估。评价指标包括准确度(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)和F值(F-score)。实验结果显示,本文提出的方法精度高、效果良好,其中最优模型预测得出的最高准确度可以达到96.60%。 五、结论和展望 本文提出了一种基于支持向量机的剪接位点预测方法,该方法结合多种特征提取方法和模型优化手段,具有较高的预测精度和可靠性