预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115101125A(43)申请公布日2022.09.23(21)申请号202210808263.X(22)申请日2022.07.07(71)申请人中科合肥智慧农业协同创新研究院地址230031安徽省合肥市长丰县双凤开发区金江路32号合肥智慧农业协同创新研究院(72)发明人王雪赵小漫金洲胡宜敏史杨许桃胜王儒敬(74)专利代理机构合肥国和专利代理事务所(普通合伙)34131专利代理师张祥骞(51)Int.Cl.G16B25/00(2019.01)G16B5/00(2019.01)权利要求书2页说明书9页附图1页(54)发明名称一种基于随机森林和序列矩阵的蛋白互作预测方法(57)摘要本发明提供了一种基于随机森林和序列矩阵的蛋白互作预测方法。通过获取蛋白质序列,根据序列矩阵蛋白质编码方法,编码蛋白质正相关数据集和蛋白质负相关数据集,获取第一输出序列矩阵;根据所述第一输出矩阵执行特征提取以生成第一特征向量;根据所述第一特征向量以及蛋白互作预测模型对所述蛋白质执行互作预测,并输出预测结果。通过将序列矩阵和随机森林相结合进行蛋白互作预测模型的构建,鉴于随机森林在处理噪声和过拟合方面的优点,以及序列矩阵编码方法编码效率高、编码简单、省时的优点,从而提高了蛋白质相互作用识别的准确率,增强了蛋白相互作用预测模型的鲁棒性。CN115101125ACN115101125A权利要求书1/2页1.一种基于随机森林和序列矩阵的蛋白互作预测方法,其特征在于,所述方法包括:S1,获取蛋白质序列,根据序列矩阵蛋白质编码方法,编码蛋白质正相关数据集和蛋白质负相关数据集,获取第一输出序列矩阵;根据所述第一输出矩阵执行特征提取以生成第一特征向量;S2,根据所述第一特征向量以及基于随机森林的蛋白互作预测模型对所述蛋白质执行互作预测,并输出预测结果;所述预测结果f(x)=majority{h(x,θk),k=1,2,...K};其中,{h(X,θk),k=1,...K}表示若干个决策树模型;x为第一特征向量,θk是独立且具有相同分布的随机向量,K表示森林中决策树的数目。2.根据权利要求1所述的基于随机森林和序列矩阵的蛋白互作预测方法,其特征在于,所述S1,获取蛋白质序列,根据序列矩阵蛋白质编码方法,编码蛋白质正相关数据集和蛋白质负相关数据集,获取第一输出序列矩阵;根据所述第一输出矩阵执行特征提取以生成第一特征向量,包括:确定第一输出序列矩阵MOS=[mij]N×N;其中,N表示矩阵的阶数;根据所述第一输出序列矩阵,对mij进行归一化,归一化处理后的pij作为第一特征向量;其中,L是蛋白质序列的长度。3.根据权利要求2所述的基于随机森林和序列矩阵的蛋白互作预测方法,其特征在于,所述基于随机森林的蛋白互作预测模型包括如下构建步骤:S21,运用bootstrap法从训练集中随机有放回的抽取容量为k的训练样本,每个训练样本通常只包含原始训练集2/3的样本,另外1/3未被抽取数据被称为袋外数据;S22,在新的训练子集M个特征中随机抽取m(m<M)个特征,采用CART算法对每个节点的分裂,从M个特征属性中随机选取mtry个作为候选分裂属性,根据基尼系数从mtry个特征属性中选择最佳的特征作为决策树分裂的依据,重复进行直到获取N棵决策树;所述基尼系数G的函数表达式为:其中,G是每个节点的基尼系数,ng是总的类别数,pi是i类样本数相对于父节点样本数的比例;S23,将生成的N棵决策树组成随机森林,由k棵树预测值的均值决定最终预测结果;S24,利用sklearn中GridSearchCV类,采用网格搜索法寻找最优模型对应的参数组合。4.根据权利要求3所述的基于随机森林和序列矩阵的蛋白互作预测方法,其特征在于,所述S24中的网格搜索法,包括:S241,确定决策树的数量k和候选分裂属性数mtry的范围,设定步长,在k和mtry坐标系上建立二维网格,网格节点就是相应的k和mtry的参数对;S242,对网格节点上的每一组参数构建随机森林,并利用袋外数据估计分类误差;2CN115101125A权利要求书2/2页S243,选择分类误差最小的参数k,mtry,若分类误差或者步长满足要求,则输出最优参数和分类误差;否则,缩小步长,重复S22、S23步骤,继续搜索,最终得出优选max_depth参数的范围为(5、6、7、8、9、10),筛选n_estimators参数的范围为(10、20、30、40);其中,n_estimators和max_depth两两组合,形成24种参数组合方式,最终确定,n_estimators=40,max_depth=9。5.一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算