预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115064216A(43)申请公布日2022.09.16(21)申请号202210649942.7G06F17/16(2006.01)(22)申请日2022.06.09(71)申请人中科合肥智慧农业协同创新研究院地址230031安徽省合肥市长丰县双凤开发区金江路32号合肥智慧农业协同创新研究院(72)发明人王雪赵小漫金洲胡宜敏史杨许桃胜王儒敬(74)专利代理机构合肥国和专利代理事务所(普通合伙)34131专利代理师张祥骞(51)Int.Cl.G16B30/20(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书9页附图4页(54)发明名称一种基于位置序列矩阵的蛋白质编码方法(57)摘要本发明提供了一种基于位置序列矩阵的蛋白质编码方法,通过根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;构建序列矩阵以及位置矩阵;序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。通过将蛋白质序列数据的位置信息和序列信息相结合对蛋白质序列进行编码,能够充分获取蛋白质特征信息,提高了蛋白质相互作用识别的准确率,增强了蛋白质相互作用预测算法的鲁棒性。CN115064216ACN115064216A权利要求书1/2页1.一种基于位置序列矩阵的蛋白质编码方法,其特征在于,所述方法包括:S1,根据氨基酸其侧链的偶极性和体积,对所述氨基酸序列进行分类;S2,构建序列矩阵以及位置矩阵;其中,序列矩阵中每个元素用于指示蛋白质序列中所有氨基酸两两组合的频数;位置矩阵用于指示任意两组氨基酸在蛋白质序列中的位置信息;S3,同时选择序列矩阵对角线以及对角线上面的值一起编码氨基酸序列数据,并增加一维序列长度的倒数作为序列矩阵编码的分量得以区分氨基酸序列长度,实现将氨基酸序列数据编码成特征向量。2.根据权利要求1所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建序列矩阵MOS包括:设定非空有限集:Ω={w1,…,wN},其中N是序列的分类数;给定序列:S=S1,S2,…,SL,其中L表示序列S的长度,Si∈Ω,1≤i≤L;序列S的位置矩阵表示为:MOS=[mij]N×N(1)上式中mij:基于序列矩阵的定义,得到序列矩阵中所有元素的和等于从而,对于任意两个序列,当序列长度不同或序列长度相同但所含至少某一元素个数不相同时,其对应的序列矩阵不同。3.根据权利要求2所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述构建序列矩阵以及位置矩阵,其中,构建位置矩阵包括:设定非空有限集:Ω={w1,…,wN},其中N是序列的分类数;给定序列:S=S1,S2,…,SL,其中L表示序列S的长度,Si∈Ω,1i≤L;序列S的位置矩阵表示为:MOP=[xij]N*N(3)上式中xij:所述位置矩阵是对称矩阵,对角线上的元素和对角线上方元素包含了氨基酸序列中所有元素的位置信息。4.根据权利要求3所述的基于位置序列矩阵的蛋白质编码方法,其特征在于,所述S3包括,将氨基酸序列数据编码成如下的向量:MSP=[MOS11,...,MOS1N,...MOSNN,1/L]+[MOP11,...,MOP1N,...MOPNN,1/L]。2CN115064216A权利要求书2/2页5.一种基于权利要求1‑4任一项所述的位置序列矩阵的蛋白质编码方法实现蛋白互作预测的方法,其特征在于,所述方法包括:将将编码后的蛋白质序列作为第一深度神经网络模型的输入,基于第一深度神经网络模型输出蛋白质相互作用分类结果;所述第一深度神经网络模型,包括如下训练步骤:前向传播阶段,从人蛋白数据集中取出样本,作为深度神经网络的输入,经过逐级的变换,传送到输出层,计算l层的实际输出,其计算公式如下:在应用了dropout时,第l层的输出为:其中,l=1,…,N,a(l‑1)为第l层的输入数据,wl是第(l‑1)层和第l层之间的连接权重矩阵,bl是第l层的偏置,δ表示第l层的激活;后向传播阶段,计算实际输出Oi和理想输出Yi的差,然后按照极小化误差的方法反向传播调整权矩阵,其输出层的误差计算公式如下:其中,Ei、Oik、Tik分别是第i个样本的误差、第i个样本输出层第k个神经元的输出、第i个样本输出层第k个神经元的期望输出。6.一种基于位置序列矩阵的蛋白质编码装置,其特征在于,所述装置包括:分类模块,根据氨基酸其侧链的偶极性和体积,对所