预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115954050A(43)申请公布日2023.04.11(21)申请号202211209310.5(22)申请日2022.09.30(71)申请人上海交通大学地址201100上海市闵行区东川路800号(72)发明人洪亮谈攀李明辰(74)专利代理机构上海市金茂律师事务所31299专利代理师谢瑞强彭世明(51)Int.Cl.G16B20/50(2019.01)G16B40/00(2019.01)G16B30/10(2019.01)G06N3/048(2023.01)G06N3/08(2023.01)G06N3/0442(2023.01)权利要求书3页说明书10页附图3页(54)发明名称基于蛋白质工程的集成序列与结构特征的深度学习模型及预测方法(57)摘要本发明公开了一种基于蛋白质工程的集成序列与结构特征的深度学习模型及预测方法,本发明先建立了整合序列和结构信息来预测蛋白质突变效果的深度学习模型。然后结合特定的数据增强策略,以减少深度学习模型对实验样本量的依赖程度。具体是大量来自无监督模型的低质量预测结果会首先被用来对深度学习模型进行预训练,之后对于有实验结果的则用有限数量的高品质实验结果会被用来对模型进行微调。实验表明当后续微调的实验数据量小于40或没有任何实验数据时,仅经过预训练得到的深度学习模型可以在预测高阶突变效果的任务上取得非常高的精度。CN115954050ACN115954050A权利要求书1/3页1.基于蛋白质工程的集成序列与结构特征的深度学习模型,其特征在于:包括局域编码器、全局编码器、结构编码器、注意力层、输出层;所述局域编码器的输入为突变序列,局域编码器使用多重序列对比方法对突变序列编码输出编码了同族蛋白进化信息的张量I,张量I的尺寸为L*256;所述全局编码器的输入为突变序列,全局编码器使用蛋白质语言模型对突变序列进行编码输出编码了包含蛋白质共性生化特征和进化信息的张量II;张量II的尺寸为L*256;所述结构编码器的输入为突变序列和野生型结构,结构编码器使用开源的无监督模型对突变序列折叠成野生型结构的概率评估,输出包含蛋白质结构信息的张量III,张量III为长度为L的一维输出向量;所述注意力层的输入为代表蛋白质序列信息的张量IV,张量IV是张量I和张量II层归一化后拼合而成,张量IV的尺寸为L×512;在注意力层中,张量IV在注意力机制下会得到序列注意力权重;张量III在注意力机制下会得到结构注意力权重;将序列注意力权重和结构注意力权重的平均值作为联合注意力权重;注意力层根据联合注意力权重和张量IV输出聚合向量,聚合向量的尺寸为1x512;所述输出层的输入为聚合向量和无监督模型的打分;在输出层中,先对聚合向量采用ReLU函数处理,得到隐含向量;根据隐含向量和无监督模型的打分使用Sigmoid函数计算动态权重,该动态权重表示在多大程度上信任无监督模型的打分;使用线性层计算隐含向量的突变效果打分;最后,将动态权重*突变效果打分与(1‑动态权重)*无监督模型的打分之和作为输出层的输出。2.根据权利要求1所述的基于蛋白质工程的集成序列与结构特征的深度学习模型,其特征在于:在局域编码器中,突变序列通过Bi‑LSTM层会转换成一个待训练的张量I1,张量I1的尺寸为L*128;该张量I1形式上满足包含氨基酸自身约束及氨基酸之间的耦合约束;使用多重序列比对方法获得野生型序列的同源约束关系的张量I2,张量I2的尺寸为L*128;同源序列约束关系包括氨基酸自身约束以及氨基酸之间的耦合约束;将张量I1与张量I2拼接后就得到具有同族蛋白进化信息的张量I,张量I就是MSA编码序列。3.根据权利要求1所述的基于蛋白质工程的集成序列与结构特征的深度学习模型,其特征在于:在结构编码器中,对于野生型结构使用开源的esm‑if1模型获得饱和单点突变评分矩阵,饱和单点突变评分矩阵的尺寸为L×20;对突变序列进行one‑hot编码,得到编码矩阵,编码矩阵的尺寸为L×20;计算饱和单点突变评分矩阵和编码矩阵在每一个氨基酸位置的交叉熵,计算结果进行softmax后得到张量III,张量III中元素表征突变序列中对应位置的氨基酸是否为esm‑if1模型认定的最优氨基酸。4.一种如权利要求1‑3中任一所述的基于蛋白质工程的集成序列与结构特征的深度学习模型的预测方法,其特征在于:2CN115954050A权利要求书2/3页训练深度学习模型:获取训练数据:训练数据包括蛋白质的野生型序列、野生型结构、突变内容以及突变后评估蛋白质特质的数值打分;突变内容是指野生型序列中哪个位置的氨基酸突变为哪一种氨基酸;划分训练集和测试集:将训练数据中突变内容划分为训练集和验证集;训练模型:野生型序列根据训练集中各