预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113707213A(43)申请公布日2021.11.26(21)申请号202111047262.X(22)申请日2021.09.08(71)申请人上海交通大学地址200240上海市闵行区东川路800号(72)发明人夏春秋沈红斌潘小勇冯世豪夏莹(74)专利代理机构上海交达专利事务所31201代理人王毓理王锡麟(51)Int.Cl.G16B5/00(2019.01)G16B20/30(2019.01)G16B50/00(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书7页附图3页(54)发明名称基于深度学习的蛋白质-配体结合位点预测方法(57)摘要一种基于深度学习的蛋白质‑配体结合位点预测方法,提取待预测蛋白质中所有残基的α碳原子在三维空间中的全局坐标,然后根据全局坐标计算得到邻接矩阵和原始节点特征,输入基于动量对比学习框架的神经网络模型从而得到蛋白质结构的描述子。本发明将深度学习技术与蛋白质结构的领域的知识相结合,生成更有鉴别力的描述子,从而更准确地识别目标蛋白质的相似结构,并且可提升蛋白质结构分类的精度。CN113707213ACN113707213A权利要求书1/3页1.一种基于深度学习的蛋白质‑配体结合位点预测方法,其特征在于,提取待预测蛋白质中所有残基的α碳原子在三维空间中的全局坐标,然后根据全局坐标计算得到邻接矩阵和原始节点特征,输入基于动量对比学习框架的神经网络模型从而得到蛋白质结构的描述子。2.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点预测方法,其特征是,所述的神经网络模型,包括:两个架构相同的基于图神经网络的编码器,其训练样本通过计算训练数据集中的任意两个蛋白质结构之间的相似性,再使用动态划分正负样本的方法从训练数据集中采样结构对构建得到。3.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点预测方法,其特征是,所述的训练,根据长度缩放的余弦距离衡量神经网络模型输出的两个描述子之间的距离,根据验证集中的数据和长度缩放的余弦距离决定训练是否达到目标。4.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点预测方法,其特征是,所述的邻接矩阵是指:提取蛋白质结构中每个残基的α碳原子在三维空间中的笛卡尔坐标信息,然后根据残基的坐标信息计算出每个残基对之间的欧氏距离,根据距离构建邻接矩阵。5.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点预测方法,其特征是,所述的邻接矩阵,具体通过以下步骤得到:步骤1)对于一个包含L个残基的蛋白质,其第i个残基的α碳原子在三维空间中的笛卡尔坐标为vi=(xi,yi,zi),第j个残基的α碳原子的坐标为vj=(xj,yj,zj),则这两个残基间的欧式距离为dij=||vi‑vj||,该蛋白质的距离矩阵为步骤2)基于上述所得的距离矩阵通过下式得到其邻接矩阵其中:ω和∈是两个用于规范化的超参数,两者均大于0;步骤3)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于距离的原始节点特征,即每个残基的相对坐标和角度;将残基的坐标集合为V={v1,v2,...,vL‑1,vL},Vi:j={vi,vi+1,...,vj‑2,vj‑1,}表示给定蛋白质中从序列上第i个到第j个K残基的坐标集合,i<j;将蛋白质中第i个残基的原始节点特征向量为xi∈[0,+∞),其中:K为向量的长度且M为控制xi长度的超参数m为{0,1,...,M‑1},g为{1,2,3,...,2m},第k个参照点的坐标vi表示第i个残基的坐标,xi中第k个元素即为vi与间的欧式距离;步骤4)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于角度的原始节点特征,对于蛋白质序列上连续的三个残基的坐标:vi‑1、vi、vi+1,得到第i个残基基于角度的原始节点特征2CN113707213A权利要求书2/3页步骤5)将基于距离和基于角度的原始节点特征进行拼接,得到第i个残基的原始节点特征为:其中:·||·表示拼接操作,则包含该残基的蛋白质结构的原始节点特征矩阵为L为残基个数,T为转置操作。6.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点预测方法,其特征是,所述的相似性,通过以下方式得到:当蛋白质结构训练数据集中包含N个结构,将其为Dtrain={X1,X2,...,Xi,...,XN},其中:Xi表示第i个蛋白质结构,使用TM‑align算法计算第i个和第j个结构之间的相似性(TM‑score)作为其结构相似性并为TM(Xi,Xj),TM‑score的取值范围为[0,1]。7.根据权利要求1所述的基于深度学习的蛋白质‑配体结合位点