一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种药物分子与靶标蛋白的结合亲和力预测方法与流程

2022-02-20 16:28:19 来源:中国专利 TAG:

技术特征:
1.一种药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,包括以下步骤:获取药物分子的smiles序列和靶标蛋白的氨基酸序列;对于药物分子smiles序列,将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图;分别对药物原子结构图和药物子结构结构图进行表征学习,从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示;对于氨基酸序列,利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练,再对其进行特征提取,从而获得氨基酸序列的特征嵌入表示;将药物分子和氨基酸的特征嵌入表示拼接,得到拼接嵌入特征表示;基于拼接嵌入表示,获得药物分子与靶标蛋白的结合亲和力预测值。2.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,获取药物分子的smiles序列与靶标蛋白的氨基酸序列,包括以下步骤:获取所述的药物分子的smiles简化分子线性输入规范序列;获取所述的靶标蛋白的氨基酸序列。3.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,对于药物分子smiles序列,将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图,包括以下步骤:基于所述的药物分子smiles序列,构建基于原子的药物原子结构图;基于所述的药物分子smiles序列,划分药物子结构,构建基于子结构的药物子结构结构图。4.对于权利要求3所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,基于药物分子smiles序列,划分药物子结构,构建基于子结构的药物子结构结构图,包括以下步骤:得到所述的药物分子的药物原子结构图;为所述的药物原子结构图中的原子节点编号;初始化药物子结构集合c为空集;构建集合v1为所有化学键的集合;构建集合v2为所有简单环的集合;如果v1中的化学键不属于任何一个简单环,将其加入药物子结构集合c中;循环遍历v2中的所有环,将v2中大于等于3个公共原子的环合并为新的环,直到v2中所有的环都不存在三个或者三个以上的公共原子为止;将v2中所有环添加到药物子结构集合c中;形成最终的药物子结构集合c;基于药物分子的子结构集合,构建基于子结构的药物子结构结构图。5.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,分别对药物原子结构图和药物子结构结构图进行表征学习,从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示,包括以下步骤:利用注意力机制提取每个原子节点在所述药物原子结构图中的相对重要性权重;利用深度学习神经网络的图卷积神经网络提取所述的药物原子结构图的相邻原子节
点间的邻接关系表示和原子节点的初始特征表示;将训练后的嵌入表示作为原子节点的初始特征表示,不断循环执行利用图卷积神经网络训练提取药物原子结构图的原子节点的特征嵌入表示;当循环提取原子节点的特征嵌入表示达到指定次数之后,将最好的一次训练结果作为药物原子结构图的原子节点的特征嵌入表示;对所述的药物原子结构图中的每个原子节点的特征嵌入表示进行最大池化操作,得到药物原子结构图的特征嵌入表示;利用注意力机制提取每个子结构节点在所述药物子结构结构图中的相对重要性权重;利用深度学习神经网络的图卷积神经网络提取所述的药物子结构结构图的相邻子结构节点间的邻接关系表示和子结构节点的初始特征表示;将训练后的嵌入表示作为子结构节点的初始特征表示,不断循环执行利用图卷积神经网络训练提取药物子结构图的子结构节点的特征嵌入表示;当循环提取子结构节点的特征嵌入表示达到指定次数之后,将最好的一次训练结果作为所述药物子结构结构图的子结构节点的特征嵌入表示;对所述的药物子结构结构图中的每个子结构节点的特征嵌入表示进行最大池化操作,得到药物子结构结构图的特征嵌入表示。6.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,对于氨基酸序列,利用自然语言处理中的语言模型对氨基酸的特征嵌入表示进行预训练,再对其进行特征提取,从而获得氨基酸序列的特征嵌入表示,包括以下步骤:利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练,得到每一个氨基酸的初始特征表示;利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示;将多个氨基酸的特征嵌入表示进行最大池化操作,得到靶标蛋白的氨基酸序列的特征嵌入表示。7.对于权利要求6所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,利用自然语言处理中的语言模型对靶标蛋白的氨基酸序列进行无监督的预训练,得到每一个氨基酸的初始特征表示,包括以下步骤:将靶标蛋白序列中的每一个氨基酸看作为自然语言处理文本序列中的一个单词,进行氨基酸单词划分;构建氨基酸单词的共现矩阵;基于最小二乘原理的回归方法训练得到每一个氨基酸的初始特征嵌入表示。8.对于权利要求6所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,利用深度学习的一维卷积网络提取多个氨基酸的特征嵌入表示,包括以下步骤:将每一个氨基酸的初始特征嵌入表示输入一维卷积网络中循环训练,得到多个氨基酸的特征嵌入表示;当循环提取多个氨基酸的特征嵌入表示达到指定次数之后,将最后一次的训练结果作为最终多个氨基酸的特征嵌入表示。9.根据权利要求1所述的基于药物分子和氨基酸序列的特征嵌入表示进行拼接,得到拼接嵌入表示,其特征在于,包括以下步骤:
将所述的药物原子结构图的特征嵌入表示、药物子结构结构图的特征嵌入表示以及氨基酸序列的特征嵌入表示进行首尾拼接,得到拼接嵌入表示。10.根据权利要求1所述的药物分子与靶标蛋白的结合亲和力预测方法,其特征在于,基于拼接嵌入表示,获得药物分子与靶标蛋白的结合亲和力值,包括以下步骤:将拼接嵌入表示输入多层的全连接神经网络,获得药物分子与靶标蛋白的结合亲和力的预测值。

技术总结
本发明涉及一种药物分子与靶标蛋白的结合亲和力预测方法,包括:获取药物分子的SMILES序列和靶标蛋白的氨基酸序列;对于药物分子SMILES序列,将其表示为基于原子的药物原子结构图和基于子结构的药物子结构结构图;分别对药物原子结构图和药物子结构结构图进行表征学习,从而获得药物原子结构图的特征嵌入表示和药物子结构结构图的特征嵌入表示;获取氨基酸序列的特征嵌入表示;将药物分子和氨基酸的特征嵌入表示拼接,得到拼接嵌入特征表示;基于拼接嵌入表示,获得药物分子与靶标蛋白的结合亲和力预测值。上述方案,能够自适应的学习药物分子和靶标蛋白的序列和结构信息,优化药物分子与靶标蛋白的结合亲和力预测结果。果。果。


技术研发人员:靳远 杨旸
受保护的技术使用者:上海交通大学
技术研发日:2021.11.02
技术公布日:2022/1/14
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献