一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于有监督的协同图对比学习的药物-靶标相互作用预测方法与流程

2022-02-22 19:33:49 来源:中国专利 TAG:


1.本发明属于药物与靶标关系预测技术领域,具体涉及一种基于有监督的协同图对比学习的药物-靶标相互作用预测方法。


背景技术:

2.我们将能够与药物结合在细胞中发挥特殊作用的分子称作为药物的靶标,而蛋白质是主要的药物靶标。在药物发现与重定向的过程中,我们会尽心无数次测试和实验,以找到安全有效的化合物作为药物。所以,药物的发现是一个困难的过程。此外,识别药物与蛋白靶标之间的相互作用不仅是药物发现的关键一步,而且还为药物重新定位、多药药理学、耐药和副作用预测提供指导。
3.近年来,随着计算机技术的发展,许多科研人员使用计算机技术通过已有的药物靶标关系来计算药物和靶标相互作用的概率,以此来减少药物重定向过程中的损失。
4.但是,获得已标记药物靶标关系(dti)的数据是有限和昂贵的。因此,如何有效地利用有价值的标签信息就成为一个关键问题,而传统机器学习方法的药物靶标相互作用预测需要依赖繁琐手工进行特征提取,模型也存在过多繁杂的步骤。


技术实现要素:

5.本发明的目的是为解决传统机器学习方法需要依赖繁琐手工进行特征提取以及模型存在过多繁杂步骤的问题,而提出了一种基于有监督的协同图对比学习的药物-靶标相互作用预测方法。
6.本发明为解决上述技术问题所采取的技术方案是:
7.基于有监督的协同图对比学习的药物-靶标相互作用预测方法,所述方法具体包括以下步骤:
8.步骤s1、从数据库中提取出药物信息、蛋白质信息、疾病信息以及药物副作用信息,并根据提取出的信息构建药物异构信息网络和蛋白质异构信息网络;
9.步骤s2、基于第一编码器得到药物异构信息网络中每种药物的最终表示,基于第二编码器得到蛋白质异构信息网络中每种蛋白质的最终表示;
10.所述基于第一编码器得到药物异构信息网络中每种药物的最终表示,其具体过程为:
11.对于药物异构信息网络中的任意一种药物对应的节点,根据药物异构信息网络得到包含该节点的全部元路径后,再分别将每个元路径输入到第一编码器中,通过第一编码器分别输出各个元路径的表示;
12.使用注意力机制赋予不同元路径以不同的权重,根据权重将各个元路径的表示进行加权求和,将加权求和结果作为该节点所对应的药物的最终表示;
13.同理,分别得到其它各种药物的最终表示以及每种蛋白质的最终表示;
14.步骤s3、对于任意一种药物,将步骤s2中得到的该种药物的最终表示分别与得到的每种蛋白质的最终表示进行拼接,得到包含该种药物的全部药物蛋白对;
15.同理,分别得到包含其它各种药物的全部药物蛋白对;
16.步骤s4、基于步骤s3中获得的药物蛋白对构建药物蛋白对网络,再从构建的药物蛋白对网络中提取出药物蛋白对之间的拓扑结构特征以及语义结构特征;
17.步骤s5、利用步骤s4中提取出的药物蛋白对之间的拓扑结构特征以及语义结构特征对第三编码器、第四编码器和多层感知机进行训练,其中:
18.拓扑结构特征作为第三编码器的输入,语义结构特征作为第四编码器的输入,将第三编码器和第四编码器的输出进行拼接后,拼接结果作为多层感知机的输入;
19.步骤s6、对于关系待预测的药物与蛋白质,得到待预测药物的最终表示与待预测蛋白质的最终表示后,将得到的最终表示进行拼接,得到待预测关系的药物蛋白对;
20.基于待预测关系的药物蛋白对与步骤s3中得到的药物蛋白对重新构建药物蛋白对网络,根据重新构建的药物蛋白对网络,得到新的拓扑结构特征以及语义结构特征,并将新的拓扑结构特征以及语义结构特征分别输入到训练好的第三编码器和第四编码器;
21.再将训练好的第三编码器与第四编码器的输出结果进行拼接,拼接结果再输入训练好的多层感知机,通过多层感知机输出药物与蛋白质关系的预测结果。
22.进一步地,所述步骤s1的具体过程为:
23.从drugbank数据库中提取药物信息,所述药物信息包括药物间相互作用信息和已知的药物与蛋白质间相互作用信息;
24.从hprd数据库中提取蛋白质信息,所述蛋白质信息为蛋白质间相互作用信息;
25.从毒理基因组学数据库中提取疾病信息,所述疾病信息包括疾病与药物间关系信息以及疾病与蛋白质间关系信息;
26.从sider数据库中提取药物副作用信息,所述药物副作用信息为药物与副作用间关系信息;
27.根据药物间相互作用信息、药物与蛋白质间相互作用信息、疾病与药物间关系信息以及药物与副作用间关系信息构建药物异构信息网络;
28.药物、蛋白质、疾病以及副作用作为药物异构信息网络中的节点,若某两个节点之间存在关系,则这两个节点在药物异构信息网络中存在边,否则,这两个节点在药物异构信息网络中不存在边;
29.根据药物与蛋白质间相互作用信息、蛋白质间相互作用信息以及疾病与蛋白质间关系信息构建蛋白质异构信息网络;
30.药物、蛋白质、疾病作为蛋白质异构信息网络中的节点,若某两个节点之间存在关系,则这两个节点在蛋白质异构信息网络中存在边,否则,这两个节点在蛋白质异构信息网络中不存在边。
31.进一步地,所述使用注意力机制赋予不同元路径以不同的权重,根据权重将各个元路径的表示进行加权求和,将加权求和结果作为该节点所对应的药物的最终表示;其具体为:
[0032][0033]
其中,是第一编码器输出的第i个元路径的表示,w是权重矩阵,b是偏置向量,q
表示转换向量,是赋予第i个元路径的权重;
[0034]
对各个元路径的表示进行加权求和:
[0035][0036]
其中,h
drug
是该节点所对应的药物的最终表示,i=1,2,

md,md是元路径的总个数。
[0037]
进一步地,所述步骤s4中,基于步骤s3中获得的所有药物蛋白对构建药物蛋白对网络,其具体过程为:
[0038]
由已知存在关系的药物和蛋白质拼接起来的药物蛋白对被认为是正确的药物蛋白对,其它的药物蛋白对被认为是非正确的药物蛋白对;
[0039]
若拼接成的两对药物蛋白对之间共用药物或蛋白质,则两对药物蛋白对之间有关联,否则两对药物蛋白对之间没有关联,根据得到的所有药物蛋白对之间的关联关系构建药物蛋白对网络。
[0040]
进一步地,所述第三编码器和第四编码器采用对比学习的方式进行训练;
[0041]
直至多层感知机输出的预测结果满足精度要求时停止训练,获得训练好的第三编码器、第四编码器以及多层感知机。
[0042]
更进一步地,所述第一编码器、第二编码器、第三编码器以及第四编码器均为gcn。
[0043]
本发明的有益效果是:
[0044]
本发明的药物-靶标相互作用预测方法使用图对比学习来增强模型的学习能力,在整个预测的过程中,不需要人工进行操作,即不依赖繁琐手工进行特征提取,并应用端到端的思想减少了模型的处理步骤,降低了模型的复杂度,同时保证了较高的预测准确率。通过实验得到,本发明预测方法的roc曲线下面积可以达到0.9764,pr曲线下面积可以达到0.9761。
附图说明
[0045]
图1是本发明方法的流程图。
具体实施方式
[0046]
具体实施方式一、结合图1说明本实施方式。本实施方式所述的一种基于有监督的协同图对比学习的药物-靶标相互作用预测方法,所述方法具体包括以下步骤:
[0047]
步骤s1、从数据库中提取出药物信息、蛋白质信息、疾病信息以及药物副作用信息,并根据提取出的信息构建药物异构信息网络和蛋白质异构信息网络;
[0048]
步骤s2、基于第一编码器得到药物异构信息网络中每种药物的最终表示,基于第二编码器得到蛋白质异构信息网络中每种蛋白质的最终表示;
[0049]
所述基于第一编码器得到药物异构信息网络中每种药物的最终表示,其具体过程为:
[0050]
对于药物异构信息网络中的任意一种药物对应的节点,根据药物异构信息网络得到包含该节点的全部元路径后(每个元路径可以是包含两个或三个节点的路径,对于包含三个节点的路径来说,路径两端的节点均为药物节点,路径中间的节点可以是蛋白质节点、
疾病节点或者副作用节点,对于包含两个节点的路径来说,两个节点均应为药物节点),再分别将每个元路径输入到第一编码器中,通过第一编码器分别输出各个元路径的表示;
[0051]
列举两种关于药物的元路径:表示两种不同药物与一个疾病存在关系,表示两种不同药物会导致同种副作用。
[0052]
使用注意力机制赋予不同元路径以不同的权重,根据权重将各个元路径的表示进行加权求和,将加权求和结果作为该节点所对应的药物的最终表示;
[0053]
同理,分别得到其它各种药物的最终表示以及每种蛋白质的最终表示;
[0054]
本发明通过构建的药物异构信息网络得到每种药物的最终表示,通过构建的蛋白质异构信息网络得到每种蛋白质的最终表示,这样相对于现有方法来说,本发明获得药物表示和蛋白质表示的方法更为简单,克服了现有方法对药物和蛋白质进行特征提取时需要执行的步骤繁琐的问题;
[0055]
步骤s3、对于任意一种药物,将步骤s2中得到的该种药物的最终表示分别与得到的每种蛋白质的最终表示进行拼接,得到包含该种药物的全部药物蛋白对(dpp);
[0056]
同理,分别得到包含其它各种药物的全部药物蛋白对;
[0057]
步骤s4、基于步骤s3中获得的药物蛋白对构建药物蛋白对网络,再从构建的药物蛋白对网络中提取出药物蛋白对之间的拓扑结构特征以及语义结构特征;
[0058]
步骤s5、利用步骤s4中提取出的药物蛋白对之间的拓扑结构特征以及语义结构特征对第三编码器、第四编码器和多层感知机进行训练,其中:
[0059]
拓扑结构特征作为第三编码器的输入,语义结构特征作为第四编码器的输入,将第三编码器和第四编码器的输出进行拼接后,拼接结果作为多层感知机的输入;
[0060]
步骤s6、对于关系待预测的药物与蛋白质,采用步骤s1与步骤s2的方法得到待预测药物的最终表示与待预测蛋白质的最终表示后,将得到的最终表示进行拼接,得到待预测关系的药物蛋白对;
[0061]
基于待预测关系的药物蛋白对与步骤s3中得到的药物蛋白对重新构建药物蛋白对网络,根据重新构建的药物蛋白对网络,得到新的拓扑结构特征以及语义结构特征,并将新的拓扑结构特征以及语义结构特征分别输入到训练好的第三编码器和第四编码器;
[0062]
再将训练好的第三编码器与第四编码器的输出结果进行拼接,拼接结果再输入训练好的多层感知机,通过多层感知机输出药物与蛋白质关系的预测结果。
[0063]
具体实施方式二:本实施方式与具体实施方式一不同的是,所述步骤s1的具体过程为:
[0064]
从drugbank数据库中提取药物信息,所述药物信息包括药物间相互作用信息和已知的药物与蛋白质间相互作用信息;
[0065]
从hprd数据库中提取蛋白质信息,所述蛋白质信息为蛋白质间相互作用信息;
[0066]
从毒理基因组学数据库中提取疾病信息,所述疾病信息包括疾病与药物间关系信息以及疾病与蛋白质间关系信息;
[0067]
从sider数据库中提取药物副作用信息,所述药物副作用信息为药物与副作用间关系信息;
[0068]
根据药物间相互作用信息、药物与蛋白质间相互作用信息、疾病与药物间关系信息以及药物与副作用间关系信息构建药物异构信息网络;
[0069]
药物、蛋白质、疾病以及副作用作为药物异构信息网络中的节点(即每种药物在药物异构信息网络中均存在一个对应的节点,对于蛋白质、疾病以及副作用则同理),若某两个节点之间存在关系,则这两个节点在药物异构信息网络中存在边,否则,这两个节点在药物异构信息网络中不存在边;
[0070]
以药物节点之间的关系为例,若两种药物间存在相互作用,即认为两种药物对应的节点之间存在关系,即两种药物对应的节点之间存在边,对于其它节点同理;
[0071]
根据药物与蛋白质间相互作用信息、蛋白质间相互作用信息以及疾病与蛋白质间关系信息构建蛋白质异构信息网络;
[0072]
药物、蛋白质、疾病作为蛋白质异构信息网络中的节点,若某两个节点之间存在关系,则这两个节点在蛋白质异构信息网络中存在边,否则,这两个节点在蛋白质异构信息网络中不存在边。
[0073]
其它步骤及参数与具体实施方式一相同。
[0074]
具体实施方式三:本实施方式与具体实施方式一或二不同的是,所述使用注意力机制赋予不同元路径以不同的权重,根据权重将各个元路径的表示进行加权求和,将加权求和结果作为该节点所对应的药物的最终表示;其具体为:
[0075][0076]
其中,是第一编码器输出的第i个元路径的表示,w是权重矩阵,b是偏置向量,q表示转换向量,是赋予第i个元路径的权重;
[0077]
对各个元路径的表示进行加权求和:
[0078][0079]
其中,h
drug
是该节点所对应的药物的最终表示,i=1,2,

md,md是药物异构信息网络中包含该节点的全部元路径的总个数。
[0080]
其它步骤及参数与具体实施方式一或二相同。
[0081]
具体实施方式四:本实施方式与具体实施方式一至三之一不同的是,所述步骤s4中,基于步骤s3中获得的所有药物蛋白对构建药物蛋白对网络,其具体过程为:
[0082]
由已知存在关系的药物和蛋白质拼接起来的药物蛋白对被认为是正确的药物蛋白对,其它的药物蛋白对被认为是非正确的药物蛋白对;
[0083]
若拼接成的两对药物蛋白对之间共用药物或蛋白质,则两对药物蛋白对之间有关联,否则两对药物蛋白对之间没有关联,根据得到的所有药物蛋白对之间的关联关系构建药物蛋白对网络。
[0084]
根据正确药物蛋白对的数量,从非正确的药物蛋白对中随机选取出等数量的非正确药物蛋白对,利用正确的药物蛋白对以及选取出的非正确药物蛋白对构建药物蛋白对网络。
[0085]
其它步骤及参数与具体实施方式一至三之一相同。
[0086]
具体实施方式五:本实施方式与具体实施方式一至四之一不同的是,所述第三编
码器和第四编码器采用对比学习的方式进行训练;
[0087]
直至多层感知机输出的预测结果满足精度要求时停止训练,获得训练好的第三编码器、第四编码器以及多层感知机。
[0088]
其它步骤及参数与具体实施方式一至四之一相同。
[0089]
具体实施方式六:本实施方式与具体实施方式一至五之一不同的是,所述第一编码器、第二编码器、第三编码器以及第四编码器均为gcn(图卷积网络)。
[0090]
其它步骤及参数与具体实施方式一至五之一相同。
[0091]
实施例
[0092]
如图1所示为该模型的全过程。
[0093]
第一步,异构图和元路径的构建:
[0094]
异构信息网络g=(v,ε)是一个包含v个节点,e条边的图,此图中节点类型数目cv和边的类型数目ce之和大于2,即|ce cv|>2。一个异构信息网络的元路径s=(n,r)(其中n为节点,r为节点的关系)可以被定义为用来描述在节点n1和nn之间的复合关系
[0095]
此处药物信息从drugbank数据库中提取,包括药物间的相互作用和已知的药物靶点相互作用。蛋白质和蛋白质之间的相互作用来自hprd数据库。从比较毒理基因组学数据库中获得疾病信息,包括疾病与药物、疾病与蛋白质的关系。还从sider数据库获得了一些关于药物副作用的信息。基于得到的708种药物、1512种蛋白质和六种关系构成了药物以及蛋白质的异构信息网络。
[0096]
对于元路径存则列举两种药物的元路径:表示两种不同药物与一个疾病存在关系,表示两种不同药物会导致同种副作用。同样,对于疾病也存在类似的元路径。
[0097]
第二步,基于元路径的异构图表示学习:
[0098]
在选择合适的元路径后,得到元路径集合p={p1,p2,

pn},存在邻接矩阵a={a1,a2,
…an
};
[0099]
使用一个gcn作为编码器,可以学习到药物和靶标的表示。
[0100]
所述的各通道的图卷积网络可以用如下表示:
[0101][0102]
其中,pi为第i个元路径,是第i个元路径对应的邻接矩阵,i为单位矩阵,表示的度对角矩阵,是上一层的输出,定义是第l层的权重矩阵。
[0103]
使用gcn作为编码器学习到每个元路径的表示后,使用注意力机制,赋予不同元路径以不同的权重。公式如下:
[0104][0105]
其中,q表示一个转换向量,w是权重矩阵,b是一个偏移单位,是第i个元路径的
表示。
[0106]
之后对每条元路径进行加权求和,得到药物的最终表示:
[0107][0108]
蛋白质的表示也可以用同样的方法得到。
[0109]
第三步,dpp(药物蛋白对)对网络表示学习及预测:
[0110]
将第二步得到的药物与蛋白质的表示进行拼接,其中已知存在关系药物和蛋白质拼接起来的药物蛋白对被认为是正确的药物蛋白对,其余拼接的药物蛋白对被认为是非正确的;
[0111]
如果拼接成的药物和蛋白质对之间共用药物或共用蛋白质,则认为他们之间有关联,以此关系构建药物蛋白对网络;考虑到药物蛋白对之间的拓扑关系和药物蛋白对特征之间的邻近关系,分别使用图卷积对拓扑关系网络和特征邻近关系网络进行特征提取。
[0112]
所述的各通道的图卷积网络均有两个隐藏层,且第l层可以用如下表示:
[0113][0114]
其中d表示图的度对角矩阵,a是图的邻接矩阵,z
(l-1)
是上一层的输出,我们定义z0=0,w是权重矩阵。
[0115]
这样会得到拓扑图的表示z
t
和特征图的表示zf,将两个表示拼接后,得到最终表示z;
[0116]
此处,我们使用了图对比学习对第三编码器和第四编码器的表示进行限制,因为对于药物蛋白对网络中的拓扑图和语义图中节点是相同的。我们认为同样的节点和其一阶同类邻居(都是正例)的表示应该更为相似的表示,非对应节点以及非同类节点之间的差异应该更大。所以对于语义图和拓扑图。我们使用了带监督的协同对比学习,计算对比损失用于模型的优化。
[0117][0118]
其中,z
t
和zs分别表示语义图和拓扑图学习到的表示,p和n分别代表正例和负例集合。τ是一个超参数,此处设置为0.8。
[0119]
最后将两个视图通过对比学习学到的表示拼接后,输入到多层感知机进行二分类,以预测药物和蛋白质之间是否有关系。
[0120]
实验性能通过使用auroc(roc曲线下面积)和aupr(pr曲线下面积)评分来评估,评估结果如表1所示:
[0121]
表1
[0122][0123][0124]
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献