一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的药物-药物不良反应预测方法

2022-11-30 22:11:02 来源:中国专利 TAG:


1.本发明涉及药物设计以及非结构化数据特征提取技术领域,尤其是一种融合药物不同层次特征并结合元路径进行自适应学习来提取有效关联信息的方法。


背景技术:

2.药物发现是生物信息学的一个领域,在新药研发过程中,有效的识别出药物-药物之间的不良反应不仅对于制药行业是关键的,也对患者的健康是至关重要的。严重的不良反应会对患者身体造成不可逆的伤害,从而引发药物安全重大问题,有效的识别药物之间的不良反应,才能更进一步保障患者健康问题。
3.近年来在计算机辅助药物研究的技术背景下,越来越多的机器学习方法被成功用于药物-药物不良反应预测。随着生物医学数据的积累,使得机器学习方法能够依赖丰富的数据集来自动学习特征,将简单的特征转化为复杂且有效的特征,从而利用这些有效特征进行更加精准的预测药物之间的不良反应,避免了临床实验上的繁琐耗时和成本高的缺点,对患者和社会都至关重要。


技术实现要素:

4.本发明的目的是根据药物的分子结构信息和绑定蛋白(转运蛋白,载体蛋白,酶蛋白和靶标蛋白)信息,来提出一种融合药物不同层次特征并结合元路径启发的自适应学习来预测药物-药物不良反应的方法。该方法能够显著提高药物之间不良反应预测的准确度。
5.实现本发明目的的具体技术方案是:
6.一种基于深度学习的药物-药物不良反应预测方法,特点是通过自适应学习到相似的药物对以及药物不良反应之间的相互影响的元路径子图从而捕获有效特征进行预测,该方法包括:步骤1:药物分子结构信息编码
7.1.1)利用rdkit软件将药物的smiles序列转换成分子图,即将原子作为节点,原子与原子之间的键作为边来构建无向图;对于药物i,构建无向图gi(v,e)来表示药物i的分子图,其中v是该分子图中所有原子的集合,e是所有键的集合;
8.1.2)利用带有注意力机制的消息传递网络来对无向图gi进行编码,包括两个阶段:消息传递阶段及图读出阶段;
9.1.3)消息传递阶段由消息函数和更新函数组成,在此阶段运行t个时间步长,首先将每个节点的特征初始化为此时的时间步长t=0,然后利用消息函数对节点v的邻居节点聚合特征向量,其公式为:
[0010][0011]
其中n(v)是节点v的邻居节点的集合,是可学习的参数矩阵,是节点v的邻居节点w的特征向量;
[0012]
再利用两个非线性变换函数f和c进行组合作为更新函数,将得到的节点v的邻居
聚合特征与节点v的特征进行融合更新得到节点v在(t 1)时间步长上的特征向量其公式为:
[0013][0014][0015]
其中表示拼接操作,

表示内积操作,wc和wf是两个可学习的参数;
[0016]
1.4)在消息传递阶段运行了t个时间步长后,得到药物分子图中每个节点最终特征表示然后在图读出阶段将整个药物分子图计算为一个特征向量ei′
作为药物分子的结构信息特征;利用带有有效的注意力机制的图读出函数来执行计算,公式为:
[0017][0018]
其中σ1和π2分别表示sigmoid和tanh激活函数,w
i1
和w
i2
是两个可学习的权重参数,b
i1
和b
i2
是两个可学习的偏置向量,会作为注意力机制来表示每个节点重要性分数;
[0019]
步骤2:药物绑定蛋白信息编码
[0020]
2.1)药物绑定蛋白是与药物结合并影响其功能来发挥效力的蛋白质,包括:转运蛋白、载体蛋白、酶蛋白和靶标蛋白;绑定蛋白有其各自的特征,首先利用相似性函数来对各个绑定蛋白特征进行计算,公式为:
[0021][0022]
其中xi与xj分别表示药物i和j在某种绑定蛋白上的特征向量;这样能够得到转运蛋白相似性矩阵、载体蛋白相似性矩阵、酶蛋白相似性矩阵和靶标蛋白相似性矩阵;
[0023]
2.2)然后将四种绑定蛋白特征矩阵拼接送入到带有注意力机制的自动编码器中进行编码,自动编码器是无监督神经网络模型,包含两个部分:编码器和解码器,能够学习到输入数据的特征;最终能够获得每个药物的绑定蛋白特征;
[0024]
步骤3:自适应学习
[0025]
3.1)将药物分子结构信息特征和药物绑定蛋白特征拼接送入到自适应学习模块中,在自适应学习模块中首先形成n 2个邻接矩阵,其中n表示不良反应类型对应的邻接矩阵数目,每个邻接矩阵是由一种不良反应事件中具有该不良反应相互作用的药物对节点相连形成的,2个邻接矩阵是药物分子结构信息相似性特征图和药物绑定蛋白相似性特征图进行表示的;相似性特征图是通过度量学习得到的,公式为:
[0026][0027][0028]
其中s
fs
[i,j]代表一个邻接矩阵,i与j分别对应邻接矩阵中药物i和药物j,φ
fs
是k个权重参数的cosine相似性函数,e
′i和e
′j分别对应药物i和药物j的特征,∈为阈值,wk是可学习的权重参数;这样通过药物分子结构信息特征的相似性和药物绑定蛋白特征的相似性来构造药物分子结构信息相似性特征图和药物绑定蛋白相似性特征图;
[0029]
3.2)将得到的n 2个邻接矩阵进行自适应变换,自适应变换是通过自适应学习到最有效的药物-药物不良反应之间相关联的元路径:首先利用一个可学习的权重矩阵w
ψ
和n 2个邻接矩阵相乘并求和,最终得到一个子图,即在n 2个邻接矩阵中分别学习到权重参数α
t1
∈w
ψ
,其中α
t1
为1x1的权重参数,α
t1
越大表示对应的邻接矩阵对预测结果越重要,从而将所有重要的邻接矩阵信息融合到一个子图中去,公式为:
[0030]
a1=∑
t1∈t
α
t1at1

[0031]
3.3)步骤3.2)是1层自适应变换,即对应1跳距离的邻居节点相连形成的子图,对l层自适应变换并进行矩阵相乘得到长度为l的元路径,也即对于节点l跳距离的邻居节点相连形成的子图,公式为:
[0032]al
=(∑
t1∈t
α
t1at1
)(∑
t2∈t
α
t2at2
)

(∑
tl∈t
α
tlatl
),
[0033]
这样自适应学习到一个具有l跳距离的子图,能够融合有效的药物-药物不良反应类型之间的关联信息,其中l为常量;
[0034]
3.4)采用多通道进行学习,即设置num-channel个通道进行学习,最终学习到num_channel个具有l跳距离的子图;
[0035]
3.5)在num_channel个具有l跳距离的子图上运用图卷积神经网络进行训练学习,会把每个通道子图上的节点融合其邻居信息来形成最终的节点特征矩阵,再把多个通道上的节点特征矩阵进行堆叠形成药物最终的特征矩阵;
[0036]
步骤4:多层感知机预测
[0037]
4.1)从最终的特征矩阵中提取会发生药物不良反应的药物对的特征,并且将两个药物的特征进行拼接,然后送入到由两层全连接神经网络组成的感知机中进行学习,公式为:
[0038][0039][0040]
其中w3和w4代表可学习的权重参数,b3和b4是偏置向量,σ是sigmoid激活函数,是最终的预测值,模型采用交叉熵作为损失函数进行训练学习。
[0041]
本发明的技术构思为:通过药物结构信息的编码与药物绑定蛋白信息的编码能够获得到药物不同层面上的特征,即将这两种特征进行融合能够更好的表征药物特征,并将其送入到由元路径启发的自适应学习模块中,通过构造两种特征相似性图并添加到不良反应邻接矩阵中,然后进行自适应学习新的有效的元路径子图。模型利用的是药物不良反应中的相似性原理,相似的药物对会发生相似药物不良反应,以及多种药物不良反应之间的相互影响,模型不需要预先自定义有效元路径,而是通过自适应学习到相似的药物对以及药物不良反应之间的相互影响的新元路径子图,然后利用图卷积操作来融合在新子图上多跳距离的邻居节点信息,从而更加有效的进行预测药物-药物不良反应类型。本发明可以有效捕获药物-药物不良反应特征,通过节点直接向l跳距离相连的邻居节点进行特征信息融合,解决了常规模型直接在相互作用网络上使用图神经网络容易混入噪声的问题,并且通过自适应学习到有效的关联特征信息,从而提高了药物-药物不良反应预测效果。
附图说明
[0042]
图1为消息传递网络示意图;
[0043]
图2为药物绑定蛋白信息编码流程图;
[0044]
图3为本发明的流程图。
具体实施方式
[0045]
下面为了便于理解本发明,结合附图及实施例对本发明进行详细说明,参阅图1~3。本实施例将数据集按照8:1:1的比例将数据集划分为训练集、验证集和测试集。该方法包含以下步骤:
[0046]
1)参阅图1药物分子结构信息编码示意图,具体包括:
[0047]
1.1)利用rdkit软件将药物的smiles序列转换成分子图,即将原子作为节点,原子与原子之间的键作为边来构建无向图,对于药物i,构建无向图gi(v,e)来表示药物i的分子图,其中v是该分子图中所有原子的集合,e是所有键的集合;
[0048]
1.2)利用带有注意力机制的消息传递网络来对无向图gi进行编码,包括两个阶段:消息传递阶段及图读出阶段;
[0049]
1.3)消息传递阶段由消息函数和更新函数组成,并且在此阶段运行3个时间步长,首先将每个节点的特征初始化为此时的时间步长t=0,然后利用消息函数对节点v的邻居节点聚合特征向量,其公式为:
[0050][0051]
其中n(v)是节点v的邻居节点的集合,是可学习的参数矩阵,是节点v的邻居节点w的特征向量;
[0052]
再利用两个非线性变换函数f和c进行组合作为更新函数,将得到的节点v的邻居聚合特征与节点v的特征进行融合更新得到节点v在(t 1)时间步长上的特征向量其公式为:
[0053][0054][0055]
其中表示拼接操作,

表示内积操作,wc和wf是两个可学习的参数;
[0056]
1.4)在消息传递阶段运行了3个时间步长后,得到药物分子图中每个节点最终特征表示然后在图读出阶段将整个药物分子图计算为一个特征向量e
′i作为药物分子的结构信息特征;利用带有有效的注意力机制的图读出函数来执行计算,公式为:
[0057][0058]
其中σ1和σ2分别表示sigmoid和tanh激活函数,w
i1
和w
i2
是两个可学习的权重参数,b
i1
和b
i2
是两个可学习的偏置向量,会作为注意力机制来表示每个节点重要性分数;
[0059]
2)参阅图2药物绑定蛋白信息编码,具体包括:
[0060]
2.1)药物绑定蛋白是与药物结合并影响其功能来发挥效力的蛋白质,包括:转运
蛋白、载体蛋白、酶蛋白和靶标蛋白;绑定蛋白有其各自的特征,首先利用相似性函数来对各个绑定蛋白特征进行计算,公式为:
[0061][0062]
其中xi与xj分别表示药物i和j在某种绑定蛋白上的特征向量;这样能够得到转运蛋白相似性矩阵、载体蛋白相似性矩阵、酶蛋白相似性矩阵和靶标蛋白相似性矩阵;
[0063]
2.2)然后将四种绑定蛋白特征矩阵拼接送入到带有注意力机制的自动编码器中进行编码,自动编码器是无监督神经网络模型,包含两个部分:编码器和解码器,能够学习到输入数据的特征;最终能够获得每个药物的绑定蛋白特征;
[0064]
3)参阅图3中的自适应学习,具体包括:
[0065]
3.1)将药物分子结构信息特征和药物绑定蛋白特征拼接送入到自适应学习模块中,在自适应学习模块中首先形成65 2个邻接矩阵,其中65表示不良反应类型对应的邻接矩阵数目,每个邻接矩阵是由一种不良反应事件中具有该不良反应相互作用的药物对节点相连形成的,2个邻接矩阵是药物分子结构信息相似性特征图和药物绑定蛋白相似性特征图进行表示的;相似性特征图是通过度量学习得到的,公式为:
[0066][0067][0068]
其中s
fs
[i,j]代表一个邻接矩阵,i与j分别对应邻接矩阵中药物i和药物j,φ
fs
是k个权重参数的cosine相似性函数,e
′i和e
′j分别对应药物i和药物j的特征,∈为阈值,wk是可学习的权重参数;这样通过药物分子结构信息特征的相似性和药物绑定蛋白特征的相似性来构造药物分子结构信息相似性特征图和药物绑定蛋白相似性特征图;
[0069]
3.2)将得到的65 2个邻接矩阵进行自适应变换,自适应变换是通过自适应学习到最有效的药物-药物不良反应之间相关联的元路径:首先利用一个可学习的权重矩阵w
ψ
和65 2个邻接矩阵相乘并求和,最终得到一个子图,即在65 2个邻接矩阵中分别学习到权重参数α
t1
∈w
ψ
,其中α
t1
为1x1的权重参数,α
t1
越大表示对应的邻接矩阵对预测结果越重要,从而将所有重要的邻接矩阵信息融合到一个子图中去,公式为:
[0070]
a1=∑
t1∈t
α
t1at1

[0071]
3.3)步骤3.2)是1层自适应变换,即对应1跳距离的子图,模型中需要3层自适应变换并进行矩阵相乘得到长度为3的元路径,也即对于节点3跳距离的邻居节点相连形成的子图,形成多跳子图,公式为:
[0072]al
=(∑
t1∈t
α
t1at1
)(∑
t2∈t
α
t2at2
)

(∑
tl∈t
α
tlatl
),
[0073]
这样自适应模块能够学习到一个具有l跳距离的子图,能够融合有效的药物-药物不良反应类型之间的关联信息;
[0074]
3.4)采用多通道进行学习,即设置3个通道进行学习,最终会学习到3个具有3跳距离的子图;
[0075]
3.5)在num_channel个具有3跳距离的子图上运用图卷积神经网络进行训练学习,会把每个通道子图上的节点融合其邻居信息来形成最终的节点特征矩阵,再把多个通道上
的节点特征矩阵进行堆叠形成药物最终的特征矩阵;
[0076]
4)多层感知机预测,具体包括:
[0077]
4.1)从最终的特征矩阵中提取会发生药物不良反应的药物对的特征,并且将两个药物的特征进行拼接,然后送入到由两层全连接神经网络组成的感知机中进行学习,公式为:
[0078][0079][0080]
其中w3和w4代表可学习的权重参数,b3和b4是偏置向量,σ是sigmoid激活函数,是最终的预测值,模型采用交叉熵作为损失函数进行训练学习。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献