一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于投影和对比学习的疾病-微生物关联预测系统

2022-05-06 07:01:43 来源:中国专利 TAG:


1.本发明涉及疾病学技术领域,特别涉及一种基于投影和对比学习的疾病-微生物关联预测系统。


背景技术:

2.本部分的陈述仅仅是提供了与本发明相关的背景技术,并不必然构成现有技术。
3.定植于人体的微生物对人类健康有着至关重要的影响,与疾病相关的微生物的发现将促进生物标志物和药物的发现。然而,疾病-微生物相关性的临床实验耗时、费力且昂贵,并且很少有预测潜在微生物-疾病相关性的方法。
4.传统的疾病-微生物关联(disease-microbe association,dma)的检测方法都是通过大量的临床试验进行观察。不仅成本高昂且耗时长,有时甚至不可能实现。目前,有关于疾病-微生物关联预测有使用复杂的矩阵分解和利用矩阵相似度预测,也有一部分研究使用各种网络进行关联预测。
5.发明人发现,虽然这些方法取得很多成果,但是还存在一些问题:
6.(1)鉴于传统检验的困难,目前许多疾病-微生物数据库没有准确的化学和基因表达,只有关联矩阵,有些方法不能非常好的从疾病-微生物关联矩阵提取出疾病和微生物的特征或者疾病和微生物相似度表示;
7.(2)有的一些方法仅使用传统相似度或相似度组合来提取有效信息,引入一种网络训练提取相似度和特征将更有助于预测;
8.(3)与疾病微生物未知关联相比,已知关联相对较少,即疾病-微生物关联网络比较稀疏,这对dma的预测具有极其不利的影响。


技术实现要素:

9.为了解决现有技术的不足,本发明提供了一种基于投影和对比学习的疾病
‑ꢀ
微生物关联预测系统,基于投影和图互信息对比学习,实现了疾病-微生物关联的更快速和更准确预测。
10.为了实现上述目的,本发明采用如下技术方案:
11.本发明第一方面提供了一种基于投影和对比学习的疾病-微生物关联预测系统。
12.一种基于投影和对比学习的疾病-微生物关联预测系统,包括:
13.数据获取模块,被配置为:获取疾病和微生物参量数据;
14.无权投影模块,被配置为:将根据参量数据构建的二分网络进行无权投影,得到疾病-疾病关联以及疾病-微生物关联;
15.特征提取模块,被配置为:根据疾病-疾病关联以及疾病关联图对比学习得到疾病特征,根据疾病-微生物关联以及微生物关联图对比学习得到微生物特征;
16.关联预测模块,被配置为:根据疾病特征、微生物特征和预设全连接网络模型,得到疾病-微生物关联预测结果。
17.本发明第二方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
18.获取疾病和微生物参量数据;
19.将根据参量数据构建的二分网络进行无权投影,得到疾病-疾病关联以及疾病-微生物关联;
20.根据疾病-疾病关联以及疾病关联图对比学习得到疾病特征,根据疾病-微生物关联以及微生物关联图对比学习得到微生物特征;
21.根据疾病特征、微生物特征和预设全连接网络模型,得到疾病-微生物关联预测结果。
22.本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如下步骤:
23.获取疾病和微生物参量数据;
24.将根据参量数据构建的二分网络进行无权投影,得到疾病-疾病关联以及疾病-微生物关联;
25.根据疾病-疾病关联以及疾病关联图对比学习得到疾病特征,根据疾病-微生物关联以及微生物关联图对比学习得到微生物特征;
26.根据疾病特征、微生物特征和预设全连接网络模型,得到疾病-微生物关联预测结果。
27.与现有技术相比,本发明的有益效果是:
28.本发明所述的基于投影和对比学习的疾病-微生物关联预测系统,基于投影和图互信息对比学习,实现了疾病-微生物关联的更快速和更准确预测。
29.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
附图说明
30.图1为本发明实施例1提供的基于投影和对比学习的疾病-微生物关联预测系统的工作流程示意图。
31.图2为本发明实施例1提供的疾病-微生物关联信息示意图。
32.图3为本发明实施例1提供的roc曲线和auc值。
33.图4为本发明实施例1提供的二分网络的简单非加权投影示意图。
具体实施方式
34.下面结合附图与实施例对本发明作进一步说明。
35.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
36.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包
括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
37.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
38.实施例1:
39.如图1所示,本发明实施例1提供了一种基于投影和对比学习的疾病-微生物关联预测系统,包括:
40.数据获取模块,被配置为:获取疾病和微生物参量数据;
41.无权投影模块,被配置为:将根据参量数据构建的二分网络进行无权投影,得到疾病-疾病关联以及疾病-微生物关联;
42.特征提取模块,被配置为:根据疾病-疾病关联以及疾病关联图对比学习得到疾病特征,根据疾病-微生物关联以及微生物关联图对比学习得到微生物特征;
43.关联预测模块,被配置为:根据疾病特征、微生物特征和预设全连接网络模型,得到疾病-微生物关联预测结果。
44.具体的,包括:
45.定义如下参数:疾病-微生物关联(disease-microbe association dma),疾病-疾病关联(disease-disease association dda),疾病-疾病关联矩阵 (disease-disease association matrix ddam),疾病-微生物关联矩阵 (disease-microbeassociationmatrixdmam)。
46.进行二分网络的投影,简单无权投影所得单顶点网络给出一类节点之间是否存在边,将二分网络投影到未加权的网络上,而不考虑网络的拓扑结构或共享到另一集合元素的连接的权重。
47.本实施例采用的无权投影是:通过二分网络中邻居数目确定关联边简单权重大小,将边权重取符号激活,得到无权投影。
48.公式如下:
[0049][0050]
其中,sgn(
·
)表示符号函数,具体含义计算二分网络中多少微生物同时与i 和j疾病关联,最后将结果通过符号函数激活,去除其中权重关系,只保留疾病之间关联信息。
[0051]
应用图对比学习来提取疾病和微生物的特征,该特征能够总结图层次的特征,学习到有关疾病和微生物更多的信息。
[0052]
首先给出dmam作为疾病特征,其中n是疾病数目,即图中节点数;代表疾病i的特征表示,邻接矩阵a∈rn×n,表示ddam,默认所有处理的图是无权图,接下来将其推广到加权图,能够更好地编码提取特征,模型的目的是学习一个编码器:
[0053]
ε:rn×f×rn
×n→rn
×f′
ꢀꢀꢀ
(2)
[0054]
形式化的表示为:
[0055][0056]
其中,h代表高阶表示,并且每个疾病节点i满足所得到的疾病特征的高阶表示将被用做后续dda预测。
[0057]
本实施例选择图卷积作为编码器进行二分网络特征的提取,图卷积编码器通过不
断聚合目标节点周边的邻居来完成特征学习:
[0058][0059]
其中,代表加上自环的邻接矩阵,代表简单无权相应的度矩阵,满足
[0060]
对于非线性激活函数σ,选择prelu,θ∈rf×f′
是应用于每个疾病节点的可学习线性变换。
[0061]
对于破坏函数c,直接采用但是是原本的疾病特征矩阵x经过随机变换得到的;损坏的图由与原始图完全相同的节点组成,但它们位于图中的不同位置,因此将得到不同的邻近表示。
[0062]
dgi的核心思想在于通过最大化局部互信息来训练编码器,本实施例通过 dgi寻求疾病节点(即局部)表示来以捕获整个图的全局信息使用简单平均值readout函数来获得dda图级别的表示:
[0063][0064]
最大化局部和全局互信息使用一个简单的双线性评分函数进行评分:
[0065][0066]
其中,w是一个可学习的评分权重参数,σ是逻辑sigmoid非线性,用于将分数转换为正样本对的概率。
[0067]
的负样本对由(x,a)的与一个可选择的图的提供。
[0068]
对于目标函数,本实施例使用带有标准二值交叉熵(bce)损失的噪声对比型目标函数(正样本和负样本之间):
[0069][0070]
其中,表示对比学习最终目标函数,在疾病的特征提取中(x,a)由准确的 dma和dda组成,表示正样本;由疾病间随机打乱的dma和准确的dda 组成,作为负样本;代表对正确的疾病关系和疾病特征即正样本,进行图卷积提取得到的疾病嵌入向量,代表对破坏的疾病图即负样本,进行图卷积提取得到的错误疾病嵌入向量,通过网络训练,更新图卷积,鉴别器参数,减小正样本同差距,扩大负样本同差距,区分正负样本。
[0071]
本实施例中,将疾病嵌入向量进行重构,使用简单的内积重构器和sigmoid 激活函数获得疾病间关联的结果,平衡了模型复杂度和模型的准确率。
[0072]
ddam和dmam通过图对比学习网络训练后,得到反应全图信息的疾病特征,使用同样方法我们得到反复更新效果很好的微生物特征。
[0073]
接下来将疾病特征同微生物特征连接,得到nd*nm个疾病-微生物关联特征,将特征和标签输入全连接网络中进行分类训练,本质是将疾病-微生物中链路预测问题通过转化成二分类问题。
[0074]
由于疾病-微生物有关联相对于其的全部组合来说是较少的,即疾病-微生物关联的数据集是不平衡的,正样本比较少即疾病-微生物的边比较少。为了解决这一问题,采用加权的交叉熵损失函数计算损失值。根据正负样本的比例来增大正样本的损失,通过这种方式来调节总体代价,尽可能减少数据集不平衡对 pgi-dma模型所产生的影响。
[0075]
损失函数定义如下:
[0076]
loss(x,class)=weight*class*(-x[class] log(∑jexp(x[j]))) (1-class)*(-x[class] log(∑jexp(x[j])))
ꢀꢀꢀ
(8)
[0077]
损失由logsoftmax和nllloss组合,类别class={0,1},x[i]代表i类别的概率,weight代表正样本在损失中权重。其中,weight=|sa-|/|sa |,|sa-|为负样本的个数,即dmam中无关联的边的个数,|sa |为正样本的个数,即dmam 中已知的关联的边的个数。
[0078]
具体的,如图2、图3和图4所示,本实施例中,使用hmdad数据集,其为从微生物群研究中收集的经过整理的人类微生物-疾病关联数据,已知的微生物
‑ꢀ
疾病关联数据是从hmdad下载的,该数据包含39种疾病和292种微生物之间的 450种明确的关联,疾病和微生物两两组合有11388种,无明显关联10938种组合,未知关联数目大于有明确关联,需对不平衡数据进行处理。
[0079]
步骤如下:
[0080]
s1:将简单链接数目加权关联矩阵(某一疾病通过二分图与另一疾病连接数目作为简单权重)取符号激活,只保留关联信息,去掉权重信息,分别得到疾病-疾病间简单无权关联ad,微生物-微生物间简单无权关联am。
[0081]
s2:因为向疾病的投影,对原二分网络有较大的信息损失,所以不能将dma 疾病和微生物关联丢弃,选择将每个疾病同所有微生物联系dma作为疾病特征 xd,更好的提取疾病特征。接下来(xd,ad)作为对比学习输入。
[0082]
s3:通过破坏函数c得到负样本:
[0083]
通过编码器获得输入图的patch representations:
[0084][0085]
通过编码器获得负样本的patch representations:
[0086][0087]
通过readout函数传递输入图的patch representations来得到图级别的 summary vector通过梯度下降法最小化目标函数式,更新参数,得到最优疾病嵌入向量hd。
[0088]
s4:使用同样对比学习方法求得最优微生物嵌入向量hm。
[0089]
s5:重构原疾病关联矩阵和微生物关联矩阵,比较重构效果,设定测试集准确率达99%为线,若达标s6,否则返回s4。
[0090]
s6:hd hm得到边集特征,最终通过两层全连接网络进行二分类训练得到边集预测
结果。
[0091]
本实施例通过五折交叉验证将所提出的pgi-dma模型与其他六个最先进模型进行比较,结果如表1所示。
[0092]
表1:
[0093][0094]
为了揭示疾病与微生物的病理关系,在pgi-dma框架下,对重要的人类疾病-哮喘进行了独立的病例研究。值得注意的是,当验证微生物时,如果该微生物与疾病有关,假设该微生物的属将与疾病有关。
[0095]
哮喘是一种常见的慢性炎症性疾病,发病率高,本实施例中将哮喘相关微生物预测结果的前10名列于表2中。
[0096]
可以发现除去几种以往研究方法已经证明的微生物,通过本实施例所述的 pgi-dma的方法能够发现新的且被实验证明有直接关联或间接关联的微生物,例如bacteroidetes在哮喘患者中更为丰富,而verrucomicrobia在健康个体中更丰富,在哮喘患者中相对少,还有clostridiaceae含量高与哮喘的发生也有关。
[0097]
表2:
[0098][0099]
本实施例中,图对比学习网络参数设置如下:
[0100]
学习率设置lr=0.001,嵌入向量维度设置512,并使用adam自适应学习率优化器来训练模型,设置重构平均准确率和重构auc达标线99%,即通过网络训练得到嵌入向量进行重构后的重构矩阵同原矩阵相比只有平均准确率和auc全部达到99%才能选做下一步输入。将dgi迭代10000次,损失减低耐心值设置20 (20次迭代损失不出现更优损失停止迭代)充分优化嵌入向量,图卷积中激活函数选取prelu,dgi中激活函数选取sigmoid。
[0101]
本实施例中,全连接预测网络参数设置如下:
[0102]
采取第一隐层512和第二隐层64的两层全连接网络进行关联网络训练,每一层网络后添加一层sigmoid激活函数,增强非线性;损失函数采用crossentropyloss 交叉熵损失,因为数据集的不平衡性,采用分类加权损失,无关联(0类)损失权重设置1,有关联(1类)损失权重设置负样本数和正样本数之比;网络使用 adam自适应学习率优化器来训练模型,学习率设置lr=0.02;网络迭代500次,充分降低损失;通过5折交叉验证,提高模型鲁棒性和平稳性。
[0103]
实施例2:
[0104]
本发明实施例2提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如下步骤:
[0105]
获取疾病和微生物参量数据;
[0106]
将根据参量数据构建的二分网络进行无权投影,得到疾病-疾病关联以及疾病-微
accessmemory,ram)等。
[0122]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献