一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于全局采样子图的宽度学习酶蛋白检测方法及系统与流程

2022-02-22 20:14:30 来源:中国专利 TAG:


1.本发明涉及网络科学、数据挖掘以及酶蛋白检测技术,特别是一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。


背景技术:

2.近年来,图数据越来越受到广泛的关注。在现实生活中的社交关系网络、生物蛋白质网络以及文献的引用网络本质上都可以用图来刻画。而酶蛋白在自然界中以各种各样存在,如何识别蛋白质是否具有酶性在生物催化领域有着很广泛的前景。图分类问题则是图数据挖掘中一个常见的任务,如在蛋白质毒理性推断以及化学分子性质预测等方面都有广泛的应用,所以将图分类和酶检测结合在一起考虑就变得非常有意义。
3.子图是网络中的一个基本组件,它能够用于描述网络中更加深层次的信息。由不同子图构成的网络通常存在着截然不同的拓扑属性,因此将子图集成到许多图算法当中往往能实现更高的算法性能。目前大多数子图的获取都是通过采样的方法,最常用的是基于随机游走和有偏游走的局部采样。而本发明则提供了一种基于全局的连边采样方式。
4.深度学习近些年是人工智能领域研究的热点和主流,因为其性能的优势在各大领域被广泛的提及和使用。然而,深度学习的模型具有参数量大的问题,进而带来算力损耗和时间损耗大的欠缺。本发明则使用了宽度网络分类器大大降低了参数更新量,实现时间上的优化。
5.申请号为2019110684734的专利所公开的技术方案,一种基于采样子图网络的节点分类方法,该方法使用随机游走策略对网络进行局部采样,通过图映射机制将采样图映射成多个子图然后进行特征矩阵融合,使用极限随机树对网络节点进行分类。该方法使用了随机游走的策略得到局部的网络结构,而缺失了全局的内在信息导致分类精度欠缺,而使用极限随机树作为分类器在分类训练速度上还有待增强。


技术实现要素:

6.本发明要克服酶蛋白检测技术的上述缺陷,将酶蛋白检测与图分类结合,一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。
7.本发明将蛋白质结构转化为图结构,利用全局采样的策略、图映射方法以及宽度网络分类器构建了一个图分类的模型,该模型通过全局采样和图映射充分提取了图的内部结构与全局信息,将图中提取的特征信息有监督的训练宽度网络分类器,从而实现对蛋白质精确的酶性检测。
8.本发明实现上述发明目的所采用的技术方案如下:
9.一种基于全局采样子图的宽度学习酶蛋白检测方法,包括以下步骤:
10.s0:结构转换,将蛋白质分子结构转化为图结构;
11.s1:全局采样,对原始图按照连边进行n次全局采样得到n个子网络;
12.s2:子图映射,按照sgn规则分别对n个子网络进行一阶和二阶的映射,得到2n个映
射网络;
13.s3:特征提取与特征融合,对原始网络与2n个映射网络分别基于graph2vec进行特征提取,分别得到2n 1个网络的k维网络表征向量,通过表征向量横向拼接获取(2n 1)
×
k维的特征向量作为原始网络的最终表示;
14.s4:宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得酶蛋白的检测精度。
15.进一步的,所述步骤s0具体包括:
16.获取蛋白质的分子结构,将蛋白质分子中的碳、氢、氧、氮、硫等原子转化成图中的节点,将蛋白质分子中的化学键转化成连边。通过以上过程,一个蛋白质分子就转化成了一个原始网络g。
17.进一步的,所述步骤s1具体包括:
18.s1.1:对于原始网络g=(v,e),随机选择一条初始连边表示为e0=(v0,v1)。并将初始连边e0加入到连边池e
p
中,将节点v0与节点v1加入到节点池v
p
中。
19.s1.2:在节点池v
p
中随机选择一个当前节点记做u。在总连边集e中随机选择一条边ec=(u,d)使得
20.s1.3:将节点d加入到节点池v
p
中,将连边ec加入到连边池e
p
中。
21.s1.4:重复s1.2与s1.3步骤,直到满足连边池中的连边总数|e
p
|等于原始网络节点总数|v|。由节点池v
p
和连边池e
p
构成的网络gi便是全局采样子网络。
22.s1.5:对s1.1-s1.4步骤重复执行n次,便得到了原始网络g的n个采样子网络gi(i=1,2,3...n)。
23.进一步的,所述步骤s2具体包括:
24.s2.1:一阶子图映射。本发明的子图映射是根据sgn规则来执行的。所谓sgn是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点。其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边。根据上述sgn规则,便可以将子图gi(i=1,2,3...n)映射成n个一阶子图g
i1
(i=1,2,3...n)。
25.s2.2:二阶子图映射。一阶子图是在原始网络图的基础上按照sgn规则映射出来的。同理,二阶子图则是一阶子图按照sgn规则再次映射得到。即:n个一阶子图g
i1
(i=1,2,3...n)通过映射便得到了n个二阶子图g
i2
(i=1,2,3...n)。
26.进一步的,所述步骤s3具体包括:
27.s3.1:特征提取:
28.使用graph2vec模型对原始网络g、一阶子网络g
i1
(i=1,2,3

n)以及二阶子网络g
i2
(i=1,2,3

n)分别提取k维特征,分别表示为f、f
i1
(i=1,2,3

n)以及f
i2
(i=1,2,3

n)。
29.s3.2:特征融合:
30.将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为fe=[f,f
11
,f
21
,

,f
n1
,f
12
,
…fn2
]∈r
(2n 1)
×k。
[0031]
进一步的,所述步骤s4的具体包括:
[0032]
s4.1:宽度网络分类器构建。宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示。其中特征节点特征为zi=φ(few
zi
β
zi
)(i=1,...,n),其中fe为上述得到的图表示,其中权重w
zi
与偏置β
zi
则根据维度随机产生,而φ(
·
)则是一个线性激活函数。将所有特征节点特征横向组合便得到特征节点的总特征zn=[z1,z2,

,zn]。特征节点的构造部分就结束了。而增强节点特征hj=σ(znw
rj
b
rj
)(j=1,

,n)。其中的σ(
·
)是非线性激活函数。同理,我们将增强节点特征融合得到hm=[h1,h2,

,hm]。将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分a=[zn,hm]。那么宽度网络分类器的预测输出便是其中w权重矩阵便是宽度网络需要训练的部分。
[0033]
s4.2:优化和评价。w矩阵则是通过优化得到。通过一定的等价变换,从形式上可以得到w=(a
t
a λi)-1at
y。这样通过数据喂入便可以得到特定的w矩阵,进而实现对未知图数据的预测。通过十折交叉验证得到分类精度。
[0034]
实施本发明的一种基于全局采样子图的宽度学习酶蛋白检测方法的系统,包括依次连接的转换模块、采样模块、图映射模块、特征模块、分类模块;
[0035]
所述转换模块,输入一个待鉴定的蛋白质的分子结构,通过对应的技术将蛋白质分子网络转化成图网络结构;
[0036]
所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;
[0037]
所述图映射模块,对采样模块得到的若干子网络分别进行sgn一次与二次的图映射,得到一阶与二阶的映射网络并保存;
[0038]
所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;
[0039]
所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预测,十折交叉验证得到实际精度。
[0040]
本发明采用全局的采样策略和子图映射来对原始图数据进行扩充,补充了图表征算法难以提取的特征,实现更高的图分类精度。而使用宽度网络分类器则进一步实现精确的酶蛋白检测。
[0041]
本发明的技术构思为:本发明提出了一种基于全局采样子图的宽度学习酶蛋白检测方法及系统。其中,提出了一种蛋白质网络转图结构的方法以及全新的基于全局的图采样策略,结合sgn图映射与graph2vec特征提取模型得到较优的图表述,最后通过宽度网络分类器既高效又准确的实现酶蛋白检测任务。
[0042]
本发明的有益效果为:本发明将酶蛋白检测与图分类结合,首先提出了一种全新的全局图采样策略,一方面保留了图中竟可能多的全局信息,另一方面降低下游sgn任务的复杂度。其次,使用sgn规则来进行图映射,充分利用图中的结构信息进一步来提升后续酶蛋白检测精度。最后本发明还使用了宽度网络分类器,与现有技术相比,实现高效的精准检测。
附图说明
[0043]
图1为本发明方法的流程示意图。
[0044]
图2a~图2b为本发明全局采样方法的示意图。图2a表示原始网络,图2b表示采样后网络,其中连边上的序号表示连边的采样顺序。
[0045]
图3a~图3b为本发明sgn子图映射方法的示意图。图3a为sgn变换前原始网络(连边上序号即是连边的变化),图3b则是sgn变换后网络,其节点由图3a连边映射而来,所以图3b的节点序号和图3a连边序号是一一对应的。
[0046]
图4为本发明方法宽度网络分类器部分示意图。
具体实施方式
[0047]
下面结合说明书附图对本发明的具体实施方式作进一步详细描述。
[0048]
参照图1~图4,一种基于全局采样子图的宽度学习酶蛋白检测方法,步骤如下:
[0049]
s0)结构转换,将蛋白质分子结构转化为图结构。获取蛋白质的分子结构,将蛋白质分子中的碳、氢、氧、氮、硫等原子转化成图中的节点,将蛋白质分子中的化学键转化成连边。通过以上过程,一个蛋白质分子就转化成了一个原始网络g。
[0050]
s1)全局采样,对原始图按照连边进行n次全局采样得到n个子网络;
[0051]
s1.1)对于原始网络g=(v,e),随机选择一条初始连边表示为e0=(v0,v1)。并将初始连边e0加入到连边池e
p
中,将节点v0与节点v1加入到节点池v
p
中。
[0052]
s1.2)在节点池v
p
中随机选择一个当前节点记做u。在总连边集e中随机选择一条边ec=(u,d)使得
[0053]
s1.3)将节点d加入到节点池v
p
中,将连边ec加入到连边池e
p
中。
[0054]
s1.4)重复1.2与1.3步骤,直到满足连边池中的连边总数|e
p
|等于原始网络节点总数|v|。由节点池v
p
和连边池e
p
构成的网络gi便是全局采样子网络。
[0055]
s1.5)对1.1-1.4步骤重复执行n次,便得到了原始网络g的n个采样子网络gi(i=1,2,3...n)。
[0056]
s2)子图映射,按照sgn规则分别对n个子网络进行一阶和二阶的映射,得到2n个映射网络;
[0057]
s2.1)一阶子图映射。本发明的子图映射是根据sgn规则来执行的。所谓sgn是一种将图连边映射成节点的规则,具体如下:首先将一张网络图中的所有连边均映射成映射网络中的节点。其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边。根据上述sgn规则,便可以将子图gi(i=1,2,3...n)映射成n个一阶子图g
i1
(i=1,2,3...n)。
[0058]
s2.2)二阶子图映射。一阶子图是在原始网络图的基础上按照sgn规则映射出来的。同理,二阶子图则是一阶子图按照sgn规则再次映射得到。即:n个一阶子图g
i1
(i=1,2,3...n)通过映射便得到了n个二阶子图g
i2
(i=1,2,3...n)。
[0059]
s3)特征提取与特征融合,对原始网络与2n个映射网络分别基于graph2vec进行特征提取,分别得到2n 1个网络的k维网络表征向量,通过表征向量横向拼接获取(2n 1)
×
k维的特征向量作为原始网络的最终表示;
[0060]
s3.1)特征提取:
[0061]
使用graph2vec模型对原始网络g、一阶子网络g
i1
(i=1,2,3

n)以及二阶子网络g
i2
(i=1,2,3

n)分别提取k维特征,分别表示为f、f
i1
(i=1,2,3

n)以及f
i2
(i=1,2,3

n)。
[0062]
s3.2)特征融合:
[0063]
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为fe=[f,f
11
,f
21
,

,f
n1
,f
12
,
…fn2
]∈r
(2n 1)
×k。
[0064]
s4)宽度网络分类器训练,通过原始网络的最终表示和网络标签有监督的训练宽度网络,最终通过十折交叉验证获得图分类的精度。
[0065]
s4.1)宽度网络分类器构建。宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示。其中特征节点特征为zi=φ(few
zi
β
zi
)(i=1,...,n),其中fe为上述得到的图表示,其中权重w
zi
与偏置β
zi
则根据维度随机产生,而φ(
·
)则是一个线性激活函数。将所有特征节点特征横向组合便得到特征节点的总特征zn=[z1,z2,

,zn]。特征节点的构造部分就结束了。而增强节点特征hj=σ(znw
rj
b
rj
)(j=1,

,n)。其中的σ(
·
)是非线性激活函数。同理,我们将增强节点特征融合得到hm=[h1,h2,

,hm]。将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分a=[zn,hm]。那么宽度网络分类器的预测输出便是其中w权重矩阵便是宽度网络需要训练的部分。
[0066]
s4.2)优化和评价。w矩阵则是通过优化得到。通过一定的等价变换,从形式上可以得到w=(a
t
a λi)-1at
y。这样通过数据喂入便可以得到特定的w矩阵,进而实现对未知图数据的预测。通过十折交叉验证得到分类精度。
[0067]
实施本发明的一种基于全局采样子图的宽度学习酶蛋白检测方法的系统,包括:转换模块、采样模块、图映射模块、特征模块、分类模块;
[0068]
所述转换模块,输入一个待鉴定的蛋白质分子结构,通过对应的技术将蛋白质分子网络转化成图网络结构;
[0069]
所述采样模块,输入一张网络图,在图中随机选择一个节点作为初始化节点,根据全局采样规则采样得到子网络,重复若干次上述过程得到若干个采样子网络;具体包括:
[0070]
s1.1:对于原始网络g=(v,e),随机选择一条初始连边表示为e0=(v0,v1),并将初始连边e0加入到连边池e
p
中,将节点v0与节点v1加入到节点池v
p
中;
[0071]
s1.2:在节点池v
p
中随机选择一个当前节点记做u,在总连边集e中随机选择一条边ec=(u,d)使得
[0072]
s1.3:将节点d加入到节点池v
p
中,将连边ec加入到连边池e
p
中;
[0073]
s1.4:重复s1.2与s1.3步骤,直到满足连边池中的连边总数|e
p
|等于原始网络节点总数|v|,由节点池v
p
和连边池e
p
构成的网络gi便是全局采样子网络;
[0074]
s1.5:对s1.1-s1.4步骤重复执行n次,便得到了原始网络g的n个采样子网络gi(i=1,2,3...n)。
[0075]
所述图映射模块,对采样模块得到的若干子网络分别进行sgn一次与二次的图映射,得到一阶与二阶的映射网络并保存;具体包括:
[0076]
s2.1:一阶子图映射,本发明的子图映射是根据sgn规则来执行的,具体如下:首先
将一张网络图中的所有连边均映射成映射网络中的节点;其次,映射网络中的连边则是由原网络中共享节点具体情况确定的,即原网络中两条连边共同的网络节点映射到映射网络是一条连接那两条边映射而来的两个节点的连边;根据上述sgn规则,便可以将子图gi(i=1,2,3...n)映射成n个一阶子图g
i1
(i=1,2,3...n);
[0077]
s2.2:二阶子图映射,一阶子图是在原始网络图的基础上按照sgn规则映射出来的;同理,二阶子图则是一阶子图按照sgn规则再次映射得到,即:n个一阶子图g
i1
(i=1,2,3...n)通过映射便得到了n个二阶子图g
i2
(i=1,2,3...n)。
[0078]
所述特征模块,对原始网络以及图映射模块得到的若干一阶与二阶的映射网络使用graph2vec模型提取特征,将每个网络得到的特征向量横向拼接融合作为原始网络的最终图表示,保存每个网络的图表示;具体包括:
[0079]
s3.1:特征提取:
[0080]
使用graph2vec模型对原始网络g、一阶子网络g
i1
(i=1,2,3

n)以及二阶子网络g
i2
(i=1,2,3

n)分别提取k维特征,分别表示为f、f
i1
(i=1,2,3

n)以及f
i2
(i=1,2,3

n);
[0081]
s3.2:特征融合:
[0082]
将原始网络特征、一阶子图特征以及二阶子图特征从横向上拼接实现特征的融合,即最终的图表示为fe=[f,f
11
,f
21
,

,f
n1
,f
12
,
…fn2
]∈r
(2n 1)
×k。
[0083]
所述分类模块,导入上述每个网络的图表示,设置宽度网络分类器,输入图表示和图标签开始训练宽度网络,完成训练后导出权重矩阵,通过权重矩阵来对未知网络进行预测,十折交叉验证得到实际精度;具体包括:
[0084]
s4.1:宽度网络分类器构建,宽度网络的主要结构包括特征节点和增强节点两部分,细节如图4中所示,其中特征节点特征为zi=φ(few
zi
β
zi
)(i=1,...,n),其中fe为上述得到的图表示,其中权重w
zi
与偏置β
zi
则根据维度随机产生,而φ(
·
)则是一个线性激活函数,将所有特征节点特征横向组合便得到特征节点的总特征zn=[z1,z2,

,zn],特征节点的构造部分就结束了,而增强节点特征hj=σ(znw
rj
b
rj
)(j=1,

,n),其中的σ(
·
)是非线性激活函数,同理,我们将增强节点特征融合得到hm=[h1,h2,

,hm],将特征节点的总特征和增强节点特征融合得到宽度网络的输入部分a=[zn,hm],那么宽度网络分类器的预测输出便是其中w权重矩阵便是宽度网络需要训练的部分;
[0085]
s4.2:优化和评价,w矩阵则是通过优化得到,通过一定的等价变换,从形式上可以得到w=(a
t
a λi)-1at
y,这样通过数据喂入便可以得到特定的w矩阵,进而实现对未知图数据的预测,通过十折交叉验证得到分类精度。
[0086]
所述转换模块、所述采样模块、所述图映射模块、所述特征模块和所述分类模块依次链接。
[0087]
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献