一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种蛋白质互作网络功能模块挖掘方法及系统

2022-04-09 06:47:44 来源:中国专利 TAG:


1.本发明涉及生物组织蛋白质功能模块研究技术领域,特别涉及一种蛋白质互作网络功能模块挖掘方法及系统。


背景技术:

2.蛋白质作为组成人体一切细胞、组织的重要成分,在人体的生长发育、基因表达等生命过程中起着至关重要的作用,蛋白质的相互碰触或者功能相关的蛋白质之间的相互作用产生了庞大的蛋白质互作网络。蛋白质互作网络的研究,不仅有助于了解细胞内的结构体系,还有助于理解生物功能的运行机制,为疾病的诊断提供了理论依据,提高疾病的治愈率。研究大规模的蛋白质互作网络对于理解生命过程十分必要,在蛋白质互作网络中,相同类别的蛋白质具有相同或相似的生物功能,构成了不同的蛋白质功能模块,蛋白质功能模块的挖掘为医治相关病症、定向开发药物提供了依据,因此从蛋白质互作网络中挖掘出具有特定生物功能的蛋白质模块已成为当前生物信息学领域中的研究热点。


技术实现要素:

3.针对上述问题,同时为了促进蛋白质的研究以及在医学领域的应用,本发明提供了一种蛋白质互作网络功能模块挖掘方法及系统。采用了节点分类的方法,对蛋白质互作网络中的蛋白质节点进行有效的分类,实现对蛋白质互作网络中功能模块的挖掘。
4.为了达到上述目的,本发明采用了下列技术方案:
5.本发明提供一种蛋白质互作网络功能模块挖掘方法,该方法包含三个主要环节,步骤s10为蛋白质互作网络数据预处理环节,步骤s20~s40为蛋白质互作网络功能模块挖掘模型构建及优化环节,步骤s50为蛋白质互作网络功能模块挖掘结果输出环节。
6.具体步骤如下:
7.s10、对采集到的蛋白质互作网络数据进行预处理,降低噪声数据对结果的影响;
8.s20、由步骤s10获得的蛋白质互作网络数据,抽取蛋白质特征信息和蛋白质相互作用信息,得到蛋白质互作网络结构;
9.s30、基于步骤s20蛋白质互作网络结构,构建蛋白质互作网络功能模块挖掘模型;
10.s40、基于步骤s30构建的蛋白质互作网络功能模块挖掘模型,对模型进行训练,通过迭代计算,使得模型收敛,确定模型中的待定参数;
11.s50、利用步骤s30构建的蛋白质互作网络功能模块挖掘模型,以及步骤s40确定的模型参数,将蛋白质节点进行分类,得到功能模块挖掘结果并输出。
12.进一步,所述步骤s10包含以下具体步骤:
13.s11、从蛋白质互作数据库中收集人类相关数据,作为实验数据集;
14.s12、利用基因本体论数据分析工具注释蛋白质,为每个蛋白质建立生物过程bp注释短语集合,第i个蛋白质的bp注释集合用d
bp
(i)表示,假设第i个蛋白质被5个bp注释短语注释,则d
bp
(i)={d1,d2,d3,d4,d5},假设第j个蛋白质被4个bp注释短语注释,则d
bp
(j)=
{d1,d2,d3,d4},从而建立两个蛋白质所包含的注释短语的5
×
4注释短语矩阵;
15.s13、计算蛋白质注释短语矩阵中的每一对短语的语义相似值,用来表示两个蛋白质注释短语之间的相似性simd
bp
(i,j)=max
d1,d2
(-logp(d));
16.s14、取相似性值中最大的一个作为蛋白质之间的相似值;
17.s15、设定阈值,如果蛋白质之间的相似值大于阈值,则认为蛋白质之间存在相互作用,保留蛋白质之间的相互作用数据,否则删除,以此减少蛋白质互作网络数据中的假阳性噪声数据,增加数据的可靠性。
18.进一步,所述步骤s20包括以下具体步骤:
19.s21、根据s10预处理后的蛋白质互作网络数据构建一个蛋白质互作网络模型g(v,e,c),将蛋白质互作网络中的蛋白质抽象为节点,其中v={v1,v2,...,vn}表示蛋白质节点集合,n表示蛋白质节点的数量,e=[e
ij
]表示蛋白质节点相互作用矩阵,如果两个蛋白质节点之间存在相互作用,则e
ij
=1,否则e
ij
=0,矩阵c为所有蛋白质节点特征向量矩阵;
[0020]
s22、构建蛋白质互作网络标签矩阵来保存网络的类别信息,将标签矩阵记为b=[b
ij
],标签矩阵定义如下:对于任意两个蛋白质节点vi和vj,若类别相同b
ij
=1,否则b
ij
=0;如果蛋白质节点vi或vj的类别未知则b
ij
=0。
[0021]
进一步,所述步骤s30中的蛋白质互作网络功能模块挖掘模型包含编码器、解码器、分类器三个部分,编码器用于将蛋白质节点编码得到网络表示向量;解码器用于将编码器得到的网络表示向量解码重构为蛋白质相互作用矩阵;节点分类器用于最后挖掘蛋白质功能模块。
[0022]
进一步,步骤s30包含以下步骤:
[0023]
s31、进一步的,使用图卷积网络作为编码器将蛋白质互作网络g(v,e,c)编码为网络表示向量,其编码过程的形式化表示如式(1)所示:
[0024][0025]
其中,为编码后的网络表示向量构成的集合,ri表示由蛋白质节点vi编码得到的网络表示空间中的表示向量,w0和w1是待学习的参数;这里的输入包括两个部分:蛋白质相互作用矩阵e和蛋白质节点特征矩阵c;编码器激活函数由式(2)定义:
[0026][0027]
s32、进一步的,使用内积函数作为解码器将网络表示向量集合r解码重构为蛋白质相互作用矩阵解码器定义如式(3)所示:
[0028][0029]
其中,δ为内积函数;
[0030]
s33、进一步的,分类器用于将蛋白质互作网络中蛋白质节点的网络表示向量划分到相应功能模块当中,将分类器划分后的功能模块结果记为p
*
={p1,p2,

,pk},其中,p为蛋白质功能模块,k为功能模块数量,使用多个支持向量机svm作为分类预测模型,分类器的目标函数如式(4)所示:
[0031][0032]
其中,θ和ρ是待确定参数,ξi是第i个蛋白质节点的松弛系数,是惩罚系数,a=0.5是权重,ri是蛋白质节点vi编码得到的网络表示空间中的表示向量,yi是蛋白质节点vi的类标记。
[0033]
进一步,所述步骤s40包含以下具体步骤:
[0034]
s41、为s30建立的蛋白质互作网络功能模块挖掘模型建立式(5)所示的联合目标函数:
[0035]
l=lr βlsꢀꢀꢀ
(5)
[0036]
其中β为超参数,lr为重构损失,用于度量原始蛋白质互作矩阵e和重构矩阵之间的差异,由式(6)计算:
[0037][0038]
其中,e
p
和分别代表蛋白质节点相互作用矩阵和重构后的蛋白质相互作用矩阵中的值;
[0039]
ls为半监督损失,由式(7)所示:
[0040][0041]
s42、基于s30构建的蛋白质互作网络功能模块挖掘模型中,利用拉格朗日优化方法将式(4)转换为其对偶形式进行求解:
[0042][0043]
其中,αi是第i个蛋白质节点的拉格朗日乘子;
[0044]
然后,选用高斯核函数来代替点积,将样本从原输入空间映射到高维特征空间,实现在高维空间的线性分类;将式(9)核函数引入式(8),可得到如式(10)所示的目标函数:
[0045][0046][0047]
其中,σ表示超参数;
[0048]
解之得到最优解及ρ
*
,在高维特征空间中构造出最优分类超平面;则最终的分类函数f(r)如式(12)所示,对于新的节点vi,通过分类函数f(r)来进行分类;
[0049]
[0050]
s43、对步骤s30中的蛋白质互作网络功能模块挖掘模型进行初始化,初始化图自编码器参数w,并给定隐空间维度32、批大小128和学习率0.5;
[0051]
给定迭代次数t,迭代执行步骤s44~s48,直到达到迭代次数,完成对蛋白质互作网络功能模块挖掘模型的训练,获得模型的最优参数:
[0052]
s44、将s21获取的蛋白质相互作用矩阵e和特征矩阵c作为输入,按式(1)编码器编码获取蛋白质网络表示向量集合r;
[0053]
s45、按式(3)解码器对蛋白质网络表示向量集合r进行解码得到完成正向传播;
[0054]
s47、采用随机梯度下降法,通过优化式(5)中的联合目标函数l,完成反向传播,实现对自编码器中权重w的更新;
[0055]
s48、通过式(11),对蛋白质互作网络中的蛋白质节点进行分类,得到蛋白质功能模块。
[0056]
进一步,所述步骤s50包括以下具体步骤:
[0057]
s51、通过迭代执行步骤s44~s48的训练过程获得蛋白质互作网络节点分类模型的最优参数后,输入新的蛋白质互作网络数据,将最后一次获取的蛋白质节点分类结果作为最终功能模块挖掘的结果;
[0058]
s52、将功能模块挖掘结果进行输出。
[0059]
本发明还提供一种蛋白质互作网络功能模块挖掘系统,包括计算机处理器和内存、蛋白质互作网络数据预处理单元、蛋白质互作网络功能模块挖掘模型训练单元、蛋白质互作网络功能模块挖掘及结果输出单元;所述蛋白质互作网络数据预处理单元对抽取的人类相关蛋白质互作网络数据进行预处理,获得蛋白质互作网络去噪数据,并加载到计算机内存中;所述蛋白质互作网络功能模块挖掘模型训练单元根据蛋白质互作网络数据预处理单元产生的蛋白质互作网络数据构建蛋白质互作网络功能模块挖掘模型,并基于输入的蛋白质互作网络相关信息,训练并确定模型中参数的最优值;所述蛋白质互作网络功能模块挖掘及结果输出单元将蛋白质互作网络中每个蛋白质节点进行分类并划分到各个功能模块中,并将蛋白质互作网络功能模块挖掘结果进行输出;所有单元中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。
[0060]
与现有技术相比本发明具有以下优点:
[0061]
1、本发明蛋白质互作网络功能模块挖掘方法,将蛋白质节点的相互作用信息和特征信息融合到网络表示向量中,高度还原了原始蛋白质互作用网络,提高了后续功能模块挖掘的真实性。
[0062]
2、本发明蛋白质互作网络功能模块挖掘方法,在生成网络表示的过程中,加入了标签信息,提高了网络表示的可区分性,从而有助于提高功能模块挖掘的准确率。
附图说明
[0063]
图1为本发明所述步骤s30中的蛋白质互作网络功能模块挖掘模型结构图;
[0064]
图2为本发明所述蛋白质互作网络功能模块挖掘的系统结构图;
[0065]
图3为本发明所述蛋白质互作网络功能模块挖掘方法的流程图。
具体实施方式
[0066]
为了进一步阐述本发明的技术方案,下面结合附图及实施例对本发明进行进一步说明。
[0067]
实施例1
[0068]
本发明所述的蛋白质互作网络功能模块挖掘方法通过计算机程序实施,下面将按照图3所示流程详述本发明提出的技术方案的具体实施方式。通过本发明的技术方案,对蛋白质互作数据库中抽取的与人类相关的蛋白质互作数据进行功能模块挖掘,该蛋白质互作网络总共包含4673条互作数据,2943个蛋白质,功能模块数为500。
[0069]
实施方式主要包含以下关键内容:
[0070]
s10、对采集到的蛋白质互作网络数据进行预处理,降低噪声数据对结果的影响;
[0071]
s11、从蛋白质互作数据库中收集人类相关数据,作为实验数据集;
[0072]
s12、利用基因本体论数据分析工具注释蛋白质,为每个蛋白质建立生物过程bp注释短语集合,第i个蛋白质的bp注释集合用d
bp
(i)表示,假设第i个蛋白质被5个bp注释短语注释,则d
bp
(i)={d1,d2,d3,d4,d5},假设第j个蛋白质被4个bp注释短语注释,则d
bp
(j)={d1,d2,d3,d4},从而建立两个蛋白质所包含的注释短语的5
×
4注释短语矩阵;
[0073]
s13、计算蛋白质注释短语矩阵中的每一对短语的语义相似值,用来表示两个蛋白质注释短语之间的相似性simd
bp
(i,j)=max
d1,d2
(-logp(d));
[0074]
s14、取相似性值中最大的一个作为蛋白质之间的相似值;
[0075]
s15、设定阈值,如果蛋白质之间的相似值大于阈值,则认为蛋白质之间存在相互作用,保留蛋白质之间的相互作用数据,否则删除,以此减少蛋白质互作网络数据中的假阳性噪声数据,增加数据的可靠性;
[0076]
s20、由步骤s10获得的蛋白质互作网络数据,抽取蛋白质特征信息和蛋白质相互作用信息,得到蛋白质互作网络结构;
[0077]
s21、根据s10预处理后的蛋白质互作网络数据构建一个蛋白质互作网络模型g(v,e,c),将蛋白质互作网络中的蛋白质抽象为节点,其中v={v1,v2,...,vn}表示蛋白质节点集合,n表示蛋白质节点的数量,e=[e
ij
]表示蛋白质节点相互作用矩阵,如果两个蛋白质节点之间存在相互作用,则e
ij
=1,否则e
ij
=0,矩阵c为所有蛋白质节点特征向量矩阵;
[0078]
s22、构建蛋白质互作网络标签矩阵来保存网络的类别信息,将标签矩阵记为b=[b
ij
],标签矩阵定义如下:对于任意两个蛋白质节点vi和vj,若类别相同b
ij
=1,否则b
ij
=0;如果蛋白质节点vi或vj的类别未知则b
ij
=0;
[0079]
s30、基于步骤s20蛋白质互作网络结构,构建蛋白质互作网络功能模块挖掘模型;
[0080]
s31、进一步的,使用图卷积网络作为编码器将蛋白质互作网络g(v,e,c)编码为网络表示向量,其编码过程的形式化表示如式(1)所示:
[0081][0082]
其中,为编码后的网络表示向量构成的集合,ri表示由蛋白质节点vi编码得到的网络表示空间中的表示向量,w0和w1是待学习的参数;这里的输入包括两个部分:蛋白质相互作用矩阵e和蛋白质节点特征矩阵c;编码器激活函数由式(2)定义:
[0083][0084]
s32、进一步的,使用内积函数作为解码器将网络表示向量集合r解码重构为蛋白质相互作用矩阵解码器定义如式(3)所示:
[0085][0086]
其中,δ为内积函数;
[0087]
s33、进一步的,分类器用于将蛋白质互作网络中蛋白质节点的网络表示向量划分到相应功能模块当中,将分类器划分后的功能模块结果记为p
*
={p1,p2,

,pk},其中,p为蛋白质功能模块,k为功能模块数量,使用多个支持向量机svm作为分类预测模型,分类器的目标函数如式(4)所示:
[0088][0089]
其中,θ和ρ是待确定参数,ξi是第i个蛋白质节点的松弛系数,是惩罚系数,a=0.5是权重,ri是蛋白质节点vi编码得到的网络表示空间中的表示向量,yi是蛋白质节点vi的类标记;
[0090]
s40、基于步骤s30构建的蛋白质互作网络功能模块挖掘模型,对模型进行训练,通过迭代计算,使得模型收敛,确定模型中的待定参数;
[0091]
s41、为s30建立的蛋白质互作网络功能模块挖掘模型建立式(5)所示的联合目标函数:
[0092]
l=lr βlsꢀꢀꢀ
(5)
[0093]
其中β为超参数,lr为重构损失,用于度量原始蛋白质互作矩阵e和重构矩阵之间的差异,由式(6)计算:
[0094][0095]
其中,e
p
和分别代表蛋白质节点相互作用矩阵和重构后的蛋白质相互作用矩阵中的值;
[0096]
ls为半监督损失,由式(7)所示:
[0097][0098]
s42、基于s30构建的蛋白质互作网络功能模块挖掘模型中,利用拉格朗日优化方法将式(4)转换为其对偶形式进行求解:
[0099][0100]
其中,αi是第i个蛋白质节点的拉格朗日乘子;
[0101]
然后,选用高斯核函数来代替点积,将样本从原输入空间映射到高维特征空间,实
现在高维空间的线性分类;将式(9)核函数引入式(8),可得到如式(10)所示的目标函数:
[0102][0103][0104]
其中,σ表示超参数;
[0105]
解之得到最优解及ρ
*
,在高维特征空间中构造出最优分类超平面;则最终的分类函数f(r)如式(12)所示,对于新的节点vi,通过分类函数f(r)来进行分类;
[0106][0107]
s43、对步骤s30中的蛋白质互作网络功能模块挖掘模型进行初始化,初始化图自编码器参数w,并给定隐空间维度32、批大小128和学习率0.5;
[0108]
给定迭代次数t,迭代执行步骤s44~s48,直到达到迭代次数,完成对蛋白质互作网络功能模块挖掘模型的训练,获得模型的最优参数:
[0109]
s44、将s21获取的蛋白质相互作用矩阵e和特征矩阵c作为输入,按式(1)编码器编码获取蛋白质网络表示向量集合r;
[0110]
s45、按式(3)解码器对蛋白质网络表示向量集合r进行解码得到完成正向传播;
[0111]
s47、采用随机梯度下降法,通过优化式(5)中的联合目标函数l,完成反向传播,实现对自编码器中权重w的更新;
[0112]
s48、通过式(11),对蛋白质互作网络中的蛋白质节点进行分类,得到蛋白质功能模块;
[0113]
s50、利用步骤s30构建的蛋白质互作网络功能模块挖掘模型,以及步骤s40确定的模型参数,将蛋白质节点进行分类,得到功能模块挖掘结果并输出。
[0114]
s51、通过迭代执行步骤s44~s48的训练过程获得蛋白质互作网络节点分类模型的最优参数后,输入新的蛋白质互作网络数据,将最后一次获取的蛋白质节点分类结果作为最终功能模块挖掘的结果;
[0115]
s52、将功能模块挖掘结果进行输出。结果输出至医务人员或科研人员,用于蛋白质的功能研究或者疾病的治疗。
[0116]
技术效果评价:
[0117]
为验证本发明提出技术方案的有效性和先进性,将本发明与几种经典的方法进行比较,对比方法包括多标签学习的反向传播bp-mll算法、多标签径向基函数ml-rbf算法、具有标签特定特征的多标签学习lift算法和排序支持向量机rank-svm算法,将蛋白质节点的节点标记率设置为10%~90%,以10次实验的平均auc作为评价指标,将上述算法与本发明方法进行对比分析,比较结果如表1所示:
[0118][0119]
从表中可以看出,本发明技术方案的功能模块挖掘auc值高于对比算法,能够得到更准确的功能模块结果。
[0120]
如图2所示,一种蛋白质互作网络功能模块挖掘系统,包括计算机处理器和内存、蛋白质互作网络数据预处理单元、蛋白质互作网络功能模块挖掘模型训练单元、蛋白质互作网络功能模块挖掘及结果输出单元,所述蛋白质互作网络数据预处理单元对抽取的人类相关蛋白质互作网络数据进行预处理,获得蛋白质互作网络去噪数据,并加载到计算机内存中;所述蛋白质互作网络功能模块挖掘模型训练单元根据蛋白质互作网络数据预处理单元产生的蛋白质互作网络数据构建蛋白质互作网络功能模块挖掘模型,并基于输入的蛋白质互作网络相关信息,训练并确定模型中参数的最优值;所述蛋白质互作网络功能模块挖掘及结果输出单元将蛋白质互作网络中每个蛋白质节点进行分类并划分到各个功能模块中,并将蛋白质互作网络功能模块挖掘结果进行输出;所有单元中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。
[0121]
实施例2
[0122]
如图2所示,一种蛋白质互作网络功能模块挖掘系统,包括计算机处理器和内存、蛋白质互作网络数据预处理单元、蛋白质互作网络功能模块挖掘模型训练单元、蛋白质互作网络功能模块挖掘及结果输出单元。
[0123]
1、所述蛋白质互作网络数据预处理单元执行步骤s10,对抽取的人类相关蛋白质互作网络数据进行预处理,获得蛋白质互作网络去噪数据,并加载到计算机内存中;
[0124]
步骤s10具体为:对采集到的蛋白质互作网络数据进行预处理,降低噪声数据对结果的影响。
[0125]
s11、从蛋白质互作数据库中收集人类相关数据,作为实验数据集;
[0126]
s12、利用基因本体论数据分析工具注释蛋白质,为每个蛋白质建立生物过程bp注释短语集合,第i个蛋白质的bp注释集合用d
bp
(i)表示,假设第i个蛋白质被5个bp注释短语注释,则d
bp
(i)={d1,d2,d3,d4,d5},假设第j个蛋白质被4个bp注释短语注释,则d
bp
(j)={d1,d2,d3,d4},从而建立两个蛋白质所包含的注释短语的5
×
4注释短语矩阵;
[0127]
s13、计算蛋白质注释短语矩阵中的每一对短语的语义相似值,用来表示两个蛋白质注释短语之间的相似性simd
bp
(i,j)=max
d1,d2
(-logp(d));
[0128]
s14、取相似性值中最大的一个作为蛋白质之间的相似值;
[0129]
s15、设定阈值,如果蛋白质之间的相似值大于阈值,则认为蛋白质之间存在相互作用,保留蛋白质之间的相互作用数据,否则删除,以此减少蛋白质互作网络数据中的假阳性噪声数据,增加数据的可靠性;
[0130]
2、所述蛋白质互作网络功能模块挖掘模型训练单元根据蛋白质互作网络数据预处理单元产生的蛋白质互作网络数据执行步骤s20~步骤s40,构建蛋白质互作网络功能模
块挖掘模型,并基于输入的蛋白质互作网络相关信息,训练并确定模型中参数的最优值;
[0131]
步骤s20~步骤s40具体为:
[0132]
s20、由步骤s10获得的蛋白质互作网络数据,抽取蛋白质特征信息和蛋白质相互作用信息,得到蛋白质互作网络结构。
[0133]
s21、根据s10预处理后的蛋白质互作网络数据构建一个蛋白质互作网络模型g(v,e,c),将蛋白质互作网络中的蛋白质抽象为节点,其中v={v1,v2,...,vn}表示蛋白质节点集合,n表示蛋白质节点的数量,e=[e
ij
]表示蛋白质节点相互作用矩阵,如果两个蛋白质节点之间存在相互作用,则e
ij
=1,否则e
ij
=0,矩阵c为所有蛋白质节点特征向量矩阵;
[0134]
s22、构建蛋白质互作网络标签矩阵来保存网络的类别信息,将标签矩阵记为b=[b
ij
],标签矩阵定义如下:对于任意两个蛋白质节点vi和vj,若类别相同b
ij
=1,否则b
ij
=0;如果蛋白质节点vi或vj的类别未知则b
ij
=0;
[0135]
s30、基于步骤s20蛋白质互作网络结构,构建蛋白质互作网络功能模块挖掘模型;
[0136]
s31、进一步的,使用图卷积网络作为编码器将蛋白质互作网络g(v,e,c)编码为网络表示向量,其编码过程的形式化表示如式(1)所示:
[0137][0138]
其中,为编码后的网络表示向量构成的集合,ri表示由蛋白质节点vi编码得到的网络表示空间中的表示向量,w0和w1是待学习的参数;这里的输入包括两个部分:蛋白质相互作用矩阵e和蛋白质节点特征矩阵c;编码器激活函数由式(2)定义:
[0139][0140]
s32、进一步的,使用内积函数作为解码器将网络表示向量集合r解码重构为蛋白质相互作用矩阵解码器定义如式(3)所示:
[0141][0142]
其中,δ为内积函数;
[0143]
s33、进一步的,分类器用于将蛋白质互作网络中蛋白质节点的网络表示向量划分到相应功能模块当中,将分类器划分后的功能模块结果记为p
*
={p1,p2,

,pk},其中,p为蛋白质功能模块,k为功能模块数量,使用多个支持向量机svm作为分类预测模型,分类器的目标函数如式(4)所示:
[0144][0145]
其中,θ和ρ是待确定参数,ξi是第i个蛋白质节点的松弛系数,是惩罚系数,a=0.5是权重,ri是蛋白质节点vi编码得到的网络表示空间中的表示向量,yi是蛋白质节点vi的类标记;
[0146]
s40、基于步骤s30构建的蛋白质互作网络功能模块挖掘模型,对模型进行训练,通过迭代计算,使得模型收敛,确定模型中的待定参数;
[0147]
s41、为s30建立的蛋白质互作网络功能模块挖掘模型建立式(5)所示的联合目标函数:
[0148]
l=lr βlsꢀꢀꢀ
(5)
[0149]
其中β为超参数,lr为重构损失,用于度量原始蛋白质互作矩阵e和重构矩阵之间的差异,由式(6)计算:
[0150][0151]
其中,e
p
和分别代表蛋白质节点相互作用矩阵和重构后的蛋白质相互作用矩阵中的值;
[0152]
ls为半监督损失,由式(7)所示:
[0153][0154]
s42、基于s30构建的蛋白质互作网络功能模块挖掘模型中,利用拉格朗日优化方法将式(4)转换为其对偶形式进行求解:
[0155][0156]
其中,αi是第i个蛋白质节点的拉格朗日乘子;
[0157]
然后,选用高斯核函数来代替点积,将样本从原输入空间映射到高维特征空间,实现在高维空间的线性分类;将式(9)核函数引入式(8),可得到如式(10)所示的目标函数:
[0158][0159][0160]
其中,σ表示超参数;
[0161]
解之得到最优解及ρ
*
,在高维特征空间中构造出最优分类超平面;则最终的分类函数f(r)如式(12)所示,对于新的节点vi,通过分类函数f(r)来进行分类;
[0162][0163]
s43、对步骤s30中的蛋白质互作网络功能模块挖掘模型进行初始化,初始化图自编码器参数w,并给定隐空间维度32、批大小128和学习率0.5;
[0164]
给定迭代次数t,迭代执行步骤s44~s48,直到达到迭代次数,完成对蛋白质互作网络功能模块挖掘模型的训练,获得模型的最优参数:
[0165]
s44、将s21获取的蛋白质相互作用矩阵e和特征矩阵c作为输入,按式(1)编码器编码获取蛋白质网络表示向量集合r;
[0166]
s45、按式(3)解码器对蛋白质网络表示向量集合r进行解码得到完成正向传
播;
[0167]
s47、采用随机梯度下降法,通过优化式(5)中的联合目标函数l,完成反向传播,实现对自编码器中权重w的更新;
[0168]
s48、通过式(11),对蛋白质互作网络中的蛋白质节点进行分类,得到蛋白质功能模块;
[0169]
3、所述蛋白质互作网络功能模块挖掘及结果输出单元执行步骤s50,将蛋白质互作网络中每个蛋白质节点进行分类并划分到各个功能模块中,并将蛋白质互作网络功能模块挖掘结果输出。
[0170]
步骤s50具体为:利用步骤s30构建的蛋白质互作网络功能模块挖掘模型,以及步骤s40确定的模型参数,将蛋白质节点进行分类,得到功能模块挖掘结果并输出。
[0171]
s51、通过迭代执行步骤s44~s48的训练过程获得蛋白质互作网络节点分类模型的最优参数后,输入新的蛋白质互作网络数据,将最后一次获取的蛋白质节点分类结果作为最终功能模块挖掘的结果;
[0172]
s52、将功能模块挖掘结果进行输出。结果输出至医务人员或科研人员,用于蛋白质的功能研究或者疾病的治疗。
[0173]
4、所有单元中具体的数据处理和计算工作由所述计算机处理器完成,且所有单元都与所述计算机内存的数据交互。
[0174]
以上显示和描述了本发明的主要特征和优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
[0175]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献