一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

蛋白预测模型训练方法、预测方法及可读存储介质

2022-10-26 07:08:06 来源:中国专利 TAG:


1.本发明属于计算机技术领域,具体涉及一种蛋白预测模型的训练方法、预测方法及可读存储介质。


背景技术:

2.目前,虽然蛋白的氨基酸序列,即蛋白的一级结构,通过对相应基因的研究,比较容易获悉,但蛋白因为高级结构在折叠上的复杂性,很难通过氨基酸序列来预测其功能。近年来,随着人工智能技术的发展,研究人员运用人工智能的方法研究蛋白氨基酸序列,从而预测蛋白的功能和高级结构特征等。现有的研究方法包括支持向量机,随机森林等常规预测方法,但目前的大多数训练模型的方法,以及得到的预测模型,无法有效的进行特征融合,使得训练模型的精确度不高。


技术实现要素:

3.本发明针对上述现有技术中存在的现有训练方法无法有效的进行特征融合,使得训练模型的精确度不高,提供一种目标蛋白预测模型训练方法、预测方法及可读存储介质。
4.根据本发明和实施例,本发明提供一种蛋白预测模型的训练方法,包括如下步骤:
5.s1获取目标蛋白序列样本;
6.s2根据研究视角对目标蛋白序列样本进行序列特征提取,得到序列特征;
7.s3根据共享隐藏向量的方法,对所述序列特征进行耦合,得到耦合特征;
8.s4将所述耦合特征导入分类机进行训练,得到目标蛋白预测模型。
9.可选地,s3包括如下步骤:
10.s31将序列特征映射到高维空间,根据相应权重得到中间向量,并使所述中间向量通过相同的隐藏向量相互关联,得到特征超图集;
11.s32根据特征超图集,得到耦合特征。
12.可选地,其中,
13.s31,包括如下步骤:
14.s311将序列特征通过核函数映射到高维空间,得到序列特征点;
15.s312所述序列特征点经过权重矩阵进行变换,得到中间向量;
16.s313以任一序列特征点为中心,计算该中心点与序列特征点之间的距离,得到离该中心点最临近的p个特征超图,得到p个特征超图m∈rn×u形成的所述特征超图集,n=u,n是图中节点的数量,u是超边的数量,
[0017][0018]
s32,包括如下步骤:
[0019]
s321根据p个所述特征超图形成的所述特征超图集,得到特征超图集包含的特征节点;
[0020]
s322根据所述特征节点,得到耦合特征。
[0021]
可选地,所述分类机为受限性核机,所述受限性核机通过η,λ,θ超参数进行设定,具体方式为:
[0022]
根据如下目标函数j进行网格搜索,根据预测结果,优化η,λ,θ超参数;
[0023][0024]
其中,bn是共偏置列向量,,带上标[v]的指代对不同视角v对应的矩阵,l
[v]
∈rn×n是超图正则化矩阵,其中w
[v]
表示视角v中决定分类超平面的法向量,h表示隐藏向量,表示视角v中的映射函数,y表示样本标签;η,λ,θ是预设超参数,其中η是关于超平面w 的l2正则项超参数,λ是关于隐藏向量h的l2正则项超参数,θ是关于超图正则项l的l2 正则项超参数;而l
[v]
为所述特征超图m的正则化矩阵,由下式得出,
[0025][0026]
其中,in×n是指n
×
n的单位矩阵,w
[v]
是权重矩阵,d
[v]
和e
[v]
分别表示顶点度矩阵和超边度矩阵,并且它们都是对角矩阵,,
[0027]
可选地,目标函数j根据网格搜索优化的条件为:
[0028][0029]
其中,v=1,2,
……
,v。
[0030]
可选地,s2中,研究视角包括:氨基酸组成、物理化学性质和进化信息。
[0031]
可选地,所述研究视角的提取算法为:氨基酸组成使用mcd提取算法,物理化学性质使用nmbac提取算法,进化信息使用pssm-dwt、pssm-ab及psepssm提取算法。
[0032]
可选地,s4中,根据所述耦合特征的输入,重复更新蛋白预测模型,得到目标蛋白预测模型。
[0033]
可选地,s1中,目标蛋白序列样本为dna结合蛋白序列样本。
[0034]
根据本发明和实施例,本发明还提供一种蛋白的预测方法,包括:
[0035]
获取蛋白序列样本;
[0036]
利用如上所述的目标蛋白预测模型对蛋白序列样本进行识别,得到蛋白序列预测结果。
[0037]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法步骤
[0038]
本发明的有益效果是:
[0039]
通过研究视角对目标蛋白序列样本进行序列特征提取,得到序列特征后,根据共
享隐藏向量的方法,对所述序列特征分别进行耦合,得到耦合特征;将所述耦合特征导入分类机进行训练,得到目标蛋白预测模型。与现有方法不同之处在于,使得耦合的特征通过相同的隐藏向量相互关联。而不是类似于前融合和后融合,较为极端的将两种特征相互融合。通过这种方式,能够充分结合前融合和后融合的优势,而且允许一定程度的自由。导入分类机进行训练后,得到预测更加精确的训练模型。
附图说明
[0040]
图1为本发明实施例提供的蛋白预测模型的训练方法流程图;
[0041]
图2为本发明实施例提供的基于超图正则化进行多视角特征耦合的受限性核机的示意图;
[0042]
图3为本发明实施例提供的蛋白的预测方法流程图;
[0043]
图4为本发明提供的蛋白预测模型的训练方法所得模型预测效果测试结果图;
[0044]
图5为本发明实施例提供的蛋白的预测方法与其它机器学习方法在训练集pdb1075上的对比示意图;
[0045]
图6为本发明实施例提供的蛋白的预测方法与现有识别算法在数据集pdb186上独立测试的效果对比示意图。
具体实施方式
[0046]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。本发明是参照根据本发明实施例的方法、设备(系统),和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以
对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
[0047]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0048]
如图1所示,本发明提供一种蛋白预测模型的训练方法,包括如下步骤:
[0049]
s1获取目标蛋白序列样本;
[0050]
s2根据研究视角对目标蛋白序列样本进行序列特征提取,得到序列特征;
[0051]
s3根据共享隐藏向量的方法,对所述序列特征进行耦合,得到耦合特征;
[0052]
s4将所述耦合特征导入分类机进行训练,得到目标蛋白预测模型。
[0053]
本发明的原理是运用了多超图正则化方法,共享隐藏向量,以在权重影响下更集中的p 个超图来融合在不同视角下,运用不同算法,比如物理化学性质可使用nmbac提取算法,进化信息可使用pssm-dwt、pssm-ab和/或psepssm等提取算法提取出的样本特征点,该特征点通过核函数(常见可运用于本发明的函数皆可,下例中为rbf核函数)映射到高维空间,再通过相应特征的权重值进行变换(隐藏向量的和权重向量w的产生逻辑是相同的,只是它们的作用不同,隐藏向量通过与隐藏图和显层图作用而产生一定的效果。),再通过构造包含中心顶点和它的p个最邻近顶点的超图,将这些超图所覆盖的节点作为耦合的特征,通过这样的耦合或称特征融合,能尽量保持原始提取的特征和隐藏向量的结构一致性,既隐藏层的图尽可能和显层图尽可能的相似,又去除了一些可能会造成预测不准确的特征数据。而且,运用超图正则化的方法还能够通过计算超图的正则项参数,对后续分类机的超参数的修正,从而进一步提供分类机的预测准确率。
[0054]
实施例1
[0055]
步骤s1中获取的原始的蛋白质序列数据集包含正例数据(即dna结合蛋白)和反例数据(即非dna结合蛋白),这样是一种监督学习的方式。在s1中,因为是一种人工智能方法,可以用于多种类型的蛋白预测,特别的如图4-6所示,在s1中如果用dna结合蛋白序列作为正例数据,非dna结合蛋白作为反例数据的样本(同理也可以用其他,a类蛋白和非a类蛋白作为正负样本),测试、与现有技术对比了该模型对dna结合蛋白的预测效果,所以本发明提供的方法针对dna结合蛋白有更好的预测效果。
[0056]
步骤s2中,如图3所示,所述的研究视角可以是氨基酸组成、物理化学性质和进化信息等等现领域中常见角度的组合。其中,氨基酸组成使用mcd提取算法,物理化学性质使用nmbac提取算法,进化信息使用pssm-dwt、pssm-ab及psepssm提取算法。根据一种类别的蛋白序列样本,可以进行上述提到的多种研究视角下的多种序列特征提取,提取多种特征,而在s3中争对该同一序列所提取的多种不同序列特征进行耦合,得到该序列的耦合特征,往往是一个特征的集合,又因为同一类别的蛋白序列样本中也可以为多种序列,因此亦可针对有区别的蛋白序列分别耦合特征,或特征的集合,作为分类机的输入。
[0057]
步骤s3中,共享隐藏向量,以保持原始特征和隐藏特征(即隐藏向量或隐藏变量)之间的结构一致性可以使用的是多超图正则化方法,具体方法为:
[0058]
如图2所示,将每个视角的训练数据x
[v]
通过映射函数映射到高维空间,之后再
经过权重矩阵w
[v]
得到中间向量e
[v]
,与之前方法不同之处在于,每个中间向量通过相同的隐藏向量h相互关联。而不是类似于前融合和后融合,较为极端的将两种特征相互融合。耦合可以是先对一个视角[v]进行处理,之后通过加权,从而合并全部视角信息。通过这种方式,能够结合前融合和后融合的优势,同时仍然允许一定程度的自由,以不同的视图建模。图中,从h到l的两个箭头,表示隐藏向量h对l的约束,而在l中,用不同深浅的颜色表示数值的不同。
[0059]
映射函数表示一个核函数,在本实施例中,发明人使用rbf 核函数(也称为高斯核函数),即φ(x)φ(x)t=k(x,x)=exp(-γ||x
i-xj||2)。w是一个向量,表示数据每个特征维度的权重,w={w1,w2,...,wn},其中n是输入样本数据x经过空间映射后的特征维度。
[0060]
超图正则化可以保持原始特征和隐藏特征之间的结构一致性,具体构建方法如下:
[0061]
让图中顶点代表训练样本点,关联矩阵m∈rn×u代表一个超图,其中n是图中节点的数量,u是超边的数量,每条边用关联矩阵中的一列表示,每个顶点用一行表示;元素m
i,j
=1 代表第i个顶点属于第j个超图,元素m
i,j
=0代表第i个顶点不属于第j个超图;即,首先,发明人假定顶点为中心,然后计算中心顶点与其它顶点之间的欧几里得距离,最后构造包含中心顶点和它的p个最邻近顶点的超图(本例中p的取值为20);因此,n=u并且m中元素被如下定义:
[0062][0063]
超图的权重用一个nxn的对角矩阵w表示;设d和e表示分别包含顶点度和超边度的对角矩阵,其中p个所述特征超图形成的所述特征超图集所覆盖的特征节点,即为耦合特征,作为后续受限性核机模型的输入。
[0064]
通过上述定义,可以构建超图正则化矩阵其中,in×n是指n
×
n的单位矩阵,w
[v]
是权重矩阵,通过正则化项,来保持原始特征与隐藏特征h之间的结构一致性。
[0065]
步骤s4中,受限性核机模型推导如下:
[0066]
令指代第v个视角的训练矩阵,其中指代第v个视角的训练矩阵,其中指代训练集的标签,其中yk∈{-1,1},k=1,2,

n;这样,发明人得到一个最小化的目标函数j:
[0067][0068]
其中,其中bn是共偏置列向量,l
[v]
∈rn×n是超图正则化矩阵,其中w
[v]
表示权重,即视角v中决定分类超平面的法向量,w(小写的),与l中的权重矩阵w(大写)不同,表示不同权
重。目标函数中,w表示权重,因为它其中的值可以表示每个特征的重要程度;另外,它也可以表示超平面的法向量,这是因为每个权重值用空间几何学来看,可以表示斜率,因此同时它也是超平面的法向量,受限性核机器是支持向量机的一种改进,主要目标就是为了寻找一个超平面,将两类数据分割开来。目标函数j中,w(小写的)是会随着训练数据(既学习)而变化的。h表示隐藏向量,表示视角v中的映射函数,y表示样本标签;η,λ,θ是预设超参数,其中η是关于超平面w的l2正则项超参数,λ是关于隐藏向量h的l2正则项超参数,θ是关于超图正则项l的l2正则项超参数;而l
[v]
为所述特征超图m的正则化矩阵,由下式得出,
[0069][0070]
其中,in×n是指n
×
n的单位矩阵,带上标[v]的指代对不同视角v对应的矩阵,w
[v]
是权重矩阵,d
[v]
和e
[v]
表示分别包含顶点度和超边度的对角矩阵。
[0071]
目标函数j的最优条件为:
[0072][0073]
其中,v=1,2,
……
,v,消除原始变量w
[v]
可以得到
[0074][0075]
其中,目标函数的解为和输入可以通过以下公式判别其所属的类别(既预测结果):
[0076][0077]
其中,的值一般只能取 1或者-1。在本例中, 1表示样本被预测为正例(即dna结合蛋白样本),-1表示样本被预测成反例(不是dna结合蛋白样本)。可以使用网格搜索和5折交叉验证,寻找目标函数j的超参数,使得运用到本例中的受限性核机的分类性能达到最优。
[0078]
受限性核机的超参数,即η,λ,θ,在取值不同时,受限性核机会取得不同的分类性能;这里的分类性能发明人使用5折交叉验证来获得,具体方法如下:
[0079]
将原始训练样本均分为5个子集,让每一个子集都做一次验证集,其余4个子集作为训练集;这样会得到5个模型,用这5个模型的验证集上的分类准确率的平均数作为该5 折交叉验证下分类器的性能指标,来评价模型的分类性能;有了上述评价模型性能的方法,发明人使用网格搜索来进行最优超参数选取,它利用的是穷举搜索,在所有候选的参数选
择中,通过循环便利,尝试每一种可能,表示最好的超参数就是最终的最优超参数。
[0080]
具体来说,步骤s4包括以下步骤:
[0081]
s4-1.初始化受限性核机的所需的参数η,λ,θ,并设置网格搜索的范围为2-5-25,搜索的步长为2;
[0082]
s4-2.计算使用受限性核机对dna结合蛋白进行分类(这里如果样本使用的是其他蛋白,按照其他蛋白得到的分类精度同理)得到的分类精度,并将其作为最优参数选取的参照;
[0083]
s4-3.更新参数η,λ,θ;
[0084]
s4-4.判断是否得到最优的参照值或完成网格搜索的范围,若是进入s4-5,否则返回步骤s4-2;
[0085]
s4-5.获取最大参照值的最优参数参数η,λ,θ,并将其带入受限性核机中,得到分类性能最优的受限性核机。
[0086]
s4-6采用耦合得到的特征集作为输入,并输入至所述的受限性核机中进行训练,得到训练好的分类模型;
[0087]
其中,s4-2中分类精度用准确率acc表示,其计算方法为:
[0088][0089]
其中acc表示使用受限性核机对dna结合蛋白进行分类的分类精度,tp表示预测正确的dna结合蛋白数量,fp表示预测正确的非dna结合蛋白数量,tn表示预测错误的 dna结合蛋白数量,fn表示预测错误的非dna结合蛋白数量。
[0090]
其中,s4-6采用耦合得到的特征集作为输入,并输入至所述的受限性核机中进行训练,得到训练好的分类模型,还可以包括下述步骤:(即根据留一法,根据耦合特征的输入,重复更新预测模型。)
[0091]
s4-6-1、将样本特征集分成n份,其中n为序列样本数目;
[0092]
s4-6-2、遍历每份特征数据,采用留一法,即将其中一份作为测试集,剩余n-1份作为训练集,采用优化后的受限性核机对其中的蛋白质进行分类训练;
[0093]
s4-6-3、得到样本的预测结果,并对分类效果进行评价;
[0094]
s4-6-4、重复步骤s4-6-2及s4-6-3,直到每份特征数据都作为测试集进行过分类训练,得到训练好的蛋白预测模型。
[0095]
可见,通过这个过程,蛋白预测模型可以在预测的同时继续学习,不断优化更新模型。
[0096]
为了比较并评价根据上述方法所得蛋白预测模型的性能,如图4所示,发明人使用了马修相关系数(mcc)、灵敏度(sen)、特异性(spe)和准确性(acc)来对本蛋白预测模型的性能进行评估。
[0097]
其中:
[0098]
[0099][0100][0101][0102]
其中tp是正确识别的阳性序列(即结合蛋白序列)的数量,tn是正确识别的阴性序列(即非结合蛋白)的数量,fp是错误识别的阴性序列的数量,fn是错误识别的阳性序列的数量。此外,roc曲线下的面积(称为auc)被用来评估总体预测能力。为了研究不同特征及它们组合对结合蛋白质预测的贡献,发明人在数据集pdb1075上比较了使用单个视角特征和多个视角特征相结合时的实验结果;发明人使用选取好的超参数在数据集 pdb1075上进行实验,实验步骤为上述s4-6-1,s4-6-2,s4-6-3,结果显示多视角耦合方法可以极大地提高结合蛋白质预测的准确性。从图4中可以看出,单独使用五种特征的效果相较于使用全部的特征的结果交叉,这说明所有五个特征(nmbac、mcd、pssm-ab、 pssm-dwt和psepssm)都有助于模型对dna结合蛋白质的预测。其中使用全部的五种特征时,如图中最右侧multi-view所示,预测模型的acc、sen、spe、mcc及auc 均达到了最高,分别为84.09%、85.33%、82.91%、0.6823及0.9187。从该结果中可以看出,发明人提出的多视角耦合方法可以极大地提高预测的准确性。
[0103]
为了体现模型的预测准确性,如图5所示,发明人还对比本发明与其它现有的方法在 pdb1075数据集上进行性能比较,其它现有的方法包括:dnabinder、idnapro-pseaac、 idna-prot|dis、idna-prot、msfbinder、dna-prot、local-dpp、psedna-pro及fkrr-mvsf, mv-h-rkm是本发明的方法,实验步骤为对每个不同的方法进行步骤s4-6-1,s4-6-2,s4-6-3 来统计分类性能,最终得到的结果显示本项目方法的有效性。这里发明人使用acc、mcc、 spe及sen四个评价指标来衡量发明人的预测模型和其它现存的预测模型在训练集 pdb1075上的实验效果。从图中可以看出,发明人的方法mv-h-rkm在acc、mcc及 sen上达到了最高,分别为84.65%、0.69及87.24,只有spe略低于msfbinder方法。与其他方法相比,acc和mcc值至少提高了1.30%和0.02。这证明了mv-h-rkm在预测dbps 方面的功效。
[0104]
为了进一步说明本发明训练所得的蛋白预测模型的泛化性能,如图6所示,发明人在pdb1075上训练模型,并在pdb186数据集上进行独立测试,并将实验结果与其它现有的方法进行性能比较,其它现有的方法包括:dnabinder、idnapro-pseaac、idna-prot|dis、 idna-prot、msfbinder、dna-prot、local-dpp、及fkrr-mvsf,其中,mv-h-rkm是本发明的方法,实验步骤为:对不同的方法使用选取好的超参数在训练集上训练,得到训练好的分类模型,之后将测试集上的数据输入至该训练好的模型中,得到最终的结果;该实验结果显示了本项目方法具有良好的泛化性能。这里发明人使用acc、mcc、spe及sen 四个评价指标来衡量发明人的预测模型和其它现存的预测模型在独立测试集pdb186上的实验效果,用来评价模型的鲁棒性。从图中可以看出,发明人提出的方法mv-h-rkm在 pdb186上实现了最佳性能。mvh-rkm的acc(85.5%)、mcc(0.710)和spe(85.0%)值始终优于上述其他方法,分别比第二好的预测值提高了3.8%、0.034%和5.0%。证明了 mv-h-rkm对dbps预测的稳健性。
[0105]
实施例2
[0106]
本发明还提供使用上述实施例1所训练的蛋白预测模型对蛋白进行预测的方法,包括如下步骤:
[0107]
获取蛋白序列样本;
[0108]
利用如上所述的目标蛋白预测模型对蛋白序列样本进行识别,得到蛋白序列预测结果。
[0109]
具体的,可以用类似实施例1中,s4-6-1,s4-6-2,s4-6-3中的方法,得到蛋白序列的预测结果。
[0110]
另外,可以在预测的同时重复步骤s4-6-2及s4-6-3,通过这个过程,蛋白预测模型可以在预测的同时继续学习,不断优化更新模型。
[0111]
实施例3
[0112]
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法步骤。可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0113]
值得说明的是,s1,s2,s3,s4等标号的步骤,并不表示本发明的执行顺序,只要在不影响发明达到效果的前提下,可以同时施行,或者做出先后调整;另外上述提到的具体实施方式,比如在s1,s2,s3,s4提到各种可选的方式,都有本领域人员不需要创造性劳动即可替换的可能实施的方式,并且这些实施方式在各个步骤都可以在能够实现本发明目的的前提下,相互组合或结合组成的步骤,也应在本发明权利的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献