一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于无偏课程学习的蛋白质热力学稳定性预测方法与流程

2022-10-26 19:22:21 来源:中国专利 TAG:
1.本发明总的来说涉及蛋白质热力学稳定性预测
技术领域
:。具体而言,本发明涉及一种基于无偏课程学习的蛋白质热力学稳定性预测方法。
背景技术
::2.蛋白质在生物过程中起着至关重要的作用,而蛋白质的功能与蛋白质的热力学稳定性密切相关。近年来,出现了许多基于深度学习的蛋白质热力学稳定性预测(ptsp)方法。3.然而现有技术中通常使用物理方法来测量氨基酸残基点突变后稳定性的变化,这一过程非常耗时。另外,目前的蛋白质热力学稳定性预测(ptsp)方法既忽视蛋白质结构的自然拓扑结构,也忽视了由于理论计算或物理实验的误差而产生的固有噪声样本。技术实现要素:4.为至少部分解决现有技术中的上述问题,本发明提出一种基于无偏课程学习的蛋白质热力学稳定性预测方法,包括下列步骤:5.将蛋白质的结构以及突变因素输入蛋白质结构预测器中;6.在所述蛋白质结构预测器中生成突变前和突变后的蛋白质结构;7.构造孪生图神经网络,并且通过所述孪生图神经网络提取突变前和突变后的蛋白质特征;8.根据所述突变前和突变后的蛋白质特征预测蛋白质的热力学稳定性δδg;以及9.基于无偏课程学习抑制预测蛋白质的热力学稳定性的过程中的产生的误差。10.在本发明一个实施例中规定,所述孪生图神经网络包括:11.第一网络,其被配置为提取突变前的蛋白质特征;以及12.第二网络,其被配置为提取突变后的蛋白质特征;13.其中,所述第一和第二网络的骨干网络为图注意网络,并且所述第一和第二网络的权值相同。14.在本发明一个实施例中规定,通过所述孪生图神经网络根据氨基酸编码、能量编码以及进化编码提取突变前和突变后的蛋白质特征。15.在本发明一个实施例中规定,所述基于无偏课程学习的蛋白质热力学稳定性预测方法,还包括:16.构造全局特征增强模块,并且在所述全局特征增强模块中通过局部特征转换流对蛋白质的局部突变节点进行捕捉。17.在本发明一个实施例中规定,在所述全局特征增强模块中通过局部特征转换流对蛋白质的局部突变节点进行捕捉包括下列步骤:18.以xa表示形状为1×a的位于图注意网络层前的第一局部特征向量,以xb表示形状为1×b的位于所述gat层后的第二局部特征向量,以y表示通过所述局部特征转换流处理后的第三局部特征向量,所述第三局部特征向量y的形状为1×b,处理过程表示为下式:19.y=f(xa) f(xb)20.其中f(.)表示具有a个输入通道和b个输出通道的全连接层;21.通过所述第三局部特征向量y更新蛋白质的特征;以及22.将所述第三局部特征向量y送入下一个的图注意网络层通过所述局部特征转换流处理;以及23.重复上述动作直至所述孪生图神经网络的最后一个图注意网络层。24.在本发明一个实施例中规定,基于无偏课程学习抑制预测蛋白质的热力学稳定性的过程中的产生的误差包括下列步骤:25.通过无偏困难度函数来消除基础真值的影响,表示为下式:[0026][0027]其中,x表示样本,xgt表示地面真值标签,xpred表示预测值,h(x)表示样本x的硬度;以及[0028]根据小批量样本难度的平均值和偏差,构造自适应阈值以衡量样本的难度,表示为下式:[0029]tcur=havg α·hstd,[0030]其中,α表示困难样本挖掘的超参数,havg和hstd表示当前批次的平均难度和难度的标准差。[0031]本发明还提出一种计算机系统,包括:[0032]处理器,其被配置为执行机器可执行指令;以及[0033]存储器,其被配置为在被处理器执行时执行根据权利要求1至6之一所述的方法。[0034]本发明还提出一种计算机可读存储介质,其上存储有计算机可执行指令,所述计算机可执行指令在被处理器执行时执行根据权利要求1至6之一所述的方法。[0035]本发明至少具有如下有益效果:本发明提出一种基于无偏课程学习的蛋白质热力学稳定性预测方法,其中通过孪生图神经网络来提取突变前后蛋白质的特征,并且通过全局特征增强模块利用局部突变位点增强全局特征表示,解决了源于局部节点的变异的图结构变化。另外本发明还引入了无偏课程学习方法缓解噪声样本导致的模型偏差,也就是说对物理实验或理论化学计算方法导致的不可避免错误进行了有效处理。附图说明[0036]为进一步阐明本发明的各实施例中具有的及其它的优点和特征,将参考附图来呈现本发明的各实施例的更具体的描述。可以理解,这些附图只描绘本发明的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。[0037]图1示出了本发明一个实施例中一个基于无偏课程学习的蛋白质热力学稳定性预测方法的流程示意图。[0038]图2示出了本发明一个实施例中一个基于无偏课程学习的蛋白质热力学稳定性预测方法的整体框架图。具体实施方式[0039]应当指出,各附图中的各组件可能为了图解说明而被夸大地示出,而不一定是比例正确的。在各附图中,给相同或功能相同的组件配备了相同的附图标记。[0040]在本发明中,除非特别指出,“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外,“布置在…上或上方”仅仅表示两个部件之间的相对位置关系,而在一定情况下、如在颠倒产品方向后,也可以转换为“布置在…下或下方”,反之亦然。[0041]在本发明中,各实施例仅仅旨在说明本发明的方案,而不应被理解为限制性的。[0042]在本发明中,除非特别指出,量词“一个”、“一”并未排除多个元素的场景。[0043]在此还应当指出,在本发明的实施例中,为清楚、简单起见,可能示出了仅仅一部分部件或组件,但是本领域的普通技术人员能够理解,在本发明的教导下,可根据具体场景需要添加所需的部件或组件。另外,除非另行说明,本发明的不同实施例中的特征可以相互组合。例如,可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征,所得到的实施例同样落入本技术的公开范围或记载范围。[0044]在此还应当指出,在本发明的范围内,“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等,而是允许一定的合理误差,也就是说,所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推,在本发明中,表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。[0045]另外,本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出,各方法步骤可以以不同顺序执行。[0046]图1示出了本发明一个实施例中一个基于无偏课程学习的蛋白质热力学稳定性预测方法的流程示意图,该方法的整体框架可以如图2所示。[0047]如图1所示,该方法可以包括下列步骤:[0048]步骤101、将蛋白质的结构以及突变因素输入蛋白质结构预测器中。所述蛋白质结构预测器例如可以是rosetta预测器。[0049]步骤102、在所述蛋白质结构预测器中生成突变前和突变后的蛋白质结构。[0050]步骤103、构造孪生图神经网络,并且通过所述孪生图神经网络提取突变前和突变后的蛋白质特征。[0051]步骤104、根据所述突变前和突变后的蛋白质特征预测蛋白质的热力学稳定性;以及[0052]步骤105、基于无偏课程学习抑制预测蛋白质的热力学稳定性的过程中的产生的误差。[0053]在步骤101中,所述蛋白质结构预测器可以是rosetta预测器。[0054]在步骤103中,之所以通过孪生图神经网络来提取蛋白质的特征,是因为蛋白质自然地以图结构的形式存在,并且蛋白质结构是自然配对的。[0055]所述孪生图神经网络的骨干网络是图注意网络(gat,graphattentionnetwork),通过所述图注意网络可以提取蛋白质的初始图表示。[0056]蛋白质的突变是由点突变引起的,通过所述孪生图神经网络可以聚焦于蛋白质的突变位点以及所述突变位点的邻域。[0057]突变前和突变后的蛋白质的非突变位点具有共同知识,因此所述孪生图神经网络的上部和下部具有相同的权值。[0058]通过所述孪生图神经网络提取突变前和突变后的蛋白质特征可以包括下列步骤:[0059]以突变位点为中心取范围内的氨基酸构建图谱,其中当氨基酸的α-c之间的距离小于时,在氨基酸节点之间添加连接边;[0060]在所述图谱中通过下列信息获取所述氨基酸节点(也就是说氨基酸残基)的特征:[0061]氨基酸编码,其包括skip-gram模型中的5d表示,基于氨基酸分类的7done-hot向量以及总结了单个氨基酸残基的多个基本生物物理特性的8d向量;[0062]能量编码,其包括rosetta评分函数中的20d表示,其基于物理的能量项(例如范德华相互作用、溶剂化、氢键)和基于知识的能量项(例如蛋白质骨架、侧链、扭转);以及[0063]进化编码,其包括基于hhblits和unilust_30数据库的多序列比对的20d表示;[0064]其中通过所述氨基酸编码、所述能量编码以及所述进化编码可以获得一个60d的特征来对所述图谱中的每个节点进行编码。[0065]进一步的,在步骤103中,还可以通过构造全局特征增强模块,并且通过所述全局特征增强模块蛋白质的局部突变节点进行捕捉。[0066]虽然所述孪生图神经网络比以往的方法更能有效地表征蛋白质的结构突变过程,但它仍然缺乏对局部突变节点的注意,而这是导致蛋白质拓扑结构和热稳定性变化的根本原因。[0067]在所述全局特征增强模块中,通过局部特征转换流(lftf)增强模型捕捉局部突变节点的能力,其中包括下列步骤:[0068]以xa表示形状为1×a的位于gat(图注意网络)层前的第一局部特征向量,以xb表示形状为1×b的位于所述gat层后的第二局部特征向量,y表示通过所述局部特征转换流处理后的第三局部特征向量,细化局部特征向量y的形状为1×b,表示为下式:[0069]y=f(xa) f(xb)[0070]其中f(.)表示具有a个输入通道和b个输出通道的全连接层;[0071]通过所述第三局部特征向量y更新蛋白质的特征;以及[0072]将所述第三局部特征向量y送入下一个的图注意网络层通过所述局部特征转换流处理;以及[0073]重复上述动作直至所述孪生图神经网络的最后一个图注意网络层。[0074]由于难度度量函数在课程学习中起着不可或缺的作用。传统的课程学习通常以训练过程中样本的损失作为难度度量函数。但在图回归任务中,损失较大的样本并不代表该样本比其他样本更困难,损失较大可能是由于模型初始化或其稀缺性造成的。例如,具有较大的自由能δδg的样本可能由于模型初始化而有较大的损失。[0075]为了从当前的小批处理中公平地选择困难的样本,这些样本包含大的δδg变化和小的δδg变化,因此在步骤105中,可以通过无偏困难度函数来消除基础真值的影响,其中,考虑到gt(即公式的分母)接近0时,硬度值会明显增加,可以将无偏困难度函数表示为下式:[0076][0077]其中,x表示样本,xgt表示地面真值标签,xpred表示预测值,h(x)表示样本x的硬度;以及[0078]根据小批量样本难度的平均值和偏差,构造自适应阈值以衡量样本的难度,表示为下式:[0079]tcur=havg α·hstd,[0080]其中,α表示困难样本挖掘的超参数,havg和hstd表示当前批次的平均难度和难度的标准差。[0081]α的值默认设置为1,其中α的值越高,表示困难样本的样本越少。[0082]本发明提出一种基于无偏课程学习的蛋白质热力学稳定性预测方法,其优于基于神经网络或图形神经网络的高级蛋白质稳定性预测方法,而且在回归预测任务的最新学习方法中显示出其优越性。[0083]本发明方法相比现有技术在各项相关参数的表现上均有超出,如下表所示超出的百分比在ssym基准上的均方根误差为20%,皮尔逊相关系数为14%,在p53基准上的均方根误差为10%,皮尔逊相关系数为6%,大大优于目前现有的模型。[0084]table1:comparisonwithstate-of-the-artmethodsonssymbenchmark.insiamgnn,wecomparedifferentbackbonesbasedonthesiamgnnframework.lnlir(learningwithimbalanceregression),wecomparetheproposeduclwithsl(neurips’20)anddir(icml’21)basedonourglgnn.bestresultsandourmethodsaremarkedinblod.[0085][0086]table2:comparisonwithstate-of-the-artmethodsonthep53benchmark.lnsiamgnn,wecomparedifferentbackbonesbasedonthesiamgnnframework.inlir(learningwithimbalanceregression),wecomparetheproposeduclwithsl(neurips’20)anddir(icml’21)basedonourglgnn.bestresultsandourmethodsaremarkedinblod.[0087][0088]尽管上文描述了本发明的各实施例,但是,应该理解,它们只是作为示例来呈现的,而不作为限制。对于相关领域的技术人员显而易见的是,可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。当前第1页12当前第1页12
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献