一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于结构的肽配基与靶蛋白平衡解离常数评估模型

2022-11-12 12:05:09 来源:中国专利 TAG:


1.本发明涉及基础兽医学领域的肽配基筛选、抗畜禽病毒多肽、动物免疫学方向,具体涉及一种基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型。


背景技术:

2.病原体通常通过自身蛋白与寄主蛋白的互相作用实现入侵寄主第一步,通过对病毒互作蛋白相关区域肽段的深入研究能够深入了解病毒致病机理。这些互作区域通常是5到20个氨基酸残基(amino acid,aa)左右的肽段,在相关蛋白识别、调节、信号传导等过程中发挥作用。干扰病毒相关互作区域与寄主蛋白的相互作用能够起到减轻病毒载量、减缓病症的治疗效果,因此研究这些互作区域氨基酸肽段也成为抗病毒肽配基药物筛选、设计与研发的重要策略。免疫学上,主要利用生物展示技术来实现亲和肽配基的筛选,该方法成本高且耗时。因此,利用虚拟筛选的方法对病毒肽段与靶标蛋白相互作用区域进行研究,将进一步提高药物筛选的效率并降低相应的成本。目前针对靶蛋白特定功能区域进行多肽药物虚拟筛选的方法却未见系统报道。


技术实现要素:

3.针对现有技术的不足,本发明的目的是提供一种基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型。利用实际实验数据和肽配基与靶标蛋白分子对接数据,构建一种基于机器学习算法的多肽筛选系统,为肽配基的靶向虚拟筛选提供新的方法,并为其他相关药物筛选系统的建立提供参考。
4.为了实现上述目的,本发明所采用的技术方案是:
5.基于结构针对肽配基分子与靶蛋白的平衡解离常数评估模型,包括以下步骤:
6.通过实验收集互作区域氨基酸肽配基与靶标蛋白反应性数据,同时解析该氨基酸肽段结构相关数据信息,根据氨基酸肽段与其受体实际平衡解离常数对整体数据进行分类,分为active(a)和unactive(ua)两类,结合分类信息和特征信息构建含有1940个样本和13个特征数据的1940
×
13数据矩阵。
7.对收集并分类的数据进行随机子数据集的构建,包括靶向igg系列多肽特征库和靶向αβ42系列多肽特征库数据,利用靶向igg系列多肽特征库对机器学习算法进行学习,利用靶向αβ42系列多肽特征库数据对系统预测性能进行初步评估,并根据机器学习算法提供的平均基尼系数降低量(meandecreasegini)对重要特征进行选择。根据筛选后的重要特征,对机器学习算法进一步学习,并对相关参数进行调整,对系统进行相应优化。
8.构建针对pedv s蛋白的包含重要特征数据的相关独立数据集,利用优化好的机器学习分类器进一步对收集的独立数据进行预测,将预测结果与实际肽段平衡解离常数分类进行比对,以评估该分类器在实际应用中的性能。
9.本方案中,所描述的用于系统构建的数据是利用rdock程序获得,包括氨基酸肽段分类数据和其相应的结构特征数据信息,包括inter、inter.polar、inter.repul、
inter.rot、inter.vdw、inter.norm、intra、intra.dihedral、intra.dihedral0、intra.polar、intra.polar0、intra.repul、intra.repul0、intra.vdw、intra.vdw0、intra.norm、restrsr、restr.norm、system、system.dihedral、system.norm、heavy、norm等23个特征1940个样本组成的矩阵。移除多数样本得分为零的特征,包括inter.polar、inter.repul、intra.polar0、intra.repul、intra.repul0、restrsr、restr.norm、system、system.dihedral、system.norm,整个数据集剩余13个特征。
10.本方案中,肽配基与受体平衡解离常数数据是利用spr得到,根据实际elisa实验反应结果设置kd=1
×
10-5
为阈值,将所有样本分为a(kd≤1
×
10-5
)和ua(kd>1
×
10-5
)两组。
11.本方案中根据数据集中所有样本分别构建训练数据集和测试数据集,将靶向igg系列多肽特征库导入机器学习算法进行学习训练,获取系统重要特征信息,并得到相应的训练参数,具体为:
12.利用构建的训练数据集并使用机器学习算法默认参数进行训练,根据平均节点不纯度降低值排名和显著性选择具有代表性的重要特征。根据得到的重要特征对构成机器学习中节点上使用的特征数量进行优化,并再次构建优化后的机器学习分类器系统。
13.本方案中,对系统进行性能评估,通过计算系统的敏感度(sensitivity)、特异性(specificity)、准确率(accuracy),kappa值和马修相关系数(matthews’s correlation coefficient,mcc)对系统进行评估,具体计算公式如下:
[0014][0015][0016][0017][0018]
此外,receiver operating characteristic(roc)用于评估sensitivity和specificity之间的关系,并且其线下面积aera under the curve(auc)也被计算用于评估系统性能。
[0019]
本方案中,独立数据是根据病原体结构蛋白重新设计的一批多肽,经过elisa、spr实验验证按照以上分类标准进行分类,结合其相应的平衡解离常数数据信息,组合成新的独立数据集。该数据集用于对优化的机器学习分类器系统的预测准确性进一步验证,以评估该系统在实际应用中的性能。
[0020]
本发明以igg、αβ42、pedv s等不同大小的蛋白质为研究对象,分别设计构建两个肽配基分子库,进行肽配基与靶蛋白的分子对接运算,借助表面等离子共振(surface plasmon resonance,spr)技术测定了其相互作用的平衡解离常数常数,酶联免疫吸附试验(elisa)进行肽配基平衡解离常数的快速筛选验证,利用机器学习算法构建相关预测系统,并通过独立数据进行相关验证。本发明构建了通过肽配基-靶蛋白互作关键信息,进行实际
平衡解离常数常数的预测;为多肽虚拟筛选提供了快捷方法,为高平衡解离常数多肽的获取提供新的可靠途径。
[0021]
本发明的有益效果:
[0022]
针对肽配基与靶蛋白相互作用平衡解离常数预测方法的欠缺,本发明通过解析蛋白与其肽配基互相作用区域的氨基酸肽段信息,合成相应病毒蛋白肽段,收集肽段平衡解离常数数据和其结构特征得分数据构建数据集,构建了靶向蛋白特定区域与肽配基平衡解离常数评估模型。
[0023]
本发明预测方法的建立可根据与配体结合的氨基酸肽段的结构信息特征,对未知病毒蛋白上与其配体的结合的肽段区域进行有效、快速的预测。
[0024]
本发明能够有效提高靶向蛋白的肽配基筛选效率,并有利于抗病毒、抑菌等相关领域的应用研究,同时也为相关预测系统的构建提供参考。
附图说明
[0025]
图1本发明的蛋白多肽相互作用平衡解离常数预测方法流程示意图。
[0026]
图2经过筛选后13个特征得分的分布图。
[0027]
图3elisa检测中肽配基亲和性检验结果。
[0028]
图4spr检测中肽配基kd值的分布图。
[0029]
图5肽配基elisa od值与spr kd值之间的线性关系图。
[0030]
图6基于不同重要特征数构建的机器学习分类器的roc曲线及auc值。
具体实施方式
[0031]
以下结合实施例对本发明的具体实施方式作进一步详细说明。
[0032]
实施例1.肽配基与靶蛋白相互作用特征信息的获得及处理
[0033]
(1)虚拟肽库构建:以蛋白质结构数据库(protein data bank,pdb https://www.rcsb.org/)中提供的igg和αβ42蛋白晶体结构为基础,利用分子对接程序进行与igg和αβ42活性区域互作的肽配基进行预测,选择较高评分的肽配基,构建长度为6个氨基酸长度的包含1940条肽配基的信息库。
[0034]
(2)肽配基与靶标蛋白相互作用区域作用力分析:利用得到的肽配基信息库和igg、αβ42和pedv s蛋白的蛋白晶体结构,借助rdock软件进行肽配基和目标蛋白的分子间、分子内互相作用力以及活性位点柔性区域能量和非物理约束进行分析,得到以下作用力的相关得分,包括inter、inter.polar、inter.repul、inter.rot、inter.vdw、inter.norm、intra、intra.dihedral、intra.dihedral0、intra.polar、intra.polar0、intra.repul、intra.repul0、intra.vdw、intra.vdw0、intra.norm、restrsr、restr.norm、system、system.dihedral、system.norm、heavy、norm等23个特征指标,移除多数样本得分为零的特征,包括inter.polar、inter.repul、intra.polar0、intra.repul、intra.repul0、restrsr、restr.norm、system、system.dihedral、system.norm,整个数据集剩余13个特征,13个特征取值的密度分布图见图2。
[0035]
(3)多肽合成:将得到的多肽(1940条肽配基的信息库)交由生物公司合成,为了方便进行elsa检测,多肽n端进行生物素标记。
[0036]
实施例2.病毒蛋白肽段与靶标蛋白的平衡解离常数的检测
[0037]
借助elisa和spr技术测定肽配基与靶蛋白相互作用的平衡解离常数。
[0038]
(1)合成多肽与靶标蛋白的elisa检测
[0039]
合成的多肽和igg、αβ42和pedv s蛋白的亲和性经过间接elisa进行验证,具体步骤如下:
[0040]
1)用包被缓冲液将终浓度20μg/ml的igg、αβ42和pedv s蛋白分别包被elisa板中。于37℃孵育2h后,以质量分数为5%的脱脂奶进行封闭。
[0041]
2)用pbs将合成的标记有生物素的多肽(实施例1所得)稀释至1μg/ml,并加至1)中准备好的elisa板,50μl/孔于37℃孵育1h,同时以靶标蛋白相应的鼠源单抗多抗作为阳性对照,pbs缓冲液作为阴性对照。
[0042]
3)加入1:4000稀释的hrp标记的亲和素抗体,同时以hrp标记的抗鼠抗体作为二抗,加入阳性对照于37℃孵育30min。
[0043]
4)每孔加入100μl 3,3’,5,5
’‑
四甲基联苯胺(tmb)底物溶液,室温显色10min。
[0044]
5)每孔加50μl终止液终止反应,与酶标仪450nm处检测其od值。如多肽反应孔od与阴性孔od比值大于2.1,判断为阳性,即多肽与靶标蛋白能够发生亲和反应。
[0045]
结果显示(图3a),可与靶标蛋白具有较好亲和性的多肽有1400条,而没有亲和性的有540条;整体上od值在0.01~2.49(图3b)。
[0046]
(2)合成多肽与靶标蛋白的spr检测
[0047]
利用仪器biacore x100仪器对合成多肽与靶标蛋白(igg、αβ42和pedv s蛋白)之间的平衡解离常数kd值进行检测,具体步骤如下:
[0048]
1)利用edc/nhs法将靶标蛋白偶联至仪器配套所需芯片之上;
[0049]
2)以购买的hbs-ep缓冲液将合成多肽(实施例1)稀释至不同的6个浓度,以30μl/min速度分别载入仪器,检测其与芯片上靶标蛋白的共振信号变化;待多肽和蛋白充分反应,用hbs-ep缓冲液流过芯片洗去未结合多肽;之后,以0.25%的sds溶液将芯片上所有多肽完全洗脱后,检测第二个合成多肽,循环至所有多肽完成检测。
[0050]
结果显示(图4),所有多肽的kd值在2.72
×
10-11
~4.67
×
10-3
范围内。
[0051]
实施例3.数据集的构建和处理
[0052]
结合elisa od值结果和spr kd值发现(图5),这两个值之间呈负相关关系,相关系数为-0.90。数据显示,kd=1
×
10-5
为其亲和反应性阈值,当kd≤1
×
10-5
时,肽配基和靶标蛋白具有较好的亲和性能够产生较好的反应,归类为active(a)组;当kd值>1
×
10-5
时,肽配基和靶标蛋白之间没有亲和性,因而归为unactive(ua)。
[0053]
结合实施例1中肽配基与靶标蛋白相互作区域作用力信息和以上分类信息构建用于机器学习的数据集;以kd=1
×
10-5
为阈值,将所有样本分为active(a,kd≤1
×
10-5
)和unactive(ua,kd>1
×
10-5
)两组;肽配基平衡解离常数实验可验证性和平衡解离常数的特征数据信息,构建一个1940(样本数)
×
13(特征数)的数据集,以此构建了靶向igg系列多肽特征库和靶向αβ42系列多肽特征库,将所述数据集导入机器学习算法构建系统。
[0054]
同时构建针对pedv s蛋白相应的包含肽配基与靶标蛋白相互作区域作用力信息和分类信息的独立数据集,用于后续评估系统实际预测的准确性。
[0055]
实施例4.肽配基蛋白平衡解离常数机器学习系统的构建、参数优化及验证
[0056]
(1)系统分类器靶向igg系列多肽特征库和靶向αβ42系列多肽特征库的建立
[0057]
为了建立机器学习系统分类器,按照7:3的比例随机将实验数据集分为靶向igg系列多肽特征库和靶向αβ42系列多肽特征库。其中,以4个特征进行训练时,靶向igg系列多肽特征库包含986个a和372个ua,靶向αβ42系列多肽特征库中包含414个a和168个ua;以3个特征进行训练时,靶向igg系列多肽特征库包含986个a和372个ua,靶向αβ42系列多肽特征库中包含414个a和168个ua;以3个特征进行训练时,靶向igg系列多肽特征库包含977个a和381个ua,靶向αβ42系列多肽特征库中包含423个a和159个ua。
[0058]
(2)机器学习分类系统初步建立及重要特征选择
[0059]
将含有所有13种平衡解离常数常数特征和分类信息的实验数据集导入机器学习算法进行学习,并使用系统默认参数设置建立系统,按照该算法提供平均基尼系数降低量排名获取各个特征的重要性排序,并根据特征重要性的显著性确定重要特征,结果显示(表1),intra.vdw0、intra.dihedral0、heavy和inter.rot为四个显著影响系统预测结果的四个特征。
[0060]
表1肽配基各物理化学特征重要性
[0061]
特征平均基尼系数降低量intra.vdw0214.00*intra.dihedral0193.43*heavy161.88*inter.rot152.18*norm87.86intra.dihedral82.12intra.vdw58.70inter56.92inter.vdw54.53inter.norm51.90intra.polar49.84intra47.15ntra.norm46.82
[0062]
*表示特征重要性的p<0.05
[0063]
(3)机器学习分类系统的正式建立及优化
[0064]
选择靶向igg系列多肽特征库中的四个对应的重要特征,按照重要性的大小分别选择4、3、2个特征对机器学习系统进行训练,每个系统中都建立500个分支。为了防止系统过度拟合,每个分类系统分别进行10次10折交叉验证,并对机器学习算法中每个分支节点上特征数进行优化。
[0065]
通过计算系统的准确率(accuracy),kappa值和马修相关系数(matthews’s correlation coefficient,mcc)对系统进行评估;
[0066]
此外,receiver operating characteristic(roc)用于评估敏感度(sensitivity)和特异性(specificity)之间的关系,并且其线下面积aera under the curve(auc)也被计算用于评估系统性能。
[0067]
具体计算公式如下:
[0068][0069][0070][0071][0072]
分别按照不同特征数和节点上的特征数,共构建9个机器学习算法系统,结果如表2所示,分别利用4、3、2个重要特征构建的机器学习系统,在每个分支节点上使用不同的特征数都能够具有较高的准确性和kappa值。其中,当系统使用4个特征构建时,分支节点上使用4个特征,系统最优化(准确率99.03%,kappa值为0.9755);当系统使用3个特征构建且时,节点上使用3个特征,系统最优化(准确率98.95%,kappa值为0.9736);当系统使用2个特征构建时,节点上使用2个特征,系统最优化(准确率99.15%,kappa值为0.9786)。当使用2个特征并且每个节点上使用2个特征时准确度和kappa值最高。
[0073]
表2利用不同数目重要特征构建的机器学习分类器分类系统的性能
[0074][0075]
进一步研究发现,当节点特征数最优化时,使用靶向αβ42系列多肽特征库数据对3个优化的机器学习系统进行验证,验证指标包括测试的准确性、马修相关系数(matthews’s correlation coefficient,mcc)和auc值。
[0076]
如表3所示,发现使用优化后的4个和3个特征系统预测准确率均为98.79%,使用优化后的2个特征系统预测准确率为98.96%;而使用4和3个特征构建的系统mcc值均为0.971,而当时用2个特征构建系统时mcc值为0.974。因此,以上分析显示,虽然在使用不同特征数模建模和不同的节点特征数时各个分类器系统都具有相似性,但当以两个特征进行机器学习算法训练,同时在节点上使用两个特征时,分类器达到最优表现。
[0077]
分别选择以4、3、2个特征构建的最优分类器系统(即具有最高准确性和kappa值的系统)绘制roc曲线,并计算auc值。结果显示(图6),以4个和3个特征进行构建的机器学习分类系统的auc值均为0.9996,以2个特征进行构建的机器学习分类器系统具有更好的性能表现,同时其auc也具有更大的面积0.9998。
[0078]
表3不同机器学习分类系统对靶向αβ42系列多肽特征库的预测性能
[0079][0080]
实施例5.肽配基蛋白平衡解离常数机器学习系统的独立数据验证
[0081]
针对pedv s蛋白序列(genbank accession no.kf664124)蛋白晶体结构按照实施例1到实施例3中的方法构建包含4重要特征和分类信息的独立数据库,收集肽配基平衡解离常数类别信息和平衡解离常数常数的特征数据信息,构建1120(样本数)
×
4(重要特征数)独立数据集,用于优化系统的验证测试。
[0082]
以优化后的分类器对独立数据集数据进行预测,并对系统准确度进行预测,结果显示(表4),相比其他系统预测的准确性,当使用4个特征构建的系统时,具有较高的机器学习预测准确性(71.07%),而当使用3和2个特征构建系统的机器学习预测准确性只有64.29%和60.71%。此外,构建的3个系统在预测a类型肽配基上具有较好的表现,针对4、3、2个特征进行构建的机器学习分类系统时,预测正确的阳性占真阳性的准确率分别为80.43%、70.21%和65.96%。
[0083]
由此可见,虽然以2个特征进行构建的系统具有较好性能表现,但可能由于考虑的预测特征数较少,而造成了系统的过拟合导致预测准确率下降;而使用全部4个重要特征构建机器学习算法分类器更加适用于实际预测。
[0084]
表4不同机器学习系统预测独立数据集的准确率
[0085]
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献