一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种MHC可结合肽链的识别方法、装置及终端设备

2022-07-14 01:48:35 来源:中国专利 TAG:

一种mhc可结合肽链的识别方法、装置及终端设备
技术领域
1.本技术属于数据处理技术领域,尤其涉及一种mhc可结合肽链的识别方法、装置及终端设备。


背景技术:

2.主要组织相容性复合体(major histocompatibility complex,mhc)是一组编码蛋白质,是免疫监视的重要组成部分。根据mhc的功能、分子结构和分布的变化,可以将mhc分成mhc i类、mhc ii类、mhc iii类。不同种类的mhc可以结合的肽链不同。
3.目前,在判断肽链是否能与mhc结合时,通常使用肽链的特定长度的序列信息进行判断。在使用序列信息判断肽链是否能与mhc结合时常常出现错误,使得肽链识别不准确。


技术实现要素:

4.本技术实施例提供了一种mhc可结合肽链的识别方法、装置及终端设备,可以提升肽链识别预测的精度。
5.第一方面,本技术实施例提供了一种mhc可结合肽链的识别方法,包括:
6.获取待识别的肽链的序列信息;
7.将所述序列信息转换成所述肽链的进化信息;
8.根据所述进化信息,确定所述肽链与mhc结合的概率值。
9.第二方面,本技术实施例提供了一种mhc可结合肽链的识别装置,包括:
10.信息获取模块,用于获取待识别的肽链的序列信息;
11.信息转换模块,用于将所述序列信息转换成所述肽链的进化信息;
12.概率计算模块,用于根据所述进化信息,确定所述肽链与mhc结合的概率值。
13.第三方面,本技术实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的mhc可结合肽链的识别方法。
14.第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一项所述的mhc可结合肽链的识别方法。
15.第五方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的mhc可结合肽链的识别方法。
16.本技术第一方面实施例与现有技术相比存在的有益效果是:本技术获取待识别的肽链的序列信息,再将序列信息转换成肽链的进化信息,最后根据进化信息,确定肽链与mhc结合的概率值;相较于现有技术直接使用特定长度的序列信息判断肽链是否能与mhc结合,本技术引入进化信息,且进化信息根据序列信息得到,相当于本技术既利用了肽链的序列信息,又利用的肽链的进化信息确定肽链能与mhc结合的概率,本技术使用了肽链的两种
信息进行肽链识别,可以使肽链识别更准确。
17.可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
18.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是本技术一实施例提供的mhc可结合肽链的识别方法的应用场景示意图;
20.图2是本技术一实施例提供的mhc可结合肽链的识别方法的流程示意图;
21.图3是本技术一实施例提供的概率值的确定方法的流程示意图;
22.图4是本技术一实施例提供的双向长短期记忆网络的示意图;
23.图5是本技术一实施例提供的本技术与其他方法的roc曲线比较示意图;
24.图6是本技术一实施例提供的本技术方法性能与序列信息之间的关系示意图;
25.图7是本技术一实施例提供的mhc可结合肽链的识别装置的结构示意图;
26.图8是本技术一实施例提供的终端设备的结构示意图。
具体实施方式
27.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
28.另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
29.在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
30.由于不同种类的mhc可以结合的肽链的长度不同。采用肽链识别模型识别肽链是否能与mhc结合时,肽链识别模型受肽链长度的限制,每个肽链识别模型仅能识别一个固定长度的肽链。对于不同长度的肽链,需要建立不同的肽链识别模型。
31.本技术提供的mhc可结合肽链的识别方法可以对不同长度的肽链进行处理,实现了肽链识别模型的通用性。
32.图1为本技术实施例提供的mhc可结合肽链的识别方法的应用场景示意图,上述mhc可结合肽链的识别方法可以用于确定肽链是否可以与mhc结合。其中,存储设备10用于存储肽链的序列信息,处理器20用于从存储设备10中获取肽链的序列信息,通过对序列信息的处理,得到该肽链能与mhc结合的概率值,通过概率值可以确定该肽链是否可以与mhc
结合。
33.图2示出了本技术提供的mhc可结合肽链的识别方法的示意性流程图,参照图2,对该方法的详述如下:
34.s101,获取待识别的肽链的序列信息。
35.在本实施例中,肽链由多个氨基酸脱水缩合形成肽键(化学键)连接而成。不同的肽链的长度可能不同。肽链的序列信息可以从存储设备中获取。
36.在本实施例中,待识别的肽链的长度不固定,可以为任何长度的肽链。
37.具体的,获取待识别的肽链。对待识别的肽链进行一位有效编码处理,得到所述肽链的序列信息。
38.在本实施例中,一位有效编码也可以称为独热编码。
39.在本实施例中,序列信息可以为一个矩阵,例如,20
×
l的矩阵,l是待识别的肽链的氨基酸数目。
40.在本实施例中,对待识别的肽链进行一位有效编码处理,可以从序列层面提取待识别的肽链的信息。
41.s102,将所述序列信息转换成所述肽链的进化信息。
42.在本实施例中,进化信息为一个矩阵,例如,20
×
l的矩阵。
43.s103,根据所述进化信息,确定所述肽链与mhc结合的概率值。
44.在本实施例中,概率值用于表征肽链是否可以与mhc结合。具体的,若概率值大于预设值,则确定肽链可以与mhc相结合;若概率值小于或等于预设值,则确定肽链不可以与mhc相结合。
45.本技术实施例中,获取待识别的肽链的序列信息,再将序列信息转换成肽链的进化信息,最后根据进化信息,确定肽链与mhc结合的概率值;相较于现有技术直接使用序列信息判断肽链是否能与mhc结合,本技术引入进化信息,且进化信息根据序列信息得到,相当于本技术既利用了肽链的序列信息,又利用的肽链的进化信息确定肽链能与mhc结合的概率,本技术使用了肽链的两种信息进行肽链识别,可以使肽链识别更准确。
46.在本实施例中,通过训练后的肽链识别模型,将序列信息转换成进化信息,并根据进化信息得到概率值。
47.在本实施例中,肽链识别模型包括卷积神经网络、双向长短期记忆网络、第一全连接层和第二全连接层。卷积神经网络的输出数据为双向长短期记忆网络的输入数据。
48.在一种可能的实现方式中,步骤s102的实现过程可以包括:
49.利用训练后的卷积神经网络对所述序列信息进行处理,得到所述肽链的进化信息。
50.在本实施例中,卷积神经网络可以为存在20个卷积核的卷积神经网络。卷积的大小为20
×
1的矩阵。
51.具体的,卷积神经网络包括:
[0052][0053]
其中,evo(x)
k,i
为第一矩阵中第k行第i列的值,所述第一矩阵用于表征所述进化信息,为第k个卷积和的转置,xi为第二矩阵中的第i列向量,所述第二矩阵用于表征所
述序列信息。
[0054]
在本实施例中,卷积神经网络中的卷积核中的参数基于blosum矩阵确定。基于blosum矩阵确定卷积神经网络中的卷积核中的参数,为了提取肽链中的进化信息。因此,用卷积神经网络对待识别的肽链进行处理,可以从进化层面提取待识别的肽链的信息。
[0055]
如图3所示,在一种可能的实现方式中,步骤s103的实现过程可以包括:
[0056]
s1031,利用训练后的双向长短期记忆网络对所述进化信息进行深层信息表征,得到第一向量。
[0057]
具体的,将进化信息输入双向长短期记忆网络中,得到第一向量。
[0058]
在本实施例中,长短期记忆网络(long short-term memory,lstm)是一种时间循环神经网络,所有的循环神经网络都具有一种重复神经网络模块的链式形式。双向长短期记忆网络包括两组lstm,一组lstm从左到右处理合并特征矩阵,另一组lstm从右到左合并特征矩阵。双向长短期记忆网络满足了处理不同长度肽链的需求。一组lstm包括输入门、遗忘门和输出门。双向长短期记忆网络输出为128维的向量。如图4所示为双向长短期记忆网络的示意图。
[0059]
具体的,lstm的计算过程可以包括:
[0060]ft
=σ(wfx
t
ufh
t-1
bf);
[0061]it
=σ(wix
t
u
iht-1
bi);
[0062]ot
=σ(wox
t
u
oht-1
bo);
[0063][0064][0065]
其中,x
t
为输入向量;f
t
为遗忘门的激活向量;o
t
为输出门的激活向量;i
t
为输入门的激活向量;h
t
是一个128维隐藏状态向量;c
t
是lstm的状态向量;wf和uf为遗忘门中的参数矩阵;bf为遗忘门中的偏置向量;wi和ui为输入门中的参数矩阵;bi为输入门中的偏置向量;wo和uo为输出门中的参数矩阵;bo为输出门中的偏置向量;wc和uc为lstm中的参数矩阵;bc为lstm中的偏置向量。
[0066]
s1032,基于所述第一向量,确定所述肽链与mhc结合的概率值。
[0067]
具体的,利用所述第一全连接层对所述第一向量进行第一合并处理,得到第二向量;
[0068]
利用所述第二全连接层对所述第二向量进行第二合并处理,得到第一值;
[0069]
利用所述第二全连接层对所述第一值进行标准化处理,得到所述概率值。
[0070]
在本实施例中,使用sigmoid函数对第一值进行标准化处理。
[0071]
本技术实施例中,本技术的双向长短期记忆网络可以识别任意长度的肽链,相较于现有技术不同长度的肽链需要使用不同的肽链识别模型,本技术具有通用性。本技术确定的肽链能与mhc结合的概率值,有利于疫苗或药物的研究。
[0072]
在一种可能的实现方式中,肽链识别模型在使用之前可以对肽链识别模型进行训练,得到训练后的肽链识别模型。
[0073]
具体的,在对肽链识别模型进行训练之前,需要对卷积神经网络中的卷积核的参数进行设置。本技术将训练之前的卷积神经网络记为卷积神经初始网络,将训练后的卷积
神经初始网络记为卷积神经网络。
[0074]
具体的,卷积核的参数的设置过程包括:
[0075]
基于blosum矩阵,确定所述卷积神经初始网络中的卷积核的初始参数,其中,所述blosum矩阵中每行中的参数为一个卷积核的初始参数,或所述blosum矩阵中每列中的参数均为一个卷积核的初始参数。
[0076]
在本实施例中,blosum矩阵为从blocks数据库中选取具有良好保守型的蛋白家族,从中统计氨基酸发生替换的相对频率和概率所构成的矩阵。blosum矩阵为20
×
20的矩阵。利用blosum矩阵初始化卷积神经初始网络中的所有卷积核。卷积神经初始网络中的卷积核的个数与blosum矩阵的行数或列数相同。卷积神经初始网络中的每个卷积核的行数与blosum矩阵的行数或列数相同。blosum矩阵中每行可以为一个卷积核。或者,blosum矩阵中每列均可以为一个卷积核。
[0077]
具体的,在设置卷积神经初始网络中卷积核的初始参数后,对肽链识别模型进行训练。
[0078]
具体的,根据预设训练样本,训练肽链识别模型,得到训练后的肽链识别模型。训练后的肽链识别模型包括训练后的卷积圣经网络
[0079]
所述卷积神经初始网络,得到训练后的所述神经卷积神经网络、训练后的双向长短期记忆网络、训练后的第一全连接层和训练后的第二全连接层。
[0080]
具体的,预设训练样本包括不同长度的肽链。
[0081]
具体的,将训练样本中的第一肽链输入待训练的肽链识别模型,得到概率结果,基于概率结果确定损失函数,利用损失函数更新肽链识别模型中的参数。利用训练样本中的第二肽链对更新参数后的肽链识别模型进行训练,根据概率结果更新肽链识别模型中的参数,依次循环,直到损失函数满足预设条件,或训练次数达到预设次数,得到训练后的肽链识别模型。概率结果的确定过程与上述概率值的确定过程相同,请参照上述概率值的确定过程,在此不再赘述。
[0082]
本技术实施例中,利用blosum矩阵初始化卷积神经初始网络中的卷积核,是为了在肽链识别过程得到肽链的进化信息。通过预设训练样本可以对待训练的肽链识别模型进行训练,得到训练后的肽链识别模型。
[0083]
在本实施例中,在得到训练后的肽链识别模型后,可以利用人类数据或非人类数据,并利用五折交叉验证方法对本技术中的训练后的肽链识别模型进行验证,以确定训练后的肽链识别模型的性能。例如,通过auc(area under the curve)确定训练后的肽链识别模型的性能。auc在机器学习领域中是一种模型评估指标,是接受者操作特性曲线(receiver operating characteristic curve,roc曲线)下的面积。
[0084]
具体的,预设训练样本可以记为训练集,训练集可以为从工业工程数据库(industrial engineering database,iedb数据库)中获取的数据。在对肽链识别模型进行训练后,可以使用独立测试集数据进行测试。独立测试集数据可以为从mhcbn和syfpeithi数据库中获得的数据。例如,下表1中示出了训练集和独立测试集数据的肽链的信息。
[0085]
表1训练集和独立测试集数据的肽链的信息
[0086][0087]
mhc
ꢀⅰ
可以记为class
ꢀⅰ
。mhc
ꢀⅱ
可以记为classⅱ。
[0088]
作为举例,利用训练集数据中的人类数据,以及五折交叉验证方法,评估肽链识别模型的性能,具体的性能指标的评估结果如下表2所示。
[0089]
表2利用人类数据评估肽链识别模型性能的结果
[0090][0091]
上表2中,f1表征准确率和召回率的调和平均。mcc表征二分类指标。aupr表征pr曲线下的面积,pr曲线为召回率和正确率组成的曲线图。
[0092]
由表2可知,本技术中的肽链识别模型处理不同长度的肽链的性能较好,例如,auc均大于0.85确定本技术的肽链识别模型的性能较好。
[0093]
作为举例,利用训练集数据中的非人类数据,例如,小鼠、猕猴和黑猩猩,以及五折交叉验证方法,评估肽链识别模型的性能,具体的性能指标的评估结果如下表3所示。
[0094]
表3利用非人类数据评估肽链识别模型性能的结果
[0095][0096]
表3中pcc为评估的预测值与真值间的相关性结果。
[0097]
由表3可知,本技术中的肽链识别模型处理不同长度的肽链的性能较好,例如,auc均大于0.8确定本技术的肽链识别模型的性能较好。
[0098]
作为举例,通过本技术方法与其他现有的其中方法进行比较,可以得到本技术方法与其他方法的性能对比结果。
[0099]
表4利用人类数据评估肽链识别模型性能的结果
[0100][0101]
由上表4可以得出,本技术方法在针对mhc i类可结合肽链预测中,8个指标中有6个指标相较于其他方法较高。本技术方法在针对mhc
ꢀⅱ
类可结合肽链预测中,8个指标中所有指标相较于其他方法较高。因此,确定本技术方法相较于其他的方法性能较好。
[0102]
作为举例,如图5所示,本技术与其他方法的roc曲线比较图。基于独立测试集数据,预测上述表2中各个方法的roc曲线图,图中越接近左上角的曲线对应的方法的性能较好。
[0103]
图5中a的显示结果是基于mhci类独立测试集中所有长度的肽链的综合roc曲线图。a1线表征本技术方法的roc曲线,本技术方法的auc值为0.944。a2线为smm方法的roc曲线图,smm方法的auc值为0.883。a3线为ann方法的roc曲线图,ann方法的auc值为0.881。a4线为netmhcpan方法的roc曲线图,netmhcpan方法的auc值为0.879。a5线为netmhccons方法的roc曲线图,netmhccons方法的auc值为0.876。a6线为pickpocket方法的roc曲线图,
pickpocket方法的auc值为0.849。a7线为netmhcpan el方法的roc曲线图,netmhcpan el方法的auc值为0.833。a8线为comblib_sidney2008方法的roc曲线图,comblib_sidney2008方法的auc值为0.179。
[0104]
图5中b为mhci类中肽链长度为9mer时,本技术方法与其他方法roc曲线的比较的结果图。b1线表征本技术方法的roc曲线,本技术方法的auc值为0.955。b2线为smm方法的roc曲线图,smm方法的auc值为0.900。b3线为ann方法的roc曲线图,ann方法的auc值为0.890。b4线为netmhcpan方法的roc曲线图,netmhcpan方法的auc值为0.887。b5线为netmhccons方法的roc曲线图,netmhccons方法的auc值为0.891。b6线为pickpocket方法的roc曲线图,pickpocket方法的auc值为0.861。b7线为netmhcpan el方法的roc曲线图,netmhcpan el方法的auc值为0.862。b8线为comblib_sidney2008方法的roc曲线图,comblib_sidney2008方法的auc值为0.179。
[0105]
图5中c为mhci类中肽链长度为10mer时,本技术方法与其他方法roc曲线的比较的结果图。c1线表征本技术方法的roc曲线,本技术方法的auc值为0.907。c2线为smm方法的roc曲线图,smm方法的auc值为0.879。c3线为ann方法的roc曲线图,ann方法的auc值为0.891。c4线为netmhcpan方法的roc曲线图,netmhcpan方法的auc值为0.885。c5线为netmhccons方法的roc曲线图,netmhccons方法的auc值为0.885。c6线为pickpocket方法的roc曲线图,pickpocket方法的auc值为0.860。c7线为netmhcpan el方法的roc曲线图,netmhcpan el方法的auc值为0.830。
[0106]
图5中d为mhci类中肽链长度为11mer时,本技术方法与其他方法roc曲线的比较的结果图。d1线表征本技术方法的roc曲线,本技术方法的auc值为0.967。d2线为smm方法的roc曲线图,smm方法的auc值为0.853。d3线为ann方法的roc曲线图,ann方法的auc值为0.911。d4线为netmhcpan方法的roc曲线图,netmhcpan方法的auc值为0.932。d5线为netmhccons方法的roc曲线图,netmhccons方法的auc值为0.927。d6线为pickpocket方法的roc曲线图,pickpocket方法的auc值为0.915。d7线为netmhcpan el方法的roc曲线图,netmhcpan el方法的auc值为0.888。
[0107]
图5中e为的显示结果是基于mhc
ꢀⅱ
类独立测试集中所有长度的肽链的综合roc曲线图。e1线表征本技术方法的roc曲线,本技术方法的auc值为0.922。e2线为nn-align方法的roc曲线图,nn-align方法的auc值为0.849。e3线为netmhciipan方法的roc曲线图,netmhciipan方法的auc值为0.823。e4线为smm-align方法的roc曲线图,smm-align方法的auc值为0.798。
[0108]
图5中f为mhc
ꢀⅱ
类中肽链长度为13mer时,本技术方法与其他方法roc曲线的比较的结果图。f1线表征本技术方法的roc曲线,本技术方法的auc值为0.929。f2线为nn-align方法的roc曲线图,nn-align方法的auc值为0.796。f3线为netmhciipan方法的roc曲线图,netmhciipan方法的auc值为0.805。f4线为smm-align方法的roc曲线图,smm-align方法的auc值为0.806。
[0109]
图5中g为mhc
ꢀⅱ
类中肽链长度为15mer时,本技术方法与其他方法roc曲线的比较的结果图。g1线表征本技术方法的roc曲线,本技术方法的auc值为0.936。g2线为nn-align方法的roc曲线图,nn-align方法的auc值为0.908。g3线为netmhciipan方法的roc曲线图,netmhciipan方法的auc值为0.899。g4线为smm-align方法的roc曲线图,smm-align方法的
auc值为0.847。
[0110]
图5中h为mhc
ꢀⅱ
类中肽链长度为20mer时,本技术方法与其他方法roc曲线的比较的结果图。h1线表征本技术方法的roc曲线,本技术方法的auc值为0.890。h2线为nn-align方法的roc曲线图,nn-align方法的auc值为0.805。h3线为netmhciipan方法的roc曲线图,netmhciipan方法的auc值为0.817。h4线为smm-align方法的roc曲线图,smm-align方法的auc值为0.807。
[0111]
由上述图5中可以得出,本技术方法的auc值均高于其他方法,因此,本技术方法相较于其他方法性能更好。
[0112]
作为举例,如图6所示的本技术方法性能与序列信息之间的关系图。图6中的a图和b图为基于训练集数据进行五折交叉验证的结果图。图6中的c图、d图和e图为三个等位基因数据对应的数据集,结合肽链和非结合肽链对应的序列保守性图。图6中的c图、d图和e图表示肽链序列的每个位置上对应氨基酸出现的比例。结合肽链和非结合肽链的图差别越大,对应等位基因数据训练出来的模型,性能更好,说明模型性能与数据的序列信息有关系。其中,每一类mhc(mhci和mhcii),都对应多个等位基因,每一个等位基因对应一个肽链数据集,每一个数据集里有很多不同的肽链数据。
[0113]
综上所述,采用本技术的mhc可结合肽链的识别方法,肽链识别更准确,且可以识别不同长度的肽链,不用基于不同长度的肽链训练不同的肽链识别模型,实现了不同长度肽链识别的通用性。
[0114]
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
[0115]
对应于上文实施例所述的mhc可结合肽链的识别方法,图7示出了本技术实施例提供的mhc可结合肽链的识别装置的结构框图,为了便于说明,仅示出了与本技术实施例相关的部分。
[0116]
参照图7,该装置200可以包括:信息获取模块210、信息转换模块220和概率计算模块230。
[0117]
其中,信息获取模块210,用于获取待识别的肽链的序列信息;
[0118]
信息转换模块220,用于将所述序列信息转换成所述肽链的进化信息;
[0119]
概率计算模块230,用于根据所述进化信息,确定所述肽链与mhc结合的概率值。
[0120]
在一种可能的实现方式中,概率计算模块230具体可以用于:
[0121]
利用训练后的双向长短期记忆网络对所述进化信息进行深层信息表征,得到第一向量;
[0122]
基于所述第一向量,确定所述肽链与mhc结合的概率值。
[0123]
在一种可能的实现方式中,信息转换模块220具体可以用于:
[0124]
利用训练后的卷积神经网络对所述序列信息进行处理,得到所述肽链的进化信息。
[0125]
在一种可能的实现方式中,所述卷积神经网络包括:
[0126][0127]
其中,evo(x)
k,i
为第一矩阵中第k行第i列的值,所述第一矩阵用于表征所述进化
信息,为第k个卷积和的转置,xi为第二矩阵中的第i列向量,所述第二矩阵用于表征所述序列信息。
[0128]
在一种可能的实现方式中,卷积神经网络的训练过程包括:
[0129]
基于blosum矩阵,确定所述卷积神经初始网络中的卷积核的初始参数,其中,所述blosum矩阵中每行中的参数为一个卷积核的初始参数,或所述blosum矩阵中每列中的参数均为一个卷积核的初始参数;
[0130]
根据预设训练样本,训练所述卷积神经初始网络,得到训练后的所述卷积神经网络。
[0131]
在一种可能的实现方式中,概率计算模块230具体可以用于:
[0132]
利用训练后的第一全连接层对所述第一向量进行第一合并处理,得到第二向量;
[0133]
利用训练后的第二全连接层对所述第二向量进行第二合并处理,得到第一值;
[0134]
利用所述第二全连接层对所述第一值进行标准化处理,得到所述概率值。
[0135]
在一种可能的实现方式中,信息获取模块210具体可以用于:
[0136]
对所述肽链进行一位有效编码处理,得到所述肽链的序列信息。
[0137]
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本技术方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
[0138]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0139]
本技术实施例还提供了一种终端设备,参见图8,该终端设备400可以包括:至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序,所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图2所示实施例中的步骤s101至步骤s103。或者,处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图7所示模块210至模块230的功能。
[0140]
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器420中,并由处理器410执行,以完成本技术。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备400中的执行过程。
[0141]
本领域技术人员可以理解,图8仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
[0142]
处理器410可以是中央处理单元(central processing unit,cpu),还可以是其他
通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0143]
存储器420可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。
[0144]
总线可以是工业标准体系结构(industry standard architecture,isa)总线、外部设备互连(peripheral component,pci)总线或扩展工业标准体系结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本技术附图中的总线并不限定仅有一根总线或一种类型的总线。
[0145]
本技术实施例提供的mhc可结合肽链的识别方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant,pda)等终端设备上,本技术实施例对终端设备的具体类型不作任何限制。
[0146]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0147]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0148]
在本技术所提供的实施例中,应该理解到,所揭露的终端设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0149]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0150]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0151]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机
程序可存储于一计算机可读存储介质中,该计算机程序在被一个或多个处理器执行时,可实现上述各个方法实施例的步骤。
[0152]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被一个或多个处理器执行时,可实现上述各个方法实施例的步骤。
[0153]
同样,作为一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
[0154]
其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
[0155]
以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献