一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于质谱分析的肽谱存留时间预测方法及系统与流程

2022-02-20 13:19:06 来源:中国专利 TAG:


1.本发明涉及质谱分析技术领域,特别涉及一种基于质谱分析的肽谱存留时间预测方法及系统。


背景技术:

2.蛋白质基因组学已经成为检测蛋白质序列的常规方法。通常,蛋白质序列是由基因组异常引起的,如单核苷酸变异(snvs)、插入和缺失(indels)、rna编辑、重连接或基因融合构造出转录区域。
3.通过对匹配样本同时进行全外显子组测序(wes)、rna测序(rna-seq)和质谱(ms)的散弹枪蛋白质组分析,能够从dna和/或rna测序数据中生成定制的、样品特异性的蛋白质数据库,然后根据定制的蛋白质数据库搜索ms数据,实现查找突变序列的工作。这种方式与仅依赖参考蛋白数据库的蛋白质组学数据分析不同,其允许识别未包括在参考(正常人)蛋白数据库中的肽,这为改进蛋白质编码基因组注释和识别疾病特异性蛋白序列提供了新的机会及方法。
4.传统dia/dda数据的分析需要一个谱图库,其中包含所有可被检测到的肽段母离子及其碎片离子的强度和预期的存留时间(rt)。液相色谱串联质谱(lc-ms)实验中的肽存留时间(rt),即仪器记录的肽从lc-ms柱中洗脱的时间点,是肽的一个固有特征。在利用谱图库对数据特征进行提取时,由于谱图库中含有预期的洗脱时间,因此提取的离子流色谱图可以限制在色谱图中的一个预期的特定窗口。但在特定窗口内进行目标离子的提取时会出现多个干扰峰,若能准确预测所有肽段的rt值,则各肽链中预测的rt值可与观察到的与光谱相关的rt值进行比较,便可以确定肽链的质量。因此若能准确预测肽段的存留时间,就可以将目标分析集中在某一个特征时间小片段上,从而提高分析的灵敏度和数据质量。
5.由此可见,能准确预测肽谱的存留时间rt,对更加灵敏地获得更为准确的肽链的质量有较大的贡献。然而目前还没有较为准确的肽谱的存留时间rt的预测方法。


技术实现要素:

6.本发明的目的在于提供一种基于质谱分析的肽谱存留时间预测方法及系统,以解决如何准确预测肽谱的存留时间的问题。
7.为解决上述技术问题,本发明提供一种基于质谱分析的肽谱存留时间预测方法,所述肽谱存留时间预测方法包括:
8.制作输入数据:将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;
9.构建20维度的氨基酸序列表:所述氨基酸序列表包含人体蛋白质所含的20种氨基酸,每一氨基酸对应一个20位氨基序列码,不同氨基酸所对应的氨基序列码不同;
10.编码:将肽段序列按照氨基酸序列表进行转换,以得到肽段序列矩阵;
11.构建双向循环神经网络模型:包括构建循环神经网络单细胞结构、遗忘门、输入门
和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间;其中更新后的保留时间即为肽段序列的预测存留时间。
12.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,所述制作输入数据的方法还包括:
13.若肽段序列中包含修饰成分,则用括号将所述修饰成分区分。
14.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,在编码之前,所述肽谱存留时间预测方法还包括:
15.构建7维度的修饰成分序列表:所述修饰成分序列表依次包括h、c、n、o、s、p和x元素,x元素为其他元素;根据修饰成分的具体化学分子式进行分元素统计,以得到修饰成分所对应的7位修饰序列码。
16.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,所述编码的方法还包括:
17.在肽段序列中的每一氨基酸之后增加空位;
18.若氨基酸含有修饰成分,则在该氨基酸后的7个空位处填入修饰成分所对应的修饰序列码;若氨基酸不含有修饰成分,则在该氨基酸后的7个空位处填入0;
19.将肽段序列中的氨基酸部分按照氨基酸序列表进行转换,以得到肽段序列矩阵。
20.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,所述编码的方法还包括:
21.设置肽段序列的标准长度;
22.将肽段序列的实际长度与标准长度进行比较,若实际长度小于标准长度,则用空符将所述肽段序列的实际长度补足至标准长度;其中空符为20位序列码,且序列码的每一位均为0。
23.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,每一氨基酸所对应的20位氨基序列码中,仅有一位为1,其余19位为0。
24.可选的,在所述的基于质谱分析的肽谱存留时间预测方法中,在构建双向循环神经网络模型之后,所述肽谱存留时间预测方法还包括:
25.训练模型:利用肽段序列矩阵及其对应的保留时间训练所述双向循环神经网络模型,以提高肽段序列的预测存留时间的预测准确度。
26.为解决上述技术问题,本发明还提供一种基于质谱分析的肽谱存留时间预测系统,用于进行如上任一项所述的基于质谱分析的肽谱存留时间预测方法,所述肽谱存留时间预测系统包括数据整理模块、序列表建立模块、编码模块和双向循环神经网络模型;所述数据整理模块用于将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;所述序列表建立模块用于建立氨基酸序列表;所述编码模块用于根据所述氨基酸序列表将肽段序列转换为肽段序列矩阵;所述双向循环神经网络模型用于对所述数据整理模块的结果和所述编码模块的结果进行分析处理,以得到肽段序列
的预测存留时间。
27.可选的,在所述的基于质谱分析的肽谱存留时间预测系统中,所述序列表建立模块包括氨基酸序列表单元和修饰成分序列表单元;所述氨基酸序列表单元用于生成20维度的氨基序列码;所述修饰成分序列表单元用于生成7维度的修饰序列码。
28.可选的,在所述的基于质谱分析的肽谱存留时间预测系统中,所述双向循环神经网络模型包括循环神经网络单细胞结构、遗忘门、输入门和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间,其中更新后的保留时间即为肽段序列的预测存留时间。
29.本发明提供的基于质谱分析的肽谱存留时间预测方法及系统,包括:制作输入数据:将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;构建20维度的氨基酸序列表:所述氨基酸序列表包含人体蛋白质所含的20种氨基酸,每一氨基酸对应一个20位氨基序列码,不同氨基酸所对应的氨基序列码不同;编码:将肽段序列按照氨基酸序列表进行转换,以得到肽段序列矩阵;构建双向循环神经网络模型:包括构建循环神经网络单细胞结构、遗忘门、输入门和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间;其中更新后的保留时间即为肽段序列的预测存留时间。通过对修饰成分进行编码,使得修饰成分对肽段序列存留时间的影响被考虑;同时通过双向循环神经网络模型,使得对肽段序列的存留时间的预测分析结果可靠。解决了如何准确预测肽谱的存留时间的问题。
附图说明
30.图1为本实施例提供的基于质谱分析的肽谱存留时间预测方法流程图;
31.图2为本实施例提供的较佳的基于质谱分析的肽谱存留时间预测方法流程图;
32.图3为本实施例提供的双向循环神经网络模型中循环神经网络单细胞结构的结构示意图;
33.图4为本实施例提供的双向循环神经网络模型中遗忘门的结构示意图;
34.图5为本实施例提供的双向循环神经网络模型中输入门的结构示意图;
35.图6为本实施例提供的双向循环神经网络模型中输出门的结构示意图;
36.图7为本实施例提供的双向循环神经网络模型的流程图;
37.图8为本实施例提供的基于质谱分析的肽谱存留时间预测系统的结构示意图。
具体实施方式
38.以下结合附图和具体实施例对本发明提出的基于质谱分析的肽谱存留时间预测
方法及系统作进一步详细说明。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。此外,附图所展示的结构往往是实际结构的一部分。特别的,各附图需要展示的侧重点不同,有时会采用不同的比例。
39.需要说明的是,本发明的说明书和权利要求书及附图说明中的“第一”、“第二”等是用于区别类似的对象,以便描述本发明的实施例,而不用于描述特定的顺序或先后次序,应该理解这样使用的结构在适当情况下可以互换。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
40.本实施例提供一种基于质谱分析的肽谱存留时间预测方法,如图1所示,所述肽谱存留时间预测方法包括:
41.制作输入数据:将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;
42.构建20维度的氨基酸序列表:所述氨基酸序列表包含人体蛋白质所含的20种氨基酸,每一氨基酸对应一个20位氨基序列码,不同氨基酸所对应的氨基序列码不同;
43.编码:将肽段序列按照氨基酸序列表进行转换,以得到肽段序列矩阵;
44.构建双向循环神经网络模型:包括构建循环神经网络单细胞结构、遗忘门、输入门和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间;其中更新后的保留时间即为肽段序列的预测存留时间。
45.本实施例提供的基于质谱分析的肽谱存留时间预测方法,通过对修饰成分进行编码,使得修饰成分对肽段序列存留时间的影响被考虑;同时通过双向循环神经网络模型,使得对肽段序列的存留时间的预测分析结果可靠。解决了如何准确预测肽谱的存留时间的问题。
46.考虑到由生物所形成的蛋白质仅利用了20种氨基酸,这20中氨基酸为色氨酸(a)、赖氨酸(r)、苯丙氨酸(n)、蛋氨酸(d)、苏氨酸(c)、缬氨酸(q)、亮氨酸(e)、异亮氨酸(g)、半胱氨酸(h)、丝氨酸(i)、甘氨酸(l)、酪氨酸(k)、天冬氨酸(f)、天冬酰胺(p)、谷氨酸(s)、谷氨酰胺(t)、丙氨酸(w)、精氨酸(y)、组氨酸(v)和脯氨酸(m)。因此将氨基序列码设置为20位,从而构成20
×
20的氨基酸序列表。
47.较佳的,每一氨基酸所对应的20位氨基序列码中,仅有一位为1,其余19位为0。例如色氨酸(a)的氨基序列码为[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],赖氨酸(r)的氨基序列码为[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
……
脯氨酸(m)的氨基序列码为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]。
[0048]
在本实施例中,所述制作输入数据的方法还包括:
[0049]
若肽段序列中包含修饰成分,则用括号将所述修饰成分区分。例如,不含修饰成分的肽段序列表示为aaaaaqmhtk,包含修饰成分的肽段序列表示为aaaaa(h3c2n1o1)aqlhtk。
[0050]
对于含有修饰成分的肽段序列,如图2所示,在编码之前,所述肽谱存留时间预测方法还包括:
[0051]
构建7维度的修饰成分序列表:所述修饰成分序列表依次包括h(氢)、c(碳)、n(氮)、o(氧)、s(硫)、p(磷)和x元素,x元素为其他元素;根据修饰成分的具体化学分子式进行分元素统计,以得到修饰成分所对应的7位修饰序列码。例如修饰成分为h3c2n1o1的修饰序列码表示为[3,2,1,1,0,0,0]。
[0052]
进一步的,在本实施例中,所述编码的方法还包括:
[0053]
在肽段序列中的每一氨基酸之后增加空位;
[0054]
若氨基酸含有修饰成分,则在该氨基酸后的7个空位处填入修饰成分所对应的修饰序列码;若氨基酸不含有修饰成分,则在该氨基酸后的7个空位处填入0;
[0055]
将肽段序列中的氨基酸部分按照氨基酸序列表进行转换,以得到肽段序列矩阵。
[0056]
考虑到具有修饰成分的情形,肽段序列可以转换为27维度的数据矩阵,该数据矩阵可以被用于进行存留时间预测的输入值。
[0057]
较佳的,为保证各蛋白序列分析的一致性和数据处理的连续性,在本实施例中,所述编码的方法还包括:
[0058]
设置肽段序列的标准长度;
[0059]
将肽段序列的实际长度与标准长度进行比较,若实际长度小于标准长度,则用空符将所述肽段序列的实际长度补足至标准长度;其中空符为20位序列码,且序列码的每一位均为0,即空符的序列码可以表示为[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
[0060]
在一个具体实施例中,标准长度可以设置为50。
[0061]
双向循环神经网络模型(lstm)是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的rnn都具有一种重复神经网络模块的链式形式。本实施例应用lstm的主要目的是防止肽段序列较短使得肽链循序出现问题导致预测存留时间不准确的问题。
[0062]
在本实施例中,lstm引入了循环神经网络单细胞结构、遗忘门、输入门和输出门等信息。这些门的结构都是一个数学函数,通过这些结构让模型对信息具有选择性,以去除或者增加模型中的有用信息。
[0063]
循环神经网络单细胞结构(ct),如图3中虚线区域所示,序列t位置的记忆信息,用来保存重要信息,其直接在整个链上运行,使得信息在上面流传保持不变。
[0064]
遗忘门,如图4中虚线区域所示,控制遗忘上一层细胞状态的内容,根据上一序列的ht-1和本序列的xt为输入,通过sigmoid激活函数,得到上一层细胞状态内容哪些需要去除,哪些需要保留。
[0065]
输入门,如图5中虚线区域所示,处理当前序列位置的输入,确定需要更新的信息,并去更新细胞状态。此过程分为两部分:一部分是使用包含sigmoid层的输入门决定哪些新信息该被加入到细胞状态;另一部分是在确定了哪些新信息要加入后,将新信息转换成能够加入到细胞状态的形式。
[0066]
输出门,如图6中虚线区域所示,基于细胞状态保存的内容来确定输出什么内容,即选择性的输出细胞状态保存的内容。
[0067]
双向lstm就是将上面的lstm单向序列按照正向和反向同时部署,这样信息正向及
方向的都会收集进来,具体结构流程可参考图7所示。图7中每个h
i(1)
,i=1,2,3,
……
t,表示的就是一个lstm单元;其中h
(1)
的单元是正向传播,而h
(2)
的单元是反向传播,从而保证了数据不会因为序列方向造成信息丢失。
[0068]
进一步的,为提高模型在肽段序列的预测存留时间时的运算分析的准确度,在本实施例中,如图2所示,在构建双向循环神经网络模型之后,所述肽谱存留时间预测方法还包括:
[0069]
训练模型:利用肽段序列矩阵及其对应的保留时间训练所述双向循环神经网络模型。结合图7所示,输入的input数据为前面构建的肽段矩阵数据及修饰数据的合计,输出数据yi表示该序列的真实的rt时间。
[0070]
本实施例还提供一种基于质谱分析的肽谱存留时间预测系统,如图8所示,所述肽谱存留时间预测系统包括数据整理模块、序列表建立模块、编码模块和双向循环神经网络模型;所述数据整理模块用于将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;所述序列表建立模块用于建立氨基酸序列表;所述编码模块用于根据所述氨基酸序列表将肽段序列转换为肽段序列矩阵;所述双向循环神经网络模型用于对所述数据整理模块的结果和所述编码模块的结果进行分析处理,以得到肽段序列的预测存留时间。
[0071]
具体的,在本实施例中,所述序列表建立模块包括氨基酸序列表单元和修饰成分序列表单元;所述氨基酸序列表单元用于生成20维度的氨基序列码;所述修饰成分序列表单元用于生成7维度的修饰序列码。
[0072]
以及,在本实施例中,所述双向循环神经网络模型包括循环神经网络单细胞结构、遗忘门、输入门和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间,其中更新后的保留时间即为肽段序列的预测存留时间。
[0073]
以下,以一具体预测过程为例说明本发明提供的基于质谱分析的肽谱存留时间预测方法及系统。
[0074]
在本实施例中,选用2个包含多肽鉴定和rt的数据集,涵盖不同人类与植物的数据、不同修饰状态和分析平台的数据。需要说明的是,在本实施例中,数据分为训练数据及验证数据,训练数据与验证数据严格分开。
[0075]
训练模型的输入数据格式如下表:
[0076]
abaaaaaaaaaaaaaaagaagk58.05694aaaaaaaaak4.394aaaaaaaaateqqgsngpvk26.975aaaaaaa(h3c2n1o1)aq1htk8.2107aaaaaaaaqmhtk15.553aaaaaasllanghdlaaamavdk73.801
aaaaadlanr18.85031aaaaagaglk13.3316aaaaalsgsppqtek27.12538
[0077]
训练部分的代码可以为:
[0078]
python main.py train-g model.json-i train.tsv-o models/
[0079]
其中,第一个参数表示train数据模块,预测时候使用predict就可以;
[0080]-g表示是否使用之前训练的模型,该模型可以依据旧的模型进行提升准确率;
[0081]-i表示输入上面的数据,就是我们使用的训练数据;
[0082]-o表示输出的模型所在位置;
[0083]
通过训练我们获得模型文件,然后再进行预测,预测部分的代码可以为:
[0084]
python main.py predict-t train.tsv-s models/-o predict_out/
[0085]
第一个参数表示predict数据模块,训练时候使用train就可以;
[0086]-s表示是否使用之前训练的模型;
[0087]-t表示输入上面的数据,就是我们使用的训练数据;
[0088]-o表示输出预测结果的位置;
[0089]
预测的结果如下表:
[0090]
abb_preddsqflapdvtstqvntvvsgaldr84.63387.11121lldlyasger51.0702551.25605empqnvak16.78717.024113gsptgsspnnaselslasltek62.6003636461.83924lgldeyldk57.1188333357.66608fngaqvnpk20.0107519.809322avtisgtpdaiiqcvk66.2912568.5102sspveyeffwgpr81.7383333382.20954aipsyshlr29.9582531.344095
[0091]
其中b为真实的保留时间,b_pred为本实施例提供的基于质谱分析的肽谱存留时间预测方法预测的存留时间。通过对b和b_pred对比可以发现,两者之间的差异非常小,可以通过本实施例提供的基于质谱分析的肽谱存留时间预测方法较为准确的获得肽段的存留时间。
[0092]
综上所述,本实施例提供的基于质谱分析的肽谱存留时间预测方法及系统,包括:制作输入数据:将谱图库中的肽段序列及肽段序列对应的保留时间转换为(a,b)格式,其中a为肽段序列,b为保留时间;构建20维度的氨基酸序列表:所述氨基酸序列表包含人体蛋白质所含的20种氨基酸,每一氨基酸对应一个20位氨基序列码,不同氨基酸所对应的氨基序列码不同;编码:将肽段序列按照氨基酸序列表进行转换,以得到肽段序列矩阵;构建双向循环神经网络模型:包括构建循环神经网络单细胞结构、遗忘门、输入门和输出门;所述循环神经网络单细胞结构用于保存肽段序列矩阵及其对应的保留时间;所述遗忘门用于确认所述循环神经网络单细胞结构中保存的肽段序列矩阵哪些需要去除、哪些需要保留;所述输入门用于根据所述遗忘门确认的结果更新所述循环神经网络单细胞结构中保存的肽段
序列矩阵对应的保留时间;所述输出门用于输出所述循环神经网络单细胞结构中保存的更新后的肽段序列矩阵及对应的保留时间;其中更新后的保留时间即为肽段序列的预测存留时间。通过对修饰成分进行编码,使得修饰成分对肽段序列存留时间的影响被考虑;同时通过双向循环神经网络模型,使得对肽段序列的存留时间的预测分析结果可靠。解决了如何准确预测肽谱的存留时间的问题。
[0093]
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献