一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种代谢组深度注释方法

2022-06-08 18:43:17 来源:中国专利 TAG:


1.本发明涉及分析化学和代谢组学领域,是一种基于分子结构关联网络的代谢物深度注释方法。
2.研究背景
3.代谢物种类繁多,且具有种属特异性。代谢组定性一直是代谢组学和分析化学领域研究的瓶颈问题。非靶向超高效液相色谱-高分辨质谱技术是代谢组学研究的主流技术之一,随着高分辨质谱技术的不断进步,高通量代谢组学数据的产生已不再是研究的主要瓶颈。基于非靶向超高效液相色谱-高分辨质谱技术(uhplc-hrms)的代谢组学方法一次已可实现上万或数万个质谱峰(metabolic feature)的检测,但能获取的代谢物一般少于1000,且其中能鉴定出的代谢物一般仅为几百个。由于非靶向代谢组学实验数据可注释信息有限,使得发现的大量差异代谢物由于结构未知,无法用于后续的功能机制等研究。
4.基于质谱技术的高可靠性代谢物鉴定通常需要通过精确质量数、保留时间以及二级质谱(ms/ms)的搜库匹配鉴定。目前代谢组数据库已收录了大量内源性代谢物,但库中缺乏色谱保留时间,且实验二级谱图数量较少,收录的二级谱图多数为理论预测谱图,与实测谱图相差较大。此外,不同类型质谱采集的二级谱图重现性较差,导致数据库搜索定性的能力有限,严重影响了代谢物的有效鉴定。为此,急需发展一种用于非靶向超高效液相色谱-高分辨质谱代谢组数据的深度注释方法。


技术实现要素:

5.本发明提供了一种代谢组的规模化定性方法。为了实现本发明目的,对生物样本提取物进行基于超高效液相色谱-高分辨质谱的非靶向代谢组学分析,获取生物样本提取物的代谢组相关色谱-质谱信息;基于所获非靶向代谢组学数据在代谢组数据库收集候选代谢物;基于候选代谢物分子指纹相似性构建代谢物分子结构关联网络;利用非靶向超高效液相色谱-高分辨质谱代谢组实验数据,以分子结构关联网络作为背景网络,进行代谢组规模化定性。本发明采用的技术方案步骤如下:
6.第一步,采用超高效液相色谱-高分辨质谱对待测生物样本的提取物进行非靶向代谢组学分析;获取提取物代谢组的相关色谱-质谱信息,包括实验测得的代谢物峰的保留时间t
r实测
,一级质谱信息即一级离子质荷比m/z
实测
,和相应的二级质谱信息即二级离子的质荷比和强度;一级离子指化合物被离子化后直接采集到的离子;二级离子指一级离子在施加一定能量碰撞碎裂后采集到的离子;
7.第二步,构建候选代谢物分子结构数据库;根据第一步实验获取的待测生物样本提取物中全部代谢物的一级离子质荷比m/z
实测
和实验保留时间t
r实测
。利用开源代谢组数据库中代谢物的分子式获得其理论一级离子的质荷比m/z
理论
;再根据保留时间预测模型获得代谢物的预测保留时间t
r预测
,保留时间预测模型的构建基于已知代谢物结构保留关系。将开源代谢组数据库中代谢物理论一级离子的质荷比m/z
理论
和预测保留时间t
r预测
与实验代谢物数据一级离子质荷比m/z
实测
和实验保留时间t
r实测
进行匹配,同时满足
8.|t
r预测-t
r实测
|《2min,且|m/z
理论-m/z
实测
|/m/z
理论
*1000000《5ppm的代谢物将作为候选代谢物,构建候选代谢物数据库;该数据库包含代谢物的简化分子线性输入规范(smiles),名称,分子式,分子结构和预测保留时间;
9.第三步,构建代谢组的分子结构关联网络;根据候选代谢物数据库中代谢物的分子结构获得分子指纹,这里分子指纹可以是morgan指纹、maccs指纹、atom-pair指纹、daylight指纹的任意一种;计算任意两个候选代谢物分子指纹间的相似度,相似度的计算方法基于开源工具rdkit。设定相似度阈值,以代谢物为节点,分子指纹相似性为边,将大于等于分子指纹间相似度域值的代谢物间连线,构建代谢组水平的分子结构关联网络;
10.第四步,基于分子结构关联网络进行代谢物的规模化定性;以第三步构建的分子结构关联网络作为背景网络,以候选代谢物数据库为参考,从其中选择5~50个代谢物,利用这5~50个代谢物的标准样品从非靶向超高效液相色谱-高分辨质谱代谢组实验数据鉴定5~50个代谢物作为种子代谢物,将其映射到已建立的分子结构关联网络中,从网络中获取种子代谢物相邻代谢物,这里相邻代谢物指分子结构关联网络中有直接边连接的代谢物;将种子代谢物的二级质谱赋给相邻代谢物,作为其拟二级质谱,设定搜索阈值,|t
r预测-t
r实测
|《2min且|m/z
理论-m/z
实测
|/m/z
理论
*1000000《5ppm且代谢物峰的实验二级质谱和相邻代谢物的拟二级质谱的相似度≥0.5。在实验数据中搜索与相邻代谢物m/z
理论
,t
r预测
,二级质谱匹配的代谢物峰,匹配成功则该代谢物峰鉴定完成;;鉴定出的代谢物再作为新的种子,重复定性过程,直至没有新的代谢物被定性出来;当有多个匹配结果时,对匹配结果进行打分,得分越高的代谢物峰则其鉴定的准确度越高,鉴定出的代谢物不再作为新的种子。得分=0.25
×
(1-|m/z
理论-m/z
实测
|
×
1000000/(m/z
理论
×
5)) 0.25
×
(1-|t
r(代谢物)-t
r(实验值)
|/2) 0.5
×
二级谱图相似度。
11.本发明依据分子结构相似的代谢物,其ms/ms具有相似性这一前提,建立了实验数据导向的基于分子结构关联网络的规模化定性方法,实现对未知代谢物的结构鉴定。通过建立候选代谢物数据库及其候选代谢物分子结构关联网络,采用网络去鉴定没有标准ms/ms谱图的代谢物,使得代谢物的结构鉴定可不依赖大规模的标准ms/ms数据库。本发明是一种不依赖于大规模实验二级谱图数据库的代谢组深度注释方法,可实现代谢组规模化、可靠定性,显著扩大代谢组注释的覆盖度。
附图说明
12.图1分子结构关联网络(代谢物分子指纹相似度阈值为0.7);
13.图2分子结构关联网络局部放大图;
14.图3基于分子结构关联网络的代谢物定性过程示意图;
15.图4a来自玉米花丝质谱正离子模式的分子结构关联网络;
16.图4b来自玉米花丝质谱负离子模式的分子结构关联网络。
具体实施方式
17.下面结合附图对本发明实施作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
18.实施例1
19.为了证实本发明的有效性和可行性,在植物提取物中添加由173个羟基肉桂酸酰胺(包括n-cinnamoyl-putrescine、n-(p-coumaroyl)-cadaverine、n-(p-coumaroyl)-agmatine、n,n'-caffeoyl-feruloyl-putrescine、n,n',n
”‑
caffeoyl-feruloyl-sinapoyl-spermidine和n,n',n
”‑
tris-feruloyl-spermine等,添加终浓度为100~200ng/ml)组成的混合标样,将加标后的植物提取物进行超高效液相色谱-高分辨质谱数据采集,以采集的非靶向代谢组学数据中羟基肉桂酸酰胺的定性为例进行发明的原理性说明。
20.植物组织代谢组的提取:采用植物代谢组学方法,提取玉米花丝中的代谢物。首先称取50毫克玉米花丝粉末于1.5毫升离心管中,加入1.0毫升的甲醇/水(体积比,4:1)提取剂,在涡旋仪上涡旋5分钟,在4℃,15000rpm条件下离心10min。取700μl上清液,放入真空离心浓缩仪冻干。在冻干样品粉末中加入100微升甲醇/水(体积比,4:1),涡旋1min,在高速离心机中采用4℃,15000rpm转速,离心10min。
21.非靶向色谱-质谱信息获取:数据采集于acquity uhplc超高效液相色谱系统(uplc,waters,milford,ma,usa.)和q exactive hf高分辨质谱(thermo fisher scientific,rockford,il,usa.)联用的分析仪器。
22.质谱电喷雾电离源正离子模式下的液相色谱条件为:a相和b相分别为0.1%的甲酸/水(体积比)和0.1%的甲酸/乙腈(体积比),流速为0.35ml/min。起始洗脱梯度为5%b,保持1min;在23min内线性梯度增加到100%b,并保持4min,接着在0.1min内线性回到初始梯度,并保持2.9min,总分析时间为30min。样品采用acquity beh c
18
色谱柱(100mm x 2.1mm,1.7μm,waters,milford,ma,u.s.a.)进行分离。柱温为50℃。样品进样室温度设置为4℃,样品进样量为5μl。
23.质谱电喷雾电离源负离子模式下液相色谱条件为:a相和b相分别为6.5mm碳酸氢铵水溶液和6.5mm碳酸氢铵的95%甲醇/水溶液(体积比)。流速为0.35ml/min。起始洗脱梯度为2%b,保持1min,在18min时线性梯度增加至100%b,并保持至22min,接着在22.1min时,线性梯度回到初始比例,并保持至25min。样品采用acquity hss t3色谱柱(100mm
×
2.1mm,1.8μm,waters,milford,ma,u.s.a.)进行分离。柱温为50℃,样品进样室温度设置为4℃,进样量为5μl。
24.q exactive hf质谱分析条件为:扫描模式为全扫描/自动触发的数据依赖二级质谱扫描模式(full ms/data-dependentms2)。在全扫描质谱设置中,分辨率采用120,000,自动增益控制目标(agc target)和最大注入时间(maximum it)分别设置为3
×
106离子容量和100ms。全扫质量扫描范围为m/z 85-1250。在二级质谱设置中,自动增益控制目标(agc target)和最大注入时间(maximum it)分别设置为1
×
105离子容量和50ms。隔离窗口为m/z 1.0。碰撞能采用混合归一化能量(nce)15%,30%和45%。二级质谱的采集由每个全扫描循环中响应最强的前10个离子触发。加入inclusion list,并设置为on。正、负离子模式下的电喷雾电压分别为3.5kv和3.0kv,离子传输管温度为320℃,辅助气温度为350℃。鞘气和辅助气流速分别为45和10(in arbitrary units)。s-lens设置为50.0(in arbitrary units)。
25.实验色谱-质谱信息获取:基于加标提取物的非靶向代谢组学数据,采用软件compounddiscovery3.1获得峰表,包括实验保留时间t
r实测
,一级质谱信息即一级离子质荷
比m/z
实测
,导出excel表。采用软件proteowizard将原始数据进行转化,获得.mgf的二级文件,包含相应的二级质谱信息即二级离子的质荷比和强度。实验数据中代谢物峰的一级离子质荷比m/z
实测
,实验保留时间t
r实测
与相应二级质谱匹配的质量窗口为10ppm,保留时间窗口为10s。从采集到的非靶向代谢组学数据中,提取出其中173个羟基肉桂酸酰胺的实验保留时间t
r实测
,一级质谱信息即一级离子质荷比m/z
实测
和相应的二级质谱信息即二级离子的质荷比和强度。
26.保留时间预测模型构建:采用与植物提取物相同超高效液相色谱-高分辨质谱数据采集条件,分析127个羟基肉桂酸酰胺(包括n-(p-coumaroyl)-spermidine、n-sinapoyl-tyramine、n,n'-cinnamoyl-sinapoyl-putrescine和n,n',n
”‑
(p-coumaroyl)-bis-caffeoyl-spermidine等)标样,获取液相色谱实验保留时间。利用标样的sdf文件在开源网站chemdes(http://www.scbdd.com/chemdes)中计算获得每个标样的1d&2d分子描述符,采用多重线性回归方法,以液相色谱保留时间为因变量,分子描述符为自变量,选择逐步法构建保留时间预测模型。
27.利用开源植物羟基肉桂酸酰胺代谢组数据库(https://pubs.acs.org/doi/abs/10.1021/acs.analchem.8b03654)收集候选代谢物,该数据库收录了846个羟基肉桂酸酰胺。首先利用数据库中羟基肉桂酸酰胺的分子式,获得每个羟基肉桂酸酰胺的理论一级离子的质荷比m/z
理论
;利用前述构建的保留时间预测模型预测出846个羟基肉桂酸酰胺的预测保留时间t
r预测
。将加标植物提取物的非靶向代谢组学实验获取的173个羟基肉桂酸酰胺的一级离子质荷比m/z
实测
和实验保留时间t
r实测
搜索开源植物羟基肉桂酸酰胺代谢组数据库,将数据库中同时满足:
28.|t
r预测-t
r实测
|《2min,
29.和|m/z
理论-m/z
实测
|/m/z
理论
×
1000000《5ppm的220个羟基肉桂酸酰胺作为候选代谢物,获取其smiles,名称,分子式,分子结构和预测保留时间,构建候选羟基肉桂酸酰胺数据库。
30.分子结构关联网络构建:对候选羟基肉桂酸酰胺的分子结构获得其morgan指纹,计算任意两个候选羟基肉桂酸酰胺morgan指纹间的相似度,设置分子指纹相似度阈值为0.7,以候选羟基肉桂酸酰胺为节点,任意两个候选羟基肉桂酸酰胺间morgan指纹相似性为边,构建分子结构关联网络,见图1,共有220个结点,3866条边。
31.基于分子结构关联网络定性:以构建的分子结构关联网络作为背景网络,对非靶向超高效液相色谱-高分辨质谱代谢组采集的加标代谢物进行鉴定。定性的具体过程如下:
32.1)利用标准样品从加标后的植物提取物非靶向超高效液相色谱-高分辨质谱代谢组实验数据中鉴定6个羟基肉桂酸酰胺作为种子代谢物,将其映射到已建立的分子结构关联网络中,从网络中获取种子代谢物的相邻代谢物,这里相邻代谢物指分子结构关联网络中有直接边连接的代谢物。图2是分子结构关联网络的局部放大图,图中种子代谢物1为n-caffeoyl-5-methoxytryptamine,其相邻代谢物共有5个,包括相邻代谢物1为n-sinapoyl-serotonin,相邻代谢物2为n,n'-feruloyl-cinnamoyl-cadaverine,相邻代谢物3为n,n'-(p-coumaroyl)-feruloyl-agmatine,相邻代谢物4为n-feruloyl-octopamine和相邻代谢物5为n-caffeoyl-serotonin。相邻代谢物1至5的m/z
理论
,t
r预测
分别为m/z 383.1607,6.62min;m/z 409.2127,8.90min;m/z 453.2138,8.14min;m/z 330.1341,5.91min和m/
z339.1345,6.19min。
33.2)将种子代谢物的二级质谱赋给相邻代谢代谢物,作为其“拟二级质谱”。设定搜索阈值:
34.|t
r预测-t
r实测
|《2min,
35.|m/z
理论-m/z
实测
|/m/z
理论
*1000000《5ppm,
36.且实验二级质谱和相邻代谢物的拟二级质谱的相似度≥0.5
37.定性过程举例说明如下:如图3所示,种子代谢物1的二级谱图为图中红色谱图,将其作为5个相邻代谢物的“拟二级谱图”;在实验数据中寻找与各个相邻代谢物的m/z
理论
,t
r预测
,以及拟二级质谱匹配的代谢物峰。在实验数据中搜索到保留时间6.97min,[m h]

383.1594的代谢物峰,其与相邻代谢物1(n-sinapoyl-serotonin)的|t
r预测-t
r实测
|=0.35min,δm=|m/z
理论-m/z
实测
|/m/z
理论
×
1000000=3.4ppm,且该峰的实验二级谱图(蓝色)与相邻代谢物1的“拟二级谱图”(红色谱图)的相似度为0.86。因此,该代谢物峰被定性为n-sinapoyl-serotonin。采用类似的定性方法,实验数据中3个代谢物峰(m/z
实测
,t
r实测
,二级相似度)m/z409.2109,9.34min,0.78;m/z453.2118,7.92min,0.76和m/z330.1330,5.71min,0.86分别和相邻代谢物2,3,和4匹配,这3个代谢物峰也被成功鉴定。
[0038]
3)当实验数据搜索出多个匹配结果时,对匹配结果进行打分,得分规则为:
[0039]
得分=0.25
×
(1-|m/z
理论-m/z
实测
|
×
1000000/(m/z
理论
×
5)) 0.25
×
(1-|t
r(代谢物)-t
r(实验值)
|/2) 0.5
×
二级谱图相似度
[0040]
如实验数据中搜索到3个代谢物峰与相邻代谢物5匹配,均满足搜索阈值,其m/z
实测
,tr
实测
,二级质谱相似度分别为m/z 339.1332,5.89min,0.77;m/z 339.1330,5.47min,0.61和m/z 339.1335,6.63min,0.63,对3个结果进行打分,对应的得分为0.66,0.50和0.62,按照从大到小排序输出,得分高的鉴定结果可靠性高。这种情况鉴定出的代谢物峰不再作为种子参与下一轮定性。
[0041]
4)上述鉴定出的代谢物再作为新的种子,重复定性过程,直至没有新的代谢物峰被定性出来。如实验数据中代谢物峰(383.1594,6.97min)被成功鉴定为n-sinapoyl-serotonin(图2中相邻代谢物1),其实验二级谱图被赋予图2中的下一级相邻代谢物1(n,n',n
”‑
feruloyl-bis-cinnamoyl-spermidine),作为其“拟二级谱图”。下一级相邻代谢物1的m/z
理论
,t
r预测
为582.2968,11.19min。在实验数据中寻找到满足阈值的代谢物峰582.2948,11.65min,其实验二级谱图与拟二级谱图相似度为0.75,匹配成功。代谢物峰(582.2948,11.65min)被鉴定为n,n',n
”‑
feruloyl-bis-cinnamoyl-spermidine,可作为新的种子重复上述定性过程。
[0042]
采用上述方法,利用6个羟基肉桂酸酰胺作为初始种子代谢物,共成功鉴定167个羟基肉桂酸酰胺,鉴定结果的正确率为98.8%。其中排名第一的有141个,排名第二的有19个,排名第三的有5个,排名第4的有2个。排名不在第一的原因是169个羟基肉桂酸酰胺中有80个有同分异构体,同分异构体的保留时间,二级质谱类似。
[0043]
将上述鉴定结果与常用的搜索数据库方法进行对比,数据库respect(http://spectra.psc.riken.jp/)中仅包含23个羟基肉桂酸酰胺,metlin(https://metlin.scripps.edu)中包含44个羟基肉桂酸酰胺,但这些数据库几乎不包含羟基肉桂酸酰胺的二级谱图,仅使用一级离子质荷比搜索,定性结果可靠性无法保证,且覆盖度有限。
[0044]
上述结果显示,基于分子结构关联网络的代谢物定性方法不依赖于大规模实验二级谱图数据库,即可实现可靠定性;利用开源的结构数据库,可显著扩大代谢组注释的覆盖度。
[0045]
实施例2
[0046]
采用本发明对实际生物样本提取物进行定性。提取植物组织(玉米花丝)代谢组,对玉米花丝组织提取物进行超高效液相色谱-高分辨质谱数据采集,对得到的非靶向代谢组学数据进行定性。
[0047]
过程和条件同实施例1,与其不同之处在于:
[0048]
植物组织代谢组的提取:同实施例1。
[0049]
非靶向代谢组学数据采集:同实施例1。
[0050]
实验色谱-质谱信息获取:基于玉米花丝提取物的非靶向代谢组学数据,采用软件compounddiscovery3.1获得峰表,包括实验保留时间t
r实测
,一级质谱信息即一级离子质荷比m/z
实测
,导出excel表。采用软件proteowizard将原始数据进行转化,获得.mgf的二级文件,包含相应的二级质谱信息即二级离子的质荷比和强度。
[0051]
保留时间预测模型构建:采用与植物提取物相同的超高效液相色谱-高分辨质谱数据采集条件,在正离子模式下分析254个标样(包括1,3-dihydroxyacetone、benzoic acid、methionine sulfoxide、7-methoxycoumarin、vibralactone b和nardosinone等),负离子模式下分析327个标样(包括3-hydroxypropanoic acid、2-hydroxyquinoline、coixol、6-benzylaminopurine、quercetin和daphnoretin等),分别获取液相色谱实验保留时间。利用标样的sdf文件在开源网站chemdes(http://www.scbdd.com/chemdes)中计算获得每个标样的1d&2d分子描述符,采用多重线性回归方法,以液相色谱保留时间为因变量,分子描述符为自变量,选择逐步法分别构建正离子模式和负离子模式的保留时间预测模型。
[0052]
利用开源代谢组数据库universal natural products database unpd(http://pkuxxj.pku.edu.cn/unpd/),plant metabolic network(https://plantcyc.org/)和kegg(https://www.genome.jp/kegg/)。首先基于数据库中代谢物的分子式,获得每个代谢物的理论一级离子的质荷比m/z
理论
;利用前述保留时间预测模型预测出每个代谢物的预测保留时间t
r预测
。将植物提取物的非靶向代谢组学实验获取的代谢物峰的一级离子质荷比m/z
实测
和实验保留时间t
r实测
搜索开源代谢组数据库,将数据库中同时满足:
[0053]
|t
r预测-t
r实测
|《2min,
[0054]
|m/z
理论-m/z
实测
|/m/z
理论
*1000000《5ppm的代谢物作为候选代谢物,获取其smiles,名称,分子式,分子结构和预测保留时间,构建候选代谢物数据库。
[0055]
分子结构关联网络构建:基于候选代谢物的分子结构获得其morgan指纹,计算任意两个候选代谢物morgan指纹间的相似度,设置分子指纹相似度阈值为0.6,以候选代谢物为节点,任意两个候选代谢物间morgan指纹相似性为边,构建分子结构关联网络,正离子模式下的分子结构关联网络包括1965个代谢物(结点),28199条边,见图4a;负离子模式下的分子结构关联网络包括1945个代谢物(结点),34451条边,见图4b。
[0056]
基于分子结构关联网络定性:以构建的分子结构关联网络作为背景网络,对非靶向超高效液相色谱-高分辨质谱代谢组采集的实验数据进行鉴定,确定待测生物样本中的
代谢物,鉴定过程同实施例1。
[0057]
上述过程显示在复杂的植物组织提取物代谢组数据中可以获得丰富的候选代谢物,且这些候选代谢物计算morgan指纹间的相似度,设置分子指纹相似度阈值为0.6时,可以构成完整联通的网络,可实现代谢组规模化的定性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献