一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于液相色谱-高分辨质谱的石油分子表征数据处理方法

2022-06-11 22:51:18 来源:中国专利 TAG:


1.本发明涉及一种基于液相色谱-高分辨质谱的石油分子表征数据处理方法,属于分析化学及石油组学分析技术领域。


背景技术:

2.石油资源的重质化,给石油的炼制带来了挑战。石油组学是从分子水平上认识石油的组成及转化规律,从而实现高效精准石油加工,促进炼油技术的进步。高分辨质谱技术凭借其超高的分辨率,可获得化合物的精确质荷比,根据精确质荷比,人们可获得化合物的分子式信息。但是重质化的石油组成十分复杂,在高分辨质谱分析过程中,存在离子抑制效应,获得的化合物信息不全面。因此在重质油进入高分辨质谱前,可对其进行分离,液相色谱是一种高效的分离手段,目前被普遍用于石油的前处理过程中。在线液相色谱-高分辨质谱技术可用于石油的分子表征,但是石油的在线液相色谱数据进一步加大了石油数据的处理难度,目前很少有文献报道用于石油的在线液相色谱-高分辨质谱数据的处理方法。
3.液相色谱在一定程度上能降低油样的复杂程度,从而降低离子抑制效应扩大高分辨质谱数据的覆盖度。但是重油的组成复杂,化合物在液相色谱中并不能实现基线分离。重油的液相色谱-高分辨质谱数据中,化合物的扫描点数多,色谱峰宽。用商品化软件处理重油的液相色谱-高分辨质谱数据,由于色谱峰的峰很宽,在峰识别的过程中,会造成严重的化合物色谱峰丢失的情况。在不考虑化合物的峰形的情况下对数据进行处理,会出现重复积分,保留时间不准确等问题,因此得到的数据并不能真实体现以及直观表达实际样本中化合物的分布情况。因此有必要建立用于石油的液相色谱-高分辨质谱数据的处理方法。


技术实现要素:

4.本发明公开了一种基于液相色谱-高分辨质谱的石油馏分分子表征数据处理新方法,基于液相色谱-高分辨质谱采集到的原始数据文件,通过构建理论分子库、侯选离子筛选、峰提取与检测、去假阳性等步骤实现石油馏分分子表征。本发明方法充分挖掘了石油样本的液相色谱-高分辨质谱信息,快速、可靠地获得不同石油馏分中各类型化合物的分子式、保留时间及其强度,可用于基于液相色谱-高分辨质谱的石油馏分数据处理,分子表征信息提取更充分、更可靠。
5.本发明为实现上述目的所采用的技术方案是:基于液相色谱-高分辨质谱的石油分子表征数据处理方法,包括以下步骤:
6.1)通过液相色谱-高分辨质谱仪获取石油样本的质谱数据,构建用于数据处理的空白对照样本和待测石油馏分样本数据;
7.2)将空白对照样本和待测石油馏分样本数据通过质谱分析软件获取空白对照样本和石油馏分样本数据在整个保留时间范围的平均质谱图至excel文件;
8.3)获取平均质谱图噪音阈值,去除噪音离子;
9.4)根据平均质谱图间的质量偏差阈值和质谱响应偏差阈值,对步骤3)去噪后的待
测石油馏分平均谱图进行扣除空白;
10.5)建立待测石油馏分的分子类型、等效双键数范围、碳数范围、质荷比范围,并依据石油馏分碳数和等效双键数的极限关系约束最低碳数;生成等效双键数和碳数均连续分布的石油馏分理论分子库,分子库中每个理论分子均包含注释信息,所述注释信息包括分子类型,分子式,等效双键数,碳数以及不同质谱离子化方式对应的离子类型及其理论单同位素离子质荷比;
11.6)获取平均质谱图中实测离子和理论离子的质荷比偏差阈值,以及实测同位素分布和理论计算同位素分布的匹配阈值;查询石油馏分组成理论分子式库,从步骤4)去噪、去空白后的待测石油馏分平均谱图中提取出与石油馏分理论分子库匹配的,且满足小于质荷比偏差阈值的单同位素离子;根据该离子的分子式得到理论同位素的质荷比以及强度,并与样本的平均谱图进行匹配,匹配出满足小于质荷比偏差阈值以及强度阈值的同位素离子;将同时满足质量偏差和同位素分布阈值的离子质荷比及其对应的分子注释信息输出至文件,作为待测石油馏分的候选单同位素离子注释结果;
12.7)读取液相色谱-高分辨质谱仪所采集数据的原始数据文件,转换并保存为txt文本格式文件;
13.8)基于步骤6)的候选离子注释结果,获取原始数据中的实测离子与平均谱图中已注释候选离子的质荷比偏差阈值,以及原始数据中单一离子的连续扫描次数阈值,从原始数据中筛选出满足小于质荷比偏差阈值和连续扫描次数阈值的所有离子;将单一离子连续扫描点的累积强度值作为该离子强度;输出各离子的质荷比,起始扫描点和结束扫描点对应的保留时间,强度以及分子注释信息至文件,作为峰检测结果文件;
14.9)对峰检测结果文件中的离子,提取每个离子所有扫描点的时间和强度,并对其做高斯分布函数,模拟每个离子的流出峰,将峰顶点对应的保留时间作为该离子的保留时间;若同一离子模拟出多个流出峰,则以强度最大的流出峰为基准,得到其它流出峰与强度最大的流出峰的分离度;根据分离度阈值,去除其中分离度不满足阈值的流出峰,重新输出至文件,作为初始去假阳性结果文件;
15.10)根据待测石油馏分的等效双键数和碳数连续分布阈值,在初始假阳性去除结果文件中提取出满足小于等效双键数和碳数连续分布阈值的全部离子,输出至文件,作为最终去假阳性结果文件。
16.步骤2)中:平均谱图中包括质荷比和强度信息。
17.步骤4)中:同时满足平均质谱图间的质量偏差和质谱响应偏差阈值的石油馏分平均谱图信号将被去除。
18.步骤5)中:不同质谱离子化模式对应的离子类型包括,正离子模式下的[m h]

和[m]

离子,负离子模式下的[m-h]-和[m]-。
[0019]
步骤6)中:待测石油馏分的候选单同位素离子注释结果包括质荷比,强度,分子类型,分子式,等效双键数,碳数以及不同质谱离子化方式对应的离子类型信息。
[0020]
步骤7)中:液相色谱-高分辨质谱的文本格式文件包括扫描点数、保留时间以及每个扫描点采集到的离子质荷比及其强度信息。
[0021]
步骤8)中:峰检测结果文件中包括质荷比,强度,分子类型,分子式,等效双键数,碳数,不同质谱离子化方式对应的离子类型信息以及起始和结束保留时间信息。
[0022]
步骤10)中,将满足小于等效双键数和碳数连续分布阈值的全部离子进行可视化,包括杂原子类型分布图,同一杂原子类型下的dbe和碳数分布散点图,dbe分布柱状图,碳数分布柱状图,质量缺陷散点图中的至少一种。
[0023]
基于液相色谱-高分辨质谱的石油分子表征数据处理装置,包括:
[0024]
去空白模块,用于获取平均质谱图噪音阈值,去除噪音离子;并根据平均质谱图间的质量偏差阈值和质谱响应偏差阈值,对去噪后的待测石油馏分平均谱图进行扣除空白,得到去噪、去空白的待测石油馏分平均谱图;
[0025]
构建分子库模块,用于获取待测石油馏分的分子类型、等效双键数范围、碳数范围、质荷比范围,并依据石油馏分碳数和等效双键数的极限关系约束最低碳数;生成等效双键数和碳数均连续分布的石油馏分理论分子库,分子库中每个理论分子均包含注释信息,所述注释信息包括分子类型,分子式,等效双键数,碳数以及不同质谱离子化方式对应的离子类型及其理论单同位素离子质荷比;
[0026]
分子注释模块,用于获取平均质谱图中实测离子和理论离子的质荷比偏差阈值,以及实测同位素分布和理论计算同位素分布的匹配阈值;并查询石油馏分组成理论分子式库,从去噪、去空白后的待测石油馏分平均谱图中提取出与石油馏分理论分子库匹配的,且满足小于质荷比偏差阈值的单同位素离子;根据该离子的分子式得到理论同位素的质荷比以及强度,并与样本的平均谱图进行匹配,匹配出满足小于质荷比偏差阈值以及强度阈值的同位素离子;将同时满足质量偏差和同位素分布阈值的离子质荷比及其对应的分子注释信息输出至文件,作为待测石油馏分的候选单同位素离子注释结果;
[0027]
峰检测模块,用于基于候选离子注释结果,获取原始数据中的实测离子与平均谱图中已注释候选离子的质荷比偏差阈值,以及原始数据中单一离子的连续扫描次数阈值,从原始数据中筛选出满足小于质荷比偏差阈值和连续扫描次数阈值的所有离子;将单一离子连续扫描点的累积强度值作为该离子强度;输出各离子的质荷比,起始扫描点和结束扫描点对应的保留时间,强度以及分子注释信息至文件,作为峰检测结果文件;
[0028]
去假阳性模块,用于对峰检测结果文件中的离子,提取每个离子所有扫描点的时间和强度,并对其做高斯分布函数,模拟每个离子的流出峰,将峰顶点对应的保留时间作为该离子的保留时间;若同一离子模拟出多个流出峰,则以强度最大的流出峰为基准,得到其它流出峰与强度最大的流出峰的分离度;根据分离度阈值,去除其中分离度不满足阈值的流出峰,重新输出至文件,作为初始去假阳性结果文件;
[0029]
处理结果模块,用于根据待测石油馏分的等效双键数和碳数连续分布阈值,在初始假阳性去除结果文件中提取出满足小于等效双键数和碳数连续分布阈值的全部离子,输出至文件,作为最终去假阳性结果文件。
[0030]
还包括可视化模块,用于将满足小于等效双键数和碳数连续分布阈值的全部离子进行可视化,包括杂原子类型分布图,同一杂原子类型下的dbe和碳数分布散点图,dbe分布柱状图,碳数分布柱状图,质量缺陷散点图中的至少一种。
[0031]
本发明具有以下有益效果及优点:
[0032]
本发明公开了一种基于液相色谱-高分辨质谱的石油馏分分子表征数据处理新方法,基于液相色谱-高分辨质谱采集到的原始数据文件,通过构建理论分子库、侯选离子筛选、峰提取与检测、去假阳性等步骤实现石油馏分分子表征。本发明方法充分挖掘了石油样
本的液相色谱-高分辨质谱信息,快速、可靠地获得不同石油馏分中各类型化合物的分子式、保留时间及其强度,可用于基于液相色谱-高分辨质谱的石油馏分数据处理,分子表征信息提取更充分、更可靠。
附图说明
[0033]
图1.待测蜡油样本和空白对照样本的平均质谱图;
[0034]
图2.基于质谱同位素分布模式的候选离子筛选及分子注释;
[0035]
图3.蜡油高斯分布函数模拟保留时间图;
[0036]
图4.蜡油中杂原子类型分布图;
[0037]
图5.蜡油中n1类化合物的等效双键数和碳数分布散点图。
具体实施方式
[0038]
下面结合附图及实施例对本发明做进一步的详细说明。
[0039]
1)自定义用于液相色谱-高分辨质谱数据处理的空白对照样本和待测石油馏分样本数据;
[0040]
2)输出空白对照样本和石油馏分样本数据在整个保留时间范围的平均质谱图至excel文件,该文件中包括质荷比和强度信息;
[0041]
3)自定义平均质谱图噪音阈值,去除其中强度低于噪音阈值的离子;
[0042]
4)自定义平均质谱图间的质量偏差和质谱响应偏差阈值,对步骤3)结果中的石油馏分平均谱图扣除同时满足质量偏差和质谱响应偏差阈值的空白对照;
[0043]
5)自定义待测石油馏分的分子类型以及等效双键数范围、碳数范围、质荷比范围,并依据石油馏分碳数和等效双键数的极限关系约束最低碳数后,生成等效双键数和碳数均连续分布的石油馏分理论分子库,数据库中的每个理论分子均包含注释信息:分子式,等效双键数,碳数,分子类型,质荷比以及离子类型;
[0044]
6)自定义平均质谱图中实测离子和理论分子库中离子的质荷比质量偏差阈值,以及实测同位素分布和理论计算同位素分布的匹配阈值;基于石油馏分组成理论分子式库,从步骤4)扣空白后的待测石油馏分平均谱图中提取出与石油馏分理论分子式库匹配的质荷比,匹配出满足质量阈值的单同位素离子根据该离子的分子式计算理论同位素的质荷比以及强度,并与样本的平均谱图进行匹配,匹配出满足质荷比偏差以及强度阈值的同位素离子;将同时满足质量偏差和同位素分布阈值的离子的质荷比及其对应的分子注释信息输出至文件,作为待测石油馏分的候选单同位素离子注释结果,该结果中包括质荷比,强度,分子类型,分子式,等效双键数,碳数以及不同质谱离子化方式对应的离子类型信息;
[0045]
7)读取液相色谱-高分辨质谱数据的原始数据文件,转换并保存为txt文本格式文件,文件中包括扫描点数、保留时间以及每个扫描点采集到的离子质荷比及其强度信息;
[0046]
8)基于步骤6)的候选离子注释结果,自定义总离子流图中的实测离子与平均谱图中已注释候选离子的质荷比偏差阈值,再自定义单一离子的连续扫描次数阈值,从总离子流中筛选出满足阈值的所有离子;将单一离子连续扫描点的累积强度值作为该离子强度;输出各离子的质荷比m/z,起始扫描点和结束扫描点对应的保留时间,强度以及分子注释信息至文件,作为峰检测结果文件,该文件中包括质荷比,强度,分子类型,分子式,等效双键
数,碳数,不同质谱离子化方式对应的离子类型信息以及起始和结束保留时间信息;
[0047]
9)对峰检测结果文件中的离子,提取每个离子所有扫描点的时间和强度,并对其做高斯分布函数,模拟每个离子的流出峰,将峰顶点对应的保留时间作为该离子的保留时间;若同一离子模拟出多个流出峰,则以强度最大的流出峰为基准,计算其它流出峰与其的分离度;自定义分离度阈值,去除其中分离度不满足阈值的流出峰,重新输出至文件,作为初始去假阳性结果文件。
[0048]
10)自定义待测石油馏分的等效双键数和碳数连续分布阈值,在第一次假阳性去除结果文件中提取出满足阈值的全部离子,输出至文件,作为最终去假阳性结果文件。
[0049]
11)数据可视化:根据峰检测的结果,对数据进行统计并可视化,包括:杂原子类型分布图,同一杂原子类型下的dbe和碳数分布散点图,dbe分布柱状图,碳数分布柱状图,质量缺陷散点图等。
[0050]
下面通过实例,结合附图对本发明的实施作详细说明:本实施例在以本发明方案为前提下进行实施,给出了详细的实施方式和具体操作过程,但本发明的保护范围不限于下述实施例。
[0051]
实施例1蜡油液相色谱-电喷雾电离-高分辨质谱数据的处理方法
[0052]
液相色谱-高分辨质谱得到的待测蜡油样本和空白对照样本的数据文件分别为dgjer.raw和blank-5.raw。
[0053]
输出平均质谱图:利用xcaliburtm 2.2(thermo fisher scientific,rockford,u.s.a.)将待测蜡油样本和空白数据在0-30min的平均谱图,如图1a,1b所示,导出至excel中,其中待测蜡油数据得到共235658个质谱离子,空白数据得到227039个质谱离子。
[0054]
平均质谱谱图去噪、去空白:设置平均质谱图的噪音阈值为1000,从质谱数据中去除噪声信号,以便去除背景信号,提高数据处理速度,去噪后待测样本和空白中分别保留了18589和6177个质谱离子。设置空白和待测蜡油的平均质谱图间的质荷比偏差阈值为2ppm,提高扣除空白信号的精度,避免空白信号的干扰,质谱响应强度的偏差阈值为50%,对待测蜡油样本平均谱图扣空白,去空白后保留16900个质谱离子。
[0055]
石油馏分理论分子库构建:蜡油液相色谱-电喷雾电离-高分辨质谱采集的主要是蜡油中的杂原子化合物。因此自定义碳数范围为:1-100,等效双键数范围为:1-30,质荷比m/z范围为:150-2000,杂原子分子类型为:n
x
(x=1-3)、ox(x=1-7),s
x
(x=1-4)、s1o
x
(x=1-5)、n1ox(x=1-6)、n2ox(x=1-4)、s2o3、n1s
x
(x=1-2)、n1s1o1,限制理论数据库的大小,避免冗余信息;再依据石油馏分组成分子的碳数和等效双键数的极限关系:
[0056]
碳数》dbe/0.9-氮数
[0057]
约束最低碳数,生成理论分子库。得到包含分子类型,分子式,等效双键数,碳数,以及在电喷雾电离正、负离子模式下[m h]

和[m-h]-对应的理论单同位素离子的质荷比。
[0058]
筛选候选离子及分子注释:将去除空白对照后的平均谱图数据中的16900个特征与理论分子库进行匹配,匹配条件为:平均质谱图中实测离子和理论分子库中离子质荷比的质量偏差≤2ppm,且实测同位素分布模式与理论同位素分布模式相似性阈值≤30,确保分子注释的准确性;相似性计算由归一化的理论同位素和实测同位素强度分布的均方根误差表示。对满足阈值的质谱单同位素离子进行筛选,并基于前述构建的理论分子库对筛选出的单同位素离子进行分子注释。如图2以m/z 334.25258为例说明筛选和分子注释过程,
与理论数据库中[c
24h31
n h]

单同位素离子质荷比匹配,质荷比偏差δm=1.05ppm;设置质量偏差2ppm,在实验数据中搜索其同位素峰,找到了对应的m 1峰m/z 335.25592和m 2峰336.25951,相对于单同位素峰的相对强度分别为22%和2%。进一步计算理论同位素和实测同位素强度分布的均方根误差为1.4,满足阈值条件。因此,该离子被筛选为候选离子,注释其分子式为c
24h31
n,分子类型为n1,等效双键数dbe=10。
[0059]
共筛选并注释了4235质谱离子用于下一步液相色谱-高分辨质谱数据数据处理。
[0060]
液相色谱-高分辨质谱数据处理:首先将待测蜡油的液相色谱-高分辨质谱原始数据用msconvert软件将转换成mzxml格式,然后再利用r语言的aplcms包将mzxml格式的数据转换成txt文本格式。将前述平均质谱图筛选出的已分子注释的4235个候选单同位素离子依次在txt文件中的各个扫描点中进行搜索,搜索条件为:实测离子与平均谱图中已注释候选单同位素离子的质荷比偏差≤2ppm,且单一离子连续扫描次数≥60次,确保峰检测结果的准确性,降低假阳性率。输出满足搜索条件的离子,并将连续扫描点的起始和终止时间作为该离子的起始和结束保留时间;计算连续扫描点的累积强度作为该离子强度输出,共从原始数据文件提取和识别出3313个候选单同位素离子。
[0061]
去假阳性:提取出的3313个单同位素离子进一步进行假阳性去除。利用候选离子的连续扫描点,采用高斯分布函数模拟每个离子的流出峰,将峰顶点对应的保留时间作为该离子流出峰的保留时间(如图3),以质荷比516.4556为例(分子注释信息为:分子式c
37h57
n,等效双键数dbe=10),模拟出2个流出峰,对应的保留时间分别为7.12min和15.02min,两个峰的分离度为1.2。若同一离子模拟出多个流出峰,则以强度最大的流出峰为基准,计算其它流出峰与其的分离度,设置分离度阈值≤2,确保去假阳性过程真实可靠,避免假阳性过度去除或去除不完全,去除不满足阈值的流出峰,重新输出至文件,作为初始去假阳性结果文件。
[0062]
再定义等效双键数和碳数的连续阈值分别为3和2,假阳性过度去除或去除不完全,去除同一分子类型,等效双键数和碳数不连续避免的候选离子,作为最终的假阳性去除结果输出,经二步假阳性去除后,共保留3105个单同位素离子为蜡油的液相色谱-高分辨质谱得到分子表征结果。
[0063]
利用得到的分子表征结果可进一步可视化处理,如图4为该蜡油样本的杂原子类型分布图,从图中可以看出,n1类化合物在蜡油的所有杂原子类型中响应最高,其次是n1o1类化合物。针对n1类化合物,做等效双键数和碳数分布散点图(图5),横坐标为碳数,纵坐标为等效双键数,点的大小代表了化合物的强度,从图中可以看出n1类化合物主要分布范围为等效双键数9-13,碳数10-28。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献