一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种液相色谱二极管阵列数据转化为指纹图谱的方法与流程

2022-03-05 00:34:25 来源:中国专利 TAG:


1.本发明涉及一种液相色谱二极管阵列数据转化为指纹图谱的方法,该方法属于指纹图谱数据处理技术领域。


背景技术:

2.液相色谱是以液体作流动相的色谱分析技术,具有分离效率高、选择性好、检测灵敏度高、不受试样挥发性和热稳定性限制等优点,常用于定性和定量分析。指纹图谱根据液相色谱的色谱数据或光谱数据组合,经过统计处理,得到可以标示其化学特征的一类图谱,广泛应用于中药材、食品和农产品的鉴定、溯源和评价等研究。
3.但是,另一方面,由于色谱中存在的噪音干扰、谱峰漂移、差异难辨等问题,导致指纹图谱分析比对难度大,应用有限。


技术实现要素:

4.从大量色谱指纹图谱数据集中快速筛选和比较分析是分析样品间差异的技术基础,本发明针对色谱采集过程中的噪音、电气扰动等问题,通过对数据的整理、降噪和谱峰识别、校正,建立了将液相色谱-二极管阵列检测器采集数据转化为指纹图谱的快速分析算法,实现多波长样品指纹的快速比较。本发明所述方法在校正过程中,通过计算给所有峰保留时间定下一个标准值,以便于对样品峰进行准确校正。
5.本发明为实现上述目的所采用的技术方案为:
6.一种液相色谱二极管阵列数据转化为指纹图谱的方法,包括如下步骤:
7.步骤一,数据采集:在配备了二级管阵列检测器的液相色谱上,采集一定波长范围内的三维色谱数据;
8.该步骤中,所采集的三维色谱数据还可以进行数据缩减,根据分析精度需要,通过调整色谱保留时间的数据采样间隔,调整指纹图谱精度,获得缩减后的三维色谱数据;其中数据缩减的筛选公式以excel为例,使用offset函数,公式如下:
9.x=offset(reference,n*rows(),m*cols());
10.其中,x为筛选后的数据点,reference为参考系,n*rows()为行偏移量,m*cols()为列偏移量。
11.步骤二,数据降噪,分为如下两步进行:
12.(2.1):消除基线漂移。其计算公式如下:
13.x(i)'=x
(i m)-x(i)14.其中,x(i)表示第i个保留时间的吸光值,m为保留时间间隔,m一般根据色谱峰的半峰宽确定,x
(i m)
表示第i m个保留时间的吸光值,x(i)'为拉平基线后的色谱数据,替换掉原有的x(i);
15.(2.2):去除噪音。取一个或多个噪音值s,其取值根据实际需求确定,其计算公式如下:
16.x'=x-s
17.当x'《0,x'=0
18.当x'》0,x'=x’19.其中,x’为去除噪音后的数据,x为去出噪音前的数据,s为所设噪音值。将所有数据减去噪音值s,计算后小于零的数据归零,大于零的数据保留原值,得到过滤不同噪音值后的色谱图。
20.步骤三,谱峰确认:色谱峰保留时间采集方法,采用tom o'haver于2018年发表的峰定位方法,通过设定峰高、峰宽以及趋零谱峰一阶导数等3个参数,按照公式确认色谱峰及其保留时间。
21.步骤四,谱峰校正:该步骤分为内标确定和峰保留时间校正两部分。
22.第一部分,色谱峰内标集n及波动范围由所有样品综合计算得到,以此为内标校正样品峰保留时间,其内标集n的确定分为如下几步:
23.(4.1.1):统计所有样品的所有峰保留时间,按照大小进行排序;
24.(4.1.2):依次对相邻的n个保留时间求标准偏差r,若标准偏差r小于所设一定值代数值r’,则对应保留时间视为同一峰保留时间,将其归于一个分组,其计算公式如下;
[0025][0026]
其中,r’为所设代数值,r为计算得到的标准偏差值,n为选择的求标准偏差的保留时间数量,为所选保留时间的平均值,xi为所选保留时间中的第i个;
[0027]
(4.1.3):取每一组保留时间的中值,将中值的合集设为内标集n,用于样品峰保留时间的校正。
[0028]
第二部分,峰保留时间校正方法分为如下两步:
[0029]
(4.2.1):以内标保留时间ai为矩阵的第一行,样品峰保留时间bj作为矩阵第一列,矩阵其余位置由δt
ij
对应填充;
[0030]
(4.2.2):判断差值δt
ij
是否小于阈值q,若小于q且对应峰光谱图基本一致,对应bj可视作ai的同一色谱峰,将bj保留时间替换为ai。若δt
ij
大于阈值q,则为差异峰,不对bj进行校正。色谱峰保留时间校正计算公式如下:
[0031]
δt
ij
=a
i-bj[0032]
当δt
ij
≤q,b
j’=ai;
[0033]
当δt
ij
>q,b
j’=bj。
[0034]
其中,δt
ij
代表两个色谱峰ai与bj之间保留时间的差值,i、j代表该色谱峰保留时间在全部峰保留时间中的序号,ai代表内标第i个色谱峰保留时间,bj代表样品第j个色谱峰保留时间,b
j’代表bj校正后的保留时间,q为峰保留时间的波动阈值。波动阈值q的大小会影响校正的准确性,因此,需要设置合适的阈值,使其能够区分不同峰,同时不会分开相同峰。
[0035]
步骤五,建立指纹图谱,分为如下两步:
[0036]
(5.1):将上述内标集n中峰保留时间作为矩阵第一列,各个波长ak所对应的数集组成矩阵后续k列;
[0037]
(5.2):ak对应数集由该波长在不同保留时间处是否有峰组成,若对应波长和保留时间处存在峰,则该位置填1,反之填0,不同数据设置不同颜色使结果可视化。
[0038]
步骤六:指纹图谱计算对比,通过矩阵相加或相减使差异可视化,其具体步骤分为如下两步:
[0039]
(6.1):相加对比。分析样品与标品之间的共有峰及差异峰,将不同样品的指纹图谱矩阵数据对应相加,可得到0、1、2三种数据,其中,0表示此处样品与标品均“不存在峰”、1表示此处样品与标品间“存在差异峰”、2表示此处样品与标品“存在共有峰”,不同数据设置不同颜色使结果可视化。此步骤可快速发现不同样品间的差异峰及共有峰并进行定位,但无法区分峰的增加及峰的减少;
[0040]
(6.2):相减对比。分析差异峰中的峰增多及峰缺少,将样品指纹矩阵数据减去标品数据,可得到-1、0、1三种数据,其中,-1表示此处样品相对于标品“峰缺少”、0表示此处样品与标品“不存在峰或存在共有峰”、1表示此处样品相对于标品“峰增多”。此步骤作为第一步的补充,不同数据设置不同颜色使结果可视化。
[0041]
与现有技术相比,本发明的有益效果是:
[0042]
首先,本发明所述一种液相色谱二极管阵列数据转化为指纹图谱的方法,基于数据降噪、谱峰校正和差异可视化算法,在校正过程中给所有峰保留时间定下一个标准值,对样品进行准确校正,实现基于液相色谱的指纹图谱的快速定位差异峰和相同峰方法。
[0043]
第二,本发明所述方法将色谱数据转化为指纹图谱后,可通过矩阵的相加和相减找出液相色谱峰之间的差别,更易于进行对比找出结果之间的差异,从而在较短时间内分析出不同液相色谱结果之间的差异,找出不同样品之间成分的差异,不需要繁琐的单个峰值之间对比,提高了分析液相色谱结果之间差异的速度。该方法适用于食品或农产品指纹图谱的两两快速比较,提高了分析效率,促进了自动化识别。
附图说明
[0044]
图1为本发明所述液相色谱二极管阵列数据转化为指纹图谱的方法流程图;
[0045]
图2为e1和k7190经过函数筛选的色谱数据;
[0046]
图3为e1和k7190拉平基线后的色谱数据;
[0047]
图4为e1和k7190经过降噪处理的色谱数据;
[0048]
图5为e1和k7190计算所得峰保留时间;
[0049]
图6为峰校正计算方法示意图;
[0050]
图7为k7190峰校正案例示意图;
[0051]
图8为校正后原始菌株的指纹图谱;
[0052]
图9为校正后敲除子的指纹图谱;
[0053]
图10为矩阵相加示意图;
[0054]
图11为矩阵相减示意图;
[0055]
图12为矩阵相加对比得到的差异图;
[0056]
图13为矩阵相减对比得到的差异图。
具体实施方式
[0057]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常
理解的相同含义。
[0058]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本技术的示例性实施方式。下面结合附图和具体实施例对本发明的技术方案作进一步详细的说明。
[0059]
本发明主要涉及超高效液相色谱-二极管阵列原始数据的处理,提供了一种基于数据处理的液相色谱结果快速分析方法,具体为一种液相色谱二极管阵列数据转化为指纹图谱的方法。所述基于数据分析的液相色谱方法用于对液相色谱原始数据进行处理,快速便捷地分析样品之间的成分差异。
[0060]
实施例
[0061]
为展示整个方法过程,实施例选取了某一丝状真菌的冠突散囊菌e1(保藏号cctcc:no.m20211112)菌株及其单基因敲除子k7190,甲醇提取菌丝体得到的代谢产物作为示例样品,采用超高效液相色谱-二极管阵列检测方法,采集得到三维色谱图,通过上述发明方法分析样品间的产物差异。具体过程如下:
[0062]
步骤一:数据采集。在配备二级管阵列检测器的液相色谱上,采集200-600nm波长范围内的三维色谱数据。
[0063]
步骤二:数据缩减(可选)。根据分析精度需要,通过调整色谱保留时间的数据采样间隔,按比例缩减样本数据获得缩减后的三维色谱数据,本实施例选取的时间间隔为0.01s。
[0064]
步骤三:数据降噪。一般分为两步,即:
[0065]
(3.1):消除基线漂移,其计算公式如下:
[0066]
x
(i)’=x
(i m)-x(i)[0067]
其中,x(i)表示第i个保留时间的吸光值,m为保留时间间隔,根据色谱峰的半峰宽确定,x
(i)’为拉平基线后的色谱数据,替换掉原有的x(i),计算前如图2所示,有一定程度基线偏移,计算后如图3所示,成功消除基线漂移。
[0068]
(3.2):去除噪音,取一个噪音值0.01,其降噪计算公式如下:
[0069]
x’=x-s
[0070]
当x’《0,x’=0
[0071]
当x’》0,x’=x’[0072]
其中,x’为去除噪音后的数据;x为消除基线漂移后,去除噪音前的数据;s为所设噪音值。将所有数据减去噪音值s,计算后小于零的数据归零,大于零的数据保留原值,得到过滤不同噪音值后的色谱图,如图4所示,数据经过降噪去除噪音干扰。
[0073]
步骤四:谱峰确认。所述色谱峰保留时间采集方法,采用tom o'haver于2018年发表的峰定位方法,通过设定峰高大于0.01、峰宽小于0.01以及趋零谱峰一阶导数3个参数,按照其公布方法确认色谱峰及其保留时间,图5为实施例中计算所得峰保留时间。
[0074]
步骤五:谱峰校正。谱峰校正分为内标确定及峰保留时间校正两部分。色谱峰内标集n及波动范围由所有样品综合计算得到,以此为基准校正样品峰保留时间,其内标集n确定分为如下几步:
[0075]
(5.1):统计所有样品的峰保留时间,按照大小进行排序;
[0076]
(5.2):依次对相邻的n个保留时间求标准偏差r,若标准偏差r小于所设一定值代
数值r’,则对应保留时间视为同一峰保留时间,将其归于一个分组,实施例中r’为0.01。其计算公式如下:
[0077][0078]
其中,r为计算得到的标准偏差值,n为选择的求标准偏差的保留时间数量,为所选保留时间的平均值,xi为所选保留时间中的第i个,实施例中n为2;
[0079]
(5.3):取每一组保留时间的中值,得到中值的合集n{0.115146,0.726526,0.899511,0.951919,1.196531,1.330706,1.354479,1.420423,1.691122,1.800919,1.981347,2.469146,2.540331,2.721936,3.342319,3.576133,3.928523,4.418416,4.618703,4.833786,5.080974,5.202326,5.961394,6.251355,6.515896,6.81018,6.890687,7.052432,8.256224,8.318162,8.778295,9.397981,9.539001,9.872432,9.904062,10.25509,10.4201,10.56877,10.80861,11.54996,12.05954,12.87973,13.00961,13.20177,13.73844,14.29435,14.58056,14.85723,15.38743,15.99942,16.79521,17.06683,17.1167,17.16048,17.30226,17.45879,17.51757,17.65166,18.32486,18.38244,18.61797,18.6562,18.79465,19.92223,20.33528,20.36224,20.70383,20.93617,20.95951,21.20727,21.99564,22.57375,23.36959,23.41928,23.45703,23.73129,24.06929},将合集n设为内标,用于样品峰保留时间的校正。
[0080]
其峰保留时间校正计算方式如图6所示,分为如下两步:
[0081]
(5.4):以内标保留时间ai为矩阵第一行,样品峰保留时间bj作为矩阵第一列,矩阵其余位置由其差值对应填充。
[0082]
(5.5):判断差值是否小于阈值0.02,若小于且对应峰光谱图基本一致,对应bj可视作ai的同一色谱峰,将bj保留时间替换为ai。若差值大于阈值0.02,则为差异峰,不对bj进行校正。阈值的大小会影响校正的准确性,因此,需要设置合适的阈值,使其能够区分不同峰,同时不会分开相同峰。如图7所示,以e1为标品对k7190峰保留时间进行校正,可看出橙色部分值小于阈值0.02,代表对应峰为共有峰,对其校正结果也如图7所示。
[0083]
步骤六:建立指纹图谱。绘制指纹图谱方法,其具体步骤为:
[0084]
(6.1):将上述内标集n中峰保留时间作为矩阵第一列,各个波长ak所对应的数集组成矩阵后续k列;
[0085]
(6.2):ak对应数集由该波长在不同保留时间处是否有峰组成,若对应波长和保留时间处存在峰,则该位置填1,反之填0,不同数据设置不同颜色使结果可视化。e1指纹图谱如图8所示,k7190指纹图谱如图9所示黄色部分存在色谱峰,白色部分不存在色谱峰。
[0086]
步骤七:指纹图谱对比,该步骤分为如下两步:
[0087]
(7.1):相加对比。分析样品与标品之间的共有峰及差异峰,将不同样品的矩阵数据对应相加,如图10所示,由原本只有0、1两种数据得到0、1、2三种数据,其中,0表示此处样品与标品均“不存在峰”、1表示此处样品与标品间“存在差异峰”、2表示此处样品与标品“存在共有峰”,将三种数据分别对应白色、黄色、橙色,图中可明显看出不同数据的区别。此步骤可快速发现不同样品间的差异峰及共有峰并进行定位,但无法区分峰的增加及峰的减少;
[0088]
(7.2):相减对比。分析差异峰中的峰增多及峰缺少,将样品指纹矩阵数据减去标
品数据,如图11所示,由原本只有0、1两种数据得到-1、0、1三种数据,其中,-1表示此处样品相对于标品“峰缺少”、0表示此处样品与标品“不存在峰或存在共有峰”、1表示此处样品相对于标品“峰增多”,将三种数据分别对应绿色、白色、黄色,图中可明显看出不同数据的区别。
[0089]
如图12所示,橙色为共有峰,黄色为差异峰,点击可对区域进行放大处理,可选取想要查看的波长及保留时间,点击查看色谱图对比,相减得到指纹图谱如图13所示,绿色为峰缺少,橙色为峰增加,点击可对区域进行放大处理,可选取想要查看的波长及保留时间由此可识别两个样品之间的峰差异。
[0090]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献