一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于近红外光谱技术分析物质浓度的方法及系统

2022-06-11 17:59:16 来源:中国专利 TAG:


1.本发明涉及近红外光谱识别技术领域,尤其涉及一种基于近红外光谱技术分析物质浓度的方法及系统。


背景技术:

2.近红外光谱技术是一种简单、快速、可靠的检测技术。它综合运用了光谱技术、计算机技术、模式识别等多个学科的研究成果,以其独特的优势在多个领域得到了日益广泛的应用,并已逐渐得到大众的普遍接受和官方的认可。
3.近红外光谱分析是一种间接的分析方法,往往需要构造反映近红外光谱数据和待分析样本属性关系的回归模型。其中,偏最小二乘(pls)回归模型是最最常用的多元回归模型。pls不仅能对光谱矩阵进行处理,还能对浓度矩阵进行同样的处理,因此能够消除光谱矩阵以及浓度矩阵里的噪声信息,取得较好的预测效果。其计算过程为,对光谱矩阵以及浓度矩阵进行分解,通过交互校验法确定其最佳主成分数,最后建立光谱矩阵与浓度矩阵的数学模型关系。
4.随着采集的数据增多或者异常样本的混入,会导致校正集种的数据中的分布估计不同于验证集中的数据。从而导致验证集的模型不够适合于校正集的数据,使得预测精度不够理想。这里,将校正集的近光谱数据称为源域数据,验证集的近光谱数据称为目标域数据。利用子采样和影响函数,可以从校正集中选出一个和验证集的分布最为接近的子集。然后,用这个子集进行建模得到适合于验证集的模型。影响函数在评估样本的影响力十分的方便,快速,不需要重复建模。在子集上建模得到的新模型能够明显提高预测性能。
5.因此,研究一种基于影响函数和pls的子采样建模方法对于近红外光谱分析技术的成功应用有着重要意义。尤其是,基于近红外光谱技术分析物质浓度时,通过解决传统pls建模中分布漂移的问题,使得分析结果更加准确。


技术实现要素:

6.本发明实施例所要解决的技术问题在于,提供一种基于近红外光谱技术分析物质浓度的方法及系统,通过解决传统pls建模中分布漂移的问题,使得分析结果更加准确。
7.为了解决上述技术问题,本发明实施例提供了一种基于近红外光谱技术分析物质浓度的方法,包括以下步骤:
8.在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
9.对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
10.构造基于pls的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
11.基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域
已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
12.根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建pls回归模型的最优模型参数,并根据所得到的最优模型参数,构建 pls回归模型;
13.获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述pls回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
14.其中,所述对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理的步骤,具体为:
15.将所述原始域已知样本的光谱矩阵和所述目标域已知样本的光谱矩阵分别减去各自的行向量均值。
16.其中,所述基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力的具体步骤包括:
17.确定预处理后的原始域已知样本的光谱矩阵xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵x
t
,目标域已知样本的浓度向量矩阵y
t

18.通过公式计算原始域已知样本zi对回归系数θ的影响
19.通过公式计算原始域已知样本zi对目标域已知样本z的损失影响
20.通过公式计算原始域已知样本zi对目标域已知样本数据集中所有样本的损失影响φi。
21.其中,所述根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建pls回归模型的最优模型参数的步骤,具体为:
22.对于给定的原始域已知样本zi,从训练集中筛选出影响最负面的100*α的样本,增加α直到rmsev曲线收敛;其中,所述原始域已知样本zi的权值表示为threshold
α
表示阈值;oi=0表示需要移除的样本;α∈(0,1);rmsev表示在目标域上的均方根误差,且
23.给定潜在变量数量a∈[1,maxlv],分别对每一个a建立相应的模型,并找出对应最小rmsev时的α值,且进一步将对应最小rmsev时的α和a为pls 回归模型的最优模型参数输出;其中,maxlv表示最大的潜在变量的数目。
[0024]
本发明实施例还提供了一种基于近红外光谱技术分析物质浓度的系统,包括:
[0025]
已知样本光谱获取单元,用于在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
[0026]
已知样本光谱矩阵处理单元,用于对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
[0027]
海赛矩阵构建单元,用于构造基于pls的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
[0028]
不利数据去除单元,用于基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
[0029]
模型参数最优查找单元,用于根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建pls回归模型的最优模型参数,并根据所得到的最优模型参数,构建pls回归模型;
[0030]
浓度预测单元,用于获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述pls回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
[0031]
其中,所述不利数据去除单元包括:
[0032]
数据确定模块,用于确定预处理后的原始域已知样本的光谱矩阵xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵x
t
,目标域已知样本的浓度向量矩阵y
t

[0033]
第一计算模块,用于通过公式计算原始域已知样本zi对回归系数θ的影响
[0034]
第二计算模块,用于通过公式计算原始域已知样本zi对目标域已知样本z的损失影响
[0035]
第三计算模块,用于通过公式计算原始域已知样本zi对目标域已知样本数据集中所有样本的损失影响φi。
[0036]
实施本发明实施例,具有如下有益效果:
[0037]
1、本发明针对近红外光皮分析中的校正集和验证集两者分布不一致的情况,提出了一种基于影响函数和pls的子采样建模方法,通过解决传统pls建模中分布漂移的问题,使得分析结果更加准确;
[0038]
2、相对于传统的pls算法,本发明利用原始域已知样本对目标域已知样本的影响情况进行子采样,去除原始域中不利于目标域的部分数据,从而达到建模优化的作用。
附图说明
[0039]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,根据这些附图获得其他的附图仍属于本发明的范畴。
[0040]
图1为本发明实施例提供的一种基于近红外光谱技术分析物质浓度的方法的流程图;
[0041]
图2为本发明实施例提供的一种基于近红外光谱技术分析物质浓度的系统的结构示意图。
具体实施方式
[0042]
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
[0043]
如图1所示,为本发明实施例中,提出的一种基于近红外光谱技术分析物质浓度的方法,包括以下步骤:
[0044]
步骤s1、在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
[0045]
步骤s2、对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
[0046]
步骤s3、构造基于pls的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
[0047]
步骤s4、基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
[0048]
步骤s5、根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建pls回归模型的最优模型参数,并根据所得到的最优模型参数,构建pls回归模型;
[0049]
步骤s6、获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述pls回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
[0050]
具体过程为,在步骤s1中,准备原始域已知样本的近红外光谱数据 {x
si
,y
si
|i=1,2,

,ns},其中,x
si
,y
si
表示第i个原始域已知样本的光谱数据和属性 (如浓度),ns代表原始域已知样本的样品数量;
[0051]
准备目标域已知样本的近红外光谱数据{x
ti
,y
ti
|i=1,2,...,nt};其中,x
ti
,y
ti
表示该数据集的第i个目标域已知样本的光谱数据和属性(如浓度),nt代表目标域已知样本的样品数量;
[0052]
基于第i个原始域已知样本的光谱数据x
si
,构建原始域已知样本的光谱矩阵 x1;基于第i个原始域已知样本的浓度y
si
,构建原始域已知样本的浓度向量矩阵 y1;以及,基于第i个目标域已知样本的光谱数据x
ti
,构建目标域已知样本的光谱矩阵x2;基于第i个目标
域已知样本的浓度y
ti
,构建目标域已知样本的浓度向量矩阵y2。
[0053]
在步骤s2中,对原始域已知样本及目标域已知样本的光谱矩阵进行中心化处理,即将原始域已知样本的光谱矩阵x1和目标域已知样本的光谱矩阵x2分别减去各自的行向量均值。
[0054]
在步骤s3中,由于pls可以被看做基于潜在空间的最小二乘法,其模型被表示为y=tθ。根据这个模型,可以计算原始域已知样本的光谱数据的海赛矩阵 (hessian)为h
θ
=ts(t
st
ts)-1
t
st
,这里ts表示原始域数据的得分矩阵;
[0055]
第i个样本的损失函数表示为l(zi,θ)=(y
i-t
it
θ)2,zi=(ti,yi),则其对应的下降梯度为

l(zi,θ)i=-(y
i-t
it
θ)ti。
[0056]
在步骤s4中,确定预处理后的原始域已知样本的光谱矩阵xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵x
t
,目标域已知样本的浓度向量矩阵y
t

[0057]
通过公式计算原始域已知样本zi对回归系数θ的影响实际上是各样本在回归系数估计上的牛顿梯度下降方向;
[0058]
通过公式计算原始域已知样本zi对目标域已知样本z的损失影响可以看出,两个样本的梯度下降方向决定了两个样本之间的影响关系;
[0059]
通过公式计算原始域已知样本zi对目标域已知样本数据集中所有样本的损失影响φi。
[0060]
在步骤s5中,首先,对于给定的原始域已知样本zi,从训练集中筛选出影响最负面的100*α的样本,增加α直到rmsev曲线收敛;其中,所述原始域已知样本zi的权值表示为threshold
α
表示阈值;oi=0表示需要移除的样本;α∈(0,1);rmsev表示在目标域上的均方根误差,且
[0061]
给定潜在变量数量a∈[1,maxlv],分别对每一个a建立相应的模型,并找出对应最小rmsev时的α值,且进一步将对应最小rmsev时的α和a为pls 回归模型的最优模型参数输出;其中,maxlv表示最大的潜在变量的数目。
[0062]
其次,根据所得到的最优模型参数,即对应最小rmsev时的α和a,构建 pls回归模型。
[0063]
在步骤s6中,首先,获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵;其次,将目标域未知样本的光谱矩阵导入pls 回归模型进行分析,得到目标域未知样本的浓度向量矩阵,以实现目标域未知样本的浓度预测。
[0064]
在一个实施例中,步骤一、采集的原始域已知样本的近红外光谱数据,包含10个样
本,包含3个波段。其中,样本1-5和6-10分别服从不同分布。
[0065]
光谱矩阵为浓度向量矩阵为
[0066]
采集的目标域已知样本的近红外光谱数据,包含5个样本,3个波段。其中,光谱矩阵为浓度向量矩阵为
[0067]
这里,目标域的光谱数据与原始域的光谱数据中的6-10号样本比较接近。
[0068]
步骤二、对原始域已知样本和目标域已知样本的光谱矩阵进行中心化,即将x1和x2的每一行减去各自的行向量均值,得到中心化的矩阵,具体如下:
[0069][0070][0071]
步骤三、构造基于pls的海赛矩阵和各样本的下降梯度
[0072]
[0073][0074]
步骤四、计算原始域已知样本对目标域已知样本的影响力,得到
[0075][0076]
步骤五、根据影响力φ,进行样本采样。
[0077]
例如,取α=0.5,筛选出6,7,8,9,10样本建立模型
[0078][0079]
步骤六、设置参数a,α取值范围,分别为[1,2,3],[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]
[0080]
通过参数搜索得到最佳的参数,得到回归系数并进一步构建相应的pls模型,得到
[0081]
其中,x
*
是目标域的未知样本,也就是光谱数据,y
*
是其属性值的预测结果,也就是前面所说的浓度向量。
[0082]
测量浓度值本身需要依赖实验室中的一些化学方法,比较耗时且成本较高。这里通过基于近红外光谱的建模技术可以快速无损的方式得到待测物质的浓度值。从步骤五中可以看到,该算法有效地从原始域中提取出与目标域匹配的光谱数据,解决了原始域的数据分布和目标域的数据分布不同的问题。因此,相对于基于原始域的全部数据模型,这种方法所建立的模型使用了更少的样本数量,在精度上却得到显著的提升。
[0083]
如图2所示,为本发明实施例中,提供的一种基于近红外光谱技术分析物质浓度的系统,包括:
[0084]
已知样本光谱获取单元110,用于在采用近红外光谱分析待测物质时,确定待测物质的原始域已知样本及目标域已知样本的近红外光谱数据,并根据所述原始域已知样本及所述目标域已知样本的近红外光谱数据,构建出所述原始域已知样本的光谱矩阵和浓度向量矩阵,以及所述目标域已知样本的光谱矩阵和浓度向量矩阵;
[0085]
已知样本光谱矩阵处理单元120,用于对所述原始域已知样本及所述目标域已知样本的光谱矩阵均进行预处理;
[0086]
海赛矩阵构建单元130,用于构造基于pls的海赛矩阵以及所述海赛矩阵中各样本的下降梯度;
[0087]
不利数据去除单元140,用于基于所述海赛矩阵及对应的下降梯度,并结合所述原始域已知样本及所述目标域已知样本进行预处理后的光谱矩阵,以及所述原始域已知样本及所述目标域已知样本的浓度向量矩阵,计算出所述原始域已知样本对所述目标域已知样本的影响力;
[0088]
模型参数最优查找单元150,用于根据所述影响力,对所述原始域已知样本的光谱数据进行子采样,以得到用于构建pls回归模型的最优模型参数,并根据所得到的最优模型参数,构建pls回归模型;
[0089]
浓度预测单元160,用于获取待测物质中目标域未知样本的光谱数据,以构建所述目标域未知样本的光谱矩阵,并将所述目标域未知样本的光谱矩阵导入所述pls回归模型进行分析,得到所述目标域未知样本的浓度向量矩阵,以实现所述目标域未知样本的浓度预测。
[0090]
其中,所述不利数据去除单元140包括:
[0091]
数据确定模块,用于确定预处理后的原始域已知样本的光谱矩阵xs,原始域已知样本的浓度向量矩阵ys,预处理后的目标域已知样本的光谱矩阵x
t
,目标域已知样本的浓度向量矩阵y
t

[0092]
第一计算模块,用于通过公式计算原始域已知样本zi对回归系数θ的影响
[0093]
第二计算模块,用于通过公式计算原始域已知样本zi对目标域已知样本z的损失影响
[0094]
第三计算模块,用于通过公式计算原始域已知样本zi对目标域已知样本数据集中所有样本的损失影响φi。
[0095]
实施本发明实施例,具有如下有益效果:
[0096]
1、本发明针对近红外光皮分析中的校正集和验证集两者分布不一致的情况,提出了一种基于影响函数和pls的子采样建模方法,通过解决传统pls建模中分布漂移的问题,使得分析结果更加准确;
[0097]
2、相对于传统的pls算法,本发明利用原始域已知样本对目标域已知样本的影响情况进行子采样,去除原始域中不利于目标域的部分数据,从而达到建模优化的作用。
[0098]
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
[0099]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如rom/ram、磁盘、光盘等。
[0100]
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献