一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种近红外光谱定量分析的自动建模方法与流程

2021-11-05 21:01:00 来源:中国专利 TAG:


1.本发明属于分析化学领域的化学计量学建模技术,尤其是涉及一种近红外光谱定量分析的自动建模方法。


背景技术:

2.近年来,近红外光谱技术因其绿色、快速、高效、适合在线分析等特点收到农业、石油、饲料、食品、烟草、医药等行业的重视,并已成功应用于这些行业的品质分析和质量控制中。
3.近红外光谱定量分析建模采用多元校正技术,包括多元线性回归(mlr)、主成分回归(pcr)、偏最小二乘回归(pls)、人工神经网络(ann)、支持向量回归(svr)等方法。传统的多元校正技术通常采用一次性建模策略,即利用一定的训练集建立一系列回归模型,并采用交叉验证或其他评价方法从中选择预测效果最好的一个模型,继而将该模型用于预测未知样本。其中 pls作为一种经典的线性校正技术,目前应用最为广泛。
4.常见的基于pls回归方法的建模过程包含四个要素:样本、隐变量数、光谱预处理方法、波长变量筛选。
5.样本包含光谱与参考值两个概念,又可以细化为光谱质量、代表性样本选择、参考值准确性以及由此衍生的奇异样本识别。多元校正中校正集的数量并非越多越好,其代表性才是优先考虑的。构建稳定的化学模型主要取决于训练集数据样本,如果训练集数据中包括一些远离数据主体的奇异样本,它们将会破坏整个数据结构,从而影响模型的建立以及预测。因此,奇异样本诊断也是稳定化学建模的一个关键步骤。
6.对于pls回归来说,隐变量数目太小,模型发生欠拟合,此时模型的偏差偏大;反之,如果模型中的隐变量过多,即模型过于复杂,将发生过拟合,虽然模型拟合的很好,但是预测误差将变大。为了找到一个平衡点,模型验证显得尤为重要。在pls模型的建立过程中,合适的隐变量数对模型的预测性能至关重要。
7.近红外光谱分析是从复杂的背景中提取弱信息,近红外光谱仪所采集到的光谱除样本的自身信息外,往往还包含了一些与待测样本性质无关的因素带来的干扰,如样本的状态、光的散射、电噪声和杂散光等,这些干扰数据都会导致近红外光谱的基线漂移和光谱的不重复。
8.近红外光谱反映的是分子基频振动的倍频与合频吸收,光谱信息复杂、谱峰较宽且重叠严重,采用合适的波长变量筛选方法可以简化模型,剔除不相关或非线性变量,从而得到预测能力更强、更稳健的校正模型。然而,变量选择是一个np问题,随着变量个数的增加,变量空间成指数增大,找到一个最佳变量组合非常具有挑战性。
9.对于复杂的分析体系,当近红外光谱建模样本数量较少时,对于这些样本建模,往往只是对实际问题的总体采样而得到的部分样本,所收集的样本不足以表达总体信息,很容易导致所得模型过拟合或不准确。集成学习能有效提高模型的泛化能力,然而要获得好的集成,成员模型应好而不同,即成员模型既要有一定准确性,并且要有多样性。对于同质
集成来说,增强成员模型多样性的方法一般是在学习过程中引入随机性,常见做法主要是对数据样本、输入属性、输出表示、算法参数进行扰动。
10.目前,近红外光谱领域流行的建模软件均需要使用者具备一定的化学计量学知识,需要使用者针对上述4个因素及相互之间的组合进行各种调整及优化,整个建模过程费时费力,建立一个可靠、稳健、高质量的模型并不容易。尽管已有部分化学计量学软件加入了参数优化的选项,能降低使用者的劳动强度,但是用户还是会面对纷繁复杂的参数选择、异常样本剔除等问题,这些问题在一定程度上阻碍了近红外光谱分析技术的普及和推广。


技术实现要素:

11.为解决上述技术问题,本发明提供一种分析化学领域的化学计量学建模技术,尤其是涉及一种近红外光谱定量分析的自动建模方法。
12.本发明采用的技术方案是:一种近红外光谱定量分析的自动建模方法,其特征在于包括步骤:
13.样本光谱采集及参考值测定与模型集群分析;
14.样本分类、光谱预处理及波长优选;
15.建立定量子模型,确定子模型最佳因子数;
16.建立模型并添加至一级备选模型,选择所述一级备选模型中最优选添加至二级备选模型,对所述二级备选模型中优选模型集成为最终预测模型;预测未知样本并计算出最终测试结果。
17.优选地,其特征在于:所述模型集群分析剔除了极端异常样本,得到cleandata。
18.优选地,所述样本分类采用bootstrap或montecarlo算法将其划分成多组训练子集和验证子集。
19.优选地,所述光谱预处理采用光谱预处理算法及其相互之间的组合。
20.优选地,采用bipls、uve、mcuve、cars、randomfrog等波长变量筛选算法及其之间相互组合应用于所述波长优选。
21.优选地,采用偏最小二回归法作为基础多元校正算法。
22.优选地,采用验证集验证方法确定子模型最佳因子数,所述验证集验证方法计算各因子数对应的预测残差平方和(press,记为p
i
),找到其中最小的 press(记为p
min
),计算各因子数对应的p
i
/p
min
(记为fvalue
i
),通过f检验计算f概率,找到第一个小于0.75的f概率,对应的因子数即为最佳。
23.优选地,分别针对各个训练子集、波长组合、预处理方法建立的子模型,将与最佳因子数紧邻的若干不同因子数对应的子模型添加到所述一级备选模型库。
24.优选地,所述一级备选模型库根据rmsrp从小到大排序,选择最佳的若干子模型添加至所述二级备选模型库;所述二级备选模型库根据rmsrp从小到大排序,选择最佳的若干模型进行集成,建立最终预测模型。
25.优选地,所述光谱预处理算法选择平滑、求导、多元散射校正、矢量归一化、标准正态变量变换、均值中心化、标准化等及其相互之间的组合。
26.本发明具有的优点和积极效果是:
27.针对传统建模方法及建模软件参数多、对使用者要求高等不足,提出一种近红外
光谱定量分析的基于集成学习策略的自动建模方法,利用模型集群分析剔除极端异常样本,采用bootstrap或montecarlo抽样算法将其划分成多组训练子集和验证子集,使用不同光谱预处理方法,采用波长变量筛选方法来优选波长,将不同因子数的子模型作为备选模型。针对训练样本、预处理方法、波长变量、因子数等四个方面对子模型加以扰动,得到若干子模型,按照rmsep从小到大排序,选择最佳的若干子模型进行集成,对各个模型的结果进行简单平均得到最终预测结果。
28.采用四集成建模方法,无需使用者具备化学计量学知识背景,无任何参数项,入手方便简单;预测模型数据准确,适合各类复杂样本的定量分析。
附图说明
29.图1是本发明的流程示意图;图2是本发明的实验预测头孢拉定含量的数据图;图3是本发明的实验预测盐碱含量的数据图。
具体实施方式
30.下面结合附图对本发明的实施例做出说明。
31.如图1所示,为实现本发明所提供的的技术方案包括以下步骤:
32.1、收集一定数目的被测样本,采集样本的近红外光谱,采用常规方法测定其组成成分或性质的参考值;
33.2、采用偏最小二乘回归法作为基础多元校正算法;
34.3、利用模型集群分析剔除极端异常样本,得到cleandata;
35.4、根据样本数量的不同,采用bootstrap或montecarlo抽样算法将其划分成多组训练子集和验证子集;
36.5、针对每一组训练子集和验证子集,逐一使用不同的光谱预处理算法对光谱进行预处理;
37.6、采用bipls、uve、mcuve、cars、randomfrog等波长变量筛选算法对波长进行优选;
38.7、采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
39.8、采用验证集验证方法确定子模型最佳因子数;
40.9、分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的j个因子数对应的子模型添加到一级备选模型库;
41.10、将前述一级备选模型根据rmsep从小到大排序,选择最佳的p个模型添加到二级备选模型库;
[0042][0043]
m为样本数,为第i个样本的预测值,y
i
为第i个样本的参考值。
[0044]
11、将前述二级备选模型rmsep从小到大排序,选择最佳的k个模型进行集成,得到最终的预测模型;
[0045]
12、预测未知样本时,对k个模型的预测结果进行简单平均得到最终预测结果。
[0046]
结合附图对本发明实施例进行说明,实施例1:
[0047]
本实施例是应用近红外光谱数据分析,对头孢拉定颗粒中的头孢拉定含量进行快速测定。该数据集包含96个样本,采用徐彤抽样方法选择70%作为训练集(68个),剩余30%作为测试集(28个)。具体步骤如下:
[0048]
s1:采用模型集群分析,剔除极端的异常样本,其序号分别为:64、93.
[0049]
s2:采用bootstrap抽样方法,将前述剔除异常样本后的训练集划分成 200组对应的训练子集和验证子集。
[0050]
s3:分别采用均值中心化、一阶 均值中心化、多元散射校正 均值中心化、矢量归一化 均值中心化、标准正态变量变换 均值中心化、消除常数偏移量 均值中心化、减去一条直线 均值中心化、去趋势 均值中心化、最大最小归一化 均值中心化、标准正态变量变换 去趋势 均值中心化、一阶导 多元散射校正 均值中心化、一阶导 标准正态变量变换 均值中心化、一阶导 减去一条直线 均值中心化、一阶导 矢量归一化 均值中心化等方法对光谱进行预处理。
[0051]
s4:采用bipls算法对波长进行优选;采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
[0052]
s5:采用验证集验证方法确定子模型最佳因子数;分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的 5个不同因子数对应的子模型添加到一级备选模型库;
[0053]
s6:将前述一级备选模型根据rmsep从小到大排序,选择最佳的50个模型添加到二级备选模型库;
[0054]
s7:将前述二级备选模型rmsep从小到大排序,选择最佳的100个模型进行集成,得到最终的预测模型;
[0055]
s8:预测前述28个测试样本,对100个模型的预测结果进行简单平均得到最终预测结果。
[0056]
本实施例预测结果的r2为0.99164,rmsep为0.25099。
[0057]
作为比较,我们采用常规pls建模方法,运用不同的光谱预处理方法,选择竞争自适应重加权采样(cars)作为光谱波长变量筛选方法,针对训练集建立对应模型,采用十折交叉验证确定最佳因子数,同时手动剔除明显异常的样本,使用该模型预测上述测试集,得到的预测结果如图2所示。
[0058]
实施例2:
[0059]
本实施例是应用近红外光谱数据分析,对烟草粉末中的烟碱含量进行快速测定。该数据集包含1000个样本,采用ks抽样方法选择80%作为训练集 (800个),剩余20%作为测试集(200个)。具体步骤如下:
[0060]
s1:采用模型集群分析,剔除极端的异常样本,其序号分别为:175、 202、250、252、543、614、718、748、816。
[0061]
s2:采用montecarlo抽样方法,将前述剔除异常样本后的训练集划分成100组对应
的训练子集和验证子集。
[0062]
s3:分别采用均值中心化、一阶 均值中心化、多元散射校正 均值中心化、矢量归一化 均值中心化、标准正态变量变换 均值中心化、消除常数偏移量 均值中心化、减去一条直线 均值中心化、去趋势 均值中心化、最大最小归一化 均值中心化、标准正态变量变换 去趋势 均值中心化、一阶导 多元散射校正 均值中心化、一阶导 标准正态变量变换 均值中心化、一阶导 减去一条直线 均值中心化、一阶导 矢量归一化 均值中心化等方法对光谱进行预处理。
[0063]
s4:采用bipls算法对波长进行优选;采用优选过程中不同的波长组合,偏最小二乘因子数从0~30分别建立定量子模型;
[0064]
s5:采用验证集验证方法确定子模型最佳因子数;分别针对各个训练子集、各种波长组合、各种预处理方法建立的子模型,将与最佳因子数紧邻的 3个不同因子数对应的子模型添加到一级备选模型库;
[0065]
s6:将前述一级备选模型根据rmsep从小到大排序,选择最佳的30个模型添加到二级备选模型库;
[0066]
s7:将前述二级备选模型rmsep从小到大排序,选择最佳的50个模型进行集成,得到最终的预测模型;
[0067]
s8:预测前述200个测试样本,对50个模型的预测结果进行简单平均得到最终预测结果。
[0068]
本实施例预测结果的r2为0.99288,rmsep为0.08793。
[0069]
作为比较,我们采用常规pls建模方法,运用不同的光谱预处理方法,选择后向区间偏最小二乘法(bipls)作为光谱波长变量筛选方法,针对训练集建立对应模型,采用十折交叉验证确定最佳因子数,同时手动剔除明显异常的样本,使用该模型预测上述测试集,得到的预测结果如图3所示。
[0070]
通过本发明的两个实施例,可以看出该方法对较小的样本集和较大的样本集均能取得很好的效果,该方法的r2和rmsep均优于单个模型的结果。更重要的是,本方法无需使用者调整或优化任何参数,可以非常简便地应用于windowsapp;基于c/s架构或b/s架构的云端自动建模;也可以嵌入近红外大数据平台系统,系统基于一定规则定时自动更新模型。
[0071]
基于windowsapp的自动建模:将建模软件部署到用户pc机中,用户只需完成光谱数据和参考值数据的导入,然后通过一键式操作即可完成模型的建立。
[0072]
基于c/s架构的云端自动建模:客户机通过局域网与服务器相连,接受用户的请求,并通过网络向服务器提出请求。使用此开发方式,能充分发挥客户端pc的处理能力,很多工作可以在客户端处理后再提交给服务器,将近红外光谱定量分析的处理提升了一个高度。
[0073]
基于b/s架构的云端自动建模:与操作系统平台无关,任何时间、任何地点、任何系统,只要可以使用浏览器上网,就可以使用b/s系统的终端,更多的系统用户加入时只需设立账号、培训即可,并支持移动办公和分布式办公。每一个web服务器可以通过各种方式与数据库服务器连接,大量的数据实际存放在数据库服务器中,云端自动建模可以通过在internet上对数据进行储存;在使用b/s架构的云端自动建模,可以不用安装任何专门的软件就能实现在任何地方进行操作,使近红外光谱的定量分析发展更为方便,无需具备化学
计量学知识的工作人员上手操作,成本低、维护方便、分布性强、开发简单、客户端零维护,系统的扩展非常容易。
[0074]
嵌入近红外大数据平台系统:充分利用现有近红外大数据平台及物联网技术的成果,对测量过参考值的被测样本进行标记并上传至大数据系统,建模系统基于样本数量、时间周期等规则定时自动更新模型。
[0075]
以上所描述的实施例仅仅是示意性的,其中所述基于c/s架构和b/s架构的云端自动建模,可根据实际的需要选择其中的部分或全部模块来实现本实施例方案的目的,本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以去除地了解到各实施方式可通过软件加必需的通用硬件平台的方式来实现。
[0076]
最后应说明的是:以上对本发明的实施例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献