一种化学指标检测模型的维护方法和装置与流程

2022-02-22 06:29:49 来源：中国专利 TAG：

1.本发明属于化学计量学领域，具体涉及一种化学指标检测模型的维护方法和装置。

背景技术：

2.在化学计量学领域，通常使用光谱分析技术，包括近红外光谱、中红外光谱、紫外可见光谱、拉曼光谱等，对待测物感兴趣物质的含量进行建模。一般而言，以待测物光谱为x，以分析化学方法测得待测物感兴趣物质的含量，通过偏最小二乘(partial least squares,pls)等算法建立光谱与物质含量间的关联，得到预测模型。对未知含量的同类待测物，通过测量其光谱，通过预测模型即可得出该样本感兴趣物质的含量。
3.由于该类方法通过建模和预测达到原分析方法的效果，属于一种二次方法。对于未知样本预测结果的优劣，必须通过额外的分析方法检测才能确定。如果发现模型预测结果与分析化学检测结果有背离，则补充一定数量的新样本，还可能同时剔除同等数量时间最久的建模样本，对模型进行更新。在实际中，分析化学检测的效率较低，往往需要几天的时间，因此会导致模型更新的滞后，甚至由于检测结果的不准确蒙受经济损失。
4.目前，仅有主成分分析(pca)等方法判断预测集光谱与训练集光谱是否一致，如不一致则认为预测集样本与建模集存在差异，无法预测，而如果通过pca测试，则尚无方法对其预测结果进行评价。
5.公开号为cn112309512a的专利申请公开了一种用于卷烟配方维护的片烟化学宜用性评价方法，包括步骤：采集片烟样品，对所述片烟样品的化学指标进行检测；确定现用片烟化学指标的置信区间；建立片烟化学宜用性函数模型；确定欲替换的片烟样品的化学指标的宜用性得分；确定所述化学指标的权重；确定所述欲替换的片烟样品的化学宜用性评价值，根据所述欲替换的片烟样品的化学宜用性评价值确定其选用及调配顺序。该方法记载的片烟化学宜用性函数模型的维护仍然需要补充一定数量的新样本，还可能同时剔除同等数量时间最久的建模样本，对模型进行更新，检测效率低。
6.公开号为cn110085286a的专利申请公开了一种基于两步核最小二乘的卷烟配方维护方法，，包括：s1：数据处理，将配方数据转换成二进制配方矩阵，将单料烟组转换成二进制配方向量；s2：应用数据挖掘和tkrls相关方法确定模型参数λu和λv，再根据模型参数λu和λv计算模型系数矩阵m；s3：根据模型系数矩阵m计算单料烟的预测值；s4：根据单料烟的预测值获得推荐的替换单料烟列表s；s5：根据单料烟列表s选择替换单料烟。该方法记载的模型的维护仍然需要补充一定数量的新样本，还可能同时剔除同等数量时间最久的建模样本，对模型进行更新，检测效率低。

技术实现要素：

7.鉴于上述，本发明提供了一种化学指标检测模型的维护方法和装置，在利用模型进行化学指标检测的过程中，能够对模型预测效果进行判别，同时对模型进行维护，以提升
模型的检测准确性。
8.第一方面，实施例提供了一种化学指标检测模型的维护方法，包括以下步骤：
9.(1)利用近红外光谱仪采集多个样本的近红外光谱作为样本集，采用分析化学方法检测每个样品的每种化学指标的检测值；
10.(2)对样本集中每个近红外光谱进行预处理后，计算每个近红外光谱与样本集中其他近红外光谱的相似度，并记录每个近红外光谱的最大相似度值；
11.(3)采用偏最小二乘对单项化学指标进行建模，得到化学指标检测模型和每个样本的单项化学指标的预测值，将该预测值与检测值之差作为建模误差；
12.(4)以最大相似度值与建模误差组成的二元组对样本进行表征；
13.(5)针对单项化学指标，以前n大的最大相似度值的样本作为集合，按照最大相似度值递减的方式向集合中增加样本，并计算集合中样本的建模误差均值，比较建模误差均值与下一次拟新增样本的建模误差，若两者的差异大于差异阈值，则停止向集合新增样本，并记录集合中最大相似度的最低值为预警阈值；
14.(6)采集预测样本的近红外光谱预处理后，计算预测样本的近红外光谱与样本集中其他近红外光谱的最大相似度，若该最大相似度大于等于预警阈值，则利用步骤(3)建立的化学指标检测模型进行化学指标预测，若最大相似度小于预警阈值，则给出预警，将预测样本的化学指标的检测值补充到样本集，用于维护化学指标检测模型。
15.在一个实施例中，所述对样本集中每个近红外光谱进行预处理，包括：
16.对近红外光谱进行一阶导处理，然后将一阶导处理后的近红外光谱平均分段得到多个谱段，对每个谱段内的波数点进行校正。
17.在一个实施例中，所述对每个谱段内的波数点进行校正，包括：
18.针对每个谱段，计算每个谱段内所有波数点的均值mean(x)和标准差std(x)，然后利用均值mean(x)和标准差std(x)按照以下公式进行校正：
[0019][0020]
其中，xi表示谱段内第i个波数点的原始值，表示谱段内第i个波数点的校正值。
[0021]
在一个实施例中，采用以下公式计算近红外光谱与样本集中其他近红外光谱的相似度：
[0022]
s＝-log
10
((1-p)*d)
[0023]
其中，s表示相似度，p表示皮尔逊相关系数，计算公式为p＝corr(y0,yj)，y0表示目标谱，yj表示第j个近红外光谱，d表示目标谱y0与近红外光谱yj之间的欧式距离。
[0024]
在一个实施例中，采用偏最小二乘对单项化学指标进行建模时，以近红外光谱为自变量，以单项化学指标为因变量，进行建模，拟合近红外光谱与单项化学指标之间的拟合参数，利用拟合得到的拟合参数预测每个样本的单项化学指标的预测值。
[0025]
在一个实施例中，步骤(3)中，采用偏最小二乘对单项化学指标进行建模时，采用5折交叉验证，根据交叉验证误差选定模型的潜变量数。
[0026]
在一个实施例中，步骤(5)中，以前n大的最大相似度值的样本作为集合时，n的取值范围为5-10。
[0027]
在一个实施例中，步骤(5)中，差异阈值的计算方法为：t＝mean(c) k*std(c)，其中，c为集合中样本的建模误差的绝对值，mean代表求平均，std代表求标准差，k为大于0的实数，优选设置为2或3。
[0028]
第二方面，实施例提供了一种化学指标检测模型的维护装置，包括：
[0029]
采集模块，用于利用近红外光谱仪采集多个样本的近红外光谱作为样本集，采用分析化学方法检测每个样品的每种化学指标的检测值；
[0030]
相似度计算模块，用于对样本集中每个近红外光谱进行预处理后，计算每个近红外光谱与样本集中其他近红外光谱的相似度，并记录每个近红外光谱的最大相似度值；
[0031]
建模模块，用于采用偏最小二乘对单项化学指标进行建模，得到化学指标检测模型和每个样本的单项化学指标的预测值，将该预测值与检测值之差作为建模误差；
[0032]
表征模块，用于以最大相似度值与建模误差组成的二元组对样本进行表征；
[0033]
预警阈值确定模块，用于针对单项化学指标，以前n大的最大相似度值的样本作为集合，按照最大相似度值递减的方式向集合中增加样本，并计算集合中样本的建模误差均值，比较建模误差均值与下一次拟新增样本的建模误差，若两者的差异大于差异阈值，则停止向集合新增样本，并记录集合中最大相似度的最低值为预警阈值；
[0034]
维护模块，用于采集预测样本的近红外光谱预处理后，计算预测样本的近红外光谱与样本集中其他近红外光谱的最大相似度，若该最大相似度大于等于预警阈值，则利用建立的化学指标检测模型进行化学指标预测，若最大相似度小于预警阈值，则给出预警，将预测样本的化学指标的检测值补充到样本集，用于维护化学指标检测模型。
[0035]
实施例提供的技术方案，具有的有益效果至少包括：
[0036]
通过计算两个样本的近红外光谱的最大相似度，来筛选最邻近相似度，然后计算最近邻样本相似度与预测误差的相关关系，通过该相关关系给出接近度的预警阈值，对任一新样本，其光谱与建模集各样本光谱进行相似度度量，若最相似样本的相似程度小于预警阈值，则对该样本报警，说明其预测结果存在风险，并在相应的分析化学检测值出具后，将该样本补充到建模集中，完成模型维护，这样能够时刻进行模型的维护，以提升模型的检测准确性。
附图说明
[0037]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。
[0038]
图1是一实施例提供的化学指标检测模型的维护方法的流程图；
[0039]
图2是一实施例提供的采集的近红外光谱；
[0040]
图3是一实施例提供的训练集各样本与其最近邻样本的相似度值及分布；
[0041]
图4是一实施例提供的使用偏最小二乘法对训练数据进行建模示意图；
[0042]
图5是一实施例提供的训练集样本相似度分布及其对应的建模误差；
[0043]
图6是一实施例提供的训练集主成分分析及验证集投影图；
[0044]
图7是一实施例提供的两批验证集最近邻样本相似度值。
具体实施方式
[0045]
为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。
[0046]
图1是一实施例提供的化学指标检测模型的维护方法的流程图。如图1所示，实施例提供的化学指标检测模型的维护方法，包括以下步骤：
[0047]
步骤1，利用近红外光谱仪采集多个样本的近红外光谱作为样本集，采用分析化学方法检测每个样品的每种化学指标的检测值。
[0048]
实施例中，选取某企业烤烟样本515个。取样后将样本按照烟草行业标准《yc/t 31-1996烟草及烟草制品试样的制备和水分测定烘箱法》制备成粉末样本(将烟叶置于烘箱中，40℃下干燥4h，用旋风磨(foss)磨碎过40目筛)，密封平衡1天后进行近红外光谱测量。同时利用行标法测得待测样品化学指标淀粉的含量。图2给出了采集的近红外光谱图。
[0049]
步骤2，对样本集中每个近红外光谱进行预处理。
[0050]
实施例中，对近红外光谱进行预处理包括1阶求导和数值校正处理。在进行近红外光谱的1阶导处理时，参数为窗宽15，多项式阶数2。在对1阶求导处理后的近红外光谱进行数值校正时，为了提升校正的准确性，采用分段校正的方式，即将近红外光谱平均分段得到多个谱段，每个谱段含有m个波数点，m的取值范围为40-60，然后对每个谱段内的波数点进行谱段内校正，过程为：针对每个谱段，计算每个谱段内所有波数点的均值mean(x)和标准差std(x)，然后利用均值mean(x)和标准差std(x)按照以下公式进行校正：
[0051][0052]
其中，xi表示谱段内第i个波数点的原始值，表示谱段内第i个波数点的校正值。
[0053]
步骤3，计算每个近红外光谱与样本集中其他近红外光谱的相似度，并记录每个近红外光谱的最大相似度值。
[0054]
针对预处理后的近红外光谱进行相似度计算，具体过程为：采用以下公式计算每个近红外光谱与样本集中其他近红外光谱的相似度：
[0055]
s＝-log
10
((1-p)*d)
[0056]
其中，s表示相似度，p表示皮尔逊相关系数，计算公式为p＝corr(y0,yj)，y0表示目标谱，yj表示第j个近红外光谱，d表示近红外光谱y0与近红外光谱yj之间的欧式距离。
[0057]
在获得每个近红外光谱与样本集中所有其他近红外光谱的相似度后，为每个近红外光谱对应的进行相似度排序，以用于后续相似度的筛选。。图3给出训练集样本与其最近邻样本的相似度值的分布。
[0058]
步骤4，采用偏最小二乘对单项化学指标进行建模，得到化学指标检测模型和每个样本的单项化学指标的预测值，将该预测值与检测值之差作为建模误差。
[0059]
采用偏最小二乘对单项化学指标进行建模时，以近红外光谱为自变量，以单项化学指标为因变量，进行建模，拟合近红外光谱与单项化学指标之间的拟合参数，利用拟合得到的拟合参数预测每个样本的单项化学指标的预测值，如图4所示。模型参数见表1，其中，rmsec表示建模集根均方误差，rmsecv表示交叉验证根均方误差。此处选用的是5折交叉验
证。通过以下公式计算各训练样本的相对误差re：
[0060][0061]
其中，y为训练样本真实值，为偏最小二乘预测值，abs为绝对值函数。图5给出了训练集样本相似度分布及其对应的建模误差。从图5中可以看出，当相似度值低于5时，样本的预测误差急剧增大。而相似度值高于5时，平均相对误差小于10％。因此，将预警阈值定为5。
[0062]
表1偏最小二乘方法建模结果
[0063][0064]
步骤5，以最大相似度值与建模误差组成的二元组对样本进行表征，依据最大相似度值确定预警阈值。
[0065]
在确定预警阈值时，针对单项化学指标，以前n大的最大相似度值的样本作为集合，按照最大相似度值递减的方式向集合中增加样本，并计算集合中样本的建模误差均值，比较建模误差均值与下一次拟新增样本的建模误差，若两者的差异大于差异阈值，则停止向集合新增样本，并记录集合中最大相似度的最低值为预警阈值。其中，n的取值范围为5-10。
[0066]
实施例中，针对差异阈值，计算方式为：t＝mean(c) k*std(c)，其中，c为集合中样本的建模误差的绝对值，mean代表求平均，std代表求标准差，k为大于0的实数，设置为2或3。
[0067]
针对图5给出的训练集样本相似度分布及其对应的建模误差，通过步骤5根据最大相似度确定预警阈值为5。
[0068]
步骤6，预测样本的预测和化学指标检测模型的维护。
[0069]
针对预测样本，采集预测样本的近红外光谱预处理后，计算预测样本的近红外光谱与样本集中其他近红外光谱的最大相似度，若该最大相似度大于等于预警阈值，则利用步骤4建立的化学指标检测模型进行化学指标预测，若最大相似度小于预警阈值，则给出预警，将预测样本的化学指标的检测值补充到样本集，用于维护化学指标检测模型。
[0070]
具体地，采用两批数据对本方法进行验证。第一批数据为云南烤烟烟叶，共32个。第二批为巴西烤烟烟叶，共23个。使用主成分分析对训练数据进行分析，并将两个验证集进行投影，图6投影图显示，两批验证集光谱均包含在训练集样本范围内，属于正常光谱。
[0071]
分别计算两批验证数据在训练集中最近邻样本的相似度值。结果见图7。其中，验证集1中的样本与训练样本较为接近，相似度均值为5.63，标偏为0.42，较建模集数据相似度值略有下降；验证集2与训练样本差异较大，相似度均值为5.02，标偏为0.21。由表2中的预测结果，发现随最近邻相似度值的下降，预测误差增大。
[0072]
表2.验证集预测结果
[0073] 最近邻相似度均值平均绝对误差验证集均值验证集相对误差
验证集15.630.584.0915.8％验证集25.021.324.1932.8％
[0074]
从表1表2可以看出，训练集最近邻相似度均值为6.10，训练集建模的相对误差为9.5％，验证集1最近邻相似度均值为5.63，相对误差为15.8％，验证集2的最近邻相似度均值只有5.02，相对误差增大为32.8％。由于验证集2与训练集的最近邻相似度较低，因此无论预测结果是否理想，都应把验证集2中的样本增加到模型的维护中。
[0075]
将验证集2样本加入到训练集中进行模型维护。验证集2在新模型中的建模结果见表3。可以看出，该批样本可以很好的加入到建模集中，从而提高模型的稳定性。
[0076]
表3.模型维护后验证集2样本
[0077] 平均绝对误差验证集均值验证集相对误差验证集20.424.1910.9％
[0078]
实施例还提供了一种化学指标检测模型的维护装置，包括：
[0079]
采集模块，用于利用近红外光谱仪采集多个样本的近红外光谱作为样本集，采用分析化学方法检测每个样品的每种化学指标的检测值；
[0080]
相似度计算模块，用于对样本集中每个近红外光谱进行预处理后，计算每个近红外光谱与样本集中其他近红外光谱的相似度，并记录每个近红外光谱的最大相似度值；
[0081]
建模模块，用于采用偏最小二乘对单项化学指标进行建模，得到化学指标检测模型和每个样本的单项化学指标的预测值，将该预测值与检测值之差作为建模误差；
[0082]
表征模块，用于以最大相似度值与建模误差组成的二元组对样本进行表征；
[0083]
预警阈值确定模块，用于针对单项化学指标，以前n大的最大相似度值的样本作为集合，按照最大相似度值递减的方式向集合中增加样本，并计算集合中样本的建模误差均值，比较建模误差均值与下一次拟新增样本的建模误差，若两者的差异大于差异阈值，则停止向集合新增样本，并记录集合中最大相似度的最低值为预警阈值；
[0084]
维护模块，用于采集预测样本的近红外光谱预处理后，计算预测样本的近红外光谱与样本集中其他近红外光谱的最大相似度，若该最大相似度大于等于预警阈值，则利用建立的化学指标检测模型进行化学指标预测，若最大相似度小于预警阈值，则给出预警，将预测样本的化学指标的检测值补充到样本集，用于维护化学指标检测模型。
[0085]
需要说明的是，上述实施例提供的化学指标检测模型的维护装置在进行化学指标检测模型的维护时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的化学指标检测模型的维护装置与化学指标检测模型的维护方法实施例属于同一构思，其具体实现过程详见化学指标检测模型的维护方法实施例，这里不再赘述。
[0086]
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种便携可调式水文水资源勘测装置的制作方法

一种化学指标检测模型的维护方法和装置与流程

相关文献

最热文献