一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于光谱相似度和化学指标差异度的样本筛选及建模方法与流程

2022-02-22 06:21:55 来源:中国专利 TAG:

技术特征:
1.一种基于光谱相似度和化学指标差异度的样本筛选方法,包括以下步骤:获取多个样本,采集每个样本的光谱,分析每个样本的化学指标;对样本的光谱进行预处理后,计算每两个样本之间的光谱相似度,计算每两个样本之间的化学指标差异值;从所有样本中随机提取任意两个样本组成1个样本对,组成样本对集,每个样本对以光谱相似度和化学指标差值进行表征;将样本对集合中的样本对按照光谱相似度进行排序后,按照设定不同等级,从样本对集合中提取相似度最大的不同等级样本对组成样本对组,并计算每个样本对组中最大化学指标差异值和最小相似度值;对所有样本对组中最大化学指标差异值归一化处理后,依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标;当两个筛选指标满足筛选条件时,则认为这批样本作为有效样本。2.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述光谱包括近红外光谱、中红外光谱、紫外可见光谱、太赫兹谱;对样本的光谱的预处理包括于一阶导数处理,二阶导数处理、平滑、去基线、标准正态变换、多元散射校正中的一种或多种的任意顺序的组合。3.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,采用皮尔逊相关系数与欧式距离计算两个样本之间的光谱相似度。4.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,设定的等级采用百分制,百分数值为1-100之间的具有固定间隔的自然数,固定间隔取值为1,2,4,5,10,15,20,25,固定间隔优选为1,2,4。5.根据权利要求1或4所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述对所有样本对组中最大化学指标差异值归一化处理,包括:依据每个样本对组中最大化学指标差异值和最小相似度值形成相关散点图,在相关散点图的最小相似度值大且最大化学指标差异值小的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为归一化的基准数据,计算所有样本对组中最大化学指标差异值与基准数据的比值作为归一化处理结果。6.根据权利要求5所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为10-20的等级对应的样本对组对应的最大化学指标差异值作为归一化的基准数据。7.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述依据归一化的最大化学指标差异值和最小相似度值的相关散点图选择两个关键最大化学指标差异值作为两个筛选指标,包括:依据归一化的最大化学指标差异值和最小相似度值形成相关散点图中,在相关散点图的最小相似度值小且最大化学指标差异值大的区域,筛选分散程度高的分界散点对应的最大化学指标差异值作为第二筛选指标;在相关散点图中,筛选分散集中区域的中心散点对应的最大化学指标差异值作为第一筛选指标,以此得到两个筛选指标;优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分
数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标。8.根据权利要求1所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,所述两个筛选指标满足筛选条件时,则认为这批样本作为有效样本,包括:设定筛选指标的独立阈值和相关阈值,当两个筛选指标分别大于各自的独立阈值,且两个筛选指标的比值大于相关阈值时,则认为这批样本为有效样本,能够用于建模。9.根据权利要求8所述的基于光谱相似度和化学指标差异度的样本筛选方法,其特征在于,第一筛选指标的独立阈值为1.1-1.8,第二筛选指标的独立阈值为1.4-2.6,相关阈值为1.1-1.5;优选地,当设定的等级采用百分制,百分数值为1-100之间的所有自然数时,以百分数值为80~90的等级对应的样本对组对应的最大化学指标差异值作为第二筛选指标,以百分数值为50的等级对应的样本对组对应的最大化学指标差异值作为第一筛选指标时,第一筛选指标的独立阈值为1.1-1.3,第二筛选指标的独立阈值为1.4-1.6,相关阈值为1.15-1.35。10.一种基于光谱相似度和化学指标差异度的建模方法,包括以下步骤:利用权利要求1-9任一项所述的基于光谱相似度和化学指标差异度的样本筛选方法筛选获得有效数据;利用有效数据建立光谱与化学指标之间的预测模型,该预测模型用于基于输入的光谱预测化学指标。

技术总结
本发明公开了一种基于光谱相似度和化学指标差异度的样本筛选及建模方法,通过考察样本集中的最相似样本对及化学指标差异度之间的关系。通过衡量样本相似程度,得出在高相似度下的两样本,其化学值应有的差异范围。随着相似度值的降低,最大化学指标差异度升高,具有这样趋势的样本才是有效样本,无论采用何种建模方式均能够很好地建立光谱与化学指标之间的关系。若这种趋势无法体现,则说明该批数据缺乏光谱关于化学指标之间的区分度,因此无法成功建模。因此,该方法有助于使用者及时排除建模方法不当、建模样本较少等因素,较为明确地给出该批数据是否可以建模,从而节省必要的人力物力,对建模及数据分析水平较低的使用者尤为适合。者尤为适合。者尤为适合。


技术研发人员:毕一鸣 郝贤伟 田雨农 廖付 钟永健 张赵鹏 葛川 吴灵通 王筑临 王辉 郑宏斌 李海峰 夏骏 童神 刘建国 李石头 郭蒙浩 吴继忠
受保护的技术使用者:浙江中烟工业有限责任公司
技术研发日:2021.10.22
技术公布日:2022/1/28
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献