一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

水果光谱的特征提取方法、模型训练方法、检测方法与流程

2021-10-24 11:44:00 来源:中国专利 TAG:方法 光谱 无损 提取 检测方法


1.本发明涉及无损检测技术领域,具体为水果光谱的特征提取方法、模型训练方法、检测方法。


背景技术:

2.水心病是菠萝的生理性病害,目前,可见/近红外光谱、电子鼻和机器视觉技术在农产品品质无损智能检测中均发挥着重要作用。电子鼻和机器视觉技术在无损检测过程中更侧重于靠近农产品外表的特征,而可见/近红外光可穿透农产品,获取内部品质特征信息,更加适合于菠萝水心病的无损智能检测。较多前期研究表明,可见/近红外光谱在小型薄皮水果的内部糖度、酸度、硬度、病害、虫害等内部品质无损检测上是可行的,但菠萝属于大型水果,且表面不光滑,容易引起散射噪声,检测难度相对较大。采用可见/近红外光谱技术能否有效无损检测菠萝水心病,尚未见有关报道。
3.对比文件1:cn202010745439.2 公开了一种基于融合特征波长选择算法的苹果酸度近红外无损检测方法,其步骤包括:1采集苹果样本标记点区域的光谱信息,测量苹果样本标记点区域的酸度数据;2对采集到的光谱进行预处理;3分别利用连续投影算法spa与竞争自适应重加权采样算法cars进行特征波长选择,并将二者所选择的特征波长进行融合;4根据融合后的特征波长对应的光谱与酸度数据,在校正集上建立苹果酸度的偏最小二乘pls预测模型,并在预测集上对模型结果进行评估。
4.上述对比文件1所存在的问题如下:(1)cn202010745439.2 采用spa和cars两种算法提取特征并进行融合,这两种方法虽然可从不同角度对特征的差异性进行排序,但样本差异大小的存在是客观的,最终筛选的特征会存在较大的重叠风险,造成特征数据冗余,影响识别精度。
5.(2)cn202010745439.2 采用plsr对特征选择的效果进行验证,存在一定弊端。偏最小二乘plsr的建模过程需要进行参数设置,改变特征结构的同时plsr建模参数也应该随之变化以达到最佳的建模效果,因此面对不同特征选择时比对起来不方便;(3)cn202010745439.2 采用plsr验证时未分训练集和测试集进行验证,其结果可能存在过拟合的风险,但若分测试集与验证集,重复运算量明显增大,不易操作,可能造成误判。
6.对比文件2:《荧光光谱结合pca_ed与plsr方法检测市售橙汁饮品》,光谱学与光谱分析,2014年8月,第34卷第8期,胡扬俊著,其通过主成分分析pca结合欧氏距离ed对市售橙汁饮品基于偏最小二乘plsr的建模过程进行分析。
7.但是该对比文件2在菠萝水心病的判断过程中,存在的问题在于:(1)文件2是采用pca分析提取了第一与第二主成分作为特征值,进行ed为距离计算方法的聚类分析,将pca图形化的分类结果数字化、量化。
8.(2)对比文件2缺乏spa对特征进行排序和依次筛选的过程,将所有特征进行pca分析,存在混入冗余特征影响识别精度的风险。
9.(3)对比文件2采用plsr对橙汁进行分类,是因为从其pca分类结果图可看出,不同样本在二维空间分布完全线性可分(可用一条直线将不同类别样本数据点完全划分开来)。但对于菠萝水心病无损检测而言,不同类别样本的分类存在非线性特性(不可用一条直线将不同类别样本数据点完全划分开来),因此,plsr在菠萝水心病的检测中存在一定的限制。
10.本方案所要解决的技术问题是:如何快速筛分针对水果的无损检测的模型所需要的有效特征,如何快速建立水果无损检测模型 。


技术实现要素:

11.本发明的目的在于提供水果无损检测光谱的特征提取方法;该方法能够在采用较少的样品的情况下对有效特征进行快速筛选,以利于后续的建模。
12.本发明所涉及的词汇包括:主成分分析(principal component analysis,pca)、多项式平滑(savitzky golay,sg)滤波、标准正态变量校正(standard normal variate,snv)、连续投影算法(successive projections algorithm, spa)、欧氏距离(euclidean distance,ed)、偏最小二乘回归(partial least squares regression,plsr)、概率神经网络(probabilistic neural network,pnn)。
13.本发明采用连续投影算法spa是通过与其他算法如竞争自适应重加权采样算法cars、遗传算法ga、粒子群算法pso进行比对确定的,这几种方式均能对特征在不同样本间的差异性从大到小进行排序,由于算法不同,侧重的点有所偏差。通过采用spa、cars、ga、pso对菠萝光谱数据特征进行排序,分别采用pca

ed快速检验不同类别样本之间的距离变化,结果显示,spa顺序比其他几种特征差异性排序方法能够更快地提高菠萝不同水心病程度检测样本距离,更加适用于菠萝水心病光谱识别的特征筛选。
14.本发明采用pca与ed进行验证。pca通过数据降维的方式,可在二维空间中直观、有效地反映数据原本分布状态进行分类效果判别,再巧妙地结合ed算法,将pca分类结果进行量化,从而实现对特征提取效果的快速有效判断,具有操作简便,计算量小、结果客观可视等优点。
15.spa、pca、ed的组合是针对菠萝水心病分类得到的较优方法。
16.同时本发明还公开了一种模型训练方法、检测方法。
17.为实现上述目的,本发明提供如下技术方案:一种水果无损检测光谱的特征提取方法,包括依次进行的如下步骤:步骤1:以n个样品的光谱中各波长点的向量为源数据,将源数据采用连续投影算法进行处理,得到所有向量的排序;所述向量和波长点一一对应,所述向量为波长点上各样品的透射率的集合;所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;所述n个样品为n个相同类型的水果;步骤2:按照向量的排序,将排在m 1个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;所述坐标系的横坐标为第一主成分,所述坐标系的纵坐标为第二主成分;m为正整数;m<n

2;
步骤3:将通过破坏性分析得到的样品的分类结果,并将分类结果导入步骤2获得的分布点上获得多个第一样品类别,相同分类结果的分布点构成一个第一样品类别;步骤4:获取各第一样品类别之间的第一欧氏距离;步骤5:按照波长点的排序,将排在m 2个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;步骤6:将样品的分类结果导入到步骤5获得的分布点上,得到第二样品类别;步骤7:获取各第二样品类别之间的第二欧氏距离;步骤8:判断第一欧氏距离是否小于第二欧氏距离,若是,则第m 2个向量为有效数据,若否,则第m 2个向量为无效数据。
18.在上述的水果无损检测光谱的特征提取方法中,所述步骤1具体包括如下依次进行的子步骤:光谱矩阵为j列,j等于波长点的个数;光谱矩阵中每个向量构成一列;子步骤11:第一次迭代,在光谱矩阵中任选第j个向量,赋值为x
j
,x
j
记为x
k(0)
;1<j<j;x
k(0)
为初始迭代向量子步骤12:将未选入的向量的集合记为s;;子步骤13:分别计算x
j
对于剩余向量的投影p
xj
;;子步骤14:提取最大投影向量的波长k(n);;子步骤15:令x
j
=p
x
,j∈s;令n=n 1;步骤16:如果步骤15中计数增加后的n<n,则进行步骤13;步骤17:将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(n),n = 0,
…ꢀ
,n

1};每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小sep对应的k(n)为最终选择的波长组合,最后根据最优波数点集建立校正集模型;所述校正集模型即为所有向量的排序。
19.在上述的水果无损检测光谱的特征提取方法中,所述相同类型的水果是指相同品种的水果,或相同品种且相同大小的水果,或相同品种、相同大小、相同产地的水果,或相同品种、相同大小、相同产地、相同采摘批次的水果;所述光谱为400

1100 nm的波段的光谱。
20.当然,在实际实验中我们发现,400

1100nm波段(含可见和近红外波段)、900

1700nm波段(近红外波段)、400

1700nm波段(含可见和近红外波段)都是有一定的效果的,400

1100nm波段效果最优。
21.在上述的水果无损检测光谱的特征提取方法中,所述分类结果为水果的不同甜度的分类,或者疾病不同程度的分类、或者不同酸度的分类,或者不同硬度的分类。
22.这里的疾病包括但不限于水心病、霉心病等。当然在一些情况下疾病相反会成为
水果的独特卖点,比如苹果的水心病实际上就是糖心苹果,所以从另外一个侧面来说,本发明的方法也可以作为某些水果特色品种的检测的有效手段。
23.在上述的水果无损检测光谱的特征提取方法中,还包括步骤9:重复步骤2

8并逐渐增加向量的数量,得到所有有效数据,并形成一个含所有有效数据的特征集。
24.此外,本发明还公开了一种基于可见/近红外光谱的菠萝水心病无损检测的模型训练方法,包括如下步骤:步骤10:获得n个样品的光谱;所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;所述n个样品为n个相同类型的水果;步骤20:通过如上所述的方法对步骤10所获得的光谱进行处理,得到特征集;步骤30:采用偏最小二乘回归算法或概率神经网络算法,针对特征集,建立模型;步骤40:采用多个样品进行训练。
25.在上述的模型训练方法中,所述光谱为400

1100 nm的波段的光谱。
26.在上述的模型训练方法中,所述步骤10中还包括对光谱进行噪声波动的滤除、对散射噪声进行校正。
27.与现有技术相比,本发明的有益效果是:本发明采用连续投影算法spa是通过与其他算法(竞争自适应重加权采样算法cars、遗传算法ga、粒子群算法pso)进行比对确定的,其排序顺序能够更快地提高菠萝不同水心病程度的分类效果。
28.本发明采用pca与ed进行验证。pca通过数据降维的方式,可在二维空间中直观、有效地反映数据原本分布状态进行分类效果判别,再巧妙地结合ed算法,将pca分类结果进行量化,从而实现对特征提取效果的快速有效判断,具有操作简便,计算量小、结果客观可视等优点。
29.spa pca ed是针对菠萝水心病分类得到的较优方法。
附图说明
30.图1a为本发明的实施例1

3所用的设备的主视图;图1b为本发明的实施例1

3所用的设备的立体图;图2a为本发明的实施例1的原始光谱;图2b为本发明的实施例1的 400

1100 nm原始光谱数据对水心程度pca判别示意图;图3a为本发明的实施例1中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;图3b为本发明的实施例1中400

1100 nm sg snv处理光谱对水心程度pca判别示意图;图4为本发明的实施例1中spa pca ed对400

1100 nm光谱特征作用分析图谱;图5为本发明的实施例1中400

1100nm光谱结合plsr对菠萝水心病检测结果;
图6a为本发明的实施例2的原始光谱;图6b为本发明的实施例2的900

1700nm原始光谱数据对水心程度pca判别示意图;图7a为本发明的实施例2中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;图7b为本发明的实施例2中900

1700nmsg snv处理光谱对水心程度pca判别示意图;图8为本发明的实施例2中spa pca ed对900

1700nm光谱特征作用分析图谱;图9为本发明的实施例2中900

1700nm光谱结合plsr对菠萝水心病检测结果;图10a为本发明的实施例3的原始光谱;图10b为本发明的实施例3的400

1700nm原始光谱数据对水心程度pca判别示意图;图11a为本发明的实施例3中对光谱进行噪声波动的滤除、对散射噪声进行校正得到的光谱;图11b为本发明的实施例3中400

1700nmsg snv处理光谱对水心程度pca判别示意图;图12为本发明的实施例3中spa pca ed对400

1700nm光谱特征作用分析图谱;图13为本发明的实施例3中400

1700nm光谱结合plsr对菠萝水心病检测结果;图14为不同数量光源情况下的光谱图;图15为不同光源间距情况下的光谱图。
具体实施方式
31.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
32.第一部分实验概述1材料与方法1.1光谱检测平台搭建本发明搭建的菠萝品质无损检测实验平台如图1a和1b所示。采样时将菠萝平躺放置在载物台的托盘1上(托盘可固定菠萝姿态,亦可使实验结果更好地为流水线动态检测提供参考)。为防止光线未经过菠萝直接被光纤接收造成噪声干扰,光源2发射的光需经过隔光板3的进光孔4,透射过样本后,经过出光孔方可被接收。测试过程在暗箱内进行,箱体窗口用窗帘遮光。为寻找较优的菠萝光谱采样参数,平台以下参数活动可调:光源0

900w可调(由9盏100w的卤素灯组成),隔光板上进光孔与出光孔的大小经过多次更换、测试确定,光源、菠萝样本和接收光纤5之间的距离可通过滑台调节。
33.本发明选用100w的光源是因为该瓦数的光源既具有较好的光强以透射菠萝,又具
有较好的使用寿命(理论时长1000小时)。若再增加灯的瓦数寿命衰减较大,实际使用中无法满足稳定性,增加光源数量是个较优选择。为选择较优的光源数量与分布,采用三层灯(上层、中间层、下层)对同一个菠萝进行数据采集对比,可参考图14。当上、中、下均仅开靠中间的两盏灯时,透射率强于其他组合方式。上、中、下若再打开其他光源,会因为照射角度问题,使得有些光线未经过直接被光线接收,造成漏光的现象,此时透射率大于100%,造成数据错误。
34.光强固定为上、中、下均两盏,共600w。参考图15,当光源与入光孔距离从80cm增加到84cm时,透射率是增强的,但再拉大距离,透射率逐渐降低。符合小孔成像原理。
35.其中,同一层的两盏灯与入光孔的连线构成的夹角的弧度为30
°
;上下两层灯的间距为15cm;任意一层的两盏灯的连线的中垂线过入光孔。
36.图14

15中,可见当上中下均为2盏灯、光源和入光孔的间距为84cm时,其效果是最好的,其透射率最高且无漏光现象,虽然相比其他情况,其透射率提高是有限的,但是其可以导致噪音信号偏小,进而导致信噪比得到的显著的优化,避免光谱中的关键特征丢失、无法识别等情况出现,是后期检测的可靠性的有力保障。
37.接收光纤另一端连接两台覆盖不同波段的光谱仪,分别是qepro和nirquesr(均为美国oceanoptics公司生产),可覆盖波段400

1100和900

1700nm,若采用两台光谱仪联用的方式共可覆盖400

1700nm的光谱信息。
38.1.2菠萝样本本实验采用的菠萝果实2021年4月采摘于广东省湛江市徐闻县某农场,品种为“巴厘”,共100个样本,采果后立即在农场附近搭建的实验房内进行采样与测试。
39.1.3菠萝样本信息采集经过反复调试,菠萝可见/近红外光谱的较优采集参数设置为:光谱仪qepro与nirquest的积分时间分别为600与2000ms;接收光纤距离菠萝托盘距离30mm;菠萝托盘近光孔位置距离光源84mm;光源为600w;菠萝托盘位于托盘的中心位置,光源、进光孔、菠萝、出光孔、接收光纤处于同一水平。
40.采集菠萝光谱信息后,立即进行水心病人工评判。通过对样品进行破坏性检测,得到样品的分类结果;目前尚未见菠萝水心病评级方法,本发明提出:将菠萝纵切两半,再切成12小片平铺在桌面上,较全面地观察并记录菠萝水心病发生情况。共采集到无水心病、轻微水心病、严重水心病样本分别为56、21和23个。
41.1.4数据处理与分析采用主成分分析判别不同水心程度菠萝的分类效果;采用多项式平滑滤波减少大型水果光谱采样因光程较长、信噪比较低带来的噪声波动,滤波效果受多项式阶次与平滑点数的影响;采用标准正态变量校正降低菠萝表皮极其粗糙等带来的散射噪声;采用连续投影算法 pca 欧氏距离进行光谱特征提取,其中spa根据差异大小进行光谱特征的排序,特征数量从2到最大逐渐增加,分别进行pca处理,采用ed计算不同类别中心点之间的距离,以距离的大小判断增加特征的必要性;采用偏最小二乘回归与概率神经网络分训练集与校正集进行进一步建模判别,无、轻度和重度水心病分别随机选择38、14和15个样本作为训练集,剩下19、7和8个样本作为验证集,不同水心程度期望输出均分别设定为1、2和3,其
中plsr的检测效果受降维后特征个数fn的选取影响较大,结果输出为小数,通常用预测值与实际值之间的拟合系数r2,以及均方根误差rmse表示,pnn的检测效果受扩散速度spread值影响较大,其结果输出为整数,可直接用正确率表达。为进一步统计plsr的识别正确率,将plsr结果输出进行四舍五入取整,小于等于1的结果输出为无水心,等于2为轻微水心,大于等于3为重度水心。
42.主成分分析算法可参考文献资料:po
ř
í
zka pavel, klus jakub, k
é
pe
š erik, et al. on the utilization of principal component analysis in laser

induced breakdown spectroscopy data analysis, a review[j]. spectrochimica acta part b: atomic spectroscopy, 2018,148:65

82.多项式平滑算法可参考文献资料:jahani sahar, setarehdan seyed k., boas david a., et al. motion artifact detection and correction in functional near

infrared spectroscopy: a new hybrid method based on spline interpolation method and savitzky

golay filtering[j]. neurophotonics, 2018,5(1):15003.标准正态变量校正算法可参考文献资料:bi yiming, yuan kailong, xiao weiqiang, et al. a local pre

processing method for near

infrared spectra, combined with spectral segmentation and standard normal variate transformation[j]. analytica chimica acta, 2016,909:30

40.连续投影算法可参考文献资料: krepper gabriela, romeo florencia, de sousa fernandes david douglas, et al. determination of fat content in chicken hamburgers using nir spectroscopy and the successive projections algorithm for interval selection inpls regression (ispa

pls)[j]. spectrochimica acta part a: molecular and biomolecular spectroscopy, 2018,189:300

306.欧氏距离计算可参考文献资料: he wei, zhou jian, cheng hao, et al. validation of origins of tea samples using partial least squares analysis and euclidean distance method with near

infrared spectroscopy data[j]. spectrochimica acta part a: molecular and biomolecular spectroscopy, 2012,86:399

404.偏最小二乘回归算法可参考文献资料:zhu zhihao, li jiaming, guo yangmin, et al. accuracy improvement of boron by molecular emission with a genetic algorithm and partial least squares regression model in laser

induced breakdown spectroscopy[j]. journal of analytical atomic spectrometry, 2018,33(2):205

209.概率神经网络算法可参考文献资料:huang xiao

dong, wang chun

yan, fan xin

min, et al. oil source recognition technology using concentration

synchronous

matrix

fluorescence spectroscopy combined with 2d wavelet packet and probabilistic neural network[j]. science of the total environment, 2018,616:632

638.第二部分具体实验过程实施例1
400

1100nm光谱对菠萝水心病检测2.1.1原始数据 pca判别菠萝样本在400

1100nm的原始光谱如图2a所示,数据在1000nm以后出现轻微的噪声波动。400

1100nm原始数据对菠萝水心程度的pca判别结果如图2b所示。第一主成分(pc1)与第二主成分(pc2)的贡献率分别为62.64和35.67%,总贡献率为98.31%。不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
[0043]
2.1.2sg滤波 snv校正 pca判别为提高光谱数据质量,经反复试验,采用3阶23点sg处理可较好地滤除光谱数据中存在的噪声波动,随后采用snv对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图3a所示。基于处理后的光谱信号对菠萝水心程度进行pca判别的结果如图3b所示。pc1和pc2的贡献率分别为91.66和2.96%,总贡献率为94.62%。对比图2b,pca同样可以有效区分不同水心程度,且同类样本数据点的聚类性明显增强,但不同样本之间存在少量数据点重叠,实际分类中有误判的风险。
[0044]
2.1.3spa pca ed特征提取为明确是否每一个特征对分类识别均有积极作用,采用spa pca ed对光谱特征作用的分析结果如图3b和图4所示,图3b是经过主成分分析算法计算得到的坐标图,图4是用于欧氏距离判断的坐标图。采用spa将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行pca分析,不同水心程度数据点之间的ed逐渐增加。可见,所有的特征在分类识别过程中均是有益的。
[0045]
采用spa pca ed对光谱特征作用的分析的过程如下:步骤1:以n个样品的光谱中各波长点的向量为源数据,将源数据采用连续投影算法进行处理,得到所有向量的排序;所述向量和波长点一一对应,所述向量为波长点上各样品的透射率的集合;所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;所述n个样品为n个相同类型的水果;可参考图3a,标号x为波长为720nm左右的波长点,在该轴上所有的透射率汇集成为720nm波长点的向量;标号y为波长为815nm左右的波长点,在该轴上所有的透射率汇集成为815nm波长点的向量;标号z为波长为980nm左右的波长点,在该轴上所有的透射率汇集成为980nm波长点的向量;所述多个样品为多个相同类型的水果;所述相同类型的水果是指相同品种的水果,或相同品种且相同大小的水果,或相同品种、相同大小、相同产地的水果,或相同品种、相同大小、相同产地、相同采摘批次的水果。
[0046]
在本实施例中,如上所述,采用的是相同品种、相同大小、相同产地、相同采摘批次的“巴厘”菠萝。
[0047]
步骤1在计算机中的计算过程如下:
样品的数量为n,光谱矩阵为j列,j等于波长点的个数;光谱矩阵中每个向量构成一列;子步骤11:第一次迭代,在光谱矩阵中任选第j个向量,赋值为x
j
,x
j
记为x
k(0)
;1<j<j;x
k(0)
为初始迭代向量子步骤12:将未选入的向量的集合记为s;子步骤13:分别计算x
j
对于剩余向量的投影p
xj
;;子步骤14:提取最大投影向量的波长k(n);;子步骤15:令x
j
=p
x
,j∈s;令n=n 1;步骤16:如果步骤15中计数增加后的n<n,则进行步骤13;步骤17:将投影向量最大的波长引入到波长组合,最终选取的波长变量为{k(n),n=0,

,n

1};每循环一个进行交互验证分析,每个新选入的波长,都与前一个线性关系最小,最小sep对应的k(n)为最终选择的波长组合,最后根据最优波数点集建立校正集模型;所述校正集模型即为所有向量的排序。
[0048]
步骤2:按照向量的排序,将排在m 1个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点如图3b;所述坐标系的横坐标为第一主成分,所述坐标系的纵坐标为第二主成分;m为正整数;m<n

2;步骤3:将通过破坏性分析得到的样品的分类结果,并将分类结果导入步骤2获得的分布点上获得多个第一样品类别,相同分类结果的分布点构成一个第一样品类别;步骤4:获取各第一样品类别之间的第一欧氏距离;步骤5:按照波长点的排序,将排在m 2个位置之前的所有的向量作为输入值采用主成分分析算法进行计算,获得各个样品在坐标系上的分布点;步骤6:将样品的分类结果导入到步骤5获得的分布点上,得到第二样品类别;步骤7:获取各第二样品类别之间的第二欧氏距离;步骤8:判断第一欧氏距离是否小于第二欧氏距离,若是,则第m 2个向量为有效数据,若否,则第m 2个向量为无效数据。
[0049]
步骤9:重复步骤2

8并逐渐增加向量的数量,得到所有有效数据,在本实施例中如图4所示,并形成一个含所有有效数据的特征集。
[0050]
2.1.4plsr、pnn检测建模采用plsr、pnn检测建模的方法为:步骤10:获得n个样品的光谱;所述光谱为样品经过基于可见和/或近红外光线透射原理经光谱仪检测得到的光谱;所述多个样品为多个相同类型的水果;
步骤20:通过如2.1.3所述的方法对步骤10所获得的光谱进行处理,得到特征集;步骤30:采用偏最小二乘回归算法或概率神经网络算法,针对特征集,建立模型;步骤40:采用多个样品进行训练。
[0051]
在训练过程中,对于样品可分为训练集和验证集,训练集对模型进行训练,验证集用于对模型进行调整参数。
[0052]
作为进一步优化,还可以将样品分为训练集、验证集和测试集,测试集用于对经过训练集和验证集训练和调参之后的模型进行泛化性能的评估,评估通过后,把测试集输入到模型中训练,得到交付生产的成品模型。
[0053]
具体到本实施例来说,采用plsr分训练集与验证集对菠萝水心病的检测结果分别如图5所示。附图5中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势;由于圆点和方点数量较多,在图5中无法看清各圆点和方点,但是直线1和直线2是通过计算机软件根据各点值绘制得到,r2和rmse是准确和真实的。
[0054]
经反复训练,plsr的建模参数fn设定为11,模型对训练集的plsr回判r2和rmse分别为0.95与0.18,对于验证集的检测r2和rmse分别为0.81和0.37。对结果输出进行四舍五入后,对训练集的回判正确率为98.51%(1个重度水心误判为轻度水心),对测试集的检测正确率为88.24%(1个轻度水心误判为无水心;3个重度水心误判为轻度水心)。
[0055]
采用pnn分训练集与验证集对菠萝水心病进行建模检测,经反复训练,pnn模型参数spread设定为1.2,所建模型对训练集的回判正确率为98.51%(1个重度水心误判为轻度水心),对验证集的检测正确率为91.18%(1个轻度水心误判为无水心;2个重度水心误判为轻度水心),具有较好的检测效果。
[0056]
实施例2900

1700nm光谱对菠萝水心病检测3.1.1原始数据 pca判别菠萝样本在900

1700nm的原始光谱如图6a所示,数据在均存在明显的噪声波动,且随波长增加而增大。900

1700nm原始数据对菠萝水心程度的pca判别结果如图6b所示。第一主成分(pc1)与第二主成分(pc2)的贡献率分别为87.79和9.26%,总贡献率为97.05%。不同水心程度菠萝样本无法被区分开来。
[0057]
3.1.2sg滤波 snv校正 pca判别为提高光谱数据质量从而提升检测效果,经反复试验,采用3阶41点sg处理可较好地滤除光谱数据中存在的噪声波动,随后采用snv对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图7a所示。基于处理后的光谱信号对菠萝水心程度进行pca判别的结果如图7b所示。pc1和pc2的贡献率分别为91.75和3.07%,总贡献率为94.82%。pca无法有效区分不同水心程度,但对比图6b,样本数据点的聚类性明显增强。
[0058]
3.1.3spa pca ed特征提取采用spa pca ed对光谱特征作用的分析结果如图7b和图8所示。采用spa将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行pca分析,不同水心程度数据
点之间的ed逐渐增加。可见,900

1700nm所有的特征在分类识别过程中均是有益的。
[0059]
其具体过程可参考“2.1.3spa pca ed特征提取”。
[0060]
3.1.4plsr、pnn检测plsr分训练集与验证集对菠萝水心病的检测结果分别如图9所示,图9中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势;由于圆点和方点数量较多,在图9中无法看清各圆点和方点,但是直线1、直线2是通过计算机软件根据各点值绘制得到,r2和rmse是准确和真实的。
[0061]
经反复训练,plsr的建模参数fn设定为11,模型对训练集的plsr回判r2和rmse分别为0.76与0.40,对于验证集的检测r2和rmse分别为0.45和0.62。对结果输出进行四舍五入后,对训练集的回判正确率为80.60%(无水心中4个误判为轻度水心;轻度水心中3个误判为无水心,1个误判为重度水心;重度水心中5个误判为轻度水心),对测试集的检测正确率为58.82%(无水心中5个误判为轻度水心;轻度水心中3个误判为无水心;重度水心中6个误判为轻度水心),效果不佳。
[0062]
采用pnn分训练集与验证集对菠萝水心病进行建模检测,经反复训练,pnn模型参数spread设定为0.1,所建模型对训练集的回判正确率为100%,对验证集的检测正确率为62%(无水心中1个误判为轻度水心,4个误判为重度水心;轻度水心中4个误判为无水心,1和误判为无水心;重度水心中1个误判为轻度水心,2个误判为无水心),检测效果不佳。
[0063]
实施例3400

1700nm光谱对菠萝水心病检测4.3.1原始数据 pca判别菠萝样本在400

1700nm的原始光谱如图10a所示,数据在1000nm以后噪声波动逐渐增强。400

1700nm原始数据对菠萝水心程度的pca判别结果如图10b所示。第一主成分(pc1)与第二主成分(pc2)的贡献率分别为60.77和32.59%,总贡献率为93.36%。与400

1100nm光谱分类结果图相似(图2b),不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
[0064]
4.3.2sg滤波 snv校正 pca判别为保障整体光谱曲线的衔接性与降噪效果,采用3阶41点sg处理滤除光谱数据中存在的噪声波动,随后采用snv对光谱信号中的散射噪声进行校正,得到处理后的菠萝光谱信号如图11a所示。处理后的光谱信号对菠萝水心程度进行pca判别的结果如图11b所示。pc1和pc2的贡献率分别为72.55和20.07%,总贡献率为92.62%。pca同样可以有效区分不同水心程度,对比图2b,重叠的数据点个数略有减少,但聚类性略有降低,部分样本实际分类中仍有误判的风险。
[0065]
4.3.3spa pca ed特征提取采用spa pca ed对光谱特征作用的分析结果如图11b和图12所示。采用spa将特征作用从大到小进行排序后,按顺序逐渐增加特征数量并进行pca分析,不同水心程度数据点之间的ed逐渐增加。可见,400

1700nm所有的特征在分类识别过程中均是有益的。
[0066]
其具体过程可参考“2.1.3spa pca ed特征提取”。
[0067]
4.3.4plsr、pnn检测plsr分训练集与验证集对菠萝水心病的检测结果分别如图13所示,图13中,圆点代表训练集的样品的由预测值与实际值构成的坐标点,方点代表测试集的样品的由预测值与实际值构成的坐标点,直线1代表训练集样品水心病程度的预测值和实际值之间的线性拟合趋势,直线2代表测试集样品水心病程度的预测值和实际值之间的线性拟合趋势。
[0068]
由于圆点和方点数量较多,在图13中无法看清各圆点和方点,但是直线1、直线2是通过计算机软件根据各点值绘制得到,r2和rmse是准确和真实的。
[0069]
经反复训练,plsr的建模参数fn设定为14,模型对训练集的plsr回判r2和rmse分别为0.96与0.17,对于验证集的检测r2和rmse分别为0.83和0.35。对结果输出进行四舍五入后,对训练集的回判正确率为100%,对测试集的检测正确率为88.24%(3个无水心误判为轻度水心;1重度水心误判为轻度水心)。
[0070]
采用pnn分训练集与验证集对菠萝水心病进行建模检测,经反复训练,pnn模型参数spread设定为0.2,所建模型对训练集的回判正确率为100%,对验证集的检测正确率为91.18%(1个轻度水心误判为无水心;2个重度水心误判为轻度水心),具有较好的检测效果。
[0071] 第三部分实验结果和讨论讨论菠萝水心病的发生伴随着果肉质地、颜色以及成分等变化,对其他小型薄皮水果前期研究表明,这些特征均可被可见/近红外光谱捕获,因此,本发明采用可见/近红外光谱检测菠萝水心病发生程度是有依据支撑的。本技术进一步验证了可见/近红外光谱结合信号预处理以及模式识别,无损检测菠萝内部水心病发生程度是可行的。
[0072]
菠萝属于大型水果,检测时光的谱透过性较差,造成信号波动,且表面极为粗糙,易形成散射噪声。因此,本发明采用sg与snv处理可有效降低信号波动以及散射噪声来带的干扰,提升识别效果。特征提取主要在于剔除会降低识别精度的噪声,最大化地保留有益信息形成信息融合,本发明提出采用spa pca ed分析结果表明,所有特征均包含分类识别的有益信息,均应保留。
[0073]
qepro(400

1100nm)比nirquest(900

1700nm)具有更好的检测效果,是因为400

1100nm同时对质地、颜色以及成分变化敏感,而900

1700nm仅对质地和成分变化敏感。此外,波长越长,光谱信号的穿透性能越差,通过样本后衰减越大,信噪比越低。plsr结果表明,采用qepro与nirquest联用(400

1700)可略微提升qepro的检测效果,是因为1100

1700nm包含菠萝水心病识别的有益信息,可对400

1700nm形成信息补充与融合,但该方式增加检测成本较大,性价比较低。实际应用建议单独采用400

1700nm进行菠萝水心病检测。
[0074]
pca对菠萝水心病程度的分类结果可以看出,分类的边界不能完全线性可分,存在一定非线性特性,pnn比plsr更加注重于识别过程的非线性特性,因此,在解决菠萝水心病发生程度的检测上具有更好的检测效果。
[0075]
结论本发明综合考虑实际应用成本与效果,通过自主搭建平台,探究了覆盖不同可见/近红外光谱波段的检测器对菠萝水心病的识别情况。结果证明,采用可见/近红外光谱结合适当的识别方法可达到较好的菠萝水心病无损检测效果,具体如下。
[0076]
采用400

1100 nm光谱原数据结合pca分析可将不同水心程度菠萝样本可以被区分开来,但距离较近,且离散程度较高,聚类性较差。
[0077]
经sg snv处理后,pca同样可以有效区分不同水心程度,且同类样本数据点的聚类性明显增强,但不同样本之间存在少量数据点重叠,存在误判的风险。
[0078]
spa pca ed分析结果显示,400

1100 nm所有的特征在分类识别过程中均是有益的,均应被保留。
[0079]
plsr所建模型对菠萝水心病训练集的回判正确率为98.51%,对测试集的检测正确率为88.24%。pnn所建模型对菠萝水心病训练集的回判正确率为98.51%,对验证集的检测正确率为91.18%。
[0080]
采用900

1700 nm光谱原数据结合pca分析无法将不同水心程度菠萝样本区分开来。经sg snv处理后,pca分析对样本数据点的聚类性明显增强,但分类效果仍不佳。
[0081]
spa pca ed分析结果显示,900

1700 nm所有的特征在分类识别过程中均是有益的,均应被保留。
[0082]
plsr所建模型对菠萝水心病训练集的回判正确率为80.60%,对测试集的检测正确率为58.82%。pnn所建模型对菠萝水心病训练集的回判正确率为100%,对验证集的检测正确率为62%。
[0083]
采用900

1700 nm相对400

1100 nm检测的检测效果略有提高,但不显著。其光谱原数据结合pca分析可将不同水心程度菠萝样本可以被区分开来,经sg snv处理后,可增强同类样本数据点的聚类性,且spa pca ed分析结果显示,400

1100 nm所有的特征在分类识别过程中均是有益的。plsr所建模型对菠萝水心病训练集的回判正确率为100%,对测试集的检测正确率为88.24%。plsr所建模型对菠萝水心病训练集的回判正确率为100%,对验证集的检测正确率为91.18%。
[0084]
综合考虑成本与效果,实际应用建立采用400

1100 nm光谱结合sg snv pnn对菠萝水心病进行识别。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜