一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于Python数据融合的藏药全缘叶绿绒蒿产地判别方法与流程

2022-03-01 22:48:13 来源:中国专利 TAG:

一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法
技术领域
1.本发明涉及药材检测领域,尤其涉及一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法。


背景技术:

2.全缘叶绿绒蒿(meconopsisintegrifolia(maxim.)franch.)为罂粟科绿绒蒿属为多年生草本植物,高30-60cm,全体被锈色和金黄色平展或反曲、具多短分枝的长柔毛,主要产于西藏、青海、四川、云南西北部和甘肃,生于海拔3000-4800m的高山草甸和灌丛中。作为经典藏药,全缘叶绿绒蒿以干燥全草入药,具有清热解毒、消炎止痛等功效,用于治疗肺炎、肝炎、头痛、水肿等病症。
3.药材质量与其所在生态环境密切相关,适宜的产地是生产优质药材的重要基础,因此,有必要对全缘叶绿绒蒿的产地进行准确鉴别,但目前还未有文献对全缘叶绿绒蒿的产地进行鉴别,现有的对于药材产地的鉴别方法多采用传统的鉴别方法,费时费力,具有一定的局限性。
4.红外光谱技术具有快速、准确、无污染、同步分析等优点,在中药领域得到了广泛的应用。但现有的红外光谱分析方法多为单一光谱分析方法,不能全面反应藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性。


技术实现要素:

5.本发明的目的在于攻克对全缘叶绿绒蒿的产地鉴别的难题,提供了一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法。
6.本发明的目的是通过以下技术方案来实现的:
7.主要提供一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述方法包括:
8.采集得到不同产地的全缘叶绿绒蒿样品;
9.对所述不同产地的全缘叶绿绒蒿样品进行nir光谱采集,得到nir光谱数据,对所述不同产地的全缘叶绿绒蒿样品进行atr光谱采集,得到atr光谱数据;
10.将所述nir光谱数据和atr光谱数据进行融合,得到初级融合数据;利用多种分类方法分别对初级融合数据进行建模,并比较不同模型的分类效果,得出分类效果最好的分类方法;
11.利用python软件提取初级融合数据中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据;
12.根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,并利用所述判别模型对全缘叶绿绒蒿进行产地判别。
13.作为一选项,所述方法还包括:
14.选取分类效果靠前的几种分类方法分别对所述中级融合数据进行建模,将多种模
型的输出结果进行高级融合,所述高级融合包括:
15.对多种模型的输出结果分别赋予权重,构建出一种新的决策方式,并根据所述决策方式对样品分子的理化性质进行分析。
16.作为一选项,所述采集不同产地的全缘叶绿绒蒿样品,包括:
17.采集青海省内14个不同产地的、共631份全缘叶绿绒蒿全草样品。
18.作为一选项,所述对所述不同产地的全缘叶绿绒蒿样品进行nir光谱采集,包括:
19.将所述全缘叶绿绒蒿样品置于样品杯内,进行摊平和压实的预处理;
20.对预处理后的样品进行nir光谱扫描:扫描范围为10000-4000cm-1
,分辨率为8cm-1
,扫描64次;
21.取所述nir光谱扫描后的平均谱图做分析,得到样品的一维近红外谱图。
22.作为一选项,所述对所述不同产地的全缘叶绿绒蒿样品进行atr光谱采集,包括:
23.将所述全缘叶绿绒蒿样品置于atr红外探头上,采集atr一维红外谱图,其中,扫描范围为4000-400cm-1
,分辨率为4cm-1
,扫描32次。
24.作为一选项,所述将所述nir光谱数据和atr光谱数据进行融合,包括:
25.利用python软件将所述nir光谱数据和atr光谱数据进行串联。
26.作为一选项,利用逻辑斯谛回归计算每个特征值的贡献度。
27.作为一选项,所述抽取贡献度大的特征值进行融合,得到中级融合数据,包括:
28.将每个光谱数据中贡献度大的特征值提取出来,形成一个新的csv数据集,所述csv数据集用tq analyst软件打开。
29.作为一选项,所述根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,包括:
30.利用python软件采用支持向量机的分类方法建立定性判别模型。
31.作为一选项,采用支持向量机、adaboost、随机森林、极限树和k近邻算法进行高级融合。
32.需要进一步说明的是,上述方法各选项对应的技术特征可以相互组合或替换构成新的技术方案。
33.与现有技术相比,本发明有益效果是:
34.(1)首次利用红外光谱技术结合python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源全缘叶绿绒蒿产地,有利于从药材源头控制原药材品质,并为其他药材产地判别提供新方法。
35.(2)利用python软件采用数据融合策略提升产地判别准确率,较之单一光谱建模分析可有效提升产地判别准确率,更加准确有效的区分不同产地全缘叶绿绒蒿,也为其他药材分类模型性能的提升提供理论依据与技术指导。
36.(3)采用支持向量机、adaboost、随机森林、极限树和k近邻算法进行高级融合,模型的识别效果得到进一步提升。
附图说明
37.图1为本发明一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法的流程图;
38.图2为本发明nir一维光谱图;
39.图3为本发明atr一维光谱图;
40.图4为本发明全缘叶绿绒蒿nir模型图;
41.图5为本发明全缘叶绿绒蒿atr模型图;
42.图6为本发明未经处理的原谱图;
43.图7为本发明截掉前面20个值和后面50个值得到的谱图;
44.图8为本发明多元散射校正得到的谱图;
45.图9为本发明norris平滑得到的谱图;
46.图10为本发明一阶导数处理得到的谱图;
47.图11为本发明nir光谱数据和atr光谱数据串联后的谱图;
48.图12为本发明中级融合数据得到的图谱;
49.图13为本发明svm模型参数寻优结果图。
具体实施方式
50.下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
52.本发明主要利用红外光谱技术结合python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源全缘叶绿绒蒿产地,同时利用数据融合策略提升产地判别准确率,为从药材源头控制原药材品质提供科学依据,并为其他药材产地判别提供新方法。
53.实施例1
54.在一示例性实施例中,提供一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法,如图1所示,所述方法包括:
55.采集得到不同产地的全缘叶绿绒蒿样品;
56.对所述不同产地的全缘叶绿绒蒿样品进行nir光谱采集,得到nir光谱数据,对所述不同产地的全缘叶绿绒蒿样品进行atr光谱采集,得到atr光谱数据;
57.将所述nir光谱数据和atr光谱数据进行融合,得到初级融合数据;利用多种分类方法分别对初级融合数据进行建模,并比较不同模型的分类效果,得出分类效果最好的分类方法;
58.利用python软件提取初级融合数据中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据;
59.根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,并利用所述判别模型对全缘叶绿绒蒿进行产地判别。
60.具体地,由于单一光谱获得的化学信息忽略了多种成分与机制的协同作用,反应的信息较为片面,难以反应中藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性,因此,分别对不同产地的全缘叶绿绒蒿样品进行nir光谱采集和atr光谱采集,将所述nir光谱数据和atr光谱数据分别进行单光谱建模分析,将所述nir外光谱数据和atr光谱
数据进行融合,使用数学方法剔除无用信息而保留有效信息,增加样品被检测化学信息,弥补单一析方法上的不足,增强模型的稳健性。其中,nir为近红外光谱,atr为衰减全反射光谱。
61.进一步地,对融合后的nir光谱数据和atr光谱数据,利用python软件提取其中每个光谱数据的特征值,计算每个特征值的贡献度,并抽取贡献度大的特征值进行融合,得到中级融合数据,对中级融合数据进行分析可以获得更准确的信息。
62.本发明首次利用红外光谱技术结合python数据融合策略分析全缘叶绿绒蒿,实现快速准确的溯源藏药全缘叶绿绒蒿产地,有利于从药材源头控制原药材品质,并为其他药材产地判别提供新方法。
63.实施例2
64.基于实施例1,提供一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述方法还包括:
65.选取分类效果靠前的几种分类方法分别对所述中级融合数据进行建模,将多种模型的输出结果进行高级融合,所述高级融合包括:
66.对多种模型的输出结果分别赋予权重,构建出一种新的决策方式,并根据所述决策方式对样品分子的理化性质进行分析。其中,将多种模型的输出结果进行投票,每一种模型得到一个投票预测结果,再融合投票结果,综合成一个模型,完成高级融合,这个模型可称之为高级判别模型,利用该高级判别模型对全缘叶绿绒蒿进行产地判别,能够在实施例1的基础上进一步提高识别率。
67.具体地,实施例1中的初级融合数据是原始数据层的融合得来的,仅需要对来源不同的数据简单串联即可,中级融合数据的得来是特征层数据融合,相较于初级融合数据而言它需要对来自于不同的数据先进行特征信息提取,再根据相应的融合方法对获得的特征变量进行融合,对融合后的数据进行分析可以获得更准确的信息。该实施提出在前两次融合后进行再次融合即高级融合,高级融合是决策层数据融合,是通过对不同来源的数据分析建立模型,对这些模型的预测结果进行分析,并通过投票的方法对其分别赋予其权重,从而构建出一种新的决策方式,进而根据这种决策对样品分子的理化性质进行分析,能够进一步提升识别效果。
68.实施例3
69.基于实施例1,提供一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法,所述采集不同产地的全缘叶绿绒蒿样品,包括:
70.采集青海省内14个不同产地的、共631份全缘叶绿绒蒿全草样品。具体地,于全缘叶绿绒蒿花期期间,在青海省范围内,自南向北采自14个不同产地,共采集到631份全草样品,样品先鉴定为全缘叶绿绒蒿,将样品带回实验室洗涤、干燥、粉碎,过100目筛后放入干燥器中待分析用。
71.实验器材包括:is50傅里叶变换红外光谱分析仪(美国,thermo fisher公司),配有近红外和atr附件,样品杯直径1.20cm,干燥器(中国,上海一恒技术有限公司,dhg9245a)。
72.进一步地,所述对所述不同产地的全缘叶绿绒蒿样品进行nir光谱采集,包括:
73.将所述全缘叶绿绒蒿样品置于样品杯内,进行摊平和压实的预处理;
74.对预处理后的样品进行nir光谱扫描:扫描范围为10000-4000cm-1
,分辨率为8cm-1
,扫描64次;
75.取所述nir光谱扫描后的平均谱图做分析,得到样品的一维近红外谱图。
76.具体地,取全缘叶绿绒蒿样品适量置于样品杯内、摊平、压实,采集过程中实时扣除co2和水的背景干扰,以空气为参比,在10000-4000cm-1
范围内扫描近红外光谱(n=3),以平均谱图做分析用,扫描分辨率8cm-1
,扫描64次,光谱采集前预热仪器至少30min。如图2所示为样品的一维近红外谱图。
77.进一步地,所述对所述不同产地的全缘叶绿绒蒿样品进行atr光谱采集,包括:
78.将所述全缘叶绿绒蒿样品置于atr红外探头上,采集atr一维红外谱图,具体地,采集过程中实时扣除co2和水的背景干扰,以空气为参比,在4000-400cm-1
内采集atr光谱(n=3),以平均谱图做分析用,扫描分辨率4cm-1
,扫描32次,光谱采集前预热仪器至少30min。如图3所示为样品的一维atr红外谱图。
79.将所述nir和atr光谱数据分别进行单光谱建模,以下是使用单一光谱对全缘叶绿绒蒿产地判别的分析:
80.全缘叶绿绒蒿nir光谱数据产地判别分析:将14个产地的全缘叶绿绒蒿共631份nir一维光谱导入tq analyst软件,利用单因素试验优化建模条件,优化的建模条件为:da snv d1 norris平滑,建模波段为8918-4095cm-1
,此建模条件下建立的模型识别率80.52%,预测率80.75%,总正确率80.59%,模型3d图如图4所示。
81.全缘叶绿绒蒿atr光谱数据产地判别分析:将14个产地的全缘叶绿绒蒿共631份atr一维光谱导入tq analyst软件,利用单因素试验优化建模条件,优化的建模条件为:dm constant d1 norris平滑,建模波段为3928-472cm-1
。此建模条件下建立的模型识别率97.18%,预测率49.53%,总正确率81.32%,模型3d图如图5所示。
82.单一光谱获得的化学信息忽略了多种成分与机制的协同作用,反应的信息较为片面,难以反应中藏药材的复杂化学成分,对产地溯源和质量评价具有一定的局限性,由上述可知,单一光谱方法下,模型的预测率均不高。
83.进一步地,所述将所述nir近红外光谱数据和atr红外光谱数据进行融合,包括:
84.将所述nir近红外光谱数据和atr红外光谱数据进行串联,从串联之前需要对谱图进行预处理,如图6-10所示,依次为未经处理的原谱图、截掉前面20个值和后面50个值得到的谱图、多元散射校正得到的谱图、norris平滑得到的谱图,由于经过处理的谱图建模效果不如原谱图的建模效果,因此选用原谱图进行后续操作,串联后的谱图如图11所示。
85.进一步地,利用逻辑斯谛回归计算每个特征值的贡献度。
86.进一步地,所述抽取贡献度大的特征值进行融合,得到中级融合数据,包括:
87.将每个光谱数据中贡献度大的特征值提取出来,形成一个新的csv数据集,所述csv数据集用tq analyst软件打开。如图12所示为中级融合数据图谱,此时横坐标已不是波数,而是自己重新编排的共4086个特征值,故横坐标范围为0-4086)。
88.具体地,逻辑斯蒂回归虽然被称为回归,但其实上是分类模型,是一种连续型的概率分布,其本质是假设数据服从这个分布,然后使用极大似然估计做参数的估计。设定逻辑斯蒂回归模型中预测目标物种的存在概率为p,以p为因变量,建立线性回归方程为:
89.则
90.其中,k为评价因子序号,n为评价因子总数,bk为第k个因子逻辑回归系数,xk为第k个因子的数值。
91.进一步地,所述根据所述中级融合数据结合所述分类效果最好的分类方法建立判别模型,包括:
92.利用python软件采用支持向量机的分类方法建立定性判别模型。
93.具体地,常用分类方法共有8种:支持向量机(support vector machine,svm)、自适应提升算法(adaboost)、决策树(decision tree)、朴素贝叶斯(naive bays)、随机森林(random forest)、逻辑斯蒂回归(logistic regression)、极限树(extra trees)、k近邻算法(k neighbors),利用python软件结合8种分类方法对初级融合后的光谱进行建模,模型结果如下表所示:
94.表1
[0095][0096]
由表1可知,svm方法下的模型效果最好,识别率100.0%,预测率89.0%。
[0097]
svm是利用核函数将训练数据集从输入空间非线性的映射到一个高维特征空间,使原先在低维空间线性不可分的样本在高维空间得到线性分开的效果。其机理是寻找一个满足分类要求的最优分类超平面,使得该超平面在保证分类精度的同时,能够使超平面两侧的空白区域最大化。在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,被广泛应用于分类识别。理论上,svm能够实现对线性可分数据的最优分类。
[0098]
以两类数据分类为例,给定训练样本集(xi,yi),i=1,2,3

l,x∈rn,y∈{
±
1},超平面记作(w
·
x) b=0,为使分类面对所有样本正确分类并且具备分类间隔,就要求它满足如下约束:
[0099]
yi[(w
·
xi) b]≥1i=1,2,3

l
[0100]
可以计算出分类间隔为2/||w||,因此构造最优超平面的问题就转化为在约束式下求:
[0101]
为了解决该个约束最优化问题,引入lagrange函数:
[0102]
[0103]
式中,ai》0为lagrange乘数。约束最优化问题的解由lagrange函数的鞍点决定,并且最优化问题的解在鞍点处满足对w和b的偏导为0,将该qp问题转化为相应的对偶问题即:
[0104][0105][0106]
解得最优解a
*
=(a
1*
,a
2*


,a
i*
)
t

[0107]
计算最优权值向量w
*
和最优偏置b
*
,分别为:
[0108][0109]
式中,下标j∈{j|a
j*
}》0。因此得到最优分类超平面(w
*
·
x) b
*
=0,而最优分类函数为:
[0110][0111]
对于线性不可分情况,svm的主要思想是将输入向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。将x做从输入空间rn到特征空间h的变换φ,得:x

φ(x)=(φ1(x),φ2(x),

φ
l
(x))
t

[0112]
以特征向量φ(x)代替输入向量x,则可以得到最优分类函数为:
[0113][0114]
在上面的对偶问题中,无论是目标函数还是决策函数都只涉及到训练样本之间的内积运算,在高维空间避免了复杂的高维运算而只需要进行内积运算。
[0115]
进一步地,利用多种分类方法对中级融合后的数据进行建模,得到的结果如下表:
[0116]
表2
[0117][0118][0119]
进一步地,如图13所示,给出了本发明svm模型参数寻优结果图,利用python软件采用svm建立定性模型,模型识别率99.8%,预测率93.0%。调节svm的c和γ参数,其中c为惩罚系数,即对误差的宽容度,c值越大越不容忍出现误差,容易过拟合;c值越小容易欠拟合。γ则决定了数据映射到新的特征空间后的分布,γ越大支持向量越少,γ越小支持向量
越多,支持向量个数影响训练与预测的速度。初级融合和中级融合结合svm建立的分类模型识别效果好,检测结果准确度最高达100%。
[0120]
实施例4
[0121]
基于以上实施例,提供一种基于python数据融合的藏药全缘叶绿绒蒿产地判别方法,采用支持向量机、adaboost、随机森林、极限树和k近邻算法进行高级融合。
[0122]
从实施例3中可以看出,支持向量机、adaboost、随机森林、极限树和k近邻算法的分类效果较好,将这五种方法进行决策层融合,模型的识别率100.0%,预测率94.0%,效果较中级融合略有提升。
[0123]
下表给出了红外光谱结合逐级数据融合对全缘叶绿绒蒿产地判别的效果比较:
[0124]
表3
[0125][0126]
可见结合多次融合后,预测的准确率逐级提高。
[0127]
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献