一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

太赫兹光谱物质识别方法及系统、存储介质及终端与流程

2022-02-25 18:29:23 来源:中国专利 TAG:


1.本发明涉及物质识别的技术领域,特别是涉及一种太赫兹光谱物质识别方法及系统、存储介质及终端。


背景技术:

2.太赫兹(thz)波是电磁波的一种,频率介于0.1-10thz之间,波长在0.03-3mm之间,处于电子学和光子学的过渡区域,其辐射的频率位于光谱的微波和红外之间。因为分子的振动能级在太赫兹波段,所以太赫兹光谱可以用来探测物质中所包含的丰富的物理和化学等信息。
3.太赫兹光谱具有指纹谱特性,包含有大量有关物质结构和分子间相互作用信息,在谱图上表现为不同样品光谱特征吸收峰位置和形状差异。结构类似物的太赫兹光谱既能体现出指纹特性,同时也会呈现出相似的太赫兹吸收峰。另外,样品自身条件如纯度和结晶状况等不同也会给光谱带来影响。而且,谱图的识别还和测量条件如温度、湿度以及所用测试设备的信噪比以及分辨率等有关,给数据分析带挑战。光谱匹配通过研究不同光谱曲线的相似度来判断物质的归属类别,得出最相近光谱的信息,从而实现未知样品的鉴别。对太赫兹光谱数据的识别,有助于太赫兹光谱技术在生物、化学、药物、材料等应用中发挥重要作用。
4.然而,传统方法对太赫兹光谱数据进行特征提取时,通常采用人工峰值标定和初级特征匹配算法,缺乏对光谱曲线上的各数据点进行有效性判断。这种方法效率低、容易带来误差且没有考虑不同光谱样本与算法的结合度,使特征的区分度不明晰并且特征维度较少。此外,传统方法对太赫兹光谱数据的特征提取存在不确定性和主观差异等不可控因性,产生物质光谱分类的误差。
5.机器学习是近年来兴起的一种自动学习特征的方法,能更有效的处理海量数据,在图像以及自然语言处理领域已取得了巨大的成功,但是在太赫兹光谱识别方面运用还比较缺乏,主要原因在于太赫兹数据的非标准性和小样性,以及样品在太赫兹频段表现出的复杂性。因此,如何基于机器学习实现太赫兹光谱的识别运用是太赫兹技术应用的一个重要课题。


技术实现要素:

6.鉴于以上所述现有技术的不足,本发明的目的在于提供一种太赫兹光谱物质识别方法及系统、存储介质及终端,基于梯度提升决策树模型来分析太赫兹光谱,从而实现物质的定性分类识别,快速高效,实用性强。
7.为实现上述目的及其他相关目的,本发明提供一种太赫兹光谱物质识别方法,包括以下步骤:获取多种物质的太赫兹吸收光谱数据;提取所述太赫兹吸收光谱数据的特征信息;对所述特征信息进行机器学习以训练用于物质识别的分类器模型;基于训练好的分类器模型对待识别太赫兹吸收光谱数据进行识别,以实现所述待识别太赫兹吸收光谱数据
对应物质的识别。
8.于本发明一实施例中,获取多种物质的太赫兹吸收光谱数据包括以下步骤:
9.获取太赫兹时域光谱系统采集的多种物质的时域信号数据;
10.对所述时域信号数据进行傅里叶红外光谱变换,获取太赫兹吸收光谱数据;
11.对所述太赫兹吸收光谱数据进行平滑去噪处理。
12.于本发明一实施例中,采用savitzky-golay算法对所述太赫兹吸收光谱数据进行平滑去噪处理。
13.于本发明一实施例中,还包括对平滑去噪处理得到的太赫兹吸收光谱数据进行等间取数,并由平滑去噪处理得到的太赫兹吸收光谱数据的特征信息和等间所取的数据构建新的太赫兹吸收光谱数据以进行所述分类器模型的训练。
14.于本发明一实施例中,所述特征信息包括所述太赫兹吸收光谱数据的吸收波峰的强度、数量、面积、强度比值和面积比值中的一种或多种组合。
15.于本发明一实施例中,基于二分法确定所述太赫兹吸收光谱数据的吸收峰,通过吸收峰的峰高乘以半峰宽的方式计算吸收峰的面积。
16.于本发明一实施例中,基于梯度提升决策树模型或轻量级梯度提升机模型对所述特征信息进行机器学习。
17.对应地,本发明提供一种太赫兹光谱物质识别系统,包括获取模块、提取模块、学习模块和识别模块;
18.所述获取模块用于获取多种物质的太赫兹吸收光谱数据;
19.所述提取模块用于提取所述太赫兹吸收光谱数据的特征信息;
20.所述学习模块用于对所述特征信息进行机器学习以训练用于物质识别的分类器模型;
21.所述识别模块用于基于训练好的分类器模型对待识别太赫兹吸收光谱数据进行识别,以实现所述待识别太赫兹吸收光谱数据对应物质的识别。
22.本发明提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的太赫兹光谱物质识别方法。
23.最后,本发明提供一种太赫兹光谱物质识别终端,包括:处理器及存储器;
24.所述存储器用于存储计算机程序;
25.所述处理器用于执行所述存储器存储的计算机程序,以使所述太赫兹光谱物质识别终端执行上述的太赫兹光谱物质识别方法。
26.如上所述,本发明的太赫兹光谱物质识别方法及系统、存储介质及终端,具有以下有益效果:
27.(1)基于训练优化得到的梯度提升决策树模型来分析太赫兹光谱,从而实现物质的定性分类识别;
28.(2)能够有效降低深度学习算法在小样识别上过拟合现象严重的问题;
29.(3)相对于传统的特征提取方式更为丰富多样;
30.(4)能够将数据集里多个样品进行同时识别分类;
31.(5)快速高效,实用性强。
附图说明
32.图1显示为本发明的太赫兹光谱物质识别方法于一实施例中的流程图;
33.图2显示为本发明的太赫兹光谱物质识别系统于一实施例中的结构示意图;
34.图3显示为本发明的太赫兹光谱物质识别终端于一实施例中的结构示意图。
35.元件标号说明
36.21
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
获取模块
37.22
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
提取模块
38.23
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
学习模块
39.24
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
识别模块
40.31
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器
41.32
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器
具体实施方式
42.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神和技术思想下进行各种修饰或改变。
43.需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
44.本发明的太赫兹光谱物质识别方法及系统、存储介质及终端通过对大量物质的太赫兹吸收光谱数据集采用机器学习算法多次训练优化得到分类器模型,并基于训练好的分类器模块进行待识别样本物质的确定,快速高效,既能够有效降低深度学习算法在小样识别上过拟合现象严重的问题,又能够将数据集里多个样品进行同时识别分类,实用性强。
45.如图1所示,于一实施例中,本发明的太赫兹光谱物质识别方法包括以下步骤:
46.步骤s1、获取多种物质的太赫兹吸收光谱数据。
47.具体地,在本发明中首先需要采集大量物质的太赫兹吸收光谱数据,所采集的数据数量和种类越多,后续训练的分类器模型的准确度和可靠度越高。
48.于本发明一实施例中,获取多种物质的太赫兹吸收光谱数据包括以下步骤:
49.11)获取太赫兹时域光谱系统采集的多种物质的时域信号数据。
50.具体地,利用太赫兹时域光谱系统采集多种物质的时域信号数据。优选地,通过多次采集取平均值的方式来减小数据误差,确保数据的准确性。
51.12)对所述时域信号数据进行傅里叶红外光谱变换,获取太赫兹吸收光谱数据。
52.具体地,对于所述时域信号数据,首先去除由于样品厚度引起的反射峰数据,再截取有效范围数据,然后进行傅立叶红外光谱变换,得到太赫兹光谱吸收系数数据。
53.优选地,还包括对所述太赫兹光谱吸收系数数据进行字段约束,确保数据准确规范且具有关联性。
54.13)对所述太赫兹吸收光谱数据进行平滑去噪处理。
55.具体地,采用savitzky-golay算法对所述太赫兹吸收光谱数据进行平滑去噪处理。
56.优选地,还包括对平滑去噪处理得到的太赫兹吸收光谱数据进行等间取数,并由平滑去噪处理得到的太赫兹吸收光谱数据的特征信息和等间所取的数据构建新的太赫兹吸收光谱数据以进行所述分类器模型的训练。于本发明一实施例中,所述特征信息包括所述太赫兹吸收光谱数据的吸收波峰的强度、数量、面积、强度比值和面积比值中的一种或多种组合。
57.步骤s2、提取所述太赫兹吸收光谱数据的特征信息。
58.具体地,基于二分法确定所述太赫兹吸收光谱数据的吸收峰,采集所述吸收峰的强度、数量、面积、强度比值和面积比值等信息,从而得到所述太赫兹吸收光谱数据的特征信息。其中,通过吸收峰的峰高乘以半峰宽的方式计算吸收峰的面积。
59.步骤s3、对所述特征信息进行机器学习以训练用于物质识别的分类器模型。
60.具体地,将所述太赫兹吸收光谱数据划分为训练集、验证集和测试集。基于训练集的特征信息进行机器学习,训练用于物质识别的分类器模型。基于验证集的特征信息进行分类器模型的参数调整优化再训练,以提高所述分类器模型的泛化能力和准确率。基于测试集的特征信息和训练好的分类器模型进行识别,以识别测试集中的每种物质。通过上述步骤,即可得到精度符合要求的分类器模型。
61.于本发明一实施例中,基于梯度提升决策树模型(gradient boosting decision tree,简称gbdt)或轻量级梯度提升机模型(light gradient boosting machine,light,简称gbm)对所述特征信息进行机器学习。
62.步骤s4、基于训练好的分类器模型对待识别太赫兹吸收光谱数据进行识别,以实现所述待识别太赫兹吸收光谱数据对应物质的识别。
63.具体地,提取待识别太赫兹吸收光谱数据的特征信息,并输入训练好的分类器模型,即可得到待识别太赫兹吸收光谱数据对应的物质。
64.下面通过具体实施例来进一步阐述本发明的太赫兹光谱物质识别方法。
65.在该实施例中,选择二十一种氨基酸数据进行举例说明。
66.一,从国药、百灵威等试剂公司购买二十一种氨基酸的晶体粉末,每种物质按照1:10,1:15,1:20等不同比例与稀释材料混合,利用研钵搅拌将两者充分混合均匀,置于压片模具中通过压片机制成片,为防止压力过大对样品结构造成破坏,压力选用2.0mpa,压制时间2min,最后得到直径为13mm的圆形薄片,利用千分尺对药片的厚度测量三次取平均值作为最终样品厚度,利用这种方法得到多组不同的实验样品。
67.二,利用太赫兹时域光谱系统扫描步骤一中所制备的所有样品,获取每个样品的时域信号数据。在该实施例中,主要使用到的设备是太赫兹光谱仪tas7400ts和空气等离子体宽频太赫兹系统。其中,tas7400ts获得的光谱频率为0.5-4.5thz,空气等离子体宽频太赫兹系统的测量范围是1-18thz。每个样品多次扫描,不同的时间点、不同的环境温度和湿度,每种物质得到20组以上时域数据,并将数据进行预处理。
68.在太赫兹时域光谱测量过程中,以空气或者步骤一中所述稀释材料所得到的太赫兹时域信号作为参考信号,并将实际测量时得到的时域信号进行分析,去除由于样品具有一定厚度所引起的反射时域信号,最后得到不含反射信号的时域信号。时域信号包含有样
品的幅值与相位等信息,通过傅里叶变换,将样品的幅值与相位信息转化为光学参数,横坐标为频率,纵坐标可为吸收系数、折射率和介电常数。对于空气等离子体宽频太赫兹系统所获得的时域数据,以空气得到的时域信号作为参考信号,以扫描样品得到的时域信号为样品信号,将两者的时域信号通过matlab编译的脚本进行傅里叶变换,将原始信号转换为吸收的信号。另外,对于得到的太赫兹光谱吸收数据采用savitzky-gola算法进行平滑去噪。
69.三,存储步骤二中得到的相关数据。数据库里的数据主要分为实验人员信息、物质信息、样本信息、样本组成、实验条件信息、实验数据信息,分别存储在不同的数据库中不同的数据表。
70.四,将步骤三中的规范化数据利用程序进行批量提取,并构建特征信息,使用机器学习算法进行训练得到分类器模型,并将分类器模型用于未知样品中进行识别,得到未知样本名称。
71.其中,利用二分法查找平滑去噪后的太赫兹光谱吸收数据的吸收峰所在位置,获取对应位置吸收峰的强度信号,统计在有效频段内吸收峰的数量,计算吸收峰的面积,从而获取特征信息。其中,吸收峰的面积采用峰高乘以半峰宽的方法。优选地,还采用吸收峰的面积比值和吸收峰强度的比值作为特征信息。
72.如图2所示,于一实施例中,本发明的太赫兹光谱物质识别系统包括获取模块21、提取模块22、学习模块23和识别模块24。
73.所述获取模块21用于获取多种物质的太赫兹吸收光谱数据。
74.所述提取模块22与所述获取模块21相连,用于提取所述太赫兹吸收光谱数据的特征信息。
75.所述学习模块23与所述提取模块22相连,用于对所述特征信息进行机器学习以训练用于物质识别的分类器模型。
76.所述识别模块24与所述学习模块23相连,用于基于训练好的分类器模型对待识别太赫兹吸收光谱数据进行识别,以实现所述待识别太赫兹吸收光谱数据对应物质的识别。
77.其中,获取模块21、提取模块22、学习模块23和识别模块24的结构和原理与上述太赫兹光谱物质识别方法的步骤一一对应,故在此不再赘述。
78.需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际应用时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
79.例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,简称asic),或,一个或多个微处理器(digital singnal processor,简称dsp),或,一个或者多个现场可编
程门阵列(field programmable gate array,简称fpga)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,简称cpu)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称soc)的形式实现。
80.本发明的存储介质上存储有计算机程序,该程序被处理器执行时实现上述的太赫兹光谱物质识别方法。所述存储介质包括:rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
81.如图3所示,于一实施例中,本发明的太赫兹光谱物质识别终端包括:处理器31及存储器32。
82.所述存储器32用于存储计算机程序。
83.所述存储器32包括:rom、ram、磁碟、u盘、存储卡或者光盘等各种可以存储程序代码的介质。
84.所述处理器31与所述存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述太赫兹光谱物质识别终端执行上述的太赫兹光谱物质识别方法。
85.优选地,所述处理器31可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
86.综上所述,本发明的太赫兹光谱物质识别方法及系统、存储介质及终端基于训练优化得到的梯度提升决策树模型来分析太赫兹光谱,从而实现物质的定性分类识别;能够有效降低深度学习算法在小样识别上过拟合现象严重的问题;相对于传统的特征提取方式更为丰富多样;能够将数据集里多个样品进行同时识别分类;快速高效,实用性强。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
87.上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献