一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于特征库的设备自动识别和扩容方法与流程

2022-09-04 09:28:43 来源:中国专利 TAG:


1.本发明涉及一种基于特征库的设备自动识别和扩容方法,属于工控自动化领域。


背景技术:

2.随着物联网技术的迅速发展,越来越多的边缘设备向着网络化、智能化的方向发展,边缘端联网设备接入的工作量迅速增多。现有边缘设备识别方法主要是基于特征库中设备特征信息进行识别,且只能对设备特征库中已知设备进行识别,未在设备库内的设备无法进行识别。
3.近年来,越来越多未知的、私有的网络通信协议设备接连不断的出现,边缘设备的多样化和异构发展趋势不仅使协议识别分析的难度增加,而且协议特征提取的工作量急速增长,给制造企业自动化升级改造带来了前所未有的挑战。同时,随着接入设备类型的增加,需要不断对设备特征库进行升级。然而,目前设备特征库缺乏自动更新机制,对如此大量的设备特征提取工作是极其繁重和枯燥的,需要大量的人工完成。
4.边缘异构设备的识别是建立物联网连接的重要前提,由于不同类别的边缘设备的协议、性能等千差万别,各不相同,因此针对边缘设备的识别应当采取分类的策略,而进行分类管理的第一步就是对设备类型的准确识别,在网络空间中快速、准确地识别出设备,细粒度地判断其设备属性,既有助于设备库不断扩容,支持更多设备接入,又能减轻技术人员提取设备特征的工作量,提高工作效率。
5.申请号为202110974559.4的发明专利申请提出了一种配电网物联终端设备实时探测识别方法与系统。该专利申请更多关注电力配电网领域,依据现有的配电网物联终端设备基础信息库,通过对比量化方法,实现对在线终端设备的识别,增加配电网运行的可信度和透明度。但设备基础信息库缺乏自动更新机制。
6.申请号为202010187111.3的发明专利申请提出了一种终端设备识别系统及其方法。该专利申请对于设备特征库中的未知设备,创建监控模块与设备之间的对应关系,实现终端设备快速识别和配置,提高终端设备批量组网及集成管理的效率,未涉及设备库更新机制。
7.申请号为202011643313.0的发明专利申请提出了一种特征库更新方法、装置、网络设备及可读存储介质。该专利申请更多关注网络安全技术领域,通过在网络设备的共享内存的指定数据结构中,加载并编译用于替换第一特征库的第二特征库,并设置同步锁,改善在对特征库更新期间的网络安全问题。但其特征库更新方法不适用于工控领域边缘设备自动识别和特征库扩容的需求。


技术实现要素:

8.本发明要解决的技术问题是:现有边缘设备识别方法中,设备特征库缺乏自动更新机制,但随着接入设备类型的增加,需要不断对设备特征库进行升级。
9.为了解决上述技术问题,本发明的技术方案是提供了一种基于特征库的设备自动
识别和扩容方法,其特征在于,包括以下步骤:
10.步骤1、将物联网设备的特征报文抽象成为一个由特征词构成的词频向量,经过特征工程处理后,将物联网设备信息转化为多维特征向量的形式,基于已接入设备业务的积累,在云端建立设备特征库;
11.步骤2、当新的物联网设备上线后,通过样本采集模块获取物联网设备的http响应包作为原始样本;
12.步骤3、由特征提取模块提取原始样本的样本特征:
13.特征提取模块提取http响应包中能够反映物联网设备的信息,随后利用特征工程得到与之对应的向量化的词向量信息作为样本特征;
14.步骤4、由数据预处理模块对特征提取模块提取的样本特征进行预处理,将文本类型的样本特征转化为数值类型的样本特征,从而将物联网设备信息转化为多维特征向量;
15.步骤5、算法识别模块以当前上线物联网设备的多维特征向量作为输入,将该多维特征向量与设备特征库中已知类型的标记物联网设备的多维特征向量进行特征匹配,若当前上线物联网设备的多维特征向量与设备特征库中已知类型的任意标记物联网设备的多维特征向量一致,则当前上线物联网设备属于已知设备,实现对当前上线物联网设备的识别,否则,当前上线物联网设备属于未知设备,算法识别模块使用改进约束种子k-means识别算法进行向量相似度计算,对当前上线物联网设备进行识别分类,该改进约束种子k-means识别算法使用两个多维特征向量的余弦相似度来度量相似度,并基于余弦相似度利用k-means识别算法进行聚类;聚类时,当未知设备所对应的多维特征向量与某一已知设备类型的簇的聚类中心的余弦相似度值大于给定阈值ε时,则将未知设备归入该簇,当前未知设备的设备类型为簇所对应的设备类型,并基于当前未知设备的多维特征向量生成对应的设备和通信特征存入指定区域;当未知设备所对应的多维特征向量与所有簇的聚类中心的余弦相似度值都不大于给定阈值ε时,说明当前未知设备属于新的设备类别,基于当前未知设备的多维特征向量自动新建新的设备类型后,将当前未知设备归入新的设备类型,再基于当前未知设备的多维特征向量生成对应的设备和通信特征存入指定区域;
16.步骤6、人工读取存入指定区域的设备和通信特征,并获取新的设备类型,对未知设备的生产厂家、设备类别、型号、通信特征等信息进行人工校对,并人工确认对于未知设备的分类以及新的设备类型是否正确;待人工进行干预确认后,实现对未知设备的识别,再将新的设备类型、已识别的未知设备的设备和通信特征自动更新到设备特征库中,从而实现设备特征库的半自动扩容。
17.优选地,所述步骤2包括以下步骤:
18.步骤201、样本采集模块在整个ip地址空间中进行端口扫描,获取无标记的未知物联网设备的ip地址,加入设备特征库中已知类型的标记物联网设备的ip地址后形成设备ip地址集;
19.步骤202、样本采集模块向设备ip地址集中所有ip地址发送请求,获取完整的http响应包头部作为对应上线物联网设备的原始样本。
20.优选地,所述步骤3包括以下步骤:
21.步骤301、特征提取模块统计http响应包中的头字段总数,并去除冗余信息;
22.步骤302、特征提取模块从所有头字段中选取出现频率最高的字段作为设备特征
信息,随后经过特征工程处理得到与之对应的向量化的词向量信息,该向量化的词向量信息即为原始样本的样本特征。
23.优选地,所述步骤5中,向量x和向量y的余弦相似度cosθ采用下式计算:
[0024][0025]
式中,xi、yi分别为向量x和向量y中的第i个元素。
[0026]
在未知设备接入后,本发明能够与设备库中已有设备特征进行相似度对比,采用设备识别规则和识别算法模型相结合,对于已知设备进行识别。而对未知设备,在特征向量空间模型下,本发明按相似性准则对未知设备类型进行分类管理,锁定或缩小待识别设备的范围,自动生成设备特征信息并存入指定区域,待人工进行干预确认后,自动更新到设备库中。相比全人工提取设备特征,异构边缘设备接入的工作量减轻至少原来的一半。因此,本发明能够克服现阶段设备特征库无法自动扩容的问题,更好地提升边缘设备接入和配置的管理效率。
[0027]
具体而言,与现有技术相比,本发明具有如下有益效果:
[0028]
(1)未知设备上线后,云端驱动扫描获得设备的原始样本的信息,对特征数值进行向量化处理,并以设备的多维特征向量作为输入,采用改进约束种子k-means识别算法进行向量相似度计算,根据设备特征的相似度程度,对未知设备进行分组,缩小设备范围。
[0029]
(2)设备库扩容,由原来全部由人工进行未知设备特征提取,变成机器识别算法先对未知设备进行分组定义,并自动生成未知设备特征存入指定区域,缩小范围,再由人工干预,实现设备库半自动扩容,极大的减轻现场人员的工作量。
附图说明
[0030]
图1为本发明提供的设备库扩容方法示意图;
[0031]
图2为本发明所采用的识别算法流程图。
具体实施方式
[0032]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0033]
传统基于现有特征库规则方法识别设备存在新设备识别类型有限、扩展性差等问题。综合物联网设备信息的特点,在向量空间模型下,本发明采用一种改进约束种子k-means识别算法,在原有k-means识别算法的基础上,引入余弦距离函数作为相似性度量函数,余弦距离更关注方向上的差异,而对绝对的数值不敏感,这种优化算法弥补了不同设备样本间可能存在的度量标准不统一的问题,选取余弦距离作为距离衡量标准提升设备聚类效果,提高新设备类别的发现能力。
[0034]
基于上述原理,本发明提供的一种基于特征库的设备自动识别和扩容方法主要包括以下几个关键点:一是云端设备库的配置;二是边缘设备的识别;三是改进k-means识别算法对未知设备的分类管理,具体包括以下步骤:
[0035]
步骤1、将物联网设备的特征报文抽象成为一个由特征词构成的词频向量,经过特征工程处理后,将物联网设备信息转化为多维特征向量的形式,基于已接入设备业务的积累,在云端建立设备特征库。
[0036]
步骤2、当物联网设备上线后,通过样本采集模块获取物联网设备的原始样本,包括以下步骤:
[0037]
步骤201、样本采集模块在整个ip地址空间中进行端口扫描,获取无标记的未知物联网设备的ip地址,加入设备特征库中已知类型的标记物联网设备的ip地址后形成设备ip地址集;
[0038]
步骤202、样本采集模块向设备ip地址集中所有ip地址发送请求,获取完整的http响应包头部作为对应上线物联网设备的原始样本。
[0039]
步骤3、由特征提取模块提取原始样本的样本特征:
[0040]
特征提取模块提取http响应包中能够反映物联网设备的信息作为样本特征,包括以下步骤:
[0041]
步骤301、特征提取模块统计http响应包中的头字段总数,并去除冗余信息,以降低计算复杂度,提高设备识别效率;
[0042]
步骤302、特征提取模块从所有头字段中选取出现频率最高的字段作为设备特征信息,随后经过特征工程处理得到与之对应的向量化的词向量信息,该向量化的词向量信息即为原始样本的样本特征。
[0043]
步骤4、由数据预处理模块对特征提取模块提取的样本特征进行预处理,将文本类型的样本特征转化为数值类型的样本特征,从而将物联网设备信息转化为多维特征向量。
[0044]
本发明通过数据预处理模块将文本内容转化为多维向量空间中的向量,而多维向量空间中两个向量的相似度可以用来表示所对应的文本内容的相似度。因此,本发明所提供的算法识别模块采用改进k-means识别算法,实现设备类别识别。
[0045]
步骤5、算法识别模块以当前上线物联网设备的多维特征向量作为输入,将该多维特征向量与设备特征库中已知类型的标记物联网设备的多维特征向量进行特征匹配,若当前上线物联网设备的多维特征向量与设备特征库中已知类型的任意标记物联网设备的多维特征向量一致,则当前上线物联网设备属于已知设备,实现对当前上线物联网设备的识别,否则,当前上线物联网设备属于未知设备,算法识别模块使用改进约束种子k-means识别算法进行向量相似度计算,对当前上线物联网设备进行识别分类。
[0046]
传统k-means识别算法,多采用向量之间的欧式距离作为衡量指标。假设物联网设备一和物联网设备二所对应的多维特征向量分别为x和y,且向量x和向量y为n维向量,则向量x和向量y分别表示为x(x1,x2,

,xn)和y(y1,y2,

,yn),采用下式计算向量x和向量y之间的欧式绝对距离d(x,y)
*

[0047][0048]
xi、yi分别为向量x和向量y中的第i个元素。
[0049]
但欧式绝对距离更多地反映个体数值特征的绝对差异,并不适用于物联网设备信息的数据集。
[0050]
本发明的改进约束种子k-means识别算法采用对比多维特征向量的余弦相似度,通过衡量投射到一个多维空间中的两个向量之间夹角的余弦值来度量它们之间的相似度。向量x和向量y的余弦相似度cosθ采用下式计算:
[0051][0052]
当向量x和向量y的夹角为0
°
时,余弦相似度cosθ的值是1;当向量x和向量y夹角为90
°
时,余弦相似度cosθ的值为0;当向量x和向量y指向完全相反时,余弦相似度cosθ的值为-1。没有归一化时,余弦相似度值的范围在[-1,1]之间,该值越趋近于1,代表两个向量的方向越接近;值越趋近于-1,它们的方向相反;值接近于0,表示两个向量近乎于正交。
[0053]
欧氏距离和余弦相似度具有不同的计算方法和衡量特征,两个相似文本可能由于本身包含数据量的差异在欧式距离上相距甚远,但它们之间却具有较小的夹角,因而具有很高的余弦相似度。欧氏距离更多地反映个体数值特征的绝对差异,而余弦相似度更关注于向量方向上的差异,而对绝对的数值不敏感,这一特点弥补了不同设备样本间可能存在的度量标准不统一的问题。
[0054]
因此,本发明的改进约束种子k-means识别算法选用余弦相似度对于两个物联网设备所对应的多维特征向量做相似性分析,对设备进行识别。
[0055]
例如:物联网设备一和物联网设备二所对应的多维特征向量分别是向量a和向量b,a=(7,0,5,3,10,0,1,0,0)和b=(3,0,2,1,4,0,0,0,1),则有:
[0056]a·
b=7
×
3 0
×
0 5
×
2 3
×
1
……0×
1=74
[0057][0058][0059][0060]
由此可知,选用余弦相似度对于物联网设备一和物联网设备二所对应的多维特征向量做相似性分析,发现二者高度相似,与实际情况相符。故选取余弦相似度作为度量未知设备与设备特征库中已知类型的标记物联网设备的相似程度,并依据余弦相似对未知设备进行分类。
[0061]
(a)当未知设备所对应的多维特征向量与设备特征库中任意类型的标记物联网设备所对应簇的聚类中心的多维特征向量的余弦相似度值大于给定阈值ε时(本实施例中,ε=0.9),则将未知设备归入该簇,当前未知设备的类型为簇所对应的类型,并基于当前未知设备的多维特征向量生成对应的设备和通信特征存入指定区域。
[0062]
(b)当未知设备所对应的多维特征向量与设备特征库中所有类型的标记物联网设备所对应的所有簇的聚类中心的多维特征向量的余弦相似度值都不大于给定阈值ε时,说明当前未知设备属于新的设备类别,基于当前未知设备的多维特征向量自动新建新的设备类型后,将当前未知设备归入新的设备类型,再基于当前未知设备的多维特征向量生成对应的设备和通信特征存入指定区域;
[0063]
步骤6、人工读取存入指定区域的设备和通信特征,并获取新的设备类型,对未知
设备的生产厂家、设备类别、型号、通信特征等信息进行人工校对,并人工确认对于未知设备的分类以及新的设备类型是否正确。待人工进行干预确认后,实现对未知设备的识别,再将新的设备类型、已识别的未知设备的设备和通信特征自动更新到设备特征库中,从而实现设备特征库的半自动扩容,极大地减轻现场人员的工作量。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献