一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于元启发式算法的并行工业物联网大数据聚类方法与流程

2022-04-30 02:20:55 来源:中国专利 TAG:


1.本发明涉及大数据聚类领域,尤其涉及基于元启发式算法的并行工业物联网的大数据聚类方法,该方法通过模拟经过训练的军犬对可疑目标的搜索过程来寻找工业物联网中大数据的最优聚类中心,并采用面向大数据并行处理的计算框架mapreduce来处理大数据集。


背景技术:

2.随着无线通信、物联网和大数据的发展,利用高性能的数据分析工具和算法为人们提供智能服务是近年来的研究热点。在工业物联网中,通常会部署大量的传感器来收集数据,这些传感器产生的数据通常是大容量的、流形的、非结构化的。分析如此大容量的流数据是一个具有挑战性的问题。此外,从传感器获取的流数据是时间依赖的,这意味着随着时间的推移可能会失去它的模式。对这些数据的有效分析是智能产业的一个突出部分,因为它可以改善服务,降低不同流程中涉及的风险。对大量传感器采集的湿度、温度、压力和气体成分等信息进行及时、高效的分析,可以减少异常发生的几率。然而,传统的数据分析技术由于内存和处理单元的限制,无法处理这些数据集。因此,要对大型工业数据集进行高效分析,需要先进的工具和算法。
3.数据聚类是一种很有前途的分析技术,由于它不需要标记数据集,被广泛应用于解决物联网和基于大数据的问题。尽管近年来,元启发式算法被有效地用于解决各种聚类问题,但随着行业数据的巨大增长,智能产业优化任务的现实问题的复杂性也随之增加。由于计算目标函数密集,计算成本高,在处理物联网设备产生的大数据集时,这些算法无法在预期的时间内做出响应,传统的元启发式计算面临着新的挑战。为了减轻这些问题,目前研究人员正在使用并行和分布式元启发式计算。mapreduce是一种面向大数据并行处理的计算模型和方法,已成功用于管理大规模和流数据集的元启发式算法的并行计算。在过去的十年中,基于分布式系统架构hadoop和大数据并行计算框架mapreduce的并行处理模型已经被许多研究人员用于解决复杂的现实问题。
4.军犬具有极其灵敏的嗅觉,经过训练的军犬可以搜索任何物体,如炸弹、尸体、血液或货币。在没有风的情况下,它们可以通过嗅觉感知200米范围内的物体。在考虑风的因素下,根据风向和风速可以上升到1000米。本发明模拟军犬的搜索过程,并利用mapreduce结构的优势,提出了一种新的基于元启发式的聚类方法来解决工业物联网中的大数据聚类的并行计算问题。


技术实现要素:

5.本发明的目的是针对当前工业物联网中使用传统元启发式算法所面临的计算目标函数密集、计算成本高等问题,提出一种军犬启发下的工业物联网大数据聚类并行方法,该方法采用了一种新的元启发式算法,通过模拟训练过的军犬对可疑目标的搜索过程并采用mapreduce结构对大数据集进行并行计算,寻找工业物联网产生的大数据聚类的最优聚
类中心,并有效解决大型工业物联网数据集聚类的所面临的数据处理和计算复杂性问题。
6.为达到上述目的,本发明采用如下技术方案:
7.基于元启发式算法的并行工业物联网大数据聚类方法,具体步骤如下:
8.a)聚类数据准备:输入数据并进行输入分割,将数据集划分为更小的数据块以进行并行处理。将元启发式大数据聚类算法(meta-heuristic based big data clustering algorithm,mhbc)的mapreduce版本记为mr-mhbc,对mr-mhbc算法的种群进行初始化,然后将数据映射到不同节点上运行的每个映射器,以实现并行化。
9.b)聚类中心更新:在每次迭代中模拟军犬对可疑目标的搜索过程进行聚类,计算每个簇的中心,并计算簇心的适应度值。
10.c)最佳适应度求解:在每次迭代中计算每个数据点与聚类中心之间的距离,得到每个数据点与相隔最近的聚类中心的距离,也即最佳适应度值。
11.d)聚类任务合并:对分解的任务进行合并,并判断是否达到算法的终止条件。
12.所述步骤a)聚类数据准备。为采用mhbc算法,首先要初始化mhbc算法所需的各项参数,为利用mapreduce结构对大数据进行并行化处理,要将初始化参数后的数据进行分组并分配给多台机器,由于每台机器只拥有整个数据集的一部分,因此可以实现并行化。
13.所述步骤b)聚类中心更新。采用mapreduce模型计算适应度值时,mr-mhbc的每次迭代都在两个阶段中运行,即mr-mhbc-map和mr-mhbc-reduce。mr-mhbc-map阶段对任务进行分解,并对每个数据项进行适应度计算。mr-mhbc-map函数首先从存储在hdfs(hadoop分布式文件系统)中的种群中提取每个簇的中心,然后在每次迭代中模拟军犬对可疑目标的搜索过程进行聚类,检索该聚类中心的可行解向量,该向量是聚类中心的位置向量。
14.所述步骤c)最佳适应度求解。mr-mhbc-map阶段,每台机器在每次迭代中求解与聚类中心有最佳适应度的数据对象,得到(最佳数据对象id,聚类中心id)的键值对。map函数计算聚类中心与每个数据对象之间的距离,并返回所有数据对象与聚类中心的最小距离,也即最佳适应度值,map函数将该数据对象作为新的键,聚类中心点作为新的值写入键值对中。
15.所述步骤d)聚类任务合并。由mr-mhbc的第二个阶段mr-mhbc-reduce对任务进行合并,并判断是否达到算法结束的终止条件。在mr-mhbc-map阶段完成后,所有映射器的输出将由reduce函数按键合并和分组。在mr-mhbc-reduce阶段,reduce函数会对mr-mhbc-map阶段生成的每个键值对调用。reduce函数将相同键(表示同一数据对象)的所有值(表示在每台机器中与聚类中心的最小距离)聚合起来,计算整个工业物联网大数据中,每个数据对象与所有聚类中心之间的最小距离。其中,由reduce函数计算每个数据对象与各自聚类中心之间的欧氏距离的平方之和,新计算出的适应度值用于在下一次迭代中更新其他数据对象的位置向量,整个mapreduce循环被重复,这个过程一直持续,直到满足停止标准或达到最大迭代次数。
16.本发明与现有方法比较,具有如下显而易见的突出性质特点和显著的技术进步:
17.本发明利用mapreduce的优势,提出了一种新的基于元启发式的聚类方法来解决工业物联网大数据聚类并行问题,该方法模拟经过训练的军犬通过强烈的嗅觉和交流来感知可疑物体的过程,寻找工业物联网大数据的最优聚类中心,同时,本发明还利用mapreduce(mr-mhbc)对工业物联网产生的大数据集进行了并行聚类,采用mapreduce结构
处理大数据集。mr-mhbc算法在聚类大数据集方面优于其他算法,由此可见,mr-mhbc可以作为处理现实世界物联网大数据问题的替代工具,具有重要的现实意义。
18.附图
19.图1是本发明的基于元启发式算法的并行工业物联网大数据聚类方法的网络架构图。
20.图2是本发明的基于军犬的元启发式的聚类算法的流程图。
具体实施方式
21.下面结合附图对本发明的具体实施做进一步的说明。
22.如图1所示,基于元启发式算法的并行工业物联网大数据聚类方法,具体步骤如下:
23.a)聚类数据准备:输入数据并进行输入分割,将数据集划分为更小的数据块以进行并行处理。将元启发式大数据聚类算法(meta-heuristic based big data clustering algorithm,mhbc)的mapreduce版本记为mr-mhbc,对mr-mhbc算法的种群进行初始化,然后将数据映射到不同节点上运行的每个映射器,以实现并行化。
24.b)聚类中心更新:在每次迭代中模拟军犬对可疑目标的搜索过程进行聚类,计算每个簇的中心,并计算簇心的适应度值。
25.c)最佳适应度求解:在每次迭代中计算每个数据点与聚类中心之间的距离,得到每个数据点与相隔最近的聚类中心的距离,也即最佳适应度值。
26.d)聚类任务合并:对分解的任务进行合并,并判断是否达到算法的终止条件。
27.为便于对具体实施方式进行说明,首先给出如下定义:
28.定义1:mdsn定义为由n只经过训练的军犬组成的军犬群。此处军犬群的n值随时间保持不变。为得到进一步改进,未来n的值可以是可变形式。
29.定义2:mdsi:md

r:;表示军犬的嗅觉指数,它被定义为md与目标对象的距离。在其他基于元启发式的算法中,这个因素通常被称为个体的适应度。
30.定义3:fsvd定义为可行性解向量,表示训练过的军犬在所有军犬中的位置。更进一步,fsv∈rd是所有实数的集合,表示军犬在第d维的位置。
31.定义4:嗅觉感知行为δ(p,pm):md

md,表示基于最优军犬的mdsi来随机修改其他军犬的fsvd的操作。pm是运动概率,控制军犬的运动。嗅觉感知运动的数学模型定义为:
[0032][0033]
其中,r(0,1)是0和1之间的随机数,wc是风力(气味)常数,p为(0,1)范围内任意随机生成的数。
[0034]
定义5:吠声感知行为ω(pm,x,α):mdn→
md,表示经过训练的军犬的吠叫声是由适应度最高的军犬的fsvd控制的,并受到任意随机选择的军犬的影响。x∈(1,2,3...,d)为随机选取的指标,pm为保持不变的移动概率。此外,反射率是可能影响空气中声音强度的植被或烟雾因素。吠声感知行为修改军犬的可行解向量(fsvd),其定义如下:
[0035][0036]
其中,bm=(fsv
loudest-fsvq),且r(0,1)代表(0,1)范围内的随机数。
[0037]
定义6:转移方程φ=(m,d,δ,ω,pm):mdm→
mdm代表一个5元组的mds转移方程,用于更新mds的每次迭代。首先计算fsvd和mdsi。此外,修改操作符将应用于mds中的每个md,并重新定义mdsi值。
[0038]
定义7:最后,将mhbc算法定义为三元组mhbc=(h,φ,t),获取任意优化方程的解。初始群体由方程:h:

mdn,mdsin确定,并计算得出相应的mdsi。φ是先前定义的mds转移方程。h在每个军犬指定的搜索空间中生成fsv。t:mdn→
{true,false}表示算法的终止准则。
[0039]
所述步骤a)的聚类数据准备具体为:
[0040]
聚类数据的准备主要分为对数据的并行化和初始化两个部分。
[0041]
并行化处理。在物联网的第一个十年,已经引入了一些成熟的产品来开发基于物联网的系统,包括传感器、云平台和大数据分析系统。如今,我们已进入物联网的第二个十年,基于物联网系统产生的数据分析新技术是必不可少的研究课题。与此同时,工业物联网也带来了许多挑战,对于由物联网设备和传感器产生的大量非结构化数据的智能控制和管理,研究人员正在努力开发分析物联网产生的数据的有效方法。最近,一些用于大数据分析的技术和框架被引入到工业应用中。然而,在最近几年,基于物联网的数据挖掘问题的挑战已经成为研究趋势。过去的文献中引入了一些基于元启发式的算法来使用mapreduce解决计算复杂的问题,然而,对于基于物联网的框架,目前还没有文献对此进行研究。本发明提出了一种基于mhbc的工业物联网大数据聚类算法,为了对工业物联网生成的大数据集进行高效聚类,本发明引入了该算法的并行版本,命名为mr-mhbc。
[0042]
在算法的开始阶段,首先要将全部的数据进行分割,将数据集划分为更小的数据块以进行并行处理。初始化mhbc算法的所有参数。得到将问题映射到定义1和定义2中的fsvd和mds的方法,这个过程取决于问题的性质。此外,根据优化函数的性质,确定了最大种群(军犬)规模、运动概率pm、植被常数、风力因素w,再将数据及初始化参数映射到不同节点上运行的每个映射器。
[0043]
所述步骤b)的聚类中心更新具体为:
[0044]
采用mapreduce模型计算适应度值时,mr-mhbc的每次迭代分为两个阶段进行,即mr-mhbc-map和mr-mhbc-reduce。mr-mhbc-map阶段对任务进行分解,并对每个数据项进行适应度的更新计算,这一步分为聚类中心的更新和其他数据点的更新两部分。mr-mhbc对聚类中心的更新是由map函数首先从存储在hdfs(hadoop分布式文件系统)中的种群中提取每个簇的中心,然后在每次迭代中模拟军犬对可疑目标的搜索过程进行聚类,由map函数检索其对应的fsv向量,该向量代表了聚类中心的位置。
[0045]
每次迭代时的聚类过程模拟军犬的搜索过程可以分为嗅觉感知行为和吠声感知行为两个阶段。基于嗅觉感知行为在搜索空间展开搜索的过程具体为:每个md重新定义其fsv,该值由所有军犬中最大适应度的(吠声最大的)军犬所控制。在搜索过程中,每个md都进行随机游走并查看其位置。md使用嗅觉接近目标对象,且每个md可能以pm的概率向吠声最大的军犬移动。
[0046]
嗅觉感知行为之后,基于吠声感知行为在搜索空间中展开搜索:一般来说,军犬在感觉到任何可疑物体时都会大声吠叫。这种犬吠声在全局范围内传播开来,其他军犬会追随最大犬吠声的军犬,每只军犬都将根据适应度最大的(声音最大的)军犬和从队伍中随机挑选的吠叫的军犬进行移动,之后,每只军犬的fsv由吠声感知行为重新定义。
[0047]
所述步骤c)的最佳适应度求解具体为:
[0048]
mr-mhbc-map阶段的第二部分是求解每个数据对象的最佳适应度值。每台机器在每次迭代中求解与聚类中心有最佳适应度的数据对象,得到(最佳数据对象id,聚类中心id)的键值对。map函数计算聚类中心与每个数据对象之间的距离,并返回所有数据对象与聚类中心的最小距离,也即最佳适应度值,map函数将该数据对象作为新的键,聚类中心点作为新的值写入键值对中。在mr-mhbc-map阶段完成后,所有映射器的输出将按键合并和分组。
[0049]
所述步骤d)的聚类任务合并具体为:
[0050]
mr-mhbc-map的主要功能是分解任务,并在mr-mhbc-reduce阶段进行合并。在mr-mhbc-reduce阶段,reduce函数会对mr-mhbc-map阶段生成的每个键值对调用,将相同键(表示同一数据对象)的所有值(表示在每台机器中与聚类中心的最小距离)聚合起来,计算整个工业物联网大数据中,每个数据对象与所有聚类中心之间的最小距离。reduce函数计算每个数据对象与各自聚类中心之间的欧氏距离的平方之和的计算方式解释如下:
[0051]
每个军犬的fsv表示一组聚类中心,c={c1,c2,
…cm
}表示m个聚类。mdsi的值表示md的适应度(平方欧式距离),如方程(3)所示。
[0052][0053]
其中,m表示聚类的数量,n表示数据项的数量,|z
i-cj|表示第i个数据点和第j个聚类中心之间的欧式距离。之后,w
ij
表示第j个聚类中对应于第i个向量的权值。如果第i个向量属于第j类,则w
ij
的值为1,否则为0。在每次迭代中更新每个md的fsv,以提高mdsi值。新计算出的适应度值用于在下一次迭代中更新所有军犬的fsv。整个mapreduce循环被重复,这个过程一直持续,直到满足停止标准或达到最大迭代次数,返回适应度最高的md对应的fsv,该fsv表示最终聚类中心的位置。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献