工业异常数据检测方法及装置

2022-05-26 23:56:00 来源：中国专利 TAG：

1.本技术的实施例涉及工业数据处理技术领域，尤其涉及一种工业异常数据检测方法及装置。

背景技术：

2.在工业数据的处理中，往往对工业大数据中的数据点采用全局统一的参数来进行异常数据点的检测，但由于工业大数据来源广泛且分散，并且与具体工业领域紧密相关，因此对于全局统一的参数，无法有效剔除工业领域中的异常数据点。进一步地，对于在工业生产中的工业故障数据，作为具有重要意义的数据不可剔除，但相关的工业异常数据检测方法无法有效辨别需要剔除的异常数据点和不应剔除的工业故障数据。
3.基于此，需要一种能够实现准确检测工业异常数据的方案。

技术实现要素：

4.有鉴于此，本技术的目的在于提出一种工业异常数据检测方法及装置。
5.基于上述目的，本技术提供了一种工业异常数据检测方法，该方法应用于数据库，包括：
6.将采集的工业数据初始化为数据空间中的数据点，设置大于工业数据采集维度的密度阈值，初始化每个所述数据点的邻域半径；
7.对于每个所述数据点，利用与周围其他数据点在所述邻域半径上的差值确定该所述数据点的稀疏值，并利用与邻域数据点的距离确定该所述数据点的离群值，将所述稀疏值和所述离群值作为目标解；
8.对于每个所述数据点，利用所述目标解初始化个体最优解；采取群粒子算法，对所述个体最优解进行迭代；
9.响应于达到预设的迭代次数，确定每个所述数据点在最后一次迭代中的所述个体最优解，利用所述个体最优解反推出对应的所述邻域半径；
10.对于每个所述数据点，响应于所述邻域半径内的所述邻域数据点的个数小于等于所述密度阈值，确定该所述数据点为异常点。
11.基于同一发明构思，本技术还提供了一种工业异常数据检测装置，所述装置与数据库连接，并包括：初始化模块、目标解模块、迭代模块和异常点检测模块；
12.其中，所述初始化模块，被配置为将采集的工业数据初始化为数据空间中的数据点，设置大于工业数据采集维度的密度阈值，初始化每个所述数据点的邻域半径；
13.所述目标解模块，被配置为利用每个所述数据点与周围其他数据点在所述邻域半径上的差值确定该所述数据点的稀疏值，并利用每个所述数据点与邻域数据点的距离确定该所述数据点的离群值，将所述稀疏值和所述离群值作为目标解；
14.所述迭代模块，被配置为利用所述目标解初始化每个所述数据点的个体最优解；采取群粒子算法，对所述个体最优解进行迭代；响应于达到预设的迭代次数，确定每个所述
数据点在最后一次迭代中的所述个体最优解，利用所述个体最优解反推出对应的所述邻域半径；
15.所述异常点检测模块，被配置为响应于每个所述数据点在其所述邻域半径内的所述邻域数据点的个数小于等于所述密度阈值，确定该所述数据点为异常点。
16.从上面所述可以看出，本技术提供的工业异常数据检测方法及装置，基于mopso(多目标粒子群算法)和dbscan(基于密度的聚类方法)进行设计，综合考虑了每个数据点的不同情况，为每个数据点设置各自的邻域半径，并为每个数据点设计稀疏值和离群值作为目标解，基于帕累托支配原则来进行全局最优解和个体最优解的选取，并结合迭代过程，得到每个数据点各自的邻域半径，使得每个数据点均可利用其各自的邻域半径进行异常数据的评价，从而提高了对于异常数据的检测准确性。
17.进一步地，mopso算法能够结合dbscan，在检测异常数据时完成对数据聚类的有效分簇，并利用聚类的分簇过程，对数据集中数据的任意两个属性也即维度进行关联分析，得到关联性最强的两个属性，分析出两关联的属性所代表的数据是否同时异常，如果同时异常，则为工业故障数据，不可剔除；否则为传输或者传感器采集故障数据，需剔除这类无效数据。
附图说明
18.为了更清楚地说明本技术或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1为本技术实施例的工业异常数据检测方法的流程图；
20.图2为本技术实施例的工业异常数据检测装置模块示意图；
21.图3为本技术实施例的电子设备结构示意图。
具体实施方式
22.为使本技术的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本技术进一步详细说明。
23.需要说明的是，除非另外定义，本技术的实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。
24.如背景技术部分所述，相关的工业异常数据检测方法还难以满足工业生产中对于大数据的异常数据检测的需要。
25.申请人在实现本技术的过程中发现，相关的工业异常数据检测方法存在的主要问题在于：现代工业过程中，可以采集到大量的工程数据。但是由于周围环境的变化、人为操
作不当，传感器异常等原因，使得采集到的数据出现异常，因此必须对这些异常数据进行清理，才可以进行有效的数据分析。
26.在dbscan(基于密度的聚类方法)的异常数据(也称异常点)检测方法中，需要涉及eps(邻域半径)和minpts(密度阈值)两个参数，在相关的方法中，往往对eps和minpts进行全局性的设置，也即对待检测数据集中的所有数据设置相同或相近的数值，但申请人研究发现，该参数对结果的影响具有很大的敏感性，并且由于将eps和minpts进行全局性的设置，将会导致密度大的数据点的eps与密度小的数据点eps相同，因此统一的全局eps会淹没部分离群的数据点，也即淹没可能存在的异常数据。
27.进一步的，申请人在研究中还发现，对于不同密度的数据点设置不同的eps时，能够有效地检测出离群的异常点，并且基于工业大数据的特点，为不同密度的数据点设置不同的eps的方法，十分适用于工业领域的大数据检测。
28.具体地，由于工业大数据来源广泛且分散，与具体工业领域紧密相关，工业领域的复杂性会导致各种各样的异常点数据，不同异常点数据的密度差距较大，若使用统一的全局eps值，对一些异常数据将无法有效的进行剔除，因此工业大数据集中的数据点需要设置独立的eps，确保有效地剔除异常数据；同时，异常数据并非都是无效数据，一些异常数据为工业故障数据，对工业故障分析有巨大的意义，不可剔除，因此，对异常数据的检测，不能统一进行剔除处理，还需要识别出工业故障所产生的错误数据，以将该错误数据与异常数据割裂开。
29.并且，由于工业领域中数据集的数据量十分巨大，还需要在处理异常数据时，有效降低其处理时间和处理复杂度，并且若将异常数据的检测与数据的聚类有效结合，可以降低工作成本，提高处理效率。
30.可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
31.以下，通过具体的实施例，来详细说明本技术的技术方法。
32.参考图1，本技术一个实施例的工业异常数据检测方法，包括以下步骤：
33.步骤s101、将采集的工业数据初始化为数据空间中的数据点，设置大于工业数据采集维度的密度阈值，初始化每个所述数据点的邻域半径。
34.在本技术的实施例中，采用电芯智能制造数据作为具体的示例，在电芯智能制造中，需要利用卷绕机进行芯片的卷绕工序，以将正极极片、负极极片进行隔膜组装制造，形成基本的电芯。
35.其中，影响该卷绕工序的因素可以包括：正极片长度、负极片长度、绝缘阻抗、下隔膜长度、第一对齐度、第二对齐度和第三对齐度等。
36.在本实施例中，在每次卷绕工序的数据采集中，将上述7个影响该卷绕工序的因素作为数据采集时的7个数据维度。
37.进一步地，对于每一次卷绕工序所采集的数据作为一条数据，因此每条数据包括了7个维度的单个数据；并且，将多次卷绕工序所采集的多条数据作共同合并为待处理的工业数据集，形成如下所示的表1，并存入数据库中。
38.表1卷绕工序的工业数据集
39.负极片长度绝缘阻抗测试下隔膜长度对齐度2正极片长度对齐度1对齐度3
8344.55043.8008850.6403.13908074.3150.4241.7558347.7141220.008858.2682.92208075.8400.8221.7298344.96539.1008852.463.14008074.6150.5141.7558345.9361650.0008857.1282.86808075.0310.9471.7568346.23539.1008853.0563.16608074.7080.4481.7288345.8901700.0008856.7662.86708077.1330.7701.7298344.2031740.0008856.2143.22108075.1920.3961.7568345.1961170.0008855.9552.81008076.0010.8741.8128344.34245.4008856.8873.22008074.1530.4551.7838346.0271030.0008855.2472.97708076.3480.7281.8128343.85643.6008856.5413.13908075.2390.3961.7838345.5901550.0008861.4602.83708075.9090.8671.8408345.0121700.0008857.6292.97408074.8690.7181.8118345.8441750.0008861.2702.92208076.2780.8811.7858345.0351740.0008858.8023.02908075.4470.7731.8408345.6581740.0008862.5292.72808075.2621.0021.8408344.8731720.0008858.1983.05508075.7700.7941.8408345.7041080.0008864.5662.78208075.7010.9431.7848343.9261770.0008859.1822.97108075.0780.6411.840
40.进一步地，将数据库中所采集的工业数据集初始化为在数据空间中表达的数据，具体地，将每条数据作为数据空间中的一个数据点，并采用欧氏距离算法，为每两个数据点之间赋予距离。
41.在本实施例的卷绕工序的示例中，表1中的每行作为该工业数据集在数据空间中的1个数据点，其中，每个数据点具备7个维度。
42.进一步地，依据dbscan(基于密度的聚类方法)对采集的工业数据集中的数据进行处理。
43.具体地，为工业数据集设置minpts(密度阈值)，并将此minpts作为该工业数据集中每个数据点的minpts，在dbscan算法中，minpts设置为大于工业数据集的维度，可以设置为大于数据采集维度加1，或等于数据采集维度加1。
44.在本实施例的卷绕工序的示例中，将minpts设置为等于数据采集维度加1，也即minpts＝8。
45.进一步地，对工业数据集中各个数据点的eps值进行初始化，以启动下述的迭代过程。
46.在本实施例中，对eps的初始化可以利用随机函数等方式为每个数据点随机选取，也可以计算每个数据点与其他数据点在距离上的平均值，并将该平均值作为eps的初始化值。
47.步骤s102、对于每个所述数据点，利用与周围其他数据点在所述邻域半径上的差值确定该所述数据点的稀疏值，并利用与邻域数据点的距离确定该所述数据点的离群值，将所述稀疏值和所述离群值作为目标解。
48.在本公开的实施例中，通过将mopso(多目标粒子群算法)与dbscan算法相结合的方式来得到邻域半径。
49.首先，为工业数据集中的每个数据点设计稀疏值和离群值，以衡量每个数据点成为异常数据的可能性，在本技术中，异常数据也可称作异常点或异常数据点。
50.进一步地，对于每个数据点，将稀疏值和离群值的测量结果共同作为目标解，并基于pareto(帕累托)支配原则，在多个目标解中得出非劣解，也即非支配解，并将pareto支配原则与mopso相结合，以得到最佳的邻域半径。
51.具体地，测量每个数据点的稀疏值时，首先按照距离待测量数据点从近到远的顺序，确定该数据点周围的多个其他数据点，并分别计算与其他数据点在邻域半径上的差值，利用该差值对数据点的稀疏值进行测量；其中，该待测量的数据点与其周围某个数据点的差值越大，则表明两者之间的差异越大，并进一步地，对多个差值进行求和，若该求和的结果越大，则表明该当前的数据点与其周围其他数据点的差异越大，差异越大则越有可能成为异常点。
52.在本实施例中，选取周围多个数据点的个数时，可以根据minpts的数值，选取与minpts数值相等的数据点。
53.进一步地，基于上述论述，设计了如下公式用以对于稀疏值进行计算：
[0054][0055]
其中，epsi表示待测量数据点的邻域半径，epsj表示待测量数据点周围的其他数据点的邻域半径，并在计算上对两者的差值取绝对值，并对于得到的绝对值求和，将计算得到的f1作为该当前的数据点的稀疏值。
[0056]
进一步地，当f1越小，则该数据点成为异常点的可能性越大。
[0057]
进一步地，测量每个数据点的离群值时，首先确定当前待测量数据点其eps内的全部其他数据点，计算该待测量数据点与其他数据点之间的距离之和，并利用距离之和对待测量的数据点的离群值进行测量，其中，当距离值越大时，则表明待测量的数据点越有可能成为异常点。
[0058]
进一步地，基于上述论述，设计了如下公式用以对于离群值进行计算：
[0059][0060]
其中，xi表示待测量的数据点，xj表示该待测量的数据点eps内的其他数据点，并将计算得到的f2作为该待测量的数据点的离群值。
[0061]
进一步地，当f2越小，则该数据点成为异常点的可能性越大。
[0062]
进一步地，将得到的稀疏值和离群值共同作为目标解，以衡量数据点为异常点的可能性。
[0063]
步骤s103、对于每个所述数据点，利用所述目标解初始化个体最优解；采取群粒子算法，对所述个体最优解进行迭代。
[0064]
在本技术的实施例中，可以利用迭代过程，将min(f1，f1)作为目标，在目标解中迭
代出最佳的全局最优解和个体最优解，将较小或最小的目标解作为个体最优解，得到最佳的个体最优解所对应的邻域半径。
[0065]
首先，由于本实施例中的迭代过程是基于mopso的dbscan算法，因此，可以在迭代中将每个数据点的目标解作为一个粒子。
[0066]
进一步地，若本次迭代为首次迭代时，需要对各个数据点的个体最优解进行初始化，并启动对个体最优解的迭代。
[0067]
其中，可以将得到的各个数据点的目标解作为其个体最优解的初始化值；并利用随机函数对各个粒子也即目标解的速度进行初始化，同时，为了便于理解，可以将各个数据点的邻域半径看作mopso中粒子的位置。
[0068]
需要说明的是，对于邻域半径、粒子速度和个体最优解的初始化可以在启动迭代后，在第一次迭代的过程中进行，也可以先对上述各项参考量进行初始化，再启动迭代过程，在本实施例中，迭代过程与初始化的操作在顺序上仅作为示例性的表述，同时也可以有其他的操作顺序。
[0069]
在本技术的实施例中，可以采取pareto支配原则，在每次迭代的全部目标解中选出全部的非支配解，将其构成非支配解集合，并在非支配解集合中选出全局最优解。
[0070]
具体地，根据pareto支配原则，在本次迭代的全部目标解中，若存在一个目标解的稀疏值和离群值均同时达到最小，也即不存在任意其他目标解的稀疏值比该目标解的稀疏值大，也不存在任意其他目标解的离群值比该目标解的离群值小，则可以认为该目标解可以支配其他所有目标解，并将该目标解作为本次迭代的全部目标解中唯一的非支配解。
[0071]
进一步地，在每次迭代的全部目标解中，若不存在一个目标解的稀疏值和离群值均同时达到最小，则寻找稀疏值和离群值中任一项达到最小的目标解。
[0072]
其中，可以出现的情况是，在本次迭代的全部目标解中，稀疏值达到最小的目标解有至少一个，但该目标解的离群值未达到最小，而离群值达到最小的目标解有至少一个，但该目标解的离群值未达到最小，对于这些稀疏值和离群值中任一项达到最小的目标解，它们中的任何一个目标解均无法支配其他任意目标解，也不被其他任意目标解所支配，因此，可以将这类目标解均作为非支配解。
[0073]
进一步地，构建非支配解集合，并将所有非支配解放入该非支配解集合中，在本实施例中，该非支配解集合中包括了历次迭代所得到的全部非支配解。
[0074]
进一步地，在每次迭代中，将计算出的稀疏值的最大值和最小值作为横坐标的范围，将计算出的离群值的最大值和最小值作为纵坐标的范围，构成目标空间，并进一步利用均匀的网格，将该目标空间等分为多个子区域，其中，网格的大小稀疏可以根据具体需求进行调整。
[0075]
其中，构成目标空间时，也可以将离群值作为横坐标，将稀疏值作为纵坐标。
[0076]
进一步地，根据粒子各自的稀疏值和离群值，可以确定各个粒子在目标空间中的位置，也即该粒子所在的子区域。
[0077]
进一步地，确定每个子区域中所包含的粒子数目，并将粒子数目作为该子区域中各个粒子的空间密度值，若粒子数目越多，则该空间密度值越大，反之越小。
[0078]
之后，可以根据上述的pareto支配原则，按照空间密度值越小越优的原则，在所有粒子中选择空间密度值最小的，作为全局最优解。
[0079]
在本公开的实施例中，在每次迭代中，可以依据mopso，利用个体最优解和全局最优解对粒子的速度进行更新。
[0080]
具体地，可以采取如下的速度更新公式：
[0081]vi 1
＝ω
×vi
c1×
rand()
×
(pbest
i-epsi) c2×
rand()
×
(gbest
i-epsi)
[0082]
其中，ω表示惯性因子，c1和c2表示学习因子，在本实施例中c1和c2可以取2，v
i 1
表示本次迭代的速度，vi表示上一次迭代的速度，gbesti表示上一次迭代的全局最优解所对应的邻域半径，pbesti表示上一次迭代的个体最优解所对应的邻域半径，epsi表示上一次迭代的邻域半径，在速度更新公式中的邻域半径也代表了粒子的位置。
[0083]
进一步地，速度更新公式的第一部分，也即“ω
×vi”部分，可以称为记忆项，表示上次速度大小和方向的影响，其中，惯性因子的值可以影响寻找最优结果的范围，若其值较大，则全局寻优能力强，局部寻优能力弱；若其值较小，则全局寻优能力弱，局部寻优能力强，并且可以采用动态的惯性因子，以获得更好的寻优结果；公式的第二部分，也即“c1×
rand()
×
(pbest
i-epsi)”部分，可以称为自身认知项，是从当前点指向粒子自身最好点的一个矢量，表示粒子的动作来源于自己经验的部分；公式的第三部分，也即“c2×
rand()
×
(gbest
i-epsi)”部分，可以称为群体认知项，是一个从当前点指向种群最好点的矢量，反映了粒子间的协同合作和知识共享。
[0084]
进一步地，采取如下位置更新公式，利用速度对粒子的位置进行更新：
[0085]
eps
i 1
＝v
i 1
epsi[0086]
其中，eps
i 1
表示为本次迭代的邻域半径，v
i 1
表示本次迭代的速度，epsi表示上一次迭代的邻域半径，在位置更新公式中的邻域半径表征了粒子在mopso迭代方法中的位置概念。
[0087]
进一步地，利用本次迭代中粒子的邻域半径，在下一次迭代中对稀疏值和离群值的进行计算更新。
[0088]
在本实施例中，若本次迭代非首次迭代时，对于每次迭代中的个体最优解，可以通过比对本次迭代的目标解和历史迭代的个体最优解得到。
[0089]
具体地，依据上述的pareto支配原则，来对该数据点在本次迭代的目标解和历史迭代中的个体最优解进行比对，将其中的非支配解作为本次迭代的个体最优解，并将其放入非支配解集合中。
[0090]
其中，可以为非支配解集合设计溢出阈值，当非支配解集合中的非支配解个数超过预先设置的溢出阈值时，则不再加入新的非支配解到非支配解集合中。
[0091]
步骤s104、响应于达到预设的迭代次数，确定每个所述数据点在最后一次迭代中的所述个体最优解，利用所述个体最优解反推出对应的所述邻域半径。
[0092]
在本技术的实施例中，还可以在迭代启动时，为迭代设计最大迭代次数：gmax；当迭代次数到达gmax时，即停止对个体最优解和全局最优解的迭代，并获取最后一次迭代时的个体最优解。
[0093]
在完成迭代后，对于每个数据点，确定出个体最优解所对应的邻域半径作，利用该邻域半径进行数据异常点的检测。
[0094]
步骤s105、对于每个所述数据点，响应于所述邻域半径内的所述邻域数据点的个数小于等于所述密度阈值，确定该所述数据点为异常点。
[0095]
在本公开的实施例中，对于每个数据点，可以利用密度阈值衡量该数据点是否异常。
[0096]
具体地，对于每个数据点，利用上述得到的邻域半径，确定其邻域半径内其他数据点的个数。
[0097]
进一步地，当其他数据点的个数小于等于预先设置的密度阈值时，则认为该数据点为异常点。
[0098]
在本实施例中，对于异常点的检测，可以通过遍历每个数据点，逐个进与密度阈值进行比较，也可以结合dbscan算法，将聚类与检测相结合的方式进行。
[0099]
其中，遍历每个数据点进行异常检测会导致效率降低，运算成本高，但可以实现在不进行聚类分簇的情况下完成对异常点的检测，而结合dbscan算法的异常点检测可以同时解决对数据的聚类分簇和异常点检测，基于常规的工业需求，本实施例中优选结合dbscan算法的方式。
[0100]
具体地，对于每1个数据点，在dbscan迭代初始时，可以设置未访问的标签，并调用上述得到的关于该数据点的邻域半径，遍历该数据点在邻域半径内的全部第一邻域数据点，并确定全部第一邻域数据点的个数。
[0101]
进一步地，当第一邻域数据点的个数小于等于密度阈值时，则可以将该数据点确定为异常点，构建异常数据集，并将该数据点放入异常数据集中；当第一邻域数据点的个数大于密度阈值时，则不将该数据点确定作为异常数据，并构建关于该数据点的目标类簇，并且，将该数据点作为第一邻域数据点的核心数据点。
[0102]
进一步地，再对每1个第一邻域数据点进行分析，以完成聚类过程。
[0103]
具体地，调用上述得到的每个第一邻域数据点的邻域半径，遍历每个第一邻域数据点在其邻域半径内的全部第二邻域数据点，并确定全部第二邻域数据点的个数。
[0104]
进一步地，对于每个第一邻域数据点，当其第二邻域数据点的个数小于等于密度阈值，则可以确定该第一邻域数据点为异常数据，并放入异常数据集中；当其第二邻域数据点的个数大于密度阈值，则可以确定该第一邻域数据点为非异常数据，并将该第一邻域数据点放入目标类簇中，其中，此时的目标类簇应为该第一邻域数据点所对应的核心数据点的目标类簇，也即上述构建的目标类簇。
[0105]
在本技术的另一个实施例中，利用工业异常数据检测方法对多个工业数据集进行异常数据的检测。
[0106]
在本实施例中，在多维度，多个工业数据集的情况下，判断异常数据时，还可以预先对全部工业数据中的多个属性也即维度进行关联性的分析，并将关联性最强的多个属性各自所代表的数据点集中进行判断，当这类多个数据点同时出现异常时，则可以将这类数据点视为工业故障数据，从而将其从异常数据中排除。
[0107]
具体地，基于表1所示卷绕工序的工业数据集，根据皮尔逊相关系数的计算，将负极片长度和正极片长度判定为相关性最大的两个属性，也即维度。
[0108]
进一步地，将负极片长度与绝缘阻抗、下隔膜长度、对齐度1、对齐度2和对齐度3组成维度为6的工业数据集1，将正极片长度与绝缘阻抗、下隔膜长度、对齐度1、对齐度2和对齐度3组成维度为6的工业数据集1。
[0109]
进一步地，通过计算得出工业数据集1中数据点的欧氏距离矩阵d1，以及工业数据
集2中数据点的欧氏距离矩阵d2，其中，d1和d2是一个n阶矩阵，d1中第i行表示d1中的第i条数据(也称第i条数据点)与其他数据点的距离。
[0110]
进一步地，使用与上一个实施例中相同的mopso迭代方法计算工业数据集1和工业数据集2中每个数据点的eps。
[0111]
进一步地，使用与上一个实施例中相同的dbscan算法进行异常数据的检测。
[0112]
进一步地，当数工业据集1中的所有数据都检测完成后，可以得到如表2所示的工业数据集1的异常数据点。
[0113]
表2工业数据集1的异常数据点
[0114]
绝缘阻抗下隔膜长度对齐度2正极片长度对齐度1对齐度354.80008851.70902.46208029.66501.29101.408056.60008850.96802.32708029.27201.34601.320053.90008851.89902.35608029.08701.44201.353051.90008851.50202.34808029.66501.23201.320053.70008853.45202.42708028.83301.15801.379056.80008851.12302.39008029.36401.20101.320055.40008853.17702.38808029.08701.30801.426056.50008853.10702.52508028.85601.18901.434054.70008854.66002.55108029.41101.15401.375052.90008854.60802.55108029.45701.20601.4590
[0115]
进一步地，对工业数据集2以上述方式同样进行处理，并得到表3所示的工业数据集2的异常数据点。
[0116]
表3工业数据集1的异常数据点
[0117]
负极片长度绝缘阻抗下隔膜长度对齐度2对齐度1对齐度38322.863054.80008851.70902.46201.29101.40808322.332056.60008850.96802.32701.34601.32008322.563055.20008853.59102.42301.21101.48508321.870056.60008856.61002.48801.11101.43408321.386053.70008853.45202.42701.15801.37908321.731059.80008848.56801.96401.74001.10108322.354051.80008850.20801.95001.54101.05408322.354056.50008853.10702.52501.18901.43408322.309054.70008854.66002.55101.15401.37508321.408052.90008854.60802.55101.20601.4590
[0118]
进一步地，提取工业数据集1和工业数据集2中的公共异常点，也即上述关联性较强的两个属性所代表的数据集中的异常数据点，并以如下的表4所示。
[0119]
表4工业数据集1和工业数据集2的公共异常点
[0120]
负极片长度绝缘阻抗下隔膜长度对齐度2正极片长度对齐度1对齐度38322.863054.80008851.70902.46208029.66501.29101.4080
8322.332056.60008850.96802.32708029.27201.34601.32008321.386053.70008853.45202.42708028.83301.15801.37908322.354056.50008853.10702.52508028.85601.18901.43408322.309054.70008854.66002.55108029.41101.15401.37508321.408052.90008854.60802.55108029.45701.20601.4590
[0121]
进一步地，可以将上述表4中的公共异常点作为工业故障数据，并作为重要的工业分析数据，交由相关的故障分析人员进行分析，并将该工业故障数据排除在异常点之外。
[0122]
可见，本技术的实施例的工业异常数据检测方法，基于mopso(多目标粒子群算法)和dbscan(基于密度的聚类方法)进行设计，综合考虑了每个数据点的不同情况，为每个数据点设置各自的邻域半径，并为每个数据点设计稀疏值和离群值作为目标解，基于帕累托支配原则来进行全局最优解和个体最优解的选取，并结合迭代过程，得到每个数据点各自的邻域半径，使得每个数据点均可利用其各自的邻域邻域半径进行异常数据的评价，从而提高了对于异常数据的检测准确性。
[0123]
进一步地，能够结合dbscan，在检测异常数据时完成对数据聚类的有效分簇，并利用聚类的分簇过程，对数据集中数据的任意两个属性也即维度进行关联分析，得到关联性最强的两个属性，分析出两关联的属性所代表的数据是否同时异常，如果同时异常，则为工业故障数据，不可剔除；否则为传输或者传感器采集故障数据，需剔除这类无效数据。
[0124]
需要说明的是，本技术的实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术的实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0125]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0126]
基于同一发明构思，与上述任意实施例方法相对应的，本技术的实施例还提供了一种工业异常数据检测装置。
[0127]
参考图2，所述工业异常数据检测装置与数据库连接，该装置可以包括：初始化模块、目标解模块、迭代模块和异常点检测模块。
[0128]
其中，所述初始化模块201，被配置为将采集的工业数据初始化为数据空间中的数据点，设置大于工业数据采集维度的密度阈值，初始化每个所述数据点的邻域半径。
[0129]
所述目标解模块202，被配置为利用每个所述数据点与周围其他数据点在所述邻域半径上的差值确定该所述数据点的稀疏值，并利用每个所述数据点与邻域数据点的距离确定该所述数据点的离群值，将所述稀疏值和所述离群值作为目标解。
[0130]
所述迭代模块203，被配置为利用所述目标解初始化每个所述数据点的个体最优解；采取群粒子算法，对所述个体最优解进行迭代；响应于达到预设的迭代次数，确定每个所述数据点在最后一次迭代中的所述个体最优解，利用所述个体最优解反推出对应的所述邻域半径。
[0131]
所述异常点检测模块204，被配置为响应于每个所述数据点在其所述邻域半径内的所述邻域数据点的个数小于等于所述密度阈值，确定该所述数据点为异常点。
[0132]
其中，迭代模块203，具体被配置为：在所述目标解中确定全局最优解；
[0133]
根据帕累托支配原则，采取越小越优的支配方式，得到所述目标解中的非支配解，并在迭代中一直保留，在历史迭代的全部所述非支配解中确定本次迭代的全局最优解；
[0134]
初始化每个所述目标解在首次迭代的速度；
[0135]
利用上次迭代的所述速度、所述邻域半径、所述个体最优解和所述全局最优解计算本次迭代的所述速度，利用本次迭代的所述速度和上次迭代的所述邻域半径计算本次迭代的所述邻域半径，并更新每个所述目标解；
[0136]
根据帕累托支配原则，采取越小越优的支配方式，在每个所述数据点当前迭代的所述目标解和历史迭代的所述个体最优解中确定本次迭代的所述个体最优解，并执行下一次迭代。
[0137]
异常点检测模块204，具体被配置为：遍历每个数据点在其所述邻域半径内的第一邻域数据点；
[0138]
响应于确定所述第一邻域数据点的个数小于等于所述密度阈值，将该所述数据点作为所述异常点，并放入异常数据集中；
[0139]
响应于确定所述第一邻域数据点的个数大于所述密度阈值，不将该所述数据点作为所述异常点，并构建关于该所述数据点的目标类簇；
[0140]
对于每个所述第一邻域数据点，确定在其所述邻域半径内的第二邻域数据点的个数；
[0141]
响应于确定所述第二邻域数据点的个数小于等于所述密度阈值，将该所述第一邻域数据点作为所述异常点，并放入所述异常数据集中；
[0142]
响应于确定所述第二邻域数据点的个数大于所述密度阈值，不将该所述第一邻域数据点作为所述异常点，并将该所述第一邻域数据点放入关于该所述数据点的所述目标类簇中。
[0143]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0144]
上述实施例的装置用于实现前述任一实施例中相应的工业异常数据检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0145]
基于同一发明构思，与上述任意实施例方法相对应的，本技术的实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的工业异常数据检测方法。
[0146]
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0147]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术实施例所提供的技术方案。
[0148]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本技术实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0149]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0150]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0151]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0152]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本技术实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0153]
上述实施例的装置用于实现前述任一实施例中相应的工业异常数据检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0154]
基于同一发明构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的工业异常数据检测方法。
[0155]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0156]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的工业异常数据检测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0157]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术的实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0158]
另外，为简化说明和讨论，并且为了不会使本技术的实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术的实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术的实施例
的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术的实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0159]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0160]
本技术的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术的实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种文本相似度检测方法、计算设备及存储介质与流程

工业异常数据检测方法及装置

相关文献

最热文献