一种基于SOINN神经元分类错误机制的混合采样方法

2022-11-09 22:48:32 来源：中国专利 TAG：

一种基于soinn神经元分类错误机制的混合采样方法
技术领域
1.本发明涉及人工智能与机器学习技术领域，尤其涉及一种基于soinn神经元分类错误机制的混合采样方法。

背景技术：

2.传统的机器学习分类方法通常是在数据类别平衡的情况下进行，但在实际应用中，不同类别数据集的数量相差很大。类别不平衡问题会导致部分机器学习算法进行分类时，在少数样本上的效果比较差。若数据不平衡度过大，在使用目前常见的分类器时，所有样本均可能被识别为多数类。
3.常见的数据平衡方法有欠采样、过采样和混合采样。其中，欠采样的目的是减少多数类样本中的一些数据，随机子集选取是最为简单的一种方法，这种方法的不足之处是可能会破坏数据分布情况，丢失的数据可能是对分类器贡献较大的多数类样本，影响分类性能可能丢失对分类器贡献较大的多数类样本。过采样用来扩充少数类样本，随机过采样则是随机地增加少数类来扩大样本空间，这样会导致冗余数据的产生。混合采样是对两种方法的结合，得到的样本不能很好地反映原数据特性。
4.因此，有效解决数据不平衡问题对于提升分类器性能非常重要。

技术实现要素：

5.有鉴于此，本发明提供了一种基于soinn神经元分类错误机制的混合采样方法，以解决现有技术中欠采样可能会破坏数据分布情况，过采样会导致冗余数据的产生，混合采样得到的样本不能很好地反映原数据特性的技术问题。
6.本发明提供了一种基于soinn神经元分类错误机制的混合采样方法，包括：s1.对初始的带标签数据进行预处理，并根据数据规模划分为第一多数类样本集和第一少数类样本集，所述标签用于标识数据的类别；s2.采用soinn算法对所述第一多数类样本集中的每个样本集分别进行压缩，得到多个第二多数类样本集qi，查找所述第二多数类样本集中样本数量最多的样本集q
max
，对于q
max
之外的其他各个第二多数类样本集qi，分别从所述第一多数类样本集中抽取与该样本集qi类别相同的样本加入该样本集qi中，直到所述第二多数类样本集中的所有样本集qi的样本数量均与q
max
的样本数量相等，其中，i表示多数类样本集的类别编号；s3.采用smote算法对所述第一少数类样本集中的每个样本集进行扩充，得到多个第二少数类样本集pj，对于每个所述第二少数类样本集pj，分别从所述第一少数类样本集中抽取与该样本集pj类别相同的样本加入该样本集pj中，直到所述第二少数类样本集中的所有样本集pj的样本数量均与q
max
的样本数量相等，其中，j表示少数类样本集的类别编号；s4.将所述第二多数类样本集qi和所述第二少数类样本集pj合并，得到初始的平衡样本集w0；s5.采用所述初始的平衡样本集w0训练分类算法，得到初始分类器h0；
s6.根据初始分类器h0的分类结果更新所述初始的平衡样本集w0以得到更新的平衡样本集w1，并基于所述更新的平衡样本集w1重新训练所述分类算法，得到更新的分类器h1，如此迭代训练多次后，最终获得更新的平衡样本集wn和更新的分类器hn；s7.输出所述更新的平衡样本集wn和所述更新的分类器hn。
7.进一步地，所述s1中，所述初始的带标签数据包括不同类别的不平衡数据集；所述预处理包括数值化和标准化。
8.进一步地，所述s6包括：s61.令滑动窗口在所述第一多数类样本上滑动设定距离后，取滑动窗口展现的设定数量m个第一多数类样本作为测试集，输入至所述初始分类器h0中进行测试；s62.将测试得到的分类错误的样本加入与该样本类别相同的第二多数类样本集qs中，对于该样本集qs之外的其他各个第二多数类样本集qi，i≠s，分别从所述第一多数类样本中抽取与该样本集qi类别相同的样本加入该样本集qi中，得到更新的第二多数类样本集qi，直到所述更新的第二多数类样本集中所有样本集qi的样本数量均相等；s63.对于第二少数类样本集pj，分别从所述第一少数类样本集中抽取与该样本集pj类别相同的样本加入该样本集pj中，得到更新的第二少数类样本集pj，直到更新的第二少数类样本集pj中所有样本集的样本数量均与所述更新的第二多数类样本集qi中所有样本集的样本数量相等；s64.将所述更新的第二多数类样本集qi和所述更新的第二少数类样本集pj合并为新的平衡样本集w1，利用所述新的平衡样本集w1重新训练所述分类算法，得到新的分类器h1；s65.不断重复步骤s61-s64，直至所有滑动窗口滑动结束，最终获得更新的分类器hn和更新的平衡样本集wn。
9.进一步地，当所述第一多数类样本集中的样本集类别数量大于1时，对所述第一多数类样本集中的各类别样本集，分别设置不同的滑动距离，使得所述第一多数类样本集中的各类别样本集的滑动窗口同时滑动结束。
10.进一步地，所述第一多数类样本集中的各类别样本集的滑动窗口同时滑动结束的判定条件包括：各类别样本集的滑动次数同时达到设定滑动次数。
11.进一步地，所述设定滑动次数的计算式如下：其中，si表示第一多数类的个数，w表示窗口大小，l表示步长。
12.进一步地，所述s62和所述s63中的所述抽取都是不放回地抽取。
13.进一步地，所述s5中的分类算法包括决策树和bp神经网络算法。
14.本发明与现有技术相比存在的有益效果是：1、本发明提出方法将采样方法与分类器相结合，通过迭代的方式来不断优化分类器，实现其在线增强。
15.2、本发明采用smote算法和soinn算法相结合，采样过程避免破坏数据分布情况，
不会导致冗余数据的产生；3、本发明采用增量聚类的学习方式来提取有代表性的样本，学习过程中能够自动保存已学知识，且充分考虑了样本的整体特性，形成的少量样本较好地保留了原始数据的特性，总体分类性能更优越。
附图说明
16.为了更清楚地说明本发明中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
17.图1是本发明实施例提供的一种基于soinn神经元分类错误机制的混合采样方法的流程图。
具体实施方式
18.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本发明实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。
19.下面结合附图详细说明根据本发明的一种基于soinn神经元分类错误机制的混合采样方法。
20.图1是本发明实施例提供的一种基于soinn神经元分类错误机制的混合采样方法的流程图。如图1所示，该混合采样方法包括：s1.对初始的带标签数据进行预处理，并根据数据规模划分为第一多数类样本集和第一少数类样本集，所述标签用于标识数据的类别；所述初始的带标签数据包括不同类别的不平衡数据集；其中，采集的网络流量，包括若干类别的不平衡样本集，通过预先设置的阈值，将若干类别的样本集合划分为第一多数类样本集和第一少数类样本集。
21.其中，关于不平衡样本集，例如，有两个类别，a类别有10000个数据，b类别有100个数据，这样的数据集就是不平衡数据集，判断的的标准是不平衡度，上面的例子不平衡度的计算为10000/100=100，不平衡度越小，表示数据越平衡。
22.所述预处理包括数值化和标准化。
23.s2.采用soinn算法对所述第一多数类样本集中的每个样本集分别进行压缩，得到多个第二多数类样本集qi，查找所述第二多数类样本集中样本数量最多的样本集q
max
，对于q
max
之外的其他各个第二多数类样本集qi，分别从所述第一多数类样本集中抽取与该样本集qi类别相同的样本加入该样本集qi中，直到所述第二多数类样本集中的所有样本集qi的样本数量均与q
max
的样本数量相等，其中，i表示多数类样本集的类别编号；例如，当i=3时，即所述第一多数类样本集包含两种类别的样本集时，采用soinn算法对所述两种样本集分别进行压缩，压缩后得到第二多数类样本集q1和q2，且q1＞q2，令第二多数类样本集q2从所述第一多数类样本集中抽取q2类别的样本，直到抽取样本之后的第
二多数类样本集q2的样本数量和第二多数类样本集q1的样本数量相等。
24.s3.采用smote算法对所述第一少数类样本集中的每个样本集进行扩充，得到多个第二少数类样本集pj，对于每个所述第二少数类样本集pj，分别从所述第一少数类样本集中抽取与该样本集pj类别相同的样本加入该样本集pj中，直到所述第二少数类样本集中的所有样本集pj的样本数量均与q
max
的样本数量相等，其中，j表示少数类样本集的类别编号；例如，当少数类样本集包含两种类别的样本集时，即j=2时，采用smote算法对每一个少数类样本集进行扩充，得到第二少数类样本集p1和p2，直到所述第二少数类样本集p1和p2中的样本数量相等，且等于所述第二多数类样本集q1的样本数量。
25.本发明采用soinn算法以在线的方式动态地更新网络，能够不影响之前的学习效果。
26.s4.将所述第二多数类样本集qi和所述第二少数类样本集pj合并，得到初始的平衡样本集w0；示例性地，当所述第一多数类样本集经压缩并如步骤s2处理后，得到第二多数类样本集qi，例如，当i=3时，即所述第二多数类样本集qi中包含3种类别的第二多数类样本集时，若在所述第二多数类样本集中的每一个多数类样本集包含c个样本，则第二多数类样本集中共包含样本数量为3c；当所述第一少数类样本集经扩充并如步骤s3处理后，得到第二少数类样本集pi，例如，当i=5时，即所述第一少数类样本集pi中包含5种类别的第二少数类样本集时，在第二少数类样本集中的每一个少数类样本集包含c个样本，则第二少数类样本集中共包含样本数量为5c；将3c和5c的样本合并，得到初始的平衡样本集w0。
27.s5.采用所述初始的平衡样本集w0训练分类算法，得到初始分类器h0；所述s5中的分类算法包括决策树和bp神经网络算法。
28.s6.根据初始分类器h0的分类结果更新所述初始的平衡样本集w0以得到更新的平衡样本集w1，并基于所述更新的平衡样本集w1重新训练所述分类算法，得到更新的分类器h1，如此迭代训练多次后，最终获得更新的平衡样本集wn和更新的分类器hn；s61.令滑动窗口在所述第一多数类样本上滑动设定距离后，取滑动窗口展现的设定数量m个第一多数类样本作为测试集，输入至所述初始分类器h0中进行测试；令滑动窗口在所述第一多数类样本上滑动设定距离后，滑动窗口展现多少数量的所述多数类样本qs，就取多少数量的所述多数类样本作为测试集，输入至所述初始分类器h0中进行测试。所述设定距离和滑动窗口展现第一多数类样本的数量均为根据需要设定。例如，设定数量为m个。
29.当所述第一多数类样本集中的样本集类别数量大于1时，对第一多数类样本集中的各类别样本集，分别设置不同的滑动距离，使得所述第一多数类样本集中的各类别样本集的滑动窗口同时滑动结束。
30.所述第一多数类样本集中的各类别样本集的滑动窗口同时滑动结束的判定条件包括：各类别样本集的滑动次数同时达到设定滑动次数。
31.所述滑动次数的计算式如下：
其中，si表示第一多数类的个数，w表示窗口大小，l表示步长。
32.s62.将测试得到的分类错误的样本加入与该样本类别相同的第二多数类样本集qs中，对于该样本集qs之外的其他各个第二多数类样本集qi，i≠s，分别从所述第一多数类样本中抽取与该样本集qi类别相同的样本加入该样本集qi中，得到更新的第二多数类样本集qs，直到所述更新的第二多数类样本集中所有样本集qs的样本数量均相等；示例性地，若测试得到的分类错误的样本，则将该分类错误的样本加入与该样本类别相同的第二多数类样本集qs中，例如，当i=3时，分类错误的样本是第二多数类样本集q1中的样本，则将分类错误的样本放入第二多数类样本集q1中，对于第二多数类样本集q2和q3从所述第一多数类样本集qi中，分别抽取与第二多数类样本集q2和q3样本类别相同的样本，加入所述第二类多数类样本集q2和q3中，得到更新的第二多数类样本集q2和q3，且在所述更新的第二多数类样本集qs中，q1、q2和q3的样本数量相等。
33.s63.对于第二少数类样本集pj，分别从所述第一少数类样本集中抽取与该样本集pj类别相同的样本加入该样本集pj中，得到更新的第二少数类样本集pj，直到更新的第二少数类样本集pj中所有样本集的样本数量均与所述更新的第二多数类样本集qi中所有样本集的样本数量相等；示例性地，当j=5时，对于第二少数类样本集p1、p2、p3、p4和p5从所述第一少数类样本集pj中，分别抽取与第一少数类样本集p1、p2、p3、p4和p5样本类别相同的样本，加入所述第二少数类样本集p1、p2、p3、p4和p5中，得到更新的第二少数类样本集pj，并且更新的第二少数类样本集p1、p2、p3、p4和p5中的样本数量都相等，且等于所述更新的第二多数类样本集qi中任一样本集的样本数量。
34.所述s62和所述s63的所述抽取，都是不放回地抽取。
35.s64.将所述更新的第二多数类样本集qi和所述更新的第二少数类样本集pj合并为新的平衡样本集w1，利用所述新的平衡样本集w1重新训练所述分类算法，得到新的分类器h1；s65.不断重复步骤s61-s64，直至所有滑动窗口滑动结束，最终获得更新的分类器hn和更新的平衡样本集wn。
36.s7.输出所述更新的平衡样本集wn和所述更新的分类器hn。
37.本发明提出方法将采样方法与分类器相结合，通过迭代的方式来不断优化分类器，实现其在线增强；采用smote算法和soinn算法相结合，采样过程避免破坏数据分布情况，不会导致冗余数据的产生；本发明采用增量聚类的学习方式来提取有代表性的样本，学习过程中能够自动保存已学知识，且充分考虑了样本的整体特性，形成的少量样本较好地保留了原始数据的特性，总体分类性能更优越。
38.上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
39.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
40.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于大数据分析用的服务器防护装置的制作方法

一种基于SOINN神经元分类错误机制的混合采样方法

相关文献

最热文献