一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

不平衡数据与图像处理方法、系统及计算机设备与流程

2022-03-30 10:27:33 来源:中国专利 TAG:

技术特征:
1.一种不平衡数据与图像处理方法,其特征在于,包括以下步骤:1)对不平衡数据集o进行预处理;2)对预处理后的不平衡数据集o使用基于豪斯多夫距离的最大分布算法进行处理,确定需构建的rbf神经网络数据生成模型的参数;所述参数包括rbf神经网络数据生成模型的隐层神经元,每个隐层神经元对应的类别、输出权值和对角分布矩阵,以及每个隐层神经元与对应输出神经元之间的连接权重;3)基于步骤2)的结果构建rbf神经网络数据生成模型;4)使用构建的rbf神经网络数据生成模型结合mvnrnd函数进行数据生成,得到生成的样本集合s;5)将生成的样本集合s填充到原始不平衡数据集o中,获得处理后的平衡数据集o
s
,o
s
=o∪s。2.根据权利要求1所述的不平衡数据与图像处理方法,其特征在于,所述步骤1)具体为:对不平衡数据集o中数值属性的缺失值使用同类样本该属性的均值进行补全;对于序数属性和标称属性的缺失值,使用同类样本该属性出现频率最高的值进行补全;数据补全完成后,对序数属性和标称属性进行顺序编码;采用基于pyradiomics工具包将对不平衡数据集o中的图像数据转化为数值型数据添加到o中,使用z-score方法对所有属性进行标准化,得到预处理后的数据集d;使用向量l
mean
和l
std
分别保存每个属性的均值和标准差,并保存序数属性和标称属性的顺序编码方式。3.根据权利要求2所述的不平衡数据与图像处理方法,其特征在于,所述步骤2)具体包括:2-1)假设数据集d中有n个输入样本{x
n
,n=1,2,

,n},每个样本有m个属性,每个样本属于c类中的一类,第c类的样本个数为n
c
,c=1,2,

,c;2-2)将数据集中的样本根据所属类别进行划分,得到属于第c类的样本组成的数据子集d
c
,c=1,2,

,c;进行初始化,令当前的类别索引c=0,当前的隐层神经元个数p=0;2-3)令c=c 1;2-4)令p=p 1,计算d
c
和其他样本间的豪斯多夫距离h
p
,对应的样本作为第c类新增的一个隐层神经元中心k
p
;计算d
c
中所有样本到k
p
的欧式距离,记录距离小于h
p
对应的所有样本构成的子集d
c
,并将d
c
从d
c
中删除;以d
c
中样本数量作为k
p
与对应类别的输出神经元之间的连接权重w
p
,k
p
与其他类别的输出神经元之间的连接权值为0;计算d
c
中每一维属性的方差v
m
,组成k
p
对应的对角分布矩阵2-5)如果d
c
中剩下的样本个数不为0,则回到步骤c;否则,检查c是否等于c,如果c<c,则回到步骤2-3),如果c=c,则算法终止。4.根据权利要求3所述的不平衡数据与图像处理方法,其特征在于,所述步骤3)具体包
括:3-1)根据数据集d中的每个样本有m个属性,确定rbf神经网络数据生成模型的输入层具有m个输入神经元,每个神经元对应于一个属性;3-2)根据数据集d共有c个类别,确定rbf神经网络数据生成模型的输出层具有c个输出神经元,每个神经元对应于一个类别;3-3)根据步骤2)的结果,得到p个隐层神经元{k1,k2,

,k
p-1
,k
p
}及其对应的类别和输出权值{w1,w2,

,w
p-1
,w
p
},以及对应的p个对角分布矩阵{v1,v2,

,v
p-1
,v
p
},确定p个隐层神经元的参数{(k1,v1),(k2,v3),

,(k
p-1
,v
p-1
),(k
p
,v
p
)},以及每个隐层神经元与对应输出神经元之间的连接权重{w1,w2,

,w
p-1
,w
p
}。5.根据权利要求4所述的不平衡数据与图像处理方法,其特征在于,所述步骤4)具体包括:4-1)设置各类别需要生成的样本数量s
c
,c=1,2,

,c;进行初始化,令当前的隐层神经元中心索引p=0,生成的样本集合元中心索引p=0,生成的样本集合表示空集;4-2)令p=p 1,假设当前隐层神经元中心k
p
属于类别c,则k
p
对应的生成样本数量为4-3)生成的样本矩阵其中每个样本均属于类别c;将合并到生成的样本集合s中,检查p是否等于p,如果p<p,则回到步骤4-2);如果p=p,则得到完整的生成样本集合s,执行下一步;4-4)根据预处理时保存的所有属性的均值向量l
mean
和标准差l
std
,对s进行逆标准化;根据序数属性和标称属性的顺序编码方式,将s中对应的数值转换回序数属性和标称属性的原始值。6.一种不平衡数据与图像处理系统,其特征在于,其采用如权利要求1-5中任意一项所述的方法进行不平衡数据的处理,该系统包括:数据预处理模块,其用于按照所述步骤1)的方法对不平衡数据集o进行预处理,得到数据集d;最大分布算法模块,其用于按照所述步骤2)的方法确定需构建的rbf神经网络数据生成模型的参数;网络模型构建模块,其按照所述步骤3)的方法构建得到rbf神经网络数据生成模型;rbf神经网络数据生成模型,其结合mvnrnd函数,按照所述步骤4)的方法根据原始不平衡数据集的分布自适应地生成新的数据集合s;以及数据后处理模块,将生成的样本集合s填充到原始不平衡数据集o中,获得处理后的平衡数据集o
s
。7.一种存储介质,其上存储有计算机程序,其特征在于,该程序被执行时用于实现如权利要求1-5中任意一项所述的方法。8.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任意一项所述的方法。

技术总结
本发明公开了一种不平衡数据与图像处理方法、系统及计算机设备,该包括以下步骤:1)对不平衡数据集O进行预处理;2)使用基于豪斯多夫距离的最大分布算法确定RBF神经网络数据生成模型的参数;3)构建RBF神经网络数据生成模型;4)使用构建的RBF神经网络数据生成模型结合mvnrnd函数生成样本集合S;5)将生成的样本集合S填充到原始不平衡数据集O中,获得处理后的平衡数据集O


技术研发人员:戴亚康 钱旭升 周志勇 胡冀苏 姜宇
受保护的技术使用者:中国科学院苏州生物医学工程技术研究所
技术研发日:2021.12.07
技术公布日:2022/3/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献