不平衡数据与图像处理方法、系统及计算机设备与流程

2022-03-30 10:27:33 来源：中国专利 TAG：

技术特征：
1.一种不平衡数据与图像处理方法，其特征在于，包括以下步骤：1)对不平衡数据集o进行预处理；2)对预处理后的不平衡数据集o使用基于豪斯多夫距离的最大分布算法进行处理，确定需构建的rbf神经网络数据生成模型的参数；所述参数包括rbf神经网络数据生成模型的隐层神经元，每个隐层神经元对应的类别、输出权值和对角分布矩阵，以及每个隐层神经元与对应输出神经元之间的连接权重；3)基于步骤2)的结果构建rbf神经网络数据生成模型；4)使用构建的rbf神经网络数据生成模型结合mvnrnd函数进行数据生成，得到生成的样本集合s；5)将生成的样本集合s填充到原始不平衡数据集o中，获得处理后的平衡数据集o
s
，o
s
＝o∪s。2.根据权利要求1所述的不平衡数据与图像处理方法，其特征在于，所述步骤1)具体为：对不平衡数据集o中数值属性的缺失值使用同类样本该属性的均值进行补全；对于序数属性和标称属性的缺失值，使用同类样本该属性出现频率最高的值进行补全；数据补全完成后，对序数属性和标称属性进行顺序编码；采用基于pyradiomics工具包将对不平衡数据集o中的图像数据转化为数值型数据添加到o中，使用z-score方法对所有属性进行标准化，得到预处理后的数据集d；使用向量l
mean
和l
std
分别保存每个属性的均值和标准差，并保存序数属性和标称属性的顺序编码方式。3.根据权利要求2所述的不平衡数据与图像处理方法，其特征在于，所述步骤2)具体包括：2-1)假设数据集d中有n个输入样本{x
n
,n＝1,2,
…
,n}，每个样本有m个属性，每个样本属于c类中的一类，第c类的样本个数为n
c
，c＝1,2,
…
,c；2-2)将数据集中的样本根据所属类别进行划分，得到属于第c类的样本组成的数据子集d
c
，c＝1,2,
…
,c；进行初始化，令当前的类别索引c＝0，当前的隐层神经元个数p＝0；2-3)令c＝c 1；2-4)令p＝p 1，计算d
c
和其他样本间的豪斯多夫距离h
p
，对应的样本作为第c类新增的一个隐层神经元中心k
p
；计算d
c
中所有样本到k
p
的欧式距离，记录距离小于h
p
对应的所有样本构成的子集d
c
，并将d
c
从d
c
中删除；以d
c
中样本数量作为k
p
与对应类别的输出神经元之间的连接权重w
p
，k
p
与其他类别的输出神经元之间的连接权值为0；计算d
c
中每一维属性的方差v
m
，组成k
p
对应的对角分布矩阵2-5)如果d
c
中剩下的样本个数不为0，则回到步骤c；否则，检查c是否等于c，如果c＜c，则回到步骤2-3)，如果c＝c，则算法终止。4.根据权利要求3所述的不平衡数据与图像处理方法，其特征在于，所述步骤3)具体包
括：3-1)根据数据集d中的每个样本有m个属性，确定rbf神经网络数据生成模型的输入层具有m个输入神经元，每个神经元对应于一个属性；3-2)根据数据集d共有c个类别，确定rbf神经网络数据生成模型的输出层具有c个输出神经元，每个神经元对应于一个类别；3-3)根据步骤2)的结果，得到p个隐层神经元{k1,k2,
…
,k
p-1
,k
p
}及其对应的类别和输出权值{w1,w2,
…
,w
p-1
,w
p
}，以及对应的p个对角分布矩阵{v1,v2,
…
,v
p-1
,v
p
}，确定p个隐层神经元的参数{(k1,v1),(k2,v3),
…
,(k
p-1
,v
p-1
),(k
p
,v
p
)}，以及每个隐层神经元与对应输出神经元之间的连接权重{w1,w2,
…
,w
p-1
,w
p
}。5.根据权利要求4所述的不平衡数据与图像处理方法，其特征在于，所述步骤4)具体包括：4-1)设置各类别需要生成的样本数量s
c
，c＝1,2,
…
,c；进行初始化，令当前的隐层神经元中心索引p＝0，生成的样本集合元中心索引p＝0，生成的样本集合表示空集；4-2)令p＝p 1，假设当前隐层神经元中心k
p
属于类别c，则k
p
对应的生成样本数量为4-3)生成的样本矩阵其中每个样本均属于类别c；将合并到生成的样本集合s中，检查p是否等于p，如果p＜p，则回到步骤4-2)；如果p＝p，则得到完整的生成样本集合s，执行下一步；4-4)根据预处理时保存的所有属性的均值向量l
mean
和标准差l
std
，对s进行逆标准化；根据序数属性和标称属性的顺序编码方式，将s中对应的数值转换回序数属性和标称属性的原始值。6.一种不平衡数据与图像处理系统，其特征在于，其采用如权利要求1-5中任意一项所述的方法进行不平衡数据的处理，该系统包括：数据预处理模块，其用于按照所述步骤1)的方法对不平衡数据集o进行预处理，得到数据集d；最大分布算法模块，其用于按照所述步骤2)的方法确定需构建的rbf神经网络数据生成模型的参数；网络模型构建模块，其按照所述步骤3)的方法构建得到rbf神经网络数据生成模型；rbf神经网络数据生成模型，其结合mvnrnd函数，按照所述步骤4)的方法根据原始不平衡数据集的分布自适应地生成新的数据集合s；以及数据后处理模块，将生成的样本集合s填充到原始不平衡数据集o中，获得处理后的平衡数据集o
s
。7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被执行时用于实现如权利要求1-5中任意一项所述的方法。8.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任意一项所述的方法。

技术总结
本发明公开了一种不平衡数据与图像处理方法、系统及计算机设备，该包括以下步骤：1)对不平衡数据集O进行预处理；2)使用基于豪斯多夫距离的最大分布算法确定RBF神经网络数据生成模型的参数；3)构建RBF神经网络数据生成模型；4)使用构建的RBF神经网络数据生成模型结合mvnrnd函数生成样本集合S；5)将生成的样本集合S填充到原始不平衡数据集O中，获得处理后的平衡数据集O

技术研发人员：戴亚康钱旭升周志勇胡冀苏姜宇
受保护的技术使用者：中国科学院苏州生物医学工程技术研究所
技术研发日：2021.12.07
技术公布日：2022/3/29

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于数字物理混合仿真的智能变电站一次平台仿真方法与流程

不平衡数据与图像处理方法、系统及计算机设备与流程

相关文献

最热文献