一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

少数类样本处理方法、装置、设备和存储介质与流程

2022-03-16 02:42:43 来源:中国专利 TAG:

技术特征:
1.一种少数类样本处理方法,其特征在于,包括:确定少数类训练样本集中不同原始少数类样本之间的距离数据;根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。2.根据权利要求1所述的方法,其特征在于,所述根据各所述距离数据,分别确定各所述原始少数类样本的采样权重,包括:根据各所述距离数据,分别确定各所述原始少数类样本的累计距离数据;根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度;根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重。3.根据权利要求2所述的方法,其特征在于,所述根据各所述累计距离数据,分别确定各原始少数类样本的边界偏离程度,包括:获取各所述累计距离数据中的最大值;将所述最大值与各所述累计距离数据的差值,作为边界距离值;根据所述边界距离值,确定对应原始少数类样本的所述边界偏离程度。4.根据权利要求3所述的方法,其特征在于,所述根据所述边界距离值,确定对应原始少数类样本的所述边界偏离程度,包括:确定各所述累计距离数据中的最大距离差值;根据所述边界距离值与所述最大距离差值的比值,确定相应原始少数类样本的所述边界偏离程度。5.根据权利要求2所述的方法,其特征在于,所述根据各所述边界偏离程度,分别确定各所述原始少数类样本的采样权重,包括:根据各所述边界偏离程度,确定累计边界偏离程度;根据所述边界偏离程度与所述累计边界偏离程度的比值,确定相应原始少数类样本的采样权重。6.根据权利要求1所述的方法,其特征在于,所述根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本,包括:根据预设合成样本总量和各所述采样权重,分别确定各原始少数类样本的采样数量;根据各所述采样数量,分别以相应原始少数类样本为根样本,生成合成少数类样本。7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:将所述至少一个合成少数类样本添加至所述少数类训练样本集中,以更新所述少数类训练样本集;根据更新后的少数类训练样本集,对待训练分类模型进行训练,得到目标分类模型。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:识别各所述合成少数类样本中的异常合成样本;从更新后的少数类训练样本集中剔除所述异常合成样本,以再次更新少数类训练样本集;将再次更新后的少数类训练样本集中的样本作为原始少数类样本,返回执行距离数据确定操作,直至满足迭代截止条件。9.根据权利要求8所述的方法,其特征在于,所述识别各所述合成少数类样本中的异常
合成样本,包括:将各所述合成少数类样本输入至所述目标分类模型,得到各所述合成少数类样本的合成预测类别;根据所述合成少数类样本的合成预测类别和合成真实类别,确定异常合成样本。10.根据权利要求8所述的方法,其特征在于,在所述识别各所述合成少数类样本中的异常合成样本之前,所述方法还包括:对所述目标分类模型进行模型评价;相应的,所述识别各所述合成少数类样本中的异常合成样本,包括:若模型评价结果符合优化迭代条件,则识别各所述合成少数类样本中的异常合成样本。11.根据权利要求10所述的方法,其特征在于,所述对所述目标分类模型进行模型评价,包括:将测试样本输入至所述目标分类模型,得到测试预测类别;根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价。12.根据权利要求11所述的方法,其特征在于,所述根据所述测试样本的测试预测类别和测试真实类别,对所述目标分类模型进行模型评价,包括:根据所述测试样本的测试预测类别和测试真实类别的一致性,确定模型评价指标;其中,所述模型评价指标包括特异性、敏感性和查准率中的至少一种。13.一种少数类样本处理装置,其特征在于,包括:距离确定模块,用于确定少数类训练样本集中不同原始少数类样本之间的距离数据;权重确定模块,用于根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;样本合成模块,用于根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。14.一种电子设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-12任一项所述的一种少数类样本处理方法。15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12任一项所述的一种少数类样本处理方法。

技术总结
本申请实施例公开了一种少数类样本处理方法、装置、设备和存储介质,本申请实施例涉及大数据技术领域。其中,确定少数类训练样本集中不同原始少数类样本之间的距离数据;根据各所述距离数据,分别确定各所述原始少数类样本的采样权重;根据各所述采样权重,分别以相应原始少数类样本为根样本,生成合成少数类样本。本申请实施例的技术方案引入采样权重生成合成少数类样本,从而增加了少数类样本的整体数量,平衡了原有所有样本数据的相对数量;同时,以采样权重为标准,对原有的少数类样本进行筛选,在保证样本分布情况不变的前提下对少数类样本进行合成,提高了少数类样本生成的质量。量。量。


技术研发人员:陈丽娜
受保护的技术使用者:中国建设银行股份有限公司
技术研发日:2021.10.29
技术公布日:2022/3/15
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献