一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于贝叶斯公式的数据清洗方法、终端及存储介质

2022-11-19 08:06:55 来源:中国专利 TAG:

技术特征:
1.一种基于贝叶斯公式的数据清洗方法,其特征在于,所述基于贝叶斯公式的数据清洗方法包括:获取原始数据和预先定义的先验知识;根据所述先验知识构建贝叶斯网络和关联关系,根据所述贝叶斯网络对所述原始数据进行因果推理,得到贝叶斯网络的概率得分;根据所述关联关系确定所述原始数据的关联关系得分,并根据所述概率得分和所述关联关系得分之和对所述原始数据进行清洗,得到清洗后的数据版本。2.根据权利要求1所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述获取原始数据和预先定义的先验知识,之前包括:预先根据输入的约束条件定义所述先验知识。3.根据权利要求1所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述根据先验知识构建贝叶斯网络和关联关系,根据所述贝叶斯网络对所述原始数据进行因果推理,得到贝叶斯网络的概率得分,包括:构建全局性的有向图生成算法,并根据所述有向图生成算法和所述先验知识进行结构学习,得到学习后的贝叶斯网络;根据所述学习后的贝叶斯网络对所述原始数据进行扫描,推理得到每个数据框取每个数据的概率。4.根据权利要求3所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述构建全局性的有向图生成算法,并根据所述有向图生成算法和所述先验知识进行结构学习,得到学习后的贝叶斯网络,包括:通过分解节点得到逆协方差矩阵,并通过所述逆协方差矩阵生成上三角矩阵;根据所述上三角矩阵得到第一有向图边,并根据所述先验知识和操作指令增加或删除第二有向图边,得到有向无环图;根据所述有向无环图进行参数学习,得到所述贝叶斯网络的条件概率表;根据所述条件概率表得到所述学习后的贝叶斯网络。5.根据权利要求3所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述根据学习后的贝叶斯网络对所述原始数据进行扫描,推理得到每个数据框取每个数据的概率,包括:以记录为单位对所述原始数据进行扫描;在每条记录中将每个属性设置为缺失,并通过其他与之有关联的属性推导出缺失值;将所述缺失值作为每个数据框取每个数据的概率。6.根据权利要求1所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述根据关联关系确定所述原始数据的关联关系得分,并根据所述概率得分和所述关联关系得分之和对所述原始数据进行清洗,得到清洗后的数据版本,包括:确定所述贝叶斯网络中同一列中不同值之间的距离;确定所述贝叶斯网络中每两列的取值范围内每个值之间的关系得分;计算所述贝叶斯网络中每个值的距离与关系得分之和,得到最终概率得分;根据所述最终概率得分和观测值对所述原始数据进行清洗,得到清洗后的数据版本。7.根据权利要求6所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述确定贝叶斯网络中每两列的取值范围内每个值之间的关系得分,包括:
在每两列的取值范围内,计算每个值在数据中共同出现的得分;根据所述共同出现的得分得到共现字典,并在所述共现字典中介入所述先验知识;根据所述先验知识对每两列的取值范围内每个值之间的关系进行评分,得到所述关系得分。8.根据权利要求1所述的基于贝叶斯公式的数据清洗方法,其特征在于,所述基于贝叶斯公式的数据清洗方法还包括:对当前值进行推理时,排除与当前值属性节点直接相连的所有父节点和子节点;根据剩余节点的关联关系计算得到当前值的关联关系得分,并将当前值归一化0到1。9.一种终端,其特征在于,包括:处理器以及存储器,所述存储器存储有基于贝叶斯公式的数据清洗程序,所述基于贝叶斯公式的数据清洗程序被所述处理器执行时用于实现如权利要求1-8中任意一项所述的基于贝叶斯公式的数据清洗方法的操作。10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质存储有基于贝叶斯公式的数据清洗程序,所述基于贝叶斯公式的数据清洗程序被处理器执行时用于实现如权利要求1-8中任意一项所述的基于贝叶斯公式的数据清洗方法的操作。

技术总结
本发明公开了一种基于贝叶斯公式的数据清洗方法、终端及存储介质,方法包括:获取原始数据和预先定义的先验知识;根据所述先验知识构建贝叶斯网络和关联关系,根据所述贝叶斯网络对所述原始数据进行因果推理,得到贝叶斯网络的概率得分;根据所述关联关系确定所述原始数据的关联关系得分,并根据所述概率得分和所述关联关系得分之和对所述原始数据进行清洗,得到清洗后的数据版本。本发明结合容易上手的用户知识先验信息、贝叶斯网络在脏数据上的建模能力以及数据里存在着若干互信息的关联关系,对原始数据进行扫描清洗,降低了数据清洗的难度,提高了数据清洗的准确率和召回率。提高了数据清洗的准确率和召回率。提高了数据清洗的准确率和召回率。


技术研发人员:秦建斌 黄思凡 张一帆 张亚茹 牛佳 王毅 毛睿
受保护的技术使用者:深圳大学
技术研发日:2022.07.05
技术公布日:2022/11/18
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献