一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

征信数据的处理方法及相关装置与流程

2022-10-13 03:45:55 来源:中国专利 TAG:

技术特征:
1.一种征信数据的处理方法,其特征在于,包括:获取征信数据中多个关键词中每个关键词与主干信息的第一匹配值,所述第一匹配值用于表征所述主干信息与所述关键词的关联度,所述主干信息用于表征所述征信数据内关键信息;根据所述多个关键词中所述关键词的第一匹配值获取第二匹配值,所述第二匹配值用于表征所述主干信息与所述征信数据的关联度;获取所述主干信息正确值,所述主干信息正确值用于表征所述主干信息中正确的主干信息的量;根据所述征信数据的敏感词的数量获取敏感值,所述敏感值用于表征所述征信数据内敏感词的数量;根据所述第二匹配值、所述主干信息正确值以及所述敏感值确定所述征信数据的质量值,所述质量值用于表征所述征信数据的质量的高低;判断所述质量值是否达到预设质量值;若否,则根据预设的数据清洗方式对所述征信数据进行清洗,以使所述征信数据的质量值达到预设质量值。2.根据权利要求1所述的征信数据的处理方法,其特征在于,所述根据所述多个关键词中所述关键词的第一匹配值获取第二匹配值,包括:根据所述多个关键词中所述关键词的第一匹配值的大小确定每个所述关键词对应的预设权重值;计算每个所述第一匹配值与所述第一匹配值对应的预设权重值的乘积;将每个所述第一匹配值对应的乘积相加,获得所述第二匹配值。3.根据权利要求1所述的征信数据的处理方法,其特征在于,所述获取所述主干信息正确值,包括:获取所述主干信息与预设的主干信息的相似度;根据所述相似度确定所述征信数据的所述主干信息正确值。4.根据权利要求1所述的征信数据的处理方法,其特征在于,所述根据所述征信数据的敏感词的数量获取敏感值,包括:统计所述征信数据中敏感词的数量;获取多个预设的数量范围,所述多个预设的数量范围中每个数量范围对应一个敏感值;确定根据所述敏感词的数量所属的预设数量范围,获得所述敏感值。5.根据权利要求1-4中任一项所述的征信数据的处理方法,其特征在于,所述根据所述第二匹配值、所述主干信息正确值以及所述敏感值确定所述征信数据的质量值,包括:获取所述第二匹配值对应的预设的第一权重值;获取所述主干信息正确值对应的预设的第二权重值;获取所述敏感值对应的预设的第三权重值;根据第一权重值与所述第二匹配值计算获得的第一数值、所述第二权重值与所述主干信息正确值计算获得的第二数值,以及所述第三权重值与所述敏感值获得的第三数值确定所述征信数据的质量值。
6.根据权利要求1-4中任一项所述的征信数据的处理方法,其特征在于,所述根据预设的数据清洗方式对所述征信数据进行清洗之后,还包括:向用户的终端设备发送通知消息,所述通知消息用于提醒所述用户未达到所述预设质量值的征信数据已经清洗完毕。7.根据权利要求1-4中任一项所述的征信数据的处理方法,其特征在于,所述预设的数据清洗方式包括但不限于删除、降重以及脱敏处理。8.一种征信数据的处理装置,其特征在于,包括:第一获取单元,用于获取征信数据中多个关键词中每个关键词与主干信息的第一匹配值,所述第一匹配值用于表征所述主干信息与所述关键词的关联度,所述主干信息用于表征所述征信数据内关键信息;第二获取单元,用于根据所述多个关键词中所述关键词的第一匹配值获取第二匹配值,所述第二匹配值用于表征所述主干信息与所述征信数据的关联度;第三获取单元,用于获取所述主干信息正确值,所述主干信息正确值用于表征所述主干信息中正确的主干信息的量;第四获取单元,用于根据所述征信数据的敏感词的数量获取敏感值,所述敏感值用于表征所述征信数据内敏感词的数量;确定单元,用于根据所述第二匹配值、所述主干信息正确值以及所述敏感值确定所述征信数据的质量值,所述质量值用于表征所述征信数据的质量的高低;判断单元,用于判断所述质量值是否达到预设质量值;处理单元,用于根据预设的数据清洗方式对所述征信数据进行清洗,以使所述征信数据的质量值达到预设质量值。9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如权利要求1至7中任意一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如权利要求1至7中任意一项所述的方法。

技术总结
本申请提供了一种征信数据的处理方法及相关装置,包括获取征信数据中多个关键词中每个关键词与主干信息的第一匹配值,根据关键词的第一匹配值获取用于表征主干信息与征信数据的关联度的第二匹配值,获取用于表征正确主干信息的量的主干信息正确值,根据征信数据的敏感词的数量获取用于表征征信数据内敏感词的数量的敏感值,根据第二匹配值、主干信息正确值以及敏感值确定征信数据的用于表征征信数据的质量高低的质量值,若质量值未达到预设质量值,根据预设的数据清洗方式对征信数据进行清洗。本申请中通过判断获得的质量值是否达到预设质量值来判断征信数据的质量,提高判断征信数据的质量的准确度,以获得达到所需的质量的征信数据。量的征信数据。量的征信数据。


技术研发人员:练刚 欧阳张鹏 赵彦晖 耿心伟 曾源
受保护的技术使用者:深圳微众信用科技股份有限公司
技术研发日:2022.07.19
技术公布日:2022/10/11
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献