一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据融合方法及装置、电子设备和存储介质与流程

2021-11-17 23:46:00 来源:中国专利 TAG:

技术特征:
1.一种数据融合方法,其特征在于,所述方法包括:对第一数据库构建索引,得到索引表,所述索引表包括多个索引字段及与各个索引字段对应的索引数据;依次从多个待融合数据库中选择第二数据库,执行以下操作,得到融合后的第一数据库:以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合,所述候选数据组合包括目标数据及相应的候选数据;根据训练好的数据分析模型确定所述候选数据组合中的目标数据与候选数据是否为相同数据,在确定所述多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将所述一个或多个候选数据组合中的目标数据融合到所述第一数据库,更新所述索引表。2.根据权利要求1所述的方法,其特征在于,所述对第一数据库构建索引,包括:根据预设字段创建所述第一数据库中各个基础数据的索引字段;根据所述第一数据库中各个基础数据确定各索引字段的索引数据;其中,所述索引数据包括基础数据中与各索引字段对应的内容,对应的内容与所述基础数据相关联;或者所述索引数据包括基础数据中与各索引字段对应的内容、以及所述基础数据。3.根据权利要求1或2所述的方法,其特征在于,利用预设搜索引擎执行以下操作:对第一数据库的基础数据构建索引;和/或以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合。4.根据权利要求1所述的方法,其特征在于,以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合,包括:根据所述索引条件,确定所述第二数据库的目标数据与第一数据库中的基础数据的相似度;按照相似度从大到小对所述基础数据进行排序,根据排序结果确定所述多个候选数据组合,其中,所述多个候选数据组合中的候选数据为相似度排序靠前的n个基础数据,n>0且为整数。5.根据权利要求1所述的方法,其特征在于,所述根据训练好的数据分析模型确定所述候选数据组合中的目标数据与候选数据是否为相同数据,包括:所述训练好的数据分析模型确定所述目标数据及所述候选数据的多种类型特征的特征参数,根据得到的特征参数及对应的预设参数确定所述候选数据组合中的目标数据与候选数据是否为相同数据。6.根据权利要求5所述的方法,其特征在于,所述多种类型特征的特征参数包括以下至少两种:与所述目标数据及所述候选数据各自的名称信息的余弦相似度、jaccard相似度、编辑
距离、汉明距离中的至少一种对应的第一特征参数;与所述目标数据及所述候选数据的时间信息的差值绝对值对应的第二特征参数;与所述目标数据及所述候选数据的相似度对应的第三特征参数。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:将被标记的数据集中的标记数据划分为k份,利用k

s份标记数据作为训练数据对初始数据分析模型进行训练,并利用s份标记数据作为校验数据对初始数据分析模型进行校验,得到中间数据分析模型,其中,s<k

s<k,k为大于1的整数,s为大于0的整数;依次轮换k份标记数据中的其他标记数据作为校验数据,并得到对应的训练数据,对数据分析模型进行多次训练及校验,得到多个中间数据分析模型;将多个中间数据分析模型中校验误差最小的中间数据分析模型作为所述训练好的数据分析模型。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定所述多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将所述第二数据库的标识信息写入到所述第一数据库中。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定所述多个候选数据组合中的目标数据与候选数据均为相同数据的情况下,不对所述多个候选数据组合中的目标数据与第一数据库进行融合。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:在确定所述多个候选数据组合中的目标数据与任一候选数据为相同数据的情况下,若所述目标数据中、与该任一候选数据对应的索引字段对应的内容与索引字段的索引数据不一致,将不一致的内容作为对应的索引字段的索引数据的别名加入所述第一数据库。11.根据权利要求1所述的方法,其特征在于,在对第一数据库构建索引,得到索引表之前,所述方法还包括:对所述第一数据库及所述多个待融合数据库进行归一化处理。12.根据权利要求1所述的方法,其特征在于,所述方法还包括:对第二数据库中所有目标数据执行所述操作后,删除所述第二数据库。13.根据权利要求1所述的方法,其特征在于,所述数据分析模型包括决策树模型、聚类模型、贝叶斯分类模型、支持向量机模型、期望最大化em模型、adaboost模型、卷积神经网络模型、深度置信网模型、递归神经网络模型、长期短期记忆模型、生成敌对网络模型、转移学习模型、注意模型的至少一种或多种的组合。14.根据权利要求1

13任一项所述的方法,其特征在于,所述目标数据包括文档数据。15.一种数据融合装置,其特征在于,所述装置包括:构建模块,用于对第一数据库构建索引,得到索引表,所述索引表包括多个索引字段及与各个索引字段对应的索引数据;融合模块,用于依次从多个待融合数据库中选择第二数据库,执行以下操作,得到融合后的第一数据库:以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合,所述候选数据组合包括目标数据及相应的候选数据;
根据训练好的数据分析模型确定所述候选数据组合中的目标数据与候选数据是否为相同数据,在确定所述多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将所述一个或多个候选数据组合中的目标数据融合到所述第一数据库,更新所述索引表。16.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行权利要求1至14中任意一项所述的方法。17.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至14中任意一项所述的方法。

技术总结
本公开涉及一种数据融合方法及装置、电子设备和存储介质,所述方法包括:对第一数据库构建索引,得到索引表;依次从多个待融合数据库中选择第二数据库,执行以下操作,得到融合后的第一数据库:以第二数据库中的目标数据中、与第一数据库的索引字段对应的内容作为索引条件,根据第一数据库的索引表搜索与目标数据对应的候选数据,得到多个候选数据组合;在确定多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将一个或多个候选数据组合中的目标数据融合到第一数据库,更新所述索引表。本公开实施例可以实现对不同数据源的数据库的数据进行去重,快速、高效地融合第一数据库及多个待融合数据库。融合数据库。融合数据库。


技术研发人员:方艳 王超超 王为磊 屠昶旸 张济徽
受保护的技术使用者:智慧芽信息科技(苏州)有限公司
技术研发日:2021.08.16
技术公布日:2021/11/16
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献