一种实体对齐的主动学习框架方法与流程

2021-12-15 00:16:00 来源：中国专利 TAG：

技术特征：
1.一种实体对齐的主动学习框架方法，其特征在于，包括如下步骤：s1、实体分块：对输入的实体集先根据实体的相关信息，对实体进行一个粗略的匹配；从所有的实体对中，筛选出潜在匹配的实体对作为候选项；对此设置分块函数，每个分块函数确定一块，块内保存实体对，所述实体对可能在不同的块中同时存在；s2、训练集生成：根据实体分块的结果，从每个块中选择一部分实体对，以及通过随机匹配的方式生成一部分实体对，然后这两部分的实体对共同组成要输入到主动学习过程中的训练集，即无标签数据集；s3、主动学习过程：根据不同的场景，设置不同的学习引擎，即侧重不同的分类器模型；当实体的关系信息缺失或者稀疏时，设置两个基于属性的模型作为学习引擎；当实体的关系或者属性信息都比较完善时，则设置基于属性的模型和基于关系的模型为学习引擎；然后将学习引擎对训练集的预测结果中最为冲突的一些实体对交由专家判断是否加入到标注样本集；根据协同训练的思想，在基于属性的模型和基于关系的模型预测的结果中，将预测一致的实体对直接作为标注数据加入标注样本集；最后再根据标注样本集训练学习引擎和更新训练集；s4、候选集生成与预测：根据步骤s1实体的分块，以及步骤s3中得到标注样本集，通过分支定界算法，以最大正例覆盖范围和最小数据量为目标，确定哪一块为最终要预测的候选集；然后让两个学习引擎都对候选集进行预测，在把两个结果进行合并，得到最终的预测结果；s5、专家对实体对齐结果进行审核，如对结果不满意，返回到s1步骤主动学习过程中，重新s1～s4步骤，继续训练，学习引擎加载上次训练停止时的参数，训练集也与停止时保持一致；在标注了一些数据后，学习引擎得到新的学习数据，对新的候选集进行预测，然后专家再审核；循环这样一个过程，直至结果满意。2.根据权利要求1所述实体对齐的主动学习框架方法，其特征在于，步骤s1所述分块函数通过hash函数、canopy聚类、tf
‑
idf、编辑距离levenshtein或red
‑
blue set cover算法实现。

技术总结
本发明提出一种实体对齐的主动学习框架方法，从缩小实体对齐的范围出发，考虑生产环境中缺少标签数据的问题，使用多角度的两个学习引擎相互对抗和增强的方式，对模型进行训练，以完成实体对齐任务。该方法主要包括：实体分块、训练集生成、主动学习过程和候选集生成与预测。主动学习过程中包含对实体的不同侧重的模型，可以分别考虑实体的属性和关系。同时对无标签数据的指标难以测量问题，提出使用继续训练这一方式进行补足，从而满足实体对齐模型在不损失性能的同时在无标签数据的情况下的应用。的应用。的应用。

技术研发人员：刘宇张鑫赵哲焕刘学壮陈鹏
受保护的技术使用者：大连理工大学
技术研发日：2021.09.17
技术公布日：2021/12/14

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种文章原创度评价系统、方法、设备及介质与流程

一种实体对齐的主动学习框架方法与流程

相关文献

最热文献