一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种属性三元组合并方法、装置、设备及介质与流程

2022-07-02 11:00:32 来源:中国专利 TAG:


1.本技术涉及知识图谱技术领域,尤其涉及一种属性三元组合并方法、装置、设备及介质。


背景技术:

2.随着技术的发展,通过知识图谱建立数据之间的关联的技术越来越常见,知识图谱将碎片化的数据组织起来,让数据更加容易被人和机器理解和处理,并为数据的搜索、挖掘、分析等上层应用提供便利。
3.在使用知识图谱进行信息检索时,普遍采用的方法都是识别原始文本中的三元组,其中三元组包括属性三元组和关系三元组,再利用三元组生成知识图谱查询语句进行检索,检索结果的准确性取决于生成的三元组准确率。其中,在生成属性三元组时,如果出现多个属性三元组,则需要对该多个属性三元组中属于同一个实体的属性三元组进行合并,生成对应的实体三元组,然后再组成关系三元组。
4.但是现有技术中在进行属性三元组合并时,是根据每个属性三元组的属性值在原始文本中的语义信息,确定每个属性三元组对应的实体的类型。针对每两个属性三元组,若该两个属性三元组对应的实体的类型一致,则确定该两个属性三元组属于同一个实体,并将属于同一个实体的至少两个属性三元组进行合并。但是,根据语义信息确定每个属性三元组对应的实体的类型时,可能出现确定的实体的类型不准确的情况,这就导致了现有技术在进行属性三元组合并时,合并结果易出错、准确率低等问题。


技术实现要素:

5.本技术提供了一种属性三元组合并方法、装置、设备及介质,用以解决现有技术中的属性三元组合并结果易出错、准确率低的问题。
6.本技术实施例提供了一种属性三元组合并方法,所述方法包括:
7.识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
8.根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
9.针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
10.进一步地,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
11.若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组
属于同一实体。
12.进一步地,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
13.若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;
14.若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
15.进一步地,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:
16.在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;
17.若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
18.进一步地,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:
19.将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;
20.将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;
21.将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
22.进一步地,所述合并模型的训练过程包括:
23.将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;
24.根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
25.本技术实施例还提供了一种属性三元组合并装置,所述装置包括:
26.处理模块,用于识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
27.确定模块,用于根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
28.合并模块,用于针对任一属性三元组,识别与该属性三元组属于同一实体的第二
其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
29.进一步地,所述确定模块,具体用于若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
30.进一步地,所述确定模块,具体用于若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
31.进一步地,所述确定模块,还用于在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
32.进一步地,所述处理模块,具体用于将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
33.进一步地,所述装置还包括:
34.训练模块,用于将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
35.本技术实施例还提供了一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如上述中任一所述属性三元组合并方法的步骤。
36.本技术实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述中任一所述属性三元组合并方法的步骤。
37.在本技术实施例中识别原始文本中的每个属性三元组;针对任一属性三元组,在该原始文本中标识该属性三元组分别对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取该合并模型输出的该两个属性值的相似度;根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与该第二其他属性三元组进行合并。在本技术实施例中,通过训练完成的合并模型输出两个属性值的相似度,根据该相似度和/或该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一个实体,从而提高了属性三元组合并的准确率。
附图说明
38.为了更清楚地说明本技术的技术方案,下面将对实施例描述中所需要使用的附图
作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1为本技术实施例提供的一种属性三元组合并过程示意图;
40.图2为本技术实施例提供的对合并模型的预测结果进行检测的过程;
41.图3为本技术实施例提供的属性三元组合并过程示意图;
42.图4为本技术实施例提供的一种属性三元组合并装置结构示意图;
43.图5为本技术实施例提供的一种电子设备结构示意图。
具体实施方式
44.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
45.为了提高属性三元组合并的准确率,本技术实施例提供了一种属性三元组合并方法、装置、设备及介质。
46.实施例1:
47.图1为本技术实施例提供的一种属性三元组合并过程示意图,该过程包括:
48.s101:识别原始文件中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度。
49.本技术实施例提供的一种属性三元组合并方法应用于电子设备,该电子设备可以是pc或者服务器等设备。
50.在本技术实施例中,对原始文本进行预处理,查找该原始文本中包含的每个属性值。例如,原始文本为“近三个月与男性张三同行的20-30岁女性”,则对该原始文本进行预处理,可以得到属性值“男性”、“张三”、“20-30岁”和“女性”。
51.在查找到原始文本中包含的每个属性值之后,在保存有每种属性对应的属性值的知识图谱的数据库(schema)中,查找每个属性值所属的属性,并根据预先保存的属性与属性三元组模板的对应关系,确定每个属性对应的属性三元组模板。针对每个属性值,将该属性值填充到该属性值所属的属性对应的属性三元组模板的预设位置,得到该原始文本中的属性三元组。
52.具体的,在本技术实施例中,知识图谱的数据库中保存有每个属性对应的属性值,其中一个属性可能对应多个属性值,也可能对应一个属性值,例如属性为“性别”,则该属性对应两个属性值分别为“男性”和“女性”。属性三元组的结构为《类型,属性,属性值》,每个属性三元组模板中已经填充了类型和属性,例如,属性“性别”对应的属性三元组模板为《人,性别,属性值》。
53.例如,在本技术实施例中,原始文本为“近三个月与男性张三同行的20-30岁女性”,对该原始文本进行预处理,得到属性值为“男性”、“张三”、“20-30岁”和“女性”。基于知识图谱的数据库确定属性值“男性”和“女性”对应的属性为“性别”,“张三”对应的属性为“姓名”,“20-30岁”对应的属性为“年龄”,并根据属性与属性三元组模板的对应关系,确定“姓名”对应的属性三元组模板为《人,姓名,属性值》,确定“性别”对应的属性三元组模板为《人,性别,属性值》,确定年龄对应的属性值为《人,年龄,属性值》,则最终确定的该原始文本中的属性三元组分别为《人,姓名,张三》、《人,性别,男性》、《人,性别,女性》和《人,年龄,20-30岁》。
54.在本技术实施例中,针对一个原始文本中的任一个属性三元组,在原始文本中标识出该属性三元组对应的属性值,并在该原始文本中,标识除该属性三元组外的任一第一其他属性三元组的属性值。具体的,在本技术实施例中,分别识别该属性三元组和第一其他属性三元组中的属性值,在原始文本中查找每个属性值,并用标识方法标识出每个属性值。其中,在标识每个属性值时,可以是采用预设的符号,如“《》”、“()”或“{}”等框选出每个属性值,也可以是采用字体加粗,改变字号等方式突出每个属性值。
55.将标识了两个属性值的原始文本输入到训练完成的合并模型中,合并模型可以根据标识识别出两个属性值,并输出该两个属性值的相似度。
56.s102:根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体。
57.在本技术实施例中,在获取到合并模型输出的相似度后,可以基于以下至少一种方式,进一步地确定该属性三元组和第一其他属性三元组是否属于同一实体:
58.方式一:根据该相似度,判断该属性三元组和该第一其他属性三元组是否属于同一实体。
59.具体的,电子设备中保存有属于同一实体的两个属性三元组对应的相似度范围,若该相似度在该相似度范围内,则确定该属性三元组和该第一其他属性三元组属于同一实体。
60.例如,电子设备中保存的相似度范围为0.6-1.0,该合并模型输出的相似度为0.74,该合并模型输出的相似度在该相似度范围内,则确定该属性三元组和该第一其他属性三元组属于同一实体。
61.方式二:根据与该属性三元组及该第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与该第一其他属性三元组是否属于同一实体。
62.具体的,在本技术实施例中,确定即与该属性三元组属于同一实体,又与该第一其他属性三元组属于同一实体的目标属性三元组,并获取该属性三元组和该目标属性三元组的目标相似度以及该第一其他属性三元组和该目标属性三元组的目标相似度,若该两个目标相似度的平均值在该相似度范围内,则确定该属性三元组和该目标属性三元组属于同一实体。
63.例如,电子设备中保存的相似度范围为0.6-1.0,该属性三元组和该目标属性三元组的目标相似度为0.8,该属性三元组和该目标属性三元组的目标相似度为0.76,则确定该两个目标相似度的平均值为0.78,在该相似度范围内,则确定该属性三元组和该目标竖向三元组属于同一实体。
64.方式三:根据该相似度以及与该属性三元组及该第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与该第一其他属性三元组是否属于
同一实体。
65.具体的,在本技术实施例中,确定即与该属性三元组属于同一实体,又与该第一其他属性三元组属于同一实体的目标属性三元组,并获取该属性三元组和该目标属性三元组的目标相似度以及该第一其他属性三元组和该目标属性三元组的目标相似度,若该两个目标相似度的平均值在该相似度范围内,且合并模型输出的相似度也在该相似度范围内,则确定该属性三元组和该目标属性三元组属于同一实体。
66.例如,电子设备中保存的相似度范围为0.6-1.0,合并模型输出的相似度为0.74,该属性三元组和该目标属性三元组的目标相似度为0.8,该属性三元组和该目标属性三元组的目标相似度为0.76,则确定该两个目标相似度的平均值为0.78。该平均值和该相似度均在该相似度范围内,则确定该属性三元组和该目标竖向三元组属于同一实体。
67.s103:针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
68.在本技术实施例中,确定了原始文本中的每两个属性三元组是否属于同一实体之后,将属于同一实体的属性三元组进行合并。
69.具体的,针对任一属性三元组,根据每两个属性三元组是否属于同一实体的判断结果,识别剩余的属性三元组与该属性三元组属于同一个实体的第二其他属性三元组,并将该属性三元组与该第二其他属性三元组进行合并。其中,在将该属性三元组和第二其他属性三元组进行合并时,可以采用预设的符号把该属性三元组和第二其他属性三元组合并在一起,例如,若确定属性三元组《人,性别,女性》和《人,年龄,20-30岁》属于同一个实体,则合并结果为“[《人,性别,女性》,《人,年龄,20-30岁》]”。
[0070]
其中,在本技术实施中,在进行属性三元组合并时,可能是将两个属性三元组进行合并,也可以是将多个属性三元组进行合并,只要同属于一个实体的属性三元组都可以进行合并。此外,针对任一属性三元组,可能不存在与该属性三元组属于同一实体的第二其他属性三元组,则不将该属性三元组与第二其他属性三元组进行合并。
[0071]
在本技术实施例中,通过训练完成的合并模型输出两个属性值的相似度,并根据该相似度和/或该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一个实体,最后将属于同一实体的属性三元组进行合并,提高属性三元组合并的准确率。
[0072]
实施例2:
[0073]
为了确定两个属性三元组是否属于同一实体,在上述实施例的基础上,在本技术实施例中,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0074]
若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0075]
在接收到合并模型输出的相似度之后,可以基于该相似度,确定两个属性值对应的两个属性三元组是否属于同一个实体。具体的,若该相似度超过预设的阈值,则确定该两个属性三元组属于同一个实体;若相似度未超过预设的阈值,则确定该两个属性三元组不属于同一个实体。其中,在本技术实施例中,合并模型输出的相似度为不小于0且不大于1的数,则该预设的阈值也同样为不小于0且不大于1的数。该预设的阈值可以由技术人员根据
实际情况进行调整,例如可以是0.5。
[0076]
例如,原始文本为“与男性张三同行的20-30岁女性”,确定该原始文本中的属性三元组分别为《人,姓名,张三》、《人,性别,男性》、《人,性别,女性》和《人,年龄,20-30岁》,则标识了两个属性值的原始文本分别为“与《男性》《张三》同行的20-30岁女性”、“与《男性》张三同行的《20-30岁》女性”、“与《男性》张三同行的20-30岁《女性》”、“与男性《张三》同行的《20-30岁》女性”、“与男性《张三》同行的20-30岁《女性》”或“与男性张三同行的《20-30岁》《女性》”。
[0077]
将“与《男性》《张三》同行的20-30岁女性”输入到合并模型中,该合并模型输出的相似度为0.8,超过预设的阈值0.5,则确定属性三元组《人,姓名,张三》和《人,性别,男性》属于同一个实体;将“与《男性》张三同行的《20-30岁》女性”输入到合并模型中,该合并模型输出的相似度为0.4,低于预设的阈值0.5,则确定属性三元组《人,年龄,20-30岁》和《人,性别,男性》不属于同一个实体;将“与《男性》张三同行的20-30岁《女性》”输入到合并模型中,该合并模型输出的相似度为0.1,低于预设的阈值0.5,则确定属性三元组《人,性别,女性》和《人,性别,男性》不属于同一个实体;将“与男性《张三》同行的《20-30岁》女性”输入到合并模型中,该合并模型输出的相似度为0.3,低于预设的阈值0.5,则确定属性三元组《人,姓名,张三》和《人,年龄,20-30岁》不属于同一个实体;将“与男性《张三》同行的20-30岁《女性》”输入到合并模型中,该合并模型输出的相似度为0.3,低于预设的阈值0.5,则确定属性三元组《人,性别,女性》和《人,姓名,张三》不属于同一个实体;将“与男性张三同行的《20-30岁》《女性》”输入到合并模型中,该合并模型输出的相似度为0.7,超过预设的阈值0.5,则确定属性三元组《人,性别,女性》和《人,年龄,20-30岁》属于同一个实体。
[0078]
实施例3:
[0079]
为了提高属性三元组合并的准确率,在上述各实施例的基础上,在本技术实施例中,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:
[0080]
在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;
[0081]
若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0082]
在本技术实施例中,合并模型输出了两个属性值的相似度,并且该相似度超过预设的阈值,确定了该两个属性值对应的两个属性三元组属于同一个实体之后,为了进一步提高属性三元组合并的准确率,可以对该两个属性三元组属于同一个实体的结果进行进一步的检测,减小基于合并模型进行的预测错误给属性三元组合并的准确率带来的影响。其中,该检测内容为常识性检测,即一个实体的一个属性只能存在一个属性值,例如,“性别”属性,一个实体只能存在一个属性值“男性”或“女性”,若合并模型输出的“男性”和“女性”的相似度超过预设的阈值,则认为基于合并模型进行的预测是错误,则需要进行矫正。
[0083]
具体的,若根据合并模型输出的相似度,确定该两个属性值对应的两个属性三元组属于同一个实体,则在保存有每种属性对应的属性值的知识图谱的数据库中,查找每个属性值所属的属性。若该两个属性值不属于同一个属性,则可以确定合并模型的预测没有
出错,即确定该两个属性值对应的属性三元组属于同一个实体,则可以进行后续进行属性三元组合并的过程。
[0084]
若该两个属性值属于同一属性,则确定基于相似度和预设的阈值对两个属性三元组属于同一实体的预测是错误的,则电子设备将该两个属性三元组的关系保存为不属于同一实体。
[0085]
实施例4:
[0086]
为了进一步提高属性三元组合并的准确率,在上述各实施例的基础上,在本技术实施例中,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0087]
若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;
[0088]
若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0089]
在本技术实施例中,基于合并模型进行预测可能出现错误的情况,导致两个属性值对应的属性三元组实际上属于同一实体,但是合并模型输出的两个属性值的相似度低于预设的阈值,导致电子设备判断该两个属性值对应的两个属性三元组不属于同一实体,进而影响属性三元组合并准确率。
[0090]
基于此,在本技术实施例,若合并模型输出的相似度未超过预设的阈值,则可以采用推理传递的方式,对该两个属性值对应的属性三元组是否属于同一实体进行进一步地判断。
[0091]
具体的,在本技术实施例中,合并模型每输出两个属性值的相似度,电子设备都会保存该两个属性值对应的两个属性三元组与该相似度的对应的关系。当对任一属性三元组和第一其他属性三元组是否属于同一实体进行进一步判断时,可以根据保存的相似度,查找是否存在目标属性三元组与该属性三元组属于同一实体,并且该目标三元组与该第一其他属性三元组也属于同一实体。
[0092]
若存在该目标属性三元组,则提取保存的该目标属性三元组与该属性三元组的目标相似度,以及保存的该目标属性三元组与该第一其他属性三元组的目标相似度。计算该两个目标相似度的平均值,若该平均值大于预设数值与该属性三元组和该第一其他属性三元组的相似度的差值,则确定该属性三元组与该第一其他属性三元组属于同一实体,则可以继续执行后续进行属性三元组合并的过程。
[0093]
其中,在本技术实施例中,该预设数值一般为1,计算该两个目标相似度的平均值,比较该平均值与预设数值和该属性三元组和该第一其他属性三元组的相似度的差值的大小时,可以采用以下公式进行计算:
[0094][0095]
其中,f(a)为目标属性三元组和该属性三元组的目标相似度,f(b)为目标属性三元组和第一其他属性三元组的目标相似度,f(c)为该属性三元组和第一其他属性三元组的
相似度,1为预设数值。
[0096]
例如,在本技术实施例中,合并模型输出的该属性三元组《人,年龄,20-30岁》和第一其他属性三元组《人,性别,女性》的相似度f(c)为0.45,并且确定存在目标属性三元组《人,民族,汉族》即与该属性三元组属于同一实体,也与该第一其他属性三元组属于同一实体。其中,目标属性三元组与该属性三元组的目标相似度f(a)为0.89,目标属性三元组与该第一其他属性三元组的目标相似度f(b)为0.96。确定两个目标相似度的平均值为0.925,大于预设数值1与f(c)的差值,则确定该属性三元组《人,年龄,20-30岁》和第一其他属性三元组《人,性别,女性》属于同一实体。
[0097]
图2为本技术实施例提供的对合并模型的预测结果进行检测的过程,如该图2所示,该过程包括:
[0098]
s201:获取合并模型输出的两个属性值的相似度。
[0099]
s202:判断该相似度是否超过预设的阈值;若该相似度超过预设的阈值,则执行s203;若该相似度未超过预设的阈值,则执行s205。
[0100]
其中,s203和s205是两种相互独立的流程。
[0101]
s203:在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性。
[0102]
s204:判断该两个属性值是否属于同一属性;若该两个属性值不属于同一属性,则确定该两个属性三元组属于同一实体,则执行s208;若该两个属性值属于同一属性,则确定该两个属性三元组不属于同一实体,则结束当前流程。
[0103]
s205:获取即与属性三元组属于同一实体,又与第一其他属性三元组属于同一实体的目标属性三元组。
[0104]
s206:提取该目标属性三元组与该属性三元组的目标相似度,及该目标属性三元组与该第一其他属性三元组的目标相似度。
[0105]
s207:判断该目标相似度的平均值是否大于预设数值与该相似度的差值;若该目标相似度的平均值大于预设数值与该相似度的差值,则执行s208;若该平均值不大于该差值,则确定该两个属性三元组不属于同一实体,则结束当前流程。
[0106]
s208:针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0107]
实施例5:
[0108]
为了获取合并模型输出的两个属性值的相似度,在上述各实施例的基础上,在本技术实施例中,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:
[0109]
将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;
[0110]
将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;
[0111]
将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
[0112]
在本技术实施例中,合并模型包括多个子模型,下面以包含三个子模型为例,进行介绍:
[0113]
合并模型的第一子模型接收输入的标识了两个属性值的原始文本,该第一子模型接收到该原始文本后,对该原始文本进行字向量编码,确定该原始文本的每个字对应的字向量,并输出标识有每个字对应的字向量以及该两个属性值的第一文本。需要说明的是,第一子模型输出的字向量中不携带有该原始文本的语义特征信息。其中,该第一子模型可以是词向量模型,也可以是其他模型,具体的,该第一文本中包含每个字、每个字对应的字向量以及该两个属性值的标识。
[0114]
在本技术实施例中,电子设备获取到第一子模型输出的第一文本之后,将该第一文本输入到合并模型的第二子模型中,该第二子模型可以对第一文本的每个字进行深层编码,从而获取该第一文本的语义特征信息,并根据预设的算法将每个字向量分别与该语义特征信息进行计算,得到更新后的每个字向量,使得更新后的每个字向量中携带有该第一文本的语义特征信息,并输出标识有每个字对应的更新后的字向量以及该两个属性值的第二文本。具体的,该第二文本中包含每个字、每个字对应的更新后的字向量以及该两个属性值的标识。其中,在本技术实施例中,该第二子模型可以是自然语言相似性判别模型,如bilstm attention模型或者bert模型,其中bert模型为双向编码模型,能够获得每个字之间的上下文语义特征信息,基于此,经过bert模型编码后的字向量能够更好地表达该字在第一文本中的语义信息。
[0115]
在本技术实施例中,在本技术实施例中,电子设备获取到第一子模型输出的第二文本之后,将该第二文本输入到合并模型的第三子模型中,该第三子模型对第二文本的字向量进行维度的变化,并根据预设函数,对进行了维度变化后的每个字向量进行计算,根据属性值对应的每个字的字向量,确定两个属性值的相似度的分值,并对该个相似度得分值进行归一化处理,得到该两个属性值的相似度并输出。其中,在本技术实施例中,该第三子模型可以是存在线性层的神经网络模型,该预设函数可以是s型生长曲线(sigmoid)函数。
[0116]
图3为本技术实施例提供的属性三元组合并过程示意图,如该图3所示,该过程包括:
[0117]
s301:对原始文本进行预处理,确定该原始文本中的每个属性值。
[0118]
s302:在保存有每种属性对应的属性值的知识图谱的数据库中,查找每个属性值所属的属性,并根据预先保存的属性与属性三元组模板的对应关系,确定每个属性对应的属性三元组模板;针对每个属性值,将该属性值填充到该属性值所属的属性对应的属性三元组模板预设位置,得到该原始文本中的属性三元组。
[0119]
s303:针对任一属性三元组,在该原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值。
[0120]
s304:将该标识了两个属性值的原始文本输入到该合并模型的第一子模型中,接收该第一子模型输出的标识有每个字对应的字向量以及两个属性值的第一文本。
[0121]
s305:将该第一文本输入到该合并模型的第二子模型中,接收该第二子模型输出的标识有每个字对应的更新后的字向量以及两个属性值的第二文本,其中所述更新后的字向量携带有该第一文本的语义特征信息。
[0122]
s306:将该第二文本输入到该合并模型的第三子模型中,接收该第三子模型输出
的该相似度。
[0123]
s307:若该相似度超过预设的阈值,则确定该两个属性三元组属于同一个实体。
[0124]
s308:针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与该第二其他属性三元组进行合并。
[0125]
实施例6:
[0126]
为了得到训练完成的属性模型,在上述各实施例的基础上,在本技术实施例中,所述合并模型的训练过程包括:
[0127]
将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;
[0128]
根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
[0129]
在本技术实施例中,在对合并模型进行训练时,将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,获取该合并模型输出的该两个属性值的第二样本相似度。
[0130]
为了不断优化训练中的合并模型,需要根据该原始图像增强模型中的损失函数,对该原始图像增强模型的参数进行更新。具体的,根据该损失函数,确定第一样本相似度和第二相似度的损失值,并根据该损失值对合并模型的参数进行调整。
[0131]
在本技术实施例中,当满足收敛条件时,确定合并模型训练完成,具体的收敛条件可以是,若该合并模型输出的第二样本相似度与对应的第一样本相似度的损失值小于预设阈值的数量达到设定的数量阈值,则认为该原始图像增强模型训练完成;或合并模型训练的迭代次数达到预设的次数,则认为该合并模型训练完成。具体使用过程中可以根据需要灵活设置收敛条件。
[0132]
实施例7:
[0133]
图4为本技术实施例提供的一种属性三元组合并装置结构示意图,如图4所示,该装置包括:
[0134]
处理模块401,用于识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
[0135]
确定模块402,用于根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
[0136]
合并模块403,用于针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0137]
在一种可能的实施方式中,所述确定模块402,具体用于若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0138]
在一种可能的实施方式中,所述确定模块402,具体用于若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;若所述平均值
大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0139]
在一种可能的实施方式中,所述确定模块402,还用于在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0140]
在一种可能的实施方式中,所述处理模块401,具体用于将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
[0141]
在一种可能的实施方式中,所述装置还包括:
[0142]
训练模块404,用于将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
[0143]
实施例8:
[0144]
在上述实施例的基础上,本技术实施例还提供了一种电子设备,图5为本技术实施例提供的一种电子设备结构示意图,如图5所示,包括:处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信;
[0145]
存储器53中存储有计算机程序,当程序被处理器51执行时,使得处理器51执行如下步骤:
[0146]
识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
[0147]
根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
[0148]
针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0149]
在一种可能的实施方式中,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0150]
若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0151]
在一种可能的实施方式中,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0152]
若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;
[0153]
若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0154]
在一种可能的实施方式中,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:
[0155]
在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;
[0156]
若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0157]
在一种可能的实施方式中,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:
[0158]
将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;
[0159]
将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;
[0160]
将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
[0161]
在一种可能的实施方式中,所述合并模型的训练过程包括:
[0162]
将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;
[0163]
根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
[0164]
由于上述电子设备解决问题的原理与属性三元组合并方法相似,因此上述电子设备的实施可以参见方法的实施例,重复之处不再赘述。
[0165]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口52用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0166]
上述处理器可以是通用处理器,包括中央处理器、网络处理器(network processor,np)等;还可以是数字指令处理器(digital signal processing,dsp)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0167]
实施例9:
[0168]
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
[0169]
识别原始文本中的每个属性三元组;针对任一属性三元组,在所述原始文本中标识该属性三元组对应的属性值;并标识任一第一其他属性三元组的属性值;将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度;
[0170]
根据所述相似度和/或与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体;
[0171]
针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组,将该属性三元组与所述第二其他属性三元组进行合并。
[0172]
在一种可能的实施方式中,所述根据所述相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0173]
若所述相似度超过预设的阈值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0174]
在一种可能的实施方式中,所述根据所述相似度和与该属性三元组及所述第一其他属性三元组属于同一实体的目标属性三元组的目标相似度,确定该属性三元组与所述第一其他属性三元组是否属于同一实体包括:
[0175]
若所述相似度未超过预设的阈值,根据所述目标属性三元组与该属性三元组的目标相似度,及所述目标属性三元组与所述第一其他属性三元组的目标相似度,确定所述目标相似度的平均值;
[0176]
若所述平均值大于预设数值与所述相似度的差值,则确定该属性三元组与所述第一其他属性三元组属于同一实体。
[0177]
在一种可能的实施方式中,若确定该属性三元组与所述第一其他属性三元组属于同一实体之后,所述针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组之前,所述方法还包括:
[0178]
在保存有每种属性对应的属性值的知识图谱的数据库中,查询该两个属性值是否属于同一属性;
[0179]
若该两个属性值不属于同一属性,进行后续的针对任一属性三元组,识别与该属性三元组属于同一实体的第二其他属性三元组的步骤。
[0180]
在一种可能的实施方式中,所述将标识了两个属性值的原始文本输入到训练完成的合并模型中,获取所述合并模型输出的所述两个属性值的相似度包括:
[0181]
将所述标识了两个属性值的原始文本输入到所述合并模型的第一子模型中,接收所述第一子模型输出的标识有每个字的字向量以及该两个属性值的第一文本;
[0182]
将所述第一文本输入到所述合并模型的第二子模型中,接收所述第二子模型输出的标识有每个字对应的更新后的字向量以及该两个属性值的第二文本,其中每个更新后的字向量中携带有所述第一文本的语义特征信息;
[0183]
将所述第二文本输入到所述合并模型的第三子模型中,接收所述第三子模型输出的所述相似度。
[0184]
在一种可能的实施方式中,所述合并模型的训练过程包括:
[0185]
将标识有两个属性值以及该两个属性值的第一样本相似度的样本原始文本输入到所述合并模型中,接收所述合并模型输出的所述两个属性值的第二样本相似度;
[0186]
根据所述第一样本相似度和所述第二样本相似度,对所述合并模型的参数进行调整。
[0187]
由于上述计算机可读存储介质解决问题的原理与属性三元组合并方法相似,因此上述计算机可读存储介质的实施可以参见方法的实施例,重复之处不再赘述。
[0188]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0189]
本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0190]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0191]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0192]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献