一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于实体文本的语义冲突消歧处理方法和电子设备与流程

2022-02-20 13:13:43 来源:中国专利 TAG:


1.本非公开涉及数据处理技术属性,更具体的讲,涉及一种基于实体文本的语义冲突消歧处理方法和电子设备。


背景技术:

2.随着智能搜索的普及,越来越多的实体语义被引入数据库,基于数据库中进行实体词的语义识别,以便于根据识别结果进行搜索较为常见,比如,根据语义识别结果搜索实体词有关网页等。
3.然而,实体词的一词多义性给语义识别的准确性带来更大的挑战,通常不同语义的实体词会到来不同的搜索结果,因此,为了获取到与搜索需求符合的语义识别结果,对实体词标注的语义进行消歧处理至关重要。


技术实现要素:

4.为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种基于实体文本的语义冲突消歧处理方法、装置设备及介质。
5.第一方面,本公开提供一种基于实体文本的语义冲突消歧处理方法,包括:检测待处理的目标实体文本的语义冲突消歧类型,在所述语义冲突消歧类型为第一类型的情况下,获取所述目标实体文本待添加的目标属性;查询预先标注的实体文本属性数据库,获取与所述目标实体文本对应的已标注属性;查询预设的第一冲突属性数据库,获取与所述目标属性匹配的第一冲突属性集合,其中,所述第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值;如果检测获知所述第一冲突属性集合包含所述已标注属性,则输出语义强冲突标识,对所述目标实体文本不执行所述目标属性的添加操作。
6.第二方面,本公开提供一种电子设备,所述电子设备包括:处理器;被配置为存储所述处理器可执行指令的存储器;所述处理器,被配置为从所述存储器中读取所述可执行指令,并执行所述指令以实现检测待处理的目标实体文本的语义冲突消歧类型,在所述语义冲突消歧类型为第一类型的情况下,获取所述目标实体文本待添加的目标属性;查询预先标注的实体文本属性数据库,获取与所述目标实体文本对应的已标注属性;查询预设的第一冲突属性数据库,获取与所述目标属性匹配的第一冲突属性集合,其中,所述第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值;如果检测获知所述第一冲突属性集合包含所述已标注属性,则输出语义强冲突标识,对所述目标实体文本不执行所述目标属性的添加操作。
7.第三方面,本公开提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述基于实体文本的语义冲突消歧处理方法。
8.本公开实施例提供的技术方案与现有技术相比具有如下优点:
9.检测待处理的目标实体文本的语义冲突消歧类型,在语义冲突消歧类型为第一类型的情况下,获取目标实体文本待添加的目标属性,进而,查询预先标注的实体文本属性数
据库,获取与目标实体文本对应的已标注属性,查询预设的第一冲突属性数据库,获取与目标属性匹配的第一冲突属性集合,其中,第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值,如果检测获知第一冲突属性集合包含已标注属性,则输出语义强冲突标识,对目标实体文本不执行目标属性的添加操作。由此,在对实体文本的语义标注消歧处理,避免标注语义之间的冲突,保证了基于语义搜索的可靠性。
附图说明
10.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
11.为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本属性普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
12.图1为本公开提出的一种基于实体文本的语义冲突消歧处理方法的流程图;
13.图2为本公开实施例所提供的一种语义冲突消歧类型对应的选择界面示意图;
14.图3为本公开实施例所提供的一种实体文本属性数据库的结构示意图;
15.图4为本公开实施例所提供的另一种实体文本属性数据库的结构示意图;
16.图5为本公开提出的另一种基于实体文本的语义冲突消歧处理方法的流程图;
17.图6为本公开实施例所提供的另一种实体文本属性数据库的结构示意图;
18.图7为本公开提出的另一种基于实体文本的语义冲突消歧处理方法的流程图;
19.图8为本公开提出的另一种基于实体文本的语义冲突消歧处理方法的流程图;
20.图9为本公开提出的一种知识图谱的结构示意图;
21.图10为本公开提出的另一种知识图谱的结构示意图;
22.图11为本公开提出的另一种知识图谱的结构示意图;
23.图12为本公开提出的另一种基于实体文本的语义冲突消歧处理方法的流程图;
24.图13为本公开提出的一种基于实体文本的语义冲突消歧处理场景示意图;
25.图14是根据本公开一个实施例的基于实体文本的语义冲突消歧处理装置的结构示意图。
具体实施方式
26.为使本技术的目的和实施方式更加清楚,下面将结合本技术示例性实施例中的附图,对本技术示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本技术一部分实施例,而不是全部的实施例。
27.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通和通常的含义理解。
28.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序,除非另外注明。应该理解这样使用的用语在适当情况下可以互换。
29.术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,
包含了一系列组件的产品或设备不必限于清楚地列出的所有组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。
30.术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合,能够执行与该元件相关的功能。
31.图1为本公开提出的一种基于实体文本的语义冲突消歧处理方法的流程图,如图1所示,该方法包括:
32.步骤101,检测待处理的目标实体文本的语义冲突消歧类型,在语义冲突消歧类型为第一类型的情况下,获取目标实体文本待添加的目标属性。
33.本实施例中的目标实体文本为待进行属性标注的实体文本,该实体文本可以对应于客观存在并可互相区别的事物的文本,包括具体的人、事、物、机构、抽象的概念文本等。
34.由于在实际执行过程中,对目标实体文本进行语义标注时,可能导致一词多义时,不同的语义之间具有歧义,导致后续基于标注的语义进行文本识别等搜索场景应用时,存在识别错误,从而影响搜索结果的准确性。
35.因此,在本实施例中,为了保证目标实体文本标注的语义的可靠性,对目标文本进行语义标注的消歧处理,其中,可以基于不同的维度来考察语义的标注是否存在歧义,该维度与目标实体文本的语义冲突消歧类型有关。
36.在不同的应用场景中,可采用不同的方式来检测待处理的目标实体文本的语义冲突消歧类型:
37.在一些可能的实施例中,如图2所示,预先在有关显示界面上提供与不同的语义冲突消歧类型对应的触发控件,基于用户的触发操作确定待处理的目标实体文本的语义冲突消歧类型。
38.在另一些可能的实施例中,确定与每个语义冲突消歧类型对应的实体词的输入文本类型,基于输入文本类型查询预设的对应关系确定待处理的目标实体文本的语义冲突消歧类型。
39.举例而言,当语义冲突消歧类型为属性类型的语义冲突消歧,则对应的实体词的输入文本类型为属性类型,即输入的不是目标实体文本,而是目标实体文本的属性。
40.当语义冲突消歧类型为属性类型的句式消歧,则对应的实体词的输入文本类型为句式对应的正则表达式等。
41.在本实施例中,在语义冲突消歧类型为第一类型的情况下,可以认为目标实体文本在属性维度进行语义标注,从而,获取目标实体文本待添加的目标属性,其中,属性可以理解为目标实体词的特性,比如,对于目标实体词为“小明”,则其对应的特性可以包括“姓名”、“食品名称”等。
42.步骤102,查询预先标注的实体文本属性数据库,获取与目标实体文本对应的已标注属性。
43.在本实施例中,预先标注实体文本属性数据库,如图3所示,该实体文本属性数据库中存在多个实体文本,以及每个实体文本对应的已经标注的一个或多个属性。其中,实体文本属性数据库中的属性已经进行过语义标注消歧处理。
44.从而,在本实施例中,可查询预先标注的实体文本属性数据库,获取与目标实体文本对应的已标注属性。
45.步骤103,查询预设的第一冲突属性数据库,获取与目标属性匹配的第一冲突属性集合,其中,第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值。
46.容易理解的是,若是目标实体文本当前待标注的目标属性与已标注属性存在歧义,则可能基于已标注属性和目标属性进行语义识别时,会得到互相不同的两种有歧义的语义识别结果,导致搜索得到完全不同的两种搜索结果,影响搜索结果的准确性。
47.这种语义是否存在歧义,在本实施例中,通过判断已标注属性与目标属性预先设置的具有较大冲突的属性集合是否匹配来实现。
48.在本实施例中,在预先进行实体文本属性数据库构建时,还构建了第一冲突属性数据库,如图4所示,该第一冲突属性数据库中包含了目标属性和对应的存在强冲突的属性组成的属性对组合,即第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值,其中,预设阈值可以是根据实验数据标定的。
49.步骤104,如果检测获知第一冲突属性集合包含已标注属性,则输出语义强冲突标识,对目标实体文本不执行目标属性的添加操作。
50.在本实施例中,如果检测获知第一冲突属性集合包含已标注属性,则表明已标注属性中,存在和目标属性存在较大冲突的属性,若是将该目标属性标注到目标实体文本,可能会导致目标实体文本的语义歧义,比如,若是目标实体文本a目标属性为“小说”,而第一冲突属性集合包含已标注属性“电影”,则若是将“小说”也标注为目标实体文本a的属性,则显然在后续语义识别时,无法识别该目标实体文本a的属性到底是“小说”还是“电影”,从而可能会导致想要搜索目标实体文本a的电影的用户得到对应的小说搜索结果。
51.因此,在本实施例中,为了满足有关场景的语义搜索服务,如果检测获知第一冲突属性集合包含已标注属性,则输出语义强冲突标识,对目标实体文本不执行目标属性的添加操作,从而,避免了目标实体词标注的语义中具有互相具有强烈歧义的属性。
52.其中,上述语义强冲突标识可以为预先约定的标识目标标识和已标注属性存在强冲突的标识信息,强冲突的标识信息包括但不限于文字、图片、编码等任意形式。在本实施例中,对目标属性输出语义强冲突标识后,认为该目标属性若是标注在目标实体词文本的属性中,导致和其他已标注的属性之间存在强冲突,影响对目标实体词文本的语义理解,从而,对目标实体文本不执行目标属性的添加操作。
53.在一些实施例中,参照图5,在上述方法步骤103之后,该方法还包括:
54.步骤501,如果检测获知第一冲突属性集合不包含已标注属性,则查询预设的第二冲突属性数据库,获取与目标属性匹配的第二冲突属性集合。
55.其中,第二冲突属性数据库中的属性对组合的冲突概率小于或者等于预设阈值。
56.在本实施例中,如果检测获知第一冲突属性集合不包含已标注属性,则表明该目标属性和已标注属性不存在语义上的强冲突,此时,为了确定目标属性与已标注属性是否存在较弱的语义上的冲突,查询预设的第二冲突属性数据库,其中,如图6所示,该第二冲突属性数据库中存储有目标属性和对应的存在较弱冲突的属性组成的属性对组合,即第一冲突属性数据库中的属性对组合的冲突概率小于或者等于预设阈值。
57.步骤502,如果检测获知第二冲突属性集合包含已标注属性,则输出语义弱冲突标识,且对目标实体文本执行目标属性的添加操作,并将目标属性标记为第二等级属性。
58.在本实施例中,如果检测获知第二冲突属性集合包含已标注属性,则表明目标属
性和已标注属性存在语义冲突,但是冲突较弱,由此,输出语义弱冲突标识,其中,弱冲突标识包括但不限于文字、图片、编码等任意形式。
59.在本实施例中,对目标实体文本执行目标属性的添加操作,并将目标属性标记为第二等级属性,该第二等级属性用于表示目标属性相对于其冲突的已标注属性来说,占据了较低权重的语义理解的贡献度,从而,对搜索结果上相对于其冲突的已标注属性,具有较低的呈现概率等。
60.举例而言,可以预先规定第二等级属性相对于其冲突的已标注属性来说,根据第二等级属性对应的属性搜索的结果占据总搜索结果的比例值要小于一定值,从而,通过降低第二等级属性对应的第二属性的结果数量,平衡搜索结果的准确性以及和第二等级属性的关联性。
61.步骤503,如果检测获知第二冲突属性集合不包含已标注属性,则输出语义不冲突标识,并对目标实体文本执行目标属性的添加操作。
62.在本实施例中,如果检测获知第二冲突属性集合不包含已标注属性,则表明目标属性不但和已标注属性不存在强冲突,也不存在弱冲突,输出语义不冲突标识,该语义不冲突标识包括但不限于文字、图片、编码等任意形式,并在输出了语义不冲突标识时,对目标实体文本执行目标属性的添加操作,从而,将目标属性标注在目标实体文本上。
63.综上,本公开实施例的基于实体文本的语义冲突消歧处理方法,检测待处理的目标实体文本的语义冲突消歧类型,在语义冲突消歧类型为第一类型的情况下,获取目标实体文本待添加的目标属性,进而,查询预先标注的实体文本属性数据库,获取与目标实体文本对应的已标注属性,查询预设的第一冲突属性数据库,获取与目标属性匹配的第一冲突属性集合,其中,第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值,如果检测获知第一冲突属性集合包含已标注属性,则输出语义强冲突标识,对目标实体文本不执行目标属性的添加操作。由此,在对实体文本的语义标注消歧处理,避免标注语义之间的冲突,保证了基于语义搜索的可靠性。
64.基于上述描述,为了对目标属性进行语义标注的消歧处理,需要预先构建第一冲突属性数据和第二冲突属性数据库。
65.在本公开的一个实施例中,如图7所示,该方法还包括:
66.步骤701,根据多个样本实体文本已标注的属性集合,确定每个样本实体文本中各属性对组合的词频系数。
67.在本实施例中,多个样本实体文本已标注的属性集合中,包含了每个样本实体文本和该样本实体文本对应的所有属性,其中,样本实体文本对应的属性可能为一个也可能为多个,比如,对于样本实体文本a而言,其在样本实体文本已标注的属性集合中,对应的属性为“小说”和“电影”等。
68.为了判断不同的属性之间的冲突情况,统计两个属性同时作为一个样本实体文本的属性的频率,该频率越大,则表明这两个属性可同时作为一个实体文本的属性,因此冲突的概率较小。基于此逻辑,在本实施例中,可确定每个样本实体文本中各属性对组合的词频系数。
69.该属性对组合即为在同一个样本实体文本中出现的所有属性对,比如,对于样本实体文本b而言,其在样本实体文本已标注的属性集合中对应的属性为“a,b,c”,则样本实
体文本b对应的属性对组合为“a,b”、“b,c”和“a,c”。
70.在本实施例中,词频系数与样本实体文本中各属性对组合在多个样本实体文本已标注的属性集合中出现的次数有关,在本公开的一个实施例中,首先统计每个属性对组合的出现次数,根据出现次数统计最大出现次数,其次,计算每个属性对组合和最大出现次数的比值作为对应的属性对组合。
71.即在本实施例中,遍历多个样本实体文本已标注的属性集合,获取所有样本实体文本的属性对组合,根据样本实体文本的属性对组合确定属性对组合的最大频率,根据每个样本实体文本的属性对组合的频率和属性对组合的最大频率,确定每个样本实体文本中各属性对组合的词频系数,比如,根据每个样本实体文本的属性对组合的频率和属性对组合的最大频率的比值,确定每个样本实体文本中各属性对组合的词频系数。
72.步骤702,根据多个样本实体文本关联的用例语料,确定每个样本实体文本中各已标注属性和歧义属性之间的属性冲突系数。
73.在实际执行过程中,已标注属性的样本实体文本在被属性识别时,有可能识别的属性和已标注的属性一致,也有可能识别得到的属性和已标注的属性不一致,当属性不一致时,认为识别得到的属性为歧义属性。
74.在本实施例中,获取包含样本实体文本已标注属性的和识别到的属性的用例语料,确定每个样本实体文本中各已标注属性和歧义属性之间的属性冲突系数。
75.在一些可能的实施例中,获取包含多个样本实体文本和预设属性的用例语料,其中,预设属性为样本实体文本已标注属性,比如,“a是一本小说”由于既包含了样本实体文本“a”,又包含了已标注属性“小说”,则认为“a是一本小说”对应样本实体文本的用例语料等。
76.进而,根据每个样本实体文本的已标注属性对关联的用例语料进行语义解析,获取样本实体文本的定位属性,这里的定位属性可以理解为解析后的属性。
77.在本实施例中,在预设属性和定位属性一致情况下,认为对应的用例语料为正用例语料,从而,获取与已标注属性关联的正用例语料数量,在预设属性和定位属性不一致情况下,认为对应的用例语料为反用例语料,进而,获取与已标注属性和解析的歧义属性关联的反用例语料数量。
78.进一步的,根据正用例语料数量和反用例语料数量,确定每个样本实体文本中各已标注属性和歧义属性之间的属性冲突系数。
79.比如,确定每个样本实体文本的反用例语料数量和正用例语料数量的比值作为每个样本实体文本中各已标注属性和歧义属性之间的属性冲突系数。
80.又比如,确定每个样本实体文本的反用例语料数量和正用例语料数量的数量之和,计算每个样本实体文本的反用例语料数量和数量之和的比值作为每个样本实体文本中各已标注属性和歧义属性之间的属性冲突系数。
81.步骤703,根据各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,确定各属性对组合的冲突概率。
82.容易理解的是,各属性对组合的词频系数表示不同的两个属性,同时可以作为相同样本实体文本的属性的可能性,已标注属性和歧义属性之间的属性冲突系数,表示各属性对组合的两个属性之间容易存在解析冲突的属性,基于各属性对组合的词频系数和各已
标注属性和歧义属性之间的属性冲突系数,确定各属性对组合的冲突概率,既考虑了两个属性之间的可能同时用于标注同一个实体样本属性的可能性,又考虑了解析存在冲突的可能性,保证了冲突概率计算的准确性。
83.需要说明的是,在不同的应用场景中,根据各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,确定各属性对组合的冲突概率的方式不同:
84.在本公开的一个实施例中,如图8所示,根据各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,确定各属性对组合的冲突概率,包括:
85.步骤801,根据各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,获取直接关联的属性对组合之间的冲突概率。
86.在本实施例中,属性对可以为直接关联的两个属性,也可以为间接关联的两个属性,比如,对于同一个样本实体文本而言,其在已标注的属性集合中对应的属性对组合中出现了两次,两次样本实体文本对应的已标注属性对组合分别为“ac”和“ab”,则对于“ac”和“ab”来说,其显然是直接关联的属性对组合,对于“bc”而言,实际上是通过“a”属性间接联系起来的,因此,属性对组合“bc”属于间接关联的属性对组合。
87.在本公开的一个实施例中,可以通过构建知识图谱的方式获知样本实体文本的属性对组合之间的关系是间接的还是直接的。其中,知识图谱:本质上是一种属性网络,能够代表实体之间的属性关系。知识图谱中以属性为顶点或节点,以关系为边。知识图谱可通过多种方式构建,本公开实施例的重点并非如何构建知识图谱,所以对此不进行详细描述。作为一种可能的实现方式,如图9所示,当样本实体文本d在已标注的属性集合中,已标注的属性分别为“ab”、“cb”、“cd”、“ef”、“fd”时,基于构建属性之间的知识图谱,可以直观的获知不同的属性之间的关联关系,比如,在图9中,可直观的获知,“ab”、“cb”、“cd”、“ef”、“fd”为直接关联的属性对组合,“ac”、“ad”、“ae”、“af”、“bd”等为间接关联的属性对组合。
88.在本实施例中,可以将各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数输入预先根据实验数据构建的深度学习模型,基于深度学习模型的输出获取直接关联的属性对组合之间的冲突概率。
89.在本公开的另一个实施例中,根据预设的算法对各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数计算,以获取直接关联的属性对组合之间的冲突概率。
90.其中,预设的算法可以为如下公式(1)所示,在公式(1)中,p1
ij
p2
ij
=1,i和j分别为直接相连的属性对组合中的两个属性,α
ij
为属性对组合的词频系数,β
ij
为i属性被错误的解析成歧义属性j的属性冲突系数。
91.p
ij
=p1
ij
α
ij
p2
ij
β
ij
公式(1)
92.步骤802,根据预设的衰减因子、各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,获取间接关联的属性对组合之间的冲突概率。
93.在本实施例中,对于间接关联的属性对组合之间,根据预设的衰减因子、各属性对组合的词频系数和各已标注属性和歧义属性之间的属性冲突系数,以获取间接关联的属性对组合之间的冲突概率。
94.在本实施例中,预设的衰减因子可根据实验数据标定。
95.在一些可能的实施例中,可以计算间接关联的各属性对组合有关的直接关联的属
性对组合之间的冲突概率,基于有关的直接关联的属性对组合之间的冲突概率的乘积值,确定间接关联的各属性对组合之间的冲突概率。
96.比如,对于间接关联的属性对组合ik而言,如图10所示,ik在知识图谱中的路径为一条,在该路径中,ik在对应的直接关联的属性对组合为ij和ik,因此,获取ij和ik的直接关联的属性对组合之间的冲突概率p
ij
和p
jk
,对应的衰减因子为λ,则间接关联的属性对组合ik的冲突概率的计算方式如下述公式(2):
97.p
ik
=p
ij
*p
jk
*λ公式(2)
98.在本实施例中,当对于间接关联的属性对组合而言,其在对应的指示图谱间接关联的路径有多条时,可以将每条路径下对应的冲突概率计算得到后,计算所有路径的冲突概率之和作为间接关联的属性对组合的冲突概率。
99.比如,如图11而言,当ik在知识图谱中的路径为二条,在其中一条路径中,ik在对应的直接关联的属性对组合为ij和ik,因此,获取ij和ik的直接关联的属性对组合之间的冲突概率p
ij
和p
jk
,对应的衰减因子为λ1,则根据上述公式(2)计算间接关联的属性对组合ik在该条路径上的冲突概率,在其中另一条路径中,ik在对应的直接关联的属性对组合为im和mk,因此,获取im和mk的直接关联的属性对组合之间的冲突概率p
im
和p
mk
,对应的衰减因子为λ2,则根据上述公式(2)计算间接关联的属性对组合ik在该条路径上的冲突概率,计算两条路径上的冲突概率之和作为ik的最终的冲突概率。
100.步骤704,将各属性对组合的冲突概率与预设阈值进行比较。
101.其中,预设阈值根据实验数据标定。
102.在本实施例中,将各属性对组合的冲突概率与预设阈值进行比较,要获知各属性对组合的冲突是否强烈。
103.步骤705,获取大于阈值的属性对组合建立第一冲突属性数据库,以及获取小于或者等于阈值的属性对组合建立第二冲突属性数据库。
104.在本实施例中,若是属性对组合的冲突概率大于预设阈值,则认为对应的属性对组合中的两个属性具有较强烈的冲突,若是对实体文本标注具有强烈冲突的两个属性,则会导致对实体文本的语义识别的错误,因此,在本实施例中,获取大于阈值的属性对组合建立第一冲突属性数据库,以便于基于第一冲突属性数据库中的属性对避免强冲突属性的标注。
105.若是属性对组合的冲突概率不大于预设阈值,则表明对应的属性之间的虽然存在冲突,但是冲突不强烈,因此,若是对实体文本标注不具有强烈冲突的两个属性,则不会导致对实体文本的语义识别的错误,因此,在本实施例中,获取小于或者等于阈值的属性对组合建立第二冲突属性数据库,以便于基于第二冲突属性数据库实现对有关实体文本的属性的标注。
106.综上,本公开实施例的基于实体文本的语义冲突消歧处理方法,以属性对组合为粒度,基于属性对之间的词频系数以及属性冲突系数等,共同侯建第一冲突属性数据库和第二冲突属性数据库,为基于第一冲突属性数据库和第二冲突属性数据库标注属性提供了技术支撑。
107.基于以上实施例,当语义冲突消歧类型还可以为属性类型的句式消歧,则对应的实体词的输入文本类型为句式对应的正则表达式。
108.在本实施例中,在语义冲突消歧类型为第二类型的情况下,可以认为目标实体文本在句式维度进行语义标注,从而,在句式维度进行语义标注的消歧处理。
109.在本实施例中,如图12所示,在检测待处理的目标实体文本的语义冲突消歧类型之后,还包括:
110.步骤1201,在目标实体文本的语义冲突消歧类型为第二类型的情况下,提取目标实体文本的正则表达式。
111.其中,正则表达式用于指示目标实体文本的句式特点等。句式特点包括组成词的属性以及组成词的属性的顺序(比如,对于目标实体文本“今天天气怎么样”,其对应的正则表达式为:今天(日期属性)天气(weather属性)怎么样(疑问属性))或者,句式特点包括可以包括组成的关键词文本(比如,对于目标实体文本“我想给爸爸打电话”,其对应的正则表达式为:**想**打电话)等。
112.步骤1202,检测目标实体文本的正则表达式是否与预设的语义槽模板库正则匹配。
113.在本实施例中,预设的语义槽模板库中包含了对应的语义模板的正则表达式,因此,检测目标实体文本的正则表达式是否与预设的语义槽模板库正则匹配。
114.在一些可能的实施例中,提取多个样本实体文本对应的属性正则表达式,建立对应的语义槽属性模板库,对目标实体文本进行拆分,根据拆分结果标注分词属性,根据分词属性确定目标属性正则表达式,进而,检测目标属性正则表达式与语义槽属性模板库中各属性正则表达式是否匹配。即本实施例中,句式特点为实体文本的属性正则表达特点,即上述提到的目标实体文本中包含词的属性的特点等。
115.在一些可能的实施例中,获取多个样本实体文本对应的文本正则表达式,建立对应的语义槽文本模板库,对所述目标实体文本进行拆分,根据拆分结果提取目标文本正则表达式,检测所述目标文本正则表达式与所述语义槽文本模板库中各文本正则表达式是否匹配。即在本实施例中,句式特点为文本正则特点,即上述提到的目标实体文本中包含的文本关键词的特点等。步骤1203,如果检测获知目标实体文本的正则表达式与语义槽模板库正则匹配,则输出语义冲突标识,对目标实体文本不执行信息添加操作。
116.在本实施例中,如果检测获知目标实体文本的正则表达式与语义槽模板库正则匹配,则表明该目标实体文本对应的正则表达式已经在语义槽模板库被标注,因此,输出语义冲突标识,以对目标实体文本不执行信息添加操作。
117.在一些可能的实施例中,正则表达式与上述提到的目标实体文本的意图有关时,如果检测获知目标实体文本的正则表达式与语义槽模板库中的目标模板正则匹配,则根据与目标实体文本的关联语料进行语义解析获取目标意图。
118.其中,关联语料可以是在各垂域对应的语料中,根据句频筛选出的频次较高的语料,基于频次较高的语料定义对应的语义槽模板库中的模板,在本实施例中,该模板可以为目标实体文本对应的垂域中,较为常用的语料句式的正则表达式等。每个正则表达式预先解析并存储在垂域下的意图,比如,在通信领域,包含“拨打电话”、“挂断电话”等意图。
119.进而,获取预设的与目标模板对应的原始意图,比较原始意图和目标意图是否一致,其中,获取预设的与目标模板对应的原始意图可以基于语义识别技术等来实现。
120.在本实施例中,若是比较获知原始意图和目标意图不一致,则输出语义内容冲突
标识,对目标实体文本不执行信息添加操作,比如,若是目标实体文本为“我想给爸爸打电话”,目标模板对应的原始意图为“拨打电话”,而目标意图为“播放音乐”,即播放“我想给爸爸打电话”这首歌,则显然原始意图和目标意图不一致,因此,为了避免后续语义识别的歧义,对目标实体文本不执行信息添加操作。
121.在本实施例中,若是比较获知原始意图和目标意图一致,则输出语义数量冲突标识,即在语义槽模板库中已经存在了和目标实体文本意图一致的模板了,比如,对于目标意图为“打电话”的目标实体文本“我要给爸爸打电话”,在语义槽模板库中已经存在了原始意图为“打电话”的模板“给爸爸打电话”,因此,这里不需要再将目标实体文本“我要给爸爸打电话”加入对应的语义槽模板库中。
122.在本公开的另一个实施例中,在检测目标实体文本的正则表达式是否与预设的语义槽模板库正则匹配之后,如果检测获知目标实体文本的正则表达式与语义槽模板库正则不匹配,则确定不存在语义冲突,对目标实体文本执行信息添加操作,并为目标实体文本标注目标意图。
123.在实际应用中,如图13所示,可以将消歧标注后的实体文本属性数据库以及语义槽模板库存储在服务器中,该服务器可以是本地服务器也可以是云服务器等,服务器与电视机通信,获取用户对电视剧输入的控制文本,将控制文本发送至服务器后,基于服务器中存储的实体文本属性数据库以及语义槽模板库对控制文本进行语义识别,根据语义识别结果生成控制指令,控制电视机进行有关操作。
124.比如,当控制文本为“请播放爸妈”,则基于服务器的语义识别后,发现电视机垂域下该控制文本对应的语义识别结果为“播放“爸妈”这个电视剧”,因此,控制电视机播放对应的电视剧。
125.综上,本公开实施例的基于实体文本的语义冲突消歧处理方法,在目标实体文本的语义冲突消歧类型为第二类型的情况下,提取目标实体文本的正则表达式,检测目标实体文本的正则表达式是否与预设的语义槽模板库正则匹配,如果检测获知目标实体文本的正则表达式与语义槽模板库正则匹配,则输出语义冲突标识,对目标实体文本不执行信息添加操作。由此,实现了基于句式维度的语义标注的消歧处理,避免标注的正则表达式和语义槽模板库中已经存在的正则表达式存在语义冲突等,保证了基于语义搜索的可靠性。
126.为了实现上述实施例,本公开还提出了一种基于实体文本的语义冲突消歧处理装置。图14是根据本公开一个实施例的基于实体文本的语义冲突消歧处理装置的结构示意图,如图14所示,该基于实体文本的语义冲突消歧处理装置可包括第一获取模块1410、第二获取模块1420、第三获取模块1430和标注模块1440,其中,
127.第一获取模块1410,被配置为检测待处理的目标实体文本的语义冲突消歧类型,在语义冲突消歧类型为第一类型的情况下,获取目标实体文本待添加的目标属性;
128.第二获取模块1420,用于查询预先标注的实体文本属性数据库,获取与目标实体文本对应的已标注属性;
129.第三获取模块1430,用于查询预设的第一冲突属性数据库,获取与目标属性匹配的第一冲突属性集合,其中,第一冲突属性数据库中的属性对组合的冲突概率大于预设阈值;
130.标注模块1440,用于在检测获知第一冲突属性集合包含已标注属性时,输出语义
强冲突标识,对目标实体文本不执行目标属性的添加操作。
131.需要说明的是,前述对基于实体文本的语义冲突消歧处理方法实施例的解释说明,也适用于本公开实施例的基于实体文本的语义冲突消歧处理装置,其实现原理类似,在此不再赘述。
132.为了实现上述实施例,本公开还提出了一种电子设备,该电子设备可以是电视机、电脑等,在本实施例中,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述实施例所描述的基于实体文本的语义冲突消歧处理方法。
133.为了实现上述实施例,本公开还提出了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述基于实体文本的语义冲突消歧处理方法。
134.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本属性的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
135.为了方便解释,已经结合具体的实施方式进行了上述说明。但是,上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导,可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用,从而使得本属性技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献