基于开放式规则的前提关系生成方法、装置和电子设备与流程

2023-02-04 09:07:24 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种基于开放式规则的前提关系生成方法、装置和电子设备。

背景技术：

2.自然语言的开放式规则是指一段自然语言描述的前提关系蕴含一段自然语言描述的假设关系，开放式规则使用自然语言来构成规则，具有更强的表达能力。基于开放式规则下的前提关系归纳是一项具有挑战性的任务，其核心问题在于满足前提关系与假设关系的蕴含性(规则的质量)的同时尽可能使前提关系覆盖足够大的语义空间(规则的多样性)。
3.传统的前提关系归纳方法通常在一个闭合世界(例如一个知识图谱)中进行，其规则由预先定义好的常量、函数与谓词构成，这极大的限制了规则的表达能力与逼近真实世界的能力。
4.目前，针对开放式规则归纳前提关系的方法有基于预训练语言模型的归纳方法，将可归纳的规则从知识图谱中少数的原子扩展到了任意自然语言表达的关系，但这种方法仍然存在以下缺点：(1)受限于预训练语言模型的训练分布，只能生成单一类型的实例，进而极大限制了前提关系的语义；(2)仅选取分布中高频的实例来近似前提的概率估计，忽略了低频实例的信息，导致生成规则的质量不高。

技术实现要素：

5.本发明提供一种基于开放式规则的前提关系生成方法、装置和电子设备，用以解决现有技术中由于实例类型单一限制了生成的前提关系的语义，忽略低频实例使得生成的前提关系质量不高的缺陷，实现生成高质量且多样性的前提关系。
6.本发明提供一种基于开放式规则的前提关系生成方法，该方法包括：
7.基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例；
8.基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
9.根据本发明提供的一种基于开放式规则的前提关系生成方法，还包括：
10.通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合。
11.根据本发明提供的一种基于开放式规则的前提关系生成方法，所述实例簇还包括所述实例对应的实例得分，所述候选前提关系集合还包括所述候选前提关系对应的前提关系得分；
12.通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合，包括：
13.将所述实例簇中的实例与对应的所述候选前提关系集合中的候选前提关系进行
拼接得到拼接前提关系集合，所述拼接前提关系集合包括拼接前提关系和对应的整体得分；
14.采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合。
15.根据本发明提供的一种基于开放式规则的前提关系生成方法，采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合，包括：
16.采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量并根据所述表示向量计算任意两拼接前提关系的表示向量之间的余弦相似度；
17.根据所述余弦相似度和所述整体得分生成所述拼接前提关系集合的正定矩阵；
18.采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵从所述拼接前提关系集合中筛选目标拼接关系以得到目标前提关系得到目标前提关系集合。
19.根据本发明提供的一种基于开放式规则的前提关系生成方法，基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，包括：
20.设定假设关系；
21.基于所述假设关系，对所述假设关系添加多个指示引导信息；
22.根据具有多个提示引导信息的假设关系基于预设采样方法生成分别对应多个所述指示引导信息的多个实例簇；
23.多个所述实例簇组成实例集合。
24.根据本发明提供的一种基于开放式规则的前提关系生成方法，所述预设采样方法为蒙特卡洛采样方法。
25.本发明还提供一种基于开放式规则的前提关系生成装置，该装置包括：
26.实例簇生成模块，基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例；
27.候选前提关系生成模块，用于基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
28.根据本发明提供的一种基于开放式规则的前提关系生成装置，还包括：
29.筛选模块，用于通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合。
30.根据本发明提供的一种基于开放式规则的前提关系生成装置，所述实例簇还包括所述实例对应的实例得分，所述候选前提关系集合还包括所述候选前提关系对应的前提关系得分；
31.所述筛选模块包括：
32.拼接子模块，用于将所述实例簇中的实例与对应的所述候选前提关系集合中的候选前提关系进行拼接得到拼接前提关系集合，所述拼接前提关系集合包括拼接前提关系和对应的整体得分；
33.筛选子模块，用于采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合。
34.根据本发明提供的一种基于开放式规则的前提关系生成装置，所述筛选子模块包括：
35.生成计算单元，用于采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量并根据所述表示向量计算任意两拼接前提关系的表示向量之间的余弦相似度；
36.矩阵生成单元，用于根据所述余弦相似度和所述整体得分生成所述拼接前提关系集合的正定矩阵；
37.筛选单元，用于采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵从所述拼接前提关系集合中筛选目标拼接关系以得到目标前提关系得到目标前提关系集合。
38.根据本发明提供的一种基于开放式规则的前提关系生成装置，所述实例簇生成模块包括：
39.设定子模块，用于设定假设关系；
40.添加子模块，用于基于所述假设关系，对所述假设关系添加多个指示引导信息；
41.实例簇生成子模块，用于根据具有多个提示引导信息的假设关系基于预设采样方法生成分别对应多个所述指示引导信息的多个实例簇。
42.根据本发明提供的一种基于开放式规则的前提关系生成装置，所述预设采样方法为蒙特卡洛采样方法。
43.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于开放式规则的前提关系生成方法。
44.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于开放式规则的前提关系生成方法。
45.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于开放式规则的前提关系生成方法。
46.本发明提供的基于开放式规则的前提关系生成方法、装置和电子设备，通过提示引导信息能够生成多样化的实例且实例中包含低频实例，使得后续基于支持束搜索方法，能够获得多样性的前提关系且获得的前提关系质量较高。
附图说明
47.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
48.图1是本发明提供的基于开放式规则的前提关系生成方法的流程示意图之一；
49.图2是本发明提供的基于开放式规则的前提关系生成方法的流程示意图之二；
50.图3是本发明提供的筛选目标前提关系得到目标前提关系集合的方法的流程示意图；
51.图4是本发明提供的基于开放式规则的前提关系生成方法的流程示意图之三；
52.图5是本发明提供的采用行列式点阵过程根据整体得分和相似度筛选目标前提关系得到目标前提关系集合的方法的流程示意图；
53.图6是本发明提供生成实例簇的方法的流程示意图；
54.图7是本发明提供的基于开放式规则的前提关系生成装置的结构示意图；
55.图8是本发明提供的基于开放式规则的前提关系生成装置中筛选模块的结构示意图；
56.图9是本发明提供的基于开放式规则的前提关系生成装置中筛选子模块的结构示意图；
57.图10是本发明提供的基于开放式规则的前提关系生成装置中实例簇生成模块的结构示意图；
58.图11是本发明提供的电子设备的结构示意图。
具体实施方式
59.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
60.下面结合图1-图6描述本发明的基于开放式规则的前提关系生成方法，该方法包括：
61.s101：基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例。
62.具体的，提示引导信息是基于假设关系可能对应的实例类型进行设定的，一个假设关系的提示引导信息可以有多个，用以对应不同的实例类型，提示引导信息越多生成的实例越具有多样性，实例即是具有上述假设关系的实体对。
63.示例性的，可以是通过预训练语言模型基于预设采样方法来生成实例簇，其生成的实例簇中既有高频实例也有低频实例。其中，预训练语言模型在训练集中见到过的实例分布中，出现次数多的实例为高频，出现次数少的实例为低频，实例簇中的高频实例即指的是与训练集中高频的实例相同的实例，低频实例即指的是与训练集中低频的实例相同的实例。
64.例如假设关系为a是b的一部分，则提示引导信息可以包括：位置、成员、身体等，提示引导信息越多则生成的实例类型越多。由基于不同的提示引导信息，通过假设关系可以生成对应各提示引导信息的不同类型的实例簇，例如针对提示引导信息“位置”，可以生成实例簇一，实例簇一中的实例可以包括：北京和中国、上海和中国、中国和亚洲、南京和江苏等。例如针对提示引导信息“成员”，可以生成实例簇二，实例簇二中的实例可以包括：学生和班级、班级和学校、孩子和家庭、员工和公司等。
65.s102：基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
66.具体的，通过实例簇，可以生成对应实例簇的候选前提关系集合，当有多个实例簇时，则有多个候选前提关系集合。例如对于实例簇一，候选前提关系集合中可以包括a是b的
首都；a是b的城市；a是b的省会城市；a是b的直辖市等多个前提关系。
67.传统的束搜索方法不会用到低频的实例的，本实施例中采用支持束搜索方法，会用到上一步中生成的高频实例和低频实例，低频实例能够提供更丰富的关系信息，因此支持束搜索方法使用高频实例和低频实例可以考虑到全部实例的贡献，能够生成更高质量即通顺程度和蕴含程度都较好的候选前提关系。传统的束搜索方法是针对一个样本维护其最大概率的k个序列，其中，概率指的是生成该序列的概率。支持束搜索方法是对于一批次的n个样本维护其共同贡献下的概率最大的k个序列。具体的，基于支持束搜索方法得到候选前提关系的过程公式化定义为：
[0068][0069]
其中，ins表示实例，ins表示采样的实例簇，r
p
表示前提关系，rh表示假设关系，p(r
p
|ins)表示给定实例，前提关系的概率分布；p(ins|rh)表示给定假设关系，实例的概率分布；表示对来自于p(
·
|rh)分布的ins求期望。
[0070]
应用生成的实例采用支持束搜索方法得到候选前提关系的过程公式化定义如下：
[0071][0072][0073]
其中，p(beam|ins)表示给定实例集合，写到一半的前提关系的概率分布；p(w|beam，ins)表示给定写到一半的前提关系与实例集合，下一个生成的前提关系中的单词的概率分布；p(beam|ins)表示给定实例，写到一半的前提关系的概率分布；p(w|beam，ins)表示给定写到一半的前提关系与实例，下一个生成的前提关系中的单词的概率分布。
[0074]
本发明提供的基于开放式规则的前提关系生成方法，通过提示引导信息能够生成多样化的实例且实例中包含低频实例，使得后续基于支持束搜索方法，能够获得多样性的前提关系且获得的前提关系质量较高。
[0075]
在一个实施例中，参考图2中所示，基于开放式规则的前提关系生成方法还可以包括：
[0076]
通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合。
[0077]
具体的，根据上述实施例内容可以看出，生成的多个前提关系中有的前提关系是相似的，例如a是b的首都和a是b的城市，这两个前提关系都表征了城市和国家的关系，比较相似。因此，可以通过行列式点阵过程从所有候选前提关系集合中的候选前提关系中筛选出具有代表性的，相互不相似的前提关系作为目标前提关系从而得到目标前提关系集合。
[0078]
参考图2中所示，图2中示出了本实施例方法和基线方法的综合流程示意图，其中，白色箭头表示基线方法的流程，灰色箭头表示本实施例方法的流程。由图2可以看出，基线方法中在对假设关系没有设置多个引导提示信息的情况下，生成的实例的多样性比本方法生成的实例的多样性差，同时生成的候选前提关系的多样性也较本方法生成的候选前提关系的多样性差。进一步的，本方法中，针对获得的候选前提关系还进行了筛选，使得得到的目标前提关系具有多样性且相似度低、质量高。
[0079]
在一个实施例中，参考图3和图4中所示，所述实例簇还包括所述实例对应的实例得分，所述候选前提关系集合还包括所述候选前提关系对应的前提关系得分；
[0080]
通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合，包括：
[0081]
s301：将所述实例簇中的实例与对应的所述候选前提关系集合中的候选前提关系进行拼接得到拼接前提关系集合，所述拼接前提关系集合包括拼接前提关系和对应的整体得分。
[0082]
具体的，实例对应的实例得分表征着该实例与假设关系组合成的自然语言的通顺程度以及蕴含程度。候选前提关系对应的前提关系得分表征着该候选前提关系语言的通顺程度以及该候选前提关系对假设关系的蕴含程度。
[0083]
可以理解的是，如果仅通过候选前提关系来执行行列式点过程，则在生成候选前提关系的表示向量时可能会出现分布外问题。分布外指的是行列式点过程中用于将前提关系编码成表示向量的语言模型，在训练学习时没有学习到的前提关系分布。分布外问题指的是，对于没有学习到的分布该语言模型难以较好的对其进行编码从而得到准确的指示向量。
[0084]
因此采用将实例与候选前提关系进行拼接的方式，将候选前提关系与对应的实例进行拼接形成拼接前提关系，例如，将前提关系a是b的首都和实例(北京、中国)进行拼接生成拼接前提关系：北京是中国的首都。拼接前提关系集合包括拼接前提关系和对应的整体得分，拼接前提关系的整体得分通过实例得分和前提关系得分相乘得到，具体表示为：
[0085]
l
i，i
＝p(yi＝r
p
ins|rh)
[0086]
ꢀꢀ
＝p(r
p
|rh)p(ins|rh)
[0087]
其中，p(r
p
|rh)为给定假设关系，前提关系的概率分布；p(ins|rh)为给定假设关系，实例的概率分布。
[0088]
s302：采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合。
[0089]
具体的，采用行列式点阵过程，根据拼接前提关系的整体得分和相互之间的相似度筛选目标前提关系。基于整体得分，可以在多个拼接前提关系中通过筛选整体得分较高的拼接前提关系以获得语言通顺程度高且对假设关系的蕴含程度高的拼接前提关系。基于
相似度可以在多个相似度高的拼接前提关系中仅保留一个具有代表性的。同时结合相似度和整体得分，可以在相似度高的拼接前提关系中基于整体得分来筛选目标前提关系并最终得到目标前提关系集合。
[0090]
在一个实施例中，参考图5中所示，采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合，包括：
[0091]
s501：采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量并根据所述表示向量计算任意两拼接前提关系的表示向量之间的余弦相似度。
[0092]
具体的，采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量，该编码器是一种预训练的语言模型，为bert模型架构，用于将根据前提关系生成对应的表示向量。
[0093]
余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。在得到表示向量后，则可以通过计算获知任意两个拼接前提关系的表示向量之间的余弦相似度：
[0094]
ui＝mean(bert(yi))
[0095]
sim(yi，yj)＝u
it
uj/(‖ui‖||uj||)
[0096]
其中，yi为第i个拼接前提关系，ui为拼接前提关系编码后的高维向量，sim(yi，yj)为第i个拼接前提关系和第j个拼接前提关系之间的余弦相似度。
[0097]
s502：根据所述余弦相似度和所述整体得分生成所述拼接前提关系集合的正定矩阵。
[0098]
具体的，根据所述余弦相似度和所述整体得分生成所述拼接前提关系集合的正定矩阵。正定矩阵为一个n
×
n的矩阵，其中，矩阵的对角线元素对应着拼接前提关系集合中每一个拼接前提关系的质量，非对角线元素是俩拼接前提关系的相似程度，参考图4所示，对角线元素，即第i行i列为第i个拼接前提关系的质量得分，如t1行t1列、t2行t2列、t3行t3列等；非对角线元素，第i行j列(i不等于j)和第j行i列都是第i个拼接前提关系和第j个拼接前提关系的相似度，如t1行t2列和t2行t1列都是第1个拼接前提关系和第2个拼接前提关系之间的相似度。
[0099]
s503：采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵从所述拼接前提关系集合中筛选目标拼接关系以得到目标前提关系得到目标前提关系集合。
[0100]
示例性的，采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵，筛选出目标拼接关系以得到目标前提关系。在筛选时即需要考虑整体得分以获得质量较好的前提关系，还需要考虑相似度，从相似的前提关系中选出具有代表性的前提关系。
[0101]
在一个实施例中，参考图6中所示，基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，包括：
[0102]
s601：设定假设关系。
[0103]
示例性的，设定假设关系，假设关系可以是a是b的一部分，a包括b等假设关系，具体根据需要进行设定。
[0104]
s602：基于所述假设关系，对所述假设关系添加多个指示引导信息。
[0105]
示例性的，基于假设关系，添加多个指示引导信息，指示引导信息越多，则生成的实例就更加的多样化。
[0106]
s603：根据具有多个提示引导信息的假设关系基于预设采样方法生成分别对应多个所述指示引导信息的多个实例簇。
[0107]
在一个实施例中，所述预设采样方法为蒙特卡洛采样方法。
[0108]
具体的，蒙特卡洛采样方法(monte carlo method)通常指用采样的方法来计算一些高维分布的积分，因为他的误差(方差)的收敛速度是不随维度变化的，这就使其相比于一般的数值积分在高维情况下表现更好。
[0109]
对上述实施例中的方法进行多项评估实验，得到实验一实验结果：
[0110][0111]
上述实验一结果表格的行类目中，coment、prompt、orion分别代表三种不同的基线方法；quadori w/o p10、quadori w/o ssts和quadori w/o dpp为实施例中对假设系设置提示引导信息，采用蒙特卡洛采样方法，并对候选前提关系进一步进行筛选得到目标前提关系的方法的消融实验的结果。其中，quadori w/o p10表示在使用本方法时，本方法的s101中对假设关系不设置提示引导信息的情况；quadori w/o ssts表示在使用本方法时，本方法的s101中不使用蒙特卡洛采样方法的情况；quadori w/o dpp表示在使用本方法时不对候选前提关系进行筛选的情况；quadori表示实施例中对假设系设置提示引导信息，并采用蒙特卡洛采样方法，并对候选前提关系进一步进行筛选得到目标前提关系的情况。
[0112]
上述实验结果表格的列类目中，bleu-1、bleu-2、bleu-3、rouge-l和meteor这5个指标表征生成的前提关系与人工标注的前提关系之间的文本相似程度指标，这5个指标的得分值越大则相似程度越高。self-bleu-2是表征前提关系的多样性的指标，该指标的得分值越小则多样性越好。es(entailment score)指标表征前提关系与假设关系的蕴含性，该指标的得分值越大越好。
[0113]
从上述实验一的实验结果可以看出，quadori方法在相似程度上达到了最好的效果，在多样性上仅次于prompt方法，在蕴含性上优于coment、prompt、orion三种基线方法。蕴含性最好的是quadori w/op10方法，这是因为基于假设关系的提示引导信息可能会引入与假设关系不相关的实例，从而造成蕴含性下降。
[0114]
得到实验二实验结果：
[0115]
[0116]
上述实验二结果表格的列类目中，spouse和disease表示配偶和疾病两类关系抽取任务的f1得分，得分值越大越好。上述实验二结果表格的行类目中，expbert表示关系抽取模型，用于融合所归纳的前提关系并进行推理，orion’s rules表示orion方法归纳的前提关系，quadori’s rules表示实施例中对假设系设置提示引导信息，并采用蒙特卡洛采样方法，并对候选前提关系进一步进行筛选得到的目标前提关系；human’s rules表示人类撰写的前提关系。
[0117]
从上述实验二的实验结果可以看出，quadori方法归纳的前提关系在配偶与疾病两种关系数据集上，融入后的效果是最好的。
[0118]
得到实验三实验结果：
[0119][0120]
上述实验三结果表格表示将预设关系数据集的文本作为假设，各方法归纳的前提关系的能否覆盖人工标注的关系的实验结果。
[0121]
上述实验三结果表格的列类目中，fewrel、nyt10、wiki80、trex、goole-re、semeval分别表示6个关系抽取数据集。上述表格的第一部分表示在bleu-2指标情况下，分别基于6个关系抽取数据集得到的前提关系对人工标注关系的覆盖程度的得分值；上述表格的第二部分表示在rouge-l或meteor指标情况下，分别基于6个关系抽取数据集得到的前提关系对人工标注关系的覆盖程度的得分值；上述表格的第三部分表示self-bleu-2指标情况下，分别基于6个关系抽取数据集得到的前提关系对人工标注关系的覆盖程度的得分值。
[0122]
从上述实验三的实验结果可以看出，quadori方法归纳的前提关系在个指标情况下对人工标注关系的覆盖程度的得分值均基本达到了最优。
[0123]
下面对本发明提供的基于开放式规则的前提关系生成装置进行描述，下文描述的基于开放式规则的前提关系生成装置与上文描述的基于开放式规则的前提关系生成方法可相互对应参照。
[0124]
本发明还提供一种基于开放式规则的前提关系生成装置，参考图7中所示，该装置包括：
[0125]
实例簇生成模块701，用于基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例。
[0126]
候选前提关系生成模块702，用于基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
[0127]
具体的，提示引导信息是基于假设关系可能对应的实例类型进行设定的，一个假设关系的提示引导信息可以有多个，用以对应不同的实例类型，提示引导信息越多生成的实例越具有多样性，实例即是具有上述假设关系的实体对。
[0128]
基于实例簇生成模块701生成的实例簇，候选前提关系生成模块702可以生成对应实例簇的候选前提关系集合，当有多个实例簇时，则有多个候选前提关系集合。例如对于实例簇一，候选前提关系集合中可以包括a是b的首都；a是b的城市；a是b的省会城市；a是b的直辖市等多个前提关系。
[0129]
示例性的，上述候选前提关系生成模块702可以为一个预训练的语言模型，该语言模型可以为bart模型架构。
[0130]
在一个实施例中，该基于开放式规则的前提关系生成装置还包括：
[0131]
筛选模块，用于通过行列式点阵过程从所述候选前提关系集合中筛选目标前提关系得到目标前提关系集合。
[0132]
具体的，根据上述实施例内容可以看出，候选前提关系生成模块702生成的多个前提关系中有的前提关系是相似的，例如a是b的首都和a是b的城市，这两个前提关系都表征了城市和国家的关系，比较相似。因此，筛选模块用于通过行列式点阵过程从所有候选前提关系集合中的候选前提关系中筛选出具有代表性的，相互不相似的前提关系作为目标前提关系从而得到目标前提关系集合。
[0133]
在一个实施例中，参考图8中所示，所述实例簇还包括所述实例对应的实例得分，所述候选前提关系集合还包括所述候选前提关系对应的前提关系得分；
[0134]
所述筛选模块包括：
[0135]
拼接子模块801，用于将所述实例簇中的实例与对应的所述候选前提关系集合中的候选前提关系进行拼接得到拼接前提关系集合，所述拼接前提关系集合包括拼接前提关系和对应的整体得分。
[0136]
筛选子模块802，用于采用行列式点阵过程根据所述拼接前提关系集合中所述拼接前提关系对应的整体得分和任意两个拼接前提关系之间的相似度筛选目标前提关系得到目标前提关系集合。
[0137]
具体的，实例对应的实例得分表征着该实例与假设关系组合成的自然语言的通顺程度以及蕴含程度。候选前提关系对应的前提关系得分表征着该候选前提关系语言的通顺程度以及该候选前提关系对假设关系的蕴含程度。
[0138]
可以理解的是，如果仅通过候选前提关系来执行行列式点过程，则在生成候选前提关系的表示向量时可能会出现分布外问题。因此拼接子模块801用于将候选前提关系与对应的实例进行拼接以形成拼接前提关系，拼接前提关系的整体得分通过实例得分和前提关系得分相乘得到。结合相似度和整体得分，筛选子模块802可以在相似度高的拼接前提关系中基于整体得分来筛选目标前提关系并最终得到目标前提关系集合。
[0139]
在一个实施例中，参考图9中所示，所述筛选子模块包括：
[0140]
生成计算单元901，用于采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量并根据所述表示向量计算任意两拼接前提关系的表示向量之间的余弦相似度。
[0141]
矩阵生成单元902，用于根据所述余弦相似度和所述整体得分生成所述拼接前提
关系集合的正定矩阵。
[0142]
筛选单元903，用于采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵从所述拼接前提关系集合中筛选目标拼接关系以得到目标前提关系得到目标前提关系集合。
[0143]
具体的，生成计算单元901用于采用行列式点过程中的编码器生成所述拼接前提关系集合中所述拼接前提关系的表示向量，该编码器是一种预训练的语言模型，为bert模型架构，用于将根据前提关系生成对应的表示向量。余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。
[0144]
矩阵生成单元902用于根据所述余弦相似度和所述整体得分生成所述拼接前提关系集合的正定矩阵。正定矩阵为一个n
×
n的矩阵，其中，矩阵的对角线元素对应着拼接前提关系集合中每一个拼接前提关系的质量，非对角线元素是俩拼接前提关系的相似程度。
[0145]
筛选单元903用于采用行列式点过程中基于贪心算法的最大后验估计方法根据所述正定矩阵，筛选出目标拼接关系以得到目标前提关系。
[0146]
在一个实施例中，参考图10中所示，所述实例簇生成模块包括：
[0147]
设定子模块1001，用于设定假设关系。
[0148]
添加子模块1002，用于基于所述假设关系，对所述假设关系添加多个指示引导信息。
[0149]
实例簇生成子模块1003，用于根据具有多个提示引导信息的假设关系基于预设采样方法生成分别对应多个所述指示引导信息的多个实例簇。
[0150]
具体的，设定子模块1001用于设定假设关系，假设关系可以是a是b的一部分，a包括b等假设关系，具体根据需要进行设定。添加子模块1002用于基于假设关系，添加多个指示引导信息，指示引导信息越多，则生成的实例就更加的多样化。实例簇生成子模块1003用于根据具有多个提示引导信息的假设关系基于预设采样方法生成分别对应多个所述指示引导信息的多个实例簇，示例性的，实例簇生成子模块1003可以为一个预训练的语言模型，该语言模型可以为bart模型架构。
[0151]
在一个实施例中，所述预设采样方法为蒙特卡洛采样方法。
[0152]
本发明提供的基于开放式规则的前提关系生成装置，通过提示引导信息能够生成多样化的实例且实例中包含低频实例，使得后续基于支持束搜索方法，能够获得多样性的前提关系且获得的前提关系质量较高。
[0153]
图11示例了一种电子设备的实体结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(communications interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行基于开放式规则的前提关系生成方法，该方法包括：基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例；基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
[0154]
此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本
发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0155]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的基于开放式规则的前提关系生成方法，该方法包括：基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例；基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
[0156]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于开放式规则的前提关系生成方法，该方法包括：基于预设采样方法，根据具有多个提示引导信息的假设关系生成对应各所述提示引导信息的实例簇，所述实例簇包括实例；基于支持束搜索方法，通过所述实例簇生成对应所述实例簇的候选前提关系集合，所述候选前提关系集合包括候选前提关系。
[0157]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0158]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0159]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种基于区块链的三维数字数据处理方法与流程

基于开放式规则的前提关系生成方法、装置和电子设备与流程

相关文献

最热文献