一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

问题生成方法、装置、电子设备和存储介质与流程

2022-04-06 18:27:42 来源:中国专利 TAG:


1.本发明涉及人工智能技术领域,尤其涉及一种问题生成方法、装置、电子设备和存储介质。


背景技术:

2.问答知识库是构建智能问答系统的数据基础,而问答知识点则是构建问答知识库的基准,问答知识点多以问答对的形式呈现。在智能客服以及业务培训等场景中,通常需要预先梳理出既定的问答知识点,此类问答知识点很大程度上来源于对应领域的长篇的非结构化文本,例如,产品说明手册、保险协议等,这使得人工进行的问答知识点的梳理归纳过程尤为耗时费力。
3.目前的问答对自动生成方案中,采用的多为阅读理解类的语料,其执行过程一般是先指定特定实体,然后根据特定实体和文本生成事实类问题,但是该方法不适用于长篇说明类文本,其对此类文本结构信息的利用率较低,并且在答案的表述上存在欠缺,因而难以直接应用于此类文本。


技术实现要素:

4.本发明提供一种问题生成方法、装置、电子设备和存储介质,用以解决现有技术中的问答对生成方法无法应用于长篇的知识文本的缺陷。
5.本发明提供一种问题生成方法,包括:
6.从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;
7.将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
8.根据本发明提供的一种问题生成方法,所述知识图谱基于如下步骤确定:
9.对所述知识文本进行结构划分,得到所述知识文本中各层级的标题,以及各层级的标题下的正文文本;
10.基于所述各层级的标题,以及各层级的标题下的正文文本,构建知识图谱。
11.根据本发明提供的一种问题生成方法,所述基于所述各层级的标题,以及各层级的标题下的正文文本,构建知识图谱,包括:
12.以各层级的标题作为分支节点,以各层级的标题下的正文文本作为叶子节点,构建初始图谱;
13.基于所述正文文本中的实体三元组,和/或与所述实体三元组中的实体相关联的关键词,对所述初始图谱进行补充,得到所述知识图谱,所述关键词从所述正文文本中提取得到。
14.根据本发明提供的一种问题生成方法,所述关键词基于如下步骤确定:
15.获取所述正文文本中的候选关键词;
16.基于各候选关键词与所述实体三元组中的实体的共现信息,从所述各候选关键词中筛选所述关键词。
17.根据本发明提供的一种问题生成方法,所述将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,包括:
18.将所述知识子图和预期难度输入所述问题生成模型,得到所述问题生成模型输出的问题文本;
19.所述问题生成模型基于评估难度,样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
20.根据本发明提供的一种问题生成方法,所述评估难度包括样本知识图谱的理解复杂度和/或所述样本问题文本的描述复杂度;
21.所述理解复杂度基于所述样本知识图谱中样本候选知识子图的数量,所述样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离,以及所述样本知识子图中问题关联节点的数量与答案关联节点的数量中的至少一种确定;
22.所述描述复杂度基于所述样本知识图谱的理解复杂度和所述问题关联节点的数量确定。
23.根据本发明提供的一种问题生成方法,所述样本知识子图基于如下步骤确定:
24.确定所述样本问题文本和样本答案文本;
25.将所述样本知识图谱中各实体节点分别与所述样本问题文本和所述样本答案文本进行相似度匹配,确定所述样本问题文本在所述样本知识图谱中对应的候选问题关联节点,以及所述样本答案文本在所述样本知识图谱中对应的候选答案关联节点;
26.基于所述候选问题关联节点和所述候选答案关联节点,在所述样本知识图谱中的关联子图,确定所述样本知识子图。
27.本发明还提供一种问题生成装置,包括:
28.子图确定单元,用于从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;
29.问题生成单元,用于将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
30.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的问题生成方法的步骤。
31.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的问题生成方法的步骤。
32.本发明提供的问题生成方法、装置、电子设备和存储介质,对知识文本进行图结构化得到知识图谱,并从知识图谱中确定出待处理的知识子图,构造了非严格本体约束的知识图谱,在保证知识文本与知识图谱的领域相关性的同时,提升了其知识建模的精细度,降低了知识文本中噪声的影响,有助于不同粒度的问答资源的统一建模;并且,将知识子图输入问题生成模型,问题生成模型根据知识子图以及其中携带的答案节点标记生成问题文
本,能够克服传统方案中问答对生成方法不适用于长篇说明类文本的缺陷,提升了长篇的知识文本的结构信息的利用率,完善了在答案上的语言表述,实现了基于长篇的知识文本的问题文本的生成。
附图说明
33.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明提供的问题生成方法的流程示意图;
35.图2是本发明提供的知识图谱的确定过程的示意图;
36.图3是本发明提供的知识图谱的确定过程中步骤220的流程示意图;
37.图4是本发明提供的关键词的确定过程的示意图;
38.图5是本发明提供的样本知识子图的确定过程的示意图;
39.图6是本发明提供的独立编码过程的示意图;
40.图7是本发明提供的问题生成装置的结构示意图;
41.图8是本发明提供的电子设备的结构示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.问答知识库是构建智能问答系统的数据基础,而问答知识点则是构建问答知识库的基准。其中,问答知识点多以问答对的形式呈现,当需要构建广泛领域的问答知识库时,通常需要针对对应领域预先梳理出既定的问答知识点,由于知识领域的庞大,因此需要从各类知识文本中获取问答知识点,特别是蕴含丰富知识点的对应领域的长篇的非结构化文本,例如,产品说明手册、保险协议、制度条款等,而通过人工对此类长篇的知识文本进行知识点梳理和归纳的过程需要耗费大量的时间和精力。
44.目前的问答对自动生成方案中,主要采用阅读理解类的语料,其执行过程一般是先指定特定实体(答案),然后根据该特定实体和文本生成事实类问题,这一过程可归纳为如下两个步骤:
45.第一步,内容选择:解决的是问什么样的问题;内容选择即为输入的句子和/或段落选择合适的主题,并根据选取的主题确定生成的问题的类型,得到问题的中间表示;
46.第二步,问题构建:解决的是怎么问的问题;有以下两类方案:
47.其一,传统方案:采用模板转化的方式,将经过第一步后得到的问题的中间表示转换为自然语言的问题。需要说明的是,在这一过程中还可以引入相关的神经网络模型以提升生成的问题文本的流畅性和多样性。
48.其二,当前方案:多采用神经网络模型进行问题的构建,例如,seq2seq的框架(融
合attention、copying等)。
49.除此之外,还可以通过一个联合模型来完成问答对的生成,在样本及其标注较为丰富的情况下,该方案较之其他方案的可行性更高。
50.然而,上述方案仅适用于短篇文本语料,对于长篇说明类以及条款类文本的结构信息利用率较低,且在实际的应用场景中,由于“怎么样”以及“怎么问”类问题的特殊性,即此类问题对应的文本的篇幅较长,会使得其对应的答案文本在表述上较为欠缺,因而,难以直接有效的应用于长篇的文本。
51.针对上述情况,本发明提供一种问题生成方法,图1是本发明提供的问题生成方法的流程示意图,如图1所示,该方法包括:
52.步骤110,从知识图谱中确定出待处理的知识子图,知识图谱是对知识文本进行图结构化得到的,知识子图中部分节点携带有答案节点标记;
53.具体地,在生成问题文本之前,首先需要确定待处理的知识子图,以及知识子图中与问题文本相呼应的答案节点,以便基于此两者进行问题文本的生成。
54.知识子图是知识图谱中与问题文本和答案节点相关联的节点形成的子图,知识子图是基于知识图谱确定的,而知识图谱是基于知识文本确定的,知识图谱的确定过程包括如下步骤:首先,对知识文本进行图结构化,将知识文本转化为初始图谱;然后,对初始图谱进行补充完善,从而得到知识图谱,此时得到的知识图谱不仅能够保证与知识文本的领域相关性,还能提升知识建模的精细度,降低了知识文本中噪声的影响。
55.需要说明的是,从知识图谱中确定出的待处理的知识子图中还需携带有答案节点标记,携带有答案节点标记的节点即为与问题文本相呼应的答案节点,基于知识图谱以及其中携带的答案节点标记即可实现问题文本的生成。
56.步骤120,将知识子图输入问题生成模型,得到问题生成模型输出的问题文本,问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,样本知识子图中部分节点携带有样本答案节点标签。
57.具体地,经过步骤110得到待处理的知识子图后,即可基于此知识子图进行问题文本的生成,具体可以是,将知识子图输入问题生成模型,问题生成模型根据输入的知识子图以及其中携带的答案节点标记进行问题文本的生成,最终得到问题生成模型输出的问题文本。
58.需要说明的是,在将知识子图输入问题生成模型之前,还可以根据样本问题文本及其对应的样本知识子图,预先训练得到问题生成模型,问题生成模型的训练过程包括如下步骤:首先,确定样本问题文本以及样本知识图谱;随即,从样本知识图谱中确定出样本问题文本对应的样本知识子图,该样本知识子图中与样本问题文本相呼应的节点携带有答案节点标签;随后,基于样本问题文本及其对应的样本知识子图,对初始问题生成模型进行训练,从而得到训练完成的问题生成模型。
59.本发明提供的问题生成方法,对知识文本进行图结构化得到知识图谱,并从知识图谱中确定出待处理的知识子图,构造了非严格本体约束的知识图谱,在保证知识文本与知识图谱的领域相关性的同时,提升了其知识建模的精细度,降低了知识文本中噪声的影响,有助于不同粒度的问答资源的统一建模;并且,将知识子图输入问题生成模型,问题生成模型根据知识子图以及其中携带的答案节点标记生成问题文本,能够克服传统方案中问
答对生成方法不适用于长篇说明类文本的缺陷,提升了长篇的知识文本的结构信息的利用率,完善了在答案上的语言表述,实现了基于长篇的知识文本的问题文本的生成。
60.基于上述实施例,图2是本发明提供的知识图谱的确定过程的示意图,如图2所示,知识图谱基于如下步骤确定:
61.步骤210,对知识文本进行结构划分,得到知识文本中各层级的标题,以及各层级的标题下的正文文本;
62.步骤220,基于各层级的标题,以及各层级的标题下的正文文本,构建知识图谱。
63.考虑到传统方案中对知识文本进行知识建模的过程存在一定的不足,例如,对以下知识文本进行知识建模时,其对应的子节点为操作场景,但缺乏主语信息,会使得知识建模的过程较为粗糙,因此,本发明实施例中在构建知识图谱时,需对知识文本中的层级结构予以充分考虑。
64.该知识文本的文本内容为:
[0065]“5.1.1.10.1自助修改密码
[0066]
操作场景
[0067]
当用户忘记vdi登录客户端的密码,或想要主动修改登录密码的时候,可使用自主修改密码功能,通过手机验证码的形式,完成密码的重新设置”。
[0068]
具体地,步骤110中,对知识文本进行图结构化得到知识图谱的过程,具体可以包括如下步骤:
[0069]
首先,执行步骤210,对知识文本进行结构划分,得到知识文本中各层级的标题以及各层级的标题下的正文文本,这一过程可以通过文本解析引擎实现,即利用文本解析引擎对知识文本进行结构解析,得到知识文本中的标题、一级标题、二级标题、三级标题等,以及各层级标题下的正文文本,此处的正文文本可以是一个小节的文本段落,也可以为多个段落的集合,本发明实施例对此不做具体限定;
[0070]
随即,执行步骤220,根据结构划分所得的各层级的标题,以及各层级标题下的正文文本,构建知识图谱,具体可以是,根据各层级的标题以及各层级标题下的正文文本,构建知识图谱的框架,即初始图谱;然后,对初始图谱进行补充完善,得到最终的知识图谱。
[0071]
基于上述实施例,图3是本发明提供的知识图谱的确定过程中步骤220的流程示意图,如图3所示,步骤220包括:
[0072]
步骤221,以各层级的标题作为分支节点,以各层级的标题下的正文文本作为叶子节点,构建初始图谱;
[0073]
步骤222,基于正文文本中的实体三元组,和/或与实体三元组中的实体相关联的关键词,对初始图谱进行补充,得到知识图谱,关键词从正文文本中提取得到。
[0074]
具体地,步骤220中,根据结构划分所得的知识文本中各层级的标题,以及各层级标题下的正文文本,构建知识图谱的过程,具体可以包括如下步骤:
[0075]
步骤221,将知识文本中各层级的标题作为分支节点,将正文文本作为叶子节点,构建初始图谱,这一过程包括如下步骤:
[0076]
首先,以各层级的标题作为分支节点,以各层级的标题下的正文文本作为叶子节点,构建文本树,即将知识文本的标题作为文本树的根节点,将一级标题作为二级标题的父节点,二级标题作为三级标题的父节点,以此类推,将各层级标题下的正文文本作为文本树
的叶子节点,叶子节点的节点内容可以是一个小节的文本段落,也可以为多个段落的集合,本发明实施例对此不做具体限定,由此可得到构建完成的文本树;
[0077]
随即,将文本树转换为初始图谱,具体可以是,将文本树中的分支节点直接转换为初始图谱中的对应节点,此类分支节点具有相同的实体类型,该实体类型的标记为“node”,分支节点的节点内容为对应标题的文本内容;在对文本树中的叶子节点进行转换时,考虑到叶子节点的节点内容可能比较多,即正文文本的文本段落比较长和/或文本段落比较多,此时可以对其进行精简,又由于大多数段落的首句即为对应段落的主旨句,因此,可摘取各文本短段落的首句,并对其进行拼接,将拼接所得的文本作为叶子节点的节点内容,并将该节点的实体类型标记为“leaf”,如此即可完成文本树的转换,得到初始图谱;
[0078]
需要说明的是,当文本段落的首句不能表征对应段落的主旨时,对叶子节点的节点内容进行精简的方法可进行相应调整;
[0079]
步骤222,对正文文本进行实体关系三元组抽取,得到正文文本中的实体三元组,这一过程可以通过实体关系抽取模型实现,该模型基于严格的本体设计,即严格定义了实体所属的概念、概念与概念之间的关系以及概念所具有的属性,基于该模型得到的实体三元组中的实体节点的实体类型为对应的概念类别,实体节点的节点内容为实体值或属性值。
[0080]
对正文文本进行实体关系三元组抽取的过程具体可以是,将正文文本输入实体关系抽取模型,由实体关系抽取模型对输入的正文文本进行实体关系三元组抽取,最终得到实体关系抽取模型输出的正文文本中的实体三元组,此时得到的实体三元组可以是实体-关系-实体,也可以是实体-属性-属性值。
[0081]
下面以某一正文文本为例,对实体关系三元组抽取的过程进行说明:
[0082]
正文文本的文本内容为:
[0083]“配置方法如下:
[0084]
第一步:先配置设备,通过默认ip登录设备,比如通过lan口登录设备,lan口的默认ip是10.251.251.251/24,在电脑上配置一个此网段的ip地址,通过https:/10.251.251.251登录设备,默认登录用户名/密码是:admin/admin。
[0085]
第二步:在【导航菜单】页面中的「网络配置」

「部署模式」,右边进入【部署模式】编辑页面,点击

开始配置’,出现以下页面:配置设备模式为网桥模式,点击

下一步
’”

[0086]
此段正文文本对应的领域已经定义的概念为“设备名称”和“配置项”,其中,“设备名称”所具有的属性为“登录地址”和“登录密码”,“配置项”所具有的属性为“模式”和“配置路径”,并且,两类概念均具有“实体别称”的属性选项,两类概念之间的关系为“使用方法”,通过实体关系三元组抽取得到的实体三元组可表示为下表所示形式:
[0087][0088]
需要说明的是,在将正文文本输入实体关系抽取模型之前,还可以根据样本正文文本以及样本正文文本中的样本实体三元组,预先训练得到实体关系抽取模型,实体关系抽取模型的训练过程包括如下步骤:首先,收集大量的样本正文文本,并标注出样本正文文本中的样本实体三元组;随即,基于样本正文文本,以及样本正文文本中的样本实体三元组,对初始实体关系抽取模型进行训练,从而得到训练完成的实体关系抽取模型。
[0089]
此后,即可根据实体关系三元组抽取所得的正文文本中的实体三元组,对步骤221中得到的初始图谱进行补充完善,得到知识图谱,即将每一叶子节点下的实体三元组补充至初始图谱中,与初始图谱中的叶子节点形成父子关系,实现父子节点之间的信息继承,从而使长篇的知识文本中的上下文之间的承接关系明朗化。
[0090]
另外,步骤222中,也可以通过与实体三元组中的实体相关联的关键词,对步骤221中得到的初始图谱进行补充,得到知识图谱,如此不仅可以提升知识图谱的信息覆盖率,还能够提升知识文本结构化后信息保留的完整度。
[0091]
需要说明的是,与实体三元组中的实体相关联的关键词可以通过对正文文本进行关键词提取得到,具体过程包括如下步骤:首先,对正文文本进行关键词提取;随即,基于关键词提取所得的正文文本中的候选关键词,确定与实体三元组中的实体相关联的关键词。
[0092]
除此之外,步骤222中,还可以结合上述两者对步骤221中得到的初始图谱进行补充,得到知识图谱,即根据正文文本中的实体三元组,以及与实体三元组中的实体相关联的关键词,对初始图谱进行补充完善,从而得到知识图谱。
[0093]
本发明实施例提供的方法,以知识文本中的层级结构为基础,构建初始图谱,并根据对正文文本进行实体关系三元组抽取所得的实体三元组,和/或对正文文本进行关键词提取得到的与实体三元组中的实体相关联的关键词,对初始图谱进行补充,得到知识图谱,在保证知识文本与知识图谱的领域相关性的同事,提升了其知识建模的精细度,降低了知识文本中噪声的影响,与此同时,还提升了知识图谱的信息覆盖率,以及知识文本结构化后信息保留的完整度。
[0094]
基于上述实施例,图4是本发明提供的关键词的确定过程的示意图,如图4所示,关键词基于如下步骤确定:
[0095]
步骤410,获取正文文本中的候选关键词;
[0096]
步骤420,基于各候选关键词与实体三元组中的实体的共现信息,从各候选关键词中筛选关键词。
[0097]
具体地,步骤222中,从正文文本中提取与实体三元组中的实体相关联的关键词的过程,具体包括如下步骤:
[0098]
步骤410,对正文文本进行关键词提取,得到正文文本中的候选关键词,由于此时得到的关键词为整个正文文本的关键词,无法确定其与正文文本中的实体三元组中的实体之间的关联,因此,将其称之为候选关键词,需要说明的是,从正文文本中获取候选关键词的过程可通过textrank算法实现,也可以通过其他关键词提取方法实现,本发明实施例对此不做具体限定;
[0099]
步骤420,确定正文文本中各候选关键词与实体三元组中的实体的共现信息,此处的共现信息为各候选关键词与实体三元组中的实体共同出现的频次,基于此共现信息,可以从各候选关键词中筛选出与实体三元组中的实体相关联的关键词,这一过程包括如下步骤:
[0100]
首先,以正文文本中的句为单位,确定各句中的候选关键词与实体三元组中的实体的第一共现频次,需要说明的是,若任一候选关键词被实体三元组中的实体所属的mention包含或者存在重叠,则略过此次共现频次;
[0101]
随即,基于第一共现频次,确定实体三元组中各实体与各候选关键词的第二共现频次,即以实体三元组中的实体为单位,统计各实体与各候选关键词的第二共现频次;
[0102]
随后,针对实体三元组中的每一实体,按照第二共现频次从高到低的顺序对各候选关键词进行排序,从中选取前预设数量个候选关键词,并将其作为与对应的实体三元组中的实体相关联的关键词。此处的预设数量可以根据实际需求相应设置。
[0103]
本发明实施例提供的方法,从正文文本中获取候选关键词,并基于各候选关键词与实体三元组中的实体的共现信息,从各候选关键词中筛选关键词,为知识图谱的构建提供了助益。
[0104]
基于上述实施例,步骤120包括:
[0105]
将知识子图和预期难度输入问题生成模型,得到问题生成模型输出的问题文本;
[0106]
问题生成模型基于评估难度,样本问题文本及其对应的样本知识子图训练得到,样本知识子图中部分节点携带有样本答案节点标签。
[0107]
考虑到根据知识子图以及其中携带的答案节点标签生成的问题文本的难易程度是未知的,因此,为了使生成的问题文本更符合预期,可以添加难度控制因素,控制生成的问题文本的难度。
[0108]
具体地,步骤120中,在将知识子图输入问题生成模型,得到问题生成模型输出的问题文本时,还可以输入预期难度,以使问题生成模型生成的问题文本的符合预期,此处的预期难度可以是知识图谱的理解复杂度和/或问题文本的描述复杂度,这一过程具体可以是,将知识子图和预期难度输入问题生成模型,问题生成模型根据输入的预期难度,知识子图以及其中携带的答案节点标记进行问题文本的生成,最终得到问题生成模型输出的问题文本。
[0109]
需要说明的是,在将知识子图和预期难度输入问题生成模型之前,还可以根据评估难度,样本问题文本及其对应的样本知识子图,预先训练得到问题生成模型,问题生成模型的训练过程包括如下步骤:首先,确定评估难度,样本问题文本以及样本知识图谱,此处的评估难度用于评估样本问题文本的难度和/或样本知识图谱的难度;随即,从样本知识图
谱中确定出样本问题文本对应的样本知识子图,该样本知识子图中与样本问题文本相呼应的节点携带有答案节点标签;随后,基于评估难度,样本问题文本及其对应的样本知识子图,对初始问题生成模型进行训练,从而得到训练完成的问题生成模型。
[0110]
本发明提供的问题生成方法,将知识子图和预期难度输入问题生成模型,得到问题生成模型输出的问题文本,通过对预期难度进行调整,可以生成不同难度的问题文本,实现了问题文本在不同难度层级的全方位覆盖,有助于问题文本和答案文本的分层使用;并且,应用于培训考核等场景还能实现知识的递进掌握以及人员的区分。
[0111]
基于上述实施例,评估难度包括样本知识图谱的理解复杂度和/或样本问题文本的描述复杂度;
[0112]
理解复杂度基于样本知识图谱中样本候选知识子图的数量,样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离,以及样本知识子图中问题关联节点的数量与答案关联节点的数量中的至少一种确定;
[0113]
描述复杂度基于样本知识图谱的理解复杂度和问题关联节点的数量确定。
[0114]
具体地,应用于问题生成模型的训练过程中的评估难度可以包括样本知识图谱的理解复杂度、样本问题文本的描述复杂度中的一种或两种。
[0115]
其中,样本知识图谱的理解复杂度表示其对应的知识文本的理解难度,可以通过样本知识图谱中样本候选知识子图的数量,样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离,以及样本知识子图中问题关联节点的数量与答案关联节点的数量中的任意一种或两种确定,也可以结合此三者共同确定,本发明实施例对此不做具体限定。
[0116]
此处,候选问题关联节点和候选答案关联节点可以通过对样本知识图谱中各实体节点,与样本问题文本和样本答案文本分别进行相似度匹配确定,而样本候选知识子图则可以基于候选问题关联节点与候选答案关联节点,在样本知识图谱中形成的关联子图确定。
[0117]
样本知识图谱中样本候选知识子图的数量越多,表明样本问题文本依赖于背景事实的模糊性越高,即对样本知识图谱的依赖性越强,亦可以理解为对样本知识图谱的考察要求越高。
[0118]
样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离越远,即样本候选知识子图的深度越广,表明样本候选知识子图中,从样本问题文本到样本答案文本需经过的推理步骤越多,推理过程越复杂,或者从样本答案文本到样本问题文本的反向推理步骤越多,推理过程越繁复,因此,可以确定样本知识图谱的理解难度更高。
[0119]
样本知识子图是从样本候选知识子图中筛选得到的,样本知识子图中的问题关联节点和答案关联节点即样本候选知识子图中的候选问题关联节点和候选答案关联节点。
[0120]
样本知识子图中问题关联节点的数量与答案关联节点的数量越多,即样本知识子图的广度越深,表明样本问题文本和样本答案文本在样本知识子图中关联的节点越多以及涉猎的范围越广,从而说明样本知识图谱的复杂度越高,理解难度越大。
[0121]
确定样本知识图谱的理解复杂度后,即可根据样本知识图谱的理解复杂度和样本知识子图中问题关联节点的数量,确定样本问题文本的描述复杂度。
[0122]
样本知识子图中问题关联节点的数量越多,表明样本问题文本的模糊性高,即样
本问题文本的描述越复杂,此时,若引入样本答案文本,并且导致样本知识图谱的理解复杂度下降,则说明样本问题文本在语言描述上较为复杂,但其涉及的知识属于简单类型,其属于语言描述较为复杂的问题,需在后续的任务中进行澄清引导。
[0123]
本发明实施例提供的方法,通过三个不同层面的难度评估因素,评估样本知识图谱的难度,并根据样本知识图谱的难度确定样本问题文本的描述复杂度,实现了不同层级的难度评估,为难度可控的问题文本的生成提供了助力。
[0124]
基于上述实施例,样本知识图谱的理解复杂度和样本问题文本的描述复杂度的计算公式如下所示:
[0125]
其中,样本知识图谱的理解复杂度可通过如下公式计算得到:
[0126][0127]
其中,g1(q,a)表示样本知识图谱的理解复杂度,m为样本知识图谱中样本候选知识子图的数量,k为样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离,r表示样本知识子图中问题关联节点的数量与答案关联节点的数量,m
max
、k
max
和r
max
分别表示m、k和r的最大值,α1和α2是超参数。
[0128]
样本问题文本的描述复杂度是基于样本知识图谱的理解复杂度和问题关联节点的数量确定的,其计算公式如下所示:
[0129][0130]
其中,g2(q)表示样本问题文本的描述复杂度,n1为问题关联节点的数量,n1
max
表示n1的最大值。
[0131]
对于每一个样本问题文本和样本答案文本,均可以通过上述公式计算得到两者对应的样本知识图谱的理解复杂度和样本问题文本的描述复杂度,并且,样本知识图谱的理解复杂度和样本问题文本的描述复杂度的取值范围在0和1之间。
[0132]
基于上述实施例,在得到预期难度、待处理的知识子图,以及训练完成的问题生成模型后,即可将知识子图和预期难度输入问题生成模型,从而得到问题生成模型输出的问题文本。
[0133]
在实际应用中,知识子图可以以叶子节点为答案节点,即将知识子图中的叶子节点标记为答案节点,此种情况下的答案文本会替换对应叶子节点的节点内容。与此同时,可以引入与该叶子节点相关联的分支节点、该叶子节点下的实体三元组中的实体以及与实体三元组中的实体相关联的关键词作为辅助信息,辅助问题文本的生成。
[0134]
例如,对于以下叶子节点,生成的问题文本可以是“修改密码的操作场景是什么”,该问题文本对应的答案文本为“当用户忘记密码vdi登陆密码,或想要主动修改登陆密码时,可使用自助修改功能,通过手机验证码的形式,完成密码的重新设置”。
[0135]
此叶子节点的文本内容为:
[0136]“操作场景
[0137]
当用户忘记密码vdi登陆密码,或想要主动修改登陆密码时,可使用自助修改功能,通过手机验证码的形式,完成密码的重新设置”。
[0138]
除此之外,还可以以实体节点为答案节点,此种情况下,问题文本的粒度控制更为精细,适用于细节类问题文本的生成,可同时生成不同粒度的问题文本,实现了不同粒度的问答资源的复用;并且,将知识子图中的不同节点标记为答案节点,可以实现不同问题文本的生成。
[0139]
此外,还可以引入难度编码器,对预期难度中两类不同的难度进行独立编码,图6是本发明提供的独立编码过程的示意图,如图6所示,可以通过不同的难度参数,对知识图谱的理解复杂度和问题文本的描述复杂度进行独立编码(complexity encoder),其计算公式如下式所示:
[0140]dk
=linear(relu(w
kgk
bk))k∈(1,2)
[0141]
其中,k为下标,k=1时,dk表示知识图谱经过独立编码后的理解复杂度,gk表示知识图谱的理解复杂度,k=2,dk表示问题文本经过独立编码后的描述复杂度,gk表示问题文本的描述复杂度,wk和bk表示难度参数。
[0142]
图6中对知识子图进行编码的过程可以通过图编码技术实现,具体可以是将知识子图中各节点初始化时所用的信息的实体类型的编码表示,与节点内容的编码表示进行拼接,与此同时,可以引入一个标志位来确定知识子图中的答案节点。
[0143]
基于上述实施例,图5是本发明提供的样本知识子图的确定过程的示意图,如图5所示,样本知识子图基于如下步骤确定:
[0144]
步骤510,确定样本问题文本和样本答案文本;
[0145]
步骤520,将样本知识图谱中各实体节点分别与样本问题文本和样本答案文本进行相似度匹配,确定样本问题文本在样本知识图谱中对应的候选问题关联节点,以及样本答案文本在样本知识图谱中对应的候选答案关联节点;
[0146]
步骤530,基于候选问题关联节点和候选答案关联节点,在样本知识图谱中的关联子图,确定样本知识子图。
[0147]
具体地,样本知识子图的确定过程包括如下步骤:
[0148]
首先,执行步骤510,确定样本问题文本、样本答案文本和样本知识图谱,样本问题文本和样本答案文本可以从各类长篇的制度条款,保险协议、产品说明手册等样本知识文本中提取得到,而样本知识图谱可以对样本知识文本进行图结构化得到的,图结构化的过程上文已详细说明,此处不再赘述;
[0149]
随即,执行步骤520,将样本知识图谱中各实体节点分别与样本问题文本和样本答案文本进行相似度匹配,相似度匹配的过程可以通过实体链接技术实现,即分别计算样本问题文本和样本答案文本,与样本知识图谱中各实体节点的实体名称和实体别称之间的相似度,若两者之间的相似度大于预设阈值,表明对应的实体节点即为样本问题文本或样本答案文本在样本知识图谱中对应的节点,即样本问题文本或样本答案文本可以通过对应的实体节点进行体现,则进行召回,即将对应的实体节点确定为样本问题文本在样本知识图谱中对应的候选问题关联节点,或对应的实体节点确定为样本答案文本在样本知识图谱中对应的候选答案关联节点;此处的预设阈值是用于评判样本知识图谱中各实体节点与样本问题文本和样本答案文本的相似度的值,可以根据实际需求预先设置;
[0150]
需要说明的是,每一样本问题文本和样本答案文本在样本知识图谱中均可能对应有多个召回项,即在样本知识图谱中可能对应有多个候选问题关联节点和候选答案关联节
点;
[0151]
相应地,若样本问题文本和/或样本答案文本在样本知识图谱中对应的召回项为0,出现此种情况的原因可能是样本问题文本和/或样本答案文本的语言描述与样本知识图谱中各实体节点的实体名称不一致,即文本差异度过高,且无对应的实体别称,则需要补充对应实体节点的实体标注。例如,样本问题文本为“局域网接口密码是什么”,此时,可以将“局域网接口”加入对应实体“lan口”的实体别称中,并将样本问题文本对应的召回项记为1,需要说明的是,经过一次标注后得到的实体别称,可复用;
[0152]
此后,即可执行步骤530,将样本问题文本与样本答案文本,分别对应的候选问题关联节点和候选答案关联节点,在样本知识图谱中进行关联,形成关联子图;
[0153]
样本问题文本、样本答案文本以及关联子图,三者之间的对应关系可表示为下表所示形式:
[0154][0155]
考虑到形成的关联子图中可能存在关联错误的情况,因此,在确定关联子图后,还需进行初步筛选,即将关联子图中候选问题关联节点与候选答案关联节点之间的距离大于预设范围的关联子图舍去,得到样本候选知识子图。此处的预设范围表示关联正确的情况下,候选问题关联节点与候选答案关联节点之间可容忍的距离范围,可以根据实际情况相应设置。
[0156]
而在得到样本候选知识子图后,还需进行最终筛选,即从样本候选知识子图中筛选出唯一的样本知识子图,这一过程可由人工完成,也可以通过其他筛选方法实现,本发明实施例对此不做具体限定,至此样本知识子图的确定过程执行完毕,即完成了从样本知识图谱至样本知识子图的过程。
[0157]
下面对本发明提供的问题生成装置进行描述,下文描述的问题生成装置与上文描述的问题生成方法可相互对应参照。
[0158]
图7是本发明提供的问题生成装置的结构示意图,如图7所示,该装置包括:
[0159]
子图确定单元710,用于从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;
[0160]
问题生成单元720,用于将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
[0161]
本发明提供的问题生成装置,对知识文本进行图结构化得到知识图谱,并从知识图谱中确定出待处理的知识子图,构造了非严格本体约束的知识图谱,在保证知识文本与
知识图谱的领域相关性的同时,提升了其知识建模的精细度,降低了知识文本中噪声的影响,有助于不同粒度的问答资源的统一建模;并且,将知识子图输入问题生成模型,问题生成模型根据知识子图以及其中携带的答案节点标记生成问题文本,能够克服传统方案中问答对生成方法不适用于长篇说明类文本的缺陷,提升了长篇的知识文本的结构信息的利用率,完善了在答案上的语言表述,实现了基于长篇的知识文本的问题文本的生成。
[0162]
基于上述实施例,所述装置还包括图谱确定单元,用于:
[0163]
对所述知识文本进行结构划分,得到所述知识文本中各层级的标题,以及各层级的标题下的正文文本;
[0164]
基于所述各层级的标题,以及各层级的标题下的正文文本,构建知识图谱。
[0165]
基于上述实施例,图谱确定单元用于:
[0166]
以各层级的标题作为分支节点,以各层级的标题下的正文文本作为叶子节点,构建初始图谱;
[0167]
基于所述正文文本中的实体三元组,和/或与所述实体三元组中的实体相关联的关键词,对所述初始图谱进行补充,得到所述知识图谱,所述关键词从所述正文文本中提取得到。
[0168]
基于上述实施例,所述装置还包括关键词确定单元,用于:
[0169]
获取所述正文文本中的候选关键词;
[0170]
基于各候选关键词与所述实体三元组中的实体的共现信息,从所述各候选关键词中筛选所述关键词。
[0171]
基于上述实施例,问题生成单元720用于:
[0172]
将所述知识子图和预期难度输入所述问题生成模型,得到所述问题生成模型输出的问题文本;
[0173]
所述问题生成模型基于评估难度,样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
[0174]
基于上述实施例,所述评估难度包括样本知识图谱的理解复杂度和/或所述样本问题文本的描述复杂度;
[0175]
所述理解复杂度基于所述样本知识图谱中样本候选知识子图的数量,所述样本候选知识子图中候选问题关联节点与候选答案关联节点之间的距离,以及所述样本知识子图中问题关联节点的数量与答案关联节点的数量中的至少一种确定;
[0176]
所述描述复杂度基于所述样本知识图谱的理解复杂度和所述问题关联节点的数量确定。
[0177]
基于上述实施例,所述装置还包括样本子图确定单元,用于:
[0178]
确定所述样本问题文本和样本答案文本;
[0179]
将所述样本知识图谱中各实体节点分别与所述样本问题文本和所述样本答案文本进行相似度匹配,确定所述样本问题文本在所述样本知识图谱中对应的候选问题关联节点,以及所述样本答案文本在所述样本知识图谱中对应的候选答案关联节点;
[0180]
基于所述候选问题关联节点和所述候选答案关联节点,在所述样本知识图谱中的关联子图,确定所述样本知识子图。
[0181]
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处
理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行问题生成方法,该方法包括:从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
[0182]
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0183]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的问题生成方法,该方法包括:从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
[0184]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的问题生成方法,该方法包括:从知识图谱中确定出待处理的知识子图,所述知识图谱是对知识文本进行图结构化得到的,所述知识子图中部分节点携带有答案节点标记;将所述知识子图输入问题生成模型,得到所述问题生成模型输出的问题文本,所述问题生成模型基于样本问题文本及其对应的样本知识子图训练得到,所述样本知识子图中部分节点携带有样本答案节点标签。
[0185]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0186]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0187]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献