一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种垂直领域复杂问句分解方法、装置及计算机设备

2022-04-16 15:05:01 来源:中国专利 TAG:


1.本技术涉及自然语言处理技术领域,更具体地,涉及一种垂直领域复杂问句分解方法、装置及计算机设备。


背景技术:

2.随着自然语言处理(natural language generation,nlg)技术的发展与应用,复杂问句的分解已成为自然语言处理中的一项重要分支任务。其基本内涵是通过自然语言理解和自然语言生成技术,将特定复杂问句分解成若干个能够囊括其完整语义的子问句。其主要意义在于:一方面,将模糊、概略的复杂问句分解为若干个简单子问句,通过依次解答各子问句并最终形成复杂问句的答案,与直接对复杂问句进行意图识别再匹配答案相比,更容易实现对复杂问句解答的正确处理;另一方面,将复杂问句分解成更容易理解的简单子问句,同时也能更加充分挖掘复杂问句背后的隐含需求,从而启发引导用户提出更有价值的问句。
3.目前,复杂问句的分解方法主要分为基于规则模板的分解方法与基于机器学习的分解方法,它们各自存在以下不足:
4.(1)基于规则模板的分解方法视野受限。基于规则模板的分解方法主要是将待分解的复杂问句与事先制定的规则模板进行匹配,提取复杂问句句法特征,填充对应的句法模板得到相应的子问句,这种方法需要领域专家制定大量的分解规则,然而客观世界的事物关联千丝万缕,制定的分解规则受专家知识结构、主观意识、个人偏好等因素限制,导致分解视野受限、分解方向受专家人为因素影响较大。
5.(2)基于机器学习的分解方法“黑箱效应”现实存在。基于机器学习的分解方法主要通过大量训练问句对语料(即复杂问句与子问句之间的映射关系),从而实现对复杂问句端到端的分解。然而,随着复杂问句中信息元素的增加,基于机器学习的复杂问句分解方法存在的不可解释性越来越明显,导致分解效果不佳,“黑箱效应”现实存在。


技术实现要素:

6.针对现有技术的至少一个缺陷或改进需求,本发明提供了一种基于知识图谱与句法模板的垂直领域复杂问句分解方法,通过知识图谱发掘与复杂问句存在客观、密切关联的语义关联信息,再结合句法模板生成自然语言形式的分解子问句,最终得到更加科学、充分、有效的复杂问句分解效果。
7.为实现上述目的,按照本发明的第一个方面,提供了一种垂直领域复杂问句分解方法,其包括:
8.获取待分解的复杂语句,确定所述复杂语句所属的垂直领域;
9.将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型;
10.将所述主题实体和辅动词类型组合形成特征表达式,将所述特征表达式与预先配
置的所述垂直领域对应的句法模板库进行匹配,获得匹配度最高的句法模板并根据所述句法模板生成对应的知识图谱查询语句;
11.将所述查询语句输入所述垂直领域对应的知识图谱中,检索得到主题实体对应的关联子图;
12.从所述关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句。
13.优选的,上述垂直领域复杂问句分解方法,所述确定复杂语句所属的垂直领域,包括:
14.将所述复杂语句输入预先训练好的领域识别模型中,通过所述领域识别模型确定该复杂语句所属的垂直领域;
15.其中,所述领域识别模型利用具有垂直领域标签的多个样本训练得到,每个样本被处理为问句-领域映射对后输入领域识别模型中。
16.优选的,上述垂直领域复杂问句分解方法,所述将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型,包括:
17.将所述复杂语句进行分词和向量化处理,得到字向量矩阵;
18.对所述字向量矩阵进行特征提取和归一化处理,得到所述复杂语句对应的不同主题实体的预测标签得分;
19.将所述预测标签得分进行上下文约束,得到预测标签得分最高的主题实体及其对应的辅动词类型。
20.优选的,上述垂直领域复杂问句分解方法,所述从关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句,包括:
21.计算所述关联子图中与主题实体关联的所有实体的重要度并进行排序,提取排序前n的若干实体作为关联实体;
22.以所述关联实体作为根节点进行邻接实体遍历,得到多个三元组格式的关联语义信息,将各所述关联语义信息及辅动词类型进行组合,得到复杂语句分解后的多个子问句。
23.优选的,上述垂直领域复杂问句分解方法,所述计算关联子图中与主题实体关联的所有实体的重要度并进行排序,包括:
24.采用pagerank算法计算关联子图中所有实体的重要度,定义如下:
[0025][0026]
其中,pr(a)表示与主题实体关联的实体a的重要度得分,pr(t1)...pr(tn)分别代表实体a与t1...tn之间的关联度,c(t1)...c(tn)分别代表实体t1...tn与所有实体之间关联度的总和,d为范围0-1的阻尼系数。
[0027]
按照本发明的第二个方面,还提供了一种垂直领域复杂问句分解装置,其包括:
[0028]
确定模块,其被配置为获取待分解的复杂语句,并确定所述复杂语句所属的垂直领域;
[0029]
提取模块,其被配置为将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型;
[0030]
匹配模块,其被配置为将所述主题实体和辅动词类型组合形成特征表达式,将所述特征表达式与预先配置的所述垂直领域对应的句法模板库进行匹配,获得匹配度最高的句法模板并根据所述句法模板生成对应的知识图谱查询语句;
[0031]
检索模块,其被配置为将所述查询语句输入所述垂直领域对应的知识图谱库中,检索得到主题实体对应的关联子图;
[0032]
输出模块,其被配置为从所述关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句。
[0033]
按照本发明的第三个方面,还提供了一种电子设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述方法的步骤。
[0034]
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
[0035]
本发明提供的垂直领域复杂问句分解方法,首先确定待分解的复杂语句所属的垂直领域,将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型;将所述主题实体和辅动词类型组合形成特征表达式,与预先配置的所述垂直领域对应的句法模板库进行匹配,获得匹配度最高的句法模板并根据所述句法模板生成对应的查询语句;将查询语句输入所述垂直领域对应的知识图谱库中,检索得到包含主题实体的关联子图;从关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句;本发明利用了知识图谱相关技术在语义关联方面的优势,并结合句法模板实现分解的子问句工程化生成,克服了单纯依靠规则模板进行匹配的分解方法存在的灵活性差、视野受限等问题,具有一定的理论参考与实践借鉴价值。
附图说明
[0036]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]
图1为本实施例提供的一种垂直领域复杂问句分解方法的流程示意图;
[0038]
图2为本实施例提供的识别模型的拓扑结构示意图;
[0039]
图3为知识图谱库的框架以及构建过程示意图;
[0040]
图4为知识图谱库中的子网络的结构示意图;
[0041]
图5为本实施例提供的一种垂直领域复杂问句分解装置的逻辑框图;
[0042]
图6为本实施例提供的计算机设备的逻辑框图。
具体实施方式
[0043]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
[0044]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”、“具有”、“对应”以及它们
任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
[0045]
近年来,知识图谱(knowledge graph,kg)技术在工业界得到广泛应用,其独特的语义网络结构能够有效反映海量数据在现实世界的客观存在,并能够充分保留数据之间的原始语义信息。在商业、金融、医疗等垂直领域都实现了应用落地,为解决相关领域高维复杂的非线性问题提供有力支持。因此,本发明提出将知识图谱应用于垂直领域复杂问句分解任务中,可为其复杂问句分解提供路径指导并为分解后的子问句生成提供填充依据。
[0046]
句法模板是指将人类自然语言的句法规则归纳为各种固定范式,并作为自然语言处理的模板。通过归纳特定垂直领域复杂问句句法特点,设计相应的垂直领域句法模板(包含复杂问句与子问句模板),能够与构建的垂直领域知识图谱相互配合,从而实现对垂直领域复杂问句的分解任务。
[0047]
基于上述考虑,本发明采用知识图谱与句法模板技术,利用垂直领域知识图谱挖掘与复杂问句密切关联的语义信息,能够为复杂问句分解任务提供分解路径及填充信息,实现一种垂直领域复杂问句分解方法。
[0048]
图1是本实施例提供的一种垂直领域复杂问句分解方法的流程示意图,如图1所示,该方法主要包括以下步骤:
[0049]
s1获取待分解的复杂语句,确定所述复杂语句所属的垂直领域;
[0050]
本实施例中,垂直领域是指复杂语句所属的特定领域,如医疗、金融、教育等领域;针对待分解的复杂语句,首先需要区分其所在的垂直领域。
[0051]
在一种可选的实施方式中,通过深度学习模型来确定复杂语句所属的垂直领域,具体包括:
[0052]
将所述复杂语句输入预先训练好的领域识别模型中,通过领域识别模型获得该复杂语句所属的垂直领域;其中,该领域识别模型利用具有垂直领域标签的多个样本训练得到,每个样本被处理为问句-领域映射对后输入领域识别模型中。
[0053]
本实施例中,首先获取大量的复杂语句样本并分别为每个样本添加领域标签,形成语句-领域映射对输入领域识别模型中,模型对复杂语句与领域之间的映射关系进行学习。将待分解的复杂语句输入训练好的领域识别模型中,领域识别模型预测输出待分解的复杂语句所属的领域。在一个具体示例中,该领域识别模型可采用gpt-2模型。
[0054]
s2将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型;
[0055]
本实施例中,预先为每个垂直领域设置了对应的识别模型、知识图谱和句法模板,在确定待分解的复杂问句所属的领域后,首先将复杂语句输入垂直领域对应的识别模型中,通过识别模型提取复杂语句中的主题实体以及辅动词类型。
[0056]
在将复杂语句输入识别模型之前,需要对复杂语句进行预处理,具体的,将复杂语句逐词分解,并将分解后的每个字进行向量化处理,得到字向量矩阵,将该字向量矩阵输入识别模型中。
[0057]
图2是本实施例提供的识别模型的拓扑结构示意图,参见图2,该识别模型包括双向长短时记忆(bi-lstm)层与条件随机场(crf)层;结合图2,对主题实体以及辅动词类型的
提取过程进行说明;
[0058]
bi-lstm层对输入的字向量矩阵进行特征提取和归一化处理,得到复杂语句对应的不同主题实体的预测标签得分;
[0059]
crf层将预测标签得分进行上下文约束,得到预测标签得分最高的主题实体及其对应的辅动词类型。
[0060]
例如,对咨询领域复杂问句“咨询报告涉及哪些重点”进行主题实体识别,识别结果为:主题实体-咨询报告,辅动词类型-行动类;
[0061]
s3将所述主题实体和辅动词类型组合形成特征表达式,将所述特征表达式与预先配置的所述垂直领域对应的句法模板库进行匹配,获得匹配度最高的句法模板并根据所述句法模板生成对应的知识图谱查询语句;
[0062]
本实施例中,根据垂直领域句法规则,按照“5w1h”组合原则(时间when、地点where、主题which、属性what、原因why、方式how),设计对垂直领域复杂问句进行分解的句法模板。
[0063]
将识别模型输出的主题实体和辅动词类型组合形成特征表达式,将该垂直领域复杂问句的特征表达式与事先制定的垂直领域复杂问句句法模板库进行匹配,得到匹配后的句法模板以及相应的cypher查询语句。以上述垂直领域复杂问句为例,替换后的特征表达式为“咨询报告 行动类”,匹配的句法模板为预判方式类how,则对应的cypher查询语句为“match(m:{name:

咨询报告’})where(m)-[r]-(n),return n”。
[0064]
s4将所述查询语句输入所述垂直领域对应的知识图谱库中,检索得到主题实体对应的关联子图;
[0065]
知识图谱库旨在描述特定领域(如医疗、金融、教育等)概念、实体、事件之间的客观联系。在垂直领域知识图谱中,三元组是最基本的表达形式,将现实世界中客观存在的实体、概念以及它们之间的关系映射成《实体—关系—实体》或者《实体—属性—属性值》的形式,并通过大量实体之间关系(属性)的相互作用,实现数据(信息)从数量到质量的价值升华,其构建及作用框架如图3所示。从结构来看,知识图谱本质上是一个大规模的语义网络,其中某一实体与其关联实体(属性)所组成的子网络,称之为语义关联信息子图,如图4所示。
[0066]
将cypher查询语句为“match(m:{name:

咨询报告’})where(m)-[r]-(n),return n”输入知识图谱中,从知识图谱中检索得到“咨询报告”这一主题实体对应的关联子图。
[0067]
s5从所述关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句。
[0068]
在步骤s4提取的关联子图中,存在与“咨询报告”这一主题实体关联的若干实体,需要从关联实体中筛选出与“咨询报告”关联度最高的若干实体,进而根据每个实体对应的关联语义信息生成复杂语句分解后的多个子问句。
[0069]
在一种可选的实施方式中,所述从关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句,包括:
[0070]
首先计算所述关联子图中与主题实体关联的所有实体的重要度并进行排序,提取排序前n(例如前3)的若干实体作为关联实体;
[0071]
本实施例中,采用pagerank算法计算关联子图中所有实体的重要度,定义如下:
[0072][0073]
其中,pr(a)表示与主题实体关联的实体a的重要度得分,pr(t1)...pr(tn)分别代表实体a与t1...tn之间的关联度,c(t1)...c(tn)分别代表实体t1...tn与所有实体之间关联度的总和,d为范围0-1的阻尼系数。
[0074]
然后以关联实体作为根节点进行邻接实体遍历,得到多个三元组格式的关联语义信息,将各所述关联语义信息及辅动词类型进行组合,得到复杂语句分解后的多个子问句。
[0075]
例如,从关联子图中提取出与“咨询报告”这一主题实体关联度最高的两个实体“包括”和“分析”,以“包括”和“分析”实体作为根节点进行邻接实体遍历,得到多个三元组格式的关联语义信息《咨询报告—包括—现状分析》、《咨询报告—分析—存在的问题及其产生的原因》

,通过匹配句法模板库,识别为:《咨询报告—包括—现状分析》—属性类what,《咨询报告—分析—存在的问题及其产生的原因》—方式类how。最后将各所述关联语义信息及辅动词类型进行组合,得到复杂语句分解后的多个子问句“咨询报告现状分析需要考虑哪些内容?”“咨询报告中存在的问题及其产生的原因如何分析?”。
[0076]
应当注意,尽管在上述的实施例中,以特定顺序描述了本说明书实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0077]
本实施例提供了一种垂直领域复杂问句分解的装置,如图5所示,该装置包括确定模块、提取模块、提取模块、匹配模块、检索模块和输出模块;
[0078]
其中,确定模块被配置为获取待分解的复杂语句,并确定所述复杂语句所属的垂直领域;
[0079]
在一个可选的实施方式中,确定模块将所述复杂语句输入预先训练好的领域识别模型中,通过所述领域识别模型获得该复杂语句所属的垂直领域;其中,领域识别模型利用具有垂直领域标签的多个样本训练得到,每个样本被处理为问句-领域映射对后输入领域识别模型中。
[0080]
提取模块被配置为将复杂语句输入所述垂直领域对应的识别模型中,提取复杂语句中的主题实体以及辅动词类型;该提取模块包括分词单元;
[0081]
分词单元用于将所述复杂语句进行分词和向量化处理,得到字向量矩阵并输入识别模型中;
[0082]
识别模型对所述字向量矩阵进行特征提取和归一化处理,得到所述复杂语句对应的不同主题实体的预测标签得分;以及,将所述预测标签得分进行上下文约束,得到预测标签得分最高的主题实体及其对应的辅动词类型。
[0083]
匹配模块被配置为将所述主题实体和辅动词类型组合形成特征表达式,将所述特征表达式与预先配置的所述垂直领域对应的句法模板库进行匹配,获得匹配度最高的句法模板并根据所述句法模板生成对应的知识图谱查询语句;
[0084]
检索模块被配置为将所述查询语句输入所述垂直领域对应的知识图谱库中,检索得到主题实体对应的关联子图;
[0085]
输出模块被配置为从所述关联子图提取与主题实体关联度最高的若干实体,根据各所述实体对应的关联语义信息生成复杂语句分解后的多个子问句;该输出模块包括:
[0086]
排序单元,用于计算所述关联子图中与主题实体关联的所有实体的重要度并进行排序,提取排序前n的若干实体作为关联实体;
[0087]
遍历单元,用于以所述关联实体作为根节点进行邻接实体遍历,得到多个三元组格式的关联语义信息,将各所述关联语义信息及辅动词类型进行组合,得到复杂语句分解后的多个子问句。
[0088]
关于垂直领域复杂问句分解装置的具体限定可以参见上文中对于垂直领域复杂问句分解方法的限定,在此不再赘述。上述垂直领域复杂问句分解装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0089]
本实施例还提供了一种电子设备,如图6所示,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述垂直领域复杂问句分解方法的步骤;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
[0090]
该电子设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的终端通信,和/或与使得该电子设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且,电子设备还可以通过网络适配器与一个或者多个网络(例如局域网(local area network,lan),广域网(wide area network,wan)和/或公共网络,例如因特网)通信。
[0091]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0092]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0093]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献