一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种智能问答方法、系统、设备及计算机可读存储介质与流程

2022-07-16 23:14:02 来源:中国专利 TAG:


1.本技术涉及人机交互技术领域,更具体地说,涉及一种智能问答方法、系统、设备及计算机可读存储介质。


背景技术:

2.人机交互是一门研究系统与用户之间的交互关系的科学,系统可以是各种各样的机器,也可以是计算机化的系统和软件。智能问答系统就是依托于人机交互技术发展起来的一种人工智能系统,例如,智能客服系统、语音控制系统等等。
3.而现有的智能问答方式是:通过对客户的咨询输入进行业务相关性判别,当发现用户输入与业务不相关时调用业务引导模块。业务相关时,通过业务识别模块和活动识别模块分别获取用户输入中的业务内容和活动内容,然后参照知识库进行知识语义网络的图信息检索。图检索引擎获得的知识内容经过组织表示作为业务知识输出,而部分路径损失则通过损失提示模块反馈到业务引导提供给用户参考。然而,该方法输出的智能问答结果的准确性不高,影响用户体验。
4.综上所述,如何提高智能问答方法的准确性是目前本领域技术人员亟待解决的问题。


技术实现要素:

5.本技术的目的是提供一种智能问答方法,其能在一定程度上解决如何提高智能问答方法的准确性的技术问题。本技术还提供了一种智能问答系统、设备及计算机可读存储介质。
6.为了实现上述目的,本技术提供如下技术方案:
7.一种智能问答方法,包括:
8.获取待解答的目标问题;
9.对所述目标问题进行解答意图分类,得到意图分类结果;
10.若所述意图分类结果表征校正性回答,则对所述目标问题进行校正,得到目标解答信息;
11.若所述意图分类结果表征图谱问答,则基于预设的知识图谱对所述目标问题进行检索,得到目标解答信息;
12.若所述意图分类结果表征检索问答,则基于预设的问答库对所述目标问题进行检索,得到目标解答信息。
13.优选的,所述对所述目标问题进行解答意图分类,得到意图分类结果,包括:
14.对所述目标问题进行处理,得到目标处理问题;
15.判断所述目标处理问题是否满足预设规则;
16.若所述目标处理问题不满足所述预设规则,则确定所述意图分类结果表征校正性回答;
17.若所述目标处理问题满足所述预设规则,则基于预训练模型albert和注意力机制的双向gru模型对所述目标处理问题进行解答意图分类,得到所述意图分类结果,所述意图分类结果表征图谱问答或检索问答。
18.优选的,所述基于预设的知识图谱对所述目标问题进行检索,得到目标解答信息,包括:
19.基于所述知识图谱对应的字典树对所述目标问题进行匹配,得到匹配结果;
20.对所述匹配结果进行分类,得到问答触发词和问答意图词;
21.对所述知识图谱中的词集合和所述问答触发词、所述问答意图词进行匹配,得到初始候选词集;
22.对所述初始候选词集进行三元组匹配,得到目标候选词集;
23.对所述目标候选词集进行图匹配,得到初始解答信息;
24.基于所述初始解答信息确定所述目标解答信息。
25.优选的,所述基于所述初始解答信息确定所述目标解答信息,包括:
26.在所述知识图谱的网络图中,对所述初始解答信息进行路径查询检索;
27.若未检索到与所述初始解答信息对应的路径,则基于所述知识图谱中知识和关系的规范对所述初始解答信息进行校正,得到所述目标解答信息;
28.若检索到与所述初始解答信息对应的路径,则将所述初始解答信息作为所述目标解答信息。
29.优选的,所述基于预设的问答库对所述目标问题进行检索,得到目标解答信息,包括:
30.获取所述问答库对应的关键词字典;
31.基于所述关键词字典对所述目标问题进行匹配;
32.若匹配得到一个目标关键词,则基于所述目标关键词对所述问答库进行召回,得到候选解答信息,并按照信息长度对所述候选解答信息进行排序,得到所述目标解答信息;
33.若匹配得到两个及两个以上的目标关键词,则基于所述目标关键词对所述问答库进行召回,得到候选解答信息,并计算所述目标问题与每个所述候选解答信息的相似度值,基于所述相似度值对所述候选解答信息进行排序,得到所述目标解答信息;
34.若未匹配得到目标关键词,则基于所述问答库对所述目标问题进行语义匹配,得到所述目标解答信息。
35.优选的,所述获取所述问答库对应的关键词字典,包括:
36.对所述问答库进行分词和词性标注,得到处理结果;
37.对所述处理结果进行关键词提取,得到关键碎片词;
38.按照预设的关键词限定规则,对所述关键碎片词进行融合,得到键词短语;
39.计算所述关键词短语的权重值,并基于所述权重值确定关键词集合;
40.基于同义词表对所述关键词集合进行转换扩充,得到所述关键词字典;
41.其中,所述关键词限定规则包括:短语的token长度不超过第一预设值;和/或,短语中虚词个数未超过第二预设值;和/或,短语的两端token不是虚词和停用词;和/或,短语中停用词数量未超过第三预设值;和/或,短语中携带重复度计算mmr值;和/或,短语为名词。
42.优选的,所述基于所述问答库对所述目标问题进行语义匹配,得到所述目标解答信息,包括:
43.通过语义匹配模板,基于所述问答库对所述目标问题进行语义匹配,得到所述目标解答信息;
44.其中,所述语义匹配模板的基础模型为dssm双塔模型;所述语义匹配模板的语义表示层为结合预训练模型albert和注意力机制的双向gru模型;所述语义匹配模板的匹配层采用余弦相似度来计算相似性。
45.一种智能问答系统,包括:
46.第一获取模块,用于获取待解答的目标问题;
47.第一分类模块,用于对所述目标问题进行解答意图分类,得到意图分类结果;
48.第一校正模块,用于若所述意图分类结果表征校正性回答,则对所述目标问题进行校正,得到目标解答信息;
49.第一检索模块,用于若所述意图分类结果表征图谱问答,则基于预设的知识图谱对所述目标问题进行检索,得到目标解答信息;
50.第二检索模块,用于若所述意图分类结果表征检索问答,则基于预设的问答库对所述目标问题进行检索,得到目标解答信息。
51.一种智能问答设备,包括:
52.存储器,用于存储计算机程序;
53.处理器,用于执行所述计算机程序时实现如上任一所述智能问答方法的步骤。
54.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述智能问答方法的步骤。
55.本技术提供的一种智能问答方法,获取待解答的目标问题;对目标问题进行解答意图分类,得到意图分类结果;若意图分类结果表征校正性回答,则对目标问题进行校正,得到目标解答信息;若意图分类结果表征图谱问答,则基于预设的知识图谱对目标问题进行检索,得到目标解答信息;若意图分类结果表征检索问答,则基于预设的问答库对目标问题进行检索,得到目标解答信息。本技术中,可以根据需要来对目标问题进行校正性回答、知识图谱检索或问答库检索,也即可以选择适合的检索方式来对目标问题进行解答,准确性高。本技术提供的一种智能问答系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
56.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
57.图1为本技术实施例提供的一种智能问答方法的第一流程图;
58.图2为本技术实施例提供的一种智能问答方法的第二流程图;
59.图3为bert模型的运算示意图;
60.图4为bert模型的连接示意图;
61.图5为本技术中基于预设的知识图谱对目标问题进行检索,得到目标解答信息的流程图;
62.图6为本技术中基于预设的问答库对目标问题进行检索,得到目标解答信息的流程图;
63.图7为dssm双塔模型结构示意图;
64.图8为本技术实施例提供的一种智能问答方法的流程图;
65.图9为本技术实施例提供的一种智能问答系统的结构示意图;
66.图10为本技术实施例提供的一种智能问答设备的结构示意图;
67.图11为本技术实施例提供的一种智能问答设备的另一结构示意图。
具体实施方式
68.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
69.请参阅图1,图1为本技术实施例提供的一种智能问答方法的第一流程图。
70.本技术实施例提供的一种智能问答方法,可以包括以下步骤:
71.步骤s101:获取待解答的目标问题。
72.实际应用中,可以先获取待解答的目标问题,目标问题的类型及内容等可以根据实际需要确定,比如目标问题可以为税务领域的问题、汽车维修领域的问题等,本技术在此不做具体限定。
73.步骤s102:对目标问题进行解答意图分类,得到意图分类结果。
74.实际应用中,在获取待解答的目标问题之后,便可以对目标问题进行解答意图分类,得到意图分类结果,以借助意图分类结果来确定对目标问题的解答方式。
75.步骤s103:若意图分类结果表征校正性回答,则对目标问题进行校正,得到目标解答信息。
76.步骤s104:若意图分类结果表征图谱问答,则基于预设的知识图谱对目标问题进行检索,得到目标解答信息。
77.步骤s105:若意图分类结果表征检索问答,则基于预设的问答库对目标问题进行检索,得到目标解答信息。
78.实际应用中,在对目标问题进行解答意图分类,得到意图分类结果之后,若意图分类结果表征校正性回答,则可以对目标问题进行校正,得到目标解答信息;若意图分类结果表征图谱问答,则可以基于预设的知识图谱对目标问题进行检索,得到目标解答信息;若意图分类结果表征检索问答,则可以基于预设的问答库对目标问题进行检索,得到目标解答信息。也即本技术可以综合考虑校正方式、知识图谱检索、问答库检索的方式来对目标问题进行解答,准确性好。
79.本技术提供的一种智能问答方法,获取待解答的目标问题;对目标问题进行解答意图分类,得到意图分类结果;若意图分类结果表征校正性回答,则对目标问题进行校正,得到目标解答信息;若意图分类结果表征图谱问答,则基于预设的知识图谱对目标问题进
行检索,得到目标解答信息;若意图分类结果表征检索问答,则基于预设的问答库对目标问题进行检索,得到目标解答信息。本技术中,可以根据需要来对目标问题进行校正性回答、知识图谱检索或问答库检索,也即可以选择适合的检索方式来对目标问题进行解答,准确性高。
80.请参阅图2,图2为本技术实施例提供的一种智能问答方法的第二流程图。
81.本技术实施例提供的一种智能问答方法,可以包括以下步骤:
82.步骤s201:获取待解答的目标问题。
83.步骤s202:对目标问题进行处理,得到目标处理问题。
84.实际应用中,在对目标问题进行解答意图分类,得到意图分类结果的过程中,可以先对目标问题进行处理,得到目标处理问题,比如可以对目标问题进行同义词替换、拼接校验、对口语化不规范的问题进行转换、对拼接错误的词进行更正等,以使得目标问题更加精准,便于后续对目标问题准确进行解答意图分类。
85.步骤s203:判断目标处理问题是否满足预设规则;若目标处理问题不满足预设规则,则执行步骤s204;若目标处理问题满足预设规则,则执行步骤s205。
86.步骤s204:确定意图分类结果表征校正性回答。
87.实际应用中,在对目标问题进行处理,得到目标处理问题之后,因为目标问题所对应的解答内容是满足相应规则的,所以可以先判断目标处理问题是否满足预设规则,若目标处理问题不满足预设规则,则可以确定意图分类结果表征校正性回答。
88.为便于理解,假设目标问题为税务领域的“某个体工商户自开增值税专用发票”,但实际业务场景中,个体工商户没有权限自开专票,因此该目标问题不符合正常税收逻辑,对该目标问题需进行校正性回答,比如对应的目标解答信息可以为“您不符合开具增值税发票的权限”等。
89.步骤s205:基于预训练模型albert和注意力机制的双向gru模型对目标处理问题进行解答意图分类,得到意图分类结果,意图分类结果表征图谱问答或检索问答。
90.实际应用场景中,若目标处理问题满足预设规则,则可以对目标问题进行知识图谱检索或问答库检索,但此时仍需判断具体的检索方式,为实现此目的,本技术可以基于预训练模型albert和注意力机制的双向gru模型对目标处理问题进行解答意图分类,得到意图分类结果,意图分类结果表征图谱问答或检索问答,也即借助预训练模型albert和注意力机制的双向gru模型来输出目标问题的意图分类结果为图谱问答或检索问答。
91.需要说明的是,在预训练模型albert和注意力机制的双向gru模型的训练过程中,以税务领域为例,可以获取税务总局12366上的公开的问答客服数据,问题和答案对,获取税屋网站上的搜索日志数据,获取知识图谱中的三元组知识,包括实体、属性、事件等内容,获取其他相关的税务领域专有词表、同义词表、关键词表等,并基于获取的数据来对预训练模型albert和注意力机制的双向gru模型进行训练。具体的,12366公开的问答客服数据集有3w多条,数据比较齐全,可以通过爬虫的技术手段获取,存入mysql数据库中,并将该部分数据作为问答库检索语义匹配的训练集,属于半监督学习。税务网站上的11w搜索日志数据,是用户提出搜索问题,作为意图分类的训练数据集,对不同类型的搜索句进行划分不同的回答方式,可以知识图谱检索的就以知识图谱精准问答,不能使用图谱精准问答的,就进入问答库进行匹配。知识图谱的三元组知识是根据用户问句中的实体和属性内容进行检
索。其他词表作为模型训练和系统运行过程中的补充和优化等。经试验,基于预训练模型albert和注意力机制的双向gru模型的准确率为96.50%,与现有意图分类模型相比,准确率增加了8%,召回率增加了3.5%,效果显著。
92.需要说明的是,albert是bert预训练模型的变体,下面介绍bert预选练模型的相关内容:bert采用的是transformer中encoder的结构。对于模型的输入,bert在预训练阶段就直接对模型的数据进行了一些设计。首先是在每个序列的最开始添加一个特殊字符[cls],该字符主要是用于存储整个输入序列的语义信息,类似于doc2vec中,给句子单独训练一个向量,这样一来,对于一些分类任务,就可以直接利用cls的输出进行预测。另一个技巧是让模型可以识别出输入的是一个句子还是多个句子,作者用了两种方式,一种是用特殊字符“[sep]”将句子进行分隔,另一种是增加一个句子级别的embedding,用来区分词汇是属于句子a还是句子b。因此,最终每个词汇的输入应该包含三部分信息,即词汇embedding、句子embedding和position embedding。具体如图3所示;经过embedding后的文本语义表示,进入到双向gru和attention层进行进一步的特征提取和表示。如图4所示,输入层inputlayer为albert进行语义表示后embedding向量,隐层为bigru,后接attention注意力机制层,最后接全连接dense层输入分类的概率。
[0093]
步骤s206:若意图分类结果表征校正性回答,则对目标问题进行校正,得到目标解答信息。
[0094]
步骤s207:若意图分类结果表征图谱问答,则基于预设的知识图谱对目标问题进行检索,得到目标解答信息。
[0095]
步骤s208:若意图分类结果表征检索问答,则基于预设的问答库对目标问题进行检索,得到目标解答信息。
[0096]
请参阅图5,图5为本技术中基于预设的知识图谱对目标问题进行检索,得到目标解答信息的流程图。
[0097]
本技术实施例提供的一种智能问答方法中,在上述实施例中,基于预设的知识图谱对目标问题进行检索,得到目标解答信息的过程,可以包括以下步骤:
[0098]
步骤s301:基于知识图谱对应的字典树对目标问题进行匹配,得到匹配结果。
[0099]
实际应用中,在基于预设的知识图谱对目标问题进行检索,得到目标解答信息的过程中,可以先基于知识图谱对应的字典树对目标问题进行匹配,得到匹配结果。具体的,知识图谱对应的字典树可以通过知识图谱中已有的概念词、实体词、属性词、关系词、对象词、事件词、同义词、别名词等来组成等,本技术在此不做具体限定。
[0100]
步骤s302:对匹配结果进行分类,得到问答触发词和问答意图词。
[0101]
实际应用中,在基于知识图谱对应的字典树对目标问题进行匹配,得到匹配结果之后,便可以对匹配结果进行分类,得到问答触发词和问答意图词,问题触发词是表征触发问答的词,其可以为目标问题中核心的概念词、实体词和属性词,问答意图词是表征目标问题问的是什么事情,是问属性还是问关系还是问事件等。
[0102]
为便于理解,假设目标问题为“我是小规模纳税人,我应该享受哪些增值税优惠”,则问答触发词为“小规模纳税人”和“增值税”,问答意图词为“优惠”,通过问答触发词可以确定用户问的问题是与小规模纳税人和增值税有关的问题,通过问答意图词能够确定用户问的是与小规模纳税人的增值税相关的优惠。
[0103]
步骤s303:对知识图谱中的词集合和问答触发词、问答意图词进行匹配,得到初始候选词集。
[0104]
步骤s304:对初始候选词集进行三元组匹配,得到目标候选词集。
[0105]
步骤s305:对目标候选词集进行图匹配,得到初始解答信息。
[0106]
实际应用中,在对匹配结果进行分类,得到问答触发词和问答意图词之后,便可以通过三种匹配算法进行元素的检索,一种子集匹配,一种三元组匹配,一种图匹配。其中子集匹配是字符串层面的,对图谱中的词集合和用户搜索问句中触发词集合进行匹配,找出初始候选词集;对子集匹配后的候选词集,再进行三元组层面的匹配,即同时包含实体和属性、实体和事件、实体和概念、实体和关系等类型的数据,与图谱中候选三元组进行匹配,进一步缩小候选词集,得到目标候选词集;确定了三元组匹配的结果,就需要进行第三步图匹配,图匹配是对于一些特定规则的知识,比如能否开发票,首先得有领票的资格,这两种知识是一种顺承关系,即先需要判断是否能够领票,然后再检索开票。经过了图匹配,才能基本上最终确定问题所对应的知识点,也即初始解答信息,保证问答结果的准确性。
[0107]
步骤s306:基于初始解答信息确定目标解答信息。
[0108]
实际应用中,在对目标候选词集进行图匹配,得到初始解答信息之后,便可以基于初始解答信息确定目标解答信息。
[0109]
具体应用场景中,初始解答信息可能不符合知识图谱中知识和关系的规范,此时需要通过路径查询检索来定位是知识本身构建问题还是用户搜索词的问题,并据此对初始解答信息进行相应调整,以保证目标解答信息的准确性,也即在基于初始解答信息确定目标解答信息的过程中,可以在知识图谱的网络图中,对初始解答信息进行路径查询检索;若未检索到与初始解答信息对应的路径,则基于知识图谱中知识和关系的规范对初始解答信息进行校正,得到目标解答信息;若检索到与初始解答信息对应的路径,则将初始解答信息作为目标解答信息。以此来对知识图谱检索的校验质量进行控制。
[0110]
为了便于理解,假设目标问题是“小规模纳税人开具增值税专用发票”,知识图谱中查询到小规模纳税人的节点,然后对该节点查询属性,发现小规模纳税人只能代开增值税专用发票(有代开专票属性),而没有开具专票属性。因此会根据结果判断用户问题答案不规范,或者问错了。如果不规范会对问句进行校正推荐,如上句会校正成小规模纳税人代开增值税专用发票,或者一般纳税人开具增值税专用发票,因为一般纳税人节点上有开具增值税专用发票的属性。
[0111]
请参阅图6,图6为本技术中基于预设的问答库对目标问题进行检索,得到目标解答信息的流程图。
[0112]
本技术实施例提供的一种智能问答方法中,在上述实施例中,基于预设的问答库对目标问题进行检索,得到目标解答信息的过程,可以包括以下步骤:
[0113]
步骤s401:获取问答库对应的关键词字典。
[0114]
实际应用中,在基于预设的问答库对目标问题进行检索,得到目标解答信息的过程中,可以先获取问答库对应的关键词字典,以便后续基于该关键词字典对目标问题进行问答库检索。
[0115]
具体应用场景中,在获取问答库对应的关键词字典的过程中,可以对问答库进行分词和词性标注,得到处理结果,具体的,可以基于pkuseg工具做分词和词性标注;对处理
结果进行关键词提取,得到关键碎片词,具体的,可以使用tfidf计算文本的关键词权重,并通过关键词提取算法找出碎片化的关键词;按照预设的关键词限定规则,对关键碎片词进行融合,得到键词短语;计算关键词短语的权重值,并基于权重值确定关键词集合,具体的,可以使用预训练好的lda模型,计算文本的主题概率分布,以及每一个候选短语的主题概率分布,得到最终权重;基于同义词表对关键词集合进行转换扩充,得到关键词字典;其中,关键词限定规则包括:短语的token长度不超过第一预设值;和/或,短语中虚词个数未超过第二预设值;和/或,短语的两端token不是虚词和停用词;和/或,短语中停用词数量未超过第三预设值;和/或,短语中携带重复度计算mmr值;和/或,短语为名词。
[0116]
步骤s402:基于关键词字典对目标问题进行匹配。
[0117]
实际应用中,在获取问答库对应的关键词字典之后,便可以基于关键词字典对目标问题进行匹配,以便后续基于匹配结果来对目标问题进行解答。
[0118]
具体应用场景中,在基于关键词字典对目标问题进行匹配的过程中,若目标问题与关键词字典完全吻合,也即只匹配得到一个目标关键词,则匹配结果为匹配得到一个目标关键词;若目标问题与关键词字典不完全吻合,比如目标问题包括关键词字典中的一个关键词,但还包括非关键词的其他部分,则可以对其他部分进行分词去掉停用词,然后对剩余部分,再应用关键词字典进行词集匹配,对匹配上的结果进行召回,得到另外的目标关键词,此时匹配结果便为匹配得到两个及两个以上的目标关键词;若目标问题与关键词字典完全不吻合,则匹配结果为未匹配得到目标关键词。
[0119]
步骤s403:若匹配得到一个目标关键词,则基于目标关键词对问答库进行召回,得到候选解答信息,并按照信息长度对候选解答信息进行排序,得到目标解答信息。
[0120]
实际应用中,在基于关键词字典对目标问题进行匹配之后,若匹配得到一个目标关键词,则可以基于目标关键词对问答库进行召回,得到候选解答信息,并按照信息长度对候选解答信息进行排序,得到目标解答信息。
[0121]
步骤s404:若匹配得到两个及两个以上的目标关键词,则基于目标关键词对问答库进行召回,得到候选解答信息,并计算目标问题与每个候选解答信息的相似度值,基于相似度值对候选解答信息进行排序,得到目标解答信息。
[0122]
实际应用中,在基于关键词字典对目标问题进行匹配之后,若匹配得到两个及两个以上的目标关键词,则可以基于目标关键词对问答库进行召回,得到候选解答信息,并计算目标问题与每个候选解答信息的相似度值,基于相似度值对候选解答信息进行排序,得到目标解答信息。
[0123]
具体应用场景中,在计算目标问题与每个候选解答信息的相似度值的过程中,可以基于jaccard系数来计算目标问题与每个候选解答信息的相似度值,且可以按照jaccard系数大小对候选解答信息进行排序,jaccard系数越大,相关性越高,则相应的候选解答信息的排名越靠前。
[0124]
需要说明的是,给定两个集合a,b,jaccard系数定义为a与b交集的大小与a与b并集的大小的比值,定义如下:
[0125][0126]
当集合a,b都为空时,j(a,b)定义为1。
[0127]
与jaccard系数相关的指标叫做jaccard距离,用于描述集合之间的不相似度。jaccard距离越大,样本相似度越低。公式定义如下:
[0128][0129]
其中对参差(symmetric difference)为:
[0130]
步骤s405:若未匹配得到目标关键词,则基于问答库对目标问题进行语义匹配,得到目标解答信息。
[0131]
实际应用中,在基于关键词字典对目标问题进行匹配之后,若未匹配得到目标关键词,则基于问答库对目标问题进行语义匹配,得到目标解答信息。
[0132]
具体应用场景中,在得到目标解答信息之后还可以对目标解答信息进行规则限定,以便使得目标解答信息满足相应的规范限定,比如目标问题是“小型微利企业不能享受企税优惠吗”和库中句子“小型微利企业能享受企税优惠吗”在相似度计算上得分很高,但是一个是问的肯定一个是否定,需要在结果规则上进行强限定,对这种情况的结果进行剔除。再比如“小型微利企业是什么定义?”和“小微企业是什么定义”,语义上小型微利企业和小微企业距离很近,相似度得分会比较高,但是“小型微利企业”和“小微企业”在税收规定上并不是一种,因此需要基于业务对这种不符合税收规定的但相似度较高的问句进行剔除。
[0133]
具体应用场景中,在基于问答库对目标问题进行语义匹配,得到目标解答信息的过程中,可以通过语义匹配模板,基于问答库对目标问题进行语义匹配,得到目标解答信息;其中,语义匹配模板的基础模型为dssm双塔模型;语义匹配模板的语义表示层为结合预训练模型albert和注意力机制的双向gru模型;语义匹配模板的匹配层采用余弦相似度来计算相似性,按照相似性得分来进行rank排序,匹配模型的top3召回准确率为82.25%,top10召回准确率为91.83%,准确率提高了6%,召回率提高了2%,符合线上要求。
[0134]
具体应用场景中,在采用余弦相似度来计算相似性的过程中,可以将原始的单个问句和库中多个问句(比如1w个问句)逐个计算相似度得分的方式,改成使用矩阵运算,对用户的问句生成一个数值矩阵,对库中1w个问句生成一个1w维度的矩阵,矩阵同时进行计算,生成一个1w维的结果向量,向量中的每个值代表该问句与库中同样位置的句子计算的相似度得分,这样将原来的2min计算完的结果,提高到了40ms能完成全部计算。
[0135]
需要说明的是,dssm模型的原理比较简单,通过搜索引擎里query和document的海量的点击曝光日志,用dnn深度网络把query和document表达为低维语义向量,并通过余弦相似度来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低维语义embedding向量。dssm双塔模型结构如图7所示,其中:q代表query信息,d表示document信息;term vector:表示文本的embedding向量;word hashing技术:为解决term vector太大问题,对bag-of-word向量降维;multi-layer nonlinear projection:表示深度学习网络的隐层;semantic feature:表示query和document最终的embedding向量;relevance measured by cosine similarity:表示计算query与document之间的余弦相似度;posterior probability computed by softmax:表示通过softmax函数把query与正样本document的语义相似性转
化为一个后验概率。此外,同时为了增加模型的效果,提高语义匹配的准确性,充分利用已有数据,因为12366客服数据中,针对用户的问题有两部分语料,一部分是完整的问题内容,文本较长;一部分是针对问题的缩写,作为描述性短句;为了利用上述两部分信息,根据实际用户反馈,在流程上,还可以设计同时对两种文本分别进行embedding的方式:一种描述性短语匹配,另一种是问题文本匹配,生成两个embedding候选集,对用户实时问的问题进行语义表示后,分别对两部分候选集进行语义匹配计算cos相似度,最终对两部分的cos值进行加权,初始权重为0.6和0.4等,如图8所示,得到最终的综合score分数,然后对综合分数进行排序返回检索结果。
[0136]
请参阅图9,图9为本技术实施例提供的一种智能问答系统的结构示意图。
[0137]
本技术实施例提供的一种智能问答系统,可以包括:
[0138]
第一获取模块101,用于获取待解答的目标问题;
[0139]
第一分类模块102,用于对目标问题进行解答意图分类,得到意图分类结果;
[0140]
第一校正模块103,用于若意图分类结果表征校正性回答,则对目标问题进行校正,得到目标解答信息;
[0141]
第一检索模块104,用于若意图分类结果表征图谱问答,则基于预设的知识图谱对目标问题进行检索,得到目标解答信息;
[0142]
第二检索模块105,用于若意图分类结果表征检索问答,则基于预设的问答库对目标问题进行检索,得到目标解答信息。
[0143]
本技术实施例提供的一种智能问答系统,第一分类模块可以包括:
[0144]
第一处理单元,用于对目标问题进行处理,得到目标处理问题;
[0145]
第一判断单元,用于判断目标处理问题是否满足预设规则;若目标处理问题不满足预设规则,则确定意图分类结果表征校正性回答;若目标处理问题满足预设规则,则基于预训练模型albert和注意力机制的双向gru模型对目标处理问题进行解答意图分类,得到意图分类结果,意图分类结果表征图谱问答或检索问答。
[0146]
本技术实施例提供的一种智能问答系统,第一检索模块可以包括:
[0147]
第一匹配单元,用于基于知识图谱对应的字典树对目标问题进行匹配,得到匹配结果;
[0148]
第一分类单元,用于对匹配结果进行分类,得到问答触发词和问答意图词;
[0149]
第二匹配单元,用于对知识图谱中的词集合和问答触发词、问答意图词进行匹配,得到初始候选词集;
[0150]
第三匹配单元,用于对初始候选词集进行三元组匹配,得到目标候选词集;
[0151]
第四匹配单元,用于对目标候选词集进行图匹配,得到初始解答信息;
[0152]
第一确定单元,用于基于初始解答信息确定目标解答信息。
[0153]
本技术实施例提供的一种智能问答系统,第一确定单元可以具体用于:在知识图谱的网络图中,对初始解答信息进行路径查询检索;若未检索到与初始解答信息对应的路径,则基于知识图谱中知识和关系的规范对初始解答信息进行校正,得到目标解答信息;若检索到与初始解答信息对应的路径,则将初始解答信息作为目标解答信息。
[0154]
本技术实施例提供的一种智能问答系统,第二检索模块可以包括:
[0155]
第一获取单元,用于获取问答库对应的关键词字典;
[0156]
第五匹配单元,用于基于关键词字典对目标问题进行匹配;若匹配得到一个目标关键词,则基于目标关键词对问答库进行召回,得到候选解答信息,并按照信息长度对候选解答信息进行排序,得到目标解答信息;若匹配得到两个及两个以上的目标关键词,则基于目标关键词对问答库进行召回,得到候选解答信息,并计算目标问题与每个候选解答信息的相似度值,基于相似度值对候选解答信息进行排序,得到目标解答信息;若未匹配得到目标关键词,则基于问答库对目标问题进行语义匹配,得到目标解答信息。
[0157]
本技术实施例提供的一种智能问答系统,第一获取单元可以具体用于:对问答库进行分词和词性标注,得到处理结果;对处理结果进行关键词提取,得到关键碎片词;按照预设的关键词限定规则,对关键碎片词进行融合,得到键词短语;计算关键词短语的权重值,并基于权重值确定关键词集合;基于同义词表对关键词集合进行转换扩充,得到关键词字典;其中,关键词限定规则包括:短语的token长度不超过第一预设值;和/或,短语中虚词个数未超过第二预设值;和/或,短语的两端token不是虚词和停用词;和/或,短语中停用词数量未超过第三预设值;和/或,短语中携带重复度计算mmr值;和/或,短语为名词。
[0158]
本技术实施例提供的一种智能问答系统,第五匹配单元可以具体用于:通过语义匹配模板,基于问答库对目标问题进行语义匹配,得到目标解答信息;其中,语义匹配模板的基础模型为dssm双塔模型;语义匹配模板的语义表示层为结合预训练模型albert和注意力机制的双向gru模型;语义匹配模板的匹配层采用余弦相似度来计算相似性。
[0159]
本技术还提供了一种智能问答设备及计算机可读存储介质,其均具有本技术实施例提供的一种智能问答方法具有的对应效果。请参阅图10,图10为本技术实施例提供的一种智能问答设备的结构示意图。
[0160]
本技术实施例提供的一种智能问答设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如上任一实施例所描述智能问答方法的步骤。
[0161]
请参阅图11,本技术实施例提供的另一种智能问答设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现智能问答设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(hml)、通用串行总线(usb)、高清多媒体接口(hdmi)、无线连接:无线保真技术(wifi)、蓝牙通信技术、低功耗蓝牙通信技术、基于ieee802.11s的通信技术。
[0162]
本技术实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例所描述智能问答方法的步骤。
[0163]
本技术所涉及的计算机可读存储介质包括随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
[0164]
本技术实施例提供的智能问答系统、设备及计算机可读存储介质中相关部分的说明请参见本技术实施例提供的智能问答方法中对应部分的详细说明,在此不再赘述。另外,本技术实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
[0165]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0166]
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献