问题信息的获取方法、装置、电子设备及存储介质与流程

2022-03-16 05:29:24 来源：中国专利 TAG：

1.本技术涉及计算机领域，尤其涉及一种问题信息的获取方法、装置、电子设备及存储介质。

背景技术：

2.目前faq(frequentlyaskedquestions，经常被问到的问题)技术一般是通过预先收集和整理业务场景中高频问题的问答对，对用户的某个问题，从这些问答对中选择一个最相似的问题，把这个问题的答案返回给用户。如果不太确定，则选择几个问题给用户，请用户进一步确定。如果最相似的问题和用户的问题也不一样，则告知用户不知道答案。faq技术在培训、机器人客服、健康咨询以及保险咨询等业务场景中均有广泛应用。
3.但是faq的核心是计算两个句子(用户的问句的和事先收集的问句)的语义相似度，无论是基于字符的或者基于深度语义编码的，通常都是在句子本身上进行匹配，无法考虑到句子中的额外隐含是指，这就导致所识别的问题信息与用户的实际意图不符，降低了所获得问题信息的准确性。

技术实现要素：

4.本技术实施例提供的一种问题信息的获取方法、装置、电子设备及计算机可读存储介质，旨在尽可能解决由于相关技术中在faq系统对用户所提问句进行识别的过程中，无法考虑到句子中的额外隐含是指，这就导致所识别的问题信息与用户的实际意图不符，降低了所获得问题信息的准确性的技术问题。
5.本技术实施例提供一种问题信息的获取方法，所述方法包括：
6.获取待处理的第一文本信息；
7.从预设问答库中提取与所述第一文本信息相匹配的候选问题信息；
8.根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息；
9.分别获取所述第一文本信息的第一语义特征，所述第二文本信息中的第二语义特征，以及所述候选问题信息中的候选语义特征；
10.分别计算所述候选语义特征与所述第一语义特征、所述第二语义特征之间的语义相似度，将所述语义相似度符合相似度要求的候选问题信息作为目标问题信息。
11.可选地，所述根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息，包括：
12.对所述第一文本信息进行分词处理，得到所述第一文本信息的分词信息；
13.从所述分词信息中挖掘，在所述隐含知识图谱中存在相关联的隐含知识信息的分词信息，作为隐含知识信息；
14.过滤所述第一文本信息中的隐含知识信息，得到第二文本信息。
15.可选地，所述隐含知识图谱至少包括：图谱元素之间的关联关系，所述分词信息至
少包括：第一分词信息、第二分词信息；
16.所述从所述分词信息中挖掘，在所述隐含知识图谱中存在相关联的隐含知识信息的分词信息，作为隐含知识信息，包括：
17.在所述隐含知识图谱中查询与所述第一分词信息相匹配的第一图谱元素；
18.在所述隐含知识图谱中查询与所述第一图谱元素存在关联关系的第二图谱元素；
19.在所述第二图谱元素与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
20.可选地，所述图谱元素至少包括：实体元素、属性元素，所述第一分词信息至少包括：第一子分词信息、第二子分词信息；
21.所述在所述隐含知识图谱中查询与所述第一分词信息相匹配的第一图谱元素，包括：
22.在所述隐含知识图谱中查询到与所述第一子分词信息相匹配的实体元素，与所述第二子分词信息相匹配的属性元素，且所述实体元素与所述属性元素存在关联关系时，将所述属性元素和所述实体元素进行组合，得到第一图谱元素。
23.可选地，所述第二图谱元素至少包括：实体元素、属性元素中的至少一种；
24.所述在所述第二图谱元素与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息，包括：
25.在所述第一分词信息与所述属性元素之间的匹配度在预设匹配度范围内时，确定所述属性元素相关联的各目标实体元素；
26.对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词；
27.根据各所述属性元素分词的词频，以及各所述属性元素在隐含知识图谱中的逆文件频率，到各属性元素分词的重要程度；
28.将所述重要程度大于重要程度阈值的属性元素分词，作为目标属性元素分词；
29.在所述目标属性元素分词与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
30.可选地，在所述将所述重要程度大于重要程度阈值的属性元素分词，作为目标属性元素分词之后，所述方法还包括：
31.在所述目标属性元素分词与所述第二分词信息不匹配时，将所述将所述重要程度最高的属性元素分词相关联的实体元素作为目标实体元素，利用重新确定的目标实体元素进入所述对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词的步骤。
32.可选地，在所述对所述第一文本信息进行分词处理，得到所述第一文本信息的分词信息之后，所述方法还包括：
33.从所述分词信息中去除预设停用词。
34.可选地，所述分别计算所述候选语义特征与所述第一语义特征、所述第二语义特征之间的语义相似度，将所述语义相似度符合相似度要求的候选问题信息作为目标问题信息，包括：
35.获取所述候选语义特征与所述第一语义特征之间的第一特征相似度，所述候选语义特征与所述第二语义特征之间的第二特征相似度；
36.将第二特征相似度大于或等于所述第一特征相似度的候选问题信息中，第二特征相似度最高的候选问题信息作为目标问题信息。
37.可选地，所述获取待处理的第一文本信息，包括：
38.接收客户端发送初始文本信息；
39.去除所述初始文本信息中的符号信息，得到第一文本信息。
40.可选地，所述从预设问答库中提取与所述第一文本信息相匹配的候选问题信息，包括：
41.获取预设文本库中各预设问题信息与所述第一文本信息的匹配度；
42.将所述匹配度符合匹配度要求的预设问题信息，作为候选问题信息。
43.可选地，所述将所述匹配度符合匹配度要求的预设问题信息，作为候选问题信息，包括：
44.计算各所述预设问题信息的匹配度取值次序；
45.将所述匹配度取值次序前预设数量的预设问题信息，作为候选问题信息。
46.可选地，所述分别获取所述第一文本信息的第一语义特征，所述第二文本信息中的第二语义特征，以及所述候选问题信息中的候选语义特征，包括：
47.将所述第一文本信息输入至预先训练的深度语义模型，得到第一语义特征，并将所述第二文本信息输入至预先训练的深度语义模型，得到第二语义特征；
48.其中，所述候选语义特征是预先通过所述深度语义模型从所述候选问题信息中提取得到。
49.可选地，在所述根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息之后，所述方法还包括：
50.根据隐含知识图谱，过滤所述候选问题信息中的隐含知识信息，得到第三文本信息；
51.分别获取所述第二文本信息中的第二语义特征，所述第三文本信息中的第三语义特征；
52.将所述第二语义特征与所述第三语义特征之间的特征相似度符合相似度要求的候选问题信息，作为目标问题信息。
53.可选地，所述方法还包括：
54.从预设问答库中提取所述目标问题信息相对应答复信息。
55.本技术实施例提供一种问题信息的获取装置，所述装置包括：
56.接收模块，被配置为获取待处理的第一文本信息；
57.处理模块，被配置为从预设问答库中提取与所述第一文本信息相匹配的候选问题信息；
58.根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息；
59.分别获取所述第一文本信息的第一语义特征，所述第二文本信息中的第二语义特征，以及所述候选问题信息中的候选语义特征；
60.输出模块，被配置为分别计算所述候选语义特征与所述第一语义特征、所述第二语义特征之间的语义相似度，将所述语义相似度符合相似度要求的候选问题信息作为目标
问题信息。
61.可选地，所述处理模块，还被配置为：
62.对所述第一文本信息进行分词处理，得到所述第一文本信息的分词信息；
63.从所述分词信息中挖掘，在所述隐含知识图谱中存在相关联的隐含知识信息的分词信息，作为隐含知识信息；
64.过滤所述第一文本信息中的隐含知识信息，得到第二文本信息。
65.可选地，所述隐含知识图谱至少包括：图谱元素之间的关联关系，所述分词信息至少包括：第一分词信息、第二分词信息；
66.可选地，所述处理模块，还被配置为：
67.在所述隐含知识图谱中查询与所述第一分词信息相匹配的第一图谱元素；
68.在所述隐含知识图谱中查询与所述第一图谱元素存在关联关系的第二图谱元素；
69.在所述第二图谱元素与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
70.可选地，所述图谱元素至少包括：实体元素、属性元素，所述第一分词信息至少包括：第一子分词信息、第二子分词信息；
71.可选地，所述处理模块，还被配置为：
72.在所述隐含知识图谱中查询到与所述第一子分词信息相匹配的实体元素，与所述第二子分词信息相匹配的属性元素，且所述实体元素与所述属性元素存在关联关系时，将所述属性元素和所述实体元素进行组合，得到第一图谱元素。
73.可选地，所述第二图谱元素至少包括：实体元素、属性元素中的至少一种；
74.可选地，所述处理模块，还被配置为：
75.在所述第一分词信息与所述属性元素之间的匹配度在预设匹配度范围内时，确定所述属性元素相关联的各目标实体元素；
76.对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词；
77.根据各所述属性元素分词的词频，以及各所述属性元素在隐含知识图谱中的逆文件频率，到各属性元素分词的重要程度；
78.将所述重要程度大于重要程度阈值的属性元素分词，作为目标属性元素分词；
79.在所述目标属性元素分词与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
80.可选地，可选地，所述处理模块，还被配置为：
81.在所述目标属性元素分词与所述第二分词信息不匹配时，将所述将所述重要程度最高的属性元素分词相关联的实体元素作为目标实体元素，利用重新确定的目标实体元素进入所述对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词的步骤。
82.可选地，可选地，所述处理模块，还被配置为：
83.从所述分词信息中去除预设停用词。
84.可选地，所述输出模块，还被配置为：
85.获取所述候选语义特征与所述第一语义特征之间的第一特征相似度，所述候选语义特征与所述第二语义特征之间的第二特征相似度；
86.将第二特征相似度大于或等于所述第一特征相似度的候选问题信息中，第二特征相似度最高的候选问题信息作为目标问题信息。
87.可选地，所述接收模块，还被配置为：
88.接收客户端发送初始文本信息；
89.去除所述初始文本信息中的符号信息，得到第一文本信息。
90.可选地，所述处理模块，还被配置为：
91.获取预设文本库中各预设问题信息与所述第一文本信息的匹配度；
92.将所述匹配度符合匹配度要求的预设问题信息，作为候选问题信息。
93.可选地，所述处理模块，还被配置为：
94.计算各所述预设问题信息的匹配度取值次序；
95.将所述匹配度取值次序前预设数量的预设问题信息，作为候选问题信息。
96.可选地，所述处理模块，还被配置为：
97.将所述第一文本信息输入至预先训练的深度语义模型，得到第一语义特征，并将所述第二文本信息输入至预先训练的深度语义模型，得到第二语义特征；
98.其中，所述候选语义特征是预先通过所述深度语义模型从所述候选问题信息中提取得到。
99.可选地，所述处理模块，还被配置为：
100.根据隐含知识图谱，过滤所述候选问题信息中的隐含知识信息，得到第三文本信息；
101.分别获取所述第二文本信息中的第二语义特征，所述第三文本信息中的第三语义特征；
102.将所述第二语义特征与所述第三语义特征之间的特征相似度符合相似度要求的候选问题信息，作为目标问题信息。
103.可选地，所述输出模块，还被配置为：
104.从预设问答库中提取所述目标问题信息相对应答复信息。
105.本技术实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述所述的问题信息的获取方法的步骤。
106.本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求上述所述的问题信息的获取方法的步骤。
107.本技术实施例提供的一种问题信息的获取方法、装置、电子设备及计算机可读存储介质，通过隐含知识图谱挖掘文本信息中的隐含知识信息，对文本语句中被隐含的信息进行过滤，通过剔除隐含知识信息前后的语义特征与问答知识库中的候选问题信息进行相似度比对，减少了隐含知识信息语义冗余对于问题信息匹配带来的干扰，提升问题信息提取的准确性，使得所确定的问题更贴合用户实际提问意图。
附图说明
108.图1示意性地示出本技术实施例中的一种问题信息的获取方法的步骤流程图；
109.图2示意性地示出本技术实施例中的一种隐含知识图谱的关系示意图；
110.图3示意性地示出本技术实施例中的另一种问题信息的获取方法的步骤流程图之一；
111.图4示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之二；
112.图5示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之三；
113.图6示意性地示出本技术实施例中的一种隐含知识图谱的原理示意图；
114.图7示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之四；
115.图8示意性地示出本技术实施例提供另一种隐含知识图谱的关系示意图；
116.图9示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之五；
117.图10示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之六；
118.图11示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之七；
119.图12示意性地示出本技术实施例提供另一种问题信息的获取方法的步骤流程图之八；
120.图13示意性地示出本技术实施例中的一种问题信息的获取装置的结构示意图。
具体实施方式
121.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
122.相关技术中，faq一般预先收集和整理业务场景中高频问题的问答对，对用户的某个问题，从这些问答对中选择一个最相似的问题，把这个问题的答案返回给用户。如果不太确定，则选择几个问题给用户，请用户进一步确定。如果最相似的问题和用户的问题也不一样，则告知用户不知道答案。faq技术在培训、机器人客服、健康咨询以及保险咨询等业务场景中均有广泛应用。
123.faq的核心是计算两个句子(用户的问句的和事先收集的问句)的语义相似度，无论是基于字符的或者基于深度语义编码的，通常都是在句子本身上进行匹配，很少使用额外的知识，这导致在某些情况下会产生匹配错误，例如句子中存在隐含知识的情况下。以
‘
眼睛长针眼了怎么办’为例，在已有faq问答系统中进行检索并按照相似度(基于训练后的bert模型计算得到)进行排序获得如下表1候选：
[0124][0125][0126]
表1
[0127]
以上排序是错误的，第1个和第2个候选问句和用户的问句意思是不一样的，而第3句(“长针眼怎么办”)是一样的。但是因为第3句没有“眼睛”这个词，所以在匹配的时候相似度没有前两者高，导致排序靠后。实际上，
‘
眼睛’与
‘
针眼’间存在隐含知识：针眼是发生在眼睛上的，所以针眼隐含了眼睛这个信息，也就是说，
‘
眼睛’在该问句中其实是可以省略的。如果去除用户问句中的“眼睛”，变为
“‘
长针眼了怎么办’，则与候选问句“长针眼怎么办”的相似度就会大大提高，进而排名会前移，排序结果可能就正确了。
[0128]
涉及隐含知识的情况在问答场景中并不是罕见的，表2中列举了若干检索语句以及其包含的隐含知识：
[0129][0130]
表2
[0131]
用词若对问句中蕴含隐含关系的词汇进行处理后再进行匹配则可有效提升相似问的匹配效果从而问答的准确性也得到提高。基于此，本身体提出一种问题信息的获取的方法，旨在对包含隐含知识问句的问题信息获取过程中提高准确率。
[0132]
图1示意性地示出本技术实施例提供的一种问题信息的获取方法的步骤流程图，所述方法包括：
[0133]
步骤101，获取待处理的第一文本信息。
[0134]
需要说明的是，本技术实施例的执行主体可以是安装在终端设备或者服务器，其具有数据处理、数据传输等功能，以获取文本信息并提取其中的问题信息。具体的，本技术实施例可以用于faq问答系统中的终端设备或者服务器中，以对用户提交的文本信息转换得到的文本信息进行识别提取其中的问题信息，以回复相对应的答复信息。
[0135]
在本技术实施例中，用户通过具有提问或者咨询功能的应用程序客户端向服务器提交文本形式或者语音形式的初始信息后，服务器可对初始信息进行文字提取，从而得到需要进行识别问题信息的第一文本信息。
[0136]
步骤102，从预设问答库中提取与所述第一文本信息相匹配的候选问题信息。
[0137]
需要说明的是，预设问答库中是预先存储有问题信息和答复信息之间关联关系的数据库，其中对于不同的问题信息设置有相关联的答复信息，以使得系统可以自动根据不同的问题信息提取相对应的答复信息对用户提问进行自动答复。
[0138]
在本技术实施例中，考虑到预设问题库中的问题信息的形式固定，而用户提问的方式却多种多样，因此直接依据第一文本信息在预设问答库中进行相似度匹配，系统可能在预设问答库查询到多个大于例如80％的相似度阈值的候选问题信息，需要进一步从这些候选问题信息中筛选出最符合用户实际提问意图的问题信息。
[0139]
示例性的，假设第一文本信息是“眼睛长针眼了怎么办？”，则可在预设问题库中查询到如下表3：
[0140]
排序候选问题信息1眼睛长疙瘩了怎么办2眼睛长水泡了怎么办3眼皮上长针眼的原因4长针眼了怎么办5小孩长针眼怎么办6针眼是怎么引起的7眼皮上面长了个包怎么办8眼睛下面长脂肪粒原因9眼睛长水泡怎么治疗10眼角长脂肪粒怎么办
[0141]
表3
[0142]
可见，表3中存在10各候选问题信息，但其中仅有第4项“长针眼了怎么办”是符合用户实际提问意图的问题信息，因此后续将进一步说明如何从候选问题信息中筛选出正确的问题信息。
[0143]
步骤103，根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息。
[0144]
需要说明的是，隐含知识图谱是指存储有元素节点之间关联关系的知识图谱，其中不同的元素节点可以代表有各种实体和关系属性，这些实体节点通过表示它们之间关系的边进行连接。隐含知识信息是指第二文本信息中，在隐含知识图谱中存在且存储关联关系的至少两个分词中，该关联关系所指向的分词，例如“针眼”之间的关联关系“眼睛”是“针眼”指向“眼睛”，因此对于“眼睛长针眼了怎么办”的第一文本信息中的隐含知识信息是“眼
睛”而不是“针眼”。可以理解，由于在隐含知识图谱中存在的关联关系的词汇之间实际语义重复，但是关联关系的指向词汇一般较为上位，因此会对问题信息的匹配产生干扰，需要过滤掉该隐含知识信息来消除这种干扰。
[0145]
在本技术实施例中，问答系统可基于隐含知识图谱中的存储的实体/属性关系挖掘出第一文本信息的各分词中隐含知识信息，并且进一步将第一文本信息中的隐含知识信息进行过滤，得到第二文本信息以供后续做进一步处理。
[0146]
示例性的，对上述表3中的候选问题信息进行分词，可的得到如下表4的结果：
[0147]
问句分词结果眼睛长针眼了怎么办眼睛/长/针眼/怎么办眼睛长疙瘩了怎么办眼睛/长/疙瘩/怎么办眼睛长水泡了怎么办眼睛/长/水泡/怎么办眼皮上长针眼的原因眼皮/上长/针眼/原因长针眼了怎么办长/针眼/怎么办小孩长针眼怎么办小孩/长/针眼/怎么办针眼是怎么引起的针眼/怎么/引起眼皮上面长了个包怎么办眼皮/上面/长/包/怎么办眼睛下面长脂肪粒原因眼睛/下面/长/脂肪粒/原因眼睛长水泡怎么治疗眼睛/长/水泡/怎么/治疗眼角长脂肪粒怎么办眼角/长/脂肪粒/怎么办
[0148]
表4
[0149]
然后将每个候选问题信息中的分词结果在已有隐含关系进行组合在隐含知识图谱中进行查询，图谱中“针眼”节点的部分关系结构示意图可参见图2，其中查询到“针眼”的挖掘结果如下表5：
[0150][0151]
表5
[0152]
因此，从“眼睛长针眼了怎么办”过滤“眼睛”即可得到第二文本信息“长针眼了怎么办”。
[0153]
步骤104，分别获取所述第一文本信息的第一语义特征，所述第二文本信息中的第二语义特征，以及所述候选问题信息中的候选语义特征。
[0154]
需要说明的是，第一语义特征是指可以反映第一文本信息中各分词语义特征的特征向量，第二语义特征、候选语义特征第一语义同理，此处不再赘述。
[0155]
在本技术实施例中，问答系统可采用预先训练的语义提取模型进行提取，该语义提取模型可以是具有表征特征提取功能的编码器，也可以是其他具有特征提取功能的机器模型，从而获取各文本信息和问答信息中的语义特征，以供后续相似度比对使用，此处对其不做限定。
[0156]
示例性的，针对上述表3、4、5中候选问题信息、第一文本信息、第二文本信息进行
提取语义特征即可得到如下表6：
[0157][0158]
表6
[0159]
步骤105，分别计算所述候选语义特征与所述第一语义特征、所述第二语义特征之间的语义相似度，将所述语义相似度符合相似度要求的候选问题信息作为目标问题信息。
[0160]
在本技术实施例中，考虑到过去隐含知识信息后的第二文本信息表征用户实际提问意图的能力不一定更高，因此需要对去除隐含知识信息前后的第一语义特征和第二语义特征分别与候选语义特征进行相似度比较，以根据相似度筛选出最接近用户实际提问意图的目标问题信息。可以将第二语义特征与候选语义特征之间的相似度最大的候选问题信息作为目标问题信息，也可以将第一语义特征、第二语义特征与候选语义特征之间的相似度均为最大的候选问题信息作为目标问题信息，该相似度要求具体可以根据实际需求设置，此处不做限定。
[0161]
示例性的，针对表6中的语义特征进行相似度计算即可得到如下表7所是的结果：
[0162]
排序问句(未去除隐含知识信息)相似度问句(去除隐含知识信息)相似度1眼睛长水泡了怎么办0.985长针眼该怎么办0.9912眼睛长疙瘩了怎么办0.984小孩长针眼怎么办0.9853长针眼该怎么办0.974眼睛长疙瘩了怎么办0.9634小孩长针眼怎么办0.959眼睛长水泡了怎么办0.965眼角长脂肪粒怎么办0.94眼睛长水泡怎么治疗0.9356眼睛长水泡怎么治疗0.934眼角长脂肪粒怎么办0.9267眼皮上面长了个包怎么办0.932眼皮上面长了个包怎么办0.9198眼皮上长针眼的原因0.875眼皮上长针眼的原因0.8669眼睛下面长脂肪粒原因0.853眼睛下面长脂肪粒原因0.84410针眼是怎么引起的0.796针眼是怎么引起的0.817
[0163]
表7
[0164]
观察发现，去除隐含知识信息后的第二文本信息的语义相似度的准确度相较原来有了明显提升，与第一文本信息语义相同的正确候选问题信息
‘
长针眼该怎么办’的排序由原来的第3位上升至第1位且高于未去除隐含知识信息前的第一文本信息与候选问题信息之间的最高相似度，实现候选问题信息与第一文本信息的正确匹配，可以表达用户的真实提问意图。
[0165]
本技术实施例中通过隐含知识图谱挖掘文本信息中的隐含知识信息，对文本语句中被隐含的信息进行过滤，通过剔除隐含知识信息前后的语义特征与问答知识库中的候选问题信息进行相似度比对，减少了隐含知识信息语义冗余对于问题信息匹配带来的干扰，提升问题信息提取的准确性，使得所确定的问题更贴合用户实际提问意图。
[0166]
可选地，参照图3，所述步骤102，可以包括：
[0167]
步骤201，对所述第一文本信息进行分词处理，得到所述第一文本信息的分词信息。
[0168]
在本技术实施例中，可通过预设分词库对第一文本信息中的各分词进行划分，具体可参照相关技术中的分词方式，此处不再赘述。
[0169]
步骤202，从所述分词信息中挖掘，在所述隐含知识图谱中存在相关联的隐含知识信息的分词信息，作为隐含知识信息。
[0170]
在本技术实施例中，分别将各分词信息输入至隐含知识图谱中进行挖掘，对于挖掘到同时存在多个隐含知识信息的情况，可将该多个隐含知识信息进行组合来作为该第一文本信息的隐含知识信息。
[0171]
步骤203，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息。
[0172]
在本技术实施例中，若第一文本信息的问句中存在多个隐含知识信息，则对多个隐含知识信息分别进行省略后，进行编码，分别计算其与候选问题信息之间的相似度，并与第一文本信息与候选问题信息的相似度结果进行比较，取相似度最高的候选问题信息作为最后的结果。
[0173]
具体的，参照图4，其中q表示第一文本信息，k1表示隐含知识信息1，k2表示隐含知识2，从而可将去除隐含知识信息1的q-k1，去除隐含知识信息2的q-k2，以及去除隐含知识信息k1和隐含知识信息k2的q-k1-k2分别进行语义编码，提取语义特征后，将q-k1、q-k2、q-k1-k2分别与q之间的语义特征相似度，与q-k1、q-k2、q-k1-k2分别与候选问题信息之间的语义特征相似度进行比较，从而选取除相似度最高的候选问题信息作为最后识别的目标问题信息。
[0174]
可选地，所述隐含知识图谱至少包括：图谱元素之间的关联关系，所述分词信息至少包括：第一分词信息、第二分词信息，参照图5，所述步骤202，可以包括：
[0175]
需要说明的是，图谱元素至少是隐含知识图谱中各节点所代表的元素，元素的类型可是名词实体、属性信息、时间信息等等，具体可根据实际需求设置，此处不做限定。第一分词信息和第二分词信息是指第一文本信息中的那个分词，第一分词信息和第二分词信息同样可以继续划分，此处仅是为了便于后续区分设置，此处对其不做限制。
[0176]
步骤2021，在所述隐含知识图谱中查询与所述第一分词信息相匹配的第一图谱元素。
[0177]
步骤2022，在所述隐含知识图谱中查询与所述第一图谱元素存在关联关系的第二图谱元素。
[0178]
步骤2023，在所述第二图谱元素与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
[0179]
在本技术步骤2021至步骤2023的实施例中，通过隐含知识图谱中预先关系列表r＝[r0,r1...rn]，其中rn代表各图谱元素，利用分词信息列表w＝[w0,w1,w2...wn]中的各分词信息w与关系列表中的关系r进行组合在隐含知识图谱中进行查询，得到符合查询结果列表作为第二图谱元素，若第二图谱元中包含分词信息列表w中的分词信息w'，则将该分词组合w/w’作为该第一文本信息的隐含知识，将w'作为待过去的隐含知识信息。
[0180]
可选地，所述图谱元素至少包括：实体元素、属性元素，所述第一分词信息至少包括：第一子分词信息、第二子分词信息，所述步骤2022，可以包括：在所述隐含知识图谱中查询到与所述第一子分词信息相匹配的实体元素，与所述第二子分词信息相匹配的属性元素，且所述实体元素与所述属性元素存在关联关系时，将所述属性元素和所述实体元素进行组合，得到第一图谱元素。
[0181]
在本技术实施例中，隐含知识信息的挖掘也可通过对候选问题信息的分词信息进行组合分别作为实体元素与属性元素到隐含知识图谱中查询，若隐含知识图谱中存在与分词信息相等且具有关系的实体元素与属性元素，则将该分词组合w/w’作为问句的隐含知识信息，其中也可通过对分词信息进行组合形成词组作为属性信息在隐含知识图谱中进行查询。
[0182]
为了便于理解，参照图6，其中知识图谱中的实体元素与属性元素之间基于属性关系的三元组进行连接，实体元素1和实体元素2之间基于实体关系的三元组进行连接。
[0183]
可选地，参照图7所述步骤2023，可以包括：
[0184]
步骤20231，在所述第一分词信息与所述属性元素之间的匹配度在预设匹配度范围内时，确定所述属性元素相关联的各目标实体元素。
[0185]
步骤20232，对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词。
[0186]
步骤20233，根据各所述属性元素分词的词频，以及各所述属性元素在隐含知识图谱中的逆文件频率，得到各属性元素分词的重要程度。
[0187]
步骤20234，将所述重要程度大于重要程度阈值的属性元素分词，作为目标属性元素分词。
[0188]
步骤20235，在所述目标属性元素分词与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
[0189]
在本技术步骤20231至步骤20235的实施例中，对于候选问题信息的分词信息中存在于属性元素中且重要性较高但并不完全等于属性元素的情况下，可对该属性元素相关联的各实体元素的所有属性元素进行分词后，得到属性元素分词的tf(termfrequency)值，同时利用该属性元素分词在英汉知识库中计算得到的idf(inversedocumentfrequency，逆文件频率)值，计算属性元素分词的tf-idf(重要程度)，并将其作为衡量该属性元素分词重要程度的指标，获取tf-idf值高于重要程度阈值的属性元素分词，若分词信息存在于筛选后的属性元素分词中，则判定第一文本信息中存在隐含知识信息，将该分词组合作为第一文
本信息的隐含知识信息。
[0190]
步骤20236，在所述目标属性元素分词与所述第二分词信息不匹配时，将所述将所述重要程度最高的属性元素分词相关联的实体元素作为目标实体元素，利用重新确定的目标实体元素进入所述步骤20232。
[0191]
在本技术实施例中，对于分词信息之间存在的间接隐含关系也可通过隐含知识图谱进行挖掘，对于依据直接挖掘不到第一文本信息的隐含知识信息时，可在步骤20234之后，获取tf-idf值高于设定阈值的属性元素分词后，选取tf-idf值最大值对应的属性元素分词相关联的实体元素作为目标实体元素通过进入步骤20232再次进行查询，得到间接隐含关系。
[0192]
示例性的，假设第一文本信息为“孕妇羊水少吃什么？”，其中孕妇/羊水’这样存在间接隐含关系在隐含知识图谱中的结构如图8。
[0193]
其中，该第一文本信息的分词结果为
‘
孕妇/羊水/吃/什么’，在以
‘
羊水’作为实体元素进行查询时未查到包含
‘
孕妇’的属性元素，此时需要引用到节点周围属性元素分词的tf-idf值，其中
‘
胎儿’的值最大，获得知识
‘
羊水/胎儿’，然后以
‘
胎儿’为实体进行查询后得到
‘
孕妇-孕育-胎儿’的知识，从而获得间接隐含知识信息
‘
孕妇/羊水’，被隐含知识
‘
孕妇’去除后得到
‘
羊水少吃什么’，接下来的相似度计算等步骤与上述相同，最终得到最相似的候选为
‘
羊水少吃什么’。为进一步验证本方法的有效性，利用本方法对表2中的例句分别进行相似问匹配，得到第二文本信息分别与正确的候选问题信息及错误的候选问题信息的相似度的计算结果，并与未去除隐含知识信息的第一文本信息对应的计算结果进行对比，结果如下表8、9：
[0194][0195][0196]
表8
[0197][0198]
表9
[0199]
观察结果发现，对第一文本信息中隐含知识信息进行去除后的第二文本信息与正确候选相似问的相似度得到了提升，同时，其与错误候选结果的相似度降低了，且正确相似问的相似度在所有候选中最高，最终使检索得到正确匹配。
[0200]
可选地，在所述步骤201之后，所述方法还可以包括：从所述分词信息中去除预设停用词。
[0201]
在本技术实施例中，停用词是指用户设置或者系统默认设置被暂停使用的词语，具体可以根据实际需求设置，此处不做限定。
[0202]
可选地，参照图9，所述步骤105，可以包括：
[0203]
步骤1051，获取所述候选语义特征与所述第一语义特征之间的第一特征相似度，所述候选语义特征与所述第二语义特征之间的第二特征相似度。
[0204]
步骤1052，将第二特征相似度大于或等于所述第一特征相似度的候选问题信息中，第二特征相似度最高的候选问题信息作为目标问题信息。
[0205]
在本技术步骤1051至步骤1052的实施例中，可分别计算候选语义特征与第一语义特征、第二语义特征之间的余弦相似度，得到第一特征相似度和第二特征像素点。考虑到对于正确的问题信息，在去除隐含知识信息后的第二特征相似度不能低于去除隐含知识信息之前的第一特征相似度，因此在进行是相似度筛选时，需要针对第一特征相似度小于或等于第二特征相似度的候选语义特征中相似度最高的候选问题信息作为最终的目标问题信息，以避免由于去除隐含知识信息导致所提取的问题信息与用户实际意图不服的情况出现。
[0206]
可选地，所述步骤101，可以包括：接收客户端发送初始文本信息。去除所述初始文本信息中的符号信息，得到第一文本信息。
[0207]
在本技术实施例中，可通过相关技术中的去干扰项技术对用户通过客户端发送的初始文本信息进行符号信息的过滤，以避免符号信息对于问题信息提取带来的干扰。
[0208]
可选地，参照图10，所述步骤102，包括：
[0209]
步骤1021，获取预设文本库中各预设问题信息与所述第一文本信息的匹配度。
[0210]
步骤1022，将所述匹配度符合匹配度要求的预设问题信息，作为候选问题信息。
[0211]
在本技术步骤1021至步骤1022的实施例中，对于数据量级较小的问答库，可直接利用文本检索(es搜索引擎/annoy算法)的方式从问答库中检索出于第一文本信息。
[0212]
可选地，参照图11，所述步骤1022，可以包括：
[0213]
步骤10221，计算各所述预设问题信息的匹配度取值次序。
[0214]
步骤10222，将所述匹配度取值次序前预设数量的预设问题信息，作为候选问题信息。
[0215]
在本技术步骤10221至步骤10222的实施例中，对于数据量级较大的问答库可利用排序算法(粗排/精排)对候选问题信息进行排序，最终获得排名靠前的若干候选问题信息集合。
[0216]
可选地，所述步骤104，可以包括：将所述第一文本信息输入至预先训练的深度语义模型，得到第一语义特征，并将所述第二文本信息输入至预先训练的深度语义模型，得到第二语义特征，其中，所述候选语义特征是预先通过所述深度语义模型从所述候选问题信息中提取得到。
[0217]
在本技术实施例中，深度语义模型可以是通过问答库中的问题信息进行预先训练得到的基于深度语义算法得到的编码器。而候选问题信息由于预先也是问答库中信息，因此预先将对问答库中问题信息输入至深度语义模型得到的候选语义特征进行存储，从而在使用时直接调用即可，无需每次对候选问题信息进行编码，提高了问题信息提取的效率。
[0218]
可选地，参照图12，在所述步骤103之后，所述方法还包括：
[0219]
步骤301，根据隐含知识图谱，过滤所述候选问题信息中的隐含知识信息，得到第三文本信息。
[0220]
步骤302，分别获取所述第二文本信息中的第二语义特征，所述第三文本信息中的第三语义特征。
[0221]
步骤303，将所述第二语义特征与所述第三语义特征之间的特征相似度符合相似度要求的候选问题信息，作为目标问题信息。
[0222]
在本技术步骤301至步骤303的实施例中，还可以通过对第一文本信息与候选问题信息同时进行隐含知识的挖掘，过滤到候选问题信息和第一文本信息中的隐含知识信息，然后直接进行语义特征相似度的计算，不用分别计算去除隐含知识信息前后的第一文本信息、第二文本信息与候选问题信息之间的语义相似度，不过这种方式不可直接利用模型事先生成的问题信息编码，每次匹配时都需要对候选问题信息重新编码，在运算速度上比如图1所的一种问题信息的获取方法的实施例中中仅对第一文本信息过滤隐含知识的进行挖掘的可实现方法更慢。
[0223]
可选的，在所述步骤105或步骤303之后，所述方法还包括：从预设问答库中提取所述目标问题信息相对应答复信息。
[0224]
在本技术实施例中，预设问答库存储问题信息和答复信息之间的关联关系，因此在某候选问题信息被确定为目标问题信息时，系统将从预设问答库中查询该目标问题信息相对应的答复信息发送给用户，以供用户可以便捷地获得其所提出医学问题的答案。
[0225]
示例性，假设第一文本信息为“眼睛长针眼怎么办”，通过上述实施例中的问题信息的获取方法最终确定的目标问题信息是“长针眼怎么办”，此时可以从预设问答库中查询到该目标问题信息相对应的答复信息为“以抗菌类药物的使用为主要的治疗方案，需要局
部使用抗炎类的药水和眼膏，比如左氧氟沙星药水和妥布霉素药水，眼膏可以选择加替沙星眼膏或者妥布霉素眼膏。”当然此处只是示例性描述，具体问题信息和答案信息之间的关联关系可以根据实际需求设置，此处不做限定。
[0226]
本技术实施例中通过隐含知识图谱挖掘文本信息中的隐含知识信息，对文本语句中被隐含的信息进行过滤，通过剔除隐含知识信息前后的语义特征与问答知识库中的候选问题信息进行相似度比对，减少了隐含知识信息语义冗余对于问题信息匹配带来的干扰，提升问题信息提取的准确性，使得所确定的问题更贴合用户实际提问意图。
[0227]
图13示意性地示出本技术实施例提供的一种问题信息的获取装置40的结构示意图，所述装置包括：
[0228]
接收模块401，被配置为获取待处理的第一文本信息；
[0229]
处理模块402，被配置为从预设问答库中提取与所述第一文本信息相匹配的候选问题信息；
[0230]
根据隐含知识图谱，过滤所述第一文本信息中的隐含知识信息，得到第二文本信息；
[0231]
分别获取所述第一文本信息的第一语义特征，所述第二文本信息中的第二语义特征，以及所述候选问题信息中的候选语义特征；
[0232]
输出模块403，被配置为分别计算所述候选语义特征与所述第一语义特征、所述第二语义特征之间的语义相似度，将所述语义相似度符合相似度要求的候选问题信息作为目标问题信息。
[0233]
可选地，所述处理模块402，还被配置为：
[0234]
对所述第一文本信息进行分词处理，得到所述第一文本信息的分词信息；
[0235]
从所述分词信息中挖掘，在所述隐含知识图谱中存在相关联的隐含知识信息的分词信息，作为隐含知识信息；
[0236]
过滤所述第一文本信息中的隐含知识信息，得到第二文本信息。
[0237]
可选地，所述隐含知识图谱至少包括：图谱元素之间的关联关系，所述分词信息至少包括：第一分词信息、第二分词信息；
[0238]
可选地，所述处理模块402，还被配置为：
[0239]
在所述隐含知识图谱中查询与所述第一分词信息相匹配的第一图谱元素；
[0240]
在所述隐含知识图谱中查询与所述第一图谱元素存在关联关系的第二图谱元素；
[0241]
在所述第二图谱元素与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
[0242]
可选地，所述图谱元素至少包括：实体元素、属性元素，所述第一分词信息至少包括：第一子分词信息、第二子分词信息；
[0243]
可选地，所述处理模块402，还被配置为：
[0244]
在所述隐含知识图谱中查询到与所述第一子分词信息相匹配的实体元素，与所述第二子分词信息相匹配的属性元素，且所述实体元素与所述属性元素存在关联关系时，将所述属性元素和所述实体元素进行组合，得到第一图谱元素。
[0245]
可选地，所述第二图谱元素至少包括：实体元素、属性元素中的至少一种；
[0246]
可选地，所述处理模块402，还被配置为：
[0247]
在所述第一分词信息与所述属性元素之间的匹配度在预设匹配度范围内时，确定所述属性元素相关联的各目标实体元素；
[0248]
对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词；
[0249]
根据各所述属性元素分词的词频，以及各所述属性元素在隐含知识图谱中的逆文件频率，到各属性元素分词的重要程度；
[0250]
将所述重要程度大于重要程度阈值的属性元素分词，作为目标属性元素分词；
[0251]
在所述目标属性元素分词与所述第二分词信息相匹配时，将所述第二分词信息作为隐含知识信息。
[0252]
可选地，可选地，所述处理模块402，还被配置为：
[0253]
在所述目标属性元素分词与所述第二分词信息不匹配时，将所述将所述重要程度最高的属性元素分词相关联的实体元素作为目标实体元素，利用重新确定的目标实体元素进入所述对所述各目标实体元素相关联的各属性元素进行分词，得到属性元素分词的步骤。
[0254]
可选地，可选地，所述处理模块402，还被配置为：
[0255]
从所述分词信息中去除预设停用词。
[0256]
可选地，所述输出模块403，还被配置为：
[0257]
获取所述候选语义特征与所述第一语义特征之间的第一特征相似度，所述候选语义特征与所述第二语义特征之间的第二特征相似度；
[0258]
将第二特征相似度大于或等于所述第一特征相似度的候选问题信息中，第二特征相似度最高的候选问题信息作为目标问题信息。
[0259]
可选地，所述接收模块401，还被配置为：
[0260]
接收客户端发送初始文本信息；
[0261]
去除所述初始文本信息中的符号信息，得到第一文本信息。
[0262]
可选地，所述处理模块402，还被配置为：
[0263]
获取预设文本库中各预设问题信息与所述第一文本信息的匹配度；
[0264]
将所述匹配度符合匹配度要求的预设问题信息，作为候选问题信息。
[0265]
可选地，所述处理模块402，还被配置为：
[0266]
计算各所述预设问题信息的匹配度取值次序；
[0267]
将所述匹配度取值次序前预设数量的预设问题信息，作为候选问题信息。
[0268]
可选地，所述处理模块402，还被配置为：
[0269]
将所述第一文本信息输入至预先训练的深度语义模型，得到第一语义特征，并将所述第二文本信息输入至预先训练的深度语义模型，得到第二语义特征；
[0270]
其中，所述候选语义特征是预先通过所述深度语义模型从所述候选问题信息中提取得到。
[0271]
可选地，所述处理模块402，还被配置为：
[0272]
根据隐含知识图谱，过滤所述候选问题信息中的隐含知识信息，得到第三文本信息；
[0273]
分别获取所述第二文本信息中的第二语义特征，所述第三文本信息中的第三语义特征；
[0274]
将所述第二语义特征与所述第三语义特征之间的特征相似度符合相似度要求的候选问题信息，作为目标问题信息。
[0275]
可选地，所述输出模块403，还被配置为：
[0276]
从预设问答库中提取所述目标问题信息相对应答复信息。
[0277]
本技术实施例中通过隐含知识图谱挖掘文本信息中的隐含知识信息，对文本语句中被隐含的信息进行过滤，通过剔除隐含知识信息前后的语义特征与问答知识库中的候选问题信息进行相似度比对，减少了隐含知识信息语义冗余对于问题信息匹配带来的干扰，提升问题信息提取的准确性，使得所确定的问题更贴合用户实际提问意图。
[0278]
本技术实施例提供一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述所述的问题信息的获取方法的步骤。
[0279]
本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求上述所述的问题信息的获取方法的步骤。
[0280]
可选地，本技术实施例还提供了一种电子设备，包括：处理器，存储器，存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0281]
本技术实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述信息处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。
[0282]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0283]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本技术各个实施例所述的方法。
[0284]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性地，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。
[0285]
本领域普通技术人员可以意识到，结合本技术实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些
功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0286]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0287]
在本技术所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性地，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0288]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0289]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0290]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0291]
以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：人身险产品的检核方法、装置、存储介质及计算机设备与流程

问题信息的获取方法、装置、电子设备及存储介质与流程

相关文献

最热文献