基于双向注意力机制的智能问答方法、装置、设备及介质与流程

2022-02-21 09:38:34 来源：中国专利 TAG：

基于双向注意力机制的智能问答方法、装置、设备及介质
【技术领域】
1.本发明涉及人工智能技术领域，尤其涉及一种基于双向注意力机制的智能问答方法、装置、设备及介质。

背景技术：

2.现有技术的智能问答场景中，一般基于语料库进行，所使用的语料库中的语料往往有限，如果无法及时更新语料库，会导致准确率大幅下降，影响客户体验，并且基于语料库的智能问答缺乏泛化能力，不利于提高智能问答准确性。

技术实现要素：

3.本发明的目的在于提供一种基于双向注意力机制的智能问答方法、装置、设备及介质，以解决现有技术中智能问答准确性低的技术问题。
4.本发明的技术方案如下：提供一种基于双向注意力机制的智能问答方法，包括：
5.对文本和问题中的句子分别进行分词处理，得到所述文本对应的文本分词序列以及所述问题对应的问题分词序列；
6.对所述文本分词序列和所述问题分词序列分别进行词向量化处理，得到所述文本分词序列对应的文本初始特征向量以及所述问题分词序列对应的问题初始特征向量；
7.利用第一双向lstm编码层对所述文本初始特征向量和所述问题初始特征向量进行语义编码，分别得到文本语义特征向量和问题语义特征向量；
8.将所述文本语义特征向量的转置向量与所述问题语义特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵；
9.将所述第一交互矩阵和所述第二交互矩阵进行拼接，获得综合交互矩阵；
10.将所述综合交互矩阵输入至双向lstm模型中，对答案在所述文本中的初始位置和终止位置进行预测，其中，所述双向lstm模型输出第一概率特征向量和第二概率特征向量，所述第一概率特征向量包括所述文本中每个所述分词是答案的起始位置的概率，所述第二概率特征向量包括所述文本中每个所述分词是答案的终止位置的概率，将所述第一概率特征向量中概率最大的分词作为所述答案的起始位置，将所述第二概率特征向量中概率最大的分词作为所述答案的终止位置。
11.可选地，所述对所述文本分词序列和所述问题分词序列分别进行词向量化处理，得到所述文本分词序列对应的文本初始特征向量以及所述问题分词序列对应的问题初始特征向量之后，还包括：
12.基于预设的外部知识库对所述文本分词序列和所述问题分词序列分别进行词向量化处理，获取所述文本基于词的文本知识特征向量以及所述问题基于词的问题知识特征向量；
13.将所述文本的所述文本语义特征向量和所述文本知识特征向量进行特征融合，得到所述文本融合特征向量；
14.将所述问题的所述问题语义特征向量和所述问题知识特征向量进行特征融合，得到所述问题融合特征向量；
15.相应地，所述将所述文本语义特征向量的转置向量与所述问题语义特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵，包括：
16.将所述文本融合特征向量的转置向量与所述问题融合特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵。
17.可选地，所述基于预设的外部知识库对所述文本分词序列和所述问题分词序列分别进行词向量化处理，获取所述文本基于词的文本知识特征向量以及所述问题基于词的问题知识特征向量，包括：
18.从预设的外部知识库中获取所述文本分词序列和所述问题分词序列中每个分词的义原向量，得到所述文本分词序列的文本语义表示序列和所述问题分词序列的问题语义表示序列；
19.利用word2vec模型获取对所述文本语义表示序列及所述问题语义表示序列中每个义原向量进行编码，基于编码后的义原向量得到文本知识特征向量以及问题知识特征向量。
20.可选地，所述利用第一双向lstm编码层对所述文本初始特征向量和所述问题初始特征向量进行语义编码，分别得到文本语义特征向量和问题语义特征向量之后，还包括：
21.根据所述问题知识特征向量和所述文本知识特征向量计算所述问题中每个分词与所述文本中每个分词的相似度，得到相似度矩阵；
22.根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵，其中，所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重，所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重；
23.根据所述第一注意力权重矩阵对所述问题语义特征向量进行注意力权重处理，得到调整后的所述问题语义特征向量；根据所述第二注意力权重矩阵对所述文本语义特征向量进行注意力权重处理，得到调整后的所述文本语义特征向量。
24.可选地，所述对文本和问题中的句子分别进行分词处理，得到所述文本对应的文本分词序列以及所述问题对应的问题分词序列之前，还包括：
25.获取用户输入的问题，分别对所述问题进行词性识别和实体识别，去除所述问题中的实体和非名词，得到问题主题；
26.将所述问题主题在文本的核心内容中进行模糊匹配，获取匹配成功的所述核心内容对应的文本。
27.可选地，所述将所述问题主题在文本的核心内容中进行模糊匹配，获取匹配成功的所述核心内容对应的文本之前，还包括：
28.获取文本的摘要信息，获取所述摘要信息的高频词和关键词；
29.根据所述高频词和所述关键词确定所述摘要信息的核心词；
30.根据所述核心词在所述文本中提取核心内容，将所述核心内容和所述文本建立映射关系。
31.可选地，所述根据所述核心词在所述文本中提取核心内容，包括：
32.将所述核心词在所述文本中进行定位，提取定位处、位于定位处之前的第一预设数量句以及位于定位处之后的第二预设数量句作为核心内容。
33.本发明的另一技术方案如下：提供一种基于双向注意力机制的智能问答装置，包括：
34.分词处理模块，用于对文本和问题中的句子分别进行分词处理，得到所述文本对应的文本分词序列以及所述问题对应的问题分词序列；
35.初始特征提取模块，用于对所述文本分词序列和所述问题分词序列分别进行词向量化处理，得到所述文本分词序列对应的文本初始特征向量以及所述问题分词序列对应的问题初始特征向量；
36.语义特征提取模块，用于利用第一双向lstm编码层对所述文本初始特征向量和所述问题初始特征向量进行语义编码，分别得到文本语义特征向量和问题语义特征向量；
37.特征交互模块，用于将所述文本语义特征向量的转置向量与所述问题语义特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵；
38.拼接模块，用于将所述第一交互矩阵和所述第二交互矩阵进行拼接，获得综合交互矩阵；
39.预测模块，用于将所述综合交互矩阵输入至双向lstm模型中，对答案在所述文本中的初始位置和终止位置进行预测，其中，所述双向lstm模型输出第一概率特征向量和第二概率特征向量，所述第一概率特征向量包括所述文本中每个所述分词是答案的起始位置的概率，所述第二概率特征向量包括所述文本中每个所述分词是答案的终止位置的概率，将所述第一概率特征向量中概率最大的分词作为所述答案的起始位置，将所述第二概率特征向量中概率最大的分词作为所述答案的终止位置。
40.本发明的另一技术方案如下：提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于双向注意力机制的智能问答方法。
41.本发明的另一技术方案如下：提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于双向注意力机制的智能问答方法。
42.本发明的基于双向注意力机制的智能问答方法、装置、设备及介质，利用第一双向lstm编码层分别对文本和问题进行编码分别得到文本语义特征向量和问题语义特征向量，再将文本语义特征向量和问题语义特征向量进行充分交互得到文本与问题的综合交互矩阵，再将综合交互矩阵输入至双向lstm模型输出答案，通过上述方式，充分挖掘了文本和问题的上下文信息以及文本与问题的交互特征，丰富了文本及问题的语义表征，有利于提高智能问答的准确性。并且，本发明利用双向lstm模型采用阅读理解的方式进行智能问答，在各文本中自动获取问题的答案，无需依赖语料库中的固定语料。
【附图说明】
43.图1为本发明第一实施例的基于双向注意力机制的智能问答方法的流程示意图；
44.图2为本发明第二实施例的基于双向注意力机制的智能问答装置的结构示意图；
45.图3为本发明第三实施例的电子设备的结构示意图；
46.图4为本发明第四实施例的存储介质的结构示意图。
【具体实施方式】
47.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
48.在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。
49.图1是本发明第一实施例的基于双向注意力机制的智能问答方法的流程示意图。需注意的是，若有实质上相同的结果，本发明的方法并不以图1所示的流程顺序为限。如图1所示，该基于双向注意力机制的智能问答方法主要包括以下步骤s101～s106：
50.s101，对文本和问题中的句子分别进行分词处理，得到所述文本对应的文本分词序列以及所述问题对应的问题分词序列。
51.其中，本实施例的应用场景为针对用户的问题在已知的文本中获取答案，答案一般为文本的一个连续片段，因此，本实施例中的智能问答可以理解为一个抽取式阅读理解，在抽取式阅读理解中，问题的答案是文本中的一个连续片段。
52.其中，在进行分词处理时，对所述文本和所述问题进行去停用词以及去特殊符号处理后，使用深度学习分词器进行分词处理。具体地，可以利用jieba分词，pkuseg分词或thulac分词等分词工具，对去除停用词和特殊符号后的文本和问题分别进行词语级别的编码，得到初始的词向量表示，即文本对应的为文本分词序列以及问题对应的问题分词序列。
53.s102，对所述文本分词序列和所述问题分词序列分别进行词向量化处理，得到所述文本分词序列对应的文本初始特征向量以及所述问题分词序列对应的问题初始特征向量。
54.其中，对文本和问题进行词向量化的过程即为利用一个embedding层将文本分词序列或问题分词序列映射成一个embedding表示的过程，具体地，步骤s102具体包括如下步骤：
55.s201，利用word2index词典获取所述文本分词序列和所述问题分词序列中每个分词的词向量，得到文本的词向量集合和问题的词向量集合。
56.其中，word2index词典对该词典中每个词语进行编码，为每个词语分配一个数字，该词向量的维度大小与word2index词典大小相同，其中只有一个值为1，其他值为0，值为1的元素所在的位置就是这个单词在词典中的索引位置，利用word2index词典将分词序列中每个分词进行映射时，将该分词对应的数字转换成二值数组向量，该二值数组向量即为分词的词向量。
57.s202，将所述文本的词向量集合和问题的词向量集合输入至embedding层，输出所
述文本初始特征向量以及所述问题初始特征向量。
58.也就是说，在对文本和问题进行词向量化的过程中，首先，对所述文本分词序列和所述问题分词序列中每个分词进行词向量映射处理得到对应的文本词高维特征和问题高维特征，例如为步骤s201中的词向量集合；然后，将所述文本词高维特征和所述问题高维特征输入至embedding层，对所述高维特征进行处理，输出每一个分词对应的低维稠密特征；文本初始特征向量为文本分词序列中所有分词对应的低维稠密特征的集合，问题初始特征向量为问题分词序列中所有分词对应的低维稠密特征的集合。
59.s103，利用第一双向lstm编码层对所述文本初始特征向量和所述问题初始特征向量进行语义编码，分别得到文本语义特征向量和问题语义特征向量。
60.其中，文本初始特征向量包括文本分词序列中每个分词的初始向量，问题初始特征向量包括问题序列中每个分词的初始向量。第一双向lstm编码层包括一个前向的lstm网络、一个反向的lstm网络以及一个全连接层，前向的lstm以正序的文本或问题中分词的初始向量序列为输入，反向lstm以逆序的文本或问题中分词的初始向量序列为输入，因此，第一双向lstm编码层在计算t时刻输出时不仅可以使用之前词的信息，也可以使用之后词的信息，通过学习句子字词之间的前后关系进行编码，从而学习句子前后的相关信息。第一双向lstm编码层的隐状态由前向lstm网络的隐状态和反向lstm网络的隐状态通过一个单层的神经网络的全连接层集合得到，这里的结合方式是通过所述全连接层完成的，全连接层得到第一双向lstm编码层的隐状态后，将所有时间步的隐状态取平均即得到文本语义特征向量或问题语义特征向量。
61.s104，将所述文本语义特征向量的转置向量与所述问题语义特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵。
62.其中，文本语义特征向量为a＝[a1，
…
，ai，
…
，am]，其中，m为文本分词序列中分词的个数，ai为文本序列中第i个分词的语义特征向量，i为1，2，
……
，m；问题语义特征向量为b＝[b1，
…
，bj，
…
，bn]，其中，n为问题分词序列中分词的个数，bj为问题序列中第j个分词的语义特征向量，j为1，2，
……
，n。文本语义特征向量的转置向量a
t
为一个列向量，问题语义特征向量为b为一个行向量，二者的乘积为一个m
×
n的第一交互矩阵x
mn
，其中，其中，第一交互矩阵x
mn
中每一行代表文本序列中每个分词与问题的交互语义特征，第一交互矩阵x
mn
中每一列代表问题序列中每个分词与文本的交互语义特征，针对第一交互矩阵x
mn
的每个元素分别进行softmax函数计算，将第一交互矩阵x
mn
中每个元素进行压缩映射，得到第二交互矩阵y
mn
。第二交互矩阵y
mn
与将第一交互矩阵x
mn
的大小规模相同，均为m
×
n矩阵。
[0063]
s105，将所述第一交互矩阵和所述第二交互矩阵进行拼接，获得综合交互矩阵。
[0064]
其中，得到第一交互矩阵和第二交互矩阵之后，便可将二者拼接为一个综合交互矩阵。拼接矩阵的方式可常见的矩阵拼接方式，在此不再一一赘述。拼接后得到的综合交互矩阵规模或元素的数量上可为第一交互矩阵和第二交互矩阵的总和。具体的，第一交互矩阵和第二交互矩阵均为m
×
n的矩阵，综合交互矩阵则为m
×
2n，其中，综合交互矩阵的每一
行代表文本序列中每个分词与问题的综合交互语义特征。
[0065]
s106，将所述综合交互矩阵输入至双向lstm模型中，对答案在所述文本中的初始位置和终止位置进行预测。
[0066]
其中，所述双向lstm模型输出第一概率特征向量和第二概率特征向量，所述第一概率特征向量包括所述文本中每个所述分词是答案的起始位置的概率，所述第二概率特征向量包括所述文本中每个所述分词是答案的终止位置的概率，将所述第一概率特征向量中概率最大的分词作为所述答案的起始位置，将所述第二概率特征向量中概率最大的分词作为所述答案的终止位置。
[0067]
具体地，双向lstm模型包括第二双向lstm编码层、第一全连接层、第二全连接层和归一化输出层，具体地，综合交互矩阵的每一行分别构成一个文本与问题的综合交互语义特征向量，共有m个综合交互语义特征向量；第二双向lstm编码层包括一个前向的lstm网络和一个反向的lstm网络，前向的lstm以正序的综合交互语义特征向量序列为输入，反向lstm以逆序的综合交互语义特征向量序列为输入，将前向的lstm网络的输出和反向的lstm网络的输出共同输入至第一全连接层中，得到第一输出结果，将所述第一输出结果输入至归一化输出层中进行归一化处理，得到第一概率特征向量；将前向的lstm网络的输出和反向的lstm网络的输出共同输入至第二全连接层中，得到第二输出结果，将所述第二输出结果输入至归一化输出层中进行归一化处理，得到第二概率特征向量。进一步地，由于答案的终止位置在答案的起始位置之后，将所述第一概率特征向量、前向的lstm网络的输出以及反向的lstm网络的输出共同输入至第二全连接层中，得到第二输出结果。
[0068]
在一个可选的实施方式中，可以进一步引入外部知识库对文本和问题分别进行语义表征，具体地，在步骤s103之后、步骤s104之前还包括如下步骤：
[0069]
s301，基于预设的外部知识库对所述文本分词序列和所述问题分词序列分别进行词向量化处理，获取所述文本基于词的文本知识特征向量以及所述问题基于词的问题知识特征向量。
[0070]
在步骤s301中，通过引入外部知识库，在所述文本分词序列及所述问题分词序列中嵌入了每个分词的义原信息。
[0071]
s302，将所述文本的所述文本语义特征向量和所述文本知识特征向量进行特征融合，得到所述文本融合特征向量；将所述问题的所述问题语义特征向量和所述问题知识特征向量进行特征融合，得到所述问题融合特征向量。
[0072]
其中，将文本及问题各自的语义表征和义原表征进行融合，根据义原对语义表征进行调整，增强了本文和问题的语义表征能力。
[0073]
相应地，在步骤s104中，将所述文本融合特征向量的转置向量与所述问题融合特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵。
[0074]
进一步地，步骤s301具体包括：
[0075]
s401，从预设的外部知识库中获取所述文本分词序列和所述问题分词序列中每个分词的义原向量，得到所述文本分词序列的文本语义表示序列和所述问题分词序列的问题语义表示序列。
[0076]
s402，利用word2vec模型获取对所述文本语义表示序列及所述问题语义表示序列
中每个义原向量进行编码，基于编码后的义原向量得到文本知识特征向量以及问题知识特征向量。
[0077]
在本实施方式中，外部知识库为hownet，具体地，每个词义信息用义原标注，hownet把义原看作是一个原子语义单位，强调概念的各个部分和属性可以用义原来很好地表示。
[0078]
在本实施方式中，通过对文本和问题中每个分词在外部知识库中查找对应义原，形成语义表示序列。进一步地，所述文本和问题中的每一个分词可能对应外部知识库中的多个义原，可以进一步通过计算义原与对应分词的词性相似度，选择词性相似度最大的一个义原作为该分词的对应义原，具体包括如下步骤：根据所述分词序列中的分词词性标注生成对应分词的词性向量；分别计算所述分词的词性向量与多个义原向量的词性相似度；选择词性相似度最高的义原向量作为所述分词的义原向量。
[0079]
进一步地，步骤s302具体包括如下步骤：
[0080]
s501，将所述文本语义特征向量和所述文本知识特征向量进行拼接，得到文本拼接特征向量。
[0081]
其中，对所述文本语义特征向量和所述文本知识特征向量进行求和，实现两个特征向量的拼接。
[0082]
s502，将所述文本拼接特征向量输入至第三全连接层中，对所述文本语义特征向量和所述文本知识特征向量进行融合处理，得到文本高维融合特征向量。
[0083]
s503，将所述文本高维融合特征向量输入至第四全连接层中，对所述文本高维融合特征向量进行降维处理，得到所述文本融合特征向量。
[0084]
其中，第三全连接层和第四全连接层分别进行两个不同大小的全连接操作。
[0085]
具体地，在步骤s501中，按照文本语义特征向量中各语义特征向量的排列顺序以及文本知识特征向量中各知识特征向量的排列顺序进行矢量叠加，得到文本拼接特征向量。在步骤s502和步骤s503中，第三全连接层包括第一数量个节点，第四全连接层包括第二数量个节点，第一数量大于第二数量。在步骤s502中，将所述文本拼接特征向量输入至第三全连接层中，分别在所述第三全连接层的每一个节点，对所述文本拼接特征向量中各特征向量进行特征融合，得到第一数量个不同的第一交叉特征，第一数量个不同的第一交叉特征形成文本高维融合特征向量。在步骤s503中，将所述文本高维融合特征向量输入至第四全连接层中，分别在第四全连接层的每一个节点，对第一数量个不同的第一交叉特征进行特征融合，得到第二数量个不同的第二交叉特征，第二数量个不同的第二交叉特征形成文本融合特征向量。
[0086]
其中，问题融合特征向量的获取与文本融合特征向量的获取方式类似，在此不进行一一赘述。
[0087]
在另一个可选的实施方式中，可以根据知识特征之间的相似度来计算注意力权重，再根据计算出的注意力权重对语义特征进行调整，具体地，在步骤s103之后、步骤s104之前，还包括如下步骤：
[0088]
s601，根据所述问题知识特征向量和所述文本知识特征向量计算所述问题中每个分词与所述文本中每个分词的相似度，得到相似度矩阵。
[0089]
其中，问题知识特征向量和文本知识特征向量的获取方式参见步骤s301的描述。
[0090]
其中，问题知识特征向量中包括问题中每个分词的知识特征，文本知识特征向量中包括文本中每个分词的知识特征。具体地，利用一个相似度函数计算问题中的分词知识特征qi和文本中的分词知识特征tj的相似度s
ij
＝α(qi，tj)。
[0091]
s602，根据所述相似度矩阵计算文本对问题的第一注意力权重矩阵以及问题对文本的第二注意力权重矩阵，其中，所述第一注意力权重矩阵包括文本中每个分词对于所述问题的注意力权重，所述第二注意力权重矩阵包括问题中每个分词对于所述文本的注意力权重。
[0092]
其中，文本中每个分词tj对于问题中分词qi的注意力的权重相加之和为1；文本中每个分词tj对于问题q的注意力的权重a(tj)计算方式如下：将相似度矩阵中分词tj所在的列作为对应列权重向量，对该列权重向量进行归一化。
[0093]
其中，问题中每个分词qi对于文本中分词tj的注意力的权重相加之和为1；问题中每个分词qi对于文本t的注意力的权重a(qi)计算方式如下：将相似度矩阵中分词qi所在的行作为对应行权重向量，对该行权重向量进行归一化。
[0094]
s603，根据所述第一注意力权重矩阵对所述问题语义特征向量进行注意力权重处理，得到调整后的所述问题语义特征向量；根据所述第二注意力权重矩阵对所述文本语义特征向量进行注意力权重处理，得到调整后的所述文本语义特征向量。
[0095]
其中，文本中每个分词tj对于问题q的注意力的权重a(tj)分别与问题中分词qi的特征向量相乘后的值进行求和，得到问题中分词qi的调整后的特征向量；问题中每个分词qi对于文本t的注意力的权重a(qi)分别与文本中分词tj的特征向量相乘后的值进行求和，得到文本中分词tj的调整后的特征向量。
[0096]
在另一个可选的实施方式中，为了适用于专业技术性较强领域的智能问答，例如，保险代理人在执业过程中需要跟客户沟通涉及保险法、医学、经济学或行业政策信息相关内容时，需要查询相关的专业内容，根据保险代理人输入的问题从相关文本(例如，文本可以包括专业文章、研究报告、调研报告等)中获取答案。于是，在步骤s101之前还包括如下步骤：
[0097]
s701，获取用户输入的问题，分别对所述问题进行词性识别和实体识别，去除所述问题中的实体和非名词，得到问题主题。
[0098]
其中，在进行词性识别和实体识别时，可以基于paddle框架、spacy源等等。具体地，spacy是一个用于自然语言处理的库，可以用于进行分词，命名实体识别，词性识别。非名词包括动词、副词、连词、形容词、序数词、助词，所述实体可以为职业名称、机构名称、人名、地名、商品名称以及一些专有名称等等。将问题中的非名词和实体去除，得到问题主题。
[0099]
s702，将所述问题主题在文本的核心内容中进行模糊匹配，获取匹配成功的所述核心内容对应的文本。
[0100]
其中，文本的核心内容是从文本中提取的，提取方式参见下述的步骤s801至步骤s803，通过问题主题与核心内容进行模糊匹配，获取匹配成功的所述核心内容，获取所述核心内容对应的文本，获取到的文本可能为一个或多个，根据每个所述文本和所述问题分别构建问题和文本对，按照步骤s101至步骤s106的方法分别从每个文本中抽取问题的答案。
[0101]
进一步地，文本的核心内容是按照如下方式获取的：
[0102]
s801，获取文本的摘要信息，获取所述摘要信息的高频词和关键词。
[0103]
其中，摘要信息为技术文章的摘要、行业研究报告的报告简介或内容提要，对所述摘要信息进行分词处理，分词处理可以利用现有开源的分词工具，例如pyltp、snownlp等等，可以将摘要信息拆分为以字或词为单位的多个词组。
[0104]
其中，分词处理后，统计所述摘要信息中每个分词的出现频率，按照以下方式筛选高频词汇信息：当f大于或等于第一预设阈值时，或当f
p
大于或等于第二预设阈值时，确定对应分词为高频词，其中，f为词频，f
p
为频率/有效词频总量，第一预设阈值和第二预设阈值根据实际应用需求进行确定。
[0105]
其中，分词处理后，基于tf-idf计算得到每个分词的重要度。具体地，tf-idf(term frequency-inverse document frequency，词频-逆向文件频率)是一种用于信息检索与数据挖掘的常用加权技术。tf意思是词频(term frequency)，idf意思是逆文本频率指数(inverse document frequency)。tf-idf用于评估一个字词对于一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。具体的，tf的计算公式为其中，ni，j是该词ti在文件dj中的出现次数，而分母则是该词在文件dj中所有字词的出现次数之和。idf的计算公式为的计算公式为其中，|d|是语料库中的文件总数，|{j：ti∈dj}|指包含词语ti的文件数目(即ni，j≠0的文件数目)。tf-idf的值为tf与idf的乘积，根据tf-idf值的高低筛选出排序在前n个分词为关键词，n的数值为预先设置的；或者，选择tf-idf值大于或等于预设阈值的分词作为关键词，例如，选择tf-idf值大于或等于第三预设阈值的分词。
[0106]
s802，根据所述高频词和所述关键词确定所述摘要信息的核心词。
[0107]
其中，确定所述高频词和所述关键词中均包括的核心词，也就是说，核心词为既属于高频词又属于关键词的词汇。
[0108]
s803，根据所述核心词在所述文本中提取核心内容，将所述核心内容和所述文本建立映射关系。
[0109]
其中，将所述核心词在所述文本中进行定位，提取定位处、位于定位处之前的第一预设数量句以及位于定位处之后的第二预设数量句作为核心内容。
[0110]
具体地，将所述核心词作为正则匹配词语在所述文本中进行查找定位，在文本中查找到核心词后，对核心词进行定位，提取文本的核心内容，：
[0111][0112]
其中，r
i，j
第j处定位索引为i的核心词相关内容。也就是说，每个核心词对应至少一个核心内容，针对每个文本，可以将多个核心内容进行汇总，再将文本与汇总后的一个核心内容建立映射关系；也可以不对核心内容进行汇总，直接将文本与多个核心内容分别建立映射关系。
[0113]
本实施例的基于双向注意力机制的智能问答方法可以实现智能化的问答，基于人工智能技术对相关的问题匹配文本，再从文本中抽取问题的答案，实现无人值守的人工智
能问答。其中，人工智能(artificialintelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0114]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0115]
图2是本发明第二实施例的基于双向注意力机制的智能问答装置的结构示意图。如图2所示，该基于双向注意力机制的智能问答装置20包括分词处理模块21、初始特征提取模块22、语义特征提取模块23、特征交互模块24、拼接模块25以及预测模块26，其中，分词处理模块21，用于对文本和问题中的句子分别进行分词处理，得到所述文本对应的文本分词序列以及所述问题对应的问题分词序列；初始特征提取模块22，用于对所述文本分词序列和所述问题分词序列分别进行词向量化处理，得到所述文本分词序列对应的文本初始特征向量以及所述问题分词序列对应的问题初始特征向量；语义特征提取模块23，用于利用第一双向lstm编码层对所述文本初始特征向量和所述问题初始特征向量进行语义编码，分别得到文本语义特征向量和问题语义特征向量；特征交互模块24，用于将所述文本语义特征向量的转置向量与所述问题语义特征向量相乘得到第一交互矩阵，将所述第一交互矩阵的每个元素进行softmax函数计算得到对应的第二交互矩阵；拼接模块25，用于将所述第一交互矩阵和所述第二交互矩阵进行拼接，获得综合交互矩阵；预测模块26，用于将所述综合交互矩阵输入至双向lstm模型中，对答案在所述文本中的初始位置和终止位置进行预测，其中，所述双向lstm模型输出第一概率特征向量和第二概率特征向量，所述第一概率特征向量包括所述文本中每个所述分词是答案的起始位置的概率，所述第二概率特征向量包括所述文本中每个所述分词是答案的终止位置的概率，将所述第一概率特征向量中概率最大的分词作为所述答案的起始位置，将所述第二概率特征向量中概率最大的分词作为所述答案的终止位置。
[0116]
图3是本发明第三实施例的电子设备的结构示意图。如图3所示，该电子设备30包括处理器31及和处理器31耦接的存储器32。
[0117]
存储器32存储有用于实现上述任一实施例的所述基于双向注意力机制的智能问答方法的程序指令。
[0118]
处理器31用于执行存储器32存储的程序指令以进行代码测试。
[0119]
其中，处理器31还可以称为cpu(central processing unit，中央处理单元)。处理器31可能是一种集成电路芯片，具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0120]
参阅图4，图4为本发明第四实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序指令41，所述存储介质可以是非易失性，也可以是易失性。其中，该程序指令41可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器
(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。
[0121]
在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0122]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。
[0123]
以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：城轨数据处理方法、装置及计算机设备、存储介质与流程

基于双向注意力机制的智能问答方法、装置、设备及介质与流程

相关文献

最热文献