文本匹配方法、装置、存储介质及计算机设备与流程

2022-02-19 12:30:23 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术领域，尤其涉及一种文本匹配方法、装置、存储介质及计算机设备。

背景技术：

2.文本匹配是自然语言处理领域中常见的应用场景，大量的nlp(神经语言程序学)任务都是以文本匹配为出发点，例如信息检索、机器翻译、问答系统等。
3.现有的基于faq知识库的问答系统，大多使用文本相似度匹配的方法，通过将用户输入的文本与faq知识库中的各个相似文本进行相似度匹配，并给出相似度匹配分数，接着对各个相似文本的相似度匹配分数进行重排序和卡阈值后输出最终的匹配结果。
4.然而，仅通过相似度匹配分数以及卡阈值的方式对用户输入的文本进行文本匹配，会将一些非业务类的无效文本，如“什么意思”、“怎么回事”、“不是吧”、“麻烦”等，与faq知识库中的相似文本进行相似度匹配，通过该文本匹配结果确定的答案并不能解决用户在业务上出现的问题，使得问答系统的便捷性和准确性较低。

技术实现要素：

5.本发明的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中问答系统的便捷性和准确性较低的技术缺陷。
6.本发明提供了一种文本匹配方法，所述方法包括：
7.获取目标文本，以及与所述目标文本对应的待匹配文本集；
8.确定与所述目标文本对应的第一句向量和文本类别，以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量；
9.将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配，得到每个待匹配文本的相似度匹配结果；
10.基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化，并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。
11.可选地，所述获取与所述目标文本对应的待匹配文本集的步骤，包括：
12.对所述目标文本进行分词，得到至少一个词组；
13.在faq知识库中对所述词组进行检索，得到多个与所述词组对应的待匹配文本，形成待匹配文本集；其中，所述faq知识库中预先建立有与多个待匹配文本对应的索引结构。
14.可选地，所述确定与所述目标文本对应的第一句向量和文本类别的步骤，包括：
15.将所述目标文本输入至文本分类模型中，得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别；
16.其中，所述文本分类模型为，以faq知识库中的不同文本类别对应的多个待匹配文本为训练样本，以每个待匹配文本对应的文本类别为样本标签训练得到的。
17.可选地，所述确定与所述待匹配文本集中的各个待匹配文本对应的第二句向量的
步骤，包括：
18.在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量；
19.其中，所述缓存中预先存储有所述faq知识库中的所有待匹配文本，以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。
20.可选地，所述基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化的步骤，包括：
21.根据所述目标文本的文本类别确定对应的调整系数；
22.利用所述调整系数对各个待匹配文本的相似度匹配结果进行优化。
23.可选地，所述目标文本的文本类别包括业务类文本和非业务类文本；
24.当所述目标文本为非业务类文本时，所述目标文本的调整系数小于所述业务类文本的调整系数。
25.可选地，所述基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本的步骤，包括：
26.将优化后的相似度匹配结果进行排序，得到排序结果；
27.根据预设选取个数以及预设相似度阈值，对所述排序结果中的待匹配文本进行筛选；
28.将筛选后的待匹配文本作为所述目标文本的目标匹配文本。
29.本发明还提供了一种文本匹配装置，包括：
30.文本获取模块，用于获取目标文本，以及与所述目标文本对应的待匹配文本集；
31.文本处理模块，用于确定与所述目标文本对应的第一句向量和文本类别，以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量；
32.相似度匹配模块，用于将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配，得到每个待匹配文本的相似度匹配结果；
33.文本匹配模块，用于基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化，并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。
34.本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
35.本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
36.从以上技术方案可以看出，本发明实施例具有以下优点：
37.本发明提供的文本匹配方法、装置、存储介质及计算机设备，在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时，首先获取与目标文本对应的第一句向量以及文本类别，然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量，根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果，接着，对于每个待匹配文本的相似度匹配结果，可以通过目标文本的文本类别对其进行优化，使得优化后的相似度匹配结果不仅考虑了目标文本与待匹配文本之间的相似度，还考虑了目标文本的文本类
别；其中，对相似度匹配结果进行优化，示例如，对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同，因而采用本技术方案可以支持降低非业务类文本对最终匹配结果的影响，从而能够更加准确便捷地帮助用户解决业务上的问题。
附图说明
38.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
39.图1为本发明实施例提供的一种文本匹配方法的流程示意图；
40.图2为本发明实施例提供的bert模型的输入输出的结构示意图；
41.图3为本发明实施例提供的融合分类和相似度匹配的在线预测流程示意图；
42.图4为本发明实施例提供的一种文本匹配装置的结构示意图；
43.图5为本发明实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
44.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.现有的基于faq知识库的问答系统，大多使用文本相似度匹配的方法，通过将用户输入的文本与faq知识库中的各个相似文本进行相似度匹配，并给出相似度匹配分数，接着对各个相似文本的相似度匹配分数进行重排序和卡阈值后输出最终的匹配结果。其中，faq知识库指的是预先编辑好的、用于存放业务知识类问题与答案所组成的pair对的数据库。
46.然而，仅通过相似度匹配分数以及卡阈值的方式对用户输入的文本进行文本匹配，会将一些非业务类的无效文本，如“什么意思”、“怎么回事”、“不是吧”、“麻烦”等，与faq知识库中的相似文本进行相似度匹配，通过该文本匹配结果确定的答案并不能解决用户在业务上出现的问题，使得问答系统的便捷性和准确性较低。
47.因此，本发明的目的是解决现有技术中问答系统的便捷性和准确性较低的技术问题，并提出如下技术方案：
48.在一个实施例中，如图1所示，图1为本发明实施例提供的一种文本匹配方法的流程示意图；本发明提供了一种文本匹配方法，具体包括如下：
49.s110：获取目标文本，以及与目标文本对应的待匹配文本集。
50.本步骤中，当用户需要通过问答系统来解答一些业务知识类问题时，可以将需要解答的问题以目标文本的形式发送至问答系统的交互界面中，当问答系统接收到用户输入的目标文本时，即可根据该目标文本来进行文本匹配，以获取与该目标文本对应的答案。
51.可以理解的是，本技术中的问答系统是基于faq知识库的问答系统，如问答系统中的智能客服的业务场景，该业务场景可以显著地降低人工客服的数量与成本。
52.比如10086的在线智能客服，用户提问“如何查询话费”，问答系统可以自动给出一
个对应的回复“请您向10086号码发送
‘
hf’短信，即可查询当前话费”，而不再需要耗费高成本的人力来做解答。
53.具体地，在本技术中，当问答系统获取到用户输入的目标文本后，可以根据该目标文本来查找与之对应的待匹配文本集。可以理解的是，这里的待匹配文本集指的是问答系统对应的faq知识库中事先编辑的、与问答系统业务相关的相似问题和标准问题；其中，标准问题指的是faq知识库中依据问答系统业务类别事先编辑的多个不同类别的问题，一个标准问题对应有多个与该标准问题相似的相似问题，标准问题与相似问题共同组成了faq知识库中的文本集。
54.因此，当问题系统获取到用户输入的目标文本后，即可以根据该目标文本在faq知识库中查找与之对应的相似问题和标准问题，从而形成待匹配文本集。
55.进一步地，在faq知识库中查找与目标文本对应的相似问题和标准问题时，可以将目标文本进行分词，得到目标文本对应的关键词后，可以根据该关键词在faq知识库中进行检索，以便获取与该关键词匹配的相似问题和相似问题对应的标准问题，从而形成待匹配文本集。
56.s120：确定与目标文本对应的第一句向量和文本类别，以及与待匹配文本集中的各个待匹配文本对应的第二句向量。
57.本步骤中，通过步骤s110获取目标文本以及与目标文本对应的待匹配文本集后，可以进一步地将待匹配文本集中的各个待匹配文本与目标文本进行相似度匹配，以便根据相似度匹配结果来确定待匹配文本集中的目标匹配文本。
58.在将待匹配文本集中的各个待匹配文本与目标文本进行相似度匹配时，可以将目标文本的文本特征进行向量化，继而得到目标文本对应的第一句向量，接着可以将各个待匹配文本的文本特征进行向量化，得到每个待匹配文本对应的第二句向量，最后将目标文本对应的第一句向量分别与各个待匹配文本对应的第二句向量进行相似度匹配，从而准确得到每个待匹配文本的相似度匹配结果。
59.具体地，在对目标文本的文本特征进行向量化，确定目标文本对应的第一句向量时，可以对目标文本进行分词，获取每个词的向量表示，然后将全部词的向量叠加成一个新的向量作为目标文本句向量表示；或者采用encoder
‑
decoder模型(编码器
‑
解码器模型)，并通过中心句预测上下文的句子，对句子通过encoder得到的向量作为句向量表示；还可以采用rnn(循环神经网络)、cnn(卷积神经网络)、注意力机制或更复杂的模型，并基于自然语言处理中常见任务(命名实体实体、句子相似性判定等)的标注语料，进行多任务学习，以共享层输出作为句向量表示。
60.进一步地，在确定待匹配文本集中的各个待匹配文本对应的第二句向量时，可以使用第一句向量的确定方式来进行确定。并且，为了提高相似度匹配的匹配效率，本技术还可以预先将faq知识库中所有的相似问题进行向量化，然后将每一相似问题及其对应的句向量进行存储，后续确定待匹配文本集中的待匹配文本对应的句向量时，直接在存储区域中搜索与待匹配文本对应的句向量，无需重复对faq知识库中的相似问题进行向量化，以此来提高相似度匹配的匹配效率。
61.更进一步地，在确定目标文本对应的第一句向量时，还可以确定目标文本的文本类别，确定目标文本的文本类别的过程可以与确定第一句向量的过程同时进行，也可以单
独进行，若同时进行的话，可以选择相关的分类模型，该分类模型具备在前向计算过程中能够得到与输入文本对应的句向量，以及该输入文本的文本类别的能力，从而使得本技术在使用该分类模型时，能够获取与目标文本对应的第一句向量和文本类别。
62.另外，本技术中目标文本的文本类别与faq知识库中标准问题的业务类别对应，比如，标准问题的业务类别可以包括业务类文本和非业务类文本，业务类文本中又可以包含不同种类业务的文本。
63.s130：将目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配，得到每个待匹配文本的相似度匹配结果。
64.本步骤中，通过步骤s120确定与目标文本对应的第一句向量和文本类别，以及与待匹配文本集中的各个待匹配文本对应的第二句向量后，可以将目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配，从而得到每个待匹配文本的相似度匹配结果。
65.可以理解的是，对两个句向量进行相似度匹配时，主要是计算两个句向量之间的距离，距离越大，相似度越大。相似度匹配的计算方式包括但不限于使用皮尔逊相关系数进行计算、使用欧几里得距离进行计算、使用cosine相似度进行计算、使用曼哈顿距离进行计算等，在此不作限定。
66.s140：基于目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化，并基于优化后的相似度匹配结果确定待匹配文本集中的目标匹配文本。
67.本步骤中，通过步骤s130得到每个待匹配文本的相似度匹配结果后，接着可以根据目标文本的文本类别来对各个待匹配文本的相似度匹配结果进行优化，并基于优化后的相似度匹配结果确定待匹配文本集中的目标匹配文本。
68.具体地，根据目标文本的文本类别来对各个待匹配文本的相似度匹配结果进行优化时，可以基于预先设置的优化规则，该优化规则可以是对文本类别为非业务类文本的相似度匹配分数进行统一下调，对文本类别为业务类文本的相似度匹配分数进行统一上调，或者是对文本类别为不同类别的业务类文本的相似度匹配分数进行不同程度的上调。
69.进一步地，基于优化后的相似度匹配结果确定待匹配文本集中的目标匹配文本时，可以将优化后的相似度匹配结果进行排序，然后选取排序靠前的相似度匹配结果对应的待匹配文本，并将其作为目标匹配文本进行输出。在选取排序靠前的相似度匹配结果时，还可以根据相似度阈值来进行选取，从而得到最终的目标匹配文本。
70.可以理解的是，本技术在对各个待匹配文本的相似度匹配结果进行优化后，若目标文本的文本类别为非业务类文本时，优化后的相似度匹配结果较优化前的相似度匹配结果的分数值降低，此时再按照传统的选取方式选取目标匹配文本的话，由于优化后的相似度匹配结果的分数值较低，能够选取的超过相似度阈值的目标匹配文本较少，从而可以降低非业务类文本对最终的匹配结果的影响。
71.上述实施例中，在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时，首先获取与目标文本对应的第一句向量以及文本类别，然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量，根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果，接着，对于每个待匹配文本的相似度匹配结果，可以通过目标文本的文本类别对其进行优化，使得优化后的相似度匹配结果不仅考虑了目标文本与待匹配文本之
间的相似度，还考虑了目标文本的文本类别；其中，对相似度匹配结果进行优化，示例如，对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同，因而采用本技术方案可以支持降低非业务类文本对最终匹配结果的影响，从而能够更加准确便捷地帮助用户解决业务上的问题。
72.上述实施例对本技术中的文本匹配方法进行展开描述，下面将对本技术中如何获取与目标文本对应的待匹配文本集的过程进行说明。
73.在一个实施例中，步骤s110中获取与所述目标文本对应的待匹配文本集的步骤，可以包括：
74.s111：对所述目标文本进行分词，得到至少一个词组。
75.s112：在faq知识库中对所述词组进行检索，得到多个与所述词组对应的待匹配文本，形成待匹配文本集；其中，所述faq知识库中预先建立有与多个待匹配文本对应的索引结构。
76.本实施例中，在确定与目标文本对应的待匹配文本集时，可以根据该目标文本在faq知识库中查找与之对应的相似问题和标准问题，从而形成待匹配文本集。
77.具体地，在faq知识库中查找与目标文本对应的相似问题和标准问题时，可以将目标文本进行分词，得到目标文本对应的至少一个词组后，可以利用分词后的词组在faq知识库中进行检索，以便获取与词组匹配的相似问题和相似问题对应的标准问题，从而形成待匹配文本集。
78.需要说明的是，本技术为了快速得到与目标文本对应的待匹配文本集，可以预先在faq知识库中建立与相似问题、标准问题对应的索引结构，该索引结构可以通过elastic search检索工具进行构建，elastic search是通过lucene的倒排索引技术实现比关系型数据库更快的过滤。因此，使用elastic search检索工具时，可以先对faq知识库中的相似问题、标准问题进行分词处理，然后使用elastic search检索工具对分词后的faq知识库建立索引，从而得到对应的索引结构。
79.上述实施例对本技术中如何获取与目标文本对应的待匹配文本集的过程进行说明，下面将对本技术中如何确定目标文本对应的第一句向量和文本类别的过程进行说明。
80.在一个实施例中，步骤s120中确定与所述目标文本对应的第一句向量和文本类别的步骤，可以包括：
81.s121：将所述目标文本输入至文本分类模型中，得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别。
82.本实施例中，在确定目标文本对应的第一句向量和文本类别时，可以将目标文本输入至预先配置的文本分类模型中，以便通过该文本分类模型来对目标文本的文本类别进行预测，以及在预测目标文本的文本类别过程中，输出与目标文本对应的句向量。
83.其中，本技术的文本分类模型可以是以faq知识库中的不同文本类别对应的多个待匹配文本为训练样本，以每个待匹配文本对应的文本类别为样本标签训练得到的。
84.进一步地，本技术中的文本分类模型可以选择bert模型，或者ernie模型，还可以是textcnn模型，在此不作限定。
85.本技术可以优先使用bert模型对目标文本进行预测，bert模型是近年来自然语言处理(nlp)领域的热门研究领域之一。bert模型的训练主要分为两个阶段，在预训练(pre
‑
trained)阶段，基于海量数据优化模型参数，学习到通用的语言表示，而在微调(fine
‑
tuned)阶段，基于具体的下游任务重新微调模型参数，从而提高具体nlp任务的精确率。
86.示意性地，如图2所示，图2为本发明实施例提供的bert模型的输入输出的结构示意图；当本技术中使用bert模型进行预训练时，可以将faq知识库中的不同文本类别的标准问题对应的多个相似问题作为训练样本，将每个相似问题对应的文本类别作为样本标签进行训练。训练后的bert模型在使用时，可以输入用户问句，通过bert模型对用户问句进行预测并分类后，即可得到对应的类别以及句向量。
87.具体地，faq知识库含有n个标准问题，都与业务相关，每个标准问题下又包含多条与该标准问题相似的相似问题。本发明将n个标准问题定义为n个类别，每个类别的样本即该类别下的所有相似问题。另外，除了n个业务有关的类别，本发明还添加了另外一种类别，命名为“非业务”类，可以将闲聊、技能、无效发问等相关的语料，都放在“非业务”类，构建n 1个类别的文本分类数据集；接着使用预训练bert模型对n 1类文本分类数据集进行微调，训练文本分类模型。
88.上述实施例对本技术中如何确定目标文本对应的第一句向量和文本类别的过程进行说明，下面将对本技术中如何确定与待匹配文本集中的各个待匹配文本对应的第二句向量的过程进行描述。
89.在一个实施例中，步骤s120中确定与所述待匹配文本集中的各个待匹配文本对应的第二句向量的步骤，可以包括：
90.s122：在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量。其中，所述缓存中预先存储有所述faq知识库中的所有待匹配文本，以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。
91.本技术中，为了提高相似度匹配的匹配效率，可以预先将faq知识库中所有的相似问题进行向量化，然后将每一相似问题及其对应的句向量进行存储，后续确定待匹配文本集中的待匹配文本对应的句向量时，直接在存储区域中搜索与待匹配文本对应的句向量，无需重复对faq知识库中的相似问题进行向量化，以此来提高相似度匹配的匹配效率。
92.具体地，本技术可以将faq知识库中所有的相似问题分别输入已训练好的bert模型中做前向计算，并从bert模型的输出层获取相应的句向量，接着可以按key
‑
value的形式存储到缓存中，其中key为相似问题，value为对应的句向量。
93.当在缓存中分别查找与待匹配文本集中的各个待匹配文本对应的第二句向量时，可以将待匹配文本输入至缓存中相应的搜索栏，进而搜索缓存中与该待匹配文本对应的第二句向量。
94.上述实施例对本技术中如何确定与待匹配文本集中的各个待匹配文本对应的第二句向量的过程进行描述，下面将对本技术中相似度匹配结果优化的过程进行说明。
95.在一个实施例中，步骤s140中基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化的步骤，可以包括：
96.s141：根据所述目标文本的文本类别确定对应的调整系数。
97.s142：利用所述调整系数对各个待匹配文本的相似度匹配结果进行优化。
98.本实施例中，根据目标文本的文本类别来对各个待匹配文本的相似度匹配结果进行优化时，可以根据目标文本的文本类别确定对应的调整系数，然后利用调整系数对各个
待匹配文本的相似度匹配结果进行优化。
99.举例来说，当目标文本的文本类别为非业务类文本时，其对应的调整系数可以是低于1的系数，然后将待匹配文本对应的相似度匹配结果乘上某个小于1的系数，以对当前的相似度匹配结果进行打压，减少误触业务知识点的情况。
100.而对于业务类文本时，其对应的调整系数可以设置为1，将其与相似度匹配结果进行乘积后，得到的相似度匹配结果还是原来的相似度匹配结果，从而保证业务类文本能够匹配到精确的目标匹配文本。
101.在一个实施例中，所述目标文本的文本类别可以包括业务类文本和非业务类文本；当所述目标文本为非业务类文本时，所述目标文本的调整系数小于所述业务类文本的调整系数。
102.上述两个实施例对本技术中相似度匹配结果优化的过程进行说明，下面将对本技术中目标匹配文本的确定过程进行说明。
103.在一个实施例中，步骤s140中基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本的步骤，可以包括：
104.a11：将优化后的相似度匹配结果进行排序，得到排序结果。
105.a12：根据预设选取个数以及预设相似度阈值，对所述排序结果中的待匹配文本进行筛选。
106.a13：将筛选后的待匹配文本作为所述目标文本的目标匹配文本。
107.本实施例中，在基于优化后的相似度匹配结果确定待匹配文本集中的目标匹配文本时，可以先将优化后的相似度匹配结果进行排序，得到排序结果，接着根据预设选取个数以及预设相似度阈值，对排序结果中的待匹配文本进行筛选，最后将筛选后的待匹配文本作为目标文本的目标匹配文本。
108.举例来说，当获取到相似度匹配结果后，即可确定与目标文本对应的faq知识库中的相似问题、标准问题，以及相似度分数，接着可以根据预设选取个数以及预设相似度阈值，选取相似度分数大于该预设相似度阈值，并且排名在预设选取个数内的相似问题以及相似问题对应的标准问题，作为最终的目标匹配文本。
109.为了更好地对本发明的文本匹配方法进行解释，下面将通过图3来进一步说明，示意性地，如图3所示，图3为本发明实施例提供的融合分类和相似度匹配的在线预测流程示意图。
110.图3中，在获取用户问句后，首先将用户问句进行分词，然后在elastic search中快速检索出与之相关的得分排在前50的(相似问题、标准问题)pairs，这一步也称为召回。接着将召回的前50条pairs中的相似问题分别输入到缓存模块作为key值，可以得到50个相似问题对应的句向量；同时，将用户问句输入到已训练好的bert多分类模型做前向计算，可以得到对应的句向量和用户问句被预测的类别；然后判断预测的类别是否为“非业务”类，如果是，则将调整系数设置成t＝0.7，如果不是，则调整系数设置成t＝1.0；接着将50个相似问题的句向量分别和用户问句的句向量逐个做相似度计算，并得到相似度得分；将相似度得分乘上折扣系数t，得到新的相似度分数；根据新的相似度分数，对相应的50个(相似问题，标准问题，相似度分数)pairs进行排序，并卡阈值threshold＝0.7；将相似度分数大于threshold且排在前5的相似问题、标准问题、相似度分数作为faq文本匹配最终的输出。
111.下面对本技术实施例提供的文本匹配装置进行描述，下文描述的文本匹配装置与上文描述的文本匹配方法可相互对应参照。
112.在一个实施例中，如图4所示，图4为本发明实施例提供的一种文本匹配装置的结构示意图；本发明还提供了一种文本匹配装置，包括文本获取模块210、文本处理模块220、相似度匹配模块230和文本匹配模块240，具体包括如下：
113.文本获取模块210，用于获取目标文本，以及与所述目标文本对应的待匹配文本集。
114.文本处理模块220，用于确定与所述目标文本对应的第一句向量和文本类别，以及与所述待匹配文本集中的各个待匹配文本对应的第二句向量。
115.相似度匹配模块230，用于将所述目标文本对应的第一句向量分别与每个待匹配文本对应的第二句向量进行相似度匹配，得到每个待匹配文本的相似度匹配结果。
116.文本匹配模块240，用于基于所述目标文本的文本类别对各个待匹配文本的相似度匹配结果进行优化，并基于优化后的相似度匹配结果确定所述待匹配文本集中的目标匹配文本。
117.上述实施例中，在将目标文本与待匹配文本集中的各个待匹配文本进行相似度匹配时，首先获取与目标文本对应的第一句向量以及文本类别，然后获取与待匹配文本集中的各个待匹配文本对应的第二句向量，根据第一句向量和第二句向量确定每个待匹配文本的相似度匹配结果，接着，对于每个待匹配文本的相似度匹配结果，可以通过目标文本的文本类别对其进行优化，使得优化后的相似度匹配结果不仅考虑了目标文本与待匹配文本之间的相似度，还考虑了目标文本的文本类别；其中，对相似度匹配结果进行优化，示例如，对于业务类文本和非业务类文本的相似度匹配结果的优化方式可以不同，因而采用本技术方案可以支持降低非业务类文本对最终匹配结果的影响，从而能够更加准确便捷地帮助用户解决业务上的问题。
118.在一个实施例中，所述文本获取模块210可以包括：
119.分词模块，用于对所述目标文本进行分词，得到至少一个词组。
120.检索模块，用于在faq知识库中对所述词组进行检索，得到多个与所述词组对应的待匹配文本，形成待匹配文本集；其中，所述faq知识库中预先建立有与多个待匹配文本对应的索引结构。
121.在一个实施例中，所述文本处理模块220可以包括：
122.文本分类模块，用于将所述目标文本输入至文本分类模型中，得到所述文本分类模型输出的与所述目标文本对应的第一句向量和文本类别。
123.其中，所述文本分类模型为，以faq知识库中的不同文本类别对应的多个待匹配文本为训练样本，以每个待匹配文本对应的文本类别为样本标签训练得到的。
124.在一个实施例中，所述文本处理模块220可以包括：
125.句向量匹配模块，用于在缓存中分别查找与所述待匹配文本集中的各个待匹配文本对应的第二句向量。
126.其中，所述缓存中预先存储有所述faq知识库中的所有待匹配文本，以及通过所述文本分类模型得到的与每个待匹配文本对应的第二句向量。
127.在一个实施例中，所述文本匹配模块240可以包括：
128.系数确定模块，用于根据所述目标文本的文本类别确定对应的调整系数。
129.优化模块，用于利用所述调整系数对各个待匹配文本的相似度匹配结果进行优化。
130.在一个实施例中，所述目标文本的文本类别可以包括业务类文本和非业务类文本；当所述目标文本为非业务类文本时，所述目标文本的调整系数小于所述业务类文本的调整系数。
131.在一个实施例中，所述文本匹配模块240可以包括：
132.排序模块，用于将优化后的相似度匹配结果进行排序，得到排序结果；
133.筛选模块，用于根据预设选取个数以及预设相似度阈值，对所述排序结果中的待匹配文本进行筛选。
134.目标确认模块，用于将筛选后的待匹配文本作为所述目标文本的目标匹配文本。
135.在一个实施例中，本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
136.在一个实施例中，本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述文本匹配方法的步骤。
137.示意性地，如图5所示，图5为本发明实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图5，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的文本匹配方法。
138.计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出(i/o)接口305。计算机设备300可以操作基于存储在存储器301的操作系统，例如windows server tm、mac os xtm、unix tm、linux tm、free bsdtm或类似。
139.本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
140.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
141.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即
可。
142.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

文本匹配方法、装置、存储介质及计算机设备与流程

相关文献

最热文献