一种智能检索方法、装置、设备及存储介质与流程

2022-03-09 06:55:38 来源：中国专利 TAG：

1.本发明涉及信息检索技术领域，更具体地说，涉及一种智能检索方法、装置、设备及存储介质。

背景技术：

2.计算机以及互联网技术的发展让人们所接触到的信息量呈现指数级的增长；对于金融领域来说，随着银行业务的增长和信息化技术的应用，文档的数量也不断增长，为了有效管理日渐庞大的文档资料，让使用者准确、快速地从众多文档中找到自己所需的知识，信息检索技术应运而生。目前常用的搜索方式存在检索准确性较低的问题。

技术实现要素：

3.本发明的目的是提供一种智能检索方法、装置、设备及存储介质，能够有效提高检索准确性。
4.为了实现上述目的，本发明提供如下技术方案：
5.一种智能检索方法，包括：
6.确定当前需要实现相应检索的问题为目标问题，并基于所述目标问题进行索引检索，得到与所述目标问题相关的文档均为候选文档；
7.基于所述目标问题在全部候选文档中进行语义检索，得到各候选文档在语义检索中的语义得分，并按照语义得分对全部候选文档进行排序；
8.将所述目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至解析模型中，得到所述解析模型输出的置信度得分，并按照所述置信度得分对全部候选文档重新进行再次排序并输出；其中，所述解析模型为预先利用多个问题及相应答案训练得到的。
9.优选的，基于所述目标问题进行索引检索之前，还包括：
10.获取各类文档，对获取的各类文档进行统一编码；
11.对完成统一编码后的文档进行分词处理，得到文档包含的全部词语，并去除得到的全部词语中的无效字符；
12.将去除无效字符后所得的全部词语通过工具luence构建文档的索引。
13.优选的，基于所述目标问题进行索引检索得到候选文档，包括：
14.对所述目标问题进行分词处理得到待检索词语，并为每个所述待检索词语分配相应的词权重；
15.利用所述待检索词语及相应的词权重通过luence检索得到与所述目标问题相关的文档均为候选文档。
16.优选的，为每个所述待检索词语分配相应的词权重，包括：
17.将所述目标问题及全部待检索词语输入至词权重模型中，得到所述词权重模型输出的各待检测词语的词权重；其中，所述词权重模型为预先利用多个问题及每个问题中各
词语的词权重训练得到的。
18.优选的，基于所述目标问题进行索引检索得到候选文档之后，还包括：
19.通过tf-idf分别计算每个所述候选文档针对于所述目标问题的得分，为分别与每个所述候选文档对应的索引检索得分，并按照所述索引检索得分对全部候选文档进行排序。
20.优选的，基于所述目标问题在全部候选文档中进行语义检索，包括：
21.将所述目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至语义检索模型中，得到所述语义检索模型输出的语义得分；其中，所述语义检索模型为预先利用多个问题、多个相应文档及任意问题与任意文档之间的语义得分训练得到的。
22.优选的，将各输入文档输入至解析模型中之后，还包括：
23.得到所述解析模型输出的相应输入文档中能够作为所述目标问题的答案的内容片段，并将所述内容片段返回。
24.一种智能检索装置，包括：
25.索引检索模块，用于：确定当前需要实现相应检索的问题为目标问题，并基于所述目标问题进行索引检索，得到与所述目标问题相关的文档均为候选文档；
26.语义检索模块，用于：基于所述目标问题在全部候选文档中进行语义检索，得到各候选文档在语义检索中的语义得分，并按照语义得分对全部候选文档进行排序；
27.深度解析模块，用于：将所述目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至解析模型中，得到所述解析模型输出的置信度得分，并按照所述置信度得分对全部候选文档重新进行再次排序并输出；其中，所述解析模型为预先利用多个问题及相应答案训练得到的。
28.一种智能检索设备，包括：
29.存储器，用于存储计算机程序；
30.处理器，用于执行所述计算机程序时实现如上任一项所述智能检索方法的步骤。
31.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项智能检索方法的步骤。
32.本发明提供了一种智能检索方法、装置、设备及存储介质，该方法包括：确定当前需要实现相应检索的问题为目标问题，并基于所述目标问题进行索引检索，得到与所述目标问题相关的文档均为候选文档；基于所述目标问题在全部候选文档中进行语义检索，得到各候选文档在语义检索中的语义得分，并按照语义得分对全部候选文档进行排序；将所述目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至解析模型中，得到所述解析模型输出的置信度得分，并按照所述置信度得分对全部候选文档重新进行再次排序并输出；其中，所述解析模型为预先利用多个问题及相应答案训练得到的。本技术实施例对于需要实现检索的问题，先通过索引检索从全部文档中检索出与该问题相关的候选文档，然后通过语义检索得到表示各候选文档符合该问题背后意图程度的语义得分，基于语义得分对全部候选文档进行排序，再基于解析模型分别对该问题及各候选文档进行深度解析，得到表示各候选文档中包含该问题对应答案的可能性的置信度得分，并基于置信度得分对全部候选文档进行再次排序。可见，本技术能够通过索
引检索初步检索出与问题相关的候选文档，再依次通过语义检索及解析模型得出表示各候选文档符合问题背后意图的程度及包含该问题对应答案的可能性，并基于语义检索及解析模型得出的信息对各候选文档进行排序，从而能够保证相关人员能够基于返回的候选文档，优先查看到与问题相关的、最可能符合问题背后意图且最可能包含问题对应答案的文档，有效提高了检索准确性。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
34.图1为本发明实施例提供的一种智能检索方法的流程图；
35.图2为本发明实施例提供的一种智能检索方法中基于词权重模型进行索引检索的实现示意图；
36.图3为本发明实施例提供的一种智能检索方法中基于语义检索模型进行语义检索的实现示意图；
37.图4为本发明实施例提供的一种智能检索方法中基于解析模型进行深度解析的实现示意图；
38.图5为本发明实施例提供的一种智能检索装置的结构示意图。
具体实施方式
39.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
40.请参阅图1，其示出了本发明实施例提供的一种智能检索方法的流程图，具体可以包括：
41.s11：确定当前需要实现相应检索的问题为目标问题，并基于目标问题进行索引检索，得到与目标问题相关的文档均为候选文档。
42.本技术提供的技术方案可以应用于金融领域，也可以根据实际需要应用于其他领域，均在本发明的保护范围之内。在用户需要检索某问题相关的内容(或者说某问题的答案)时，可以将该问题进行输入；智能检索装置(本技术实施例提供的智能检索方法的执行主体)在接收到用户输入的问题后，基于该问题在所有文档中进行索引检索，进而确定索引检索出的全部文档均为候选文档，并且可以将候选文档均加入至文档集中，以方便后续对候选文档的调取及使用等操作。另外，为了能够对所有文档进行索引检索，本技术实施例可以预先为所有文档构建相应的索引，索引与现有技术中对应概念一致，其作用相当于图书的目录，在此不再过多说明。
43.s12：基于目标问题在全部候选文档中进行语义检索，得到各候选文档在语义检索中的语义得分，并按照语义得分对全部候选文档进行排序。
44.在基于用户输入的问题进行索引检索，索引检索出的文档则为与该问题相关的候选文档。在得到候选文档后，本技术实施例继续在全部候选文档中基于该问题实现相应的语义检索，以通过语义检索得到各候选文档针对于该问题的语义得分；具体来说，在候选文档中进行该问题的语义检索，也即为理解候选文档中各词语的上下文，以寻找更符合该问题背后意图的内容，且语义得分越高表示相应候选文档越符合该问题的背后意图。在通过对各候选文档进行语义检索得到相应的语义得分后，本技术实施例可以按照语义得分由高到低的顺序对全部候选文档进行排序(语义得分越高的候选文档位置越靠前)，以在返回给用户全部候选文档时，用户能够优先查看最符合相应问题的背后意图的内容，从而提高查询结果的准确性。
45.s13：将目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至解析模型中，得到解析模型输出的置信度得分，并按照置信度得分对全部候选文档重新进行再次排序并输出；其中，解析模型为预先利用多个问题及相应答案训练得到的。
46.本技术实施例在依次实现索引检索及语义检索后，还会对各候选文档进行阅读理解；具体来说，本技术实施例将候选文档和用户输入的问题通过解析模型，深度解析候选文档的语义以及候选文档和该问题之间的联系，得到候选文档中能够作为该问题答案的片段的置信度得分(也即为相应候选文档的置信度得分)，置信度得分越高说明相应候选文档中的片段越有可能是该问题的答案，进而再基于各候选文档的置信度得分由高到低的顺序对各候选文档进行再次排序(置信度得分越高的候选文档位置越靠前)，以在返回给用户全部候选文档时，用户能够优先查看最可能包含相应问题的答案的内容，从而进一步提升查询结果的准确性。其中，可以预先获取多个问题及每个问题对应的答案，进而利用这些问题及答案训练得到相应的解析模型。
47.本技术实施例对于需要实现检索的问题，先通过索引检索从全部文档中检索出与该问题相关的候选文档，然后通过语义检索得到表示各候选文档符合该问题背后意图程度的语义得分，基于语义得分对全部候选文档进行排序，再基于解析模型分别对该问题及各候选文档进行深度解析，得到表示各候选文档中包含该问题对应答案的可能性的置信度得分，并基于置信度得分对全部候选文档进行再次排序。可见，本技术能够通过索引检索初步检索出与问题相关的候选文档，再依次通过语义检索及解析模型得出表示各候选文档符合问题背后意图的程度及包含该问题对应答案的可能性，并基于语义检索及解析模型得出的信息对各候选文档进行排序，从而能够保证相关人员能够基于返回的候选文档，优先查看到与问题相关的、最可能符合问题背后意图且最可能包含问题对应答案的文档，有效提高了检索准确性。
48.本发明实施例提供的一种智能检索方法，基于目标问题进行索引检索之前，还可以包括：
49.获取各类文档，对获取的各类文档进行统一编码；
50.对完成统一编码后的文档进行分词处理，得到文档包含的全部词语，并去除得到的全部词语中的无效字符；
51.将去除无效字符后所得的全部词语通过工具luence构建文档的索引。
52.需要说明的是，为了实现对文档的索引检索，本技术实施例需要通过数据预处理
实现相应检索的构建；具体来说，本技术实施例为包含有全部文档的文档知识库建立一种便于搜索的数据结构——索引，以提升文档知识库的搜索响应速度。其中，数据预处理主要可以包括：对文档知识库中的各类文档进行统一编码，如将各类文档的文本格式(如unicode编码的文本格式)均通过编码解码的方式转换为utf-8的文本格式；在完成统一编码后对这些文档的文本进行分词处理，得到各文档所包含的全部词语，并去除其中的无效字符(如停用词、标点符号)；最后将这些处理后的词语信息通过工具luence构建索引。其中，lucene为与现有技术中对应概念含义相同的搜索底层开源技术，lucene工具构建索引具体采用倒排索引的方式，记录每个词语对应的文档集合，从而方便检索时的快速查找。
53.本发明实施例提供的一种智能检索方法，基于目标问题进行索引检索得到候选文档，可以包括：
54.对目标问题进行分词处理得到待检索词语，并为每个待检索词语分配相应的词权重；利用待检索词语及相应的词权重通过luence检索得到与目标问题相关的文档均为候选文档。
55.其中，为每个待检索词语分配相应的词权重，可以包括：
56.将目标问题及全部待检索词语输入至词权重模型中，得到词权重模型输出的各待检测词语的词权重；其中，词权重模型为预先利用多个问题及每个问题中各词语的词权重训练得到的；
57.另外，基于目标问题进行索引检索得到候选文档之后，还可以包括：
58.通过tf-idf分别计算每个候选文档针对于目标问题的得分，为分别与每个候选文档对应索引检索得分，并按照索引检索得分对全部候选文档进行排序。
59.在建立好索引后可以在文档知识库中进行相应的索引检索(即lucene检索)；具体来说，本技术在接收到用户输入的问题后，可以先对问题进行预处理，包括对问题进行分词处理，得到问题中包含的全部词语均作为待检索词语，并为每个待检索词语分配相应的词权重；然后将每个待检索词语与相应的词权重通过lucene检索得出与问题相关的文档集合，包括将包含全部待检索词语中一个或者多个待检索词语的所有文档作为候选文档提取出来(这一过程称为召回)，再通过tf-idf计算每个候选文档与用户问题的得分分别为每个文档对应的索引检索得分，索引检索得分越高表示相应候选文档与问题的相关性越高；最后基于文档集合中每篇候选文档的索引检索得分对候选文档进行排序(索引检索得分越高位置越靠前)并返回lucene的检索结果。
60.需要说明的是，词权重分配可以包括两部分：1)用户自定义词权重，如果用户配置了某待检索词语的词权重，则使用用户自定义的词权重；2)动态分配词权重，对于用户没有配置词权重的待检索词语，通过词权重模型给每个待检索词语动态的分配一个词权重。其中，词权重模型为预先利用多个问题及每个问题中各词语的词权重训练得到的，在一种具体实现方式中，词权重模型是在开源预训练模型bert的基础上进行微调，利用开源的问答通用数据(如dureader)，将文档中的每个词映射到一个0-1的数值，作为该词的词权重。本技术实施例通过动态词权重分配的策略能够有效提升查询的召回率，动态词权重的含义是对于同一个词语，它在不同的语境下拥有不同的权重值；举个例子，“苹果手机很好用”与“苹果手机的图像处理器很强”这两句话，前一句话中“苹果手机”权重应当更高一些，后一句话中“图像处理器”权重应当更高一些；另外，如果有用户的点击数据，可以将用户的点击
数据(用户点击文档的行为对应数据)反馈给词权重模型做相应优化调整，提高结果与用户问题的相关性，具体来说，首先获取用户问题与用户点击查看的相关文档，然后对问题和用户点击的文档进行分词处理，找出两者间重叠的词语，这些词语认为是词权重应比较高的词语，最后让词权重模型学习这些权重较高的词语与词权重之间的映射关系；相应的基于词权重模型进行索引检索的实现示意图可以如图2所示。
61.另外，本技术实施例还可以将用户输入的问题输入至质检终端，从而使得质检终端的相应人员在用户输入的问题有错时，进行纠错并改写问题，当然还可以根据实际需要设置其他查纠错的方式，均在本发明的保护范围之内。
62.本发明实施例提供的一种智能检索方法，基于目标问题在全部候选文档中进行语义检索，可以包括：
63.将目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至语义检索模型中，得到语义检索模型输出的语义得分；其中，语义检索模型为预先利用多个问题、多个相应文档及任意问题与任意文档之间的语义得分训练得到的。
64.本技术实施例可以预先获取多个问题、该多个问题分别对应的文档以及任意问题及相应文档之间的语义得分，然后利用获取的这些信息进行训练得到语义检索模型，从而利用语义检索模型快速准确的实现候选文档的语义检索。具体来说，语义检索模型可以为bert-search模型，bert-search模型是以开源预训练语言模型bert为基础，利用开源问答数据集(如dureader)作为训练数据微调得到的；在训练语义检索模型时，将问题与相关文档拼接在一起后输入至语义检索模型，让语义检索模型给出较高的语义得分，将问题与非相关性文档拼接在一起后输入至语义检索模型，让语义检索模型给出较低的语义得分，通过这样的方法可以训练出一个能够判断用户意图与文档相关性的模型。同时为了优化模型效果，本技术实施例中还可以引入对抗训练，增加模型训练时的噪声，提升模型的泛化能力；本技术实施例还可以在文档后拼接其包含的相应关键词，从而进一步提高模型的语义捕获能力，这里关键词的提取可以采用tf-idf算法，首先对文档进行分词处理得到其包含的全部词语，采用tf-idf算法计算每个词语的tf*idf值，然后选取值最大的前多个关键词(如前5个关键词)。另外，为了提升模型推理速度，本技术实施例还可以对降低模型维度(如将模型维度降低至常用模型维度的一半)进行模型剪枝，从而减少模型参数量，提升推理速度。
65.在需要得到语义得分时，本技术实施例可以将问题与任意候选文档拼接在一起后输入语义检索模型，通过语义检索模型给出语义得分来判断输入的问题与该任意候选文档的相关性大小，最后根据语义得分对候选文档进行重新排序。另外，如果有用户的点击数据(用户点击文档时对应的数据)，也会利用用户的点击数据对语义检索模型进行优化，具体优化方式与词权重模型类似，先筛选出用户问题与用户点击的相关文档，然后根据该语义检索模型的训练方式继续训练模型，这样可以通过用户点击行为的优化来进一步提升语义检索模型对文档和用户问题的语义理解能力。相应的基于语义检索模型进行语义检索的实现示意图可以如图3所示。
66.在一种具体实现方式中，基于索引检索得分对全部候选文档进行排序后，再基于语义得分对全部候选文档进行再次排序时，对于语义得分相同的候选文档，索引检索得分
越高则位置越靠前，从而得到综合索引检索得分及语义得分排序后的全部后续文档；后续基于语义得分对全部候选文档进行排序后，再基于置信度得分对全部候选文档进行再次排序时，对于置信度得分相同的候选文档，语义得分越高则位置越靠前，从而得到综合索引检索得分、语义得分及置信度得分排序后的全部后续文档；
67.本发明实施例提供的一种智能检索方法，将各输入文档输入至解析模型中之后，还可以包括：
68.得到解析模型输出的相应输入文档中能够作为目标问题的答案的内容片段，并将内容片段返回。
69.本技术实施例中的解析模型是比语义检索粒度更细的任务，它不仅要求模型判断文档是否相关，同时要求模型给出问题的答案(如果有答案)，所以阅读理解要求模型对文档和问题有更深层次的语义理解；解析模型同样以bert模型为基础，利用开源的阅读理解数据训练得到，具体的训练方式是将问题与相关文档拼接在一起输入解析模型，然后让解析模型抽取出文档中能回答该问题的一个片段，同时模型也会给出这个片段的置信度得分，进而利用该得分对文档进行相关性排序。因此，本技术实施例在将输入文档输入至解析模型后，还可以得到解析模型输出的相应输入文档中能够作为该问题答案的片段，进而将文档集合返回的同时还将这些片段返回，从而进一步提高检索准确性。与上述词权重模型同理，用户的点击数据也可以反馈给解析模型用于调整与优化模型。相应的基于解析模型进行深度解析的实现示意图可以如图4所示，其中的阅读理解模型即为解析模型。
70.在一种具体实现方式中，本技术实施例提供的一种智能检索方法具体可以包括以下步骤：
71.步骤101，数据预处理：为文档知识库建立索引，以提升搜索响应速度。
72.步骤102，lucene检索：先对用户问题进行分词，词权重分配；再将分词结果与词权重通过lucene检索得出与用户问题相关的文档集合；最后基于文档集合中每篇文档的tf-idf得分对文档进行排序返回lucene的检索结果。
73.步骤103，bert-search语义检索：利用语义检索，对步骤102得出的候选文档进行重新排序。
74.步骤104，阅读理解：将文档内容和用户问题通过解析模型，深度解析文档语义以及文档和问题之间的联系，然后在文档中抽取出能回答该问题的片段作为问题的答案返回，同时也能根据答案的置信度对候选文档重新排序。
75.本技术为适用于行业知识特点的知识搜索引擎，实现智能检索；通过主动提示搜索内容、自动纠错、拼音识别、智能引导等手段，辅助用户进行精准搜索，辅助用户直观地了解知识内容。相对于简单的目录点选方式，本技术大大降低了非专业人员检索领域内知识的难度，让用户能够自然语言的方式搜索知识；与传统的基于数据库的关键词的模糊匹配相比，不仅提高了检索结果与用户问题的相关性，基于索引的搜索还保证了在文档数据量庞大的情况下较高的查询响应速度；在检索知识的过程中，收集用户点击行为等方式与用户进行交互，合理地调整对应模型，多次筛选候选文档，提升搜索准确率；基于语义搜索技术能较大提升检索top1的准确率。
76.本发明实施例还提供了一种智能检索装置，如图5所示，可以包括：
77.索引检索模块11，用于：确定当前需要实现相应检索的问题为目标问题，并基于目
标问题进行索引检索，得到与目标问题相关的文档均为候选文档；
78.语义检索模块12，用于：基于目标问题在全部候选文档中进行语义检索，得到各候选文档在语义检索中的语义得分，并按照语义得分对全部候选文档进行排序；
79.深度解析模块13，用于：将目标问题分别与各候选文档进行拼接，得到与各候选文档分别对应的输入文档，将各输入文档输入至解析模型中，得到解析模型输出的置信度得分，并按照置信度得分对全部候选文档重新进行再次排序并输出；其中，解析模型为预先利用多个问题及相应答案训练得到的。
80.本发明实施例还提供了一种智能检索设备，可以包括：
81.存储器，用于存储计算机程序；
82.处理器，用于执行计算机程序时实现如上任一项智能检索方法的步骤。
83.本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可以实现如上任一项智能检索方法的步骤。
84.需要说明的是，本发明实施例提供的一种智能检索装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种智能检索方法中对应部分的详细说明，在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。
85.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于双模块的足迹信息提取方法与流程

一种智能检索方法、装置、设备及存储介质与流程

相关文献

最热文献