分词位置索引构建方法及其装置、文档检索方法及其装置与流程

2022-02-22 08:28:30 来源：中国专利 TAG：

1.本技术涉及数据检索领域，特别是涉及一种分词位置索引构建方法及其装置、文档检索方法及其装置、计算机设备和存储介质。

背景技术：

2.在大数据时代，随着互联网技术的迅速崛起与普及，人们在不同领域产生到的数据量之大，达到了前所未有的程度。同时，数据的产生、存储和处理方式发生了革命性的变化，人们的工作和生活基本上都可以用数字化表示，因此采用一种有效检索数据的方式愈发重要。
3.在各种全文检索系统中，elasticsearch（以下简称为es，其是一个基于lucene的搜索服务器，提供了一个分布式多用户能力的全文搜索引擎）具有方便易用快速高效的特点，因而得到了广泛应用。目前es在对语句进行分词时，通常是按照一般的语意理解来进行分词。然而，在检索专利文献的场景中，专利文献的内容新颖，其中通常会包含一些最新的技术短语，使用目前的分词方式对专利文献进行分词，可能最终得到的分词词库中没有包含这些最新的技术短语，这使得用户在利用这些最新的技术短语检索专利文献时，会因为分词词库中不包含这些技术短语，而检索不到相应结果。
4.例如，对于“本发明公开一种环境侦测系统及侦测设备，所述设备包括侦测卡匣及侦测装置”这个语句，按照通常的语意理解应该拆分为：本\发明\公开\一种\环境\侦测\系统\及\侦测\设备\，\所述\设备\包括\侦测\卡匣\及\侦测\装置，按照以上拆分的短语，如果利用“侦测卡匣”这一短语直接进行检索，则无法检索到该语句；而如果将“侦测卡匣”这一短语拆分为若干个词，再基于拆分后的词进行检索，尽管可以检索到该语句，但是这种方式的检索成本，如时间成本、资源成本等较高，并且精准度低，即无法精准命中用户想要的语句，检索结果会包含大量无关的内容。比如，将“侦测卡匣”拆分为“侦测”和“卡闸”进行检索，此时除了可以检索到上述语句，还会检索到其他的同时包含“侦测”和“卡匣”这两个短语的语句，例如“本发明公开了一种装置及侦测方法，该装置包括卡匣”、“本发明公开了一种卡匣侦测方法”等等。

技术实现要素：

5.本技术针对上述不足或缺点，提供了一种分词位置索引构建方法及其装置、文档检索方法及其装置、计算机设备和存储介质，本技术实施例能够支持用户使用任意短语进行检索，并且能够精准检索出对应的内容。
6.本技术根据第一方面提供了一种分词位置索引构建方法，在一个实施例中，该方法包括：获取待构建索引的目标文档；对目标文档的特定内容进行分词处理，得到目标文档的分词集；根据目标文档的分词集为目标文档构建对应的分词位置索引；目标文档的分词位
置索引用于记录目标文档的分词集中的每个分词的索引值，其中，每个分词的索引值等于本分词中的特定字在目标文档的特定内容中的排列顺序值。
7.在一个实施例中，根据目标文档的分词集为目标文档构建对应的分词位置索引的步骤，包括：为目标文档的分词集中的每个分词分配对应的索引值，根据每个分词的索引值为该目标文档构建对应的分词位置索引。
8.在一个实施例中，目标文档的分词集包括多个字数为1的分词和多个字数超过1的分词；多个字数为1的分词为该目标文档的特定内容中的每个字；为目标文档的分词集中的每个分词分配对应的索引值，包括：在为每个字数为1的分词分配对应的索引值时，将每个分词在该目标文档的特定内容中的排列顺序值作为对应的索引值；在为每个字数超过1的分词分配对应的索引值时，将每个分词中的特定字在该目标文档的特定内容中的排列顺序值作为对应的索引值。
9.在一个实施例中，该特定字是指首字或尾字。
10.本技术根据第二方面提供了一种文档检索方法，在一个实施例中，该方法包括：对获得的检索文本进行分词处理，得到分词集；确定分词集中每个分词的索引值，分词集中的每个分词的索引值等于本分词中的特定字在检索文本中的排列顺序值；根据每个分词的索引值确定分词集的位置关系，分词集的位置关系表示分词集中的特定分词和每个其他分词间的索引值差；根据分词集查询文档索引得到初始结果集，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。
11.在一个实施例中，分词集包括n个字数为1的分词和m个字数超过1的分词；确定分词集中每个分词的索引值，包括：将每个字数为1的分词在检索文本中的排列顺序值作为对应的索引值；将每个字数超过1的分词的特定字在检索文本中的排列顺序值作为对应的索引值。
12.在一个实施例中，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集，包括：根据分词集查询每个文档的分词位置索引得到每个文档的分词位置信息；根据每个文档的分词位置信息检验每个文档是否符合分词集的位置关系；从初始结果集中筛选出符合分词集的位置关系的文档作为最终结果集。
13.在一个实施例中，该特定字是指首字或尾字。
14.在一个实施例中，分词集中的特定分词为分词集中的任意一个分词。
15.在一个实施例中，使用上述任一实施例提供的分词位置索引构建方法构建初始结果集中每个文档的分词位置索引。
16.本技术根据第三方面提供了一种分词位置索引构建装置，在一个实施例中，该装置包括：目标文档获取模块，用于获取待构建索引的目标文档；
分词模块，用于对目标文档的特定内容进行分词处理，得到目标文档的分词集；索引构建模块，用于根据目标文档的分词集为目标文档构建对应的分词位置索引；目标文档的分词位置索引用于记录目标文档的分词集中的每个分词的索引值，其中，每个分词的索引值等于本分词中的特定字在目标文档的特定内容中的排列顺序值。
17.本技术根据第四方面提供了一种文档检索装置，在一个实施例中，该装置包括：分词模块，用于对获得的检索文本进行分词处理，得到分词集；索引值确定模块，用于确定分词集中每个分词的索引值，分词集中的每个分词的索引值等于本分词中的特定字在检索文本中的排列顺序值；位置关系确定模块，用于根据每个分词的索引值确定分词集的位置关系，分词集的位置关系表示分词集中的特定分词和每个其他分词间的索引值差；检索模块，用于根据分词集查询文档索引得到初始结果集，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。
18.本技术根据第五方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的实施例的步骤。
19.本技术根据第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法的实施例的步骤。
20.在本技术实施例中，通过获取待构建索引的目标文档，对目标文档的特定内容进行分词处理，得到目标文档的分词集，根据目标文档的分词集为目标文档构建对应的分词位置索引，目标文档的分词位置索引用于记录目标文档的分词集中的每个分词的索引值，其中，每个分词的索引值等于本分词中的特定字，如首字或尾字在目标文档的特定内容中的排列顺序值。本技术实施例能够支持用户使用任意短语进行检索，并且能够精准检索出对应的内容。
附图说明
21.图1为一个实施例中一种分词位置索引构建方法的流程示意图；图2为一个实施例中一种文档检索方法的流程示意图；图3为一个实施例中一种分词位置索引构建装置的结构框图；图4为一个实施例中一种文档检索装置的结构框图；图5为一个实施例中计算机设备的内部结构图。
具体实施方式
22.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本技术，并不用于限定本技术。
23.本技术提供了一种分词位置索引构建方法。在一个实施例中，该分词位置索引构建方法包括的步骤如图1所示。下面结合图1对该分词位置索引构建方法进行说明。
24.s110：获取待构建索引的目标文档。
25.其中，待构建索引的目标文档是指需要为特定内容构建分词位置索引的文档。
26.该文档可以是专利文献，当然该文档也可以是其他文献、比如学术论文、裁判文书等等。
27.该特定内容可以是指目标文档的全部内容，或是目标文档中的部分内容，比如，以专利文献为例，为了满足用户精确检索专利文献的要求，可以为专利文献的一些字段，比如包括但不限于说明书、权利要求书、专利名称、摘要等字段建立分词位置索引。
28.s120：对目标文档的特定内容进行分词处理，得到目标文档的分词集。
29.其中，在对目标文档进行分词处理时，获取目标文档的特定内容，比如专利文献的说明书字段的内容、权利要求书字段的内容、或者是摘要字段的内容等来进行分词处理。
30.具体地，可以使用es（即elasticsearch）来进行分词处理，即将目标文档中的特定内容拆分为多个分词，拆分出的多个分词即是该目标文档的分词集。es的分词过程为现有技术，本实施例不进行赘述。
31.下面对分词处理得到的分词集进行说明。
32.目标文档的分词集包括多个字数为1的分词和多个字数超过1的分词。本实施例以字数是否超过1为维度将目标文档的分词集中的分词分为两种类型，即字数为1的分词和字数超过1的分词。
33.为了方便介绍，以下将字数为1的分词称为单字分词，将字数超过1的分词称为多字分词。具体地，目标文档的分词集中包含的单字分词的数量可以等于目标文档的特定内容的字数，即将目标文档的特定内容中的每个字拆分为一个分词。
34.在一个示例中，假设目标文档的特定内容是“本发明公开一种环境侦测系统及侦测设备，所述设备包括侦测卡匣及侦测装置”，对其进行分词处理后可以得到如表一所示的分词集。
35.表一：从表一可知，该分词集共包含49个分词，其中单字分词的数量为33个，多字分词的数量为16个。
36.s130：根据目标文档的分词集为目标文档构建对应的分词位置索引。
37.在获得分词集之后，为分词集中的各个分词分配对应的索引值，并为各个分词及其对应的索引值建立映射关系，即分词位置索引，从而在检索时，可以通过该分词位置索引来确定检索文本中的各个分词是否连续。
38.目标文档的分词位置索引用于记录本文档（即目标文档）的分词集中的每个分词的索引值，其中，每个分词的索引值等于本分词中的特定字在目标文档的特定内容中的排列顺序值。该特定字是指首字或尾字。
39.其中，将分词集中的每个多字分词的索引值设置为本分词中的特定字在目标文档
的特定内容中的排列顺序值，这一操作可以通过修改es的源码来实现。
40.下面对修改es源码之前和之后，分词集中各分词的索引值的变化进行说明。
41.表二：在修改es的源码之前，es为表一中的各分词所分配的索引值可以如表二所示。在修改es的源码之后，es为表一中的各分词所分配的索引值可以如表三所示。
42.表三：
在本实施例中，不需要对es现有的分词方式进行调整，只需要改变分词集中各分词的索引值，即可解决以往es中因为分词词库中不存在最新技术短语而无法检索到或精确检索到特定文档的问题。
43.具体地，通过修改es源码，以使修改源码后的es在为分词集中各分词分配对应的索引值时，将每个字数超过1的分词的索引值设置为本分词中的特定字在目标文档的特定内容中的排列顺序值，从而在检索时，通过计算由检索文本拆分而来的各个分词的索引值之间的差值即可判断两个分词之间是否连续，从而在用户使用任意短语（不管现实中该短语是否有含义，比如用户输入关键字“匣及侦”也能精确命中上述表三对应的文档）进行检索时，也能够精确检索到完整包含该任意短语的文档，提高了检索精确度。
44.在一个实施例中，上述的根据目标文档的分词集为目标文档构建对应的分词位置索引的步骤，具体包括：为目标文档的分词集中的每个分词分配对应的索引值，根据每个分词的索引值为该目标文档构建对应的分词位置索引。其中，构建的分词位置索引请参见上述表三。
45.进一步地，在一个实施例中，为目标文档的分词集中的每个分词分配对应的索引值的步骤，具体包括：在为每个字数为1的分词分配对应的索引值时，将每个分词在该目标文档的特定内容中的排列顺序值作为对应的索引值；在为每个字数超过1的分词分配对应的索引值时，将每个分词中的特定字在该目标文档的特定内容中的排列顺序值作为对应的索引值。
46.可以理解地，分词集中可能包含重复的分词，比如，表一所示的分词集中，有4个分词的内容均为“侦测”。因此，需要按照顺序来为分词集中的各分词分配对应的索引值。
47.其中，单字分词在目标文档的特定内容中的排列顺序值可以是指单字分词在该特定内容中属于第几个字。
48.在一个示例中，以目标文档的特定内容是“本发明公开一种环境侦测系统及侦测设备，所述设备包括侦测卡匣及侦测装置”为例，通过表四可以直观看到该特定内容中各个字在该特定内容中的位置。比如，“本”字对应的位置是1，1表示“本”字是该特定内容中的第1个字。
49.表四：对于多字分词来说，可以以其中的首字或尾字，在特定内容中的排列顺序值来作为索引值，比如，以特定字是首字为例，表一中的“本发明”的索引值是“本”字在特定内容中的排列顺序值，即1，表一中的第一个“侦测”的索引值是该“侦”字在特定内容中的排列顺序值，即10。
50.本技术还提供了一种文档检索方法。在一个实施例中，该文档检索方法包括的步骤如图2所示。下面结合图2对该文档检索方法进行说明。
51.s210：对获得的检索文本进行分词处理，得到分词集。
52.其中，检索文本是检索式中的单个检索词。
53.es在接收到用户的检索请求时，可以获取用户的检索关键词以及检索字段，然后生成检索式，之后再提取检索式中的检索文本来执行本实施例提供的文档检索方法。
54.示例性地，比如用户在客户端的检索页面中的
ꢀ“
专利名称”栏输入“侦测卡匣”这一关键词，然后触发检索指令，客户端会响应于该检索指令，向es发送检索请求，检索请求中可以携带检索字段“专利名称”、检索词“侦测卡匣”等信息，当es接收到检索请求后，从中提取相关信息以生成检索式，如“专利名称：侦测卡匣”，之后通过该检索式进行检索，即提取该检索式中的检索词“侦测卡匣”作为检索文本，然后对“侦测卡匣”进行分词处理以得到分词集，其中，分词集可以包括“侦测”和“卡匣”这两个分词。假如用户输入的关键词是“侦测卡匣 and 侦测装置”,生成的检索式可以是“专利名称：侦测卡匣and 侦测装置”，那么es分别提取“侦测卡匣”、“侦测装置”作为检索文本，即以“侦测卡匣”作为检索文本来检索对应的结果集、以及以“侦测装置”作为检索文本来检索对应的结果集，之后再根据两个结果集来获得最终反馈给用户的结果集。
55.进一步地，分词集中包括n个字数为1的分词和m个字数超过1的分词，其中，n和m为自然数。为了方便介绍，以下将字数为1的分词称为单字分词，将字数超过1的分词称为多字分词。
56.s220：确定分词集中每个分词的索引值，分词集中的每个分词的索引值等于本分词中的特定字在检索文本中的排列顺序值。
57.每个分词的索引值是本分词中的特定字在检索文本中的排列顺序值，即该特定字
在检索文本中属于第几个字。特定字是指首字或尾字。
58.示例性地，以检索文本是“环境侦测系统”为例，该检索文本的分词集为“环境”、“侦测”和“系统”，特定字是指首字，那么可以确定这三个分词对应的索引值分别为1,3,5，即“环”、“侦”和“系”这三个子在“环境侦测系统”中的排列顺序值。
59.s230：根据每个分词的索引值确定分词集的位置关系。
60.其中，分词集的位置关系表示分词集中的特定分词和每个其他分词间的索引值差。
61.进一步地，该特定分词可以是分词集中的任何一个分词，比如可以是第一个分词（指索引值最小的分词）。
62.示例性地，以检索文本是“环境侦测系统”为例，将“环境”作为特定分词，接着可以计算出“环境”和“侦测”间的索引值差是3-1=2，“环境”和“系统”间的索引值差是5-1=4。
63.s240：根据分词集查询文档索引得到初始结果集，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。
64.其中，文档索引可以是指倒排索引，该倒排索引可以采用目前常用的的构建方法来进行构建。使用分词集查询文档索引可以得到初始结果集，其中，初始结果集中每个文档都同时包含了该分词集中的所有分词，之后根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。
65.其中，在文档对应有多个分词位置索引的情况下，比如，专利文献对应有说明书、权利要求书、摘要、发明名称等字段的分词位置索引，此时需要通过检索文本对应的检索字段来确定文档的分词位置索引。比如，检索字段是上述示例中的“专利名称”，那么文档的分词位置索引是指与“专利名称”对应的分词位置索引。进一步地，在对检索文本进行分词处理之前，可以使用上述任一实施例提供的分词位置索引构建方法来构建初始结果集中每个文档的分词位置索引，其中，本实施例提供的文档检索方法所涉及的“特定字”和上述任一实施例提供的分词位置索引构建方法所涉及的“特定字”是对应的，也就是说，在根据文档的分词集为文档构建对应的分词位置索引时，若分词集中的分词的索引值等于本分词中的首字（或尾字）在文档的特定内容中的排列顺序值，则在上述步骤220中，分词集中的每个分词的索引值等于本分词中的首字（或尾字）在检索文本中的排列顺序值。
66.本实施例可以对获得的检索文本进行分词处理，得到分词集；之后确定分词集中每个分词的索引值，其中，分词集中的每个分词的索引值等于本分词中的特定字在检索文本中的排列顺序值，接着根据每个分词的索引值确定分词集的位置关系，最后根据分词集查询文档索引得到初始结果集，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。用户可以使用任意短语进行检索，并且能够精准检索出对应的内容。
67.在一个实施例中，上述的确定分词集中每个分词的索引值的步骤，具体包括：将每个字数为1的分词在检索文本中的位置作为对应的索引值；将每个字数超过1的分词的特定字在检索文本中的排列顺序值作为对应的索引值。比如，以检索文本是“卡匣及侦测”为例，其分词集是“卡匣”、“及”和“侦测”，这三个分词对应的索引值分别是1，3，4。
68.进一步地，在一个实施例中，上述的根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集的步骤，具体包括：
根据分词集查询每个文档的分词位置索引得到每个文档的分词位置信息；根据每个文档的分词位置信息检验每个文档是否符合分词集的位置关系；从初始结果集中筛选出符合分词集的位置关系的文档作为最终结果集。
69.以下通过一个示例对上述实施例进行说明。
70.在一个示例中，假设用户指定的检索字段是摘要，es提取的检索文本是“侦测设备”，分词集是“侦测”和“设备”，特定字是首字，那么其索引值差是3-1=2，某个文档a的摘要字段内容是“本发明公开一种环境侦测系统及侦测设备，所述设备包括侦测卡匣及侦测装置”，文档a的分词位置索引如表三所示。
71.先根据分词集即“侦测”和“设备”查询文档a的分词位置索引，可以得到分词集中各个分词在文档a的分词位置索引中对应的索引值，即分词“侦测”对应的索引值分别是10，15，25，30，分词“设备”对应的索引值分别是17，21，接着，取分词“侦测”的第一个索引值和分词“设备”的第一个索引值，并计算两者的索引值差，如果两者的索引值差等于2，则表示两者是连续的，此时可以确认文档a符合分词集的位置关系，可以将其选入最终结果集，而如果两者的索引值差大于2，表示两者不是连续的，那么继续取“侦测”的下一个索引值，并继续执行上述的比较索引值的步骤。在本示例中，当分词“侦测”对应的索引值是15，而分词“设备”对应的索引值是17，两者的索引值差符合分词集的位置关系。
72.需要说明的是，关于上述任何一个实施例中提供的分词位置索引构建方法所包括的各个步骤，除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，这些步骤中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
73.基于相同的发明构思，本技术还提供了一种分词位置索引构建装置。在本实施例中，如图3所示，该分词位置索引构建装置包括以下模块：目标文档获取模块110，用于获取待构建索引的目标文档；分词模块120，用于对目标文档的特定内容进行分词处理，得到目标文档的分词集；索引构建模块130，用于根据目标文档的分词集为目标文档构建对应的分词位置索引；目标文档的分词位置索引用于记录目标文档的分词集中的每个分词的索引值，其中，每个分词的索引值等于本分词中的特定字在目标文档的特定内容中的排列顺序值。
74.在一个实施例中，该特定字是指首字或尾字。
75.在一个实施例中，索引构建模块用于执行以下步骤，以根据目标文档的分词集为目标文档构建对应的分词位置索引：为目标文档的分词集中的每个分词分配对应的索引值，根据每个分词的索引值等于该目标文档构建对应的分词位置索引。
76.在一个实施例中，目标文档的分词集包括多个字数为1的分词和多个字数超过1的分词；多个字数为1的分词为该目标文档的特定内容中的每个字；相应地，索引构建模块在用于为目标文档的分词集中的每个分词分配对应的索引值时，具体用于：
在为每个字数为1的分词分配对应的索引值时，将每个分词在该目标文档的特定内容中的排列顺序值作为对应的索引值；在为每个字数超过1的分词分配对应的索引值时，将每个分词中的特定字在该目标文档的特定内容中的排列顺序值作为对应的索引值。
77.关于分词位置索引构建装置的具体限定可以参见上文中对于分词位置索引构建方法的限定，在此不再赘述。上述分词位置索引构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
78.基于相同的发明构思，本技术还提供了一种文档检索装置。在本实施例中，如图4所示，该文档检索装置包括以下模块：分词模块210，用于对获得的检索文本进行分词处理，得到分词集；索引值确定模块220，用于确定分词集中每个分词的索引值，分词集中的每个分词的索引值等于本分词中的特定字在检索文本中的排列顺序值；位置关系确定模块230，用于根据每个分词的索引值确定分词集的位置关系，分词集的位置关系表示分词集中的特定分词和每个其他分词间的索引值差；检索模块240，用于根据分词集查询文档索引得到初始结果集，根据分词集、分词集的位置关系和初始结果集中每个文档的分词位置索引，从初始结果集中筛选出最终结果集。
79.在一个实施例中，该特定字是指首字或尾字。
80.在一个实施例中，分词集包括n个字数为1的分词和m个字数超过1的分词；相应地，索引值确定模块，具体用于：将每个字数为1的分词在检索文本中的排列顺序值作为对应的索引值；将每个字数超过1的分词的特定字在检索文本中的排列顺序值作为对应的索引值。
81.在一个实施例中，检索模块，具体用于：根据分词集查询每个文档的分词位置索引得到每个文档的分词位置信息；根据每个文档的分词位置信息检验每个文档是否符合分词集的位置关系；从初始结果集中筛选出符合分词集的位置关系的文档作为最终结果集。
82.在一个实施例中，分词集中的特定分词为分词集中的任意一个分词。
83.在一个实施例中，使用如上述任一实施例中提供的分词位置索引构建方法构建初始结果集中每个文档的分词位置索引。
84.关于文档检索装置的具体限定可以参见上文中对于文档检索方法的限定，在此不再赘述。上述文档检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
85.在一个实施例中，提供了一种计算机设备，其内部结构图可以如图5所示。
86.该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失
性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储索引等数据，具体存储的数据还可以参见上述方法实施例中的限定。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分词位置索引构建方法。
87.本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
88.本实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法实施例中提供的方法所包括的步骤。
89.在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法实施例中提供的方法所包括的步骤。
90.本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双数据率sdram（ddrsdram）、增强型sdram（esdram）、同步链路（synchlink） dram（sldram）、存储器总线（rambus）、直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
91.以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
92.以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

分词位置索引构建方法及其装置、文档检索方法及其装置与流程

相关文献

最热文献