一种文本信息检索方法及设备与流程

2022-02-22 08:43:16 来源：中国专利 TAG：

1.本技术涉及数据查重技术领域，尤其涉及一种文本信息检索方法及设备。

背景技术：

2.在科学研究的过程中，文本信息检索是一个重要的步骤。例如，在对当前课题进行研究之前，需要对文献、论文以及专利等文本信息进行检索，以对当前待研究的问题进行查重。
3.通过查重可以使企业明晰现阶段科研动态、避免重复开发与资金浪费的问题，对企业而言功劳甚大。据不完全统计，各国因未查阅论文、专利等文献，以致使研究课题失去价值而造成的损失数以十亿计，间接损失就更多了。因此，文本信息的检索对于企业的成长，对于全球生产力的节省与提高，具有举足轻重的作用。
4.但是目前文本信息检索的常规方式主要以对待检索文本信息的描述信息进行直接匹配查找，其检索效率较低，同时也很难达到用户满意的检索效果。

技术实现要素：

5.本技术实施例提供了一种文本信息检索方法及设备，用于解决如下技术问题：目前文本信息检索的常规方式主要以对待检索文本信息的描述信息进行直接匹配查找，其检索效率较低，同时也很难达到用户满意的检索效果。
6.本技术实施例采用下述技术方案：
7.本技术实施例提供一种文本信息检索方法。包括，根据待检索文本信息的所属第一技术领域，确定多个词语，并基于多个词语构建种子词库；对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库；基于一级泛化词库进行文本信息检索，确定一级泛化词库中各词语分别对应的文本信息的数量，并基于文本信息的数量对一级泛化词库中的词语进行筛选，得到二级泛化词库；对二级泛化词库进行语义泛化，并基于第二预设词语选择条件对泛化后的词语进行筛选，得到三级泛化词库，以基于三级泛化词库进行文本信息检索。
8.本技术实施例通过对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库。能够根据泛化后的词语进行文本信息检索，从而扩大检索范围，使检索到的文本更加全面。其次，本技术实施例基于文本信息的数量对一级泛化词库中的词语进行筛选，从而将数量较少的文本信息进行删除，解决因词语不准确而导致的文本信息不准确的问题。此外，本技术实施例还对二级泛化词库进行语义泛化，从而将确定出的当前领域的文本信息所对应的词语进一步扩充，从而增加获取到的当前技术领域的文本信息的数量，使得获取到的当前技术领域的内容更加全面。本技术实施例通过对词库不断优化，可以不断提高检索出的文本信息的精确度，进而提高检索效率。
9.在本技术的一种实现方式中，基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库，具体包括：基于语义泛化后的词语与预设核心语料库中的词
语，确定出第一核心词语；确定语义泛化后的词语与第一核心词语之间的相似值，以及确定相似值大于第一预设相似值的词语的数量；在大于第一预设相似值的词语的数量，符合第一预设词语选择条件时，将相似值对应的词语组成一级泛化词库。
10.在本技术的一种实现方式中，基于文本信息的数量对一级泛化词库中的词语进行筛选，具体包括：确定一级泛化词库中，各词语分别对应的检索出的文本信息的数量，并将文本信息的数量作为各词语对应的反权重系数；在任一词语对应的文本信息的数量，大于第一预设数量值的情况下，对反权重系数进行调节，以对检索出的文本信息的数量进行调节，并通过调节后的文本信息的数量对一级泛化词库中的词语进行筛选。
11.本技术实施例通过将文本信息的数量作为各词语对应的反权重系数，能够通过调节反权重系数，对当前词语所能检索的文本信息的数量进行调整。从而降低当前研究成果较多的技术领域所对应的文本信息的数量，以提高用户对所需文本信息检索的效率。
12.在本技术的一种实现方式中，对反权重系数进行调节，以对检索出的文本信息的数量进行调节，并通过调节后的文本信息的数量对一级泛化词库中的词语进行筛选，具体包括：减小词语对应的反权重系数，以减少词语对应的检索出的文本信息的数量；对反权重系数进行调整后，重新进行文本信息检索，并在一级泛化词库中的任一词语对应的文本信息的数量，小于第二预设数量值的情况下，将词语进行删除处理。
13.在本技术的一种实现方式中，对二级泛化词库进行语义泛化，并基于第二预设词语选择条件对泛化后的词语进行选择，得到三级泛化词库，具体包括：对二级泛化词库中的词语进行语义泛化，并将语义泛化后出现的重复词语进行剔除；基于剔除后剩余的词语与预设核心语料库中的词语，确定出第二核心词语；确定剩余的词语与第二核心词语之间的相似值，以及确定相似值大于第二预设相似值的词语的数量；在大于第二预设相似值的词语的数量，符合第二预设词语选择条件时，将相似值对应的词语组成三级泛化词库。
14.在本技术的一种实现方式中，基于三级泛化词库进行文本信息检索之后，方法还包括：基于三级泛化词库中的词语，确定相应的第二技术领域，并基于预设文本语料库，确定第二技术领域对应的参考词语；其中，第二技术领域为第一技术领域的任一子领域；预设文本语料库包括有多个参考词语以及多个词语分别对应的领域类别；获取三级泛化词库对应的检索出的文本信息，并确定出文本信息中的参考词语；将文本信息中的参考词语，与第二技术领域对应的参考词语进行比对，确定文本信息中的参考词语分别对应的领域类别；通过文本信息中的参考词语分别对应的领域类别，对检索出的文本信息进行分类。
15.本技术实施例通过检索出的文本信息对应的参考词语，对检索出的多个文本信息进行分类处理，从而将当前技术领域所对应的多个文本信息根据子领域进行分类，方便用户对所需技术领域的文本信息进行分析，提高用户检索的效率。
16.在本技术的一种实现方式中，通过文本信息中的参考词语分别对应的领域类别，对检索出的文本信息进行分类，具体包括：对每一个文本信息中的参考词语进行数量统计，并按照数量从多至少的顺序对参考词语进行排序；获取序列号小于预设序列号的多个参考词语，并确定多个参考词语分别对应的领域类别，以将数量最多的参考词语所对应的领域类别，作为当前文本信息的领域类别；将领域类别相同的文本信息进行聚类，以实现对检索出的文本信息的分类。
17.在本技术的一种实现方式中，对种子词库进行语义泛化，具体包括：通过预先训练
的语言模型对多个样本词语进行向量化计算，得到多个特征向量；对多个特征向量中的每两个特征向量之间的关联度进行计算，以根据关联度构建概念树；基于概念树对种子词库进行语义泛化。
18.在本技术的一种实现方式中，基于概念树对种子词库进行语义泛化，具体包括：对种子词库中的词语进行向量化计算，获得分词向量；在概念树中筛选出与分词向量的关联度超过预设关联度阈值的词语向量，并获取词语向量对应的相似词语，以通过相似词语对种子词库进行语义泛化。
19.本技术实施例提供一种文本信息检索设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：根据待检索文本信息的所属第一技术领域，确定多个词语，并基于多个词语构建种子词库；对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库；基于一级泛化词库进行文本信息检索，确定一级泛化词库中各词语分别对应的文本信息的数量，并基于文本信息的数量对一级泛化词库中的词语进行筛选，得到二级泛化词库；对二级泛化词库进行语义泛化，并基于第二预设词语选择条件对泛化后的词语进行筛选，得到三级泛化词库，以基于三级泛化词库进行文本信息检索。
20.本技术实施例采用的上述至少一个技术方案能够达到以下有益效果：本技术实施例通过对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库。能够根据泛化后的词语进行文本信息检索，从而扩大检索范围，使检索到的文本更加全面。其次，本技术实施例基于文本信息的数量对一级泛化词库中的词语进行筛选，从而将数量较少的文本信息进行删除，解决因词语不准确而导致的文本信息不准确的问题。此外，本技术实施例还对二级泛化词库进行语义泛化，从而将确定出的当前领域的文本信息所对应的词语进一步扩充，从而增加获取到的当前技术领域的文本信息的数量，使得获取到的当前技术领域的内容更加全面。本技术实施例通过对词库不断优化，可以不断提高检索出的文本信息的精确度，进而提高检索效率。
附图说明
21.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附
22.图中：
23.图1为本技术实施例提供的一种文本信息检索方法流程图；
24.图2为本技术实施例提供的一种文本信息检索设备的结构示意图。
具体实施方式
25.本技术实施例提供一种文本信息检索方法及设备。
26.为了使本技术领域的人员更好地理解本技术中的技术方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施
例仅仅是本技术一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本技术保护的范围。
27.在科学研究的过程中，文本信息检索是一个重要的步骤。例如，在对当前课题进行研究之前，需要对文献、论文以及专利等文本信息进行检索，以对当前待研究的问题进行查重。
28.通过查重可以使企业明晰现阶段科研动态、避免重复开发与资金浪费的问题，对企业而言功劳甚大。据不完全统计，各国因未查阅论文、专利等文献，以致使研究课题失去价值而造成的损失数以十亿计，间接损失就更多了。因此，文本信息的检索对于企业的成长，对于全球生产力的节省与提高，具有举足轻重的作用。
29.但是目前文本信息检索的常规方式主要以对待检索文本信息的描述信息进行直接匹配查找，其检索效率较低，同时也很难达到用户满意的检索效果。
30.为了解决上述问题，本技术实施例提供一种文本信息检索方法及设备。通过对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库。能够根据泛化后的词语进行文本信息检索，从而扩大检索范围，使检索到的文本更加全面。其次，本技术实施例基于文本信息的数量对一级泛化词库中的词语进行筛选，从而将数量较少的文本信息进行删除，解决因词语不准确而导致的文本信息不准确的问题。此外，本技术实施例还对二级泛化词库进行语义泛化，从而将确定出的当前领域的文本信息所对应的词语进一步扩充，从而增加获取到的当前技术领域的文本信息的数量，使得获取到的当前技术领域的内容更加全面。本技术实施例通过对词库不断优化，可以不断提高检索出的文本信息的精确度，进而提高检索效率。
31.下面通过附图对本技术实施例提出的技术方案进行详细的说明。
32.图1为本技术实施例提供的一种文本信息检索方法流程图。如图1所示，文本信息检索方法包括如下步骤：
33.s101、文本信息检索设备根据待检索文本信息的所属第一技术领域，确定多个词语，并基于多个词语构建种子词库。
34.在本技术的一个实施例中，文本信息检索设备根据用户需要检索的第一技术领域，确定出多个词语，并根据确定出的词语构建种子词库。
35.例如，用户若想对房地产销售领域的文本信息进行检索，在用户输入房地产销售领域后，根据当前领域对应的数据信息，生成销售额、销售总额、房地产、地产、楼市、房产、价格等词语，并根据生成的词语构建种子词库。
36.s102、文本信息检索设备对种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库。
37.在本技术的一个实施例中，通过预先训练的语言模型对多个样本词语进行向量化计算，得到多个特征向量。对多个特征向量中的每两个特征向量之间的关联度进行计算，以根据关联度构建概念树。基于概念树对种子词库进行语义泛化。
38.具体地，首先需要获取多个样本词语。例如，可以获取文本语料，并基于语法和规则的分词法对文本语料进行分词，获得多个词语。也可以基于机械式分词法(即词典)对文本语料进行分词，获得多个词语。
39.进一步地，对多个词语的每个词语进行向量化计算，获得多个特征向量。例如，可以获取预训练语言模型，并利用预训练语言模型对多个词语的每个词语进行向量化计算。其中，此处的预训练语言模型可以包括，自回归语言模型或者自编码语言模型。以及，可以使用的预训练语义模型可以为glove、word2vec和fasttext等模型。此外，也可以获取训练后的双trinet模型，并使用训练后的双trinet模型对多个词语的每个词语进行向量化计算。计算多个特征向量中的每两个特征向量之间的关联度或相似度，并根据该关联度或相似度构建概念树。
40.在本技术的一个实施例中，对种子词库中的词语进行向量化计算，获得分词向量。在概念树中筛选出与分词向量的关联度超过预设关联度阈值的词语向量，并获取词语向量对应的相似词语，以通过相似词语对种子词库进行语义泛化。
41.具体地，同样可以使用预训练语言模型，对种子词库中的词语进行向量化计算，以获得每个词语分别对应的分词向量。将每个词语对应的分词向量分别与概念树中的词语向量进行关联度计算，即对两者之间的相似度进行计算。在概念树中确定出相似度大于预设关联度阈值的词语向量，并根据该词语向量在概念树中确定出相对应的词语，以将该词语作为种子词库中对应的相似词语，并通过获取到的多个相似词语对该种子词库进行语义泛化。
42.在本技术的一个实施例中，基于语义泛化后的词语与预设核心语料库中的词语，确定出第一核心词语。确定语义泛化后的词语与第一核心词语之间的相似值，以及确定相似值大于第一预设相似值的词语的数量。在大于第一预设相似值的词语的数量，符合第一预设词语选择条件时，将相似值对应的词语组成一级泛化词库。
43.具体的，将语义泛化后的词语与预设核心语料库中的词语进行比对，将与该预设核心语料库相同的词语作为第一核心词语。并计算语义泛化后的词语与第一核心词语之间的相似值。例如，可以通过ontology或taxonomy进行相似值计算，基于同义词词典，所有词组织在一棵或几棵树结构中，两个节点的路径长度即可作为语义距离，通过语义距离即可计算出不同词语之间的相似值。
44.进一步地，计算出语义泛化后的词语与第一核心词语之间的相似值，将计算出的相似值与第一预设相似值进行比对，以获取大于第一预设相似值的词语的数量。例如，可以将第一预设相似值设定为0.5，获取相似值大于0.5的词语的数量，当数量大于或等于50时，说明当前词语符合第一预设词语选择条件。即，将相似值大于0.5的词语组成一级泛化词库。
45.需要说明的是，本技术实施例优选将第一预设相似值设定为0.5，但并不仅仅限定与0.5，在应用中，可以根据实际情况对该第一预设相似值进行调整。以及，本技术实施例优选将数量值设定为50，但并不仅仅限定为50，在应用中，可以根据实际情况对该数量值进行调整。
46.s103、文本信息检索设备基于一级泛化词库进行文本信息检索，确定一级泛化词库中各词语分别对应的文本信息的数量，并基于文本信息的数量对一级泛化词库中的词语进行筛选，得到二级泛化词库。
47.在本技术的一个实施例中，基于一级泛化词库与检索系统进行自动交互，通过一级泛化词库中的词语在检索系统中进行文本信息检索。并获取每个词语分别对应的文本信
息的数量。
48.在本技术的一个实施例中，确定一级泛化词库中，各词语分别对应的检索出的文本信息的数量，并将文本信息的数量作为各词语对应的反权重系数。在任一词语对应的文本信息的数量，大于第一预设数量值的情况下，对反权重系数进行调节，以对检索出的文本信息的数量进行调节，并通过调节后的文本信息的数量对一级泛化词库中的词语进行筛选。
49.具体地，将一级泛化词库中每个词语分别对的文本信息的数量，作为该词语的反权重系数。数量越多，则说明该词语对应的技术领域内容热度较高，研发成果较多。此时为了避免出现重复研究的现象，尽量可以得到研究热度不是特别高的技术领域对应的文本信息，可以降低该词语对应的反权重系数，从而降低该词语对应的可以检索出的文本信息数的数量，以尽量避免该热度较高的技术领域的文本信息出现。
50.例如，一级泛化词库中的任一词语所检索出的文本信息的数量达到了1000，此时已经达到了第一预设数量值。则该词语对应的技术领域的研究热度较高，因此为了避免出现重复研究的问题，可以降低该词语对应的反权重系数，从而可以尽量降低该领域文本信息的出现，使得用户可以获得更多研究热度不是特别高的技术领域的文本信息。
51.在本技术的一个实施例中，减小词语对应的反权重系数，以减少词语对应的检索出的文本信息的数量。对反权重系数进行调整后，重新进行文本信息检索，并在一级泛化词库中的任一词语对应的文本信息的数量，小于第二预设数量值的情况下，将词语进行删除处理。
52.具体地，在对反权重系数进行调整后，重新根据一级泛化词库中的词语进行检索，由于已经对一个或多个词语的反权重系数进行更改，因此，重新检索出的文本信息的数量会出现变化。此时确定出文本信息的数量小于第二预设数量值的词语，例如，数量值可以设定为10。将文本信息的数量小于10的词语进行删除，以对一级泛化词库进行筛选，得到二级泛化词库。
53.本技术实施例通过减小词语对应的反权重系数，可以减少该词语对应的检索出的文本信息的数量，从而降低检索出的热度较高的技术领域所对应的文本信息的数量。进而降低重复研究同一课题的风险，方便用户更加便捷的获取自己所需的文本信息资料。
54.需要说明的是，本技术实施例优选将数量值设定为10，但并不仅仅限定为10。在应用中，可以根据实际情况对数量值进行调整。
55.s104、文本信息检索设备对二级泛化词库进行语义泛化，并基于第二预设词语选择条件对泛化后的词语进行筛选，得到三级泛化词库，以基于三级泛化词库进行文本信息检索。
56.在本技术的一个实施例中，对二级泛化词库中的词语进行语义泛化，并将语义泛化后出现的重复词语进行剔除。基于剔除后剩余的词语与预设核心语料库中的词语，确定出第二核心词语。确定剩余的词语与第二核心词语之间的相似值，以及确定相似值大于第二预设相似值的词语的数量。在大于第二预设相似值的词语的数量，符合第二预设词语选择条件时，将相似值对应的词语组成三级泛化词库。
57.具体地，二级泛化词库中中热度较高的技术领域所对应的词语已经删除，因此，二级泛化词库中的词语所对应的技术领域方向已经得到进一步缩小。基于预先构建的概念
树，对二级泛化词库中的词语进行语义泛化。并确定出语义泛化后的重复词语，将其进行删除处理。
58.进一步地，将二级泛化词库中的剩余的词语与预设核心语料库中的词语进行比对，确定出第二核心词语。同样可以通过ontology或taxonomy进行相似值计算，得到剩余的词语与第二核心词语之间的相似值。并同时获取相似值大于第二预设相似值的词语的数量。例如，可以将第二预设相似值设定为0.7，获取相似值大于0.7的词语的数量，当数量不大于10时，说明当前词语符合第二预设词语选择条件。即，将相似值大于0.7的词语组成三级泛化词库。若相似值大于0.7的词语的数量大于10个，此时可以提高预设第二相似值，以减小三级泛化词库中词语的数量。
59.在本技术的一个实施例中，基于三级泛化词库中的词语，确定相应的第二技术领域，并基于预设文本语料库，确定第二技术领域对应的参考词语。其中，第二技术领域为第一技术领域的任一子领域。预设文本语料库包括有多个参考词语以及多个词语分别对应的领域类别。获取三级泛化词库对应的检索出的文本信息，并确定出文本信息中的参考词语。将文本信息中的参考词语，与第二技术领域对应的参考词语进行比对，确定文本信息中的参考词语分别对应的领域类别。通过文本信息中的参考词语分别对应的领域类别，对检索出的文本信息进行分类。
60.具体地，根据三级泛化词库中的词语，可以确定出属于第一技术领域的哪些第二技术领域，即子领域，从而缩小文本信息检索的范围。例如，可以将三级泛化词库中的词语与预设数据库进行比对，以确定三级泛化词库中的词语所属的第二技术领域。其中，预设数据库中包含有多个技术领域分别对应的词语，以及各技术领域的所属子领域分别对应的多个词语。以及，基于预设文本语料库，确定第二技术领域对应的参考词语。对三级泛化词库中的每一个词语对应的文本信息进行参考词语查询，并将查询到的参考词语与第二技术领域所对应的参考词语进行比对，以实现对检索出的文本信息的分类。
61.在本技术的一个实施例中，对每一个文本信息中的参考词语进行数量统计，并按照数量从多至少的顺序对参考词语进行排序。获取序列号小于预设序列号的多个参考词语，并确定多个参考词语分别对应的领域类别，以将数量最多的参考词语所对应的领域类别，作为当前文本信息的领域类别。将领域类别相同的文本信息进行聚类，以实现对检索出的文本信息的分类。
62.具体地，将检索出的每一个文本信息中的参考词语进行数量统计，并统计出相同参考词语的数量，以根据数量多少，对同一文本信息中的参考词语进行排序。获取数量值排序靠前的参考词语，即，出现次数较多的参考词语。并确定出现次数较多的参考词语所对应的领域类别，即，将第二技术领域再次进行领域划分，以确定参考词语对应的划分后的技术领域。统计出每一个划分后的技术领域分别对应的参考词语的数量，并将参考词语的数量最多的领域作为该文本信息的所属技术领域。通过上述方法，对检索出的所有文本信息进行领域确定，从而实现对文本信息的分类。方便用户对不同领域的文本信息进行分析处理。
63.图2为本技术实施例提供的一种文本信息检索设备的结构示意图。如图2所示，文本信息检索设备，包括：
64.至少一个处理器；以及，
65.与所述至少一个处理器通信连接的存储器；其中，
66.所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：
67.根据待检索文本信息的所属第一技术领域，确定多个词语，并基于所述多个词语构建种子词库；
68.对所述种子词库进行语义泛化，并基于第一预设词语选择条件对语义泛化后的词语进行筛选，得到一级泛化词库；
69.基于所述一级泛化词库进行文本信息检索，确定所述一级泛化词库中各词语分别对应的文本信息的数量，并基于所述文本信息的数量对所述一级泛化词库中的词语进行筛选，得到二级泛化词库；
70.对所述二级泛化词库进行语义泛化，并基于第二预设词语选择条件对泛化后的词语进行筛选，得到三级泛化词库，以基于所述三级泛化词库进行文本信息检索。
71.本技术中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、非易失性计算机存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
72.上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
73.以上所述仅为本技术的实施例而已，并不用于限制本技术。对于本领域技术人员来说，本技术的实施例可以有各种更改和变化。凡在本技术实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本技术的权利要求范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：缺陷检测方法、装置、设备及存储介质与流程

一种文本信息检索方法及设备与流程

相关文献

最热文献