小数据集的信息检索方法及系统与流程

2022-10-29 06:15:51 来源：中国专利 TAG：

1.本发明涉及信息检索技术领域，尤其涉及一种小数据集的信息检索方法及系统。

背景技术：

2.随着信息时代的到来，互联网上的信息也越来越丰富，对信息检索的需求也越来越高。信息检索从最开始为专业人员打造的系统变成了普通人也要经常使用的工具，现代的信息检索技术向着速度更快，检索结果更准确，交互更人性化发展。
3.现有信息检索技术主要分为三类：
4.第一类：基于概率模型的信息检索，该检索模型是一种基于贝叶斯理论和伯努利分布的概率模型。该模型的核心思想与伯努利朴素贝叶斯模型类似，认定某一词汇的出现与未出现均影响最终的检索结果。该模型计算在当前检索请求的基础上，某一文章/网页其相关的概率高还是不相关的概率高并根据比值进行排序，输出概率最高的结果。
5.第二类：基于向量空间模型的信息检索，该检索模型是一种在网页检索中常用的模型。
6.第三类：基于语言模型的信息检索，该检索模型是一种基于条件概率与链式规则的模型。该模型的核心思想为计算某一特定顺序下的词汇链在文章中的出现概率，并依据概率的高低对检索结果进行排序并输出。
7.现有技术存在如下缺点：概率模型不仅检索速度慢，检索结果也相对较差，基本上没有在任何应用场景有过较好的表现。向量空间模型和语言模型两者都很难处理小数据集下的信息检索。

技术实现要素：

8.本发明提供的小数据集的信息检索方法及系统，用于解决现有技术中无论是那种信息检索模型，都是基于大量数据集的基础上进行检索，缺乏对小数据集的信息检索的问题，实现了对小数据集下的信息检索，并通过得到的余弦相似度与最佳相似度阈值对得到的备选检索结果进行筛选，提升了小数据集下的检索准确率。
9.本发明提供的一种小数据集的信息检索方法，包括：
10.获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
11.获取所述第一向量空间与所述第二向量空间的余弦相似度，并根据所述余弦相似度获取预设数量个备选检索结果；
12.根据所述余弦相似度和最佳相似度阈值，从所述预设数量个备选检索结果中获取所述目标查询语句对应的至少一个目标检索结果。
13.根据本发明提供的一种小数据集的信息检索方法，所述获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间，包括：
14.获取所述目标查询语句中各个词汇的第一tf值和第一idf值；
15.根据所述第一tf值和第一idf值，获取所述目标查询语句中各个词汇的第一权重；
16.根据所述第一权重，获取所述第一向量空间；
17.获取所述目标文献中各个词汇的第二tf值和第二idf值；
18.根据所述第二tf值和idf值，获取所述目标文献中各个词汇的第二权重；
19.根据所述第二权重，获取所述第二向量空间。
20.根据本发明提供的一种小数据集的信息检索方法，所述待检索小数据集中的目标文献通过如下方式获取：
21.按照预设拆分规则将所述待检索小数据集中的所有文献拆分，并对拆分后获取的每一文献编号；
22.将所有文献的所有词汇去重抽取；
23.根据去重抽取后的所有文献中所有词汇的频次和所有词汇所在的文献编号，按照倒排索引的方法以跳表型数据结构对去重抽取后的所有文献的所有词汇进行存储，以获取所有文献对应的跳表；
24.将所述目标查询语句中的各个词汇放入所述跳表中查询，统计出包含所述目标查询语句中的任一词汇的文献，并将所述包含所述目标查询语句中的任一词汇的文献作为目标文献。
25.根据本发明提供的一种小数据集的信息检索方法，所述最佳相似度阈值通过如下方式获取：
26.将测试集样本输入至训练好的机器学习模型，以获取所述最佳相似度阈值；
27.其中，所述测试集样本包括第一预设比例的余弦相似度。
28.根据本发明提供的一种小数据集的信息检索方法，所述训练好的机器学习模型通过如下方式获取：
29.将训练集样本和训练标签输入至预设机器学习模型进行训练，以获取训练好的机器学习模型；
30.其中，所述训练集样本包括第二预设比例的余弦相似度；
31.所述训练标签为用户对与所述第二预设比例的余弦相似度对应的备选检索结果的反馈记录。
32.根据本发明提供的一种小数据集的信息检索方法，所述第一if值、所述第一idf值、所述第二if值和所述第二idf值均以哈希表的形式进行存储。
33.根据本发明提供的一种小数据集的信息检索方法，还包括：
34.根据用户对所述目标检索结果的反馈记录，对所述第一idf值进行更新：
35.若所述反馈记录表明所述目标检索结果正确，则按照预设倍增规则增加所述第一idf值；
36.若所述反馈记录表明所述目标检索结果错误，则按照预设倍减规则减少所述第一idf值。
37.本发明还提供一种小数据集的信息检索系统，包括：数据获取模块、第一检索模块和第二检索模块；
38.所述数据获取模块，用于获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
39.所述第一检索模块，用于获取所述第一向量空间与所述第二向量空间的余弦相似度，并根据所述余弦相似度获取预设数量个备选检索结果；
40.所述第二检索模块，用于根据所述余弦相似度和最佳相似度阈值，从所述预设数量个备选检索结果中获取所述目标查询语句对应的至少一个目标检索结果。
41.本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述小数据集的信息检索方法的步骤。
42.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述小数据集的信息检索方法的步骤。
43.本发明提供的小数据集的信息检索方法及系统，解决了现有技术中，无论是那种信息检索模型，都是基于大量数据集的基础上进行检索，缺乏对小数据集的信息检索的问题，实现了对小数据集下的信息检索，并通过得到的余弦相似度与最佳相似度阈值对得到的备选检索结果进行筛选，提升了小数据集下的检索准确率。
附图说明
44.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
45.图1是本发明提供的小数据集的信息检索方法的流程示意图；
46.图2是本发明提供的小数据集的信息检索方法的信息检索模型提升示意图；
47.图3是本发明提供的小数据集的信息检索系统的结构示意图；
48.图4是本发明提供的电子设备的实体结构示意图。
具体实施方式
49.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
50.以向量空间模型为例，在对小数据集下的文献进行信息检索，例如在某一本介绍花卉的书中查询“蓝色的花是什么？”，由于一般的书籍以及文章多为第三人称叙事的写法，书中的疑问词如“什么”，“如何”，“怎么”的出现频率会很低，反映到向量空间模型中的结果则是这类疑问词的权重会很高，并最终导致检索结果会返回一个问句作为回答。
51.诚然，对于疑问词影响检索结果可以使用各种方法去除，但是类似于这样的问题在小数据集当中是无法避免的，而使用人力一一去除是不现实的。基于此，本发明提供了一种小数据集的信息检索方法，可以用于所有使用“词汇稀有度”思想的检索模型上，例如语言模型与概率模型，且与模型其他模块不冲突。同时，利用jieba等开源中文分词工具可以做到在中文环境下的信息检索。具体实现如下：
52.图1是本发明提供的小数据集的信息检索方法的流程示意图，如图1所示，方法包
括：
53.s1、获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
54.s2、获取第一向量空间与第二向量空间的余弦相似度，并根据余弦相似度获取预设数量个备选检索结果；
55.s3、根据余弦相似度和最佳相似度阈值，从预设数量个备选检索结果中获取目标查询语句对应的至少一个目标检索结果。
56.需要说明的是，上述方法的执行主体可以是计算机设备。
57.可选地，根据接收到的目标查询语句得到其对应的第一向量空间。首先，对目标查询语句按照tf-idf(term frequency
–
inverse document frequency)的方式进行处理，得到目标查询语句各个词汇相对应的第一向量空间；然后，找到待检索小数据集下的目标文献，并按照同样的tf-idf的方式对待检索小数据集下的目标文献进行处理，得到目标文献对应的第二向量空间。
58.例如，在某一种介绍花卉的书籍中查询“蓝色的花是什么？”，可以首先通过tf-idf的处理方式得到“蓝色的花是什么？”的第一向量空间，然后在该书籍中选取对应的目标文献，例如，可以按照章节对该书籍进行划分，找到出现过“蓝色的花是什么”中各个词汇的章节，并将其作为该书籍的目标文献，然后，按照tf-idf的方式进行处理得到该目标文献的第二向量空间。
59.根据得到的目标查询语句的第一向量空间与目标文献对应的第二向量空间，使用l2正规化后的向量计算查询语句对应的向量空间与目标文献对应的向量空间的余弦相似度，得到第一向量空间与第二向量空间的余弦相似度：
[0060][0061]
其中，代表目标查询语句的第一向量空间，代表目标文献的第二向量空间，qi代表向量中的元素，di代表向量的元素，v代表向量和中的元素个数。
[0062]
根据上述公式计算得到第一向量空间与第二向量空间的余弦相似度后，可以按照余弦相似度的高低进行排序，返回预设数量个最优的备选检索结果。然后根据余弦相似度和最佳相似度阈值对得到的预设数量个备选检索结果进行筛选，最终得到目标查询语句对应的一个或者多个目标检索结果。如将余弦相似度大于最佳相似度阈值的备选检索结果作为目标检索结果返回。
[0063]
本发明提供的小数据集的信息检索方法，解决了现有技术中，无论是那种信息检索模型，都是基于大量数据集的基础上进行检索，缺乏对小数据集的信息检索的问题，实现了对小数据集下的信息检索，并通过得到的余弦相似度与最佳相似度阈值对得到的备选检索结果进行筛选，提升了小数据集下的检索准确率。
[0064]
进一步地，在一个实施例中，步骤s1可以具体包括：
[0065]
s11、获取目标查询语句中各个词汇的第一tf值和第一idf值；
[0066]
s12、根据第一tf值和第一idf值，获取目标查询语句中各个词汇的第一权重；
[0067]
s13、根据第一权重，获取第一向量空间；
[0068]
s14、获取目标文献中各个词汇的第二tf值和第二idf值；
[0069]
s15、根据第二tf值和idf值，获取目标文献中各个词汇的第二权重；
[0070]
s16、根据第二权重，获取第二向量空间。
[0071]
可选地，本发明提供的小数据集的信息检索方法，获取目标文献中各个词汇的tf值和idf值以及获取目标查询语句中的tf值和idf值均是通过tf-idf的方式得到的，具体如下：
[0072]
根据如下公式计算获取目标查询语句中对应的各个词汇的tf值：
[0073][0074]
其中，tf1代表目标查询语句的tf值，tf
t,d1
代表目标查询语句中某一词汇出现的次数。
[0075]
然后根据如下公式计算得到目标查询语句的idf值：
[0076][0077]
其中，idf1代表目标查询语句的idf值，df1代表目标查询语句中某一词汇在目标文献中的出现次数，n代表目标文献的总个数。
[0078]
根据目标查询语句的tf值和idf值，基于如下公式计算得到目标查询语句中各个词汇的第一权重w1：
[0079]
w1＝(1 log
10
tf
t,d
)
×
log
10
(n/df1)
[0080]
根据如下公式计算获取目标文献中对应的各个词汇的tf值：
[0081][0082]
其中，tf2代表目标查询语句的tf值，tf
′
t,d
代表目标文献中某一词汇出现的次数。
[0083]
然后根据如下公式计算得到目标文献的idf值：
[0084][0085]
其中，idf2代表目标文献的idf值，df2代表目标查询语句中某一词汇在目标文献中的出现次数，n代表目标文献的总个数。
[0086]
根据目标文献的tf值和idf值，基于如下公式计算得到目标文献中各个词汇的第二权重w2：
[0087]
w2＝(1 log
10
tf2)
×
log
10
(n/df2)
[0088]
本发明提供的小数据集的信息检索方法，预先将目标文献和查询语句均以tf-idf的方式进行映射得到其对应的向量空间，区别于现有技术中对于小数据集的处理方式多是通过data augmentation的形式得到更多重复数据以提高准确率，为后续通过改动idf值提升信息检索的准确率奠定了理论基础，同时可以单独使用也可以混合dataaugmentation进
行使用，针对小数据集具有普适性。
[0089]
进一步地，在一个实施例中，步骤s1中待检索小数据集中的目标文献通过如下方式获取：
[0090]
步骤a、按照预设拆分规则将待检索小数据集中的所有文献拆分，并对拆分后获取的每一文献编号；
[0091]
步骤b、将所有文献的所有词汇去重抽取；
[0092]
步骤c、根据去重抽取后的所有文献中所有词汇的频次和所有词汇所在的文献编号，按照倒排索引的方法以跳表型数据结构对去重抽取后的所有文献的所有词汇进行存储，以获取所有文献对应的跳表；
[0093]
步骤d、将目标查询语句中的各个词汇放入跳表中查询，统计出包含目标查询语句中的任一词汇的文献，并将包含目标查询语句中的任一词汇的文献作为目标文献。
[0094]
可选地，首先确定进行信息检索的小数据集，按照预设拆分规则将待检索小数据集中的所有文献拆分，并对拆分后获取的每一文献编号得到各个文献对应的文献id。然后将所有文献的包括的所有词汇去重抽取。最后根据去重抽取后的所有文献中所有词汇的频次和所有词汇所在的文献编号，按照倒排索引的方法以跳表型数据结构对去重抽取后的所有文献的所有词汇进行存储，以获取所有文献对应的跳表。
[0095]
例如，以一本书的数据量为例，将书籍按照章节拆分，并为拆分后得到的每一章节打上编号，得到章节id。对整本书每一章节的所有词汇进行去重抽取并按照倒排索引的方法以跳表型数据结构对所有词汇进行存储。其中，词汇与章节id可以按照升序或降序进行排列。
[0096]
如一本书一共有两章，第一章内容为“it is a title.”，第二章内容为“this is content.”。通过上述处理，可以得到该书对应按照倒排索引以跳表型数据结构进行存储的跳表，具体如表一所示：
[0097]
表一：
[0098][0099]
将目标查询语句中的各个词汇放入得到的跳表中查询，统计出包含目标查询语句
中的任一词汇的章节，并将包含目标查询语句中的任一词汇的章节作为目标文献，具体可以将查询语句中的各个词汇放入倒排索引的跳表中查找对应的章节id，并按照查找到的章节id遍历所有可能是检索结果的章节，并将其作为目标文献。
[0100]
基于上述tf-idf计算得到目标查询语句的第一向量空间，以“what is the content？”为例，通过对该目标查询语句进行tf-idf处理，得到该查询语句各个词汇对应的tf值、idf值以及权重，具体如表二所示，然后根据该目标查询语句的权重得到该目标查询语句对应的第一向量空间为[0.301,0,0,0]。
[0101]
表二
[0102]
词汇tfidfw(权重)content10.3010.301is100the100what100
[0103]
本发明提供的小数据集的信息检索方法，采用倒排索引的跳表型数据结构进行存储，提高了信息检索的速度。
[0104]
进一步地，在一个实施例中，步骤s3中最佳相似度阈值通过如下方式获取：
[0105]
步骤e、将测试集样本输入至训练好的机器学习模型，以获取最佳相似度阈值；
[0106]
其中，测试集样本包括第一预设比例的余弦相似度。
[0107]
可选地，将根据上述方法得到的目标查询语句的第一向量空间与目标文献的第二向量空间的余弦相似度的一部分作为训练集样本，另一部分作为测试集样本，例如，将20％的第一向量空间与第二向量空间的余弦相似度数据作为测试集样本，并将测试集样本输入至训练好的机器学习模型，以生成最佳相似度阈值。
[0108]
本发明提供的小数据集的信息检索方法，使用机器学习模型选出一个最佳的相似度阈值，该阈值会被使用在信息检索的结果返回上，进一步提高了小数据集下的信息检索的准确度与可靠度。
[0109]
进一步地，在一个实施例中，步骤e中训练好的机器学习模型通过如下方式获取：
[0110]
步骤e1、将训练集样本和训练标签输入至预设机器学习模型进行训练，以获取训练好的机器学习模型；
[0111]
其中，训练集样本包括第二预设比例的余弦相似度；
[0112]
训练标签为用户对与第二预设比例的余弦相似度对应的备选检索结果的反馈记录。
[0113]
可选地，根据上述方法得到的目标查询语句的第一向量空间与目标文献的第二向量空间的余弦相似度中的一部分数据例如80％的余弦相似度数据作为训练集样本，并将用户关于训练集样本对应的备选检索结果的反馈进行记录，得到用户对于训练集样本的备选检索结果的反馈记录，并将反馈记录作为训练标签与训练集样本一并输入至预设机器学习模型进行训练，并获取余弦相似度与最佳相似度阈值之间的差异，然后根据差异调整预设机器学习模型中的模型参数，直至差异符合预设的训练结束条件，将最后一次调整模型参数后的预设机器学习模型确定为训练好的机器学习模型。
[0114]
其中，用户对于备选检索结果的反馈记录包括正反馈和负反馈，正反馈代表备选
检索结果正确，负反馈代表备选检索结果错误。
[0115]
预设机器学习模型可以具体为svm支持向量机或决策树或逻辑回归模型等。
[0116]
本发明提供的小数据集的信息检索方法，根据用户的反馈结果可以对机器学习模型得到的最佳相似度阈值进行调整，在日后运维当中可以更好地了解模型与算法的实时状态，与传统信息检索运维方式相比，本方案的运维方式更人性化。
[0117]
进一步地，在一个实施例中，第一if值、第一idf值、第二if值和第二idf值均以哈希表的形式进行存储。
[0118]
可选地，为了更好地实现对信息检索模型进行提升，需要对数据存储方式进行改造。哈希表在低数据量下查询速度接近o(1)，十分契合本发明所针对的小数据集业务场景。因此，与传统实时计算的方法不同，将目标查询语句中不同词汇的if值和idf值以及将目标文献中不同词汇的if值和idf值以哈希表的形式进行存储，可大大加快检索速度。
[0119]
本发明提供的小数据集的信息检索方法，通过将不同词汇的idf值以哈希表的形式进行存储，完美契合小数据集下的业务场景，加快了信息检索速度。
[0120]
进一步地，在一个实施例中，本发明提供的小数据集的信息检索方法，还可以具体包括：
[0121]
s4、根据用户对目标检索结果的反馈记录，对第一idf值进行更新：
[0122]
若反馈记录表明目标检索结果正确，则按照预设倍增规则增加第一idf值；
[0123]
若反馈记录表明目标检索结果错误，则按照预设倍减规则减少第一idf值。
[0124]
可选地，如图2所示，是本发明提供的小数据集的信息检索方法的信息检索模型提升示意图，第一步，按照上述方法得到余弦相似度之后将用户对于目标检索结果的反馈记录并存储下来。每记录n(例如100)条便对记录结果进行分析，使用训练好机器学习模型选出一个最佳的相似度阈值。该阈值会被使用在信息检索的结果返回上，即只有余弦相似度大于阈值的结果才会被返回，以返回表现更好的结果。第二步，针对用户对于目标检索结果的反馈记录，使用winnow2算法的思想对预先计算的idf值进行更改，核心思想为对idf值进行快速变换，根据用户对目标检索结果的反馈记录对所有相关词汇idf值进行下降或上升，具体地：
[0125]
若反馈记录表明目标检索结果(d1,...,dn)正确，则按照预设倍增规则增加第一idf值；
[0126]
若反馈记录表明目标检索结果(d1,...,dn)错误，则按照预设倍减规则减少第一idf值。
[0127]
下面为基于winnow2思想对相关词汇idf值进行下降或上升的部分代码：
[0128][0129]
本发明提供的小数据集的信息检索方法，针对用户反馈结果使用winnow2算法的思想对预先计算的idf值进行更改，根据用户反馈的结果对所有相关词汇idf值进行下降或上升，对词汇置信度进行快速修正，提升小数据集下的检索准确率。
[0130]
下面对本发明提供的小数据集的信息检索系统进行描述，下文描述的小数据集的信息检索系统与上文描述的小数据集的信息检索方法可相互对应参照。
[0131]
图3是本发明提供的小数据集的信息检索系统的结构示意图，如图3所示，包括：数据获取模块310、第一检索模块311和第二检索模块312；
[0132]
数据获取模块310，用于获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
[0133]
第一检索模块311，用于获取第一向量空间与所述第二向量空间的余弦相似度，并
根据余弦相似度获取预设数量个备选检索结果；
[0134]
第二检索模块312，用于根据余弦相似度和最佳相似度阈值，从所述预设数量个备选检索结果中获取所述目标查询语句对应的至少一个目标检索结果。
[0135]
本发明提供的小数据集的信息检索系统，解决了现有技术中，无论是那种信息检索模型，都是基于大量数据集的基础上进行检索，缺乏对小数据集的信息检索的问题，实现了对小数据集下的信息检索，并通过得到的余弦相似度与最佳相似度阈值对得到的备选检索结果进行筛选，提升了小数据集下的检索准确率。
[0136]
进一步地，在一个实施例中，数据获取模块310，还可以具体包括：第一数据获取子模块和第二数据获取子模块；
[0137]
第一数据获取子模块，用于获取目标查询语句中各个词汇的第一tf值和第一idf值；
[0138]
根据第一tf值和第一idf值，获取目标查询语句中各个词汇的第一权重；
[0139]
根据第一权重，获取第一向量空间；
[0140]
第二数据获取子模块，用于获取目标文献中各个词汇的第二tf值和第二idf值；
[0141]
根据第二tf值和idf值，获取目标文献中各个词汇的第二权重；
[0142]
根据第二权重，获取所述第二向量空间。本发明提供的小数据集的信息检索系统，预先将目标文献和查询语句均以tf-idf的方式进行映射得到其对应的向量空间，区别于现有技术中对于小数据集的处理方式多是通过data augmentation的形式得到更多重复数据以提高准确率，为后续通过改动idf值提升信息检索的准确率奠定了理论基础，同时可以单独使用也可以混合dataaugmentation进行使用，针对小数据集具有普适性。
[0143]
进一步地，在一个实施例中，数据获取模块310还可以用于：
[0144]
按照预设拆分规则将待检索小数据集中的所有文献拆分，并对拆分后获取的每一文献编号；
[0145]
将所有文献的所有词汇去重抽取；
[0146]
根据去重抽取后的所有文献中所有词汇的频次和所有词汇所在的文献编号，按照倒排索引的方法以跳表型数据结构对去重抽取后的所有文献的所有词汇进行存储，以获取所有文献对应的跳表；
[0147]
将目标查询语句中的各个词汇放入跳表中查询，统计出包含目标查询语句中的任一词汇的文献，并将包含目标查询语句中的任一词汇的文献作为目标文献。
[0148]
本发明提供的小数据集的信息检索系统，采用倒排索引的跳表型数据结构进行存储，提高了信息检索的速度。
[0149]
进一步地，在一个实施例中，第二检索模块312可以具体包括：最佳阈值获取子模块，用于将测试集样本输入至训练好的机器学习模型，以获取最佳相似度阈值；
[0150]
其中，测试集样本包括第一预设比例的余弦相似度。
[0151]
本发明提供的小数据集的信息检索系统，使用机器学习模型选出一个最佳的相似度阈值，该阈值会被使用在信息检索的结果返回上，进一步提高了小数据集下的信息检索的准确度与可靠度。
[0152]
进一步地，在一个实施例中，第二检索模块312还可以具体包括：模型训练子模块，用于将训练集样本和训练标签输入至预设机器学习模型进行训练，以获取训练好的机器学
习模型；
[0153]
其中，训练集样本包括第二预设比例的余弦相似度；
[0154]
训练标签为用户对与第二预设比例的余弦相似度对应的备选检索结果的反馈记录。
[0155]
本发明提供的小数据集的信息检索系统，根据用户的反馈结果可以对机器学习模型得到的最佳相似度阈值进行调整，在日后运维当中可以更好地了解模型与算法的实时状态，与传统信息检索运维方式相比，本方案的运维方式更人性化。
[0156]
进一步地，在一个实施例中，数据获取模块310还可以具体包括：数据存储子模块，用于将第一if值、第一idf值、第二if值和第二idf值均以哈希表的形式进行存储。
[0157]
本发明提供的小数据集的信息检索系统，通过将不同词汇的idf值以哈希表的形式进行存储，完美契合小数据集下的业务场景，加快了信息检索速度。
[0158]
进一步地，在一个实施例中，本发明提供的小数据集的信息检索系统，还可以具体包括：数据更新模块，用于根据用户对目标检索结果的反馈记录，对第一idf值进行更新：
[0159]
若反馈记录表明目标检索结果正确，则按照预设倍增规则增加第一idf值；
[0160]
若反馈记录表明目标检索结果错误，则按照预设倍减规则减少第一idf值。
[0161]
本发明提供的小数据集的信息检索系统，针对用户反馈结果使用winnow2算法的思想对预先计算的idf值进行更改，根据用户反馈的结果对所有相关词汇idf值进行下降或上升，对词汇置信度进行快速修正，提升小数据集下的检索准确率。
[0162]
图4是本发明提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(communication interface)411、存储器(memory)412和总线(bus)413，其中，处理器410，通信接口411，存储器412通过总线413完成相互间的通信。处理器410可以调用存储器412中的逻辑指令，以执行如下方法：
[0163]
获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
[0164]
获取第一向量空间与第二向量空间的余弦相似度，并根据余弦相似度获取预设数量个备选检索结果；
[0165]
根据余弦相似度和最佳相似度阈值，从预设数量个备选检索结果中获取目标查询语句对应的至少一个目标检索结果。
[0166]
此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0167]
进一步地，本发明公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的小数据集的信息检索方
法，例如包括：
[0168]
获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
[0169]
获取第一向量空间与第二向量空间的余弦相似度，并根据余弦相似度获取预设数量个备选检索结果；
[0170]
根据余弦相似度和最佳相似度阈值，从预设数量个备选检索结果中获取目标查询语句对应的至少一个目标检索结果。
[0171]
另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的小数据集的信息检索方法，例如包括：
[0172]
获取目标查询语句对应的第一向量空间以及待检索小数据集中的目标文献对应的第二向量空间；
[0173]
获取第一向量空间与第二向量空间的余弦相似度，并根据余弦相似度获取预设数量个备选检索结果；
[0174]
根据余弦相似度和最佳相似度阈值，从预设数量个备选检索结果中获取目标查询语句对应的至少一个目标检索结果。
[0175]
以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0176]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机电源屏(可以是个人计算机，服务器，或者网络电源屏等)执行各个实施例或者实施例的某些部分所述的方法。
[0177]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种点云边界特征自动提取算法计算装置的制作方法

小数据集的信息检索方法及系统与流程

相关文献

最热文献