信息检索方法、装置及计算机可读存储介质与流程

2022-03-16 01:17:57 来源：中国专利 TAG：

1.本发明涉及信息检索领域，具体涉及一种信息检索方法、装置及计算机可读存储介质。

背景技术：

2.信息检索技术是一项重要的技术，广泛应用于搜索引擎，问答系统，推荐系统和其他各种智能服务中。借助更好的信息检索技术，厂商可以准确地了解客户的意图并提供恰当的产品或服务。
3.目前，信息检索的主要方法是基于大规模的神经网络模型判断用户查询与文档的语义相关性。训练大规模神经网络模型需要大量的标注数据，但人工标注的成本很高。相关技术提出基于生成的方法来构建训练用的标注数据。但是，生成的数据通常包含一些噪声，且生成的数据中负样本的相关性不足，影响了信息检索的效果。

技术实现要素：

4.本发明实施例要解决的技术问题是提供一种信息检索方法、装置及计算机可读存储介质，能够提高信息检索结果的准确性，提高信息检索的效率。
5.根据本发明实施例的一个方面，提供了一种信息检索方法，包括：
6.获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
7.清除所述第一训练数据中的噪声，得到第二训练数据；
8.利用所述第二训练数据初始化信息检索模型；
9.利用所述信息检索模型进行信息检索。
10.此外，根据本发明的至少一个实施例，初始化信息检索模型之后，所述方法还包括：
11.通过对抗式查询对所述信息检索模型进行优化。
12.此外，根据本发明的至少一个实施例，所述获取第一训练数据包括：
13.获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；
14.利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；
15.将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。
16.此外，根据本发明的至少一个实施例，所述清除所述第一训练数据中的噪声包括：
17.利用所述第一训练数据初始化噪声分类模型；
18.对所述噪声分类模型进行训练；
19.利用训练后的噪声分类模型清除所述第一训练数据中的噪声。
20.此外，根据本发明的至少一个实施例，所述对所述噪声分类模型进行训练包括：
21.进行n次迭代，得到训练后的噪声分类模型，n为正整数；
22.其中，在每次迭代中，利用所述噪声分类模型清除所述第一训练数据中的噪声，利用清除噪声后的数据训练所述信息检索模型，利用训练后的所述信息检索模型的损失函数更新所述噪声分类模型的参数。
23.此外，根据本发明的至少一个实施例，所述通过对抗式查询对所述信息检索模型进行优化包括：
24.利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；
25.将所述信息检索模型的输出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。
26.此外，根据本发明的至少一个实施例，所述不相关查询生成模型的目标函数包括：
27.所述不相关查询生成模型生成的第二查询指令与查询结果的相关性；
28.所述不相关查询生成模型生成的第二查询指令与第一查询指令的文本相似性。
29.根据本发明实施例的另一方面，提供了一种信息检索装置，包括：
30.获取单元，用于获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
31.噪声清除单元，用于清除所述第一训练数据中的噪声，得到第二训练数据；
32.初始化单元，用于利用所述第二训练数据初始化信息检索模型；
33.信息检索单元，用于利用所述信息检索模型进行信息检索。
34.此外，根据本发明的至少一个实施例，所述装置还包括：
35.优化单元，用于通过对抗式查询对所述信息检索模型进行优化。
36.此外，根据本发明的至少一个实施例，所述获取单元包括：
37.获取子单元，用于获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；
38.第一处理子单元，用于利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；
39.第二处理子单元，用于将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。
40.此外，根据本发明的至少一个实施例，所述噪声清除单元包括：
41.第一初始化子单元，用于利用所述第一训练数据初始化噪声分类模型；
42.训练子单元，用于对所述噪声分类模型进行训练；
43.清除子单元，用于利用训练后的噪声分类模型清除所述第一训练数据中的噪声。
44.此外，根据本发明的至少一个实施例，所述优化单元包括：
45.第二初始化子单元，用于利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；
46.对抗训练子单元，用于将所述信息检索模型的输出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。
47.本发明实施例还提供了一种信息检索装置，包括：存储器、处理器及存储在存储器
上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的信息检索方法的步骤。
48.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的信息检索方法的步骤。
49.与现有技术相比，本发明实施例提供的信息检索方法、装置及计算机可读存储介质，在获取用以训练信息检索模型的第一训练数据之后，并不直接利用第一训练数据生成信息检索模型，而是先清除第一训练数据中的噪声，利用清除噪声后的第二训练数据初始化信息检索模型，能够优化信息检索模型的性能，提高信息检索结果的准确性，提高信息检索的效率。
附图说明
50.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
51.图1为本发明实施例的信息检索方法的流程示意图；
52.图2为本发明实施例获取第一训练数据的流程示意图；
53.图3为本发明实施例清除第一训练数据中的噪声的流程示意图；
54.图4为本发明实施例训练噪声分类模型的示意图；
55.图5为本发明实施例对信息检索模型进行优化的流程示意图；
56.图6为本发明实施例生成不相关查询的示意图；
57.图7为本发明实施例信息检索模型和不相关查询生成模型进行对抗训练的示意图；
58.图8为本发明实施例的信息检索装置的一种结构示意图；
59.图9为本发明实施例的信息检索装置的另一种结构示意图；
60.图10为本发明实施例的获取单元的结构示意图；
61.图11为本发明实施例的噪声清除单元的结构示意图；
62.图12为本发明实施例的优化单元的结构示意图；
63.图13为本发明实施例的信息检索装置的再一种结构示意图。
具体实施方式
64.为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。
65.应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结
构或特性可以任意适合的方式结合在一个或多个实施例中。
66.在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
67.为了解决信息检索系统需要的标注数据量大，人工标注数据成本高的问题，可以用开放数据训练查询数据生成模型，用查询数据生成模型在目标领域的文档上生成查询，之后用生成的查询构建“查询-结果”数据对来训练信息检索模型。
68.但这种方式存在2个问题：一个是生成的数据中存在噪声；另一个则是上述方法中将生成的查询作为相关查询，不相关查询通过随机选取其他文档的查询来构建，不相关查询的数量和质量不能满足要求。而高质量的不相关查询可以有效地提升信息检索系统的效果，其中，高质量的不相关查询指与相关的查询在文字上相似但是与查询结果的内容不相关。例如：查询结果为“iphonex由苹果公司生产”，对应的相关查询为“iphonex的生产厂商是？”，对应的高质量的不相关查询为“iphonex的颜色是？”，而低质量的不相关查询为“特朗普是谁？”。
69.本发明的实施例提供一种信息检索方法、装置及计算机可读存储介质，能够提高信息检索结果的准确性，提高信息检索的效率。
70.实施例一
71.本发明的实施例提供一种信息检索方法，如图1所示，包括：
72.步骤101：获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
73.比如，查询指令为“iphonex的生产厂商是？”，与之对应的查询结果为“iphonex由苹果公司生产”。其中，第一训练数据是特定目标领域的“查询指令-查询结果”数据对。
74.如图2所示，获取第一训练数据包括以下步骤：
75.步骤1011：获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；
76.其中，开放数据可以是网络公开的数据集，也可以从网络上采集得到。例如，问答网站上的“问题-答案”数据可以认为是查询指令和与查询指令对应的查询结果，可以采集“问题-答案”数据作为用以生成查询数据生成模型的训练数据。
77.与第一训练数据不同的是，获取的开放数据不一定是特定目标领域的数据，比如特定目标领域为医学领域，获取的开放数据可能是其他领域比如机械领域的数据。
78.步骤1012：利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；
79.其中，查询数据生成模型为神经网络模型，通过获取的开放数据训练生成查询数据生成模型，查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令，比如输入的查询结果为“特朗普是美国总统”，生成的输出为查询指令“特朗普是谁？”。
80.步骤1013：将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。
81.其中，可以根据需要将特定领域的文档输入查询数据生成模型，特定领域包括但
不限于医学领域、机械制造领域等。将特定领域的文档输入查询数据生成模型，可以生成“查询指令-查询结果”数据集，这样能够利用查询数据生成模型生成特定领域的大量的“查询指令-查询结果”数据，解决信息检索系统需要的标注数据量大，人工标注数据成本高的问题。
82.步骤102：清除所述第一训练数据中的噪声，得到第二训练数据；
83.在步骤101中生成的特定领域的“查询指令-查询结果”数据集中如果存在噪声(即不正确的数据)会对信息检索模型的准确性产生不良影响，因此，在初始化训练信息检索模型前，需要先清除数据中的噪声。本实施例中，可以利用噪声分类模型清除第一训练数据中的噪声，噪声分类模型可以是任意的文本分类模型，能够区分一条数据是否为噪声。
84.如图3所示，本实施例中，清除所述第一训练数据中的噪声包括以下步骤：
85.步骤1021：利用所述第一训练数据初始化噪声分类模型；
86.步骤1022：对所述噪声分类模型进行训练；
87.本实施例中，可以进行n次迭代，得到训练后的噪声分类模型，其中，n为正整数。
88.如图4所示，在每次迭代中，利用噪声分类模型清除所述第一训练数据中的噪声，利用清除噪声后的数据训练信息检索模型，利用训练后的信息检索模型的损失函数更新噪声分类模型的参数，以此对噪声分类模型进行优化。
89.本实施例中，噪声分类模型可以预测数据是噪声的概率pj，如下所示：
90.pj＝π(a＝0|θ)；
91.其中，π为噪声分类模型的函数，a＝1表示数据不是噪声，a＝0表示数据是噪声。
92.噪声分类模型的参数θ可以通过以下损失函数来更新：
[0093][0094]
其中，ui为第i次迭代时利用噪声分类模型剔除第一训练数据中的噪声后剩余的数据，u
i-1
为第i-1次迭代时利用噪声分类模型剔除第一训练数据中的噪声后剩余的数据，f为评价信息检索模型的性能指标。
[0095]
其中，n可以为预设值，比如为50或100，也可以是根据迭代后信息检索模型的性能决定，如果第n次迭代后，信息检索模型的性能相比第n-1次迭代的性能提升有限，则停止迭代。
[0096]
步骤1023：利用训练后的噪声分类模型清除所述第一训练数据中的噪声。
[0097]
在利用训练后的噪声分类模型清除所述第一训练数据中的噪声后，可以剔除第一训练数据中不正确的数据，提高信息检索模型的准确性。
[0098]
步骤103：利用所述第二训练数据初始化信息检索模型；
[0099]
本实施例中，利用剔除了噪声的第二训练数据初始化信息检索模型，可以提高信息检索结果的准确性，提高信息检索的效率。
[0100]
为了提高性能，初始化信息检索模型之后，所述方法还包括：通过对抗式查询对所述信息检索模型进行优化。如图5所示，所述通过对抗式查询对所述信息检索模型进行优化包括以下步骤：
[0101]
步骤1051：利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询
生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；
[0102]
其中，第二查询指令为高质量的不相关查询，第二查询指令需要与查询结果不相关，且与第一查询指令具有文本相似性。其中，所述不相关查询生成模型的目标函数包括：所述不相关查询生成模型生成的第二查询指令与查询结果的相关性；所述不相关查询生成模型生成的第二查询指令与第一查询指令的文本相似性。上述目标函数是越小越好。
[0103]
如图6所示，其中，不相关查询生成模型的输入是查询结果，比如“iphonex由苹果公司生产”以及与查询结果相关的查询指令，比如“iphonex的生产厂商是？”，输出是与查询结果不相关的另一个查询指令，比如“iphonex的颜色是？”，该不相关的查询指令与“iphonex的生产厂商是？”具有文本相似性，即是高质量的不相关查询。
[0104]
在初始化过程中，可以采用如下目标函数使生成的查询指令与查询结果不相关但是与相关的查询指令在文本上相似:
[0105]
p(a＝1|结果,生成的不相关查询) λd(相关查询,不相关查询)
[0106]
其中，p(a＝1|结果,生成的不相关查询)部分表示生成的不相关查询与查询结果的相关性，可以通过上述初始化训练的信息检索模型得到。d(相关查询,不相关查询)可以是编辑距离等判断文本相似性的指标。这两部分都应该越小越好。λ是调整第二部分重要程度的权重系数，可以根据需要调整λ的值。
[0107]
步骤1052：将所述信息检索模型的输出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。
[0108]
如图7所示，将不相关查询生成模型的输出结果作为训练数据对信息检索模型进行训练，将信息检索模型输出的结果作为反馈输入不相关查询生成模型，进行对抗训练，以对信息检索模型进行优化。
[0109]
信息检索模型的输入为“查询指令-查询结果”，输出为一个概率，代表查询结果是与查询指令对应的正确查询结果的概率，如果仅利用“相关的查询指令以及对应的查询结果”对信息检索模型进行训练，则信息检索模型的准确率有限，本实施例利用不相关查询生成模型输出的“不相关的查询指令-查询结果”数据对信息检索模型进行训练，对抗训练信息检索模型与不相关查询生成模型，通过迭代使2个模型可以互相优化对方的效果。
[0110]
步骤104：利用所述信息检索模型进行信息检索。
[0111]
本实施例中，利用信息检索模型可以准确判断出用户的查询指令与文档的语义相关性。
[0112]
本实施例中，在获取第一训练数据之后，并不直接利用第一训练数据生成信息检索模型，而是先清除第一训练数据中的噪声，利用清除噪声后的第二训练数据初始化信息检索模型，能够优化信息检索模型的性能，提高信息检索结果的准确性，提高信息检索的效率。
[0113]
实施例二
[0114]
本发明实施例还提供了一种信息检索装置，如图8所示，包括：
[0115]
获取单元21，用于获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
[0116]
比如，查询指令为“iphonex的生产厂商是？”，与之对应的查询结果为“iphonex由
苹果公司生产”。其中，第一训练数据是特定目标领域的“查询指令-查询结果”数据对。
[0117]
噪声清除单元22，用于清除所述第一训练数据中的噪声，得到第二训练数据；
[0118]
生成的特定领域的“查询指令-查询结果”数据集中如果存在噪声(即不正确的数据)会对信息检索模型的准确性产生不良影响，因此，在初始化训练信息检索模型前，需要先清除数据中的噪声。本实施例中，可以利用噪声分类模型清除第一训练数据中的噪声，噪声分类模型可以是任意的文本分类模型，能够区分一条数据是否为噪声。
[0119]
初始化单元23，用于利用所述第二训练数据初始化信息检索模型；
[0120]
本实施例中，利用剔除了噪声的第二训练数据初始化信息检索模型，可以提高信息检索结果的准确性，提高信息检索的效率。
[0121]
信息检索单元24，用于利用所述信息检索模型进行信息检索。
[0122]
本实施例中，利用信息检索模型可以准确判断出用户的查询指令与文档的语义相关性。
[0123]
本实施例中，在获取第一训练数据之后，并不直接利用第一训练数据生成信息检索模型，而是先清除第一训练数据中的噪声，利用清除噪声后的第二训练数据初始化信息检索模型，能够优化信息检索模型的性能，提高信息检索结果的准确性，提高信息检索的效率。
[0124]
一些实施例中，如图9所示，所述装置还包括：
[0125]
优化单元25，用于通过对抗式查询对所述信息检索模型进行优化。
[0126]
一些实施例中，如图10所示，所述获取单元21包括：
[0127]
获取子单元211，用于获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；
[0128]
第一处理子单元212，用于利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；
[0129]
其中，开放数据可以是网络公开的数据集，也可以从网络上采集得到。例如，问答网站上的“问题-答案”数据可以认为是查询指令和与查询指令对应的查询结果，可以采集“问题-答案”数据作为用以生成查询数据生成模型的训练数据。
[0130]
与第一训练数据不同的是，获取的开放数据不一定是特定目标领域的数据，比如特定目标领域为医学领域，获取的开放数据可能是其他领域比如机械领域的数据。
[0131]
其中，查询数据生成模型为神经网络模型，通过获取的开放数据训练生成查询数据生成模型，查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令，比如输入的查询结果为“特朗普是美国总统”，生成的输出为查询指令“特朗普是谁？”。
[0132]
第二处理子单元213，用于将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。
[0133]
其中，可以根据需要将特定领域的文档输入查询数据生成模型，特定领域包括但不限于医学领域、机械制造领域等。将特定领域的文档输入查询数据生成模型，可以生成“查询指令-查询结果”数据集，这样能够利用查询数据生成模型生成特定领域的大量的“查询指令-查询结果”数据，解决信息检索系统需要的标注数据量大，人工标注数据成本高的问题。
[0134]
一些实施例中，如图11所示，所述噪声清除单元22包括：
[0135]
第一初始化子单元221，用于利用所述第一训练数据初始化噪声分类模型；
[0136]
训练子单元222，用于对所述噪声分类模型进行训练；
[0137]
本实施例中，可以进行n次迭代，得到训练后的噪声分类模型，其中，n为正整数。
[0138]
如图4所示，在每次迭代中，利用噪声分类模型清除所述第一训练数据中的噪声，利用清除噪声后的数据训练信息检索模型，利用训练后的信息检索模型的损失函数更新噪声分类模型的参数，以此对噪声分类模型进行优化。
[0139]
本实施例中，噪声分类模型可以预测数据是噪声的概率pj，如下所示：
[0140]
pj＝π(a＝0|θ)；
[0141]
其中，π为噪声分类模型的函数，a＝1表示数据不是噪声，a＝0表示数据是噪声。
[0142]
噪声分类模型的参数θ可以通过以下损失函数来更新：
[0143][0144]
其中，ui为第i次迭代时利用噪声分类模型剔除第一训练数据中的噪声后剩余的数据，u
i-1
为第i-1次迭代时利用噪声分类模型剔除第一训练数据中的噪声后剩余的数据，f为评价信息检索模型的性能指标。
[0145]
其中，n可以为预设值，比如为50或100，也可以是根据迭代后信息检索模型的性能决定，如果第n次迭代后，信息检索模型的性能相比第n-1次迭代的性能提升有限，则停止迭代。
[0146]
清除子单元223，用于利用训练后的噪声分类模型清除所述第一训练数据中的噪声。
[0147]
在利用训练后的噪声分类模型清除所述第一训练数据中的噪声后，可以剔除第一训练数据中不正确的数据，提高信息检索模型的准确性。
[0148]
一些实施例中，如图12所示，所述优化单元25包括：
[0149]
第二初始化子单元251，用于利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；
[0150]
其中，第二查询指令为高质量的不相关查询，第二查询指令需要与查询结果不相关，且与第一查询指令具有文本相似性。其中，所述不相关查询生成模型的目标函数包括：所述不相关查询生成模型生成的第二查询指令与查询结果的相关性；所述不相关查询生成模型生成的第二查询指令与第一查询指令的文本相似性。上述目标函数是越小越好。
[0151]
如图6所示，其中，不相关查询生成模型的输入是查询结果，比如“iphonex由苹果公司生产”以及与查询结果相关的查询指令，比如“iphonex的生产厂商是？”，输出是与查询结果不相关的另一个查询指令，比如“iphonex的颜色是？”，该不相关的查询指令与“iphonex的生产厂商是？”具有文本相似性，即是高质量的不相关查询。
[0152]
在初始化过程中，可以采用如下目标函数使生成的查询指令与查询结果不相关但是与相关的查询指令在文本上相似:
[0153]
p(a＝1|结果,生成的不相关查询) λd(相关查询,不相关查询)
[0154]
其中，p(a＝1|结果,生成的不相关查询)部分表示生成的不相关查询与查询结果的相关性，可以通过上述初始化训练的信息检索模型得到。d(相关查询,不相关查询)可以是编辑距离等判断文本相似性的指标。这两部分都应该越小越好。λ是调整第二部分重要程度的权重系数，可以根据需要调整λ的值。
[0155]
对抗训练子单元252，用于将所述信息检索模型的输出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。
[0156]
如图7所示，将不相关查询生成模型的输出结果作为训练数据对信息检索模型进行训练，将信息检索模型输出的结果作为反馈输入不相关查询生成模型，进行对抗训练，以对信息检索模型进行优化。
[0157]
信息检索模型的输入为“查询指令-查询结果”，输出为一个概率，代表查询结果是与查询指令对应的正确查询结果的概率，如果仅利用“相关的查询指令以及对应的查询结果”对信息检索模型进行训练，则信息检索模型的准确率有限，本实施例利用不相关查询生成模型输出的“不相关的查询指令-查询结果”数据对信息检索模型进行训练，对抗训练信息检索模型与不相关查询生成模型，通过迭代使2个模型可以互相优化对方的效果。
[0158]
实施例三
[0159]
本发明实施例还提供了一种信息检索装置30，如图13所示，包括：
[0160]
处理器32；和
[0161]
存储器34，在所述存储器34中存储有计算机程序指令，
[0162]
其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器32执行以下步骤：
[0163]
获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
[0164]
清除所述第一训练数据中的噪声，得到第二训练数据；
[0165]
利用所述第二训练数据初始化信息检索模型；
[0166]
利用所述信息检索模型进行信息检索。
[0167]
进一步地，如图13所示，信息检索装置30还包括网络接口31、输入设备33、硬盘35和显示设备36。
[0168]
上述各个接口和设备之间可以通过总线架构互连。总线架构可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(cpu)，以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。
[0169]
所述网络接口31，可以连接至网络(如因特网、局域网等)，从网络中获取相关数据，例如公开数据等，并可以保存在硬盘35中。
[0170]
所述输入设备33，可以接收操作人员输入的各种指令，并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如，鼠标、轨迹球(trackball)、触感板或者触摸屏等)。
[0171]
所述显示设备36，可以将处理器32执行指令获得的结果进行显示。
[0172]
所述存储器34，用于存储操作系统运行所必须的程序和数据，以及处理器32计算过程中的中间结果等数据。
[0173]
可以理解，本发明实施例中的存储器34可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。
[0174]
在一些实施方式中，存储器34存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统341和应用程序342。
[0175]
其中，操作系统341，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序342，包含各种应用程序，例如浏览器(browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。
[0176]
上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；清除所述第一训练数据中的噪声，得到第二训练数据；利用所述第二训练数据初始化信息检索模型；利用所述信息检索模型进行信息检索。
[0177]
进一步地，上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，通过对抗式查询对所述信息检索模型进行优化。
[0178]
进一步地，上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，获取开放数据，所述开放数据包括查询指令和与所述查询指令对应的查询结果；利用所述开放数据训练生成查询数据生成模型，所述查询数据生成模型能够根据输入的查询结果生成与所述查询结果对应的查询指令；将特定领域的文档输入所述查询数据生成模型，生成所述第一训练数据。
[0179]
进一步地，上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，利用所述第一训练数据初始化噪声分类模型；对所述噪声分类模型进行训练；利用训练后的噪声分类模型清除所述第一训练数据中的噪声。
[0180]
进一步地，上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，进行n次迭代，得到训练后的噪声分类模型，n为正整数；其中，在每次迭代中，利用所述噪声分类模型清除所述第一训练数据中的噪声，利用清除噪声后的数据训练所述信息检索模型，利用训练后的所述信息检索模型的损失函数更新所述噪声分类模型的参数。
[0181]
进一步地，上述处理器32，当调用并执行所述存储器34中所存储的应用程序和数据，具体的，可以是应用程序342中存储的程序或指令时，利用所述第二训练数据初始化不相关查询生成模型，所述不相关查询生成模型的输入是查询结果和与所述查询结果相关的第一查询指令，输出是与所述查询结果不相关的第二查询指令；将所述信息检索模型的输
出结果输入所述不相关查询生成模型，利用所述不相关查询生成模型的输出结果对所述信息检索模型进行训练。
[0182]
所述不相关查询生成模型的目标函数包括：
[0183]
所述不相关查询生成模型生成的第二查询指令与查询结果的相关性；
[0184]
所述不相关查询生成模型生成的第二查询指令与第一查询指令的文本相似性。
[0185]
本发明上述实施例揭示的方法可以应用于处理器32中，或者由处理器32实现。处理器32可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34，处理器32读取存储器34中的信息，结合其硬件完成上述方法的步骤。
[0186]
可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
[0187]
对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0188]
实施例四
[0189]
本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行以下步骤：
[0190]
获取第一训练数据，所述第一训练数据包括查询指令和与所述查询指令对应的查询结果；
[0191]
清除所述第一训练数据中的噪声，得到第二训练数据；
[0192]
利用所述第二训练数据初始化信息检索模型；
[0193]
利用所述信息检索模型进行信息检索。
[0194]
以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：作业机械服务网点部署位置确定方法、装置及设备与流程

信息检索方法、装置及计算机可读存储介质与流程

相关文献

最热文献