一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种信息检索结果处理方法、装置、服务器及存储介质与流程

2022-06-08 21:28:43 来源:中国专利 TAG:


1.本公开涉及信息检索技术领域,尤其涉及一种信息检索结果处理方法、装置、服务器及存储介质。


背景技术:

2.信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同信息检索技术的优劣,不同因素对信息检索系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是在较少资源消耗情况下尽快、全面返回准确的结果。对信息检索系统的评价指标中包括多样性评价指标,其用于刻画返回的信息检索结果的多样性。
3.相关技术中一般是按照用户提交的搜索词获得一系列检索结果,经过相关性排序之后返回给用户;若只进行相关性排序,则会面临检索结果冗余性过大、无法有效覆盖用户意图的问题,从而使得检索结果的多样性较弱,检索结果不准确,进而造成不好的用户体验,因此需要提出一种能够提高信息检索结果准确性的方法。


技术实现要素:

4.本公开提供一种信息检索结果处理方法、装置、服务器及存储介质,以至少解决相关技术中信息检索结果不准确的问题。本公开的技术方案如下:
5.根据本公开实施例的第一方面,提供一种信息检索结果处理方法,包括:
6.获取信息检索请求,所述信息检索请求中包括搜索词;
7.根据所述搜索词得到候选对象集合,以及确定与所述搜索词对应的目标主题集合;
8.初始化信息检索结果队列;
9.重复执行以下步骤,直至所述候选对象集合为空集:
10.根据所述候选对象集合中的每个候选对象包含的对象主题,以及所述目标主题集合,计算所述每个候选对象的多样性指标;
11.将所述多样性指标满足预设条件的候选对象确定为检索结果对象;
12.将所述检索结果对象添加至所述信息检索结果队列的尾部,以及将所述检索结果对象从所述候选对象集合中删除;
13.若所述候选对象集合为空集,输出所述信息检索结果队列。
14.在一示例性实施例中,所述根据所述候选对象集合中的每个候选对象包含的对象主题,以及所述目标主题集合,计算所述每个候选对象的多样性指标,包括:
15.对于所述每个候选对象包含的每个对象主题,均将所述每个对象主题与所述目标主题集合中的各个目标主题逐一进行匹配,得到与所述每个候选对象对应的匹配主题;
16.计算与所述匹配主题对应的多样性指标子项;
17.基于所述多样性指标子项,得到所述每个候选对象的多样性指标。
18.在一示例性实施例中,所述确定与所述搜索词对应的目标主题集合之后,还包括:
19.生成与所述目标主题集合中的每个目标主题对应的第一词向量;
20.所述根据所述搜索词得到候选对象集合之后,还包括:
21.确定所述候选对象集合中的每个候选对象包含的至少一个对象主题;
22.生成与每个对象主题对应的第二词向量。
23.在一示例性实施例中,所述对于所述每个候选对象包含的每个对象主题,均将所述每个对象主题与所述目标主题集合中的各个目标主题逐一进行匹配,得到与所述每个候选对象对应的匹配主题,包括:
24.判断所述每个候选对象包含的每个对象主题是否为匹配主题;
25.基于对所述每个候选对象的每个对象主题的判断结果,得到与所述每个候选对象对应的匹配主题。
26.在一示例性实施例中,所述判断所述每个候选对象包含的每个对象主题是否为匹配主题,包括:
27.逐一计算所述每个对象主题对应的第二词向量,与所述目标主题集合中的每个目标主题对应的第一词向量的距离,得到词向量距离集合;
28.将所述词向量集合中最小的词向量距离与预设阈值进行比较;
29.当所述最小的词向量距离小于所述预设阈值时,将所述每个对象主题确定为匹配主题。
30.在一示例性实施例中,所述计算与所述匹配主题对应的多样性指标子项包括:
31.确定所述信息检索结果队列中包含所述匹配主题的候选对象的数量;
32.基于预设的多样性指标子项计算公式,以及所述信息检索结果队列中包含所述匹配主题的候选对象的数量,计算与所述匹配主题对应的多样性指标子项。
33.在一示例性实施例中,所述根据所述搜索词得到候选对象集合之前,还包括:
34.对信息资源库中各对象的内容进行文字识别以及图像识别,根据识别结果确定各对象的标签信息;
35.所述根据所述搜索词得到候选对象集合,包括:
36.对所述搜索词进行分词,得到至少一个搜索关键词;
37.从所述信息资源库中分别确定出与每个搜索关键词对应的搜索对象集合;其中所述每个搜索关键词与相应搜索对象集合中的每个搜索对象的标签信息具有相关性;
38.基于所述搜索对象集合生成所述候选对象集合。
39.在一示例性实施例中,所述确定与所述搜索词对应的目标主题集合包括:
40.对所述搜索词进行分析,确定与所述搜索词对应的潜在搜索意图;
41.基于与所述搜索词对应的潜在搜索意图进行主题挖掘,生成与所述搜索词对应的多个目标主题;
42.基于与所述搜索词对应的多个目标主题,生成所述目标主题集合。
43.在一示例性实施例中,所述多样性指标满足预设条件的候选对象为所述多样性指标最大的候选对象;
44.所述将所述多样性指标满足预设条件的候选对象确定为检索结果对象包括:
45.当所述多样性指标最大的候选对象的数量大于一个时,确定每个多样性指标最大
的候选对象包含的非匹配主题的数量;
46.将非匹配主题的数量最小的候选对象确定为所述检索结果对象。
47.根据本公开实施例的第二方面,提供一种信息检索结果处理装置,包括:
48.信息检索请求获取单元,被配置为执行获取信息检索请求,所述信息检索请求中包括搜索词;
49.信息检索请求处理单元,被配置为执行根据所述搜索词得到候选对象集合,以及确定与所述搜索词对应的目标主题集合;
50.队列初始化单元,被配置为执行初始化信息检索结果队列;
51.重复执行单元,被配置为执行重复调用以下单元,直至所述候选对象集合为空集:
52.多样性指标计算单元,被配置为执行根据所述候选对象集合中的每个候选对象包含的对象主题,以及所述目标主题集合,计算所述每个候选对象的多样性指标;
53.检索结果对象确定单元,被配置为执行将所述多样性指标满足预设条件的候选对象确定为检索结果对象;
54.更新单元,被配置为执行将所述检索结果对象添加至所述信息检索结果队列的尾部,以及将所述检索结果对象从所述候选对象集合中删除;
55.信息检索结果生成单元,被配置为执行若所述候选对象集合为空集,输出所述信息检索结果队列。
56.在一示例性实施例中,所述多样性指标计算单元包括:
57.主题匹配单元,被配置为执行对于所述每个候选对象包含的每个对象主题,均将所述每个对象主题与所述目标主题集合中的各个目标主题逐一进行匹配,得到与所述每个候选对象对应的匹配主题;
58.多样性指标子项计算单元,被配置为执行计算与所述匹配主题对应的多样性指标子项;
59.多样性指标确定单元,被配置为执行基于所述多样性指标子项,得到所述每个候选对象的多样性指标。
60.在一示例性实施例中,所述装置还包括:
61.第一词向量生成单元,被配置为执行生成与所述目标主题集合中的每个目标主题对应的第一词向量;
62.对象主题确定单元,被配置为执行确定所述候选对象集合中的每个候选对象包含的至少一个对象主题;
63.第二词向量生成单元,被配置为执行生成与每个对象主题对应的第二词向量。
64.在一示例性实施例中,所述主题匹配单元包括:
65.匹配主题判断单元,被配置为执行判断所述每个候选对象包含的每个对象主题是否为匹配主题;
66.匹配结果确定单元,被配置为执行基于对所述每个候选对象的每个对象主题的判断结果,得到与所述每个候选对象对应的匹配主题。
67.在一示例性实施例中,所述匹配主题判断单元包括:
68.词向量距离计算单元,被配置为执行逐一计算所述每个对象主题对应的第二词向量,与所述目标主题集合中的每个目标主题对应的第一词向量的距离,得到词向量距离集
合;
69.比较单元,被配置为执行将所述词向量距离集合中最小的词向量距离与预设阈值进行比较;
70.匹配主题确定单元,被配置为执行当所述最小的词向量距离小于所述预设阈值时,将所述每个对象主题确定为匹配主题。
71.在一示例性实施例中,所述多样性指标子项计算单元包括:
72.第一确定单元,被配置为执行确定所述信息检索结果队列中包含所述匹配主题的候选对象的数量;
73.第一计算单元,被配置为执行基于预设的多样性指标子项计算公式,以及所述信息检索结果队列中包含所述匹配主题的候选对象的数量,计算与所述匹配主题对应的多样性指标子项。
74.在一示例性实施例中,所述装置还包括:
75.内容识别单元,被配置为执行对信息资源库中各对象的内容进行文字识别以及图像识别,根据识别结果确定各对象包含的标签信息;
76.所述信息检索请求处理单元包括:
77.搜索词分词单元,被配置为执行对所述搜索词进行分词,得到至少一个搜索关键词;
78.搜索对象集合确定单元,被配置为执行从所述信息资源库中分别确定出与每个搜索关键词对应的搜索对象集合;其中所述每个搜索关键词与相应搜索对象集合中的每个搜索对象的标签信息具有相关性;
79.候选对象集合确定单元,被配置为执行基于所述搜索对象集合生成所述候选对象集合。
80.在一示例性实施例中,所述信息检索请求处理单元包括:
81.搜索词分析单元,被配置为执行对所述搜索词进行分析,确定与所述搜索词对应的潜在搜索意图;
82.主题挖掘单元,被配置为执行基于与所述搜索词对应的潜在搜索意图进行主题挖掘,生成与所述搜索词对应的多个目标主题;
83.目标主题集合生成单元,被配置为执行基于与所述搜索词对应的多个目标主题,生成所述目标主题集合。
84.在一示例性实施例中,所述多样性指标满足预设条件的候选对象为所述多样性指标最大的候选对象;
85.所述检索结果对象确定单元包括:
86.非匹配主题数量确定单元,被配置为执行当所述多样性指标最大的候选对象的数量大于一个时,确定每个多样性指标最大的候选对象包含的非匹配主题的数量;
87.第二确定单元,被配置为执行将非匹配主题的数量最小的候选对象确定为所述检索结果对象。
88.根据本公开实施例的第三方面,提供一种服务器,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如上所述的信息检索结果处理方法。
89.根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如上所述的信息检索结果处理方法。
90.根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序存储在可读存储介质中,计算机设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序,使得设备执行上述的信息检索结果处理方法。
91.本公开的实施例提供的技术方案至少带来以下有益效果:
92.本公开通过获取包括搜索词的信息检索请求,根据搜索词得到候选对象集合以及确定与搜索词对应的目标对象集合;根据每次对候选对象集合中每个候选对象的多样性指标的计算结果,从候选对象集合中选择多样性指标满足预设条件的候选对象依次添加到信息检索结果队列的尾部;当候选对象集合为空集时,将当前包含多个目标对象的信息检索结果队列确定为与搜索词对应的信息检索结果并输出。本公开能够使得返回的信息检索结果中排序靠前的候选对象尽可能多地包含不同的主题,提高检索结果的主题覆盖率,从而能够有效覆盖用户意图,降低检索结果的冗余性,增强了检索结果的多样性,提高信息检索结果的准确性。
93.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
94.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
95.图1是根据一示例性实施例示出的一种应用场景示意图。
96.图2是根据一示例性实施例示出的一种信息检索结果处理方法流程图。
97.图3是根据一示例性实施例示出的候选对象集合的生成方法流程图。
98.图4是根据一示例性实施例示出的一种目标主题集合生成方法流程图。
99.图5是根据一示例性实施例示出的一种候选对象的多样性指标计算方法流程图。
100.图6是根据一示例性实施例示出的一种匹配主题的判断方法流程图。
101.图7是根据一示例性实施例示出的一种匹配主题确定方法流程图。
102.图8是根据一示例性实施例示出的一种多样性指标子项计算方法流程图。
103.图9是根据一示例性实施例示出的一种检索结果对象确定方法流程图。
104.图10是根据一示例性实施例示出的一种信息检索结果处理装置示意图。
105.图11是根据一示例性实施例示出的一种服务器结构示意图。
具体实施方式
106.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
107.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或
描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
108.请参阅图1,其示出了本公开实施例提供的实施环境示意图,该实施环境可包括:至少一个第一终端110和第二终端120,至少一个第一终端110和第二终端120可通过网络进行数据通信。
109.具体地,第一终端110根据检索需求生成相应的信息检索请求,并将信息检索请求发送给第二终端120,其中信息检索请求中包括搜索词;第二终端120接收到信息检索请求后,根据信息检索请求中包含的搜索词在信息资源库中进行搜索,得到与搜索词具有相关性的候选对象集合;第二终端120采用相应的处理策略对候选对象集合进行处理之后得到信息检索结果,并返回给第一终端110。
110.第一终端110可以基于浏览器/服务器模式(browser/server,b/s)或客户端/服务器模式(client/server,c/s)与第二终端120进行通信。第一终端110可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端、服务器等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本公开实施例中的第一终端110上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows等。
111.第二终端120与第一终端110可以通过有线或者无线建立通信连接,第二终端120可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,其中服务器可以是云端服务器。
112.为了解决相关技术中信息检索结果不准确的问题,本公开实施例提供了一种信息检索结果处理方法,其执行主体可以为图1中的第二终端,具体可以为执行信息检索操作的服务器,请参阅图2,该方法具体可包括:
113.s210.获取信息检索请求,所述信息检索请求中包括搜索词。
114.本公开中的信息检索请求可以是用户根据实际检索需求发出的,信息检索请求可以是通过用户在相关搜索页面中输入搜索词后所触发的,这里输入搜索词可以是手动输入,也可以是语音输入;也可以是通过用户点击相应的推荐搜索词标签之后所触发的,本公开实施例不做具体限定。
115.s220.根据所述搜索词得到候选对象集合,以及确定与所述搜索词对应的目标主题集合。
116.在进行信息检索过程中,可通过用户输入的搜索词在信息资源库中进行查找,并返回与搜索词具有相关性的候选对象集合。本公开中的对象具体可以是指文档、网页、图像、视频等。其中在具体确定与搜索词具有相关性的候选对象集合时,可基于信息资源库中各对象的标签信息进行确定,具体地可对信息资源库中各对象的内容进行文字识别以及图像识别,根据识别结果可确定各对象的标签信息。例如当某个对象所包含的文字内容中有“苹果”、“蛇果”、“沙果”、“海棠果”等文字,和/或从该对象所包含的图像内容中识别出有“苹果”、“蛇果”、“沙果”、“海棠果”等图像,从而可以确定该对象的标签信息包括“苹果”、“蛇果”、“沙果”、“海棠果”等。
117.对于与搜索词具有相关性的候选对象集合的生成方法可参阅图3,包括:
118.s310.对所述搜索词进行分词,得到至少一个搜索关键词。
119.s320.从所述信息资源库中分别确定出与所述搜索关键词对应的搜索对象集合;其中所述每个搜索关键词与相应搜索对象集合中的每个搜索对象的标签信息具有相关性。
120.s330.基于所述搜索对象集合生成所述候选对象集合。
121.之所以需要对搜索词进行分词是因为搜索词可能不是一个单独的词,有可能是由多个词组成的短语,所以首先需要对搜索词进行分词,从而得到的搜索关键可以为一个或者多个。当搜索关键词的数量为一个时,可将搜索关键词与信息资源库中的各对象的标签信息进行匹配,确定出与搜索关键词具有相关性的标签信息,从而可将具有相关性的标签信息所对应的对象确定为搜索对象,进而生成搜索对象集合,直接可将该搜索对象集合确定为候选对象集合。当搜索关键词的数量大于一个时,可分别将每个搜索关键词与信息资源库中的各对象的标签信息进行匹配,确定出与每个搜索关键词具有相关性的标签信息,从而可确定与每个搜索词对应的搜索对象,并生成与每个搜索关键词对应的搜索对象集合;再对每个搜索关键词对应的搜索对象集合求交集,由此可得到候选对象集合。
122.其中,在确定搜索关键词与搜索对象的标签信息的相关性的过程中,可查看资源信息库中各对象的标签信息是否包含搜索关键词,或者是否包含搜索关键词的同义词或者近义词等,从而可确定搜索关键词与标签信息会否具有相关性。另外,除了上述可通过搜索关键词的词义以及标签信息中包含词的词义进行相关性的确定,任何可基于搜索关键词以及标签信息进行相关性确定的方法均可应用于本实施例中。还以上述举例进行说明,当搜索关键词为“苹果”时,信息资源库中有的对象的标签信息包括“苹果”,有的对象的标签信息包括“蛇果”,那么这些对象均可被确定为与搜索关键词对应的搜索对象,从而生成搜索对象集合。
123.候选对象集合中的各对象均是与搜索词具有相关性的候选对象,通过搜索词从资源库中确定出候选对象集合能够对与搜索词相关的对象进行初步筛选,从而后续的操作均可基于筛选出的候选对象集合进行,能够缩小对象处理的范围,提高处理效率。对于目标主题集合的生成,其是基于对搜索词的分析得到的,目标主题可用于对搜索词在不同类别、不同领域等方面的信息进行描述;具体请参阅图4,其示出了一种目标主题集合生成方法,可包括:
124.s410.对所述搜索词进行分析,确定与所述搜索词对应的潜在搜索意图。
125.s420.基于与所述搜索词对应的潜在搜索意图进行主题挖掘,生成与所述搜索词对应的多个目标主题。
126.s430.基于与所述搜索词对应的多个目标主题,生成所述目标主题集合。
127.对于一个搜索词,其可能包含多个方面的含义,对于每个方面均有不同的搜索结果,所以需要对搜索词进行全面分析,以确定该搜索词对应的潜在搜索意图,这里的潜在搜索意图具体可以为对搜索词对应的多个不同方面的搜索意图;分别对每个方面的潜在搜索意图进行主题挖掘,在进行主题挖掘的过程中,尽可能多地包含每个方面的潜在搜索意图所涉及的分类并生成相应的主题,从而可便于后续基于挖掘生成的目标主题与候选对象的对象主题进行匹配,生成具有多样性的检索结果。
128.以搜索词为“苹果”进行说明,对于“苹果”这个词至少可包括三个方面的含义,一方面是作为水果的苹果,一方面是作为电子设备品牌的苹果,另一方面是作为歌曲名的苹果;从而对于这三个方面的含义即可看成是与“苹果”这个搜索词对应的潜在搜索意图,从
而可至少从这三个方面进行相关资源的搜索。进一步地,对于每个方面的潜在搜索意图,还可以有不同的分类;对于潜在搜索意图为作为水果的苹果,其所涉及的分类可包括:苹果品种、种植方法、营养价值、功效、食谱等;对于潜在意图为作为电子设备品牌的苹果,其涉及的分类可包括:苹果手机、苹果电脑、型号、教程、测评、维修等;对于潜在意图为作为歌曲名的苹果,其所涉及的分类可包括:歌曲介绍、歌曲视频、演唱技巧、用户评价等。对于每种潜在搜索意图所涉及的分类均可看成是与该潜在搜索意图所对应的目标主题,从而可生成与“苹果”这个搜索词所对应的目标主题集合。
129.s230.初始化信息检索结果队列。
130.对信息检索结果队列进行初始化,初始化的信息检索结果队列可为空队列。
131.s240.判断所述候选对象集合是否为空集。
132.s250.若所述候选对象集合不为空集,根据所述候选对象集合中的每个候选对象包含的对象主题,以及所述目标主题集合,计算所述每个候选对象的多样性指标。
133.本公开实施例中的多样性指标可用于表征当前每个候选对象的主题覆盖情况,具体请参阅图5,其示出了一种候选对象的多样性指标计算方法,该方法可包括:
134.s510.对于所述每个候选对象包含的每个对象主题,均将所述每个对象主题与所述目标主题集合中的各个目标主题逐一进行匹配,得到与所述每个候选对象对应的匹配主题。
135.s520.计算与所述匹配主题对应的多样性指标子项。
136.s530.基于所述多样性指标子项,得到所述每个候选对象的多样性指标。
137.对于每个候选对象的多样性指标的计算,需要基于该候选对象所包含的对象主题来进行,具体地还需要根据每个候选对象所包含的对象主题以及目标主题,得到与每个候选对象对应的匹配主题;通过计算匹配主题对应的多样性指标子项来得到每个候选对象的多样性指标。本公开中每个候选对象的多样性指标可用于对相应候选对象的主题覆盖率进行描述,其中可通过相关公式直接计算每个候选对象的多样性指标,能够快速、便捷的得到每个候选对象的多样性指标,进而提升对候选对象的主题覆盖率进行体现的便利性。
138.其中可具体通过图6所示的一种匹配主题的判断方法来得到与每个候选对象对应的匹配主题,该方法可包括:
139.s610.判断所述每个候选对象包含的每个对象主题是否为匹配主题。
140.s620.基于对所述每个候选对象的每个对象主题的判断结果,得到与所述每个候选对象对应的匹配主题。
141.判断每个对象主题是否为匹配主题可以通过判断目标主题集合中是否存在与该对象主题相匹配的目标主题来实现。由于目标主题集合中一般包括多个目标主题,从而在具体进行主题匹配时,对于每个候选对象,需要将该候选对象包含的每个对象主题分别与多个目标主题进行匹配,以此来确定每个对象主题是否为匹配主题;并将与目标主题相匹配的对象主题确定为匹配主题,从而可以得到与每个候选对象对应的匹配主题。通过将每个候选对象包含的每个对象主题与各个目标主题进行逐一匹配,并相应判断对象主题是否为匹配主题,能够避免主题匹配遗漏,从而提升主题匹配的全面性。
142.在具体的主题匹配过程,不同主题从文字表达上可能不一样,但是意思相接近,因此在判断任意两个主题之间是否匹配或者意思是否接近时,可采用词向量的方法来实现,
通过计算两个主题对应的词向量距离即可判断这两个主题是否相匹配或者意思是否接近。在进行主题匹配之前,还需要生成与目标主题集合中的每个目标主题对应的第一词向量,以及确定候选对象集合中的每个候选对象包含的至少一个对象主题,生成与每个对象主题对应的第二词向量。其中对于候选对象的对象主题的确定,可采用与确定标签信息类似的方法,即通过文字识别以及图像识别的方法来确定每个候选对象中所包含的对象主题;并且可预先确定出各候选对象的对象主题,从而便于在进行主题匹配时直接获取并使用。
143.具体地,请参阅图7,其示出了一种匹配主题确定方法,该方法可包括:
144.s710.逐一计算所述每个对象主题对应的第二词向量,与所述目标主题集合中的每个目标主题对应的第一词向量的距离,得到词向量距离集合。
145.s720.将所述词向量集合中最小的词向量距离与预设阈值进行比较。
146.s730.当所述最小的词向量距离小于所述预设阈值时,将所述每个对象主题确定为匹配主题。
147.具体地,对于目标主题集合中目标主题的词向量可表示为:
[0148][0149]
基于各目标主题对应的词向量可生成与目标主题集合对应的词向量序列可表示为:
[0150]
vector
query
=wordembedding(topic
query
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0151]
对于每个候选对象包含的对象主题的词向量可表示为:
[0152][0153]
计算两两向量之间的向量距离,具体是计算每个对象主题对应的第二词向量与各个目标主题对应的第一词向量的距离,例如对于对象主题n对应的词向量分别计算其与目标主题对应的词向量序列中每个词向量的词向量距离,根据词向量距离来判断在目标主题集合中是否存在与对象主题n相匹配的目标主题,具体可通过以下公式来实现:
[0154][0155][0156]
其中,threshold为预设阈值;由式(5)可以看出,当词向量距离小于预设阈值时,说明目标主题集合中存在与对象主题n相匹配的目标主题,此时可将对象主题n确定为匹配主题;反之则说明目标主题集合中不存在与对象主题n相匹配的目标主题。
[0157]
通过生成与每个主题对应的词向量,能够将可能属于不同空间的目标主题以及对象主题对应到同一空间中,以实现采用统一格式对每个主题分别进行描述,即对每个主题分别进行向量形式的表示,从而便于后续基于同一向量空间进行向量距离的计算。本公开中生成词向量的方法可采用已有的生成词向量的相关技术来实现,例如中文词向量模型可采用chineseword2vector,在此不再赘述。
[0158]
上述方法中可根据候选对象包含的对象主题与各目标主题的相似度来确定与候选对象对应的匹配主题,由于之前已经通过词向量模型得到了与各主题对应的词向量,从而可通过计算各主题之间的词向量距离来确定各主题之间的相似度,对于词向量距离的计
算过程快速且便捷,从而提高了匹配主题确定的效率;另外,由于词向量能够对主题进行准确描述,使得基于词向量计算得到的相似度更加准确,进而提高了匹配主题确定的准确性。
[0159]
对于每个候选对象的多样性指标,其可看成是由至少一项多样性指标子项所构成,其中对于每个候选对象来说,多样性指标子项的数量与该候选对象对应的匹配主题的数量是一致的,由此可以看出,多样性指标子项的计算需要基于候选对象的匹配主题来进行计算;请参阅图8,其示出了一种多样性指标子项计算方法,该方法可包括:
[0160]
s810.确定所述信息检索结果队列中包含所述匹配主题的候选对象的数量。
[0161]
s820.基于预设的多样性指标子项计算公式,以及所述信息检索结果队列中包含所述匹配主题的候选对象的数量,计算与所述匹配主题对应的多样性指标子项。
[0162]
根据上述内容可知,对于每个候选对象均可确定出与其对应的匹配主题,匹配主题是基于候选对象的对象主题与目标主题进行匹配得到的;对于对象主题n,当通过词向量距离计算的方式在目标主题集合中找到了与对象主题n匹配的目标主题,虽然两者相匹配,但在文字表达形式上不一定相同,从而可为目标主题集合中的每个目标主题分配相应的目标主题标识,从而对于被确定为匹配主题的对象主题,可为其标注其所匹配的目标主题的目标主题标识,通过匹配主题所携带的目标主题标识即可确定目标主题集合中与该匹配主题相匹配的目标主题。因此,这里在确定信息检索结果队列中包含所述匹配主题的候选对象的数量时,可首先确定当前匹配主题所携带的目标主题标识,然后在信息检索结果队列中查找携带该目标主题标识的对象主题,找出包含携带该目标主题标识的对象主题的候选对象,即可确定包含匹配主题的候选对象的数量。
[0163]
对于任一匹配主题n,其对应一项多样性指标子项,多样性指标子项的计算公式如下:
[0164][0165]
其中,0<α<1,α一般可取0.5,t为匹配主题的索引,例如候选对象的第t个对象主题为匹配主题;c
t
即为当前的信息检索结果队列中包含所述匹配主题的候选对象的数量,从而可以计算出与匹配主题n对应的多样性指标子项。
[0166]
s260.将所述多样性指标满足预设条件的候选对象确定为检索结果对象。
[0167]
对于每个候选对象的多样性指标的计算,可通过如下公式进行:
[0168][0169]
其中,t为任一候选对象p所包含的对象主题的数量,t为匹配主题的索引,例如候选对象的第t个对象主题为匹配主题;c
t
即为当前的信息检索结果队列中包含所述匹配主题的候选对象的数量;topicq为搜索词所对应的目标主题集合;topic
p
为候选对象包含的对象主题集合。当候选对象p对应一个匹配主题时,可直接将该匹配主题对应的多样性指标子项作为该候选对象p的多样性指标;当候选对象p对应多个匹配主题时,可对每个匹配主题对应的多样性指标子项进行求和,得到该候选对象p的多样性指标。
[0170]
另外,在每次进行主题匹配之后,可相应更新信息检索结果队列中包含各匹配主题的候选对象的数量,即更新信息检索结果队列中与每个目标主题相匹配的对象主题的数量。
[0171]
对于当前匹配主题,由于信息检索结果队列中可能已经存在包含当前匹配主题的
候选对象,即当前匹配主题已经在其他之前被选中的候选对象中出现过,当匹配主题再次出现时,其对检索结果的影响会受到其已经出现次数的影响,该匹配主题对整体检索结果的多样性的贡献被削减,从而对于当前匹配主题的多样性子项的计算需要基于之前已出现的次数进行,进一步提升了对各候选对象的多样性指标计算的准确性。
[0172]
本实施例中,所述多样性指标满足预设条件的候选对象为所述多样性指标最大的候选对象,多样性指标最大的候选对象即为当前对整体检索结果的多样性贡献最大的候选对象;当多样性指标最大的候选对象的数量为一个时,直接将该候选对象确定为检索结果对象;当多样性指标最大的候选对象的数量大于一个时,具体请参阅图9,其示出了一种检索结果对象确定方法,该方法可包括:
[0173]
s910.当所述多样性指标最大的候选对象的数量大于一个时,确定每个多样性指标最大的候选对象包含的非匹配主题的数量。
[0174]
s920.将非匹配主题的数量最小的候选对象确定为所述检索结果对象。
[0175]
每个候选对象可对应多个对象主题,多个对象指标中又包括匹配主题和非匹配主题,在多样性指标最大的候选对象的数量大于一个时,将非匹配主题的数量最小的候选对象确定为所述检索结果对象,使得呈现给用户的信息检索结果中所包含的非匹配主题尽可能少,也可看成是无效主题少,从而能够减少用户浏览无效主题的时间,提升用户体验。
[0176]
s270.将所述检索结果对象添加至所述信息检索结果队列的尾部,以及将所述检索结果对象从所述候选对象集合中删除。
[0177]
此时可分别进行信息检索结果队列的更新以及候选对象集合的更新,以便于进入下一轮循环。
[0178]
s280.若所述候选对象集合为空集,输出所述信息检索结果队列。
[0179]
每次进行循环时,均从候选对象集合中拿出一个候选对象添加至信息检索结果队列的尾部,直至候选对象集合为空集;最终生成的信息检索结果队列即为检索结果多样性最大的队列,从而可生成与搜索词对应的多样性最大的信息检索结果。
[0180]
本公开所提出的信息检索结果的处理方法具体可应用于短视频社区中的视频搜索场景中,此时的候选对象即为短视频;每个短视频中均可包括相应属性信息,例如标题文本信息,进一步地,还可对短视频进行按帧划分,得到若干图像帧,通过ocr(optical character recognition,光学字符识别)技术对每个图像帧中的文字进行识别,从而可得到短视频所包含的文字信息;还可通过图像识别技术确定出每个图像帧中所包含的对象;进一步地,还可通过语音识别技术,对短视频包含的语音信息进行识别,从而得到短视频所包含的语音信息。基于短视频所包含的文字信息、图像信息以及语音信息,可确定短视频的标签信息以及涉及的相关主题等方面的内容。
[0181]
本公开实施例中在具体进行多样性指标计算时,是基于多样性评价指标α-ndcg来实现的,其实现原理是新发现的主题被奖励,已经被发现过的主题被惩罚;对于α-ndcg的具体计算过程可通过以下示例来说明。
[0182]
当前输入的搜索词中包含的目标主题为{1,2,3,4,5},当前信息检索结果的排序为a,b,c,其中:
[0183]
对象a包含的对象主题为{1,2},
[0184]
对象b包含的对象主题为{3,6,7},
[0185]
对象c包含的对象主题为{3,4,5},
[0186]
对于对象a,其包含了目标主题1和2,从而计算α-ndcg时包含两项(1-α)0,并考虑到排序位置为1;对于对象b,其包含了目标主题3,且目标主题3没有在之前的检索结果中出现过,从而计算α-ndcg时包含一项(1-α)0,并考虑到排序位置为2;对于对象c,其包含了目标主题3,4,5,由于目标主题3在之前的检索结果中出现过一次,目标主题4和5在之前的检索结果中没有出现过,从而计算α-ndcg时包含一项(1-α)1和两项(1-α)0,并考虑到排序位置为3。最终对象a,b,c的α-ndcg之和为最终的检索结果的多样性评价指标α-ndcg。
[0187]
本公开实施例中具体采用了基于词向量word embedding进行主题匹配的方法,以及基于贪心规则的候选对象排序方法,并结合多样性指标的计算方法来对候选对象集合进行处理,从而增强了信息检索结果的多样性。
[0188]
本公开通过获取包括搜索词的信息检索请求,根据搜索词得到候选对象集合以及确定与搜索词对应的目标对象集合;根据每次对候选对象集合中每个候选对象的多样性指标的计算结果,从候选对象集合中选择多样性指标满足预设条件的候选对象依次添加到信息检索结果队列的尾部;当候选对象集合为空集时,将当前包含多个目标对象的信息检索结果队列确定为与搜索词对应的信息检索结果并输出。本公开能够使得返回的信息检索结果中排序靠前的候选对象尽可能多地包含不同的主题,提高检索结果的主题覆盖率,从而能够有效覆盖用户意图,降低检索结果的冗余性,增强了检索结果的多样性,提高信息检索结果的准确性。
[0189]
本公开实施例还提供了一种信息检索结果处理装置,请参阅图10,该装置可包括:
[0190]
信息检索请求获取单元1010,被配置为执行获取信息检索请求,所述信息检索请求中包括搜索词;
[0191]
信息检索请求处理单元1020,被配置为执行根据所述搜索词得到候选对象集合,以及确定与所述搜索词对应的目标主题集合;
[0192]
队列初始化单元1030,被配置为执行初始化信息检索结果队列;
[0193]
重复执行单元1040,被配置为执行重复调用以下单元,直至所述候选对象集合为空集:
[0194]
多样性指标计算单元1050,被配置为执行根据所述候选对象集合中的每个候选对象包含的对象主题,以及所述目标主题集合,计算所述每个候选对象的多样性指标;
[0195]
检索结果对象确定单元1060,被配置为执行将所述多样性指标满足预设条件的候选对象确定为检索结果对象;
[0196]
更新单元1070,被配置为执行将所述检索结果对象添加至所述信息检索结果队列的尾部,以及将所述检索结果对象从所述候选对象集合中删除;
[0197]
信息检索结果生成单元1080,被配置为执行若所述候选对象集合为空集,输出所述信息检索结果队列。
[0198]
在一示例性实施例中,所述多样性指标计算单元1050包括:
[0199]
主题匹配单元,被配置为执行对于所述每个候选对象包含的每个对象主题,均将所述每个对象主题与所述目标主题集合中的各个目标主题逐一进行匹配,得到与所述每个候选对象对应的匹配主题;
[0200]
多样性指标子项计算单元,被配置为执行计算与所述匹配主题对应的多样性指标子项;
[0201]
多样性指标确定单元,被配置为执行基于所述多样性指标子项,得到所述每个候选对象的多样性指标。
[0202]
在一示例性实施例中,所述装置还包括:
[0203]
第一词向量生成单元,被配置为执行生成与所述目标主题集合中的每个目标主题对应的第一词向量;
[0204]
对象主题确定单元,被配置为执行确定所述候选对象集合中的每个候选对象包含的至少一个对象主题;
[0205]
第二词向量生成单元,被配置为执行生成与每个对象主题对应的第二词向量。
[0206]
在一示例性实施例中,所述主题匹配单元包括:
[0207]
匹配主题判断单元,被配置为执行判断所述每个候选对象包含的每个对象主题是否为匹配主题;
[0208]
匹配结果确定单元,被配置为执行基于对所述每个候选对象的每个对象主题的判断结果,得到与所述每个候选对象对应的匹配主题。
[0209]
在一示例性实施例中,所述匹配主题判断单元包括:
[0210]
词向量距离计算单元,被配置为执行逐一计算所述每个对象主题对应的第二词向量,与所述目标主题集合中的每个目标主题对应的第一词向量的距离,得到词向量距离集合;
[0211]
比较单元,被配置为执行将所述词向量距离集合中最小的词向量距离与预设阈值进行比较;
[0212]
匹配主题确定单元,被配置为执行当所述最小的词向量距离小于所述预设阈值时,将所述每个对象主题确定为匹配主题。
[0213]
在一示例性实施例中,所述多样性指标子项计算单元包括:
[0214]
第一确定单元,被配置为执行确定所述信息检索结果队列中包含所述匹配主题的候选对象的数量;
[0215]
第一计算单元,被配置为执行基于预设的多样性指标子项计算公式,以及所述信息检索结果队列中包含所述匹配主题的候选对象的数量,计算与所述匹配主题对应的多样性指标子项。
[0216]
在一示例性实施例中,所述装置还包括:
[0217]
内容识别单元,被配置为执行对信息资源库中各对象的内容进行文字识别以及图像识别,根据识别结果确定各对象包含的标签信息;
[0218]
所述信息检索请求处理单元1020包括:
[0219]
搜索词分词单元,被配置为执行对所述搜索词进行分词,得到至少一个搜索关键词;
[0220]
搜索对象集合确定单元,被配置为执行从所述信息资源库中分别确定出与每个搜索关键词对应的搜索对象集合;其中所述每个搜索关键词与相应搜索对象集合中的每个搜索对象的标签信息具有相关性;
[0221]
候选对象集合确定单元,被配置为执行基于所述搜索对象集合生成所述候选对象集合。
[0222]
在一示例性实施例中,所述信息检索请求处理单元1020包括:
[0223]
搜索词分析单元,被配置为执行对所述搜索词进行分析,确定与所述搜索词对应的潜在搜索意图;
[0224]
主题挖掘单元,被配置为执行基于与所述搜索词对应的潜在搜索意图进行主题挖掘,生成与所述搜索词对应的多个目标主题;
[0225]
目标主题集合生成单元,被配置为执行基于与所述搜索词对应的多个目标主题,生成所述目标主题集合。
[0226]
在一示例性实施例中,所述多样性指标满足预设条件的候选对象为所述多样性指标最大的候选对象;
[0227]
所述检索结果对象确定单元1060包括:
[0228]
非匹配主题数量确定单元,被配置为执行当所述多样性指标最大的候选对象的数量大于一个时,确定每个多样性指标最大的候选对象包含的非匹配主题的数量;
[0229]
第二确定单元,被配置为执行将非匹配主题的数量最小的候选对象确定为所述检索结果对象。
[0230]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0231]
本公开实施例中,还提供了一种包括指令的存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行本实施例上述的任一方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0232]
本实施例还提供了一种服务器,其结构图请参见图11,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储媒体1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储媒体1130可以是短暂存储或持久存储。存储在存储媒体1130的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储媒体1130通信,在设备1100上执行存储媒体1130中的一系列指令操作。设备1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
等等。本实施例上述的任一方法均可基于图11所示的服务器进行实施。
[0233]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其
它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0234]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献