一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种搜索结果排序方法及装置与流程

2022-02-24 17:15:08 来源:中国专利 TAG:


1.本技术涉及互联网技术领域,具体涉及一种搜索结果排序方法及装置。


背景技术:

2.在用户进行搜索查询时,会根据用户的搜索请求生成对应的搜索结果。当判断用户的搜索请求是时效性事件的搜索请求时,可以对搜索结果进行调整,将时效性较强的搜索结果排在较高的位置,以便用户进行浏览和选择。
3.目前,在判断搜索请求是否是时效性事件的搜索请求存在着一定的滞后性,使得不能及时地向用户反馈时效性较强的搜索结果,导致对应于用户的搜索请求得到的搜索结果队列排序不够准确。


技术实现要素:

4.有鉴于此,本技术实施例提供一种搜索结果排序方法及装置,能够实时地对用户的搜索请求进行判断,对搜索结果进行相应的排序。
5.为解决上述问题,本技术实施例提供的技术方案如下:
6.一种搜索结果排序方法,所述方法包括:
7.接收客户端发送的图片搜索请求,获取所述图片搜索请求对应的搜索结果;
8.获取时效性事件的信息聚类结果,所述时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,所述信息聚类结果包括至少一个图片类簇,每个所述图片类簇中包括至少一幅图片;
9.根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,判断所述图片搜索请求是否为时效性事件搜索请求;
10.当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列。
11.在一种可能的实现方式中,所述根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,判断所述图片搜索请求是否为时效性事件搜索请求,包括:
12.确定各个所述图片类簇中的图片出现在所述图片搜索请求对应的搜索结果中的第一数量;
13.将所述第一数量大于第一阈值的图片类簇确定为第一目标图片类簇;
14.如果所述图片搜索请求对应的搜索结果所属的第一目标图片类簇数量大于第二阈值,判断所述图片搜索请求为时效性事件搜索请求。
15.在一种可能的实现方式中,所述当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列,包括:
16.当所述图片搜索请求为时效性事件搜索请求,获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征;所述第二目标图片类簇为所述图片搜索请求对应的搜索结果中各个图片所对应的图片类簇;
17.按照所述第二目标图片类簇的类簇特征对所述第二目标图片类簇进行排序,生成排序结果;
18.在每个所述第二目标图片类簇中选择一幅图片作为第一目标搜索结果;
19.按照所述排序结果,对所述第一目标搜索结果以及所述搜索结果中不属于所述第二目标图片类簇的其他搜索结果进行排序,生成搜索结果队列,在所述搜索结果队列中,所述第一目标搜索结果的排序位置高于所述其他搜索结果的排序位置。
20.在一种可能的实现方式中,所述获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征,包括:
21.获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇中图片的第二数量、所述第二目标图片类簇中图片对应的来源网站数量;
22.获取所述第二目标图片类簇中图片对应的文本特征;
23.所述按照所述第二目标图片类簇的类簇特征对所述目标图片类簇进行排序,生成排序结果,包括:
24.按照所述搜索请求包括的查询词与所述第二目标图片类簇中图片对应的文本特征的匹配程度、所述第二目标图片类簇中图片的第二数量以及所述第二目标图片类簇中图片对应的来源网站数量,对所述第二目标图片类簇进行排序,生成排序结果。
25.在一种可能的实现方式中,所述获取所述第二目标图片类簇中图片对应的文本特征,包括:
26.获取所述第二目标图片类簇中图片对应的描述文本中各个分词的词频,将所述词频最高的至少一个分词作为所述第二目标图片类簇中图片对应的文本特征;
27.或者,获取所述第二目标图片类簇中图片对应的描述文本中各个分词的特征向量,在所述特征向量中将出现次数最多的至少一个特征向量作为所述第二目标图片类簇中图片对应的文本特征。
28.在一种可能的实现方式中,所述方法还包括:
29.在所述时效性事件的信息聚类结果中确定垃圾信息类簇,在所述时效性事件的信息聚类结果中去除所述垃圾信息类簇;
30.所述在所述时效性事件的信息聚类结果中确定垃圾信息类簇,包括:
31.如果第三目标图片类簇中图片的第三数量大于第三阈值,或者第三目标图片类簇对应的来源网站数量小于第四阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇;
32.或者,如果第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇。
33.一种搜索结果排序装置,所述装置包括:
34.搜索结果获取单元,用于接收客户端发送的图片搜索请求,获取所述图片搜索请求对应的搜索结果;
35.信息聚类结果获取单元,用于获取时效性事件的信息聚类结果,所述时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,所述信息聚类结果包括至少一个图片类簇,每个所述图片类簇中包括至少一幅图片;
36.判断单元,用于根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,,判断所述图片搜索请求是否为时效性事件搜索请求;
37.搜索结果队列生成单元,用于当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列。
38.在一种可能的实现方式中,所述判断单元,包括:
39.第一数量确定模块,用于确定各个所述图片类簇中的图片出现在所述图片搜索请求对应的搜索结果中的第一数量;
40.图片类簇确定模块,用于将所述第一数量大于第一阈值的图片类簇确定为第一目标图片类簇;
41.第一判断模块,用于如果所述图片搜索请求对应的搜索结果所属的第一目标图片类簇数量大于第二阈值,判断所述图片搜索请求为时效性事件搜索请求。
42.在一种可能的实现方式中,所述搜索结果队列生成单元,包括:
43.类簇特征获取子单元,用于当所述图片搜索请求为时效性事件搜索请求,获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征;所述第二目标图片类簇为所述图片搜索请求对应的搜索结果中各个图片所对应的图片类簇;
44.排序结果生成子单元,用于按照所述第二目标图片类簇的类簇特征对所述第二目标图片类簇进行排序,生成排序结果;
45.第一选择子单元,用于在每个所述第二目标图片类簇中选择一幅图片作为第一目标搜索结果;
46.第一搜索结果队列生成子单元,用于按照所述排序结果,对所述第一目标搜索结果以及所述搜索结果中不属于所述第二目标图片类簇的其他搜索结果进行排序,生成搜索结果队列,在所述搜索结果队列中所述第一目标搜索结果的排序位置高于所述其他搜索结果的排序位置。
47.在一种可能的实现方式中,所述类簇特征获取子单元,包括:
48.来源网站数量获取模块,用于获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇中图片的第二数量、所述第二目标图片类簇中图片对应的来源网站数量;
49.文本特征获取模块,用于获取所述第二目标图片类簇中图片对应的文本特征;
50.所述排序结果生成子单元,具体用于:
51.按照所述搜索请求包括的查询词与所述第二目标图片类簇中图片对应的文本特征的匹配程度、所述第二目标图片类簇中图片的第二数量以及所述第二目标图片类簇中图片对应的来源网站数量,对所述第二目标图片类簇进行排序,生成排序结果。
52.在一种可能的实现方式中,所述文本特征获取模块,具体用于:
53.获取所述第二目标图片类簇中图片对应的描述文本中各个分词的词频,将所述词频最高的至少一个分词作为所述第二目标图片类簇中图片对应的文本特征;
54.或者,获取所述第二目标图片类簇中图片对应的描述文本中各个分词的特征向量,在所述特征向量中将出现次数最多的至少一个特征向量作为所述第二目标图片类簇中图片对应的文本特征。
55.在一种可能的实现方式中,所述装置还包括:
56.垃圾信息类簇确定单元,用于在所述时效性事件的信息聚类结果中确定垃圾信息
类簇;
57.垃圾信息类簇去除单元,用于在所述时效性事件的信息聚类结果中去除所述垃圾信息类簇;
58.所述垃圾信息类簇确定单元,具体用于:
59.如果第三目标图片类簇中图片的第三数量大于第三阈值,或者第三目标图片类簇对应的来源网站数量小于第四阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇;
60.或者,如果第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇。
61.一种搜索结果排序装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
62.接收客户端发送的图片搜索请求,获取所述图片搜索请求对应的搜索结果;
63.获取时效性事件的信息聚类结果,所述时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,所述信息聚类结果包括至少一个图片类簇,每个所述图片类簇中包括至少一幅图片;
64.根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,判断所述图片搜索请求是否为时效性事件搜索请求;
65.当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列。
66.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行所述的搜索结果排序方法。
67.由此可见,本技术实施例具有如下有益效果:
68.本技术实施例提供的搜索结果排序方法中,服务器接收客户端发送的图片搜索请求,获取图片搜索请求对应的搜索结果,获取时效性事件的信息聚类结果,其中,时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,信息聚类结果包括至少一个图片类簇,每个图片类簇中包括至少一幅图片;服务器根据图片搜索请求对应的搜索结果与图片类簇的匹配程度,判断图片搜索请求是否为时效性事件搜索请求;当图片搜索请求为时效性事件搜索请求时,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列。其中,根据图片搜索请求对应的搜索结果与图片类簇的匹配程度,确定的属于时效性事件搜索请求的图片搜索请求,具有实时性。通过图片搜索请求对应的搜索结果与图片类簇的匹配程度,可以及时地发现用户的图片搜索请求进行是否为时效性事件搜索请求,当图片搜索请求为时效性事件搜索请求时,利用信息聚类结果进行搜索结果的排序,可以得到较为准确的搜索结果队列。
附图说明
69.图1为本技术实施例提供的示例性应用场景的框架示意图;
70.图2为本技术实施例提供的一种搜索结果排序方法的流程图;
71.图3为本技术实施例提供的一种搜索请求是否为时效性事件搜索请求的判断方法的流程图;
72.图4为本技术实施例提供的一种生成搜索结果队列方法的流程图;
73.图5为本技术实施例提供的一种搜索结果排序装置的结构示意图;
74.图6为本技术实施例提供的一种用于搜索结果排序装置的结构示意图;
75.图7为本技术实施例提供的一种服务器设备的结构示意图。
具体实施方式
76.为使本技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本技术实施例作进一步详细的说明。
77.为了便于理解和解释本技术实施例提供的技术方案,下面将先对本技术的背景技术进行说明。
78.发明人对传统的搜索结果排序进行研究后发现,在进行搜索结果排序之前,先进行搜索请求是否为时效性事件搜索请求的判断,其中,时效性事件是指发生时间较近的热点事件。在现有技术中,时效性事件是通过获取搜索请求中的查询词出现的频率来确定的,当查询词在网络中的搜索请求中出现的频率较高时,将该查询词对应的事件确定为时效性事件。但是,通过搜索请求中查询词出现的频率来确定查询词对应的事件是否为时效性事件,需要大量具有该查询词的搜索请求时才可以达到将该事件确定为时效性事件的条件,这使得时效性事件的确定具有一定的滞后性,不能在进行搜索请求时及时地确定该搜索请求是否为时效性事件搜索请求。
79.基于此,本技术实施例提供了一种搜索结果排序方法,该方法包括:首先,接收客户端发送的图片搜索请求,获取图片搜索请求对应的搜索结果,还获取时效性事件的信息聚类结果,时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,信息聚类结果包括至少一个图片类簇,每个图片类簇中包括至少一幅图片;其次,根据图片搜索请求对应的搜索结果与图片类簇的匹配程度,判断图片搜索请求是否为时效性事件搜索请求,从而实现实时地对图片搜索请求进行时效性事件搜索请求的判断;最后,当图片搜索请求为时效性事件搜索请求,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列,可以得到较为准确的搜索结果。
80.参见图1,该图为本技术实施例提供的示例性应用场景的框架示意图。其中,本技术实施例提供的搜索结果排序方法可以应用于服务器20中。
81.在实际应用中,服务器20获取客户端10发送的搜索请求,根据图片搜索请求获取对应的图片搜索结果,获取时效性事件的信息聚类结果,利用图片搜索请求对应的搜索结果与所述图片类簇的匹配程度判断图片搜索请求是否为时效性事件搜索请求,当图片搜索请求是时效性事件搜索请求时,利用信息聚类结果进行搜索结果的排序,生成搜索结果队列,并向客户端10发送搜索结果队列,以便客户端10进行搜索结果队列的显示。
82.本领域技术人员可以理解,图1所示的框架示意图仅是本技术的实施方式可以在其中得以实现的一个示例。本技术实施方式的适用范围不受到该框架任何方面的限制。
83.需要注意的是,客户端10可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如,wi-fi、lan、蜂窝、同轴电缆等)相互交互的任何用户设
备,包括但不限于:现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本技术的实施方式在此方面不受任何限制。还需要注意的是,本技术实施例中服务器20可以是现有的、正在研发的或将来研发的、能够向用户提供信息推荐的应用服务的设备的一个示例。本技术的实施方式在此方面不受任何限制。
84.为便于理解本技术实施例提供的技术方案,下面将结合附图对本技术实施例提供的搜索结果排序方法进行说明。
85.参见图2,该图为本技术实施例提供的一种搜索结果排序方法的流程图,如图2所示,该方法可以包括s201-s204:
86.s201:接收客户端发送的图片搜索请求,获取图片搜索请求对应的搜索结果。
87.客户端发送的图片搜索请求可以为包括有查询词的用于进行图片搜索的请求,图片搜索请求可以用于表示所要进行图片搜索的事件。
88.通过接收到的图片搜索请求,可以通过在网络中抓取到的信息确定与图片搜索请求对应的搜索结果。可以理解的是,在向客户端发送搜索结果之前,还需要调整搜索结果的排序,得到搜索结果队列,使得搜索结果所显示的顺序更便于用户的浏览和使用。
89.在本技术实施例中,通过接收客户端发送的图片搜索请求,可以获取与图片搜索请求对应的搜索结果,并及时地对图片搜索请求进行是否为时效性事件搜索请求的判断。当图片搜索请求为时效性事件搜索请求时,进一步对搜索结果进行排序,得到更准确的排序结果队列。
90.s202:获取时效性事件的信息聚类结果,时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,信息聚类结果包括至少一个图片类簇,每个图片类簇中包括至少一幅图片。
91.时效性事件是指发生时间较近的热点事件。时效性事件通常先是在网络中具有相关事件信息的报道,之后通过信息的传播获得用户的关注,用户进一步的利用客户端通过发送搜索请求进行时效性事件的搜索。时效性事件通常是先具有相关信息的报道,之后才会引起用户关注,进行相关信息的搜索。由此可见,可以通过获取网络中预设时间段内产生的信息,对网络中预设时间段内产生的信息进行聚类,可以及时地得到在该时间段内网络中产生的信息所对应的信息聚类结果,该信息聚类结果就为时效性事件的信息聚类结果。
92.本技术实施例中不限定预设时间段的具体时间长度,预设时间段可以根据需要获取的时效性事件的时效性程度进行对应的设置。例如,当需要获取的时效性事件的时效性较高时,对应的预设时间段的时间长度较短,例如3个小时;当需要获取的时效性事件的时效性稍低时,对应的预设时间段的时间长度可以稍长,例如24小时。
93.信息聚类结果是根据获取到的网络中预设时间段内产生的信息进行聚类得到的。信息聚类结果中包括至少一个信息类簇,一个信息类簇可以对应于一个时效性事件的信息。一个信息类簇中具有属于同一事件的同类的相关信息,例如,与同一时效性事件相关的同类图片或者是与同一时效性事件相关的同类的文本关键词等。具体的,当信息类簇为图片类簇时,对应的信息聚类结果中至少包括一个图片类簇。每个图片类簇中至少包括一幅图片,一个图片类簇中具有同样的图片。同样的图片可以为内容一致,具有相同角度的图片,对图片进行放大缩小的处理以及添加水印等图片处理得到的图片可以认为为同样的图
片。
94.s203:根据图片搜索请求对应的搜索结果与图片类簇的匹配程度,判断图片搜索请求是否为时效性事件搜索请求。
95.在获取到时效性事件的信息聚类结果后,可以根据时效性事件的信息聚类结果进行时效性事件搜索请求的判断。
96.具体的,图片搜索请求对应于具体的事件,通过获取时效性事件的信息聚类结果中的图片类簇,可以通过搜索结果与图片类簇的匹配程度确定图片搜索请求是否是时效性事件搜索请求。当该图片搜索请求是时效性事件搜索请求时,需要对对应的搜索结果进行排序,调整时效性更高的搜索结果的排序,得到更为准确的搜索结果队列。
97.根据图片搜索请求对应的搜索结果与图片类簇的匹配程度,可以得到搜索结果中的图片与图片类簇中的图片的相似或者相同程度。具体的,当图片搜索请求对应的搜索结果与图片类簇的匹配程度较高时,说明该图片搜索请求对应的搜索结果中具有较多的与图片类簇中的图片相似或者相同的图片,对应的搜索请求为时效性事件搜索请求;当图片搜索请求对应的搜索结果与图片类簇的匹配程度低时,说明该图片搜索请求对应的搜索结果中具有较少的与图片类簇中的图片相似或者相同的图片,对应的搜索请求不为时效性事件搜索请求。
98.本技术实施例提供了s203的一种具体实施方式,请参见下文。
99.需要说明的是,在获取时效性事件的信息聚类结果后,需要及时地对信息聚类结果进行加载,以便实时地通过信息聚类结果进行图片搜索请求的判断。
100.在本技术实施例中,由于信息聚类结果是网络中在预设时间段生成的信息进行聚类得到的,得到的信息聚类结果具有实时性。通过利用信息聚类结果中的图片类簇进行图片搜索请求的判断,可以实现较为及时地对图片搜索请求进行判断,以便准确地对搜索结果进行排序。
101.s204:当图片搜索请求为时效性事件搜索请求,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列。
102.根据图片搜索请求得到的搜索结果是未进行排序的,在进行搜索结果的显示之前,需要对搜索结果进行排序,以便进行显示。如果图片搜索请求是时效性事件搜索请求,需要将时效性事件搜索请求关联度较高、时效性较高的搜索结果排在较高的位置,以便用户快速的查询到与该时效性事件搜索请求关联度较高的搜索结果,避免与该时效性事件关联度不高的搜索结果排在搜索结果队列较高的位置,导致用户无法快速的获取到准确的信息。
103.得到的搜索结果队列具有按照一定顺序排列的搜索结果。搜索结果队列可以用于客户端显示搜索结果,以便用户可以进行搜索结果的浏览。
104.在本技术实施例中,当图片搜索请求是时效性事件搜索请求时,利用信息聚类结果对搜索结果进行排序,得到搜索结果队列。根据信息聚类结果排序得到的搜索结果队列,可以更为准确的将与时效性事件关联度较高、时效性较高的搜索结果排放在队列中较高的位置,便于用户快速的获取到准确的信息。
105.另外,在一种可能的实现方式中,本技术实施例提供一种利用信息聚类结果对搜索结果进行排序,生成搜索结果队列的方法,具体请参见下文具体实施方式。
106.基于上述s201至s204的相关内容可知,在本技术实施例中,接收客户端发送的图片搜索请求,获取对应的搜索结果,获取时效性事件的信息聚类结果。由于获取的时效性事件的信息聚类结果是实时的,所以可以及时地利用时效性事件的信息聚类结果判断搜索请求。如果搜索请求为时效性事件搜索请求,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列。通过对网络中预设时间段内产生的信息聚类,可以及时地得到时效性事件的信息聚类结果,并由此及时地对搜索请求进行判断,进而生成较为准确的搜索结果队列。
107.可以理解的是,网络中预设时间段内产生的信息并非全部是与时效性事件相关的信息,这会导致得到的时效性事件的信息聚类结果中,可能存在着不能用于进行搜索请求判断以及搜索结果排序的垃圾信息类簇。若时效性事件的信息聚类结果中具有垃圾信息类簇,可能会将不是时效性事件搜索请求误判为时效性事件搜索请求,影响对于搜索请求的判断的准确性。
108.基于上述在获取到的时效性事件的信息聚类结果中存在着垃圾信息类簇,影响对搜索请求的判断以及搜索结果排序的问题,本技术实施例还提供了搜索结果排序的另一实施方式,在该实施方式中,搜索结果排序方法除了包括上述s201至s204以外,在执行上述s202之后,还可以包括以下步骤:
109.在时效性事件的信息聚类结果中确定垃圾信息类簇,在时效性事件的信息聚类结果中去除垃圾信息类簇。
110.垃圾信息类簇是指影响对于搜索请求判断以及搜索结果排序的信息类簇,垃圾信息类簇可以包括不属于时效性事件的信息类簇、与时效性事件关联程度不高的信息类簇、以及可信度不高的信息类簇等。其中,不属于时效性事件的信息类簇是指由在互联网上预设时间段内产生的常用的信息或者是与具体事件无关的宣传信息聚类得到的信息类簇。具体的,例如,可以为与常用语、常用表情相关的信息类簇以及与广告相关的信息类簇等。与时效性事件关联程度不高的信息类簇是指由于时效性事件部分相关的信息聚类得到的信息类簇。例如,若一个时效性事件主要是由人物和地点组成,则仅针对该人物或该地点的信息就为与该有效性事件关联程度不高的部分信息,不能完全的反映该时效性事件,聚类得到的信息类簇就为与时效性事件关联程度不高的信息类簇。此外,可信度不高的信息类簇也可以为垃圾信息类簇,例如信息类簇中具有的信息数量较多,但是信息的来源网站数量较少,由这类信息聚类得到的信息类簇为可信度不高的信息类簇。
111.在确定垃圾信息类簇后,可以将确定的垃圾信息类簇从时效性事件的信息聚类结果中去除,得到更新后的时效性事件的信息聚类结果。利用更新后的信息聚类结果可以更加准确的进行对于搜索请求的判断,可以避免垃圾信息类簇对于搜索请求误判的影响,进而提高搜索结果队列排序的准确度。
112.在本技术实施例中,垃圾信息类簇可以为垃圾图片类簇,则在时效性事件的信息聚类结果中确定垃圾信息类簇,具体可以包括a1-a3:
113.a1:如果第三目标图片类簇中图片的第三数量大于第三阈值,将第三目标图片类簇确定为垃圾信息类簇。
114.第三目标图片类簇为时效性事件的信息聚类结果中包括的图片类簇。通过判断第三目标图片类簇中图片的第三数量是否大于第三阈值,来确定第三目标图片类簇是否为垃圾信息类簇。其中,第三阈值可以为较大数值,例如,第三阈值为1000。可以理解的是,当第
三目标图片类簇中图片的第三数量较大时,对应的第三目标图片类簇中具有的图片较多,可能不具有针对时效性事件的相关信息。对应的第三目标图片类簇可能是不属于时效性事件的图片类簇或者与时效性事件关联程度不高的图片类簇。例如,由常用语对应的图片组成的图片类簇、或者是宣传图片组成的图片类簇,此类图片类簇具有的图片数量较多,与时效性事件无关,并不包括时效性事件的信息。此外,第三目标图片类簇还可以为与时效性事件关联程度不高的图片类簇,由于该类图片类簇中的图片对应的信息所包括的范围较大,所以对应的具有的图片数量较多。
115.a2:如果第三目标图片类簇对应的来源网站数量小于第四阈值,将第三目标图片类簇确定为垃圾信息类簇。
116.第三目标图片类簇为时效性事件的信息聚类结果中包括的图片类簇。当第三目标图片类簇对应的来源网站数量小于第四阈值时,可以认为第三目标图片类簇中图片的来源范围较小,可信度不高。其中,第四阈值可以为较小数值。
117.a3:如果第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值,将第三目标图片类簇确定为垃圾信息类簇。
118.第三目标图片类簇为时效性事件的信息聚类结果中包括的图片类簇。图片对应的描述文本可以表征图片的特征,可以根据图片对应的描述文本之间的相似度进行第三目标图片类簇是否为垃圾信息类簇的判断。当第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值时,表示各个图片的描述文本之间的相似度较低,说明第三目标图片类簇中的各个图片对应的描述文本无法体现该类簇中图片的共同特征,图片可能与描述文本之间不具有较强的联系,可能是较为常用的图片,例如,网页中的装饰图片或者是常用的表情图片。由此类图片组成的图片类簇与具体的时效性事件无关,属于垃圾信息类簇。
119.基于上述内容可知,在本技术实施例中,通过在获取的时效性事件的信息聚类结果中去除垃圾信息类簇,可以避免由于垃圾信息类簇对于利用信息聚类结果对于图片搜索请求判断的影响,可以更加准确判断图片搜索请求是否为有效性事件搜索请求,进而得到更为准确的搜索结果队列。
120.在一种可能的实现方式中,可以根据图片搜索请求对应的搜索结果中具有的各个图片类簇中图片的数量,来确定图片搜索请求对应的搜索结果与图片类簇的匹配程度,进而判断搜索请求是否为时效性事件搜索请求。参见图3,该图为本技术实施例提供的一种搜索请求是否为时效性事件搜索请求的判断方法的流程图,如图3所示,该方法可以包括s301-s303:
121.s301:确定各个图片类簇中的图片出现在图片搜索请求对应的搜索结果中的第一数量。
122.获取图片搜索请求对应的搜索结果,确定各个图片类簇中的图片出现在搜索结果中的第一数量。第一数量是指图片类簇中的图片出现在搜索结果中的数量,通过获取各个图片类簇的图片出现在搜索结果中的第一数量,可以得到图片类簇中的图片在图片搜索请求对应的搜索结果中出现的情况,以便进行搜索请求的判断。
123.由于图片搜索请求对应的搜索结果中具有的图片数量可能较多,可以先将图片搜索请求对应的搜索结果进行初步排序,利用排序较前的图片作为确定各个图片类簇中的图
片出现在搜索结果中第一数量所使用的图片。本技术实施例中不限定初步排序的排序方法,可以根据搜索结果中图片与搜索请求的关联度、图片的时效性、图片的质量等进行搜索结果中图片的初步排序。
124.s302:将第一数量大于第一阈值的图片类簇确定为第一目标图片类簇。
125.在得到各个图片类簇中的图片出现在图片搜索请求对应的搜索结果中的第一数量之后,将第一数量大于第一阈值的图片类簇确定为第一目标图片类簇。其中,第一阈值可以为图片类簇中出现在搜索结果中的图片的数量对应的阈值,也可以为图片类簇中出现在搜索结果中的图片的数量与该图片类簇中图片的总数量的比值对应的阈值。当图片类簇的第一数量大于第一阈值时,该图片类簇中具有的出现在搜索结果中的图片数量或者是图片比例较高,可以将该图片类簇确定为第一目标图片类簇。
126.第一目标图片类簇可以用于进一步确定搜索请求是否为有效性事件搜索请求。可以理解的是,一个图片类簇中具有同样的图片,当图片类簇中具有的出现在搜索结果中的图片数量或者是图片比例较高时,可以认为该图片类簇与搜索结果的相关度较高,可以进一步的通过第一目标图片类簇确定搜索请求是否为有效性事件搜索请求。相对应的,如果一个图片类簇不属于第一目标图片类簇,说明该图片类簇中具有的出现在搜索结果中的图片数量或者是图片比例较低,与搜索结果的相关度较低,在利用图片类簇确定搜索请求是否为有效性事件搜索请求时,可以将不考虑该图片类簇。
127.本技术实施例中,通过进行第一数量与第一阈值的比较,将第一数量大于第一阈值的图片类簇确定为第一目标图片类簇,在进行图片搜索结果的判断时,可以根据第一目标图片类簇的数量进行判断,由此可以排除掉出现在图片搜索请求对应的搜索结果中图片的第一数量较小的图片类簇,避免该类图片类簇对于搜索请求判断的影响,提高搜索请求判断的准确性。
128.s303:如果图片搜索请求对应的搜索结果所属的第一目标图片类簇数量大于第二阈值,判断图片搜索请求为时效性事件搜索请求。
129.当图片搜索请求对应的搜索结果所属的第一目标图片类簇数量较多时,图片搜索请求对应的搜索结果中具有多种时效性事件对应的图片,由此可以将该搜索请求确定为时效性事件搜索请求。其中,第二阈值可以为第一目标图片类簇的数量对应的阈值。
130.基于上述s301至s303的内容可知,本技术实施例中,根据搜索结果中的图片与图片类簇中的图片,先确定第一目标图片类簇,再通过第一目标图片类簇的数量确定搜索请求是否为时效性事件的搜索请求。第一目标图片类簇为与搜索结果相关度较高的图片类簇,当具有数量较多的第一目标图片类簇时,则可以认为搜索结果是有效性事件的搜索结果,对应的搜索请求为有效性事件搜索请求。通过确定第一目标图片类簇,可以在判断搜索请求时,去除与搜索结果相关度较低的图片类簇的影响,进一步提高对于图片搜索请求判断的准确性。
131.进一步的,本技术实施例提供一种搜索请求为图片搜索请求时,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列的方法。参见图4,该图为本技术实施例提供的一种生成搜索结果队列方法的流程图,如图4所示,该方法可以包括s401-s404:
132.s401:当图片搜索请求为时效性事件搜索请求,获取图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征;第二目标图片类簇为图片搜索请求对应的搜索结
果中各个图片所对应的图片类簇。
133.在确定图片搜索请求为有效性事件搜索请求之后,需要对搜索结果进行排序,由于搜索结果中可能具有与时效性事件的搜索请求相关的,但时效性较低的搜索结果,所以需要将时效性较高的搜索结果排在较高的位置,以便用户进行浏览和选择。
134.在进行搜索结果排序之前,可以获取图片搜索请求对应的搜索结果的第二目标图片类簇的类簇特征。其中,第二目标图片类簇是指图片搜索请求对应的搜索结果中各个图片所对应的图片类簇,也就是说,若图片类簇中的图片出现在搜索结果中,就将该图片类簇确定为第二目标图片类簇。
135.第二目标图片类簇的类簇特征可以为用于表征第二目标图片类簇中图片相关信息的特征。第二目标图片类簇的类簇特征可以根据第二目标图片类簇中的全部或者部分图片进行确定,可以避免仅根据单张图片得到该图片对应的第二目标图片类簇的类簇特征所导致的类簇特征不准确的问题。
136.在一种可能的实现方式中,第二目标图片类簇的类簇特征可以包括第二目标图片类簇中图片的第二数量、对应的来源网站数量以及对应的文本特征。
137.对应的,获取图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征,可以包括b1-b2:
138.b1:获取图片搜索请求对应的搜索结果所属的第二目标图片类簇中图片的第二数量、第二目标图片类簇中图片对应的来源网站数量。
139.第二目标图片类簇中图片的第二数量可以为第二目标图片类簇中所具有的图片的数量,第二目标图片类簇中图片对应的来源网站数量是指第二目标图片类簇中图片对应的来源网站的数量。
140.b2:获取第二目标图片类簇中图片对应的文本特征。
141.第二目标图片类簇中图片对应的文本特征是指图片对应的描述文本的文本特征。可以理解的是,图片对应的文本中具有与图片对应的特征,可以将第二目标图片类簇中图片对应的文本特征作为第二目标图片类簇的类簇特征之一。另外,本技术实施例还提供了获取第二目标图片类簇中图片对应的文本特征的实施方式,请参见下文具体实施方式。
142.s402:按照第二目标图片类簇的类簇特征对第二目标图片类簇进行排序,生成排序结果。
143.按照获取到的第二目标图片类簇的类簇特征,对第二目标图片类簇进行排序,得到第二目标图片类簇的排序结果。对于不同的第二目标图片类簇,图片类簇的质量不同,可以先对第二目标图片类簇进行排序,得到第二目标图片类簇的排序结果,以便根据第二目标图片类簇的排序结果对搜索结果进行排序。
144.在一种可能的实现方式中,当第二目标图片类簇的类簇特征包括第二目标图片类簇中图片的第二数量、对应的来源网站数量以及对应的文本特征时,按照第二目标图片类簇的类簇特征对目标图片类簇进行排序,生成排序结果,可以包括:
145.按照搜索请求包括的查询词与第二目标图片类簇中图片对应的文本特征的匹配程度、第二目标图片类簇中图片的第二数量以及第二目标图片类簇中图片对应的来源网站数量,对第二目标图片类簇进行排序,生成排序结果。其中,需要说明的是,对应于不同的查询方式,查询词可以具有不同的来源。在一种可能的实现方式中,如果用户输入的搜索请求
是由字符组成的字符串,查询词可以是字符串或者是基于字符串的分词。如果用户输入的是图片,则查询词可以是基于对图片进行识别后得到的对应的语义词。
146.可以理解的是,搜索请求中具有查询词,搜索结果是根据查询词获得的,查询词可以表示搜索结果的特征,可以将搜索请求中包括的查询词与第二目标图片类簇中图片对应的文本特征的匹配程度作为排序的参考依据。本技术实施例中不限定确定搜索请求中包括的查询词与第二目标图片类簇中图片对应的文本特征的匹配程度的方式,可以获取查询词的特征向量,与图片的文本特征进行比较,得到查询词与图片对应的文本特征的匹配程度;也可以将查询词与图片的文本特征进行比较,得到查询词与图片对应的文本特征的匹配程度。
147.当第二目标图片类簇中图片的文本特征与查询词的匹配程度较高、图片的第二数量较大以及图片对应的来源网站数量较多时,该第二目标图片类簇与搜索请求的关联程度较高、具有的图片较为丰富、图片的可信度较高。因此,对第二目标图片类簇进行排序时,可以将匹配程度较高、图片的第二数量较大以及图片对应的来源网站数量较多的第二目标图片类簇放置在排序结果的较高的位置,以使根据第二目标图片类簇的排序结果进行排序得到的搜索结果队列较为准确。
148.s403:在每个第二目标图片类簇中选择一幅图片作为第一目标搜索结果。
149.第二目标图片类簇中具有至少一幅图片,可以在各个第二目标图片类簇中选择一幅图片作为第一目标搜索结果,用于生成搜索结果队列。在进行第二目标图片类簇中图片的选择时,可以选择第二目标图片类簇中图片质量最优的图片作为对应的第一目标搜索结果。通过在每个第二目标图片类簇中对应的选择一幅图片作为第一目标搜索结果,使得一个第二目标图片类簇对应于一个第一目标搜索结果,可以避免搜索结果的重复,提高搜索结果队列中搜索结果的有效程度,使得搜索结果队列更加准确。
150.s404:按照排序结果,对第一目标搜索结果以及搜索结果中不属于第二目标图片类簇的其他搜索结果进行排序,生成搜索结果队列,在搜索结果队列中第一目标搜索结果的排序位置高于其他搜索结果的排序位置。
151.可以理解的是,第一目标搜索结果是从第二目标图片类簇中选择的,时效性较高,与时效性事件的搜索结果的关联程度较高,在进行搜索结果排序时,可以将第一目标搜索结果排在较高的位置,以便用户浏览和选择。搜索请求对应的搜索结果中还具有不与图片类簇对应的搜索结果,此类搜索结果可能是时效性较低的搜索结果或者是与搜索请求关联度较低的搜索结果。在进行搜索结果的排序时,将该类搜索结果排在较后的位置。
152.在一些情况下,例如,信息聚类结果中可能具有由历史图片聚类得到的图片类簇,此类图片类簇在是根据预设时间段内产生的图片信息聚类得到的,但是图片类簇中的图片与历史图片相同,可以将此类图片类簇确定为历史图片类簇。在进行搜索结果的排序时,可以将不属于第二目标图片类簇的其他搜索结果排在第一目标搜索结果之后的位置。例如将属于历史图片类簇的第一目标搜索结果排在较低的排列位置,避免历史图片对于搜索结果排序的干扰。
153.根据得到的第二目标图片类簇的排序结果,对搜索结果进行排序,生成搜索结果队列。搜索结果中具有第一目标搜索结果和其他的搜索结果,将第一目标搜索结果排在其他搜索结果之前,使得用户根据搜索结果队列可以快速的浏览到与搜索请求关联程度较高
的搜索结果。
154.基于上述s401-s404的内容可知,本技术实施例中,当搜索请求是图片搜索请求,并且是有效性事件搜索请求时,利用搜索结果所属的第二目标图片类簇的类簇特征对第二目标图片类簇进行排序,再从第二目标图片类簇中选取图片作为第一目标搜索结果,最后根据排序结果和第一目标搜索结果对搜索结果进行排序。通过对第二目标图片类簇进行排序以及图片的选取,可以得到时效性较高、与时效性事件关联度较高的第一目标搜索结果,将第一目标搜索结果排在搜索结果队列中较高的位置,可以得到较为准确的搜索结果队列,以便用户快速获得与有效性事件搜索请求关联度较高的搜索结果。
155.基于上述获取第二目标图片类簇中图片对应的文本特征的相关内容,本技术实施例还提供了获取第二目标图片类簇中图片对应的文本特征的方法,包括c1和c2两种获取文本特征的方法。
156.c1:获取第二目标图片类簇中图片对应的描述文本中各个分词的词频,将词频最高的至少一个分词作为第二目标图片类簇中图片对应的文本特征。
157.可以理解的是,第二目标图片类簇中图片对应的描述文本可以是由多个词汇组成的句子,而搜索请求中通常具有的是查询词,所以将第二目标图片类簇中图片对应的描述文本进行分词,并选取分词作为图片对应的文本特征,以便后续将选取的分词与查询词进行匹配,确定文本特征与查询词的匹配程度。
158.需要说明的是,第二目标图片类簇中图片对应的描述文本可以为第二目标图片类簇中全部图片对应的描述文本或者是大部分图片对应的描述文本,通过数量占比较大的图片对应的描述文本获取文本特征,可以保证文本特征的准确度。获取描述文本中各个分词的词频,词频最高的分词可以表示该图片对应的文本特征。并且,部分图像对应的文本特征是由多个分词组成的,对应的,可以将词频最高的至少一个分词作为第二目标图片类簇中图片对应的文本特征,确保文本特征的完整性。
159.在上述基于词频选取分词作为文本特征的方法中,仅考虑到分词出现频率,会忽略语义对于文本特征的影响。为解决上述问题,本技术实施例还提供另一种获取文本特征的方法。
160.c2:获取第二目标图片类簇中图片对应的描述文本中各个分词的特征向量,在特征向量中将出现次数最多的至少一个特征向量作为第二目标图片类簇中图片对应的文本特征。
161.在对第二目标图片类簇中图片对应的描述文本进行分词的基础上,进一步获取各个分词的特征向量,将在特征向量中出现次数最多的至少一个特征向量作为文本特征。通过将在特征向量中出现次数最多的至少一个特征向量作为文本特征,可以从语义以及频率两个方面确定特征向量,使得得到的特征向量可以更好的体现图片的特征。
162.进一步的,后续获取的搜索请求包括的查询词与第二目标图片类簇中图片对应的文本特征的匹配程度,相对应的为查询词的特征向量与图片对应的文本特征的匹配程度。
163.基于上述本技术实施例提供的获取第二目标图片类簇中图片对应的文本特征的内容可知,本技术实施例通过将第二目标图片类簇中图片对应的描述文本中词频最高的分词作为文本特征或者是出现次数最多的特征向量作为文本特征,可以获取到更为准确的图片对应的文本特征,进一步的,可以得到较为准确的查询词与图片对应的文本特征的匹配
程度,用于对搜索结果进行排序,最终得到较为准确的搜索结果队列。
164.可以理解的是,在图片搜索请求之外,本技术实施例还可以接收客户端发送的网页搜索请求,获取网页搜索请求对应的搜索结果。获取时效性事件的信息聚类结果,时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,信息聚类结果包括至少一个文本关键词。然后根据搜索请求包括的查询词与文本关键词的匹配程度,判断网页搜索请求是否为时效性事件搜索请求。
165.当搜索请求为网页搜索时,获取到的网页搜索对应的搜索结果中具有搜索请求中的关键词,可以根据搜索请求包括的查询词与信息聚类结果中的文本关键词进行匹配,根据查询词与文本关键词的匹配程度,判断搜索请求是否为时效性事件搜索请求。本技术实施例中不限定查询词与文本关键词匹配程度的确定方法,在一种可能的实现方式中,可以获取查询词的特征向量以及文本关键词的特征向量,通过进行查询词的特征向量与文本关键词的特征向量相似度的计算,确定查询词与文本关键词的匹配程度。
166.进一步的,本技术实施例还提供一种当网页搜索请求为时效性事件搜索请求,利用信息聚类结果对搜索结果进行排序,生成搜索结果队列的方法。参见图5,该图为本技术实施例提供的一种生成搜索结果队列方法的流程图,如图5所示,该方法可以包括s501-s502:
167.d1:当网页搜索请求为时效性事件搜索请求,获取网页搜索请求对应的搜索结果中包括文本关键词的搜索结果作为第二目标搜索结果。
168.网页搜索请求对应的搜索结果为与搜索请求中的查询词相关的网页搜索结果。
169.可以理解的是,文本关键词是信息聚类结果中的,用于表示时效性时间的相关信息。通过将具有文本关键词的搜索结果作为第二目标搜索结果,可以通过文本关键词确定时效性较高的搜索结果。以便在后续进行排序时将第二目标搜索结果排列在搜索结果队列中较高的位置,以便用户快速获得对应的搜索结果。
170.d2:按照网页搜索请求包括的查询词与第二目标搜索结果的匹配程度,对第二目标搜索结果以及搜索结果中的其他搜索结果进行排序,生成搜索结果队列,第二目标搜索结果的排序位置高于搜索结果中的其他搜索结果的排序位置。
171.第二目标搜索结果为具有文本关键词的时效性较高的搜索结果,根据第二目标搜索结果与查询词的匹配程度,对第二目标搜索结果以及搜索结果中的其他搜索结果进行排序,可以将与查询词匹配程度较高的第二目标搜索结果放置在排序位置较高的位置,由此可以将时效性较高并且与搜索请求关联程度较高的搜索结果放置在搜索结果队列中排序位置较高的位置上,使得得到的搜索结果队列的排序更加准确。
172.本技术实施例中,当搜索请求为网页搜索请求,并且是时效性事件搜索请求时,先通过文本关键词确定第二目标搜索结果,再根据搜索请求包括的查询词与第二目标搜索结果的匹配程度对第二目标搜索结果以及搜索结果中的其他搜索结果进行排序。由此,可以将与搜索请求包括的查询词匹配程度较高,并且时效性较高的搜索结果排列至排序位置较高的位置中,得到排序更为准确的搜索结果队列,以便用户根据较为准确的搜索结果队列,快速的获取到对应的搜索结果。
173.基于上述方法实施例提供的搜索结果排序方法,本技术实施例还提供了一种搜索结果排序装置,下面结合附图进行解释和说明。
174.参见图5,该图为本技术实施例提供的一种搜索结果排序装置的结构示意图。本技术实施例提供的搜索结果排序装置,包括:
175.搜索结果获取单元501,用于接收客户端发送的图片搜索请求,获取所述图片搜索请求对应的搜索结果;
176.信息聚类结果获取单元502,用于获取时效性事件的信息聚类结果,所述时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,所述信息聚类结果包括至少一个图片类簇,每个所述图片类簇中包括至少一幅图片;
177.判断单元503,用于根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,,判断所述图片搜索请求是否为时效性事件搜索请求;
178.搜索结果队列生成单元504,用于当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列。
179.在一种可能的实现方式中,所述判断单元,包括:
180.第一数量确定模块,用于确定各个所述图片类簇中的图片出现在所述图片搜索请求对应的搜索结果中的第一数量;
181.图片类簇确定模块,用于将所述第一数量大于第一阈值的图片类簇确定为第一目标图片类簇;
182.第一判断模块,用于如果所述图片搜索请求对应的搜索结果所属的第一目标图片类簇数量大于第二阈值,判断所述图片搜索请求为时效性事件搜索请求。
183.在一种可能的实现方式中,所述搜索结果队列生成单元504,包括:
184.类簇特征获取子单元,用于当所述图片搜索请求为时效性事件搜索请求,获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征;所述第二目标图片类簇为所述图片搜索请求对应的搜索结果中各个图片所对应的图片类簇;
185.排序结果生成子单元,用于按照所述第二目标图片类簇的类簇特征对所述第二目标图片类簇进行排序,生成排序结果;
186.第一选择子单元,用于在每个所述第二目标图片类簇中选择一幅图片作为第一目标搜索结果;
187.第一搜索结果队列生成子单元,用于按照所述排序结果,对所述第一目标搜索结果以及所述搜索结果中不属于所述第二目标图片类簇的其他搜索结果进行排序,生成搜索结果队列,在所述搜索结果队列中所述第一目标搜索结果的排序位置高于所述其他搜索结果的排序位置。
188.在一种可能的实现方式中,所述类簇特征获取子单元,包括:
189.来源网站数量获取模块,用于获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇中图片的第二数量、所述第二目标图片类簇中图片对应的来源网站数量;
190.文本特征获取模块,用于获取所述第二目标图片类簇中图片对应的文本特征;
191.所述排序结果生成子单元,具体用于:
192.按照所述搜索请求包括的查询词与所述第二目标图片类簇中图片对应的文本特征的匹配程度、所述第二目标图片类簇中图片的第二数量以及所述第二目标图片类簇中图片对应的来源网站数量,对所述第二目标图片类簇进行排序,生成排序结果。
193.在一种可能的实现方式中,所述文本特征获取模块,具体用于:
194.获取所述第二目标图片类簇中图片对应的描述文本中各个分词的词频,将所述词频最高的至少一个分词作为所述第二目标图片类簇中图片对应的文本特征;
195.或者,获取所述第二目标图片类簇中图片对应的描述文本中各个分词的特征向量,在所述特征向量中将出现次数最多的至少一个特征向量作为所述第二目标图片类簇中图片对应的文本特征。
196.在一种可能的实现方式中,所述装置还包括:
197.垃圾信息类簇确定单元,用于在所述时效性事件的信息聚类结果中确定垃圾信息类簇;
198.垃圾信息类簇去除单元,用于在所述时效性事件的信息聚类结果中去除所述垃圾信息类簇;
199.所述垃圾信息类簇确定单元,具体用于:
200.如果第三目标图片类簇中图片的第三数量大于第三阈值,或者第三目标图片类簇对应的来源网站数量小于第四阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇;
201.或者,如果第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇。
202.图6示出了一种用于搜索结果排序装置1200的框图。例如,装置1200可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
203.参照图6,装置1200可以包括以下一个或多个组件:处理组件1202,存储器1204,电源组件1206,多媒体组件1208,音频组件1210,输入/输出(i/o)的接口1212,传感器组件1214,以及通信组件1216。
204.处理组件1202通常控制装置1200的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1202可以包括一个或多个处理器1220来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1202可以包括一个或多个模块,便于处理组件1202和其他组件之间的交互。例如,处理部件1202可以包括多媒体模块,以方便多媒体组件1208和处理组件1202之间的交互。
205.存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
206.电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统,一个或多个电源,及其他与为装置1200生成、管理和分配电力相关联的组件。
207.多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传
感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
208.音频组件1210被配置为输出和/或输入音频信号。例如,音频组件1210包括一个麦克风(mic),当装置1200处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中,音频组件1210还包括一个扬声器,用于输出音频信号。
209.i/o接口为处理组件1202和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
210.传感器组件1214包括一个或多个传感器,用于为装置1200提供各个方面的状态评估。例如,传感器组件1214可以检测到设备1200的打开/关闭状态,组件的相对定位,例如所述组件为装置1200的显示器和小键盘,传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变,用户与装置1200接触的存在或不存在,装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1214还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
211.通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1216还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
212.在示例性实施例中,装置1200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:
213.接收客户端发送的图片搜索请求,获取所述图片搜索请求对应的搜索结果;
214.获取时效性事件的信息聚类结果,所述时效性事件的信息聚类结果为对网络中预设时间段内产生的信息聚类得到的,所述信息聚类结果包括至少一个图片类簇,每个所述图片类簇中包括至少一幅图片;
215.根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,判断所述图片搜索请求是否为时效性事件搜索请求;
216.当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列。
217.可选的,所述根据所述图片搜索请求对应的搜索结果与所述图片类簇的匹配程度,判断所述图片搜索请求是否为时效性事件搜索请求,包括:
218.确定各个所述图片类簇中的图片出现在所述图片搜索请求对应的搜索结果中的第一数量;
219.将所述第一数量大于第一阈值的图片类簇确定为第一目标图片类簇;
220.如果所述图片搜索请求对应的搜索结果所属的第一目标图片类簇数量大于第二阈值,判断所述图片搜索请求为时效性事件搜索请求。
221.可选的,所述当所述图片搜索请求为时效性事件搜索请求,利用所述信息聚类结果对所述搜索结果进行排序,生成搜索结果队列,包括:
222.当所述图片搜索请求为时效性事件搜索请求,获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征;所述第二目标图片类簇为所述图片搜索请求对应的搜索结果中各个图片所对应的图片类簇;
223.按照所述第二目标图片类簇的类簇特征对所述第二目标图片类簇进行排序,生成排序结果;
224.在每个所述第二目标图片类簇中选择一幅图片作为第一目标搜索结果;
225.按照所述排序结果,对所述第一目标搜索结果以及所述搜索结果中不属于所述第二目标图片类簇的其他搜索结果进行排序,生成搜索结果队列,在所述搜索结果队列中,所述第一目标搜索结果的排序位置高于所述其他搜索结果的排序位置。
226.可选的,所述获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇的类簇特征,包括:
227.获取所述图片搜索请求对应的搜索结果所属的第二目标图片类簇中图片的第二数量、所述第二目标图片类簇中图片对应的来源网站数量;
228.获取所述第二目标图片类簇中图片对应的文本特征;
229.所述按照所述第二目标图片类簇的类簇特征对所述目标图片类簇进行排序,生成排序结果,包括:
230.按照所述搜索请求包括的查询词与所述第二目标图片类簇中图片对应的文本特征的匹配程度、所述第二目标图片类簇中图片的第二数量以及所述第二目标图片类簇中图片对应的来源网站数量,对所述第二目标图片类簇进行排序,生成排序结果。
231.可选的,所述获取所述第二目标图片类簇中图片对应的文本特征,包括:
232.获取所述第二目标图片类簇中图片对应的描述文本中各个分词的词频,将所述词频最高的至少一个分词作为所述第二目标图片类簇中图片对应的文本特征;
233.或者,获取所述第二目标图片类簇中图片对应的描述文本中各个分词的特征向量,在所述特征向量中将出现次数最多的至少一个特征向量作为所述第二目标图片类簇中图片对应的文本特征。
234.可选的,所述方法还包括:
235.在所述时效性事件的信息聚类结果中确定垃圾信息类簇,在所述时效性事件的信息聚类结果中去除所述垃圾信息类簇;
236.所述在所述时效性事件的信息聚类结果中确定垃圾信息类簇,包括:
237.如果第三目标图片类簇中图片的第三数量大于第三阈值,或者第三目标图片类簇对应的来源网站数量小于第四阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇;
238.或者,如果第三目标图片类簇中各个图片对应的描述文本之间的相似度均小于第五阈值,将所述第三目标图片类簇确定为垃圾信息类簇,所述第三目标图片类簇为所述时效性事件的信息聚类结果中包括的图片类簇。
239.图7是本发明实施例中服务器的结构示意图。该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列用于执行上述搜索结果排序方法的指令操作。
240.服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1356,一个或一个以上键盘1356,和/或,一个或一个以上操作系统1341,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
241.另外,本技术实施例还提供一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行上述的搜索结果排序方法。
242.需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
243.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
244.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
245.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
246.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献