一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种相关搜索推荐方法、装置及电子设备与流程

2022-03-26 02:36:57 来源:中国专利 TAG:


1.本发明涉及软件技术领域,特别涉及一种相关搜索推荐方法、装置及电子设备。


背景技术:

2.在搜索场景下,搜索结果页中除了展现查询词对应的搜索结果,还依据查询词进行相关搜索推荐。相关搜索推荐中通常提供与查询词相关的、搜索结果较好的相关搜索结果项即相关搜索推荐词,若用户点击某一相关搜索结果项,搜索引擎会将该相关搜索结果项作为查询词进行搜索,并展示搜索结果。
3.现有技术中,通常会根据用户的查询日志,选取查询词pv(一段时间内某一查询词被所有用户查询的总次数)最高的一定数量的查询词作为候选集合,使用候选集合建立倒排索引,每天对数据进行更新。当用户输入查询词后,通过倒排索引召回相关搜索结果项,并根据相关搜索结果项的pv值以及相关搜索结果项与查询词之间的文本相似度对召回的相关搜索结果项排序进行调整,并将最终结果推荐给用户。但基于查询词pv无法很好的反映查询词质量,据此进行的相关搜索推荐存在质量较差的技术问题。


技术实现要素:

4.本发明实施例提供一种相关搜索推荐方法、装置及电子设备,用于解决现有技术中相关搜索推荐质量较差的技术问题,提高相关搜索结果项的质量。
5.本发明实施例提供一种相关搜索推荐方法,包括:
6.获取查询词对应的相关搜索结果项集合;
7.基于用户输入的目标查询词和预先训练好的点击预估模型,对所述相关搜索结果项集合中的相关搜索结果项进行排序;
8.基于排序结果,获取所述目标查询词的目标相关搜索结果项,并在所述目标查询词的搜索结果页中推荐所述目标相关搜索结果项;
9.其中,所述点击预估模型通过将相关搜索结果项作为查询词时的第一特征参数作为模型输入参数训练获得,所述第一特征参数包括搜索结果的分享参数和/或下载参数。
10.可选的,所述获取查询词对应的相关搜索结果项集合,包括:
11.基于历史查询日志,建立用户输入的查询词与用户对应点击的相关搜索结果项之间的倒排序索引;
12.根据所述倒排序索引结果获得查询词对应的候选词集合;
13.基于所述候选词集合获得所述相关搜索结果项集合。
14.可选的,所述获取查询词对应的相关搜索结果项集合,包括:
15.基于历史查询日志,建立用户输入的查询词之间的共现词集合,其中,所述共现词集合中包含如下一种或多种查询词:同一用户在预设时间范围内搜索的查询词、被打开过的同一搜索结果对应的不同查询词、语义相似度大于相似阈值的查询词;
16.基于所述共现词集合,获得查询词对应的相关搜索结果项集合。
17.可选的,所述基于历史查询日志,建立用户输入的查询词之间的共现词集合,包括:
18.基于历史查询日志,对同一用户的历史查询日志进行会话重建,将所述预设时间范围内进行搜索的查询日志合并为同一会话;
19.将同一会话内出现的查询词作为会话共现词写入所述共现词集合。
20.可选的,所述基于历史查询日志,建立用户输入的查询词之间的共现词集合,包括:
21.基于对搜索结果执行过分享和/或下载操作的历史查询日志,获得同一搜索结果对应的多个查询词及每个查询词的出现次数;
22.基于所述多个查询词及每个查询词的出现次数,获得结果共现词集合;
23.将所述结果共现词集合写入所述共现词集合。
24.可选的,所述基于历史查询日志,建立用户输入的查询词之间的共现词集合,包括:
25.获取候选词集合中每个候选词的语义向量,其中,所述语义向量基于候选词的分词和候选词对应的目标图片获得,相似的所述语义向量对应的目标图片相似;
26.基于所述语义向量之间的相似度对所述第一相关搜索候选词集合进行语义召回;
27.将语义召回的候选词写入所述共现词集合。
28.可选的,所述点击预估模型的模型输入参数还包括:
29.所述相关搜索结果项作为搜索结果页中相关搜索推荐词时的第二特征参数。
30.可选的,所述点击预估模型的训练方法包括:
31.基于历史查询日志,获得用户输入的查询词和用户对应点击的相关搜索结果项;
32.获得所述查询词与所述相关搜索结果项之间的文本匹配特征;
33.基于所述查询词、所述相关搜索结果项、所述文本匹配特征、所述第一特征参数以及所述第二特征参数构建训练样本;
34.基于多个所述训练样本对所述点击预估模型进行训练。
35.可选的,所述基于所述查询词、所述相关搜索结果项、所述文本匹配特征、所述第一特征参数以及所述第二特征参数构建训练样本,进一步包括:
36.获得所述相关搜索结果项作为查询词时,搜索结果页中广告位的第三特征参数;
37.基于所述查询词、所述相关搜索结果项、所述文本匹配特征以、所述第一特征参数、所述第二特征参数以及所述第三特征参数构建训练样本。
38.可选的,所述相关搜索结果包括图片和/或视频的相关搜索。
39.可选的,所述基于用户输入的目标查询词和预先训练好的点击预估模型,对所述相关搜索结果项集合中的相关搜索结果项进行排序,包括:
40.将所述目标查询词和相关搜索结果项集合中的每个相关搜索结果项输入所述点击预估模型,通过所述点击预估模型预估获得每个相关搜索结果项的点击率;
41.根据所述点击率的大小对所有相关搜索结果项进行排序,获得排序结果。
42.本发明实施例还提供一种相关搜索推荐装置,包括:
43.获取单元,用于获取查询词对应的相关搜索结果项集合;
44.排序单元,用于基于用户输入的目标查询词和预先训练好的点击预估模型,对所
述相关搜索结果项集合中的相关搜索结果项进行排序;
45.推荐单元,用于基于排序结果,获取所述目标查询词的目标相关搜索结果项,并在所述目标查询词的搜索结果页中推荐所述目标相关搜索结果项;
46.其中,所述点击预估模型通过将相关搜索结果项作为查询词时的第一特征参数作为模型输入参数训练获得,所述第一特征参数包括搜索结果的分享参数和/或下载参数。
47.可选的,所述获取单元用于:
48.基于历史查询日志,建立用户输入的查询词与用户对应点击的相关搜索结果项之间的倒排序索引;
49.根据所述倒排序索引结果获得查询词对应的候选词集合;
50.基于所述候选词集合获得所述相关搜索结果项集合。
51.可选的,所述获取单元还用于:
52.基于历史查询日志,建立用户输入的查询词之间的共现词集合,其中,所述共现词集合中包含如下一种或多种查询词:同一用户在预设时间范围内搜索的查询词、被打开过的同一搜索结果对应的不同查询词、语义相似度大于相似阈值的查询词;
53.基于所述共现词集合,获得查询词对应的相关搜索结果项集合。
54.可选的,所述获取单元还用于:
55.基于历史查询日志,对同一用户的历史查询日志进行会话重建,将所述预设时间范围内进行搜索的查询日志合并为同一会话;
56.将同一会话内出现的查询词作为会话共现词写入所述共现词集合。
57.可选的,所述获取单元还用于:
58.基于对搜索结果执行过分享和/或下载操作的历史查询日志,获得同一搜索结果对应的多个查询词及每个查询词的出现次数;
59.基于所述多个查询词及每个查询词的出现次数,获得结果共现词集合;
60.将所述结果共现词集合写入所述共现词集合。
61.可选的,所述获取单元还用于:
62.获取候选词集合中每个候选词的语义向量,其中,所述语义向量基于候选词的分词和候选词对应的目标图片获得,相似的所述语义向量对应的目标图片相似;
63.基于所述语义向量之间的相似度对所述第一相关搜索候选词集合进行语义召回;
64.将语义召回的候选词写入所述共现词集合。
65.可选的,所述点击预估模型的模型输入参数还包括:
66.所述相关搜索结果项作为搜索结果页中相关搜索推荐词时的第二特征参数。
67.可选的,所述装置还包括训练单元,所述训练单元用于:
68.基于历史查询日志,获得用户输入的查询词和用户对应点击的相关搜索结果项;
69.获得所述查询词与所述相关搜索结果项之间的文本匹配特征;
70.基于所述查询词、所述相关搜索结果项、所述文本匹配特征、所述第一特征参数以及所述第二特征参数构建训练样本;
71.基于多个所述训练样本对所述点击预估模型进行训练。
72.可选的,所述训练单元还用于:
73.获得所述相关搜索结果项作为查询词时,搜索结果页中广告位的第三特征参数;
74.基于所述查询词、所述相关搜索结果项、所述文本匹配特征以、所述第一特征参数、所述第二特征参数以及所述第三特征参数构建训练样本。
75.可选的,所述相关搜索结果包括图片和/或视频的相关搜索。
76.可选的,所述排序单元用于:
77.将所述目标查询词和相关搜索结果项集合中的每个相关搜索结果项输入所述点击预估模型,通过所述点击预估模型预估获得每个相关搜索结果项的点击率;
78.根据所述点击率的大小对所有相关搜索结果项进行排序,获得排序结果。
79.本发明实施例中的上述一个或多个技术方案,至少具有如下技术效果:
80.本发明实施例提供一种相关搜索推荐方法,通过预先基于相关搜索结果项作为查询词时对应搜索结果的分享参数和/或下载参数作为模型输入参数训练获得相关搜索结果项的点击预估模型,由于分享参数和/或下载参数能够更好的反映查询词的质量,使得通过点击预估模型能够预估获得更高质量的相关搜索结果项,从而在用户输入目标查询词时,基于预选训练好的点击预估模型对目标查询词对应的相关搜索结果项进行排序并推荐,能够获得高质量的相关搜索推荐,解决了现有技术中相关搜索推荐质量较差的技术问题,提高了相关搜索推荐的质量。
附图说明
81.图1为本发明实施例提供的一种相关搜索推荐方法的流程示意图;
82.图2为本发明实施例提供的第一种点击预估模型的训练方法的流程示意图;
83.图3为本发明实施例提供的第二种点击预估模型的训练方法的流程示意图;
84.图4为本发明实施例提供的第三种点击预估模型的训练方法的流程示意图;
85.图5为本发明实施例提供的一种相关搜索推荐装置的方框图;
86.图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
87.在本发明实施例提供的技术方案中,提供一种相关搜索推荐方法,基于用户对查询词的搜索结果的分享、下载来进行相关搜索结果项的排序,获得质量较高的相关搜索结果项进行相关搜索推荐,从而解决现有技术中相关搜索推荐质量较差的技术问题。
88.下面结合附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
89.实施例1
90.本实施例提供一种相关搜索推荐方法,应用于图片、视频和/或网页搜索场景下的相关搜索推荐。请参考图1,该方法包括下述s11~s15。
91.s11、获取查询词对应的相关搜索结果项集合。
92.其中,相关搜索结果项为查询词对应的搜索结果页中提供的相关搜索推荐词,例如,对查询词“苹果”进行搜索后,搜索结果页中会展示命中“苹果”的搜索结果和与“苹果”相关的关键词“苹果发布会”、“苹果商店”等。相关搜索项集合可以从已有的相关搜索结果项数据库中获取,也可以根据历史查询日志中查询词查询后用户对其相关搜索结果项的点击情况获得,如用户查询“单片机”后,对相关搜索中的“51单片机”点击率超过某一阈值,那
么可以将“51单片机”这个相关搜索结果项写入查询词“单片机”对应的相关搜索结果项集合。
93.s13、基于用户输入的目标查询词和预先训练好的点击预估模型,对所述相关搜索结果项集合中的相关搜索结果项进行排序。
94.其中,所述点击预估模型通过将相关搜索结果项作为查询词时的第一特征参数作为模型输入参数训练获得,第一特征参数包括搜索结果的分享参数和/或下载参数。例如,假设针对查询词a的相关搜索结果项a1,可以获得a1作为查询时其搜索结果的下载率作为第一点击参数,将a、a1和a1的第一点击参数作为模型输入参数,将用户查询a后对搜索结果页中的a1的点击情况作为标签进行模型训练,训练获得点击预估模型。点击预估模型的具体训练方法参见下述实施例2-4提供任一训练方法。
95.对于预先训练好的点击预估模型,可以将目标查询词和相关搜索结果项集合中的每个相关搜索结果项输入点击预估模型,通过点击预估模型预估获得每个相关搜索结果项的点击率,再依据点击率的大小对所有相关搜索结果项进行排序,获得排序结果。例如:假设用户输入的目标查询词为“8月的成都”,对应获得的相关搜索结果项集合中包含相关搜索结果项:“成都8月份适合旅游吗”、“8月份去成都需要带什么”、“成都八月份旅游”等,那么可以将“8月的成都”及对应的每个相关搜索结果项输入点击预估模型,点击预估模型会预估获得每个相关搜索结果项的点击率,进而根据该点击率对所有相关搜索结果项进行排序,获得排序结果。
96.s15、基于排序结果,获取目标查询词的目标相关搜索结果项,并在目标查询词的搜索结果页中推荐目标相关搜索结果项。
97.具体的,s15可以选取排序结果靠前的n个相关搜索结果项作为目标相关索索结果项。进一步的,也可以在获取排序结果靠前的个相关搜索结果项的基础上进行二次过滤,如根据黑名单对候选结果进行过滤,获得过滤后的相关搜索结果项作为目标相关搜索结果项。
98.具体实施过程中,s11获取目标查询词的相关搜索结果项集合时,本实施例还采用倒排序索引和/或建立共现词的方式来获取相关搜索结果项集合。
99.倒排序索引
100.基于历史查询日志,建立用户输入的查询词与用户对应点击的相关搜索结果项之间的倒排序索引;根据倒排序索引结果获得查询词对应的候选词集合;基于候选集合获得查询词对应的相关搜索结果项集合。
101.其中,倒排序索引的建立,可以先基于历史查询日志获得的查询词与相关搜索结果项的特征参数,对相关搜索结果项进行排序。排序方法可以是对相关搜索结果项的各项参数值进行加权求和,加权方式可以根据应用场景人工指定。在图片搜索场景下分为两个细粒度场景:相关搜索推荐和查询商业扩展。其中相关搜索推荐会在权重上偏重于用户点击率、分享率以及下载率。而查询商业扩展在权重上偏重于查询词广告展示量、点击量、点击率量。基于加权获得的分值,将最终的相对高得分的相关搜索结果项保存作为查询词的候选词集合,将候选词集合作为一种相关搜索候选项集合。进一步的,还可以将选词集合作为后续语义向量召回的候选词。
102.建立共现词
103.基于历史查询日志,建立用户输入的查询词之间的共现词集合,其中,共现词集合中包含如下一种或多种查询词:同一用户在预设时间范围内搜索的查询词、被打开过的同一搜索结果对应的不同查询词、语义相似度大于相似阈值的查询词;基于共现词集合,获得查询词对应的相关搜索结果项集合。
104.建立共现词集合时,可以采用如下一类或多类共现词集合:
105.①
、session共现,基于历史查询日志,对同一用户的历史查询日志进行session会话重建,将预设时间范围内进行搜索的查询日志合并为同一会话;将同一会话内出现的查询词作为会话共现词写入共现词集合。例如,将历史查询日志按照用户id 时间进行排序,并以30min为标准进行session划分,具体方法是如果表示同一用户连续两个行为的两条日志之间间隔30min以上,则认为两个行为分属于两个session,如果同一用户连续两个行为的两条日志之间间隔在30min以内,则认为这两个行为属于一个session,将其合并,合并后将同一session内共同出现的查询词作为一个共现词集合。
106.②
结果共现,基于对搜索结果执行过分享和/或下载操作的历史查询日志,获得同一搜索结果对应的多个查询词及每个查询词的出现次数;基于多个查询词及每个查询词的出现次数,获得结果共现词集合;将结果共现词集合写入共现词集合。例如:针对图片搜索获得的图片,当用户点击-分享、点击-下载或点击-分享-下载行为发生时,将《图片id,查询词》保存,进一步获得《图片id,查询词1,查询词2

》序列。根据此序列,可以获得《查询词m,查询词n,共现次数k》,将k值大于一定阈值的结果对保存,作为结果共现集合。
107.③
语义共现,获取第一相关搜索候选词集合中每个候选词的语义向量,其中,语义向量基于候选词的分词和候选词对应的目标图片获得,相似的语义向量对应的目标图片相似;基于语义向量之间的相似度对第一相关搜索候选词集合进行语义召回;将语义召回的候选词写入共现词集合。具体的,获取语义向量时,可以将候选词的分词向量通过文本语义的卷积神经网络和图片语义的卷积神经网络后传入全连接层,获取最终嵌入向量作为候选词的语义向量,使得获得的语义向量之间不仅可以表示文本语义的相似,还可以从图片结果角度表示相似,更符合图片搜索场景的应用。获得每个查询词语义向量后,将语义向量通过人工神经网络ann建立向量索引,并使用每个查询词通过ann方式找到语义相似的查询词,从而获取语义共现词集合《c0,c1,c2

,cn》。
108.将上述session共现、结果共现、语义共现中任意一种或多种方式建立的共现词集合作为相关搜索候选项集合。
109.基于倒排序索引和/或共现词建立获得的相关搜索结果候选项集合,执行s13经过预先训练好的点击预估模型基于目标查询词对相关搜索结果项集合中的相关搜索结果项进行排序,从而获得目标查询词的目标相关搜索结果项。
110.具体的,针对共现词集合获得的相关搜索候选项集合,可以通过点击预估模型对其进行排序(又称为key-value索引),基于该索引获得查询词与相关搜索结果项的字典数据,再基于该字典数据进行查询,获得与目标查询词对应的目标相关搜索结果项。针对倒排序索引获得的相关搜索候选项集合,可以先从中查询与目标查询词对应的相关搜索结果项,再使用点击预估模型对目标查询词对应的相关搜索结果项进行排序,基于排序结果获得目标相关搜索结果项。
111.实施例2
112.本发明实施例提供一种点击预估模型的训练方法,训练获得的点击预估模型,用于预估在给定查询词的情况下,每个相关搜索结果项的点击率,基于点击率对各相关搜索结果项进行排序。请参考图2,点击预估模型的训练方法包括:
113.s21、基于历史查询日志,获得相关搜索结果项作为查询词时的第一特征参数;
114.s23、将所述第一特征参数作为模型输入参数构建训练样本;
115.s25、基于训练样本训练获得点击预估模型。
116.其中,历史查询日志可以是图片、视频或网页的查询日志,相应的,查询结果即搜索结果可以是图片、视频或网页的搜索结果。针对不同的查询日志,本实施例提供的训练方法可以用于训练网页点击预估模型,也可以用于训练图片点击预估模型,还可以用于训练视频点击预估模型。
117.相关搜索结果项是指在对查询词进行搜索后在搜索结果页展示的,与查询词相关的推荐词,又称相关搜索推荐词。例如:用户输入查询词“日全食”点击搜索后,在“日全食”的搜索结果页的相关搜索界面会展示“日全食寓意”、“2020年日全食时间表”、“日全食时间表”等相关搜索结果项,若用户点击“2020年日全食时间表”则会以该相关搜索结果项作为查询词进行搜索并展现搜索结果。
118.第一特征参数为相关搜索结果项作为查询词时对应的搜索结果页面及其相关内容的统计参数。s21在根据历史查询日志获取第一特征参数时,可以选取预定时间窗内的历史查询日志进行统计,以获得第一特征参数。其中,预定时间窗可以自定义,如近一周、近一个月、近一季度、近半年、近一年等。在预定时间窗内统计用户搜索输入的查询词及在该查询词的搜索结果页展示的相关搜索结果项,以及该用户对相关搜索结果项的点击情况。选定时间窗时,将训练数据和测试数据从不同的时间窗内获取,避免后续统计特征因时间窗重叠导致特征“穿越”问题。例如:假设总时间窗口为n,训练数据时间窗口大小为n1,测试数据时间窗口大小为n2,其中n1窗口与n2窗口不重叠。
119.具体的,第一特征参数包括搜索结果页面中搜索结果的分享参数和/或下载参数。
120.分享参数,包括相关搜索结果项作为用户查询词时搜索结果的如下任意一种或两种参数:
121.·
搜索结果在预定时间窗内的总分享量;
122.·
搜索结果在预定时间窗内的平均分享率;
123.下载参数,包括相关搜索结果项作为用户查询词时搜索结果的如下任意一种或两种参数:
124.·
搜索结果在预定时间窗内的总下载量;
125.·
搜索结果在预定时间窗内的平均下载率。
126.作为一种可选的实施方式,第一特征参数还可以进一步包括如下任意一种或多种参数:
127.相关搜索结果项在预定时间窗内的总pv数;
128.相关搜索结果项作为用户查询词时搜索结果的如下任一参数:
129.·
搜索结果在预定时间窗内大图页的总展示量;
130.·
搜索结果在预定时间窗内的总点击量;
131.·
搜索结果在预定时间窗内的平均点击率;
132.在s11获得第一特征参数之后,进一步执行s23构建训练样本。具体的,s23可以基于历史查询日志和统计获得的第一特征参数来进行训练样本构建。每一个历史查询日志都对应用有用户输入的查询词、对应搜索该查询词后展现的相关搜索结果项以及相关搜索结果项的点击情况,可以将一个历史查询日志对应的查询词、相关搜索结果项及其第一特征参数作为模型输入参数,将相关搜索结果项是否被点击作为标签,以完成一个训练样本的构建。
133.在构建获得大量训练样本后,执行s25基于训练样本训练获得点击预估模型。由于分享参数和/或下载参数可以更好的反映查询词的质量,本实施例在点击预估模型的训练时以分享参数和/或下载参数作为模型输入参数,可以将点击预估与查询词的质量进行关联,当查询词作为相关搜索结果项时,通过点击预估模型能够预估获得更高质量的相关搜索结果项。
134.实施例3
135.请参考图3,本发明实施例提供一种点击预估模型的训练方法,该方法包括:
136.s31、基于历史查询日志,获得相关搜索结果项作为查询词时的第一特征参数;
137.s32、基于历史查询日志,获得所述相关搜索结果项作为搜索结果页中相关搜索推荐词时的第二特征参数;
138.s33、将所述第一特征参数和所述第二特征参数作为模型输入参数构建训练样本;
139.s35、基于训练样本训练获得点击预估模型。
140.本实施例的训练方法是在实施例2的基础上增加了第二特征参数作为模型输入参数,其余方法步骤的执行过程与实施例1相同。
141.第二特征参数为相关搜索结果项作为搜索结果页中相关搜索推荐词(即相关搜索结果项本身)时的统计参数,反映相关搜索结果项的质量。具体的,第二特征参数可以包括下述一种或多种参数:
142.·
相关搜索结果项在搜索结果页中相关搜索界面的不同位置(上/中/下位)的总展示量;
143.·
相关搜索结果项在搜索结果页中相关搜索界面的不同位置(上/中/下位)的总点击量;
144.·
相关搜索结果项在搜索结果页中相关搜索界面的不同位置(上/中/下位)的平均点击率。
145.在具体实施过程中,针对每个历史查询日志,将日志中用户输入的查询词、统计获得的相关搜索结果项的第一特征参数及第二特征参数作为模型输入参数,将用户对相关搜索结果项的点击情况作为标签,以完成训练样本的构建,进而基于大量训练样本进行点击预估模型的模型训练。通过将反映查询词质量的第一特征参数和反映相关搜索结果作为相关搜索推荐词本身的第二特征参数相结合,共同作为模型训练的模型输入参数,使得训练获得的点击预估模型对相关搜索结果项的点击预估更为准确。
146.进一步的,进行点击预估模型的训练样本构建时,还可以进一步获得相关搜索结果项作为查询词时,搜索结果页中广告位的第三特征参数,将第三特征参数与第二特参数和第一特征参数一起共同作为模型输入参数,使得基于该模型输入参数训练获得的点击预估模型对广告位的展现及点击也能够进行预估,增加了搜索结果页广告展示质量。
147.第三特征参数具体可以包括相关搜索结果项作为查询词时,搜索结果页中广告位的下述一种或多种统计参数:
148.·
搜索结果页中每个广告位展示次数;
149.·
搜索结果页中每个广告位点击次数;
150.·
搜索结果页中每个广告位点击率。
151.实施例4
152.请参考图4,本发明实施例提供一种点击预估模型的训练方法,该方法包括:
153.s41、基于历史查询日志,获得相关搜索结果项作为查询词时的第一特征参数;
154.s42、基于历史查询日志,获得所述相关搜索结果项作为搜索结果页中相关搜索推荐词时的第二特征参数;
155.s43、获得查询词与相关搜索结果项之间的文本匹配特征;
156.s44、基于查询词、相关搜索结果项、文本匹配特征、第一特征参数和第二特征参数构建训练样本;
157.s45、基于训练样本对点击预估模型进行训练。
158.本实施例是在实施例3的基础上增加了查询词与相关搜索结果项之间的文本匹配特征作为模型输入参数,其余方法步骤的执行过程与实施例2相同。
159.文本匹配特征用于表征查询词与相关搜索结果项之间的相似度。其中,文本匹配特征包括下述一种或多种特征:
160.·
查询词包含的[形容词、名词、动词]个数;
[0161]
·
相关搜索结果项包含的[形容词、名词、动词]个数;
[0162]
·
查询词和相关搜索结果项共同包含的[形容词、名词、动词]个数;
[0163]
·
查询词和相关搜索结果项各自的词长度、两者长度之差和/或两者长度之差的绝对值;
[0164]
·
查询词和相关搜索结果项的并集长度、交集长度和/或jaccard距离]。
[0165]
具体实施过程中,针对每个历史查询日志,将日志中用户输入的查询词、统计获得的相关搜索结果项的第一特征参数、第二特征参数,以及查询词与相关搜索结果项之间的文本匹配特征作为模型输入参数,将用户对相关搜索结果项的点击情况作为标签,以完成训练样本的构建,进而基于大量训练样本进行点击预估模型的模型训练。在模型训练时,通过增加查询词与相关搜索结果项之间相似度的文本匹配特征作为模型输入参数,使得训练获得的点击预估模型获得查询词与相关搜索结果项之间的关联关系,进而增加点击预估的准确性。
[0166]
上述实施例2-4分别从查询词质量、相关搜索结果项质量和文本匹配特征这三个维度来增加点击预估模型训练时的模型输入参数,来提高训练获得的点击预估模型的质量。需要说明的是,点击预估模型的模型输入参数不限于上述三个维度,还包括查询词、相关搜索结果项、广告位的第三特征参数、用户id等一个或多个参数。
[0167]
针对上述实施例2-4统计获得的特征参数,可以进一步对各个展示量、点击量、展示次数及点击次数进行非线性变换,变换公式为:n
new
=log(n
old
,k),其中n
new
表示变换后的参数、n
old
表示变换前的参数,k表示对数底。同时通过限制精度对所有统计量进行离散化,变换公式为:v
new
=round(v
old
,k),其中k表示小数点后位数,一般取千分位,v
new
表示变换后
的参数、v
old
表示变换前的参数。同时根据时间差对统计值进行平滑降权处理,具体公式为:v
new
=v
old
*rt,其中rt表示权重因子,rt计算方法:rt=1-(1-α)*(δd-1.0)/(maxd-1.0),其中α为超参数,δd表示日期之差(以当前日期为基础,在统计距离当前日期d天的数据时,两者的日期差为δd),maxd表示最大日期之差,当δd等于maxd时权重为0,当δd为1时权重为1。通过上述变换处理,对变换后的参数进行计算,有利于提高模型训练的效率。需要注意的是,对于相关搜索候选项为长尾查询词的,其特征参数是稀疏的,即大量统计值为0,可以采用稀疏特征存储形式,节约存储空间。
[0168]
在上述实施例中,第一方面,获取相关搜索结果项的多种特征参数,据此对相关搜索点击进行预测,特别是搜索结果的分享率、下载率等信息,有助于提升点击率预估效果。第二方面,通过采用倒排索引、session共现、结果共现、语义共现多路召回方式获得相关搜索结果项集合,能够提供文本不相似但是语义相近的相关搜索结果项,有助于提升相关搜索推荐的质量,以及提升相关推荐点击率。第三方面,本实施例还使用了查询的扩展结果作为补充查询请求商业广告,增加了搜索结果页面内商业广告展示量,提升了产品收入。
[0169]
针对上述实施例提供一种相关搜索推荐方法,本发明实施例还对应提供一种相关搜索推荐装置,请参考图5,该装置包括:
[0170]
获取单元51,用于获取查询词对应的相关搜索结果项集合;
[0171]
排序单元52,用于基于用户输入的目标查询词和预先训练好的点击预估模型,对所述相关搜索结果项集合中的相关搜索结果项进行排序;
[0172]
推荐单元53,用于基于排序结果,获取所述目标查询词的目标相关搜索结果项,并在所述目标查询词的搜索结果页中推荐所述目标相关搜索结果项;
[0173]
其中,所述点击预估模型通过将相关搜索结果项作为查询词时的第一特征参数作为模型输入参数训练获得,所述第一特征参数包括搜索结果的分享参数和/或下载参数。
[0174]
作为一种可选的实施方式,所述获取单元51用于:基于历史查询日志,建立用户输入的查询词与用户对应点击的相关搜索结果项之间的倒排序索引;根据所述倒排序索引结果获得查询词对应的候选词集合;基于所述候选词集合获得所述相关搜索结果项集合。
[0175]
作为一种可选的实施方式,所述获取单元51还用于:基于历史查询日志,建立用户输入的查询词之间的共现词集合,其中,所述共现词集合中包含如下一种或多种查询词:同一用户在预设时间范围内搜索的查询词、被打开过的同一搜索结果对应的不同查询词、语义相似度大于相似阈值的查询词;基于所述共现词集合,获得查询词对应的相关搜索结果项集合。
[0176]
在获取共现词集合时,所述获取单元51还可以采用如下任意一种或多种方式来获取:
[0177]
方式一、基于历史查询日志,对同一用户的历史查询日志进行会话重建,将所述预设时间范围内进行搜索的查询日志合并为同一会话;将同一会话内出现的查询词作为会话共现词写入所述共现词集合。
[0178]
方式二、可选的,所述获取单元还用于:基于对搜索结果执行过分享和/或下载操作的历史查询日志,获得同一搜索结果对应的多个查询词及每个查询词的出现次数;基于所述多个查询词及每个查询词的出现次数,获得结果共现词集合;将所述结果共现词集合写入所述共现词集合。
[0179]
方式三、获取候选词集合中每个候选词的语义向量,其中,所述语义向量基于候选词的分词和候选词对应的目标图片获得,相似的所述语义向量对应的目标图片相似;基于所述语义向量之间的相似度对所述第一相关搜索候选词集合进行语义召回;将语义召回的候选词写入所述共现词集合。
[0180]
作为一种可选的实施方式,所述点击预估模型的模型输入参数还包括:
[0181]
所述相关搜索结果项作为搜索结果页中相关搜索推荐词时的第二特征参数。
[0182]
作为一种可选的实施方式,所述装置还包括训练单元54,所述训练单元54用于:基于历史查询日志,获得用户输入的查询词和用户对应点击的相关搜索结果项;获得所述查询词与所述相关搜索结果项之间的文本匹配特征;基于所述查询词、所述相关搜索结果项、所述文本匹配特征、所述第一特征参数以及所述第二特征参数构建训练样本;基于多个所述训练样本对所述点击预估模型进行训练。
[0183]
作为一种可选的实施方式,所述训练单元54还用于:获得所述相关搜索结果项作为查询词时,搜索结果页中广告位的第三特征参数;基于所述查询词、所述相关搜索结果项、所述文本匹配特征以、所述第一特征参数、所述第二特征参数以及所述第三特征参数构建训练样本。
[0184]
作为一种可选的实施方式,所述相关搜索结果包括图片和/或视频的相关搜索。
[0185]
作为一种可选的实施方式,所述排序单元52用于:将所述目标查询词和相关搜索结果项集合中的每个相关搜索结果项输入所述点击预估模型,通过所述点击预估模型预估获得每个相关搜索结果项的点击率;根据所述点击率的大小对所有相关搜索结果项进行排序,获得排序结果。
[0186]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
[0187]
图5是根据一示例性实施例示出的一种用于实现相关搜索推荐方法的电子设备800的框图。例如,电子设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0188]
参照图5,电子设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/展现(i/o)的接口812,传感器组件814,以及通信组件816。
[0189]
处理组件802通常控制电子设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
[0190]
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0191]
电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为电子设备800生成、管理和分配电力相关联的组件。
[0192]
多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0193]
音频组件810被配置为展现和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当电子设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于展现音频信号。
[0194]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0195]
传感器组件814包括一个或多个传感器,用于为电子设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为电子设备800的显示器和小键盘,传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变,用户与电子设备800接触的存在或不存在,电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0196]
通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0197]
在示例性实施例中,电子设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
[0198]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由电子设备800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0199]
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理
器执行时,使得移动终端能够执行一种相关搜索推荐方法,所述方法包括:获取查询词对应的相关搜索结果项集合;基于用户输入的目标查询词和预先训练好的点击预估模型,对所述相关搜索结果项集合中的相关搜索结果项进行排序;基于排序结果,获取所述目标查询词的目标相关搜索结果项,并在所述目标查询词的搜索结果页中推荐所述目标相关搜索结果项;其中,所述点击预估模型通过将相关搜索结果项作为查询词时的第一特征参数作为模型输入参数训练获得,所述第一特征参数包括搜索结果的分享参数和/或下载参数。
[0200]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
[0201]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献