一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种内容推荐方法、装置、电子设备和存储介质与流程

2022-07-20 02:04:54 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种内容推荐方法、装置、电子设备和存储介质。


背景技术:

2.推荐系统常用于向用户推荐多媒体内容,如果细分的话,一般推荐系统会有四个环节:召回-》粗排-》精排-》重排。重排模块是推荐系统个性化推荐的最后阶段,首先将精排模块排序后的多媒体内容按照每个类别最大数量限制进行收集,然后对收集到的多媒体内容确定在曝光列表中的推荐位置,最终将推荐的多媒体内容展示给用户。在相关技术中,对一般使用简单的策略确定多媒体内容的推荐位置,对于多媒体内容的推荐位置常采用随机排列、按照精排得分顺序排列等,然而这些方式推荐准确度都比较低。


技术实现要素:

3.本技术实施例提供一种内容推荐方法、装置、电子设备和存储介质,用以提高多媒体内容的推荐准确度。
4.本技术实施例提供的一种内容推荐方法,包括:
5.获取待推荐多媒体内容集合中的各个多媒体内容的内容特征信息;
6.基于所述各个多媒体内容的内容特征信息,采用循环迭代的方式确定所述各个多媒体内容的推荐顺序;其中,在一轮迭代过程中执行以下操作:
7.根据已选多媒体内容集合确定本轮推荐位置,所述已选多媒体内容集合中包含有已排序的各个已选多媒体内容,所述本轮推荐位置为除当前已排序的各个已选多媒体内容所在位置之外的新的排序位置;
8.在候选多媒体内容集合中确定还未排序的各个候选多媒体内容;
9.基于所述各个多媒体内容的内容特征信息,以及所述已选多媒体内容集合和所述候选多媒体内容集合,获取所述各个候选多媒体内容对应的动作收益,并根据所述动作收益从所述候选多媒体内容集合中选取至少一个候选多媒体内容,放入所述本轮推荐位置,其中,所述动作收益用于表示对象对所述多媒体内容执行目标动作的概率。
10.本技术实施例提供的一种内容推荐装置,包括:
11.信息获取单元,用于获取待推荐多媒体内容集合中的各个多媒体内容的内容特征信息;
12.推荐单元,用于基于所述各个多媒体内容的内容特征信息,采用循环迭代的方式确定所述各个多媒体内容的推荐顺序;其中,在一轮迭代过程中执行以下操作:
13.根据已选多媒体内容集合确定本轮推荐位置,所述已选多媒体内容集合中包含有已排序的各个已选多媒体内容,所述本轮推荐位置为除当前已排序的各个已选多媒体内容所在位置之外的新的排序位置;
14.在候选多媒体内容集合中确定还未排序的各个候选多媒体内容;
15.基于所述各个多媒体内容的内容特征信息,以及所述已选多媒体内容集合和所述候选多媒体内容集合,获取所述各个候选多媒体内容对应的动作收益,并根据所述动作收益从所述候选多媒体内容集合中选取至少一个候选多媒体内容,放入所述本轮推荐位置,其中,所述动作收益用于表示对象对所述多媒体内容执行目标动作的概率。
16.可选的,所述装置还包括:
17.模型训练单元,用于根据所述训练样本数据集中的训练样本,对重排模型执行循环迭代训练,并在训练完毕时,输出训练完毕的重排模型;其中,在一次循环迭代训练过程中执行以下操作:
18.从所述训练样本数据集中选取一组训练样本;
19.分别将所述一组训练样本中的各个样本多媒体内容的内容特征信息,以及当前状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,与下一状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,输入重排模型,其中,已选样本多媒体内容集合和候选样本多媒体内容集合都是基于所述真实推荐顺序确定的;
20.基于所述重排模型中的嵌入部分,对所述各个样本多媒体内容的内容特征信息进行特征提取,获得针对所述一组训练样本的第二嵌入特征向量;
21.将所述第二嵌入特征向量输入所述重排模型中的预测部分,基于所述预测部分预测得到当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益,以及下一状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第二预估动作收益;
22.基于所述第一预估动作收益,所述第二预估动作收益,以及相应的实际动作收益构建损失函数,并基于构建得到的损失函数对所述重排模型进行参数调整。
23.可选的,所述模型训练单元还用于:
24.从所述一组训练样本中选取任意一个训练样本;
25.根据所述真实推荐顺序,基于所述任意一个训练样本中的样本多媒体内容之前的各个样本多媒体内容,构建所述当前状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建所述当前状态下的候选样本多媒体内容集合;以及
26.根据所述真实推荐顺序,基于所述任意一个训练样本中的样本多媒体内容,以及所述样本多媒体内容之前的各个样本多媒体内容,构建所述下一状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建所述下一状态下的候选样本多媒体内容集合。
27.可选的,所述预测部分包括第一预测子网络和第二预测子网络;所述模型训练单元具体用于:
28.基于所述第一预测子网络,将所述第二嵌入特征向量与第二已选状态向量相乘后,基于注意力机制获得当前状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第二上下文特征向量,其中,所述第二上下文特征向量用于表征当前状态下的各个已选样本多媒体内容之间的上下文关联关系;所述第二已选状态向量中的各个元素分别表示当前状态下对应的所述一组训练样本中的多媒体内容是否已确定推荐顺序;
29.基于所述第一预测子网络,获得将所述第二嵌入特征向量与第二候选状态向量相乘得到的第二候选特征向量,其中,所述第二候选特征向量用于表征当前状态下的各个候
选样本多媒体内容的内容特征;所述第二候选状态向量中的各个元素分别表示当前状态下对应的所述一组训练样本中的多媒体内容是否未确定推荐顺序;
30.通过所述第一预测子网络中的全连接层,对基于所述第二上下文特征向量和所述第二候选特征向量拼接得到的第二拼接向量进行特征提取,确定所述当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益;以及
31.基于所述第二预测子网络,将所述第二嵌入特征向量与第三已选状态向量相乘后,基于注意力机制获得下一状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第三上下文特征向量,其中,所述第三上下文特征向量用于表征下一状态下的各个已选样本多媒体内容之间的上下文关联关系;所述第三已选状态向量中的各个元素分别表示下一状态下对应的所述一组训练样本中的多媒体内容是否已确定推荐顺序;
32.基于所述第二预测子网络,获得将所述第三嵌入特征向量与第三候选状态向量相乘得到的第三候选特征向量,其中,所述第三候选特征向量用于表征下一状态下的各个候选样本多媒体内容的内容特征;所述第三候选状态向量中的各个元素分别表示下一状态下对应的所述一组训练样本中的多媒体内容是否未确定推荐顺序;
33.通过所述第二预测子网络中的全连接层,对基于所述第三上下文特征向量和所述第三候选特征向量拼接得到的第三拼接向量进行特征提取,确定所述下一状态下的候选样本多媒体内容集合中的各个候选样本多媒体内容对应的第二预估动作收益。
34.可选的,所述模型训练单元具体用于:
35.基于各个第一预估动作收益中的目标预估动作收益,与各个第二预估动作收益中的最大预估动作收益之间的差值,以及对应的真实动作收益构建损失函数,其中所述目标预估动作收益为所述任意一个训练样本中的样本多媒体内容对应的第一预估动作收益。
36.本技术实施例提供的一种电子设备,包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述任意一种内容推荐方法的步骤。
37.本技术实施例提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任意一种多媒体内容推荐方法的步骤。
38.本技术实施例提供一种计算机可读存储介质,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行上述任意一种内容推荐方法的步骤。
39.本技术有益效果如下:
40.本技术实施例提供了一种内容推荐方法、装置、电子设备和存储介质,由于本技术采用循环的结构,一轮一轮来预测当前位置各个候选多媒体内容的长期动作收益,基于该动作收益分析来选取至少一个候选多媒体内容放入本轮推荐位置,由于考虑到了动态情况下各个多媒体内容的动作收益,使得最终确定的推荐准确度更高。
41.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
42.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
43.图1为本技术实施例中的一种应用场景的一个可选的示意图;
44.图2为本技术实施例中的一种内容推荐方法的流程示意图;
45.图3为本技术实施例中的一种重排模型的结构示意图;
46.图4为本技术实施例中的第一种循环迭代过程的示意图;
47.图5为本技术实施例中的第二种循环迭代过程的示意图;
48.图6为本技术实施例中的第三种循环迭代过程的示意图;
49.图7为本技术实施例中的一种重排模型训练方法的流程示意图;
50.图8为本技术实施例中的另一种重排模型的结构示意图;
51.图9为本技术实施例中的一种计算预估动作收益的流程示意图;
52.图10为本技术实施例中的一种内容推荐装置的组成结构示意图;
53.图11为应用本技术实施例的第一种电子设备的一个硬件组成结构示意图;
54.图12为应用本技术实施例的第二种电子设备的一个硬件组成结构示意图。
具体实施方式
55.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术技术方案的一部分实施例,而不是全部的实施例。基于本技术文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术技术方案保护的范围。
56.下面对本技术实施例中涉及的部分概念进行介绍。
57.集束搜索:最佳优先搜索算法的优化。使用启发式函数评估它检查的每个节点的能力。不过,集束搜索只能在每个深度中发现前m个最符合条件的节点,m是固定数字,指集束的宽度。在相关技术中,即可使用集束搜索来确定多媒体内容推荐位置的推荐顺序。
58.多媒体内容:组合两种或两种以上媒体的一种人机交互式信息交流和传播媒体。媒体包括文字、图片、声音、影片等。在本技术实施例中,多媒体内容可以是文章、新闻、资讯、视频、音乐等内容。
59.推荐系统:是自动联系用户和物品的一种工具,它能够在信息过载的环境中帮助用户发现令他们感兴趣的信息,也能将信息推送给对它们感兴趣的用户。重排是在推荐系统的最后阶段,系统对候选的多媒体内容进行选择、重新排序,确定多媒体内容展示的位置顺序。
60.动作收益:用于表征对象对多媒体内容执行目标动作的概率。以多媒体内容为文章为例,在文章推荐场景下,目标动作可以是点击,点赞,浏览一定时长等。当在某个位置曝光某篇文章,用户在该文章上的点击,点赞,转发或消费(浏览)一定时长,都会对于推荐系统会产生一定的收益,且相同文章放在不同位置曝光时获得的收益不同,因而本技术实施例中的动作收益主要用于表征在某个位置曝光某篇待推荐文章时,用户对该待推荐文章执行目标动作的概率,概率越大,表明在该位置曝光该待推荐文章所获得的收益越大,相应
的,概率越小,表明在该位置曝光该待推荐文章所获得的收益越小。
61.已选多媒体内容:表示当前已确定推荐位置的多媒体内容。在本技术实施例中是采用循环结构的方式来对待推荐多媒体内容集合中的各个待推荐的多媒体内容进行排序的,一次循环迭代过程中可确定至少一个推荐位置,因而,在每一轮迭代过程中,都会依次增加至少一个确定推荐位置的多媒体内容,不同轮次的迭代过程中的已选多媒体内容的数量不同,且在第一轮迭代过程中,不存在已选多媒体内容。
62.候选多媒体内容:表示当前还未确定推荐位置的多媒体内容。同已选多媒体内容类似,在本技术实施例中是采用循环结构的方式来对待推荐多媒体内容集合中的各个待推荐的多媒体内容进行排序的,一次循环迭代过程中可确定至少一个推荐位置,因而,在每一轮迭代过程中,都会依次减少至少一个未确定推荐位置的多媒体内容,不同轮次的迭代过程中的候选多媒体内容的数量也不同,且在第一轮迭代过程中,候选多媒体内容为所有的待推荐的多媒体内容。
63.内容特征信息:用于表征内容特征信息是用于表征多媒体内容的内容属性的,以多媒体内容为新闻文章为例,这里的内容特征信息主要是指文章的类别、文章所描述的内容、作者、点赞量等,另外还可包括展示文章的关联特征、环境特征等等,在此不做具体限定。
64.已选状态向量:是基于各个已选(样本)多媒体内容确定的,已选状态向量中的各个元素分别表示对应的(样本)多媒体内容是否已确定推荐顺序。本技术实施例中的第一已选状态向量,第二已选状态向量和第三已选状态向量都属于已选状态向量,其中,第一已选状态向量是针对应用过程中的待推荐多媒体内容集合而言的,而第二已选状态向量和第三已选状态向量是针对模型训练过程中的样本多媒体内容而言的。
65.候选状态向量:是基于各个候选(样本)多媒体内容确定的,第一候选状态向量中的各个元素分别表示对应的(样本)多媒体内容是否未确定推荐顺序。同已选状态向量类似,本技术实施例中的第一候选状态向量,第二候选状态向量和第三候选状态向量都属于候选状态向量,其中,第一候选状态向量也是针对应用过程中的待推荐多媒体内容集合而言的,而第二候选状态向量和第三候选状态向量是针对模型训练过程中的样本多媒体内容而言的。
66.本技术实施例涉及人工智能(artificial intelligence,ai)和机器学习技术,基于人工智能中的计算机视觉技术和机器学习(machine learning,ml)而设计。
67.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
68.人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。
69.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
70.机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。对比于数据挖掘从大数据之间找相互特性而言,机器学习更加注重算法的设计,让计算机能够自动地从数据中“学习”规律,并利用规律对未知数据进行预测。
71.机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。强化学习(reinforcement learning,rl),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
72.本技术实施例在对多媒体内容进行排序时,采用强化学习的重排模型。在本技术实施例中提出的训练重排模型的方法可分为两部分,包括训练部分和应用部分;其中,训练部分就涉及到机器学习这一技术领域,在训练部分中,通过机器学习这一技术训练重排模型,使得本技术实施例中给出的包含样本多媒体内容的内容特征信息,以及样本多媒体内容对应的真实推荐顺序和真实动作收益的训练样本来训练重排模型,训练样本通过重排模型后,获取重排模型的输出结果,结合输出结果,通过优化算法不断调整模型参数;应用部分用于使用在训练部分训练得到的重排模型来对待推荐多媒体内容集合中的各个多媒体内容进行排序等。另外,还需要说明的是,本技术实施例中重排模型可以是在线训练也可以是离线训练,在此不做具体限定。在本文中是以离线训练为例进行举例说明的。
73.下面对本技术实施例的设计思想进行简要介绍:
74.在信息过剩的互联网时代,信息推荐技术对于互联网公司运营的重要性是不言而喻的,目前各种各样的网站都会在后台使用推荐系统。推荐根据用户的访问特点,计算出最适合推荐给该用户的多媒体内容,然后把这些多媒体内容展现给用户,供其选择。由于多媒体内容数量和用户数量非常庞大,推荐系统大量使用到基于云计算的数据挖掘,通过挖掘用户行为和商品信息,使用各种推荐算法来计算推荐列表,实现向不同用户展示不同内容的效果,提高页面的转化率。
75.在相关技术中,推荐系统的重排模块就是用于计算推荐列表,来确定各个多媒体内容的推荐位置的。一般来说,主要是使用简单的策略确定多媒体内容的推荐位置,对于多媒体内容的推荐位置常采用随机排列、按照精排得分顺序排列等,或者是使用集束搜索寻找新闻推荐位置的近似最优排列等。其中,在线上使用集束搜索寻找近似最优排列方式,并非全局最优排列。这些方式推荐准确度都比较低。
76.有鉴于此,本技术实施例提出了一种内容推荐方法、装置、电子设备和存储介质。由于本技术采用循环的结构,一轮一轮来预测当前位置各个候选多媒体内容的长期动作收
益,基于该动作收益分析来选取至少一个候选多媒体内容放入本轮推荐位置,由于考虑到了动态情况下各个多媒体内容的动作收益,使得最终确定的推荐准确度更高。
77.以下结合说明书附图对本技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本技术,并不用于限定本技术,并且在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
78.如图1所示,其为本技术实施例的应用场景示意图。其为本技术实施例的应用场景示意图。该应用场景图中包括两个终端设备110和一个服务器120。终端设备110与服务器120之间可以通过通信网络进行通信。用户可通过终端设备110浏览多媒体内容,终端设备110上可以安装有多媒体内容相关的应用,例如视频软件,短视频软件等,本技术实施例涉及的应用可以是软件,也可以是网页、小程序等客户端,后台服务器则是与软件或是网页、小程序等相对应的后台服务器,不限制客户端的具体类型。
79.在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。
80.在本技术实施例中,终端设备110为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器、智能家居等具有一定计算能力并且运行有即时通讯类软件及网站或者社交类软件及网站的计算机设备。各终端设备110通过无线网络与服务器120,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
81.其中,重排模型可部署于服务器120上进行训练,服务器120中可存储有大量训练样本,用于训练重排模型。可选的,在基于本技术实施例中的训练方法训练得到重排模型之后,可直接将训练好的重排模型部署于服务器120或终端设备110上。一般情况下都是直接将重排模型部署于服务器120上,在本技术实施例中,重排模型主要用于对待推荐多媒体内容集合中的各个多媒体内容进行排序,确定各个多媒体内容的推荐顺序,进而应用在视频、新闻等各种信息流的推荐场景、电子商务等推荐场景。例如,应用于手机客户端要闻频道和推荐频道新闻推荐的重排模块,精排模块对召回的新闻进行排序后,按照本技术实施例中所列举的多媒体内容推荐方法,来确定精排模块筛选出的各个多媒体内容的推荐位置,进而按照这些推荐位置来向用户进行展示等,对于其它推荐场景也是类似的道理,本文中主要是以新闻推荐为例进行举例说明的。
82.在一种可能的应用场景中,本技术中的训练样本可以采用云存储技术进行存储。云存储(cloudstorage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。
83.在一种可能的应用场景中,为了便于降低通信时延,可以在各个地区部署服务器120,或为了负载均衡,可以由不同的服务器120分别去服务各个终端备10对应的地区。多个服务器120以通过区块链实现数据的共享,多个服务器120相当于多个服务器120组成的数据共享系统。例如终端设备110位于地点a,与服务器120之间进行通信连接,终端设备110位
于地点b,与其他服务器120之间通信连接。
84.对于数据共享系统中的每个服务器120,均具有与该服务器120对应的节点标识,数据共享系统中的每个服务器120均可以存储有数据共享系统中其他服务器120的节点标识,以便后续根据其他服务器120的节点标识,将生成的区块广播至数据共享系统中的其他服务器120。每个服务器120中可维护一个如下表所示的节点标识列表,将服务器120名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为网络之间互联的协议(internetprotocol,ip)地址以及其他任一种能够用于标识该节点的信息,表1中仅以ip地址为例进行说明。
85.表1
86.服务器名称节点标识节点1119.115.151.174节点2118.116.189.145
……
节点n119.124.789.258
87.下面结合上述描述的应用场景,参考附图来描述本技术示例性实施方式提供的对象状态的识别方法,需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。
88.参阅图2所示,为本技术实施例提供的一种内容推荐方法的实施流程图,该方法的具体实施流程如下:
89.s21:获取待推荐多媒体内容集合中的各个多媒体内容的内容特征信息;
90.其中,内容特征信息是用于表征多媒体内容的内容属性的,本文主要以多媒体内容为新闻文章为例进行举例说明的,这里的内容特征信息主要是指文章的类别、文章所描述的内容、作者、点赞量等,另外还可包括展示文章的关联特征、环境特征等等,在此不做具体限定。
91.在本技术实施例中,待推荐多媒体内容集合中的各个多媒体内容就是指根据用户的兴趣特点和阅读行为,筛选出的用于向用户推荐的,他们可能感兴趣的新闻(包括图文新闻和视频新闻)等。具体的,这些待推荐的多媒体内容是基于精排模块得到的,精排模块也可基于神经网络模型来实现,例如根据当前用户的兴趣画像及特征、多媒体内容的类别等特征、环境特征、展示多媒体内容的关联特征,预估每个多媒体内容的广告点击率预测(predict click-through rate,pctr),指模型预估的用户点击推荐文章的得分,进行依据各个多媒体内容的pctr来进行精排排序,筛选出最终待推荐的多媒体内容。
92.s22:基于各个多媒体内容的内容特征信息,采用循环迭代的方式确定各个多媒体内容的推荐顺序;其中,在一轮迭代过程中执行以下操作:
93.s221:根据已选多媒体内容集合确定本轮推荐位置,已选多媒体内容集合中包含有已排序的各个已选多媒体内容,本轮推荐位置为除当前已排序的各个已选多媒体内容所在位置之外的新的排序位置;
94.s222:在候选多媒体内容集合中确定还未排序的各个候选多媒体内容;
95.s223:基于各个多媒体内容的内容特征信息,以及已选多媒体内容集合和候选多媒体内容集合,获取各个候选多媒体内容对应的动作收益,并根据动作收益从候选多媒体
内容集合中选取至少一个候选多媒体内容,放入本轮推荐位置。
96.其中,动作收益用于表示对象对多媒体内容执行目标动作的概率。本技术实施例中主要以多媒体内容为文章为例,在文章推荐场景下,目标动作可以表示点击,或者是消费(浏览)时长达到一定时长,或者是点赞,转发等等,在此不做具体限定。当在某个位置曝光某篇文章,用户在该文章上的点击,点赞,转发,或消费一定时长,都会对于推荐系统会产生一定的收益。
97.需要说明的是,在本技术实施例中,相同文章放在不同位置曝光时获得的收益不同,例如,对于文章1,将该文章放在推荐位置1曝光时,对应的动作收益为reward1,将该文章放在推荐位置2曝光时,对应的动作收益为reward2。因而,本技术实施例中的动作收益主要用于表征在某个位置曝光某篇待推荐文章时,用户对该待推荐文章执行目标动作的概率,概率越大,表明在该位置曝光该待推荐文章所获得的收益越大,相应的,概率越小,表明在该位置曝光该待推荐文章所获得的收益越小。在步骤s223中的动作收益即指,将文章放在在本轮推荐位置曝光时,对应的动作收益。
98.在本技术实施例中,已选多媒体内容表示当前已确定推荐位置的多媒体内容。本技术实施例是采用循环结构的方式来对待推荐多媒体内容集合中的各个待推荐的多媒体内容进行排序的,一次循环迭代过程中可确定一个推荐位置,因而,在每一轮迭代过程中,都会依次增加至少一个确定推荐位置的多媒体内容,不同轮次的迭代过程中的已选多媒体内容的数量不同,且在第一轮迭代过程中,不存在已选多媒体内容。
99.例如,待推荐多媒体内容集合中一共有10篇文章,基于循环迭代的方式来确定这10篇文章的推荐顺序时,假设每一轮确定一个推荐位置,在第一轮迭代过程,已选多媒体内容集合为空,对应的本轮推荐位置为第1个推荐位置,在第二轮迭代过程,已选多媒体内容集合中有一个已选多媒体内容,例如为{2},表示第一轮迭代过程中筛选出位于第1个推荐位置的为id=2的文章,对应的本轮推荐位置为第2个推荐位置,

,以此类推,循环9次或10次即可确定每个推荐位置上各自对应的多媒体内容。
100.候选多媒体内容则是与已选多媒体内容相对应的,用于表示当前还未确定推荐位置的多媒体内容。同已选多媒体内容类似,在每一轮迭代过程中,都会依次减少至少一个未确定推荐位置的多媒体内容,不同轮次的迭代过程中的候选多媒体内容的数量也不同,且在第一轮迭代过程中,候选多媒体内容为所有的待推荐的多媒体内容。第二轮迭代过程,候选多媒体内容集合中有9个候选多媒体内容,例如为{1,3,4,5,6,7,8,9,10},表示第一轮迭代过程中筛选出位于第1个推荐位置的为id=2的文章,

,以此类推,循环10次后候选多媒体内容集合为空,即可确定每个推荐位置上各自对应的多媒体内容。
101.具体的,在一轮迭代过程中,计算到各个候选多媒体内容对应的动作收益后,即可根据动作收益从候选多媒体内容集合中选取至少一个候选多媒体内容。具体的,选取的候选多媒体内容的数量是与本轮推荐位置的数量保持一致的,上述所列举的是指每轮一个推荐位置,对应选取一个候选多媒体内容,例如选取动作收益最大的一个放入本轮推荐位置。
102.需要说明的是,在一轮迭代过程中需要确定的推荐位置也可以是两个或更多个,以两个为例,则可选取动作收益最大的前两个放入本轮推荐位置等等,下文主要是以一个为例进行举例说明的。
103.在上述实施方式中,采用循环的结构,预测当前位置各个候选多媒体内容的长期
动作收益,基于该动作收益分析来选取至少一个候选多媒体内容放入本轮推荐位置,由于考虑到了多媒体内容的动作收益,使得最终确定的推荐准确度更高。
104.在一种可选的实施方式中,可基于如下方式来确定各个候选多媒体内容对应的动作收益,具体包括以下过程:
105.首先,获取基于各个多媒体内容的内容特征信息确定的第一嵌入特征向量;需要说明的是,本技术实施例中的第一嵌入特征向量可以是矩阵的形式,例如每一篇文章的内容特征信息都可以用一个1*100的向量表示,则第一嵌入特征向量可表示为一个10*100的特征矩阵,也可以表示为一个100*10的特征矩阵。
106.另外,还需要根据已选多媒体内容集合来确定第一已选状态向量,根据候选多媒体内容集合来确定第一候选状态向量,进而基于这三个向量来计算得到各个候选多媒体内容对应的动作收益。
107.在本技术实施例中,第一已选状态向量是基于各个已选多媒体内容确定的,第一已选状态向量中的各个元素分别表示对应的多媒体内容是否已确定推荐顺序,例如在第二轮迭代过程中,已选多媒体内容id=2,对应的第一已选状态向量可表示为[0,1,0,0,0,0,0,0,0,0],其中该向量中的元素为0表示未确定推荐顺序,元素为1表示已确定推荐顺序。而第一候选状态向量是基于各个候选多媒体内容确定的,第一候选状态向量中的各个元素分别表示对应的多媒体内容是否未确定推荐顺序,例如在第二轮迭代过程中,候选多媒体内容id=1,3,4,5,6,7,8,9,10,对应的第一候选状态向量可表示为[1,0,1,1,1,1,1,1,1,1],其中该向量中的元素为0表示已确定推荐顺序,元素为1表示未确定推荐顺序。
[0108]
在确定上述几个向量之后,即可计算各个候选多媒体内容对应的动作收益,具体的,首先基于第一嵌入特征向量与第一已选状态向量进行上下文特征提取,获得各个已选多媒体内容之间的第一上下文特征向量,其中,第一上下文特征向量用于表征各个已选多媒体内容之间的上下文关联关系;以及,基于第一嵌入特征向量与第一候选状态向量进行候选特征提取,获得各个候选多媒体内容组合得到的第一候选特征向量,其中,第一候选特征向量用于表征各个候选多媒体内容的内容特征;进而,基于第一上下文特征向量和第一候选特征向量,即可确定各个候选多媒体内容对应的动作收益。
[0109]
需要说明的是,上述过程也可基于强化学习的方式来实现。一种可选的实施方式为,将各个多媒体内容的内容特征信息输入已训练的重排模型,该重排模型即基于强化学习训练得到的重排模型,具体包括两部分:嵌入部分和预测部分。下面结合附图3对上述过程进行详细介绍。参阅图3所示,其为本技术实施例中所列举的一种重排模型的结构示意图,其中虚线左侧部分为嵌入部分,右侧部分为预测部分。
[0110]
首先,输入重排模型的输入特征为x:[1,10,feanum],表示10个文章的内容特征信息,这10个文章分别表示为文章1:item1,文章2:item2,

,文章10:item10。基于重排模型中的嵌入部分,通过对各个文章的内容特征信息进行嵌入查找(embedding lookup)来特征提取,获得第一嵌入特征向量(items embedding);将第一嵌入特征向量输入重排模型中的预测部分,基于预测部分将第一嵌入特征向量与第一已选状态向量selected1相乘,并基于自注意力机制(self attention)获得各个已选文章之间的第一上下文特征向量context1;基于预测部分将第一嵌入特征向量与第一候选状态向量retained1相乘,获得各个候选文章组合得到的第一候选特征向量candidate;进而,通过reduce sum函数对context1进行压
缩成一个一维的向量表示上下文特征context',然后将一维的向量表示上下文特征context'复制成与第一候选特征向量candidate(也称候选文章矩阵)相同的形状,得到context”,并将context”与candidate拼接到一起作为基于第一上下文特征向量和第一候选特征向量拼接得到的第一拼接向量,通过全连接层fc对第一拼接向量进行特征提取,确定各个候选文章对应的动作收益gain。最终模型输出的放入本轮推荐位置的文章为最大动作收益对应的候选文章,即item=argmax(gain),这样不断循环确定各个推荐位置对应的文章,保证收益最大化。
[0111]
其中,reduce sum函数就是求和,在该函数名中加了reduce是表示求和后会降维,即压缩的过程,在本技术实施例中是指压缩为一维向量。
[0112]
下面对循环迭代的过程进行举例说明,参阅图4,图5和图6所示,其中order表示的是各个待推荐的文章对应的推荐顺序(也称推荐位置),gain表示对应的动作收益,其中的deep rl network即为本技术实施例中的一种重排模型,全称为deep reinforcement learning network,即深度强化学习网络。其中的selected表示的第一已选状态向量,retained表示的第一候选状态向量,item embeddings表示第一嵌入特征向量。
[0113]
参阅图4所示,表示在第一轮迭代过程中,确定出的各个候选文章中id=3的文章的动作收益gain最大,即确定放入本轮推荐位置(即第1个推荐位置)的为id=3的文章,进而根据该结果更新第一候选状态向量和第一已选状态向量,在图4中,第一已选状态集合为空,对应的第一已选状态向量中的各个元素都为1,第一候选状态集合对应的第一候选状态向量中的各个元素为0。更新后如图5所示,第一已选状态向量中的第三个元素为1,表示id=3的文章为已选文章,该文章已确定推荐顺序;第一候选状态向量中的第三个元素为0,表示除id=3的剩余文章为候选文章,未确定推荐顺序。
[0114]
图5表示在第二轮迭代过程中,确定出的各个候选文章中id=7的文章的动作收益gain最大,即确定放入本轮推荐位置(即第2个推荐位置)的为id=7的文章,进而根据该结果再次更新第一候选状态向量和第一已选状态向量。更新后如图6所示,第一已选状态向量中的第三个元素和第七个元素为1,表示id=3,7的文章为已选文章,这两个文章已确定推荐顺序;第一候选状态向量中的第三个元素和第七个元素为0,表示除id=3,7的剩余文章为候选文章,未确定推荐顺序。
[0115]
图6表示在第三轮迭代过程中,确定出的各个候选文章中id=4的文章的动作收益gain最大,即确定放入本轮推荐位置(即第3个推荐位置)的为id=4的文章,进而根据该结果再次更新第一候选状态向量和第一已选状态向量。以此类推,直至候选文章集合为空,即可确定各个推荐位置对应的文章。
[0116]
其中,重排模型是基于训练样本数据集训练得到的,训练样本数据集中的训练样本包括样本多媒体内容的内容特征信息,以及样本多媒体内容对应的真实推荐顺序和真实动作收益。
[0117]
一种可选的实施方式为,重排模型是通过下列方式训练得到的:
[0118]
根据训练样本数据集中的训练样本,对重排模型执行循环迭代训练,并在训练完毕时,输出训练完毕的重排模型;其中,迭代次数达到上限,或者是模型收敛等情况下,都可表示训练完毕,在此不做具体限定。
[0119]
在本技术实施例中,在一次循环迭代训练过程中执行以下操作:
[0120]
s71:从训练样本数据集中选取一组训练样本;
[0121]
s72:分别将一组训练样本中的各个样本多媒体内容的内容特征信息,以及当前状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,与下一状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,输入重排模型,其中,已选样本多媒体内容集合和候选样本多媒体内容集合都是基于真实推荐顺序确定的;
[0122]
s73:基于重排模型中的嵌入部分,对各个样本多媒体内容的内容特征信息进行特征提取,获得针对一组训练样本的第二嵌入特征向量;
[0123]
s74:将第二嵌入特征向量输入重排模型中的预测部分,基于预测部分预测得到当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益,以及下一状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第二预估动作收益;
[0124]
s75:基于第一预估动作收益,第二预估动作收益,以及相应的实际动作收益构建损失函数,并基于构建得到的损失函数对重排模型进行参数调整。
[0125]
参阅图8所示,其为本技术实施例中的另一种重排模型的结构示意图,其中,图8所示的重排模型中的预测部分包括第一预测子网络和第二预测子网络;其中,第一预测子网络用于当前状态下各个候选样本多媒体内容对应的第一预估动作收益的预测,第二预测子网络用于下一状态下各个候选样本多媒体内容对应的第二预估动作收益的预测。
[0126]
在线上模型应用时,只选择当前状态对应的第一预测子网络进行计算即可,初始化时已选择文章集合为空,候选文章集合为[1,2,3,4,5,6,7,8,9,10],计算各个候选文章在当前状态下的第一预估动作收益gain,选择最大的gain_i对应的文章作为当前的action(动作),即将最大的gain_i对应的文章加入本轮推荐位置,然后更新已选择文章集合和候选文章集合,不断重复上述过程,直到候选文章集合为空。
[0127]
在线下模型训练时,如图8所示,该重排模型的输入特征为[1,10,featurenum],表示10个样本文章的内容特征信息,基于嵌入部分对输入特征进行嵌入查询(embedding lookup),获得对应的第二嵌入特征向量(items embedding)。进而基于右侧的预测部分来计算预估动作收益,包括当前状态下的各个候选文章对应的第一预估动作收益,和下一状态下的各个候选文章对应的第二预估动作收益。
[0128]
一种可选的实施方式为,在执行步骤s84时,具体包括以下步骤,参阅图9所示:
[0129]
s91:基于第一预测子网络,将第二嵌入特征向量与第二已选状态向量相乘后,基于注意力机制获得当前状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第二上下文特征向量;
[0130]
其中,第二上下文特征向量即图8中的context2,用于表征当前状态下的各个已选样本多媒体内容之间的上下文关联关系;第二已选状态向量即图8中的selected2,selected2中的各个元素分别表示当前状态下对应的这一组训练样本中的各个多媒体内容是否已确定推荐顺序,具体表示方式同第一已选状态向量相同,在此不做具体限定。
[0131]
s92:基于第一预测子网络,获得将第二嵌入特征向量与第二候选状态向量相乘得到的第二候选特征向量;
[0132]
其中,第二候选特征向量即图8中的candidate2,candidate2用于表征当前状态下的各个候选样本多媒体内容的内容特征;第二候选状态向量即图8中的retained2,
retained2中的各个元素分别表示当前状态下对应的这一组训练样本中的多媒体内容是否未确定推荐顺序,具体表示方式同第一候选状态向量相同,在此不做具体限定。
[0133]
s93:通过第一预测子网络中的全连接层,对基于第二上下文特征向量和第二候选特征向量拼接得到的第二拼接向量进行特征提取,确定当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益;
[0134]
在步骤s93中,基于第二上下文特征向量context2和第二候选特征向量candidate2拼接得到的第二拼接向量的获取方式,也同第一拼接向量的获取方式类似,首先需要对第二上下文特征向量context2进行压缩,压缩成一个一维的向量表示上下文特征context2',进一步地,再将压缩后的上下文特征context2复制成与第二候选特征向量相同的形状context2”,并将context2”与candidate2拼接到一起,即可得到第二拼接向量。基于第二拼接向量,经过图8所示的全连接层fc进行特征提取,即可确定当前状态下的候选样本多媒体内容集合中的各个候选样本多媒体内容对应的第一预估动作收益gain。
[0135]
上述步骤s91至步骤s93是第一预测子网络侧的处理过程,下述步骤s94至步骤s96是第二预测子网络侧的处理过程,这两个预测子网络可并行处理,在此不对时序进行具体限定。
[0136]
s94:基于第二预测子网络,将第二嵌入特征向量与第三已选状态向量相乘后,基于注意力机制获得下一状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第三上下文特征向量;
[0137]
其中,第三上下文特征向量即图8中的context3,用于表征下一状态下的各个已选样本多媒体内容之间的上下文关联关系;第三已选状态向量即图8中的selected3,selected3中的各个元素分别表示下一状态下对应的一组训练样本中的多媒体内容是否已确定推荐顺序,具体表示方式同第一已选状态向量相同,在此不做具体限定。
[0138]
s95:基于第二预测子网络,获得将第三嵌入特征向量与第三候选状态向量相乘得到的第三候选特征向量;
[0139]
其中,第三候选特征向量即图8中的candidate2,用于表征下一状态下的各个候选样本多媒体内容的内容特征;第三候选状态向量即图8中的retained2,retained2中的各个元素分别表示下一状态下对应的一组训练样本中的多媒体内容是否未确定推荐顺序,具体表示方式同第一候选状态向量相同,在此不做具体限定。
[0140]
s96:通过第二预测子网络中的全连接层,对基于第三上下文特征向量和第三候选特征向量拼接得到的第三拼接向量进行特征提取,确定下一状态下的候选样本多媒体内容集合中的各个候选样本多媒体内容对应的第二预估动作收益。
[0141]
同样地,在步骤s96中,获取第三拼接向量也是类似的过程,基于第三上下文特征向量context3和第三候选特征向量candidate3拼接得到的第三拼接向量的获取方式,也同第一拼接向量和第二拼接向量的获取方式类似,首先需要对第三上下文特征向量context3进行压缩,压缩成一个一维的向量表示上下文特征context3',进一步地,再将压缩后的上下文特征context3复制成与第三候选特征向量相同的形状context3”,并将context3”与candidate3拼接到一起,即可得到第三拼接向量。基于第三拼接向量,经过图8所示的全连接层fc进行特征提取,即可确定下一状态下的候选样本多媒体内容集合中的各个候选样本多媒体内容对应的第二预估动作收益nextgain。
[0142]
在线上推荐系统中,推荐系统一次为用户推荐10篇文章,一次推荐结果不一定会全部被用户看到,真实展示的文章数量区间是[1,10]。对于一次真实展示的文章序列,选择其中的任意一篇文章,该文章之前的展示文章为已选择文章,包括该文章在内的后曝光文章为候选文章,使用已选择文章和候选文章即可表示当前的状态;该文章同时也是该样本中的动作,即所选择的文章;作出动作后,即选择该文章后,已选择文章列表(即已选文章集合)中加入该文章,候选文章中剔除该文章,来表示下一状态;动作收益可以有多种评估方式,可以用该动作代表的文章是否被点击,也可以用该动作代表的文章的用户消费时长,等等。
[0143]
在一种可选的实施方式中,构建已选样本多媒体内容集合和候选样本多媒体内容集合的过程包括以下操作:
[0144]
从一组训练样本中选取任意一个训练样本;根据真实推荐顺序,基于任意一个训练样本中的样本多媒体内容之前的各个样本多媒体内容,构建当前状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建当前状态下的候选样本多媒体内容集合;以及,根据真实推荐顺序,基于任意一个训练样本中的样本多媒体内容,以及样本多媒体内容之前的各个样本多媒体内容,构建下一状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建下一状态下的候选样本多媒体内容集合。
[0145]
例如,用1-10十个id表示一次推荐的文章序列,推荐文章列表:[1,2,3,4,5,6,7,8,9,10],真实展示列表(真实推荐顺序):[1,2,3,4,5,6]时,训练样本示例如下:
[0146]
假设action表示选择第4篇文章作为action,action=4。则根据真实展示列表可知,在该文章之前的有3篇文章,因而当前状态下:已选择文章列表:[1,2,3];候选文章列表:[4,5,6,7,8,9,10]。在下一状态下:已选择文章列表:[1,2,3,4];候选文章列表:[5,6,7,8,9,10]。其中,动作收益reward表示第4篇文章是否被点击(或第4篇文章的用户消费时长等)。
[0147]
在图8所示的重排模型中输入文章的表示为:每篇文章有多个特征组成,每个特征由一个低维稠密向量表示,文章向量的表示有多种方法,可以是多个特征低位稠密向量的加和,也可以是多个特征低位稠密向量的均值,也可以是多个特征低位稠密向量的拼接,在此不做具体限定。
[0148]
在本技术实施例中,当前状态和下一状态对应的预测子网络的网络结构可以完全相同,也可以不同,图8中是以完全相同为例进行举例说明的:首先根据十篇推荐文章的embedding向量矩阵与表示状态的两个列表进行矩阵乘法计算遮挡住未使用的向量;然后通过self_attention计算已选择文章矩阵中文章的上下文关系,压缩成一个一维的向量表示上下文特征,然后将上下文特征向量复制成与候选文章矩阵相同的形状并拼接到一起,然后通过全连接层预估各个候选文章的动作收益reward。在最终,第一预测子网络(当前状态网络)的输出是从预估的各个候选样本多媒体内容对应的第一预估动作收益中,选择action表示的文章的动作收益gain_i。例如上述实施例中即输出gain_4。第二预测子网络(下一状态网络)的输出是从预估的各个候选样本多媒体内容对应的第二预估动作收益中,选择最大的文章动作收益max(nextgain),例如第8篇文章对应的nextgain最大,则输出第8篇文章对应的第二预估动作收益。
[0149]
下面对模型参数调整的过程进行详细介绍:
[0150]
一种可选的实施方式为,基于第一预估动作收益,第二预估动作收益,以及一组训练样本中的实际动作收益构建损失函数,具体过程如下:
[0151]
基于各个第一预估动作收益中的目标预估动作收益,与各个第二预估动作收益中的最大预估动作收益之间的差值,以及对应的真实动作收益构建损失函数,其中目标预估动作收益为选取的训练样本中的样本多媒体内容对应的第一预估动作收益,即gain_i,以上述实施例为例,i=4。
[0152]
基于上述介绍,损失函数的计算公式如下:
[0153]
loss=square(γ*max(nextgain) reward_i-gain_i)。
[0154]
其中,γ=1表示后续收益与当前收益同等重要;γ《1表示后续衰减,降低后序收益的权重。在本技术实施例中γ取0~1之间的数值即可,在此不做具体限定,reward_i表示当前位置候选多媒体内容i取得的即时奖励,可表示为max(nextgain)与gain_i的差值,或者是其他计算方式等。本技术实施例中的优化方法可以采用常见的随机梯度下降法(stochastic gradient descent,sgd)或者适应性矩估计(adaptive moment estimation,adam)优化等方法。
[0155]
另外需要说明的是,对于第一预测子网络和第二预测子网络而言,当这两个网络的参数相同时,网络直接相互共享参数;当然,也可以是两套完全不同的参数,分别梯度反向传播优化参数;或者,也可以参与参数共享,下一状态所在网络参数延迟更新的方法,训练的时候只对当前状态的模型参数进行调整,每隔一段时间将当前状态网络的参数拷贝给下一状态网络等等,在此不做具体限定。
[0156]
基于相同的发明构思,本技术实施例还提供一种内容推荐装置。如图10所示,其为本技术实施例中的一种内容推荐装置1000的结构示意图,可以包括:
[0157]
信息获取单元1001,用于获取待推荐多媒体内容集合中的各个多媒体内容的内容特征信息;
[0158]
推荐单元1002,用于基于各个多媒体内容的内容特征信息,采用循环迭代的方式确定各个多媒体内容的推荐顺序;其中,在一轮迭代过程中执行以下操作:
[0159]
根据已选多媒体内容集合确定本轮推荐位置,已选多媒体内容集合中包含有已排序的各个已选多媒体内容,本轮推荐位置为除当前已排序的各个已选多媒体内容所在位置之外的新的排序位置;
[0160]
在候选多媒体内容集合中确定还未排序的各个候选多媒体内容;
[0161]
基于各个多媒体内容的内容特征信息,以及已选多媒体内容集合和候选多媒体内容集合,获取各个候选多媒体内容对应的动作收益,并根据动作收益从候选多媒体内容集合中选取至少一个候选多媒体内容,放入本轮推荐位置,其中,动作收益用于表示对象对多媒体内容执行目标动作的概率。
[0162]
可选的,推荐单元1002具体用于:
[0163]
获取基于各个多媒体内容的内容特征信息确定的第一嵌入特征向量;
[0164]
基于第一嵌入特征向量与第一已选状态向量进行上下文特征提取,获得各个已选多媒体内容之间的第一上下文特征向量,其中,第一上下文特征向量用于表征各个已选多媒体内容之间的上下文关联关系;第一已选状态向量是基于各个已选多媒体内容确定的,
第一已选状态向量中的各个元素分别表示对应的多媒体内容是否已确定推荐顺序;以及
[0165]
基于第一嵌入特征向量与第一候选状态向量进行候选特征提取,获得各个候选多媒体内容组合得到的第一候选特征向量,其中,第一候选特征向量用于表征各个候选多媒体内容的内容特征;第一候选状态向量是基于各个候选多媒体内容确定的,第一候选状态向量中的各个元素分别表示对应的多媒体内容是否未确定推荐顺序;
[0166]
基于第一上下文特征向量和第一候选特征向量,确定各个候选多媒体内容对应的动作收益。
[0167]
可选的,推荐单元1002具体用于:
[0168]
将各个多媒体内容的内容特征信息输入已训练的重排模型;
[0169]
基于重排模型中的嵌入部分,对各个多媒体内容的内容特征信息进行特征提取,获得第一嵌入特征向量;
[0170]
其中,重排模型是基于训练样本数据集训练得到的,训练样本数据集中的训练样本包括样本多媒体内容的内容特征信息,以及所述样本多媒体内容对应的真实推荐顺序和真实动作收益。
[0171]
可选的,重排模型还包括预测部分;推荐单元1002具体用于:
[0172]
将第一嵌入特征向量输入重排模型中的预测部分,基于预测部分将第一嵌入特征向量与第一已选状态向量相乘,获得各个已选多媒体内容之间的第一上下文特征向量;
[0173]
基于第一嵌入特征向量与第一候选状态向量进行特征提取,获得各个候选多媒体内容组合得到的第一候选特征向量,具体包括:
[0174]
基于预测部分将第一嵌入特征向量与第一候选状态向量相乘,获得各个候选多媒体内容组合得到的第一候选特征向量;
[0175]
基于第一上下文特征向量和第一候选特征向量,确定各个候选多媒体内容对应的动作收益,具体包括:
[0176]
通过全连接层对基于第一上下文特征向量和第一候选特征向量拼接得到的第一拼接向量进行特征提取,确定各个候选多媒体内容对应的动作收益。
[0177]
可选的,装置还包括:
[0178]
模型训练单元1003,用于根据训练样本数据集中的训练样本,对重排模型执行循环迭代训练,并在训练完毕时,输出训练完毕的重排模型;其中,在一次循环迭代训练过程中执行以下操作:
[0179]
从训练样本数据集中选取一组训练样本;
[0180]
分别将一组训练样本中的各个样本多媒体内容的内容特征信息,以及当前状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,与下一状态下的已选样本多媒体内容集合和候选样本多媒体内容集合,输入重排模型,其中,已选样本多媒体内容集合和候选样本多媒体内容集合都是基于真实推荐顺序确定的;
[0181]
基于重排模型中的嵌入部分,对各个样本多媒体内容的内容特征信息进行特征提取,获得针对一组训练样本的第二嵌入特征向量;
[0182]
将第二嵌入特征向量输入重排模型中的预测部分,基于预测部分预测得到当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益,以及下一状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第二预估动
作收益;
[0183]
基于第一预估动作收益,第二预估动作收益,以及相应的实际动作收益构建损失函数,并基于构建得到的损失函数对重排模型进行参数调整。
[0184]
可选的,模型训练单元1003还用于:
[0185]
从一组训练样本中选取任意一个训练样本;
[0186]
根据真实推荐顺序,基于任意一个训练样本中的样本多媒体内容之前的各个样本多媒体内容,构建当前状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建当前状态下的候选样本多媒体内容集合;以及
[0187]
根据真实推荐顺序,基于任意一个训练样本中的样本多媒体内容,以及样本多媒体内容之前的各个样本多媒体内容,构建下一状态下的已选样本多媒体内容集合,并基于剩余的训练样本中的样本多媒体内容,构建下一状态下的候选样本多媒体内容集合。
[0188]
可选的,预测部分包括第一预测子网络和第二预测子网络;模型训练单元1003具体用于:
[0189]
基于第一预测子网络,将第二嵌入特征向量与第二已选状态向量相乘后,基于注意力机制获得当前状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第二上下文特征向量,其中,第二上下文特征向量用于表征当前状态下的各个已选样本多媒体内容之间的上下文关联关系;第二已选状态向量中的各个元素分别表示当前状态下对应的一组训练样本中的多媒体内容是否已确定推荐顺序;
[0190]
基于第一预测子网络,获得将第二嵌入特征向量与第二候选状态向量相乘得到的第二候选特征向量,其中,第二候选特征向量用于表征当前状态下的各个候选样本多媒体内容的内容特征;第二候选状态向量中的各个元素分别表示当前状态下对应的一组训练样本中的多媒体内容是否未确定推荐顺序;
[0191]
通过第一预测子网络中的全连接层,对基于第二上下文特征向量和第二候选特征向量拼接得到的第二拼接向量进行特征提取,确定当前状态下的候选样本多媒体内容集合中各个候选样本多媒体内容对应的第一预估动作收益;以及
[0192]
基于第二预测子网络,将第二嵌入特征向量与第三已选状态向量相乘后,基于注意力机制获得下一状态下的已选样本多媒体内容集合中的各个已选样本多媒体内容之间的第三上下文特征向量,其中,第三上下文特征向量用于表征下一状态下的各个已选样本多媒体内容之间的上下文关联关系;第三已选状态向量中的各个元素分别表示下一状态下对应的一组训练样本中的多媒体内容是否已确定推荐顺序;
[0193]
基于第二预测子网络,获得将第三嵌入特征向量与第三候选状态向量相乘得到的第三候选特征向量,其中,第三候选特征向量用于表征下一状态下的各个候选样本多媒体内容的内容特征;第三候选状态向量中的各个元素分别表示下一状态下对应的一组训练样本中的多媒体内容是否未确定推荐顺序;
[0194]
通过第二预测子网络中的全连接层,对基于第三上下文特征向量和第三候选特征向量拼接得到的第三拼接向量进行特征提取,确定下一状态下的候选样本多媒体内容集合中的各个候选样本多媒体内容对应的第二预估动作收益。
[0195]
可选的,模型训练单元1003具体用于:
[0196]
基于各个第一预估动作收益中的目标预估动作收益,与各个第二预估动作收益中
fidelity,电路无线保真)模块,wifi模块属于短距离无线传输技术,电子设备通过wifi模块可以帮助用户收发信息。
[0209]
存储器1220可用于存储软件程序及数据。处理器1280通过运行存储在存储器1220的软件程序或数据,从而执行终端设备110的各种功能以及数据处理。存储器1220可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器1220存储有使得终端设备110能运行的操作系统。本技术中存储器1220可以存储操作系统及各种应用程序,还可以存储执行本技术实施例内容推荐方法的代码。
[0210]
显示单元1230还可用于显示由用户输入的信息或提供给用户的信息以及终端设备110的各种菜单的图形用户界面(graphical user interface,gui)。具体地,显示单元1230可以包括设置在终端设备110正面的显示屏1232。其中,显示屏1232可以采用液晶显示器、发光二极管等形式来配置。显示单元1230可以用于显示本技术实施例中的视频客户端的视频画面。
[0211]
显示单元1230还可用于接收输入的数字或字符信息,产生与终端设备110的用户设置以及功能控制有关的信号输入,具体地,显示单元1230可以包括设置在终端设备110正面的触摸屏1231,可收集用户在其上或附近的触摸操作,例如点击按钮,拖动滚动框等。
[0212]
其中,触摸屏1231可以覆盖在显示屏1232之上,也可以将触摸屏1231与显示屏1232集成而实现终端设备110的输入和输出功能,集成后可以简称触摸显示屏。本技术中显示单元1230可以显示应用程序以及对应的操作步骤。
[0213]
摄像头1240可用于捕获静态图像,用户可以将摄像头1240拍摄的图像通过视频客户端上传评论。摄像头1240可以是一个,也可以是多个。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给处理器1280转换成数字图像信号。
[0214]
终端设备还可以包括至少一种传感器1250,比如加速度传感器1251、距离传感器1252、指纹传感器1253、温度传感器1254。终端设备还可配置有陀螺仪、气压计、湿度计、温度计、红外线传感器、光传感器、运动传感器等其他传感器。
[0215]
音频电路1260、扬声器1261、传声器1262可提供用户与终端设备110之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号,传输到扬声器1261,由扬声器1261转换为声音信号输出。终端设备110还可配置音量按钮,用于调节声音信号的音量。另一方面,传声器1262将收集的声音信号转换为电信号,由音频电路1260接收后转换为音频数据,再将音频数据输出至通信组件1210以发送给比如另一终端设备110,或者将音频数据输出至存储器1220以便进一步处理。
[0216]
蓝牙模块1270用于通过蓝牙协议来与其他具有蓝牙模块的蓝牙设备进行信息交互。例如,终端设备可以通过蓝牙模块1270与同样具备蓝牙模块的可穿戴电子设备(例如智能手表)建立蓝牙连接,从而进行数据交互。
[0217]
处理器1280是终端设备的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器1220内的软件程序,以及调用存储在存储器1220内的数据,执行终端设备的各种功能和处理数据。在一些实施例中,处理器1280可包括一个或多个
处理单元;处理器1280还可以集成应用处理器和基带处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,基带处理器主要处理无线通信。可以理解的是,上述基带处理器也可以不集成到处理器1280中。本技术中处理器1280可以运行操作系统、应用程序、用户界面显示及触控响应,以及本技术实施例的内容推荐方法。另外,处理器1280与显示单元1230耦接。
[0218]
在一些可能的实施方式中,本技术提供的内容推荐方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的内容推荐方法中的步骤,例如,计算机设备可以执行如图2中所示的步骤。
[0219]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0220]
本技术的实施方式的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在计算装置上运行。然而,本技术的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
[0221]
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
[0222]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0223]
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0224]
或者,本技术实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本技术实施例各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0225]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造
性概念,则可对这些实施例做出另外的变更和更改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和更改。
[0226]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些更改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献