一种用户画像更新方法、装置、设备和介质与流程

2022-04-13 17:38:53 来源：中国专利 TAG：

1.本技术涉及数据处理技术领域，尤其涉及一种用户画像更新方法、装置、设备和介质。

背景技术：

2.随着互联网的发展，互联网信息也越来越多，为更好的为用户提供个性化服务，通常根据目标用户的网络行为数据，生成相应的用户画像，以描绘目标用户的兴趣爱好以及用户诉求等。
3.现有技术中，通常基于用户的全量网络行为数据生成用户画像，但是，这会耗费大量的时间，且用户画像的精确度较低。
4.由此，需要一种用户画像更新的技术方案，以降低用户画像更新的时间成本，提高用户画像的精确度。

技术实现要素：

5.本技术实施例提供一种用户画像更新方法、装置、设备和介质，用以在更新用户画像时，提高用户画像的更新效率以及精确度。
6.一方面，提供一种用户画像更新方法，包括：
7.根据用户画像的上次更新时间，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，网络行为数据包括目标对象针对目标多媒体内容而实施的各个目标操作的行为数据；
8.根据网络行为数据中的各个目标操作的行为数据，确定用户画像的增量画像；
9.根据在上次更新时间之前的历史目标操作对应的最新历史操作时间，确定上次活跃时间，并根据网络行为数据中的目标操作对应的操作时间，确定本次活跃时间；
10.根据上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间后获得的用户画像进行衰减处理；
11.将衰减处理之后的用户画像以及增量画像进行融合处理，获得本次更新后的用户画像。
12.一方面，提供一种用户画像更新装置，包括：
13.获取单元，用于根据用户画像的上次更新时间，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，网络行为数据包括目标对象针对目标多媒体内容而实施的各个目标操作的行为数据；
14.第一确定单元，用于根据网络行为数据中的各个目标操作的行为数据，确定用户画像的增量画像；
15.第二确定单元，用于根据在上次更新时间之前的历史目标操作对应的最新历史操作时间，确定上次活跃时间，并根据网络行为数据中的目标操作对应的操作时间，确定本次活跃时间；
16.衰减单元，用于根据上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间后获得的用户画像进行衰减处理；
17.融合单元，用于将衰减处理之后的用户画像以及增量画像进行融合处理，获得本次更新后的用户画像。
18.较佳的，融合单元还用于：
19.若确定增量画像生成失败，则将上次更新时间后获得的用户画像，确定为当前更新后的用户画像。
20.较佳的，第一确定单元用于：
21.根据各目标操作针对的目标多媒体内容对应设置的属性标签，分别确定每一属性标签对应的各目标操作；
22.分别针对每一目标操作，执行以下步骤：根据目标操作的行为数据，确定目标操作对应的操作得分；
23.分别针对每一属性标签，执行以下步骤：根据属性标签的各目标操作对应的操作得分，确定相应的兴趣得分；
24.根据各属性标签的兴趣得分，获得用户画像的增量画像。
25.较佳的，第一确定单元用于：
26.若目标操作为非指定操作，则获取目标操作对应设置的操作得分；
27.若目标操作为指定操作，则获取目标操作的行为数据中包含的目标操作对应的浏览时长，并根据目标操作对应的浏览时长，以及预设平均浏览时长，确定目标操作对应的操作得分。
28.较佳的，第一确定单元用于：
29.获取网络用户总数，以及属性标签对应的标签用户数量；
30.根据网络用户总数和标签用户数量，确定标签权重，标签权重和标签用户数量呈负相关，且与网络用户总数呈正相关；
31.确定属性标签对应的各目标操作对应的操作得分的和；
32.根据和与标签权重的乘积，确定相应的兴趣得分。
33.较佳的，第一确定单元还用于：
34.若目标操作对应的目标多媒体内容为热点类型内容，则获取预设权重系数；
35.根据预设权重系数，对目标操作对应的操作得分进行调整，或者，对目标操作对应的属性标签的兴趣得分进行调整。
36.较佳的，第一确定单元还用于：
37.若兴趣得分高于预设兴趣得分阈值，则对兴趣得分进行平滑处理，获得平滑处理后的兴趣得分。
38.较佳的，衰减单元用于：
39.确定上次活跃时间和本次活跃时间之间的时间距离；
40.根据时间距离，确定衰减系数，衰减系数与时间距离呈负相关；
41.按照衰减系数，对上次更新时间后获得的用户画像进行衰减处理。
42.较佳的，融合单元用于：
43.基于本次更新后的用户画像，向用户终端推送相应的个性化推荐信息。
44.一方面，提供一种控制设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时执行上述任一种用户画像更新方法的步骤。
45.一方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一种用户画像更新方法的步骤。
46.一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种用户画像更新各种可选实现方式中提供的方法。
47.本技术实施例提供的一种用户画像更新方法、装置、设备和介质中，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，并根据网络行为数据中的各目标操作的行为数据，确定用户画像的增量画像，以及根据目标操作的上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间前的用户画像进行衰减处理，并将衰减处理后的用户画像，与增量画像结合，获得本次更新后的用户画像，这样，每次仅采用一个周期内的增量的网络行为数据，对用户画像进行更新，提高了用户画像的更新效率，且采用相邻活跃时间之间的时间距离，对历史用户画像进行了衰减处理，提高了更新后的用户画像的精确度。
48.本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
49.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
50.图1为本技术实施方式中一种应用场景的示意图；
51.图2为本技术实施方式中一种用户画像更新方法的实施流程图；
52.图3为本技术实施方式中一种衰减系数曲线的示例图；
53.图4为本技术实施方式中一种用户画像更新的流程示例图；
54.图5为本技术实施方式中一种用户画像更新装置的结构示意图；
55.图6为本技术实施方式中一种控制设备的结构示意图。
具体实施方式
56.为了使本技术的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
57.首先对本技术实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。
58.终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设
备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
59.服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
60.云存储：是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。
61.目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。应用程序在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当应用程序请求访问数据时，文件系统能够根据每个对象的存储位置信息让应用程序对数据进行访问。
62.存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量通常相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(redundant array of independent disk，raid)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。
63.数据库(database)：简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
64.数据库管理系统：是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、可扩展标记语言或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如，结构化查询语言(structured query language，sql)、xquery；或依据性能冲量重点来作分类，例如，最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些数据库管理系统能够跨类别，例如，同时支持多种查询语言。
65.下面介绍本技术实施例的设计思想。
66.随着互联网技术的发展，互联网信息也呈爆炸式增长，这使得用户难以从海量的网络数据中快速地获取有效信息。为更好的为用户提供个性化服务，如，新闻推荐、游戏推荐以及应用设计等，用户画像应运而生。
67.所谓用户画像，即根据目标用户的网络行为数据生成的多个标签的集合，用以描绘目标用户的兴趣爱好以及用户诉求等。
68.现有技术中，通常是周期性的根据目标用户的全量网络行为数据，更新用户画像。
但是，采用这种方式，由于全量网络行为数据通常较多，因此，这可能会耗费大量的时间成本。且由于随着时间的变化，用户早期的历史兴趣可能会衰减，因此，通过全量网络行为数据，更新获得的用户画像，精确度较低。
69.由此，亟待需要一种可以提高用户画像的更新效率和精确度的用户画像更新的技术方案。
70.鉴于以上分析和考虑，本技术实施例中提供了一种数据处理的方案，该方案中，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，并根据网络行为数据中的各目标操作的行为数据，确定用户画像的增量画像，以及根据目标操作的上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间前的用户画像进行衰减处理，并将衰减处理后的用户画像，与增量画像结合，获得本次更新后的用户画像。
71.为进一步说明本技术实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本技术实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本技术实施例提供的执行顺序。方法在实际的处理过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。
72.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
73.参阅图1所示，为一种应用场景的示意图。包括：多个用户终端100、服务器101以及控制设备102。
74.用户终端100：用于基于目标用户的操作指令，针对目标多媒体内容实施目标操作，并将包含目标操作的行为数据的网络行为数据发送至服务器101，还用于接收服务器101或控制设备102根据目标用户当前的用户画像，推送的个性化推荐信息。
75.可选的，用户终端100可以为终端设备。可以为一个，也可以为多个。
76.服务器101：用于接收用户终端上传的网络行为数据，并将网络行为数据发送至控制设备102，还用于接收控制设备102返回的本次更新后的用户画像，并根据接收的用户画像，向用户终端100推送个性化推荐信息。
77.其中，服务器101可以为一个，也可以为多个，通常用于为用户终端100中的应用程序提供相应的后台服务。
78.例如，假设用户终端100为手机，用户操作手机上的社交应用，服务器101为该社交应用提供社交通信服务。
79.控制设备102：用于获取各服务器101发送的目标用户的网络行为数据，并从接收的网络行为数据中，获取增量网络行为数据，并基于增量网络行为数据，生成用户画像的增量画像，以及将上次更新时间后的用户画像和增量画像结合，获得本次更新后的用户画像，
并将本次更新后的用户画像返回至各服务器101。
80.其中，增量网络行为数据为用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据。
81.可选的，控制设备可以为服务器，也可以为终端设备。控制设备102与服务器101可以为同一设备，也可以为不同设备。
82.其中，网络行为数据可以采用数据库或者云存储的方式进行存储。
83.参阅图2所示，为本技术提供的一种用户画像更新方法的实施流程图。该方法的具体流程如下：
84.步骤200：控制设备获取用户画像的上次更新时间。
85.步骤201：控制设备获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据。
86.具体的，控制设备根据用户画像关联的目标对象、上次更新时间以及预设单位时长，从各用户的网络行为数据中，筛选出用户画像关联的目标对象，在上次更新时间之后的预设单位时长内，针对目标多媒体内容而实施的各个目标操作的行为数据。
87.其中，预设单位时长是时间长度，如，一天、一周或一年，实际应用中，预设单位时长可以根据实际应用场景进行设置，在此不作限制。
88.其中，网络行为数据包括目标对象针对目标多媒体内容而实施的各个目标操作的行为数据。
89.可选的，目标对象可以为目标用户的各应用账号以及设备账号等，可以为一个，也可以为多个，用于获取目标用户在网络上的操作数据。如，目标对象包括：目标用户的社交应用账号、游戏应用账号、银行卡账号、设备账号以及手机号等。目标操作可以为短点击、长点击、点赞、分享以及评论等。行为数据可以包括：操作时间以及浏览时长等。如，目标多媒体内容可以为国际新闻、游戏新闻以及娱乐新闻等。
90.实际应用中，目标对象、目标操作以及目标多媒体内容均可以根据实际应用场景进行设置，在此不作限制。
91.其中，控制设备中的网络行为数据可以是通过服务器或用户终端获取的。
92.一种实施方式中，控制设备将接收的网络行为数据进行存储，并根据目标对象、上次更新时间以及预设单位时长，对网络行为数据进行筛选，获得用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据。
93.一种实施方式中，控制设备向各服务器或各用户终端发送包含目标对象、上次更新时间以及预设单位时长的数据请求消息，并接收各服务器或用户终端基于数据请求消息返回的用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据。
94.在执行步骤201之前，控制设备预先获取目标用户的目标对象，即目标用户的各应用账号以及设备账号等，并建立目标用户对应的用户画像与该目标用户的目标对象的关联关系。
95.这样，就可以筛选出目标用户的增量网络行为数据。
96.步骤202：控制设备根据网络行为数据中的各个目标操作的行为数据，确定用户画像的增量画像。
97.具体的，执行步骤202时，控制设备可以采用以下步骤：
98.s2021：控制设备根据各目标操作针对的目标多媒体内容对应设置的属性标签，分别确定每一属性标签对应的各目标操作。
99.具体的，控制设备根据每一目标操作针对的目标多媒体内容，以及目标多媒体内容与属性标签之间的对应关系，分别确定每一属性标签对应的各目标操作。
100.其中，属性标签表示目标多媒体内容被划分的类别。一个目标多媒体内容可以对应一个或多个属性标签，在此不作限制。
101.一种实施方式中，控制设备在执行202之前，预先分别针对每一目标多媒体内容设置相应的属性标签。
102.一种实施方式中，控制设备从目标多媒体内容的文章索引信息中，获取相应的属性标签。
103.例如，目标多媒体内容为：新闻1、新闻2以及新闻3，对应的属性标签依次为娱乐、购物以及娱乐，针对各新闻实施的目标操作依次为：分享、点赞以及点击。则确定娱乐对应的目标操作为分享和点击，购物对应的目标操作为点赞。
104.用户在浏览目标多媒体内容时，可能会对不同的目标多媒体内容实施不同的目标操作，这样，就可以统计用户分别针对每一属性标签实施的各目标操作。
105.s2022：控制设备分别针对每一目标操作，执行以下步骤：根据目标操作的行为数据，确定所述目标操作对应的操作得分。
106.由于不同的操作行为体现着用户不同程度的兴趣偏好，如，短点击、长点击以及点赞，表达的偏好程度依次增高，因此，控制设备预先针对每一目标操作设置相应操作得分。
107.其中，控制设备分别针对每一目标操作，确定目标操作对应的操作得分时，可以采用以下两种方式：
108.第一种方式为：若目标操作为非指定操作，则控制设备获取目标操作对应设置的操作得分。
109.在执行步骤202之前，控制设备预先设置指定操作为长点击，其它目标操作，如，短点击、点赞、分享以及评论等，为非指定操作，以及预先针对每一非指定操作，设置相应的操作得分。
110.实际应用中，指定操作，以及相应的操作得分均可以根据实际应用场景进行设置，在此不作限制。
111.例如，短点击、点赞、分享以及评论，对应的操作分数依次为：a，5a，5a及5a。其中，a为预设操作基分，如，a可以为1，实际应用中，a可以根据实际应用场景进行设置，在此不作限制。
112.其中，长点击和短点击是根据浏览目标多媒体内容的浏览时长确定的。
113.一种实施方式中，若点击行为对应的浏览时长高于预设时长阈值，则判定该点击行为是长点击，否则，判定该点击行为是短点击。
114.实际应用中，预设时长阈值可以根据实际应用场景进行设置，如，预设时长阈值为10s，在此不作限制。
115.这样，就可以直接根据不同的目标操作，获得相应的操作得分。
116.第二种方式为：若目标操作为指定操作，则控制设备获取目标操作的行为数据中包含的目标操作对应的浏览时长，并根据目标操作对应的浏览时长，以及预设平均浏览时
长，确定目标操作对应的操作得分。
117.具体的，控制设备从目标操作的行为数据中获取目标操作对目标多媒体内容的浏览时长，并确定该浏览时长与预设平均浏览时长之间的比值，以及根据该浏览时长和该比值，确定相应的操作得分。
118.其中，预设平均浏览时长为多个历史浏览时长的平均值，实际应用中，预设平均浏览时长可以为一个固定值，也可以根据实时获取的网络行为数据，实时更新，在此不作限制。
119.可选的，确定操作得分时，可以采用以下公式：
120.g(pcr，dur)＝p(xpcr《pcr|dur)；
121.w
lck
＝a gka；
122.其中，g表示非指定操作概率，取值范围为[0,1]，pcr表示浏览时长与预设平均浏览时长之间的比值，dur为预设平均浏览时长，p()为概率函数，xpcr表示比值变量，w
lck
为长点击的操作得分，a为预设操作基分，k为预设概率系数。
[0123]
实际应用中，a和k可以根据实际应用场景进行相应设置，在此不作限制。
[0124]
例如，k为1.5，则w
lck
＝a(1 g1.5)，w
lck
此时的取值范围为[a，2.5a]。
[0125]
考虑到单一点击行为不能对用户兴趣进行精细刻画，如，用户点击了两篇文章a和b，而浏览了文章a 5秒，浏览了文章b 5分钟，显然，用户对于a和b有不同的偏好，本技术实施例中，根据浏览时长，将点击行为划分短点击和长点击，并根据长点击的浏览时长和预设平均浏览时长确定长点击的相应操作得分，以及还综合考虑了短点击、长点击、点赞、分享、评论等同样能反映用户兴趣的多种行为，从而可以在后续的步骤中，提高用户画像的精确度。
[0126]
进一步地，由于新闻资讯类产品中热点新闻事件相关内容的网络行为并不能很好的体现用户的主观兴趣偏好，如，平常不关注美国男子职业篮球联赛(national basketball association，nba)的用户，也会去浏览科比事件，因此，本技术实施例中，将针对热点新闻事件实施的目标操作的操作得分或相应的兴趣得分进行热点降权处理。
[0127]
具体的，若目标操作对应的目标多媒体内容为热点类型内容，则控制设备还可以执行以下步骤，对操作得分或兴趣得分进行热点降权处理：
[0128]
获取预设权重系数，并根据预设权重系数，对目标操作对应的操作得分进行调整，或者，对目标操作对应的属性标签的兴趣得分进行调整。
[0129]
具体的，控制设备确定预设权重系数和操作得分的乘积，获得调整后的操作得分，或者，确定预设权重系数，与目标操作对应的属性标签的兴趣得分的乘积，获得调整后的兴趣得分。
[0130]
实际应用中，预设权重系数和热点类型内容均可以根据实际应用场景进行设置，如，预设权重系数可以为0.5，热点类型内容可以为热点新闻事件，在此不作限制。
[0131]
s2023：控制设备分别针对每一属性标签，执行以下步骤：根据属性标签的各目标操作对应的操作得分，确定相应的兴趣得分。
[0132]
具体的，控制设备分别针对每一属性标签，执行以下步骤：
[0133]
获取网络用户总数，以及属性标签对应的标签用户数量，并根据网络用户总数和标签用户数量，确定标签权重，以及确定属性标签对应的各目标操作对应的操作得分的和，
并根据该和与标签权重的乘积，确定相应的兴趣得分。
[0134]
其中，网络用户总数表示浏览各目标多媒体内容的用户的总数量，可以为预先设置的固定值，也可以为实时获取的，在此不作限制。属性标签对应的标签用户数量为对该属性标签的目标多媒体内容进行浏览的用户的总数量。标签权重和标签用户数量呈负相关，且与网络用户总数呈正相关。
[0135]
可选的，确定标签权重时，可以采用以下公式：
[0136]
idf＝log(n/(n 1))；
[0137]
其中，idf为标签权重，n为网络用户总数，n为标签用户数量。
[0138]
由于目标多媒体内容有大众小众之分，不应该同等对待。用户在小众品类上有足够的消费更能体现用户的兴趣，因此本技术实施例中，基于逆文件频率(inverse document frequency，idf)，针对不同的属性标签，确定相应的idf，进而根据idf对兴趣得分进行加权处理。
[0139]
idf的主要思想为：如果某个词或短语在一篇文章中出现的频率很高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。本技术实施例中，用户同样的网络行为，在小众类别的目标多媒体内容上比大众类别的目标多媒体内容上更能体现用户兴趣，标签权重越大，说明该属性标签越小众，反之，越大众。
[0140]
可选的，确定兴趣得分时，可以采用以下公式：
[0141]
s＝w1 w2 w3
……
wm；
[0142]
q＝s*idf；
[0143]
其中，s为属性标签对应的各目标操作对应的操作得分的和，w表示目标操作对应的操作得分，m表示目标操作的序号，idf表示标签权重，q表示属性标签的兴趣得分。
[0144]
由于可能多次实施相同的目标操作，则确定各目标操作对应的操作得分的和时，可以采用依次叠加每一目标操作对应操作得分的方式，也可以采用先计算每一目标操作对应的操作得分和操作次数的乘积，再计算各乘积的和的方式。
[0145]
例如，假设w
sck
，w
lck
，w
like
，w
share
以及w
comment
依次为短点击，长点击，点赞，分享以及评论的操作得分，对应的操作次数均为1，则属性标签对应的各目标操作对应的操作得分的和s＝w
sck
w
lck
w
like
w
share
w
comment
，进一步地，若对应的操作次数依次为2，1，5，7以及3，则属性标签对应的各目标操作对应的操作得分的和s＝2w
sck
w
lck
5w
like
7w
share
3w
comment
。
[0146]
进一步地，若发生突发性新闻事件，用户可能针对该突发性新闻事件集中所有的网络行为，这可能也会影响用户长期的用户画像的精确度，因此，控制设备还可以对突发性新闻事件对应的属性标签的兴趣得分进行平滑处理。
[0147]
具体的，若确定兴趣得分高于预设兴趣得分阈值，则控制设备对该兴趣得分进行平滑处理，获得平滑处理后的兴趣得分。
[0148]
实际应用中，预设兴趣得分阈值可以根据实际应用场景进行设置，如，0.9，在此不作限制。
[0149]
可选的，对确定兴趣得分时，可以采用以下公式：
[0150]
[0151]
其中，q为兴趣得分，b为预设兴趣得分阈值。
[0152]
s2024：控制设备根据各属性标签的兴趣得分，获得用户画像的增量画像。
[0153]
具体的，执行步骤2024时，可以采用以下几种方式：
[0154]
第一种方式为：根据各属性标签的兴趣得分，生成包含各属性标签的兴趣得分的画像向量，并将该画像向量确定为用户画像的增量画像。
[0155]
第二种方式为：从各属性标签中，筛选出兴趣得分最高的预设标签数量的属性标签，并生成包含筛选出的各属性标签的兴趣得分的画像向量，并将该画像向量确定为用户画像的增量画像。
[0156]
这样，就可以采用向量的方式，表示增量画像和用户画像。
[0157]
实际应用中，还可以采用集合等方式，表示增量画像和用户画像，在此不作限制。
[0158]
步骤203：控制设备根据获取的在上次更新时间之前的历史目标操作对应的最新历史操作时间，确定上次活跃时间，并根据网络行为数据中的目标操作对应的操作时间，确定本次活跃时间。
[0159]
具体的，控制设备获取在上次更新时间之前的各历史目标操作对应的历史操作时间，并在各历史操作时间中，筛选出最新的历史操作时间，即最新历史操作时间，以及基于最新历史操作时间，确定上次活跃时间。控制设备获取网络行为数据中包含的目标操作对应的操作时间，并基于该操作时间，确定本次活跃时间。
[0160]
一种实施方式中，确定上次活跃时间和本次活跃时间时，可以采用以下几种方式：
[0161]
第一种方式为：将最新历史操作时间，确定为上次活跃时间，并将网络行为数据中的操作时间，确定为本次活跃时间。
[0162]
其中，若存在多个操作时间，则从各操作时间中筛选出一个操作时间，作为本次活跃时间。
[0163]
例如，控制设备将各操作时间中的最小操作时间，确定为本次活跃时间。
[0164]
第二种方式为：将最新历史操作时间对应的画像更新周期，确定为上次活跃时间，并将网络行为数据中的操作时间对应的画像更新周期，确定为本次活跃时间。
[0165]
需要说明的是，本技术实施例中，按照预设单位时长，周期性对用户画像进行更新，画像更新周期为预设单位时长的倍数，每更新一次用户画像，则画像更新周期加一。可选的，操作时间是可以按照画像更新周期为单位进行记录。
[0166]
例如，假设预设单位时长为1天，用户画像的上次更新时间为6号，控制设备确定目标用户在6号未执行目标操作，在5号的5点，针对游戏新闻实施了点击操作，以及在7号的9点针对娱乐新闻实施了分享操作，因此，控制设备确定上次活跃时间为6号，本次活跃时间为7号。
[0167]
又例如，假设预设单位时长为1周，则操作时间为目标操作实施的第k周，如，操作时间为第15周，其中，k表示周序号，为正整数。
[0168]
本技术实施例中，仅以预设单位时长为1天为例进行说明，实际应用中，预设单位时长可以根据实际应用场景进行设置，在此不作限制。
[0169]
步骤204：控制设备根据上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间后获得的用户画像进行衰减处理。
[0170]
具体的，执行步骤204时，可以采用以下步骤：
[0171]
s2041：控制设备确定上次活跃时间和本次活跃时间之间的时间距离。
[0172]
一种实施方式中，控制设备将上次活跃时间和本次活跃时间之间的自然天数，确定为相应的时间距离。
[0173]
s2042：控制设备根据时间距离，确定衰减系数。
[0174]
其中，衰减系数与时间距离呈负相关。
[0175]
可选的，确定衰减系数时，可以采用以下公式：
[0176]
r(t1-t2)＝c-d(t1-t2)e；
[0177]
其中，r为衰减系数，t1为本次活跃时间，t2为上次活跃时间，c、d和e均大于零的为参数，且可以根据实际应用场景进行设置。一种实施方式中，设置c＝1.0，d＝0.05，e＝0.1，则r(t1-t2)＝1.0-0.05(t1-t2)
0.1
。
[0178]
s2043：控制设备按照衰减系数，对上次更新时间后获得的用户画像进行衰减处理。
[0179]
具体的，控制设备计算上次更新时间后获得的用户画像中的各属性标签的兴趣得分与衰减系数的乘积，获得衰减处理后的各属性标签的兴趣得分，并根据衰减处理后的各属性标签的兴趣得分，获得衰减处理后的用户画像。
[0180]
参阅图3所示，为一种衰减系数曲线的示例图。图3中展示了衰减系数与时间距离之间的曲线关系，时间距离越大，衰减系数越小，进而衰减处理后的兴趣得分也越小。
[0181]
本技术实施例中，仅以通过相邻活跃时间之间的时间距离确定衰减系数为例进行说明，实际应用中，也可以采用衰减机制，如，若目标多媒体内容多次连续发生曝光但未被实施目标操作，则对相应的兴趣得分进行衰减处理。
[0182]
需要说明的是，曝光是指应用程序向用户呈现了目标多媒体内容的标题等索引信息。
[0183]
这样，采用活跃天衰减的方式，只有当用户在新的画像周期内有了新的操作记录才会把历史画像做衰减，且衰减系数是根据不同画像周期中的两个相邻活跃时间之间的时间距离确定的，提高了用户画像的更新效率以及精确度。
[0184]
步骤205：控制设备将衰减处理之后的用户画像以及增量画像进行融合处理，获得本次更新后的用户画像。
[0185]
具体的，控制设备将衰减处理之后的用户画像中各属性标签的兴趣得分与增量画像中的相应兴趣得分进行叠加，获得本次更新后的用户画像。
[0186]
本次更新后的用户画像中的各属性标签的兴趣得分为：衰减处理之后的相应属性标签的兴趣得分与增量画像中的相应属性标签的兴趣得分的和。
[0187]
进一步地，若用户画像关联的目标对象在上次更新时间之后的预设单位时长内，未浏览目标多媒体内容，即未针对目标多媒体内容实施任一目标操作，则无法获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，使得增量画像生成失败。若确定增量画像生成失败，则控制设备将上次更新时间后获得的用户画像，确定为本次更新后的用户画像。
[0188]
可选的，本次更新后的用户画像确定时，可以采用以下公式，分别确定本次更新后的用户画像中的每一属性标签的兴趣得分：
[0189][0190]
其中，q
t
本次更新后的兴趣得分，q
t-1
为上次更新后的兴趣得分，t表示本次更新时间，t1为本次活跃时间，t2为上次活跃时间，q
δt
为增量画像中的兴趣得分。
[0191]
若q
δt
》0，则说明用户画像关联的目标对象在上次更新时间之后的预设单位时长内，存在针对目标多媒体内容实施的目标操作的行为数据，本次活跃时间以及增量画像获取成功，否则，不存在本次活跃时间和增量画像。
[0192]
进一步地，控制设备可以根据本次更新后的用户画像，向用户终端推送相应的个性化推荐信息。
[0193]
如，控制设备向学生推荐留学信息，向青年推送旅游信息，向女孩子推送时尚信息。
[0194]
需要说明的是，控制设备可以根据用户画像中各兴趣标签的得分，将各兴趣标签进行排名，并按照各兴趣标签的排名顺序，向用户终端推荐指定数量的兴趣标签对应的个性推荐信息。
[0195]
实际应用中，指定数量可以根据实际应用场景进行设置，如，10个在此不作限制。
[0196]
一种实施方式中，控制设备将本次更新后的用户画像中的各属性标签按照相应的兴趣得分由高到低的顺序进行排序，并筛选出兴趣得分最高的指定数量的属性标签，以及根据筛选出属性标签，从包含海量内容的数据库中，筛选出多个目标多媒体内容。控制设备按照属性标签的顺序，将筛选出的目标多媒体内容排序后，推送至目标用户对应的用户终端。
[0197]
这样，就可以根据用户画像，向用户推送个性化推荐信息，还可以对用户喜欢的多媒体内容进行排序。
[0198]
参阅图4所示，为一种用户画像更新的流程示例图。下面采用一个具体的应用场景对上述实施例进行具体说明。假设，目标操作为短点击、长点击、点赞、分享以及评论。目标多媒体内容为娱乐新闻，对应的属性标签为娱乐属性标签。目标用户为用户a，用户a的用户画像关联的目标对象为社交应用账号。预设单位时长为1天。上次更新时间为昨天。
[0199]
则控制设备采用以下步骤对用户画像进行更新：
[0200]
s400：控制设备获取社交应用账号在今天针对娱乐新闻实施的各目标操作，即短点击、长点击、点赞、分享以及评论。
[0201]
s401：控制设备确定各目标操作对应的操作得分。
[0202]
s403：控制设备将各目标操作对应的操作得分的和，确定为娱乐属性标签的兴趣得分。
[0203]
s404：若目标多媒体内容为热点类型内容，则控制设备根据预设权重系数，对兴趣得分进行热点降权处理，若确定兴趣得分高于预设兴趣得分阈值，则控制设备对该兴趣得分进行平滑处理，获得平滑处理后的兴趣得分。
[0204]
s405：控制设备根据获取的网络用户总数，以及娱乐属性标签对应的标签用户数量，确定标签权重，并根据标签权重，对兴趣得分进行调整。
[0205]
s406：控制设备根据调整后的兴趣得分，获得用户画像的增量画像。
[0206]
s407：控制设备根据上次活跃时间和本次活跃时间之间的时间距离，对历史用户
画像进行衰减处理。
[0207]
其中，历史用户画像为上次更新时间后获得的用户画像。
[0208]
s408：控制设备将衰减处理后的用户画像与增量画像结合，获得本次更新时间后的用户画像。
[0209]
一种测试场景中，根据用户的历史网络数据，筛选出多个包含两个不同的属性标签的二元组合，并采用本技术提供的用户画像，分别确定每一二元组合中的推荐属性标签，以及采用传统方式提供的用户画像，分别确定每一二元组合中的推荐属性标签。通过发放问卷的方式，获取用户分别从每一二元组合中选取的一个喜欢的属性标签，作为正确属性标签。根据本技术的用户画像确定出的推荐属性标签，和正确属性标签，获得相应的标签准确率、一级类准确率，以及二级类准确率，并根据传统方式提供的用户画像确定出的推荐属性标签和正确属性标签，获得相应的标签准确率、一级类准确率，以及二级类准确率。其中，标签准确率为推荐属性标签与正确属性标签相同的数量，与总数量的比值。由于用户画像中包含多个兴趣标签，因此，可以确定出第一推荐属性标签和第二推荐属性标签，基于与标签准确率确定相同的原理，可以分别确定一级类准确率，以及二级类准确率。
[0210]
总计收回约1000份问卷，确定本技术提供的用户画像与传统技术中提供的用户画像相比，标签准确率提供13.8％、一级类准确率提供9.7％，以及二级类准确率提升10.08％。分别采用本技术提供的用户画像和传统技术中提供的用户画像，向用户推送个性推荐信息，并分别统计用户的客户端使用时长。本技术提供的用户画像对应用户的客户端使用时长，与传统技术中提供的用户画像对应的用户的客户端使用时长提升了0.95％。
[0211]
本技术实施例中，按照相邻活跃时间之间的时间距离，将历史画像进行衰减，以及采用增量网络行为数据获得增量画像后，分别对增量画像采用热点降权处理、平滑处理以及idf处理，对增量画像进行多次加权处理，以及对历史画像进行衰减处理，提高了用户画像的准确度以及更新效率。进一步地，由于用户画像用于表示用户对不同类别的多媒体内容的偏好，因此，可以通过用户画像，为用户提供精准地推荐，从而提升了用户体验。
[0212]
基于同一发明构思，本技术实施例中还提供了一种用户画像更新装置，由于上述装置及设备解决问题的原理与一种用户画像更新方法相似，因此，上述装置的实施可以参见方法的实施，重复之处不再赘述。
[0213]
如图5示，其为本技术实施例提供的一种用户画像更新装置的结构示意图。一种用户画像更新装置包括：
[0214]
获取单元501，用于根据用户画像的上次更新时间，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，网络行为数据包括目标对象针对目标多媒体内容而实施的各个目标操作的行为数据；
[0215]
第一确定单元502，用于根据网络行为数据中的各个目标操作的行为数据，确定用户画像的增量画像；
[0216]
第二确定单元503，用于根据在上次更新时间之前的历史目标操作对应的最新历史操作时间，确定上次活跃时间，并根据网络行为数据中的目标操作对应的操作时间，确定本次活跃时间；
[0217]
衰减单元504，用于根据上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间后获得的用户画像进行衰减处理；
[0218]
融合单元505，用于将衰减处理之后的用户画像以及增量画像进行融合处理，获得本次更新后的用户画像。
[0219]
较佳的，融合单元505还用于：
[0220]
若确定增量画像生成失败，则将上次更新时间后获得的用户画像，确定为当前更新后的用户画像。
[0221]
较佳的，第一确定单元502用于：
[0222]
根据各目标操作针对的目标多媒体内容对应设置的属性标签，分别确定每一属性标签对应的各目标操作；
[0223]
分别针对每一目标操作，执行以下步骤：根据目标操作的行为数据，确定目标操作对应的操作得分；
[0224]
分别针对每一属性标签，执行以下步骤：根据属性标签的各目标操作对应的操作得分，确定相应的兴趣得分；
[0225]
根据各属性标签的兴趣得分，获得用户画像的增量画像。
[0226]
较佳的，第一确定单元502用于：
[0227]
若目标操作为非指定操作，则获取目标操作对应设置的操作得分；
[0228]
若目标操作为指定操作，则获取目标操作的行为数据中包含的目标操作对应的浏览时长，并根据目标操作对应的浏览时长，以及预设平均浏览时长，确定目标操作对应的操作得分。
[0229]
较佳的，第一确定单元502用于：
[0230]
获取网络用户总数，以及属性标签对应的标签用户数量；
[0231]
根据网络用户总数和标签用户数量，确定标签权重，标签权重和标签用户数量呈负相关，且与网络用户总数呈正相关；
[0232]
确定属性标签对应的各目标操作对应的操作得分的和；
[0233]
根据和与标签权重的乘积，确定相应的兴趣得分。
[0234]
较佳的，第一确定单元502还用于：
[0235]
若目标操作对应的目标多媒体内容为热点类型内容，则获取预设权重系数；
[0236]
根据预设权重系数，对目标操作对应的操作得分进行调整，或者，对目标操作对应的属性标签的兴趣得分进行调整。
[0237]
较佳的，第一确定单元502还用于：
[0238]
若兴趣得分高于预设兴趣得分阈值，则对兴趣得分进行平滑处理，获得平滑处理后的兴趣得分。
[0239]
较佳的，衰减单元504用于：
[0240]
确定上次活跃时间和本次活跃时间之间的时间距离；
[0241]
根据时间距离，确定衰减系数，衰减系数与时间距离呈负相关；
[0242]
按照衰减系数，对上次更新时间后获得的用户画像进行衰减处理。
[0243]
较佳的，融合单元505用于：
[0244]
基于本次更新后的用户画像，向用户终端推送相应的个性化推荐信息。
[0245]
本技术实施例提供的一种用户画像更新方法、装置、设备和介质中，获取用户画像关联的目标对象在上次更新时间之后的预设单位时长内的网络行为数据，并根据网络行为
数据中的各目标操作的行为数据，确定用户画像的增量画像，以及根据目标操作的上次活跃时间和本次活跃时间之间的时间距离，对上次更新时间前的用户画像进行衰减处理，并将衰减处理后的用户画像，与增量画像结合，获得本次更新后的用户画像，这样，每次仅采用一个周期内的增量的网络行为数据，对用户画像进行更新，提高了用户画像的更新效率，且采用相邻活跃时间之间的时间距离，对历史用户画像进行了衰减处理，提高了更新后的用户画像的精确度。
[0246]
图6示出了一种控制设备6000的结构示意图。参阅图6所示，控制设备6000包括：处理器6010、存储器6020、电源6030、显示单元6040、输入单元6050。
[0247]
处理器6010是控制设备6000的控制中心，利用各种接口和线路连接各个部件，通过运行或执行存储在存储器6020内的软件程序和/或数据，执行控制设备6000的各种功能，从而对控制设备6000进行整体监控。
[0248]
本技术实施例中，处理器6010调用存储器6020中存储的计算机程序时执行如图2中所示的实施例提供的用户画像更新方法。
[0249]
可选的，处理器6010可包括一个或多个处理单元；优选的，处理器6010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器6010中。在一些实施例中，处理器、存储器、可以在单一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。
[0250]
存储器6020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、各种应用等；存储数据区可存储根据控制设备6000的使用所创建的数据等。此外，存储器6020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
[0251]
控制设备6000还包括给各个部件供电的电源6030(比如电池)，电源可以通过电源管理系统与处理器6010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
[0252]
显示单元6040可用于显示由用户输入的信息或提供给用户的信息以及控制设备6000的各种菜单等，本发明实施例中主要用于显示控制设备6000中各应用的显示界面以及显示界面中显示的文本、图片等对象。显示单元6040可以包括显示面板6041。显示面板6041可以采用液晶显示屏(liquid crystal display，lcd)、有机发光二极管(organic light-emitting diode，oled)等形式来配置。
[0253]
输入单元6050可用于接收用户输入的数字或字符等信息。输入单元6050可包括触控面板6051以及其他输入设备6052。其中，触控面板6051，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触摸笔等任何适合的物体或附件在触控面板6051上或在触控面板6051附近的操作)。
[0254]
具体的，触控面板6051可以检测用户的触摸操作，并检测触摸操作带来的信号，将这些信号转换成触点坐标，发送给处理器6010，并接收处理器6010发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6051。其他输入设备6052可以包括但不限于物理键盘、功能键(比如音量控制按键、开关机按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0255]
当然，触控面板6051可覆盖显示面板6041，当触控面板6051检测到在其上或附近的触摸操作后，传送给处理器6010以确定触摸事件的类型，随后处理器6010根据触摸事件的类型在显示面板6041上提供相应的视觉输出。虽然在图6中，触控面板6051与显示面板6041是作为两个独立的部件来实现控制设备6000的输入和输出功能，但是在某些实施例中，可以将触控面板6051与显示面板6041集成而实现控制设备6000的输入和输出功能。
[0256]
控制设备6000还可包括一个或多个传感器，例如压力传感器、重力加速度传感器、接近光传感器等。当然，根据具体应用中的需要，上述控制设备6000还可以包括摄像头等其它部件，由于这些部件不是本技术实施例中重点使用的部件，因此，在图6中没有示出，且不再详述。
[0257]
本领域技术人员可以理解，图6仅仅是控制设备的举例，并不构成对控制设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。
[0258]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以通过软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0259]
本技术实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任意方法实施例中的用户画像更新控制方法。
[0260]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台控制设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0261]
最后应说明的是：以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种强冲击易自燃煤层回采工作面区段煤柱宽度确定方法

一种用户画像更新方法、装置、设备和介质与流程

相关文献

最热文献