一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、存储介质及计算机设备与流程

2021-11-18 01:49:00 来源:中国专利 TAG:


1.本技术涉及计算机技术领域,具体涉及一种数据处理方法、装置、存储介质及计算机设备。


背景技术:

2.随着互联网的普及,用户普遍进行线上活动,如社交、购物、缴费、观看影音等线上活动。针对用户的线上活动,衍生出了各种线上推荐服务,其中,进行个性化推荐能够有效地满足不同用户群体的需求,进而提高推荐服务的转化率。
3.个性化推荐是通过对用户的历史数据进行分析,进而根据用户的历史数据对用户进行个性化推荐。此种方式容易泄露用户隐私,目前使用的方法是基于本地差分隐私的用户画像。
4.基于本地差分隐私的用户画像是通过对用户的历史数据进行加噪处理,进而保护用户隐私,但历史数据加噪之后则不能精准定位用户群体的需求,造成仅能保护用户隐私,不能兼顾推荐精度。
5.因此,现有技术中保护用户隐私的推荐方法存在弊端。


技术实现要素:

6.本技术实施例提供一种数据处理方法、装置、存储介质及计算机设备,能够在保护用户隐私的前提下精准定位用户群体的需求。
7.第一方面,本技术实施例提供一种数据处理方法,包括:
8.获取多个用户的多组历史数据;
9.确定每一组历史数据的第一特征向量;
10.对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量;
11.对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
12.第二方面,本技术实施例还提供一种数据处理装置,包括:
13.数据获取模块,用于获取多个用户的多组历史数据;
14.数据处理模块,用于确定每一组历史数据的第一特征向量;
15.向量分组模块,用于对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量;
16.扰动处理模块,用于对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
17.第三方面,本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本技术任一实施例提供的数据处理方法。
18.第四方面,本技术实施例还提供一种计算机设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本技术任一实施例提供的数据处理方法。
19.本技术实施例提供的技术方案,通过对多个用户的历史数据进行处理,得到多个第一特征向量,之后对多个第一特征向量进行分组,得到至少一组第一特征向量集,使得同一组第一特征向量集中的多个第一特征向量之间具有相似性,之后对同一组第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,通过每组扰动数据集得到推荐数据,既能保证用户的隐私不会泄露,同时将具有相似特征的用户划分在同一个组内,进而得到根据用户特征的分类获取对应的推荐数据,进而提高了推荐的精度。
附图说明
20.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本技术实施例提供的数据处理方法的流程示意图。
22.图2为本技术实施例提供的数据处理方法的数据处理过程示意图。
23.图3为本技术实施例提供的数据处理装置的结构示意图。
24.图4为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术的保护范围。
26.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
27.本技术实施例提供一种数据处理方法,该数据处理方法的执行主体可以是本技术实施例提供的数据处理装置,或者集成了该数据处理装置的计算机设备,其中该数据处理装置可以采用硬件或者软件的方式实现。其中,计算机设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备,也可以是服务器。
28.请参阅图1,图1为本技术实施例提供的数据处理方法的流程示意图。本技术实施例提供的数据处理方法的具体流程可以如下:
29.101、获取多个用户的多组历史数据。
30.服务器获取用户终端产生的历史数据,其中,历史数据可以为用户的浏览记录、购买记录、收藏记录、观看记录等内容。
31.比如,用户在网上的购物记录,该购物记录中包括购物时间、金额、商品名称和商
品图片等信息;还比如,用户的浏览记录,该浏览记录中包括浏览时间、浏览时长和浏览内容等信息。
32.示例性地,每一条记录可作为一条历史数据,每一用户终端对应一组历史数据,其中,一组历史数据可以具有一条或多条历史数据。对于一组历史数据可以为关于同一内容或同类内容的记录,也可以为关于同一操作或同类操作的记录,而具体的划分标准此处并不进行限定,只要一组历史数据能够表示一个用户的操作即可。
33.示例性地,若对n个用户终端的历史数据进行获取,用户终端分别用c1…
n
表示,当服务器需要统计过去某段时间内n个用户终端播放歌曲的情况时,服务器从n个用户终端获取关于歌曲播放情况的记录,并将每个用户终端播放歌曲的情况分别记为一组历史数据。
34.比如,用户终端c1播放歌曲,则将播放歌曲的名称、时长、播放时间点等数据记为第一组历史数据,相应地,将用户终端c2播放歌曲的名称、时长、播放时间点等数据记为第二组历史数据。依此类推,一个用户终端对应有一组历史数据。
35.示例性地,用户的历史数据可以包括敏感数据,敏感数据又称隐私数据,即用户不希望被人知道的数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。
36.可以理解地,服务器获取的历史数据可以仅为敏感数据,也可以包含有敏感数据和其它数据,或者不包含敏感数据,只有服务器能够获取到历史数据,均可以实现对历史数据的保护。只需说明的是,本技术方案需要获取多个用户的多组历史数据,进而方便对多个用户进行特征混淆,使得多个用户的多组历史数据得到隐藏,利于隐私保护。
37.102、确定每一组历史数据的第一特征向量。
38.本方案是对每一组历史数据分别进行矢量化处理,得到第一特征向量,进而方便后续的处理和计算。其中,对历史数据进行矢量化处理的方式有多种,具体可由本领域技术人员根据实际需求选择,只要能够实现对历史数据的转化即可。
39.在一些实施例中,确定每一组历史数据的第一特征向量,包括:
40.1021、根据历史数据确定历史行为参数。
41.服务器能够根据历史数据自动识别其中的历史行为参数,其中,历史行为参数包括特征词或某一操作等,能够表示用户的偏好。
42.比如,服务器获取用户终端在某一时间段的历史数据,该历史数据体现了用户长时间且多次浏览某一商品,则表示用户喜欢该商品,则将该商品的属性列为历史行为参数,历史行为参数可包括商品的类别参数或商品的元素参数等。
43.再比如,用户在一段时间内喜欢收听某一类歌曲,则将这类歌曲的属性列为历史行为参数,历史行为参数可包括:流行、摇滚、童谣等参数。
44.当然地,历史行为参数并不限于上述举例,只要能够表征用户的行为操作的特征即可。
45.1022、根据历史行为参数和预设特征维度,将历史数据表示成第二特征向量。
46.其中,预设特征维度可为对历史行为参数中参数的赋值,用于表示不同参数的占比情况,而赋值的大小可根据用户的偏好而定,而用户的偏好可以用户的操作次数、操作时长、收藏、点赞等行为表示。可以理解地,当从用户的历史行为参数中分析出用户的偏好,则根据不用用户对同一参数的偏好进行赋值。
47.示例性地,历史行为参数可为特征参数,预设特征维度为用户对于不同特征参数的偏好程度。比如,用户终端c1播放曲库a,用户终端c2播放曲库b,曲库a和曲库b中均存在历史行为参数:流行、摇滚、民谣等,但由于用户终端c1和用户终端c2曲库中的歌曲不同,每首歌曲的类别存在差异,且用户对不同歌曲的收听次数不同,因此,通过对每一个参数出现的频次进行统计,可得到用户的偏好。
48.其中,用户终端c1具有一组历史数据,该一组历史数据的历史行为参数为流行、摇滚、民谣,而流行的占比0.7、摇滚的占比0.9、民谣的占比0,因此,用户终端c1可表示成(0.7,0.9,0)的第二特征向量;用户终端c2具有一组历史数据,该一组历史数据的历史行为参数为流行、摇滚、民谣,而流行的占比0.2、摇滚的占比0.1、民谣的占比0.5,用户终端c2可表示成(0.2,0.1,0.5)的第二特征向量。
49.示例性地,历史行为参数还可为特征参数的占比,而预设特征维度为用户的操作频率。比如,当用户终端c1的曲库a中包括歌曲a和歌曲b,其中歌曲a的流行占比为0.7、摇滚占比为0.9、民谣占比为0,歌曲b的流行占比为0.2、摇滚占比为0.1、民谣占比为0.5。若用户终端c1播放过10次歌曲a(流行:0.7,摇滚:0.9,民谣:0),播放过5次歌曲b(流行:0.2,摇滚:0.1,民谣:0.5),则第二特征向量可以表示为:[10*(0.7,0.9,0) 5*(0.2,0.1,0.5)]/2=(4,4.75,1.25)。
[0050]
可以理解地,此处并未限定历史行为参数的具体形式以及预设特征维度的设定方式,只要能够实现将历史数据转换为向量的方式均可用于本实施例中。
[0051]
1023、对第二特征向量进行规范化处理,得到具有固定维度的第一特征向量。
[0052]
其中,对第二特征向量进行规范化处理的目的是为了统一第二特征向量的单位长度,得到第一特征向量,进而方便对第一特征向量进行后续的处理。
[0053]
可以理解地,对向量进行规范化处理的方式有多种,只要能够实现对向量进行规范化处理的方式均可用于本实施例中,均属于本技术所要求的保护范围。
[0054]
在一些实施例中,还可以采用局部敏感哈希算法对第二特征向量进行规范化处理,其中,对第二特征向量进行规范化处理,得到具有固定维度的第一特征向量,包括:
[0055]
基于局部敏感哈希算法,将第二特征向量映射到具有固定维度的第一特征向量。
[0056]
其中,局部敏感哈希算法也称simhash,在一定程度上可以表征原内容的相似度,将原始的文本内容映射为数字。
[0057]
示例性地,如图2所示,图2是本技术实施例提供的数据处理方法的数据处理过程示意图。多个用户终端包括:用户终端1、用户终端2

用户终端n,而用户终端1对应第二特征向量1,用户终端2对应第二特征向量2

用户终端n对应第二特征向量n。基于simhash可以将第二特征向量映射到长度为n的第一特征向量,其中,第一特征向量也称哈希向量。比如:用户终端ci的第一特征向量中第j(j=1,2,

n)位元素计算如下:
[0058][0059]
其中,w
j
为m
×
1的随机unit

norm向量,unit

norm向量也称向量模范数,用于将单个的样本特征向量变换成具有单位长度(unit norm)的第一特征向量。
[0060]
比如,假设n=2,w1=[0.1,0.3,0.5]
t
,w2=[

0.2,

0.4,0.6]
t
,则用户终端c
i
的第一特征向量为[(0.1*4 0.3*4.75 0.5*1.25)>0,(

0.2*4

0.4*4.75 0.6*1.25)<0]=[1,
0]。
[0061]
通过simhash使得相似的第二特征向量有更大的几率会被映射成同一个第一特征向量,进而表征用户之间的相似性。
[0062]
103、对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量。
[0063]
通过将多个第一特征向量分成至少一组第一特征向量集,其中,第一特征向量集中多个第一特征向量对应多个不同用户,即将多个不同用户的第一特征向量分在一组,保证同一组内的用户的第一特征向量具有相似度,且便于对多个用户的特征进行混淆,利于保护用户隐私。
[0064]
其中,对多个用户的第一特征向量进行分组的方式有多种,只要能够满足将多个不同用户的第一特征向量划分在同一组即可,换言之,只要能够实现同一组内具有多个用户的第一特征向量即可实现保护用户隐私的目的,也均为本技术所要求的保护范围。
[0065]
在一实施例中,可采用相似度对用户的第一特征向量进行划分,其中,对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,包括:
[0066]
1031、计算每两个第一特征向量之间的相似度。
[0067]
示例性地,计算两个第一特征向量的方式有多种,可采用计算两个第一特征向量的距离的方式得到其相似度,其中,两个第一特征向量之间的距离越小,其相似度越高;也可采用计算两个第一特征向量余弦的方式得到其相似度,其中,两个第一特征向量的余弦值越小,其相似度越高。
[0068]
相应地,在计算得到每两个第一特征向量之间的距离或余弦之后,可以将距离或余弦转换成相似度,其中,相似度可用百分比表示。
[0069]
可以理解地,只要能够计算每两个第一特征向量之间相似度的方式均可用于本实施例中。
[0070]
1032、按照相似度对第一特征向量进行分组,得到至少一组第一特征向量集,一组第一特征向量集中的每个第一特征向量之间的相似度均大于相似度阈值。
[0071]
按照相似度对第一特征向量进行分组,将相似度高的第一特征向量分在同一组第一特征向量集中。其中,通过设置相似度阈值对用户进行分组,可将相似度均大于相似度阈值的多个用户的第一特征向量分在同一组,从而保证同一组中具有多个不同用户,且每个用户均具有相似性,既保护了用户隐私,也便于提高用户推荐精度。
[0072]
其中,为验证每两个第一特征向量x1,x2被分在了同一组中,还可计算两者被分在同一组中的概率,概率计算方式如下:
[0073][0074]
其中,θ表示第一特征向量x1和第二特征向量x2之间的角度,从计算式中也可看出,当第一特征向量x1和第二特征向量x2之间的余弦越小,第一特征向量x1和第二特征向量x2越容易被分在同一组第一特征向量集中。
[0075]
在另一实施例中,还可根据第一特征向量的值进行分组,其中,对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,包括:
[0076]
1033、按照第一特征向量的各个特征维度的值对所有第一特征向量进行排序,得
到第一特征向量序列。
[0077]
其中,第一特征向量具有固定维度,通过对每个维度的值进行比较,能够实现对第一特征向量的位次进行排序,以下进行举例说明:
[0078]
比如,第一特征向量x1为(0,1,1,2,3),第二特征向量x2为(0,1,1,2,1),第一特征向量的特征维度从右往左依次为第一特征维度、第二特征维度、第三特征维度、第四特征维度和第五特征维度,且五个特征维度从右往左依次升高。其中,特征维度越高则第一特征向量的位次越靠前,当对两个第一特征向量进行比较时,则从左往右依次对每个特征维度的值进行比较。
[0079]
比如,当对第一特征向量x1和第二特征向量x2进行比较时,依次对第五特征维度、第四特征维度、第三特征维度、第二特征维度和第一特征维度进行数值比较。其中,第一特征向量x1和第二特征向量x2在第五特征维度、第四特征维度、第三特征维度和第二特征维度的值均相同,而在第一特征维度的值分别为3和1,则说明在第一特征向量x1的位次先于第二特征向量x2。
[0080]
1034、按照k匿名算法,基于第一特征向量序列,对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集。
[0081]
通过位次排序能够得到第一特征向量序列,且第一特征向量序列能够表征每两个相邻第一特征向量之间的相似度,即通过第一特征向量序列能够得到所有第一特征向量的排序。
[0082]
在对第一特征向量序列进行划分时,可按照第一特征向量序列的顺序将其均分成多组第一特征向量集,其中,第一特征向量集中的第一特征向量的个数满足k匿名要求的数量。
[0083]
其中,k匿名技术可以使得存储在发布数据集中的每条个体记录对于敏感属性不能与其他的k

1个个体相区分,即k

匿名机制要求同一个准标识符至少要有k条记录,因此观察者无法通过准标识符连接记录。
[0084]
根据k匿名的前置条件,按至少每k个simhash的规则划分群组,使得至少有k个相似的不同用户被分到了同一个组中,从而确保k匿名。既能保护用户隐私,又能实现聚集具有相似特征的用户,进而在保护用户隐私的基础上提高了向同一群体推荐数据的精度。
[0085]
可以理解地,只要能够满足第一特征向量集中的第一特征向量的个数不小于k个即可,而对分组的个数并不做限定,且每一组第一特征向量集中的第一特征向量的数量可以不固定。
[0086]
104、对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
[0087]
当得到至少一组第一特征向量集之后,则对每一组第一特征向量集分别进行单独的组内扰动处理,使得每一组中的用户特征混淆,且并不与其他组中的用户特征进行混淆,保证了相似的用户还在同一组中。
[0088]
其中,扰动处理可以采用ldp(local differential privacy,本地化差分隐私)扰动技术。通过采用随机响应算法进行扰动处理,从而保护用户特征不受差分攻击,或者通过加噪处理的方式,即形成干扰信号以保护第一特征向量集中的第一特征向量的特征不被泄露。
[0089]
其中,加噪处理是将图像的像素点由于噪声影响随机变成了黑点(dark spot)或白点(white spot),加噪处理包括椒盐噪声和高斯噪声,其中,椒盐噪声是随机的改变图像中像素点的值为黑点或白点,并不是对每个像素点都进行操作;高斯噪声不同,每个像素点都出现噪声。
[0090]
当分别对每组第一特征向量集进行组内扰动之后,得到多组扰动数据集,之后可对多组扰动数据集分别进行组内聚合计算,进而得到每组扰动数据集的聚合特征。
[0091]
其中,聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值、最小值,和计算平均值等。
[0092]
通过得到聚合特征进而可以根据聚合特征为用户终端直接推荐数据,也可以根据聚合特征训练推荐模型,并通过推荐模型给用户终端推荐数据。
[0093]
基于本技术得到的多组聚合特征,能够实现将相似用户分在同一个组内,进而提高为相似用户推荐数据的精度。
[0094]
在一些实施例中,在对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集之后,还包括:
[0095]
对扰动数据集进行组内聚合计算,输出至少一组聚合特征。
[0096]
其中,对多个第一特征向量进行组内扰动之后,组内多个第一特征向量的数量和维度并未发生变化,仅是变动了第一特征向量在不同维度的数值,而数值的变动是基于组内多个第一特征向量在各维度数值的,比如,第一特征向量x1为(0,1,1,2,3),第一特征向量x2为(0,1,1,2,1),第一特征向量x3为(0,2,3,2,4),第一特征向量x4为(1,3,1,4,2)。通过组内扰动之后,第一特征向量x1可变为(0,1,1,2,1),第一特征向量x2为(0,2,3,2,4),第一特征向量x3为(1,3,1,4,2),第一特征向量x4为(0,1,1,2,3)。可以理解地,此处仅限于举例,并不用于限定扰动处理的具体方式。
[0097]
可知,经过扰动处理后得到的至少一组扰动数据集,扰动数据集中第一特征向量的数量和维度并未发生变化。
[0098]
通过对扰动数据集进行组内聚合计算,也即对第一特征向量在同一维度的数值进行聚合计算,得到的聚合特征的维度并未发生变化。
[0099]
比如,聚合计算求取最大值,经过扰动处理后的,第一特征向量x1为(0,1,1,2,1),第一特征向量x2为(0,2,3,2,4),第一特征向量x3为(1,3,1,4,2),第一特征向量x4为(0,1,1,2,3),而聚合特征为(1,3,4,4)。可以理解地,此处仅限于举例,并不用于限定聚合计算的具体方式。
[0100]
确定待推荐用户,并确定待推荐用户对应的一组聚合特征。
[0101]
根据一组聚合特征,获取待推荐用户的推荐数据,并发送至待推荐用户对应的用户终端。
[0102]
当通过扰动数据集进行组内聚合计算之后,能够得到组内多个用户的共同特征,即共同偏好,之后则针对共同偏好为该组用户推荐相似的数据,并将得到的推荐数据分发给组内多个用户对应的用户终端。
[0103]
比如,一组扰动数据集的聚合特征表示的音乐属性为流行,则从数据库中将流行类音乐筛选出来作为推荐数据,向聚合特征表示音乐属性为流行的多个用户终端推荐流行类音乐。
[0104]
可以理解地,数据库可以为预先设置的数据库,且数据库中的所有数据具有特征分类,数据库也可为上述实施例中多个用户终端的多组历史数据形成的数据库,可将相似用户产生的历史数据在同组内进行相互推荐。
[0105]
其中,一组聚合特征表示一类用户群体的偏好,根据这类用户群体的偏好为其推荐类似的数据,能够在保护用户隐私的前提下,为相似的用户推荐与其具有高度关联的类似的数据,能够提高推荐精度,避免了现有技术中基于用户隐私保护方法而造成的推荐精度损失的问题。
[0106]
在一些实施例中,在对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集之后,还包括:
[0107]
对扰动数据集进行组内聚合计算,输出至少一组聚合特征。
[0108]
基于至少一组聚合特征训练预设模型,以获取推荐模型。
[0109]
本实施例用于训练推荐模型,通过对每一组扰动数据集分别进行组内聚合计算,进而得到每一组扰动数据集对应的聚合特征,其中,聚合特征用于表示同一组内相似用户的共同偏好。
[0110]
例如,推荐模型为分类模型。分别为至少一组聚合特征中的每一组聚合特征添加对应的类别标签。类别标签可以包括多个维度的类别标签。
[0111]
比如,以本技术实施例的方案应用于音乐推荐的场景为例,多个维度为歌手、年代、属性、语言等,每个维度可以分多个类别,以属性维度为例,可以包括流行、摇滚、情歌、民谣、重金属等类别。
[0112]
使用添加类别标签后的至少一组聚合特征训练预设模型,以确定模型参数,得到推荐模型。该推荐模型可以用于为用户推荐符合用户偏好的类似数据。
[0113]
可以理解地,对扰动数据集进行聚合计算以及训练推荐模型的过程可在本地服务器执行,也可将多组扰动数据集上传至云端服务器分别进行聚合计算,进而得到多组聚合特征,之后在云端服务器训练推荐模型,并将训练好的推荐模型分别返回至本地服务器,从而缓解本地服务器的压力。
[0114]
一些实施例中,在基于至少一组聚合特征训练预设的推荐模型,以确定模型参数之后,还包括:
[0115]
获取待推荐用户的行为数据。
[0116]
确定行为数据的第三特征向量。根据第三特征向量和训练好的推荐模型,得到待推荐用户的推荐数据,并发送至待推荐用户对应的用户终端。
[0117]
本实施例用于根据推荐模型得到给用户的推荐数据。得到训练好的推荐模型之后,可以为用户推荐数据。
[0118]
例如,确定待推荐用户,采集该待推荐用户的行为数据,并对行为数据进行处理,将行为数据转换成具有固定维度的第三特征向量,其中,第三特征向量与上述第一特征向量、聚合特征均具有相同的特征维度。而将行为数据转换成具有固定维度的特征向量的方式可参照上述实施例中的方法,此处不再赘述。
[0119]
仍然以本技术实施例的方案应用于音乐推荐的场景为例,将第三特征向量输入训练好的推荐模型,得到多个维度的类别标签。
[0120]
从音乐库中,查找出具有多个维度的类别标签的音乐数据,推荐给该待推荐用户。
[0121]
具体实施时,本技术不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
[0122]
由上可知,本技术实施例提供的数据处理方法,通过对多个用户终端的历史数据进行获取,并将多组历史数据转换成多组第一特征向量,并对第一特征向量进行分组,得到至少一组特征向量集,每一组特征向量集中包括多个不同用户的第一特征向量,从而保证不同的用户被分在了同一组,且一组中的不同用户均具有相似的特征,既方便针对用户群体推荐数据,又便于进行特征混淆,保护用户隐私。
[0123]
相比于现有技术中直接对所有用户的历史数据进行扰动处理后训练推荐模型而言,提高了推荐模型的推荐精度。
[0124]
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
[0125]
在一实施例中还提供一种数据处理装置。请参阅图3,图3为本技术实施例提供的数据处理装置200的结构示意图。其中该数据处理装置200应用于计算机设备,该数据处理装置200包括数据获取模块201、数据处理模块202、向量分组模块203和扰动处理模块204,如下:
[0126]
数据获取模块201,用于获取多个用户的多组历史数据;
[0127]
数据处理模块202,用于确定每一组历史数据的第一特征向量;
[0128]
向量分组模块203,用于对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量;
[0129]
扰动处理模块204,用于对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
[0130]
在一些实施例中,数据处理模块202还用于:
[0131]
根据历史数据确定历史行为参数;
[0132]
根据历史行为参数和预设特征维度,将历史数据表示成第二特征向量;
[0133]
对第二特征向量进行规范化处理,得到具有固定维度的第一特征向量。
[0134]
在一些实施例中,对第二特征向量进行规范化处理,得到具有固定维度的第一特征向量,包括:
[0135]
基于局部敏感哈希算法,将第二特征向量映射到具有固定维度的第一特征向量。
[0136]
在一些实施例中,向量分组模块203还用于:
[0137]
计算每两个第一特征向量之间的相似度;
[0138]
按照相似度对第一特征向量进行分组,得到至少一组第一特征向量集,一组第一特征向量集中的每个第一特征向量之间的相似度均大于相似度阈值。
[0139]
在一些实施例中,向量分组模块203还用于:
[0140]
按照第一特征向量的各个特征维度的值对所有第一特征向量进行排序,得到第一特征向量序列;
[0141]
按照k匿名算法,基于第一特征向量序列,对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集。
[0142]
在一些实施例中,数据处理装置还包括:
[0143]
聚合计算模块205,用于对扰动数据集进行组内聚合计算,输出至少一组聚合特征;
[0144]
数据推荐模块206,用于确定待推荐用户,并确定待推荐用户对应的一组聚合特征;根据一组聚合特征,获取待推荐用户的推荐数据,并发送至待推荐用户对应的用户终端。
[0145]
在一些实施例中,数据处理装置还包括:
[0146]
聚合计算模块205,对扰动数据集进行组内聚合计算,输出至少一组聚合特征;
[0147]
模型训练模块207,基于至少一组聚合特征训练预设模型,以获取推荐模型。
[0148]
在一些实施例中,基于至少一组聚合特征训练预设模型,以获取推荐模型之后,还包括:
[0149]
数据获取模块201,用于获取待推荐用户的行为数据;
[0150]
数据处理模块202,用于确定行为数据的第三特征向量;
[0151]
数据推荐模块206,根据第三特征向量和推荐模型,获取待推荐用户的推荐数据,并发送至待推荐用户对应的用户终端。
[0152]
应当说明的是,本技术实施例提供的数据处理装置与上文实施例中的数据处理方法属于同一构思,通过该数据处理装置可以实现数据处理方法实施例中提供的任一方法,其具体实现过程详见数据处理方法实施例,此处不再赘述。
[0153]
由上可知,本技术实施例提出的数据处理装置,通过对多个用户的历史数据进行处理,得到多个第一特征向量,之后对多个第一特征向量进行分组,得到至少一组第一特征向量集,使得同一组第一特征向量集中的多个第一特征向量之间具有相似性,之后对同一组第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,通过每组扰动数据集得到推荐数据,既能保证用户的隐私不会泄露,同时将具有相似特征的用户划分在同一个组内,进而得到根据用户特征的分类获取对应的推荐数据,进而提高了推荐的精度。
[0154]
本技术实施例还提供一种计算机设备,该计算机设备可以为终端,该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(pc,personal computer)、个人数字助理(personal digital assistant,pda)等终端设备。如图4所示,图4为本技术实施例提供的计算机设备的结构示意图。该计算机设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0155]
处理器301是计算机设备300的控制中心,利用各种接口和线路连接整个计算机设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行计算机设备300的各种功能和处理数据,从而对计算机设备300进行整体监控。
[0156]
在本技术实施例中,计算机设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
[0157]
获取多个用户的多组历史数据;
[0158]
确定每一组历史数据的第一特征向量;
[0159]
对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量;
[0160]
对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
[0161]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0162]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0163]
由上可知,本实施例提供的计算机设备,通过对多个用户的历史数据进行处理,得到多个第一特征向量,之后对多个第一特征向量进行分组,得到至少一组第一特征向量集,使得同一组第一特征向量集中的多个第一特征向量之间具有相似性,之后对同一组第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,通过每组扰动数据集得到推荐数据,既能保证用户的隐私不会泄露,同时将具有相似特征的用户划分在同一个组内,进而得到根据用户特征的分类获取对应的推荐数据,进而提高了推荐的精度。
[0164]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0165]
为此,本技术实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本技术实施例所提供的任一种数据处理方法中的步骤。例如,该计算机程序可以执行如下步骤:
[0166]
获取多个用户的多组历史数据;
[0167]
确定每一组历史数据的第一特征向量;
[0168]
对多个用户的第一特征向量进行分组,得到至少一组第一特征向量集,其中,一组第一特征向量集中包括多个不同用户的第一特征向量;
[0169]
对第一特征向量集中的多个第一特征向量进行组内扰动处理,得到至少一组扰动数据集,至少一组扰动数据集用于获取待推荐用户的推荐数据。
[0170]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0171]
其中,该存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。由于该存储介质中所存储的计算机程序,可以执行本技术实施例所提供的任一种数据处理方法中的步骤,因此,可以实现本技术实施例所提供的任一种数据处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0172]
以上对本技术实施例所提供的一种数据处理方法、装置、介质及计算机设备进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献