一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于隐私保护的用户行为数据处理方法及系统

2022-09-03 21:05:10 来源:中国专利 TAG:
1.本技术属于信息安全
技术领域
:,尤其涉及一种基于隐私保护的用户行为数据处理方法及系统。
背景技术
::2.本部分的陈述仅仅是提供了与本发明相关的
背景技术
:信息,不必然构成在先技术。3.随着大数据时代和计算机技术的发展,人们在超市或者电子商务平台的购买行为信息能够被收集并用于知识发现的过程。然而,这些数据可能会包含一些敏感信息,造成信息的隐私泄露。当这些敏感知识被第三方恶意获取时,会造成企业和组织的利润损失,隐私泄露已经成为人们不可避免的问题。因此,如何保护敏感信息不被发现,从而更好的为企业服务,是目前需要解决的问题。4.高效用序列模式挖掘是模式识别领域的重要研究热点,在商业决策、股票市场分析等多个场景得到应用。目前,许多有效的高效用序列模式挖掘方法被提出,以发现有价值的效用序列模式,但也会有信息泄露的风险,例如,用户购买行为数据中包含更高效用的组合模式,可以为领导者决策提供支持,当这些组合模式被其他竞争对手发现并利用时,会造成企业的利益损失,在这种情况下,数据失去了它的保密性。5.高效用序列模式隐藏是隐私保护数据挖掘(ppdm)的一个分支,它的实现方法是通过修改原始数据库,在给定的最小效用阈值下隐藏数据库中发现的所有的高效用序列模式,使其他人无法使用相同或更高的最小效用阈值在经过清理的数据库中发现这些模式。在对效用序列数据库使用隐藏方法时,会产生一定的副作用,即效用损失。高效用序列模式隐藏的目的是降低共享数据的可分析性,保证数据在一定程度上的隐私,同时保证数据库的完整性,这样仍然可以使用相同的模式挖掘框架对修改后的数据库进行有效的挖掘。发明人发现,现有的高效用序列模式隐藏方法仍然面临着一些问题:(1)采用效用矩阵和效用链结构来存储原始数据库和高效用序列模式的相关信息,导致在识别要修改的项(受害者物品)及其在原始数据库中的位置上花费大量时间;(2)为了识别和修改效用序列数据库中的受害者物品,隐藏过程需要进行大量的搜索操作;(3)隐藏过程通常会导致原始数据库效用的极大损失。技术实现要素:6.为克服现有技术的不足,本技术提供一种基于隐私保护的用户行为数据处理方法及系统,用于实现对用户行为数据的隐私保护。7.本技术采用的技术方案如下:8.第一方面,本发明实施例提供一种基于隐私保护的用户行为数据处理方法,包括:9.将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库;10.提取所述效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,所述高效用序列模式的效用值大于或等于最小效用阈值;11.针对每一个高效用序列模式,获取该高效用序列模式中每个项的效用之和,选取其中效用和最大的项作为受害者物品,并修改所述受害者物品在效用序列中的效用以更新高效用序列模式的效用值,直到高效用序列模式的效用值小于最小效用阈值,停止修改;12.共享经修改的效用序列数据库,用于实现对用户行为数据的隐私保护。13.在一种可能的实施方式中,在提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息之后,还包括:根据提取的高效用序列模式对效用序列数据库中的所有效用序列赋予一个序列权值;按照序列权值对目标效用序列的修改顺序进行排序,并优先选取含有最大序列权值的目标效用序列进行修改。14.在一种可能的实施方式中,将各效用序列中包含高效用序列模式的个数确定为效用序列的序列权值。15.在一种可能的实施方式中,获取受害者物品的外部效用,根据所述外部效用、高效用序列模式的效用值与最小效用阈值的差值和受害者物品的效用之和,确定受害者物品的下降率;根据所述下降率修改受害者物品在效用序列中的效用。16.在一种可能的实施方式中,所述将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库,包括:获取用户在预设时间段内的购物信息,所述购物信息包括:购物时间、物品和消费金额;将同一购物时间购买的所有物品和每个物品对应的消费金额作为效用序列的项集,将项集按照购物时间的顺序进行排列,形成有序的效用序列;多个用户的效用序列组成效用序列数据库。17.在一种可能的实施方式中,利用预设的高效用序列模式挖掘算法,提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息。18.第二方面,本技术实施例提供一种基于隐私保护的用户行为数据处理系统,包括:19.获取模块,用于将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库;20.提取模块,用于提取所述效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,所述高效用序列模式的效用值大于或等于最小效用阈值;21.修改模块,用于针对每一个高效用序列模式,获取该高效用序列模式中每个项的效用之和,选取其中效用和最大的项作为受害者物品,并修改所述受害者物品在效用序列中的效用以更新高效用序列模式的效用值,直到高效用序列模式的效用值小于最小效用阈值,停止修改;22.共享模块,用于共享经修改的效用序列数据库,用于实现对用户行为数据的隐私保护。23.在一种可能的实施方式中,所述提取模块在用于提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息之后,还包括:根据提取的高效用序列模式对效用序列数据库中的所有效用序列赋予一个序列权值;按照序列权值对目标效用序列的修改顺序进行排序,并优先选取含有最大序列权值的目标效用序列进行修改。24.第三方面,本发明实施例提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于隐私保护的用户行为数据处理方法的步骤。25.第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述第一方面和第一方面任一种可能的实施方式中所述的基于隐私保护的用户行为数据处理方法的步骤。26.本技术的有益效果:27.(1)本技术通过提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,得到基于数组的效用数组结构用于隐藏过程,该结构可以在不重新扫描原始数据库的情况下快速、准确地定位到受害者物品,并在隐藏过程中,通过直接修改受害者物品的效用来降低高效用序列模式的效用,而不是改变受害者物品的数量,从而保证了原始数据库和清理后数据库的一致性,这样,在保证敏感信息被隐藏的情况下,尽可能大的保持原始数据库的效用。28.(2)提出序列权重的概念来定义原始数据库中序列的权重,并根据序列的权值,改变受害者序列的修改顺序,以减少在隐藏过程中的搜索次数,提高用户行为数据的隐藏效率。附图说明29.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。30.图1是本技术实施例所提供的基于隐私保护的用户行为数据处理方法的流程图;31.图2是本技术另一实施例所提供的基于隐私保护的用户行为数据处理方法的流程图;32.图3是本技术实施例所提供的基于隐私保护的用户行为数据处理系统的结构示意图;33.图4是本技术实施例所提供的一种计算机设备的示意图。具体实施方式34.下面结合附图与实施例对本发明作进一步说明。35.应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属
技术领域
:的普通技术人员通常理解的相同含义。36.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。37.请参阅图1,图1是本技术实施例所提供的基于隐私保护的用户行为数据处理方法的流程图,如图1中所示,基于隐私保护的用户行为数据处理方法包括以下步骤:38.s101:将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库。39.在具体实施中,本技术实施例以用户购买物品的数据为挖掘和隐藏的数据源,以6个用户在3个月内的购物信息为例,如表1和表2中所示,表1是商店出售的物品的单价(也称为外部效用),其中,字母代表的是物品id;表2是已经整理好的用户购买物品的效用序列数据库d,其中,sid代表用户的身份标识,用户购买的物品(项目)id和消费金额u(id)用(id,u(id))表示。40.表1商店出售的物品的单价41.物品(项目)abcdef单价43521342.表2已经整理好的用户购买物品的效用序列数据库d43.用户sid用户购买序列s1《[(a,8)(c,15)],[(a,12)(c,10)],[(a,16)(b,15)(d,8)],[(b,3)(e,3)]》s2《[(a,4)(e,3)],[(a,20)(b,9)(d,4)],[(b,6)(c,5)(d,8)(e,3)]》s3《[(f,12)],[(c,10)(d,6)],[(a,12)(e,3)],[(b,12)(d,10)]》s4《[(b,6)(c,15)],[(a,20)(f,3)],[(b,12)(d,8)(e,5)]》s5《[(a,16)(c,15)],[(a,8)(b,15)(c,10)(d,8)(e,2)]》s6《[(e,6)],[(a,20)(b,9)],[(a,12)(d,8)]》[0044]本技术实施例中,作为一可选实施例,所述将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库,包括:获取用户在预设时间段内的购物信息,所述购物信息包括:购物时间、物品和消费金额;将同一购物时间购买的所有物品和每个物品对应的消费金额作为效用序列的项集,将项集按照购物时间的顺序进行排列,形成有序的效用序列;多个用户的效用序列组成效用序列数据库。[0045]在具体实施中,如表2中数据所示,一个用户在预设时间段内的所有购买信息被转化成一个有序的效用序列,用《》表示。项集表示该用户在某一个时间点同时购买的所有物品,并用[]表示,为了方便,项集里的项是有顺序的。用户可能在不同的时间点购买同一样物品,但购买这件物品的价钱可能相同或不同,即一个项在序列中出现一次或多次。举例而言,表2中sid为s1的用户在第一次和第二次都购买了物品c,但每次购买该物品所花的价钱分别是15和10。其中项集[(a,8)(c,15)]表示一次同时购买了物品a和c,总的价值是23(8 15)。[0046]s102:提取所述效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,所述高效用序列模式的效用值大于或等于最小效用阈值。[0047]在具体实施中,定义1:效用序列s的效用定义为s中的每个项i的效用之和,记为:[0048]u(s)=∑{u(i)|i包含在s中};[0049]例如:u(s1)=8 15 12 10 16 15 8 3 3=90。[0050]定义2:给定序列t=《w1,w2,...,wm》和效用序列s=《v1,v2,...,vn》,如果m=n,并且包含在每个项集wk(1≤k≤m)的项和包含在vk中的项相同,则t匹配s,定义为t~s。例如:序列《a(bd)》在s1中有两次匹配,分别是《[(a,8)][(b,15)(d,8)]》,《[(a,12)][(b,15)(d,8)]》。[0051]定义3:序列t在效用序列s中的效用是s中与t匹配的s’中的项的效用之和,当有多次匹配时,选择匹配的效用之和最大的作为t在s中的效用,定义为[0052][0053]例如:序列《a(bd)》在s1中两次匹配的效用分别是31(8 15 8)和35(12 15 8),因此序列《a(bd)》在s1的效用u(《a(bd)》,s1)=max{31,35}=35。[0054]定义4:序列t在效用序列数据库d中的效用是t在每条效用序列中的效用之和,定义为[0055]例如:序列《a(bd)》在效用序列数据库d的效用是u(t,d)=u(t,s1) u(t,s2) u(t,s3) u(t,s4) u(t,s5) u(t,s6)=35 34 34 40 39=182。[0056]大部分企业经常收集用户长时间段内购买物品的行为数据,并使用高效用序列模式挖掘方法发现高效用序列模式(highutilitysequentialpattern,husp)用于决策。为了保护高效用序列模式不被竞争企业恶意获取,需要对其进行隐藏。目前,大部分的隐藏方法被应用于定量事务数据库中,不能满足效用序列数据库的需求;仅有的一些高效用序列模式隐藏算法产生了较高的效用损失。[0057]为了隐藏高效用序列模式,有两个重要问题需要解决:(1)如何找到每一个husp中的受害物品;(2)如何确定在包含husp的每个序列中需要减少的受害物品的效用价值。[0058]基于此,本技术实施例提取所述效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,所述高效用序列模式的效用值大于或等于最小效用阈值。[0059]作为一可选实施例,利用预设的高效用序列模式挖掘算法,提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息。这里,高效用序列模式挖掘算法包括但不限于husp-ull(huspminingwithul-list)算法等。[0060]在具体实施中,对用户购买行为数据通过高效用模式挖掘算法husp-ull得到所有的高效用序列模式husp及相应的uah结构。[0061]定义5:高效用序列模式[0062]给定最小效用阈值minutil,当子序列在效用序列数据库中的总效用大于等于minutil时,它被认为是一个husp。在husp-ull挖掘husp的过程中,本技术实施例利用uah结构保存了每个husp所在序列的位置和效用信息,用于高效用序列模式隐藏过程。[0063]定义6:pul结构[0064]pul用于存储husp在序列中每次匹配的效用值及每次匹配中的项的位置。[0065]定义7:uah结构[0066]uah记录了husp所在序列的sid以及相应的pul结构。[0067]例如,给定minutil=125,《a(bd)》在表2中的效用是182,因此《a(bd)》是一个husp,其相应的uah结构如表3所示。sid代表包含《a(bd)》的序列的id,a_pos、b_pos、d_pos分别表示物品a、b、d在序列中每次匹配的位置,mat_u代表每次匹配的效用之和,mu_ind表示最大mat_u值的索引。《a(bd)》在s1中分别有两次匹配,第一次匹配的效用值31,匹配中的每个项在s1中的位置分别是1,6,7,同样地,一次匹配的效用值35,匹配中的每个项在s1中的位置分别是3,6,7。第二次匹配的效用最大(35),因此mu_ind是2,具体如表3中所示:[0068]表3《a(bd)》的uah结构[0069][0070]本技术实施例中,作为一可选实施例,在步骤s102,即提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息之后,还包括:根据提取的高效用序列模式对效用序列数据库中的所有效用序列赋予一个序列权值;按照效用序列的序列权值对效用序列的修改顺序进行排序,并优先选取含有最大序列权值的效用序列进行修改。[0071]这里,本技术实施例对所有的高效用序列模式按照序列权值进行降序排序,并计算序列的序列权值。可选的,将各效用序列中包含高效用序列模式的个数确定为效用序列的序列权值。[0072]在具体实施中,定义8:序列权值[0073]效用序列数据库中的一条序列s的权值表示为s中包含的高效用序列模式的个数n,即sw(s)=n。[0074]s103:针对每一个高效用序列模式,获取该高效用序列模式中每个项的效用之和,选取其中效用和最大的项作为受害者物品,并修改所述受害者物品在效用序列中的效用以更新高效用序列模式的效用值,直到高效用序列模式的效用值小于最小效用阈值,停止修改。[0075]在具体实施中,对于每一个husp,使用iem方法选择受害者物品并改变受害物品的效用来修改husp的效用,直到husp的效用小于最小效用阈值。之后重新计算所有的husp的效用值,继续对大于等于最小效用阈值的husp进行隐藏。[0076]本技术实施例中,作为一可选实施例,获取受害者物品的外部效用,根据所述外部效用、高效用序列模式的效用值与最小效用阈值的差值和受害者物品的效用之和,确定受害者物品的下降率;根据所述下降率修改受害者物品在效用序列中的效用。[0077]在具体实施中,计算husp中每个项的效用之和sum,选择效用和最大的项为受害者物品。计算受害者物品的下降率α,其中,p(ivic)表示受害者物品的外部效用(物品单价),u(ivic,pos,s)表示ivic在效用序列s中的效用,pos是ivic在s中的位置。具体如下式所示:[0078][0079][0080]s104:共享经修改的效用序列数据库,用于实现对用户行为数据的隐私保护。[0081]在具体实施中,本技术所提出的hhusp-sw算法伪代码如下:[0082]输入:d:用户购买物品的效用序列数据库;minutil:最小效用阈值;utable:物品的单价;u:高效用序列模式及其对应的uah的集合[0083]输出:经过清理的数据库[0084][0085][0086]22:返回经过清理的数据库;返回的数据库可以被用来共享,其流程图如图2中所示。[0087]整个算法流程的贡献如下:[0088]首先,通过ul-list结构对所有高效用序列模式进行有效挖掘,以加快候选序列及其后代效用的计算。在此基础上,引入两种剪枝策略,提前剪去没有希望的候选序列,避免了搜索空间的组合爆炸。[0089]其次,在隐藏husp的过程中,提出了一种改进的基于数组的结构,称为uah,存储每个husp的位置和效用信息,可以快速、准确地定位到受害项目,并有效地避免原数据库的重新扫描。[0090]第三、提出了序列权重的概念,重新排列了原数据库中序列修改的顺序,优先选择含有最大权值的序列作为修改的受害序列。[0091]第四,采用项消除方法(iem)确定受害物品,降低其效用,为保持原数据库与清理后数据库的一致性提供了可行的解决方案。[0092]基于同一申请构思,本技术实施例还提供一种基于隐私保护的用户行为数据处理系统,如图3中所示,基于隐私保护的用户行为数据处理系统300包括:[0093]获取模块300,用于将获取的用户行为数据转化为有序的效用序列,形成效用序列数据库;[0094]提取模块310,用于提取所述效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息,所述高效用序列模式的效用值大于或等于最小效用阈值;[0095]修改模块320,用于针对每一个高效用序列模式,获取该高效用序列模式中每个项的效用之和,选取其中效用和最大的项作为受害者物品,并修改所述受害者物品在效用序列中的效用以更新高效用序列模式的效用值,直到高效用序列模式的效用值小于最小效用阈值,停止修改;[0096]共享模块330,用于共享经修改的效用序列数据库,用于实现对用户行为数据的隐私保护。[0097]本技术实施例中,作为一可选实施例,所述提取模块310在用于提取效用序列数据库中的高效用序列模式及其所在效用序列的位置和效用信息之后,还包括:根据提取的高效用序列模式对效用序列数据库中的所有效用序列赋予一个序列权值;根据效用序列的序列权值,按照预设规则重新排列序列数据库中各效用序列的修改顺序,并优先选取含有最大序列权值的效用序列进行修改。[0098]请参阅图4,图4是本技术实施例提供的一种计算机设备的示意图。如图4中所示,本技术实施例还提供一种计算机设备,所述计算机设备400包括处理器410、存储器420和总线430。[0099]所述存储器420存储有所述处理器410可执行的机器可读指令,当计算机设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1和图2所示方法实施例中的基于隐私保护的用户行为数据处理方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。[0100]基于同一申请构思,本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述方法实施例中所述的基于隐私保护的用户行为数据处理方法的步骤。[0101]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。[0102]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献