一种数据推荐方法、装置和存储介质与流程

2021-10-22 22:00:00 来源：中国专利 TAG：数据装置隐私方法推荐

1.本发明涉及数据隐私技术，尤其涉及一种数据推荐方法、装置和存储介质。

背景技术：

2.推荐系统通常是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。针对推荐算法所处位置的不同，推荐系统分为服务器端推荐系统、客户端推荐系统和代理服务器端推荐系统等。现有对推荐系统的隐私保护方案一般通过多种技术在客户端或服务器端对上传或收集数据进行扰动，或者改写推荐算法以达到隐私保护的目的，如采用中心化差分隐私技术实现隐私保护。
3.然而，中心化差分隐私技术要求数据收集者是诚实方，不会对用户上传的真实数据产生恶意行为，而在真实场景下，完全可信的数据收集者是不存在的，很多时候用户都不希望厂商获得自己的隐私数据，但精准营销、广告投放、个性化推荐等应用，需要对大量的用户数据进行数据挖掘以获得更精确的用户画像，提升用户体验；如何在保证用户隐私的基础上实现精准推荐是目前需要解决的问题。

技术实现要素：

4.有鉴于此，本发明的主要目的在于提供一种数据推荐方法、装置和存储介质。
5.为达到上述目的，本发明的技术方案是这样实现的：
6.本发明实施例提供了一种数据推荐方法，所述方法应用于终端，所述方法包括：
7.确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；
8.将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；
9.接收所述服务器根据所述第二数据确定并发送的推荐数据。
10.上述方案中，所述方法还包括：判断所述第一数据是否满足转化条件；
11.所述判断所述第一数据是否满足转化条件，包括：
12.确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；
13.根据所述预设的隐私参数，确定扰动概率值；
14.根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
15.相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；
16.相应于所述响应结果表征转化第一数据的情况下，所述第一数据满足转化条件。
17.上述方案中，所述第一数据包括：至少一个参数和所述至少一个参数中各参数对应的数值；
18.转化所述第一数据，包括：
19.对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
20.根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
21.上述方案中，所述对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果，包括：
22.根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
23.上述方案中，所述方法还包括：确定所述第一数据和所述第二数据之间的相似度；
24.所述将第二数据发送至服务器之前，所述方法还包括：
25.根据所述相似度向所述第二数据添加标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
26.所述接收所述服务器根据所述第二数据确定并发送的推荐数据之后，所述方法还包括：
27.确定所述推荐数据对应的第二数据的标签；
28.根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
29.本发明实施例提供了一种数据推荐装置，所述装置包括：第一处理模块、第二处理模块、第三处理模块；其中，
30.所述第一处理模块，用于确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；
31.所述第二处理模块，用于将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；
32.所述第三处理模块，用于接收所述服务器根据所述第二数据确定并发送的推荐数据。
33.上述方案中，所述第二处理模块，用于确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；
34.根据所述预设的隐私参数，确定扰动概率值；
35.根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
36.相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；
37.相应于所述响应结果表征转化第一数据的情况下，所述第一数据满足转化条件。
38.上述方案中，所述第一数据包括：至少一个参数和所述至少一个参数中各参数对应的数值；
39.所述第二处理模块，用于对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
40.根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
41.上述方案中，所述第二处理模块，用于根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
42.上述方案中，所述第二处理模块，还用于确定所述第一数据和所述第二数据之间的相似度；
43.以及，所述第二处理模块，还用于在将第二数据发送至服务器之前，根据所述相似度向所述第二数据添加标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
44.所述第三处理模块，还用于在接收所述服务器根据所述第二数据确定并发送的推荐数据之后，确定所述推荐数据对应的第二数据的标签；
45.根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
46.本发明实施例提供了一种数据推荐装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述数据推荐方法的步骤。
47.本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述数据推荐方法的步骤。
48.本发明实施例所提供的数据推荐方法、装置和存储介质，确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；接收所述服务器根据所述第二数据确定并发送的推荐数据；如此，通过对上传的数据进行本地化差分隐私(ldp，local differential privacy)处理，可以抵御不可信的数据收集者泄露用户隐私数据的情况。
附图说明
49.图1为本发明实施例提供的一种数据推荐方法的流程示意图；
50.图2为本发明实施例提供的另一种数据推荐方法的流程示意图；
51.图3为本发明实施例提供的再一种数据推荐方法的流程示意图；
52.图4为本发明实施例提供的一种数据推荐装置的结构示意图；
53.图5为本发明实施例提供的一种数据推荐系统的结构示意图；
54.图6为本发明实施例提供的另一种数据推荐装置的结构示意图。
具体实施方式
55.在结合实施例对本发明再作进一步详细的说明之前，先对隐私保护和根据隐私保护后的数据进行推荐的相关技术进行说明。
56.互联网行业的迅猛发展为人们带来了数据共享的便利与快捷，但由此引发的隐私泄露风险水平日益提高，而网络攻击手段的不断升级也同样对隐私保护的理论与技术的进展提出了更高的要求。随着大数据时代的到来，厂商越来越多的将关注点放在了用户数据上。现有的研究表明，攻击者可以从海量数据中发掘出用户隐私信息，而非通过访问数据直接获取，这使得传统的加密、访问控制技术无法抵御此类型攻击。隐私保护的方式主要有三
种：数据失真、数据加密、访问控制。目前的隐私保护技术结合了上述多种方案，例如k-匿名、l-多样性、t保密(t-closeness)等技术在对抗一致性攻击、背景知识攻击、相似性攻击方面起到一定的作用，这些技术都依赖于攻击者的背景知识，但都未对攻击模型做出合理的假设；再比如c.dwork等人提出的差分隐私模型为个人信息提供了更高级别的安全保障，无需依赖攻击者所具有背景知识的多少，通过引入噪声等数据随机化处理的方法达到在数据分析中保护隐私的目的。
57.推荐系统通常是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。针对推荐算法所处位置的不同，推荐系统分为服务器端推荐系统、客户端推荐系统和代理服务器端推荐系统等。现有对推荐系统的隐私保护方案一般通过多种技术在客户端或服务器端对上传或收集数据进行扰动，或者改写推荐算法以达到隐私保护的目的。现有技术中提出一种基于差分隐私保护的推荐系统，例如将差分隐私方法引入到基于k近邻的推荐算法中，在差分隐私的框架下进行隐私的邻居选择并据此进行推荐，该方法可以有效地抵制基于相似用户的攻击；arnaud等人提出了差分隐私保护的矩阵分解方法，在利用矩阵分解方法进行推荐的算法下，该方法分别在用户评分数据和随机梯度下降过程中引入满足差分隐私条件的噪声扰动，该方案能在一定程度上抵御针对服务器端的攻击；shen等人则提出了将差分隐私应用在客户端的推荐系统，利用公共数据计算对用户数据的扰动大小，保证扰动后用户数据的可用性。
58.然而，上述方法采用中心化差分隐私模型有一个关键的假设，即数据收集者是诚实方，不会对用户上传的真实数据产生恶意行为。在真实场景下，完全可信的数据收集者是不存在的，很多时候用户都不希望厂商获得自己的隐私数据。而精准营销，广告投放，个性化推荐等应用则需要对大量的用户数据进行数据挖掘以获得更精确的用户画像，提升用户体验。
59.对于推荐系统来讲，推荐系统的体系结构研究的重要问题就是用户信息收集和用户描述文件放在什么地方，服务器还是客户端上，或者是处于二者之间的代理服务器上。当推荐算法在服务器上或代理服务器上实现时，用户的隐私数据安全将无法得到保障。无论是推荐系统的管理者还是入侵推荐系统的人员都能方便地获取存放在服务器上的用户数据。由于用户的个人数据是有很高价值的，接触到用户数据的部分人会出卖用户数据或把用户数据用于非法用途。而基于客户端的推荐系统较难获取其他用户的数据，用户描述文件较难得到，协同推荐策略实施也较难，往往需要设计更加复杂的推荐算法。
60.针对上述问题，本发明实施例提供的方案，确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；接收所述服务器根据所述第二数据确定并发送的推荐数据。
61.下面结合实施例对本发明再作进一步详细的说明。
62.图1为本发明实施例提供的一种数据推荐方法的流程示意图；如图1所示，所述数据推荐方法应用于终端(如手机、平板电脑、个人计算机、笔记本电脑等)；所述方法包括：
63.步骤101、确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；
64.步骤102、将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件
时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；
65.步骤103、接收所述服务器根据所述第二数据确定并发送的推荐数据。
66.在一实施例中，所述方法还包括：判断所述第一数据是否满足转化条件；
67.所述判断所述第一数据是否满足转化条件，包括：
68.确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；
69.根据所述预设的隐私参数，确定扰动概率值；
70.根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
71.相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；相应地，可以将第一数据作为所述第二数据；
72.相应于所述响应结果表征转化第一数据的情况下，所述第二数据满足转化条件；相应地，可以将基于所述第一数据得到的扰动数据作为第二数据。
73.具体来说，这里判断所述第一数据是否满足转化条件可以根据所述扰动概率值对所述第一数据进行二值随机响应，根据响应结果来确定。也即，当响应结果表征不转化第一数据的情况下，即可确定所述第一数据不满足转化条件，当响应结果表征转化第一数据的情况下，即可确定所述第二数据满足转化条件。
74.这里，所述扰动概率值为一个表征是否对待上传的第一数据进行隐私保护的概率值。
75.以下对所述二值随机响应做具体说明。
76.在二值随机响应中，以p的概率上传用户的真实数据，即上述真实的第一数据，以1-p的概率(即所述扰动概率值)上传一个与真实数据形式相同的扰动数据(即失真数据)。这里，二值随机响应满足下列公式(1)：
[0077][0078]
也就是说，相应于所述响应结果表征不转化第一数据的情况下，也即在p的概率下，将所述第一数据作为所述第二数据；
[0079]
相应于所述响应结果表征转化第一数据的情况下，也即在1-p的概率下，将转化第一数据得到的扰动数据作为第二数据。
[0080]
这里，通过采用随机响应(randomized response)技术，服务器难以区分用户上传的是真实数据(即第一数据)或扰动数据，并且终端侧可以以1-p的概率否认自身上传的真实数据。
[0081]
需要说明的是，在二值的随机响应技术中，回答真实答案(这里指上传真实的第一数据)的概率p与本地化差分隐私的预设的隐私参数ε的关系满足以下公式(2)：
[0082][0083]
当用户选择更高程度的隐私保护程度时，本地化差分隐私的隐私预算参数ε数值将越小，对应的，终端向服务器端上传真实数据的概率p也越低。
[0084]
也就是说，所述根据所述预设的隐私参数，确定扰动概率值，可以包括：
[0085]
根据所述预设的隐私参数，查询隐私参数与扰动概率值对应关系，确定所述预设的隐私参数对应的扰动概率值。
[0086]
所述隐私参数与扰动概率值对应关系可以由开发人员预先设定并保存在服务器，由所述终端在确定扰动概率值时从服务器自动获取，或者，可以保存在所述终端加载的客户端中，这里不做限定。
[0087]
这里，设定所述隐私参数与扰动概率值对应关系可以根据上式(2)确定。
[0088]
具体来说，所述隐私参数与预设的隐私保护程度相关联，所述预设的隐私保护程度具体可以由用户通过终端的人机交互界面进行设置；不同保护程度对应不同的隐私参数；例如：终端(具体可以理解为所述终端上加载的客户端)提供选择按键，分别对应一级保护程度、二级保护程度、三级保护程度；其中，所述一级保护程度大于二级保护程度，所述二级保护程度大于三级保护程度；相应的，所述一级保护程度对应的隐私参数小于二级保护程度对应的隐私参数，所述二级保护程度对应的隐私参数小于三级保护程度对应的隐私参数。用户通过自身要求选择不同的隐私保护程度，进而终端可以确定不同的隐私保护程度和对应的隐私参数。
[0089]
这里，在数据推荐方法启用之前，用户还可以根据自身需要选择是否采用隐私保护。例如，终端提供关闭按键，用户在终端对历史数据的隐私保护程度进行选择时，除了上述一级保护程度、二级保护程度、三级保护程度，终端还可以提供一个关闭按键，若选择关闭按键，则表征不采用隐私保护。
[0090]
在一实施例中，所述第一数据包括：至少一个参数和所述至少一个参数中各参数对应的数值；
[0091]
转化所述第一数据，包括：
[0092]
对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
[0093]
根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
[0094]
通过上述方式转化所述第一数据，即可基于所述第一数据得到扰动数据，得到的所述扰动数据作为所述第二数据。
[0095]
具体来说，所述对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果，包括：
[0096]
根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
[0097]
具体来说，所述多值响应，指根据预设的隐私参数，针对每个参数对应的数值，进行随机响应。
[0098]
举例来说，所述第一数据包括：至少一个商品(即所述至少一个参数)和各个商品对应的评分(即各参数对应的数值)；所述第一数据可以以向量形式记录，记做x＝(x1,x2,
…
x
i
,
…
x
n
)，其中，x
i
表示用户对第i个商品的评价，一般的，评分为0表示用户还没有使用过该商品，或未对该商品评价。
[0099]
针对每个商品对应的评分进行多值随机响应，包括：
[0100]
当随机响应技术判断该次不向服务器上传真实数据时，终端将对向量x的每一位
x
i
进行一次多值随机响应；具体来说，假设评分可以为1,2,
…
,k，共k个等级，终端将以下式(3)对向量x中的每一位x
i
进行多值随机响应：
[0101][0102]
其中，e表示自然常数，ε表示预设的隐私参数，k表示原始的x
i
的数值，即原始的评分；
[0103]
具体来讲，对于向量x中的某一位x
i
，有的概率被置为原来的值，有的概率被置为1,2,
…
,k中不等于x
i
的任意一个值，算法输出结果记为y
i
,最终，得到一条每一位经过扰动后的扰动数据y＝(y1,y2,
…
y
i
,
…
y
n
)。
[0104]
实际应用时，考虑到扰动数据与原始数据(即原始的第一数据)相差较大，则根据扰动数据确定的推荐数据与用户所需的结果并不相符，若依旧根据此推荐数据推荐给用户会降低用户的体验度，因此这里对是否采用根据扰动数据确定的推荐数据推荐给用户进行判断。
[0105]
基于此，在一实施例中，所述方法还包括：确定所述第一数据和所述第二数据之间的相似度；
[0106]
所述将第二数据发送至服务器之前，所述方法还包括：
[0107]
根据所述相似度向所述第二数据添加标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
[0108]
所述接收所述服务器根据所述第二数据确定并发送的推荐数据之后，所述方法还包括：
[0109]
确定所述推荐数据对应的第二数据的标签；
[0110]
根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
[0111]
这里，通过随机响应得到扰动数据(记做y)后，计算原始数据(即第一数据x)与扰动数据y(即第二数据)之间的欧氏距离，表征原始数据x与扰动数据y之间的相似度，这里欧氏距离的计算方式如下：
[0112][0113]
这里，所述相似度用于确定是否符合推荐条件，符合推荐条件则使用此次推荐结果，不符合推荐条件则不使用此次推荐结果。所述符合推荐条件指相似度超过预设相似度阈值；相反的，所述不符合推荐条件指相似度不超过预设相似度阈值；所述相似度阈值由开发人员预先设定并保存在服务器中。
[0114]
所述标签可以以数字形式标记，如用数字1表示可以采用基于所述第二数据确定的推荐数据，用数字0表示不采用基于所述第二数据确定的推荐数据；当然所述标签还可以用其他数字或字母等字符进行标记，这里不做限定。
[0115]
所述第二数据携带标签，当所述服务器接收到携带标签的所述第二数据后，根据所述第二数据确定推荐数据；并基于携带的标签为所述推荐数据添加相同的标签，即发送给终端的推荐数据也携带标签，从而所述终端基于接收的推荐数据可以确定所述推荐数据对应的第二数据的标签，并根据所述推荐数据对应的第二数据的标签，确定推荐结果。
[0116]
相应的，本发明实施例还提供了一种数据推荐方法，所述数据推荐方法应用于服务器，所述服务器采用所述数据推荐方法进行推荐。图2为本发明实施例提供的另一种数据推荐方法的流程示意图，如图2所示，所述方法包括：
[0117]
步骤201、接收终端发送的第二数据；所述第二数据为第一数据或基于第一数据转化得到的扰动数据；所述第一数据为从所述终端采集的原始数据；
[0118]
步骤202、基于接收的所述第二数据确定推荐数据；所述推荐数据携带有标签，所述标签表征是否采用基于所述第二数据确定的推荐数据；
[0119]
步骤203、向所述终端发送所述推荐数据。
[0120]
所述服务器接收到终端发送的第二数据后，根据第二数据可以确定推荐数据，具体来说，服务器基于接收的所述第二数据确定推荐数据的方法可以采用任意一种数据推荐方法，这里不做限定。
[0121]
以下提供一种具体地基于接收的所述第二数据确定推荐数据的方法，包括：
[0122]
确定所述第二数据中各参数的特征和各参数对应的数值，根据所述第二数据中各参数的特征和各参数对应的数值确定第一向量；
[0123]
获取至少一个第二向量；所述第二向量基于从其他终端获得的第二数据获得；
[0124]
确定所述第一向量和所述至少一个第二向量中各第二向量的相似度；
[0125]
根据相似度从至少一个第二向量中确定与所述第一向量的相似度超过预设阈值的目标第二向量；所述预设阈值由开发人员预先设定并保存在服务器中；
[0126]
确定所述目标第二向量对应的终端，基于所述目标第二向量对应的终端发送的数据，确定推荐数据。
[0127]
具体来说，基于所述目标第二向量对应的终端发送的数据，确定推荐数据，包括：
[0128]
确定所述目标第二向量对应的终端发送的数据中包括的至少一个第一参数；
[0129]
确定所述第一向量对应的终端发送的数据中包括的至少一个第二参数；
[0130]
从所述至少一个第一参数中筛除所述至少一个第二参数，将剩余的第二参数作为推荐数据。
[0131]
以上仅仅是提供一种确定推荐数据的参考方法，实际应用中还可以采用其他方法，本发明实施例中对具体如何确定推荐数据不做限定。
[0132]
所述基于接收的所述第二数据确定推荐数据，包括：
[0133]
确定所述第二数据携带的标签；
[0134]
基于所述第二数据确定推荐数据，对所述推荐数据添加所述标签；
[0135]
相应的，所述向所述终端发送所述推荐数据，包括：向所述终端发送携带有所述标签的推荐数据。
[0136]
图3为本发明实施例提供的再一种数据推荐方法的流程示意图；如图3所示，所述数据推荐方法，包括：
[0137]
步骤301、客户端运用本地化差分隐私技术对待上传的历史数据进行随机化处理；
[0138]
这里，所述客户端可以加载在设备上实现，所述设备可以为如图1所示方法应用的终端。
[0139]
具体地，所述步骤301，包括：
[0140]
步骤3011、对是否向服务器上传真实的历史数据进行一次二值随机响应，得到随机响应结果；所述随机响应结果表征是否上传真实的历史数据。此次二值随机响应中，以p的概率上传真实的历史数据，以1-p的概率上传一个与真实的历史数据形式相同的扰动数据；二值随机响应满足下列公式(4)：
[0141][0142]
这里，采用随机响应技术，服务器难以区分客户端上传的数据为真实的历史数据或扰动数据，并且用户可以以1-p的概率否认自身上传真实的历史数据。
[0143]
推荐算法中，客户端上传的历史数据，一般可以被表示为一个“商品-评分”形式的向量x＝(x1,x2,
…
x
i
,
…
x
n
)，其中，x
i
表示用户对第i个商品的评价，一般的，评分为0表示用户还没有使用过该商品，或未对该商品评价。
[0144]
举例来说，所述历史数据可以为用户观看电影相关的数据、用户阅读书籍的数据、用户购买某一类物品的数据；
[0145]
以所述商品为电影为例，所述评分为用户针对电影的评分；即所述历史数据，包括：至少一个电影和各电影对应的评分；
[0146]
如：所述历史数据，包括：电影一-3分，电影二-5分，电影三-9分，
……
，电影n-6分。
[0147]
步骤3012、当随机响应技术判断不向服务器上传真实的历史数据时，客户端将对向量x的每一位x
i
进行一次多值随机响应；具体来说，假设评分可以为1,2,
…
,k，共k个等级，客户端将按下式(5)对向量x中的每一位x
i
进行多值随机响应：
[0148][0149]
其中，e表示自然常数，ε表示预设的隐私参数，k表示原始x
i
中的数值；
[0150]
具体来讲，对于向量x中的某一位x
i
，有的概率被置为原来的值，有的概率被置为1,2,
…
,k中不等于x
i
的任意一个值,算法输出结果记为y
i
,最终，得到一条每一位经过扰动后的扰动数据向量y＝(y1,y2,
…
y
i
,
…
y
n
)。
[0151]
具体地，所述步骤301之前，所述方法还包括：
[0152]
在推荐服务启用之前，用户可在客户端对历史数据的隐私保护程度进行选择，对应是否采用本地化差分隐私对历史数据进行保护、本地化差分隐私的保护程度。
[0153]
步骤302、客户端确定目标数据，将目标数据发送至服务器。
[0154]
这里，所述目标数据为步骤301处理后得到的上传数据，具体可以为真实的历史数据或对历史数据处理后得到的扰动数据。
[0155]
具体地，所述步骤302，还包括：
[0156]
通过随机响应得到扰动数据y后，计算原始的历史数据x与扰动数据y之间的欧氏距离，作为原始数据x与扰动数据y之间相似度；这里欧氏距离的计算方式如下式(6)：
[0157][0158]
根据计算得到的相似度，确定所述目标数据对应的标签，所述标签表征表征是否采用基于所述目标数据确定的推荐数据；
[0159]
相应的，所述将目标数据发送至服务器，包括：
[0160]
将携带有标签的目标数据发送至服务器。
[0161]
具体来说，历史数据、即向量x进行本地化差分隐私处理后记为x
′
(x
′
＝x，x
′
＝y)，客户端在上传x
′
前对x
′
进行标记，如添加用于表征是否采用基于所述x
′
确定的推荐数据的标签；当客户端接收到推荐数据后，根据推荐数据携带的标签即可确定是否采用相应的推荐数据(具体参见图1所示方法，这里不再赘述)。
[0162]
或者，客户端上传x
′
前为x
′
进行标记，并在本地记录上传的x
′
与x的关系；例如，向x添加唯一标签a；当上传的x
′
＝x时，向x
′
添加标签(即a)，或者当上传的x
′
＝y、且x与y的相似度高于设定的相似度阈值时，向y添加标签(如a
′
)，这里，y与x的相似度不高于设定的相似度阈值，则可以不标记或者标记为其他字符以表示不采用基于y得到的推荐数据；这里，a
′
与a存在对应关系；当客户端接收到推荐数据后，对比推荐数据的标签(即x
′
对应的标签a或a
′
)与本地已标记的标签(包括真实的历史数据x的标记a，及与真实的历史数据相似度较高的扰动数据y的标记a
′
)，若回复的推荐数据携带的标签为a
′
或a，可以确定与本地已标记的标签匹配，则使用本次的推荐数据，否则不使用本次的推荐数据。
[0163]
步骤303、服务器接收客户端发送的目标数据，根据接收的目标数据，运用预设的推荐方法确定推荐数据；
[0164]
需要说明的是，由于扰动数据与真实的上传数据的形式相同，因此经过本地化差分隐私处理的数据依旧可以通过现有的推荐算法进行推荐。服务器在运行推荐算法后，将推荐数据携带标签返回给客户端。
[0165]
这里，所述预设的推荐方法具体参照图2所示方法，这里不再赘述。
[0166]
步骤304、服务器将推荐数据和推荐数据对应的标签发送给客户端；
[0167]
步骤305、客户端根据推荐数据和推荐数据对应的标签确定推荐结果。
[0168]
以下针对上述方案涉及到的本地化差分隐私技术和随机响应技术进一步说明。
[0169]
差分隐私技术是重要的隐私保护方式，近年来在众多领域有广泛的应用。差分隐私并不要求保证数据集整体隐私，而是对数据集中个体隐私提供保护。它通过添加随机噪声等方式对原始的统计数据做失真处理，使得该数据集中任一条记录的变化对查询输出结果的影响有限，从而攻击者通过观察查询所得结果无法得知有关个体的隐私信息，在牺牲一定的精确度的前提下保证了安全性。
[0170]
本地化差分隐私技术是基于中心化差分隐私保护技术提出的数据采集框架，不同于中心化差分隐私对于可信第三方的假设，其针对的是不可信的第三方数据收集者。
[0171]
本地化差分隐私下的保护模型充分考虑了数据采集过程中数据收集者窃取或泄露用户隐私的可能性。该模型中，每个用户首先对数据进行隐私化处理，再将处理后的数据发送给数据收集者，数据收集者对采集到的数据进行统计，以得到有效的分析结果。即在对
数据进行统计分析的同时，保证个体的隐私信息不被泄露。本地化差分隐私的形式化定义如下。
[0172]
给定n个用户，每个用户对应一个隐私算法m及其定义域dom(m)和值域ran(m)，若算法m在任意两条记录t和t
′
(t
,
t
′
∈dom(m))上得到相同的输出结果满足下列不等式，则m满足ε-本地化差分隐私：
[0173][0174]
ε为隐私保护预算，用于表示隐私保护的水平，其值越小则该算法在相邻数据集上查询结果的概率分布越相似，隐私保护水平越高。当ε＝0时，数据收集者将完全无法从收到的结果区分t和t
′
，此时的保护程度最高。但隐私保护水平的提高往往会造成数据可用性的降低。
[0175]
从定义中可以看出，本地化差分隐私技术通过控制任意两条记录的输出结果的相似性，从而确保算法m满足ε-本地化差分隐私。简言之，根据隐私算法m的某个输出结果，几乎无法推理出其输入数据为哪一条记录。
[0176]
随机响应技术是本地化差分隐私技术的主流扰动机制，其主要思想是利用对敏感问题响应的不确定性对原始数据进行隐私保护。随机响应技术主要包括两个步骤：扰动性统计和校正。
[0177]
为了具体介绍随机响应技术，下面首先引入一个具体的问题场景。假设有n个用户，其中艾滋病患者的真实比例为π，但我们并不知道。我们希望对其比例进行统计。于是发起一个敏感的问题:“你是否为艾滋病患者？”，每个用户对此进行响应，第i个用户的答案x
i
为是或否，但出于隐私性考虑，用户不会直接响应真实答案。假设其借助于一枚非均匀的硬币来给出答案，其正面向上的概率为p，反面向上的概率为1-p。抛出该硬币，若正面向上，则回答真实答案，反面向上，则回答相反的答案。
[0178]
首先，进行扰动性统计.利用上述扰动方法对n个用户的回答进行统计，可以得到艾滋病患者人数的统计值。假设统计结果中，回答“是”的人数为n1，则回答“否”的人数为n-n1.显然，按照上述统计，回答“是”和“否”的用户比例如下:
[0179]
pr(x
i
＝'是')＝πp (1-π)(1-p)
[0180]
pr(x
i
＝'否')＝(1-π)p π(1-p)
[0181]
根据统计结果，可以得到对艾滋病患者的真实比例π的极大似然估计值且计算的期望可知，为π的无偏估计：
[0182]
由此可得患有hiv的总人数为：
[0183]
从差分隐私的角度考虑随机响应技术，假设某位病人为艾滋病患者，当他回答“你是否为艾滋病患者？”这一敏感问题时，他有概率为p的可能性回答“是”，概率为1-p的可能性回答“否”，而对于一个未患病的病人来讲，则有概率为p的可能性回答“否”，概率为1-p的可能性回答“是”。由此，我们可以得到随机响应技术对应满足的差分隐私定义：
[0184]
将真实情况的概率p代入公式即可得到隐私预算参数ε与p的关系：
[0185]
当回答真实情况的概率p越大时，隐私预算参数ε也将变大，即本地化差分隐私的保护程度越低。
[0186]
图4为本发明实施例提供的一种数据推荐装置的结构示意图，所述数据推荐装置应用于终端，如图4所示，所述装置包括：第一处理模块、第二处理模块、第三处理模块；其中，
[0187]
所述第一处理模块，用于确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；
[0188]
所述第二处理模块，用于将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；
[0189]
所述第三处理模块，用于接收所述服务器根据所述第二数据确定并发送的推荐数据。
[0190]
具体地，所述第二处理模块，用于确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；
[0191]
根据所述预设的隐私参数，确定扰动概率值；
[0192]
根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
[0193]
相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；
[0194]
相应于所述响应结果表征转化第一数据的情况下，所述第一数据满足转化条件。
[0195]
具体地，所述第一数据包括：至少一个参数和所述至少一个参数中各参数对应的数值；
[0196]
所述第二处理模块，用于对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
[0197]
根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
[0198]
具体地，所述第二处理模块，用于根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
[0199]
具体地，所述第二处理模块，还用于确定所述第一数据和所述第二数据之间的相似度；
[0200]
以及，所述第二处理模块，还用于在将第二数据发送至服务器之前，根据所述相似度向所述第二数据添加标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
[0201]
所述第三处理模块，还用于在接收所述服务器根据所述第二数据确定并发送的推荐数据之后，确定所述推荐数据对应的第二数据的标签；
[0202]
根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
[0203]
需要说明的是：上述实施例提供的数据推荐装置在实现相应数据推荐方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将服务器的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与相应方法的实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0204]
图5为本发明实施例提供的一种数据推荐系统的结构示意图，所述数据推荐系统包括：终端和服务器，所述终端加载有可实现图1所示数据推荐方法的客户端，如图5所示，所述客户端向所述服务器发送数据，这里，发送的数据为原始数据或扰动数据；所述服务器接收到数据后基于数据确定推荐数据，并将推荐数据发送给所述客户端。
[0205]
所述客户端在实现相应数据推荐方法时，具体可以参照图1所示方法；这里不再赘述。
[0206]
所述服务器在实现相应数据推荐方法时，具体可以参照图2所示方法；这里不再赘述。
[0207]
图6为本发明实施例提供的一种数据推荐装置的结构示意图；如图6所示，所述装置60包括：处理器601和用于存储能够在所述处理器上运行的计算机程序的存储器602；其中，所述处理器601用于运行所述计算机程序时，执行：确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；接收所述服务器根据所述第二数据确定并发送的推荐数据。
[0208]
在一实施例中，所述处理器601用于运行所述计算机程序时，执行：确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；根据所述预设的隐私参数，确定扰动概率值；根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
[0209]
相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；
[0210]
相应于所述响应结果表征转化第一数据的情况下，所述第一数据满足转化条件。
[0211]
在一实施例中，所述处理器601用于运行所述计算机程序时，执行：对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
[0212]
根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
[0213]
在一实施例中，所述处理器601用于运行所述计算机程序时，执行：根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
[0214]
在一实施例中，所述处理器601用于运行所述计算机程序时，执行：确定所述第一数据和所述第二数据之间的相似度；
[0215]
所述将第二数据发送至服务器之前，执行：根据所述相似度向所述第二数据添加
标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
[0216]
所述接收所述服务器根据所述第二数据确定并发送的推荐数据之后，还执行：确定所述推荐数据对应的第二数据的标签；根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
[0217]
具体来说，上述所述数据推荐装置具体执行如图1所示的方法，与图1所示的推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0218]
实际应用时，所述装置60还可以包括：至少一个网络接口603。推荐装置60中的各个组件通过总线系统604耦合在一起。可理解，总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统604。其中，所述处理器601的个数可以为至少一个。网络接口603用于数据推荐装置60与其他设备之间有线或无线方式的通信。
[0219]
本发明实施例中的存储器602用于存储各种类型的数据以支持数据推荐装置60的操作。
[0220]
上述本发明实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(dsp，digital signal processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器601可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成前述方法的步骤。
[0221]
在示例性实施例中，数据推荐装置60可以被一个或多个应用专用集成电路(asic，application specific integrated circuit)、dsp、可编程逻辑器件(pld，programmable logic device)、复杂可编程逻辑器件(cpld，complex programmable logic device)、现场可编程门阵列(fpga，field-programmable gate array)、通用处理器、控制器、微控制器(mcu，micro controller unit)、微处理器(microprocessor)、或其他电子元件实现，用于执行前述方法。
[0222]
本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行：确定待发送的第一数据；所述第一数据为终端本地采集的行为数据；将第二数据发送至服务器；其中，在确定所述第一数据不满足转化条件时，所述第二数据为第一数据；在确定所述第一数据满足转化条件时，所述第二数据为基于所述第一数据得到的扰动数据；接收所述服务器根据所述第二数据确定并发送的推荐数据。
[0223]
在一实施例中，所述计算机程序被处理器运行时，执行：确定预设的隐私参数；所述隐私参数与预设的隐私保护程度相关联；根据所述预设的隐私参数，确定扰动概率值；根据所述扰动概率值，对所述第一数据进行二值随机响应，得到响应结果；所述响应结果表征是否转化第一数据；
[0224]
相应于所述响应结果表征不转化第一数据的情况下，所述第一数据不满足转化条件；
[0225]
相应于所述响应结果表征转化第一数据的情况下，所述第一数据满足转化条件。
[0226]
在一实施例中，所述计算机程序被处理器运行时，执行：对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；
[0227]
根据所述至少一个参数中各参数对应的随机响应结果，得到所述第二数据。
[0228]
在一实施例中，所述计算机程序被处理器运行时，执行：根据预设的隐私参数，对所述至少一个参数中各参数对应的数值进行多值随机响应，得到所述至少一个参数中各参数对应的随机响应结果；所述隐私参数与预设的隐私保护程度相关联。
[0229]
在一实施例中，所述计算机程序被处理器运行时，执行：确定所述第一数据和所述第二数据之间的相似度；
[0230]
所述将第二数据发送至服务器之前，执行：根据所述相似度向所述第二数据添加标签；所述标签表征是否采用基于所述第二数据确定的推荐数据；
[0231]
所述接收所述服务器根据所述第二数据确定并发送的推荐数据之后，还执行：确定所述推荐数据对应的第二数据的标签；根据所述推荐数据对应的第二数据的标签，确定推荐结果；所述推荐结果表征是否按所述推荐数据进行推荐。
[0232]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。
[0233]
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
[0234]
另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0235]
本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0236]
或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。
而前述的存储介质包括：移动存储设备、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0237]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种业务监控的方法和装置与流程
下一篇：一种基于深度学习的视频场景标签提取系统、方法及其应用与流程

一种数据推荐方法、装置和存储介质与流程

相关文献

最热文献