一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于差分隐私的风控数据探查方法和系统与流程

2022-03-09 05:35:11 来源:中国专利 TAG:


1.本公开主要涉及风控,尤其涉及风控中的数据探查。


背景技术:

2.随着公民隐私保护意识的增强和数据采集的监管力度逐步加强,手机厂商开始限制终端设备上的隐私数据采集,例如applist。在风控系统中,所要探查的数据主要包括举报信息、历史交易关系信息和终端异常行为信息。而终端数据采集的限制将会在很大程度上降低智能风控系统的性能,从而提升稽核黑产的门槛,降低黑产覆盖率。
3.因此,本领域需要设计高效的风控数据探查方案,以在不侵犯用户隐私的前提下使用终端风险特征。


技术实现要素:

4.为解决上述技术问题,本公开提供了一种基于差分隐私的风控数据探查方案,该方案能够通过对原始数据加入噪声,基于大数据量假设,可以在不侵犯用户隐私的前提下获取统计信息的近似。
5.在本公开一实施例中,提供了一种基于差分隐私的风控数据探查方法,包括:在用户端获取入模数据;在用户端将扰动加入所获取的入模数据,以获得经扩展的入模数据集;基于经扩展的入模数据集,在服务端获取针对入模数据的统计近似;以及在服务端校正针对入模数据的统计近似。
6.在本公开另一实施例中,在用户端将扰动加入所获取的入模数据包括采用随机响应机制。
7.在本公开又一实施例中,获取针对入模数据的统计近似包括获取入模数据针对模型的有效性或稳定性。
8.在本公开另一实施例中,入模数据包括训练样本集和验证样本集。
9.在本公开又一实施例中,获取入模数据针对模型的稳定性包括:基于经扩展的训练样本集和验证样本集,获取训练样本和验证样本的分布的差异。
10.在本公开另一实施例中,获取入模数据针对模型的有效性包括:基于经扩展的入模数据集,获取入模数据的响应样本占比。
11.在本公开一实施例中,一种基于差分隐私的风控数据探查系统,包括:数据获取模块,在用户端获取入模数据;扰动模块,在用户端将扰动加入所获取的入模数据,以获得经扩展的入模数据集;以及数据分析模块,基于经扩展的入模数据集,在服务端获取针对入模数据的统计近似,以及在服务端校正针对入模数据的统计近似。
12.在本公开另一实施例中,扰动模块在用户端将扰动加入所获取的入模数据包括扰动模块采用随机响应机制。
13.在本公开又一实施例中,数据分析模块获取针对入模数据的统计近似包括数据分析模块获取入模数据针对模型的有效性或稳定性。
14.在本公开另一实施例中,入模数据包括训练样本集和验证样本集。
15.在本公开又一实施例中,数据分析模块获取入模数据针对模型的稳定性包括:基于经扩展的训练样本集和验证样本集,数据分析模块获取训练样本和验证样本的分布的差异。
16.在本公开另一实施例中,数据分析模块获取入模数据针对模型的有效性包括:基于经扩展的入模数据集,数据分析模块获取入模数据的响应样本占比。
17.在本公开一实施例中,提供了一种存储有指令的计算机可读存储介质,当这些指令被执行时使得机器执行如前所述的方法。
18.提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
附图说明
19.本公开的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是,附图仅作为所请求保护的发明的示例。在附图中,相同的附图标记代表相同或类似的元素。
20.图1是示出根据本公开一实施例的基于差分隐私的风控数据探查方法的流程图;图2是分别示出基于明文回传的风控数据探查过程以及根据本公开一实施例的基于明文回传的风控数据探查过程的示意图;图3是分别示出根据本公开一实施例的基于中心化差分隐私的风控数据探查过程以及根据本公开另一实施例的基于本地化差分隐私的风控数据探查过程的示意图;图4是分别示出根据本公开实施例的基于差分隐私的风控数据探查过程的数据流图;图5是示出根据本公开一实施例的基于差分隐私的风控数据探查系统的框图。
具体实施方式
21.为使得本公开的上述目的、特征和优点能更加明显易懂,以下结合附图对本公开的具体实施方式作详细说明。
22.在下面的描述中阐述了很多具体细节以便于充分理解本公开,但是本公开还可以采用其它不同于在此描述的其它方式来实施,因此本公开不受下文公开的具体实施例的限制。
23.移动互联网时代,用户端几乎承载了个人所有的秘密。举例来说,如果一个被移除id类信息的数据集发布,从法律和伦理来说这个数据集因为没有涉及个人隐私,因此是合法合规的。但是如果通过一些技术手段,利用不同数据集、公开信息之间的关联性,可以推测出某个具体个人信息的时候,用户隐私问题就出现了。
24.隐私保护意识在全社会都得到了增强,隐私数据的采集也开始受到限制。而终端数据采集的限制将会在很大程度上降低智能风控系统的性能。因此,需要设计数据探查方案,使得终端风险特征能够在不侵犯用户隐私的前提下使用。
25.当入模变量的对于标签判断可以提供的信息量很少或者变量的群体稳定性较差
时,会导致模型泛化性较差、性能波动较大。因此,风控建模的第一步往往是数据探查,即探索已有数据的有效性和稳定性,筛选适合作为模型入参的特征,以提升模型的泛化性和鲁棒性。举例而言,数据探查指标包括iv值和psi值,其中 iv值越大表示该特征对于标签判断提供的信息量越多,psi值越小表示该变量的分布随时间波动越小。本公开提供一种基于差分隐私的风控数据探查方案,通过采用差分隐私(differential privacy,dp)算法对原始数据加入噪声,基于大数据量假设,可以在不侵犯用户隐私的前提下获取统计信息的近似。
26.差分隐私用算法加扰个人用户数据,使技术回溯过程无法实现。随后在无法获得原始数据的情况下对数据批量计算,输出计算结果。在获得机器学习所需的数据资源的同时,实现用户隐私数据的保护。
27.图1是示出根据本公开一实施例的基于差分隐私的风控数据探查方法100的流程图。
28.在本公开中,采用差分隐私是为了保证统计数据库的查询结果不会受到任何单一用户的隐私数据的影响。因此,数据采集者或数据分析者就无法推测任何单一用户的数据。
29.在102,在用户端获取入模数据。
30.数据是用户行为分析的大前提。在本公开中,所采集的用户行为的数据来源在于用户端的数据。风控模型所针对是源自用户端的用户行为数据。由于这些用户行为数据是从用户端流向服务端的,其包含的用户隐私在传送至服务端的过程中需要得到保障。
31.在104,在用户端将扰动加入所获取的入模数据,以获得经扩展的入模数据集。
32.为了保障所获取的入模数据的用户隐私保护,在用户端加入扰动(perturbation),从而获得经扩展的入模数据集。
33.在用户端加入扰动实际上是对单个用户数据进行随机化处理,再发送加有扰动或经过随机化处理的用户端数据集。这样,用户键入的每一个单词或搜索关键字不会被收集,加有扰动或经过随机化处理的数据在传输过程中也不会因发生泄露而导致不可逆转的后果。
34.在本公开一实施例中,加入扰动在应用本地化差分隐私的情况下采用随机响应机制。在本公开另一实施例中,加入扰动在应用本地化差分隐私的情况下采用信息压缩和扭曲机制。
35.在106,基于经扩展的入模数据集,在服务端获取针对入模数据的统计近似。
36.由于许多场景并没有足够数量的大数据,并且这些数据也可能相互孤立,无法交流共享,因此加入扰动后的经扩展数据集可以在服务端汇聚,进而在服务端进行针对入模数据的统计近似,例如探索已有数据的有效性和稳定性,筛选适合作为模型入参的特征等等。
37.来自不同服务端、不同场景的数据在加入扰动后,任何单一用户的数据被隐藏,但总体数据集的统计趋势并不受影响。因此,当入模变量的对于标签判断可以提供的信息量很少或者变量的群体稳定性较差时,在加入扰动后的经扩展数据集的基础上进行数据探查就能够有效提升模型的泛化性和鲁棒性。
38.在108,在服务端校正针对入模数据的统计近似。
39.在106获取的针对入模数据的统计近似并非是真实的无偏估计,需要在服务端对
其进行校正。
40.举例而言,可以用极大似然估计(max likehood estimation)对统计近似结果进行校正。本领域技术人员可以理解,还可以采用其他校正法来进行校正,在此不做赘述。
41.由此,本公开提供基于差分隐私的风控数据探查方法通过采用差分隐私算法对原始数据加入噪声,基于大数据量假设,可以在不侵犯用户隐私的前提下获取统计信息的近似。
42.图2是分别示出基于明文回传的风控数据探查过程以及根据本公开一实施例的基于差分隐私的风控数据探查过程的示意图。
43.如图2上图所示,基于明文回传的风控数据探查过程主要为:明文回传云端,以及明文统计iv值和psi 值。该基于明文回传的风控数据探查过程直接将用户的明文数据回传到云端,云端再根据明文数据直接进行统计查询,例如统计计算信息价值(iv值)和稳定性(psi值)。无论在明文回传过程中,还是在包括iv值、ps值的统计计算中,都会侵犯用户的隐私。
44.信息价值iv衡量的是某一个变量的信息量,其值的大小决定了自变量对于目标变量的影响程度,相当于是自变量woe值的一个加权求和。woe(weight of evidence)即为证据权重,其是对原始变量的一种编码形式。要对一个变量进行woe编码,首先需要把该变量进行分组处理,即分箱或者离散化。常用离散化的方法有等宽分组,等高分组,或者利用决策树来分组。分组后,对于第 i 组(当变量为连续值时,需要先对变量进行离散分箱,分为n组),woe的计算公式如下:其表示的含义为“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应客户的比例”的差异,其亦可表达为响应样本的占比。
45.对于分组 i ,其对应的iv值参考下式,其中n是分组个数,注意,在变量的任何分组中,不应该出现响应数为0或非响应数为0的情况,当变量的一个分组的响应数为0 时,对应的woe就为负无穷,此时iv值为正无穷。如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件。
46.计算了一个变量各个组的 iv 值之后,就可以计算整个变量的 iv 值:psi为群体稳定性指标(population stability index),其反映了验证样本在各分数段的分布与建模样本/训练样本分布的稳定性。在建模中,psi常用来筛选特征变量、评估模型稳定性。稳定性是有参照的,因此需要有两个分布——实际分布(actual)和预期分布(expected)。其中,在建模时通常以训练样本(in the sample, ins)作为预期分布,而验
证样本通常作为实际分布。验证样本一般包括样本外(out of sample,oos)和跨时间样本(out of time,oot)。
47.psi的计算过程即为把两个分布放到一起,比较两个分部的差距:其中


表示第

个分箱中的实际占比,


表示第

个分箱中的期望占比。
48.图2下图示出了根据本公开一实施例的基于差分隐私的风控数据探查过程。
49.中心式差分隐私(central differential privacy,cdp)算法是将分散在各个终端设备上的数据收集到一个可信数据中心中,基于差分隐私算法获取统计信息,并对外发布。其前提是要有可信的第三方数据收集者,即保护所收集的数据不被泄露和窃取。而在实际应用场景中寻找可信第三方配合比较困难,其大大限制了cdp的应用。
50.与之不同的是,本地式差分隐私(local differential privacy,ldp)算法无需可信第三方的参与,直接在终端完成差分隐私算法的数据加密,之后将加密的数据传入服务端(即,密文回传),服务端根据加密后的数据进行后续处理。
51.ldp的定义为:一个算法m满足e-ldp,如果对于任意的, 且对于可能的输出, 都有。
52.随机响应(randomized response)是ldp的主流扰动机制,其定义如下:假设用户变量t的值域为{0, 1},为扰动后的值,若定义则满足e-ldp。
53.在本公开一实施例中,基于本地隐私保护的iv统计计算基于ldp的和,在此表示第i组中标签为1的用户在所有标签为1的用户中的占比,表示第i组中标签为0的用户在所有标签为0的用户中的占比。假设共有n个分组,只需分别用ldp计算每个分组中标签为1和0的总人数。
54.在进行基于ldp的iv值统计计算前,要提前做好数据分箱。常用的数据分箱方式包括等距分箱和等频分箱,但由于等频分箱过程中需要获取数据的隐私信息,引入额外的隐私预算,因此这里推荐提前根据专家经验(预估变量值域和分布)做好等距分箱。
55.该基于本地隐私保护的iv统计计算包括:
(1) 针对每个用户u,返回一个长为n的向量,如果该用户的变量属于第

个分组,则以的概率r

=1, rj=0, "j≠

;以的概率r

=0。随机选择一个j使得rj=1, 其余rk=0, k≠j。
56.(2) 服务端收到所有n个用户回传的之后,对标签为1的用户所有向量求和得到,根据随机响应的定义,最终的,其中中的第

项表示对标签为1的所有用户中属于第

个分组的用户比例的估计。同理可计算得到。
57.(3) 由于在上一步中和均为估计的随机变量,每个向量中元素和不一定为1,因此对两个向量分别做归一化,得到,,分别乘以n1和n0即可得到各个分组中标签为1和0的人数估计,该估计满足e-ldp。
58.(4) 根据第(3)步计算中得到每个分组中标签为1和0的人数估计,可计算得到基于ldp的iv值。
59.证明:根据ldp的定义和第(1)步中各种随机情况的概率,可得根据上式可得:即如上设置p,可保证该算法满足e-ldp。
60.在实际应用中,设置e≤10可调整隐私数据的安全程度,当n=2时推荐设置e=2;当2《 n≤5时,推荐设置e=4;当5《n≤10时,推荐设置e=8。
61.以上算法假设每个用户有且只有一个样本,该算法保证单个变量的iv值计算满足e-ldp。
62.在本公开另一实施例中,当每个用户的样本量大于1时,其提前在本地做数据求
和,之后将求完和之后的回传给服务端即可;由于服务端可提前知道该用户的标签为1或0或none,因此标签为none的用户可不参与以上算法计算;若该变量的值为none,则none可单独作为一个分箱组来计算。
63.此外,在风控建模中,交易数据可在服务端直接获取,终端数据主要为用户维度的数据。
64.在本公开另一实施例中,当有多个变量同时参与计算,如果所有变量满足独立同分布,则依然可保证e-ldp;当存在以组为单位的非独立同分布变量时,由于ldp满足可加性,假设每个组的最大容量为s,则设置即可保证算法满足e-ldp。
65.在本公开一实施例中,基于本地隐私保护的psi统计计算是基于本地差分隐私的串联性的。
66.差分隐私串联性:给定数据集d,假设有随机算法m1,m2,

,mn,其差分隐私预算分别为e1,e2,

,en,组合算法m(m1(d),m2(d),

,mn(d))提供()-差分隐私保护。也就是说对于同一个数据集,使用了一系列的组合差分隐私保护算法,提供的差分隐私保护水平为差分隐私预算的总和。
67.与计算iv值不同的是,计算psi需要每个用户提供多组变量。假设ins为t1天的数据,oot为t2天的数据,则共需要每个用户返回(t1 t2)组变量。第组变量表示用户第天该变量属于哪个分箱,计算psi的过程包括:(1) 每个用户u,返回(t1 t2)个长为n的向量,如果该用户的变量属于第个分组,则以的概率r

=1, rj=0, "j≠

;以的概率r

=0。随机选择一个j使得rj=1, 其余rk=0, k≠j。
68.(2) 服务端收到所有n个用户回传之后,分别求每天所有用户向量的和,根据随机响应的定义,最终的,根据随机响应的定义,最终的中中的第项表示对第天所有用户中属于第个分组的用户比例的估计。
69.(3) 由于在上一步中计算的为估计的随机变量,每个向量中元素和不一定为1,因此对每个向量分别做归一化,得到,分别对ins和oot对应的求平均得到和,该估计满足e-ldp。
70.(4) 根据第(3)步中计算得到的每个分组实际和预期的占比,可计算得到基于ldp的psi值。
71.证明:根据ldp定义可得,每天的隐私预算为。 由差分隐私串联性,(t1 t2)天总的隐私预算为。令得到,设置可保证本算法满足e
‑ꢀ
ldp。
72.图3是分别示出根据本公开一实施例的基于中心化差分隐私的风控数据探查过程以及根据本公开另一实施例的基于本地化差分隐私的风控数据探查过程的示意图。
73.如图3上图所示,在根据本公开一实施例的基于中心化差分隐私的风控数据探查过程中,在用户端采集来自多个用户(用户1,用户2,
¼¼
,用户n)的原始数据,并传送至可信的中心服务端,在该中心服务端进行中心化差分隐私处理,即加入扰动数据,再进行统计查询的近似,例如信息价值(iv值)查询、稳定性(psi值)查询、top-k查询、均值查询等等。
74.如图3下图所示,在根据本公开一实施例的基于本地化差分隐私的风控数据探查过程中,在用户端采集来自多个用户(用户1,用户2,
¼¼
,用户n)的原始数据,在用户端进行本地化差分隐私处理,即加入扰动数据,再在服务端进行统计查询的近似。
75.本领域技术人员可以理解,在获得统计查询近似结果后,可对该近似结果进行校正,以提高统计分析的精度。
76.图4是分别示出根据本公开实施例的基于差分隐私的风控数据探查过程的数据流图。
77.如图4所示,从敏感数据的收集到数据的公布,用户隐私的隐藏通过差分隐私来实现。差分隐私的主要目的就是提供最大化批量数据的查询结果的同时,还保证个人隐私的泄露不超过预先设定的e。
78.差分隐私主要包括扰动和采样(sampling)。对于扰动,是对输入数据 、中间数据、或者输出数据进行扰动,加入噪音,使其满足e-差分隐私。对于输入数据扰动的典型方案就是随机响应,对于输出数据扰动的典型方案就是拉普拉斯算法(laplace algorithm)。中间数据可以看做前面子阶段的输出,也可以看做是后面子阶段的输入,因此可以灵活选择输入或者输出扰动的算法。
79.在如图4所示的实施例中,是对输入数据、即用户端的入模数据进行扰动,获得加
有扰动的入模数据(即,经扩展的入模数据集)。随后将该经扩展的入模数据集输入模型,获得对入模数据的统计近似。最后对所获得的统计近似进行校正,才能进行公布。这样,用户数据将获得可靠的用户隐私保护。
80.对于采样,在本公开一实施例中,假设查询函数为 f。先把数据分成k份,对每份数据运行查询函数f,得到查询结果f(d1), f(d2), ..., f(dk)。然后对查询结果应用任何一个满足e-差分隐私的算法(例如随机响应),得到最后结果。这样做的好处是最后e-差分隐私算法运行在较小的数据集 f (d1 ), f (d2 ), . . . , f (dk )上,可以提高差分隐私的运行效率。
81.图5是示出根据本公开一实施例的基于差分隐私的风控数据探查系统500的框图。
82.根据本公开一实施例的基于差分隐私的风控数据探查系统500包括数据获取模块502、扰动模块506和数据分析模块508。
83.数据获取模块502在用户端获取入模数据。在本公开中,所采集的用户行为的数据来源在于用户端的数据。风控模型所针对是源自用户端的用户行为数据。由于这些用户行为数据是从用户端流向服务端的,其包含的用户隐私在传送至服务端的过程中需要得到保障。
84.扰动模块506在用户端将扰动加入所获取的入模数据,以获得经扩展的入模数据集。
85.扰动模块506在用户端加入扰动实际上是对单个用户数据进行随机化处理,再发送加有扰动或经过随机化处理的用户端数据集。在本公开一实施例中,加入扰动在应用本地化差分隐私的情况下采用随机响应机制。在本公开另一实施例中,加入扰动在应用本地化差分隐私的情况下采用信息压缩和扭曲机制。
86.数据分析模块508基于经扩展的入模数据集,在服务端获取针对入模数据的统计近似。
87.由于许多场景并没有足够数量的大数据,并且这些数据也可能相互孤立,无法交流共享,因此加入扰动后的经扩展数据集可以通过数据分析模块508在服务端汇聚,进而在服务端进行针对入模数据的统计近似,例如探索已有数据的有效性和稳定性,筛选适合作为模型入参的特征等等。
88.来自不同服务端、不同场景的数据在加入扰动后,任何单一用户的数据被隐藏,但总体数据集的统计趋势并不受影响。因此,当入模变量的对于标签判断可以提供的信息量很少或者变量的群体稳定性较差时,在加入扰动后的经扩展数据集的基础上进行数据探查就能够有效提升模型的泛化性和鲁棒性。
89.进一步地,数据分析模块508在服务端校正针对入模数据的统计近似。所获取的针对入模数据的统计近似并非是真实的无偏估计,需要在服务端对其进行校正。
90.由此,本公开提供的基于差分隐私的风控数据探查系统通过采用差分隐私算法对原始数据加入噪声,基于大数据量假设,可以在不侵犯用户隐私的前提下使用终端风险特征,从而获取统计信息的近似。
91.以上描述的基于差分隐私的风控数据探查方法和系统的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现,结合本发明描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门
阵列(fpga)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现,则结合本发明描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本发明的各种操作的软件模块可驻留在存储介质中,如ram、闪存、rom、eprom、eeprom、寄存器、硬盘、可移动盘、cd-rom、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息,并执行相应的程序模块以实现本发明的各个步骤。而且,基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括rf、微波和红外通信)、电子通信或者其他这样的通信手段。
92.还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
93.所公开的方法、装置和系统不应以任何方式被限制。相反,本发明涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合,所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。
94.上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多更改,这些均落在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献