一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种应用于金融场景的隐私特征分箱方法及系统与流程

2022-12-10 07:44:21 来源:中国专利 TAG:


1.本发明涉及隐私计算技术领域,具体是一种应用于金融场景的隐私特征分箱方法及系统。


背景技术:

2.人工智能时代,数据蕴含的价值正不断的被人们所重视,各种各样的数据计算在解锁数据巨大价值的同时,也带来了一些无法避免的问题,那就是数据的隐私和安全保护问题。而隐私计算就是解决这个问题的关键,其是由两个或多个参与方来联合计算的一种技术和系统,各参与方在不泄露各自数据的前提下,通过协作来对各方数据进行联合机器学习和数据分析。隐私计算技术能够打通数据孤岛,释放数据价值,同时也能保障数据的隐私和安全保护。这其中数据分箱也被称为离散分箱或分段是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法,分箱又分为无监督分箱和有监督分箱两类,其中无监督分箱是一种不需要提供y,仅靠特征就能实现数据分箱,即对特征数据进行分箱时不需要依据样本标签。而有监督的分箱则复杂一些,需要对数据样本标签进行分箱。分箱之后的特征数据,能够为模型、训练带来很多性能的提升,例如能够更易于对模型的快速迭代、提高模型稳定性、减少异常数据的带来的干扰、减少模型过拟合等。
3.而一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。离散化通常采用分箱法。分箱的有以下重要性及其优势:提高模型的稳定性与鲁棒性、防止过拟合问题、加快模型训练速度、很好的处理空值与缺失值、增强逻辑回归的拟合力。
4.综上所述,本发明提供了一种可应用于金融场景下的基于隐私的特征分箱方法及系统。


技术实现要素:

5.本发明的目的在于提供一种应用于金融场景的隐私特征分箱方法及系统,基于秘密分享技术,安全性可验;本发明对金融场景下的各种数据预处理提供一个很好的实施方案。
6.为实现上述目的,本发明提供如下技术方案:
7.一种应用于金融场景的隐私特征分箱方法,包括如下步骤:
8.步骤s100确定参与双方明文数据以及用户标签,其中一方具有明文数据,另一方具有明文数据和用户标签;
9.步骤s200当参与双方需要进行联合数据预处理;
10.步骤s300将参与双方的数据进行整合;
11.步骤s400数据秘密分享之后进行等距分箱。
12.作为本发明所述的一种优选实施方案,其中,本方法中处理后的数据中参与双方
在某一列特征向量中,各持一部分数据。
13.作为本发明所述的一种优选实施方案,其中,所述步骤s300中在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理。
14.作为本发明所述的一种优选实施方案,其中,所述步骤s300中在横向联邦场景下,参与双方机构是相同领域的机构。
15.作为本发明所述的一种优选实施方案,其中,所述步骤s300中在横向联邦场景下,将两方数据整合后,整合部分的数据,每方都有该数据的一个秘密分享值。
16.作为本发明所述的一种优选实施方案,其中,所述步骤s400中等距分箱详细步骤如下:
17.(1)进行sort算子运算,将每一列数据排列;
18.(2)根据每一列的sort结果,进行permutation算子运算,计算permute y值;
19.(3)进行max算子运算,出每列数据的最大值和最小值;并根据分箱数计算每箱的分割值;
20.(4)进行compare算子运算,根据分割值将数据分箱。
21.一种应用于金融场景的隐私特征分箱系统,所述系统包括:
22.数据收集模块,所述数据收集模块用于获取参与双方信息,所述信息包括数据双方所有的数据明文数据信息和参与方的用户标签信息;
23.预处理模块,所述预处理模块用于进行联合数据预处理,在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理;
24.数据整合模块,所述数据整合模块用于将两方数据整合在一起以便于共同分箱;
25.分箱模块,所述分箱模块用于对预处理后的数据进行等距分箱。
26.作为本发明所述的一种优选实施方案,其中,所述分箱模块包括:
27.sort算子模块,所述sort算子模块用于将数据进行排列;
28.permutation算子模块,所述permutation算子模块用于依据排列后的sort数据计算permute y值;
29.max算子模块,所述max算子模块用于计算每列数据的最大值和最小值;
30.division和addition算子模块,所述用于division和addition算子模块根据分箱数计算每箱的分割值;
31.compare算子模块,所述compare算子模块用于据分割值将数据进行等距分箱操作。
32.作为本发明所述的一种优选实施方案,其中,在本系统中数据收集模块中的参与双方为相同领域机构。
33.作为本发明所述的一种优选实施方案,其中,在本系统数据整合模块整合后的数据,双方都有该数据的秘密分享值。
34.与现有技术相比,本发明的有益效果是:本发明通过不同机构分别对隐私数据预处理方式结合金融场景中基于隐私数据的数据分箱方法可实现,结合秘密分享技术,安全性可验;同时对金融场景下的各种数据预处理提供一个很好的实施方案。
附图说明
35.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。
36.图1为本发明的一种应用于金融场景的隐私特征分箱方法流程图;
37.图2为本发明的一种应用于金融场景的隐私特征分箱方法示例图一;
38.图3为本发明的一种应用于金融场景的隐私特征分箱方法示例图二;
39.图4为本发明的一种应用于金融场景的隐私特征分箱系统结构图:
40.图5为本发明的一种应用于金融场景的隐私特征分箱系统的分箱模块结构图。
具体实施方式
41.为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
42.本发明提供一种应用于金融场景的隐私特征分箱方法,包括如下步骤:
43.步骤s100确定参与双方明文数据以及用户标签,其中一方具有明文数据,另一方具有明文数据和用户标签;
44.步骤s200当参与双方需要进行联合数据预处理;
45.步骤s300将参与双方的数据进行整合;
46.步骤s400数据秘密分享之后进行等距分箱。
47.进一步的,本方法中处理后的数据中参与双方在某一列特征向量中,各持一部分数据。
48.进一步的,所述步骤s300中在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理。
49.进一步的,所述步骤s300中在横向联邦场景下,参与双方机构是相同领域的机构。
50.进一步的,所述步骤s300中在横向联邦场景下,将两方数据整合后,整合部分的数据,每方都有该数据的一个秘密分享值。
51.进一步的,所述步骤s400中等距分箱详细步骤如下:
52.(1)进行sort算子运算,将每一列数据排列;
53.(2)根据每一列的sort结果,进行permutation算子运算,计算permute y值;
54.(3)进行max算子运算,出每列数据的最大值和最小值;并根据分箱数计算每箱的分割值;
55.(4)进行compare算子运算,根据分割值将数据分箱。
56.一种应用于金融场景的隐私特征分箱系统,所述系统包括:
57.数据收集模块,所述数据收集模块用于获取参与双方信息,所述信息包括数据双方所有的数据明文数据信息和参与方的用户标签信息;
58.预处理模块,所述预处理模块用于进行联合数据预处理,在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理;
59.数据整合模块,所述数据整合模块用于将两方数据整合在一起以便于共同分箱;
60.分箱模块,所述分箱模块用于对预处理后的数据进行等距分箱。
61.进一步的,所述分箱模块包括:
62.sort算子模块,所述sort算子模块用于将数据进行排列;
63.permutation算子模块,所述permutation算子模块用于依据排列后的sort数据计算permute y值;
64.max算子模块,所述max算子模块用于计算每列数据的最大值和最小值;
65.division和addition算子模块,所述用于division和addition算子模块根据分箱数计算每箱的分割值;
66.compare算子模块,所述compare算子模块用于据分割值将数据进行等距分箱操作。
67.进一步的,在本系统中数据收集模块中的参与双方为相同领域机构。
68.进一步的,在本系统数据整合模块整合后的数据,双方都有该数据的秘密分享值。
69.实施例一
70.请参阅图1-图3,本发明提供一种应用于金融场景的隐私特征分箱方法,包括如下步骤:
71.步骤s100确定参与双方明文数据以及用户标签,其中一方具有明文数据,另一方具有明文数据和用户标签;
72.步骤s200当参与双方需要进行联合数据预处理,请参阅图2在本实施例中,本方法中处理后的数据中参与双方在某一列特征向量中,各持一部分数据;
73.步骤s300将参与双方的数据进行整合,所述步骤s300中在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理,在横向联邦场景下,将两方数据整合后,整合部分的数据,每方都有该数据的一个秘密分享值,在横向联邦场景下,参与双方机构是相同领域的机构;
74.步骤s400数据秘密分享之后进行等距分箱,在本实施例中,其方法如下;
75.(1)进行sort算子运算,将每一列数据排列;
76.(2)根据每一列的sort结果,进行permutation算子运算,计算permute y值;
77.(3)进行max算子运算,出每列数据的最大值和最小值;并根据分箱数计算每箱的分割值;
78.(4)进行compare算子运算,根据分割值将数据分箱。
79.综上所述,本方法实施方法说明如下:
80.如图1-3所述,本实施例中,参与双方分别用a、b表示,其中机构a有明文数据(data),机构b有明文数据(data),图中ab双方数据用深浅颜色区分,且机构b有用户标签(label);机构a和机构b想要做联合数据预处理,其中机构b有明文数据且有用户标签,所以预处理可以本地做,类似明文数据处理,而机构a没有用户标签,需要用到秘密分享的标签信息;进一步的如图2所示,机构a和机构b在某一列特征向量中,各持一部分数据;横向联邦场景中,机构a和机构b是相同领域的机构;比如某银行的上海分行和浙江分行,两个银行在搜集的客户特征方面是类似的,且都有用户的好坏标签,在横向fl场景中,需要将两方数据“整合”在一起共同分箱;即,每方都有该数据的一个秘密分享值;在数据秘密分享之后的较
优选项也是等距分箱,步骤如下:
81.(1)将每一列数据sort(sort算子);
82.(2)根据每一列的sort结果,permute y值(permutation算子);
83.(3)找出每列数据的最大值和最小值(max算子);并根据分箱数计算每箱的分割值(division和addition算子);
84.(4)根据分割值将数据再分成b箱(compare算子)。
85.实施例二
86.请参阅图4-图5,一种应用于金融场景的隐私特征分箱系统,所述系统包括:
87.数据收集模块100,所述数据收集模块100用于获取参与双方信息,所述信息包括数据双方所有的数据明文数据信息和参与方的用户标签信息,在本系统中数据收集模块100中的参与双方为相同领域机构;
88.预处理模块200,所述预处理模块200用于进行联合数据预处理,在参与双方中具有用户标签的一方进行本地预处理,没有用户标签的一方需要通过秘密分享的标签信息进行数据预处理;
89.数据整合模块300,所述数据整合模块300用于将两方数据整合在一起以便于共同分箱,在本系统数据整合模块300整合后的数据,双方都有该数据的秘密分享值;
90.分箱模块400,所述分箱模块400用于对预处理后的数据进行等距分箱;
91.如图5所示所述分箱模块400包括:
92.sort算子模块,所述sort算子模块用于将数据进行排列;
93.permutation算子模块,所述permutation算子模块用于依据排列后的sort数据计算permute y值;
94.max算子模块,所述max算子模块用于计算每列数据的最大值和最小值;
95.division和addition算子模块,所述用于division和addition算子模块根据分箱数计算每箱的分割值;
96.compare算子模块,所述compare算子模块用于据分割值将数据进行等距分箱操作。
97.综上所述,本发明提供的一种应用于金融场景的隐私特征分箱系统实施例如下:首先通过数据收集模块100收集参与方数据并对参与方数据进行标识,即标识为机构a和机构b,然后通过数据整合预处理模块200双方数据各自进行预处理,预处理完成后通过数据整合模块300整合双方数据并将整合部分数据秘密分享值分享给双方,然后通过分箱模块400进行分箱计算。
98.示例性的,处理器从存储器中逐条取出指令、分析指令,然后根据指令要求完成相应操作,产生一系列控制命令,使计算机各部分自动、连续并协调动作,成为一个有机的整体,实现程序的输入、数据的输入以及运算并输出结果,这一过程中产生的算术运算或逻辑运算均由运算器完成;所述存储器包括只读存储器(read-only memory,rom),所述只读存储器用于存储计算机程序,所述存储器外部设有保护装置。
99.示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程。
100.本领域技术人员可以理解,上述服务设备的描述仅仅是示例,并不构成对终端设备的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
101.所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,上述处理器是上述终端设备的控制中心,利用各种接口和线路连接整个用户终端的各个部分。
102.上述存储器可用于存储计算机程序和/或模块,上述处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现上述终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如信息采集模板展示功能、产品信息发布功能等)等;存储数据区可存储根据泊位状态显示系统的使用所创建的数据(比如不同产品种类对应的产品信息采集模板、不同产品提供方需要发布的产品信息等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
103.终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例系统中的全部或部分模块/单元,也可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个系统实施例的功能。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。
104.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
105.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献