一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于联邦学习的银行与政务之间的数据处理系统和方法与流程

2022-11-12 21:23:34 来源:中国专利 TAG:


1.本发明涉及金融风险控制应用领域,提出一种基于联邦学习的银行与政务之间的数据处理系统和方法。


背景技术:

2.目前银行机构对风险的预测主要还是依靠专家经验以及根据专家经验所写的规则。往往依靠人的主观判断对风险进行预判。这种专家经验所方式固有的缺点是,无法很好的利用积累大批量的数据进行数据的发掘和建模。如果想对银行机构积累的数据进行数据的发掘和建模,同时又存在数据不足的问题。如果想与政务数据进行数据融合提升模型效果,当下又存在数据隐私保护问题。
3.近年来,国内外在逐步加强数据保护,《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》、《数据安全管理办法(征求意见稿)》等政策的相继发布标志着我国在数据安全合规领域有法可依,个人的信息将在法律监管依据下得到更加全面的保护。法律法规的出台,并非意味着对数据的流通和企业间合作的禁锢,而是为数据要素市场提供更加透明、有序和安全的环境。因此如何在保证数据安全合规地前提下利用政务数据更好地服务本地金融机构、市民、企业成为了政府亟需解决的问题。
4.联邦学习是一种新的机器学习和深度学习方法,能够有效帮助多个机构或合作方在满足用户数据隐私保护、数据安全及政府法规的要求下,进行安全合规的数据使用和机器学习和深度学习建模,从而解决明文数据无法出域、联合查询成本高、建模样本少、标签少、模型精度由于样本质量难以提升等问题。通过搭建联邦学习能力平台,在保证数据隐私安全及合法合规的基础上,实现共同建模,提升联合建模的效果,支持数据提供方、数据应用方在无需共享或交换各自敏感数据的情况下基于进行联合建模,确保数据“可用不可见”。
5.利用银行所积累的数据进行风险预测的机器学习和深度学习建模,同时又想要合理合法合规的利用政务数据提升模型的效果,需要一种有效、可实现的方法。


技术实现要素:

6.针对上述问题,本发明的目的在于提出一种基于联邦学习的银行与政务之间的数据处理系统和方法,用以解决上述金融风险控制领域机器学习和深度学习建模过程中遇到的数据安全和数据不足的问题。
7.基于联邦学习的银行与政务之间的数据处理方法,具体步骤包括:
8.步骤1:将银行数据与政务数据存储到联邦学习系统中;
9.步骤2:对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、id值设置;进一步的,预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;
10.步骤3:将银行数据与政务数据的各自真实的特征名进行加密;
11.步骤4:将特征名加密后的银行数据与政务数据进行数据对齐;将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;
12.步骤5:将经过步骤4处理后的各自数据进行同态加密,从而获取各自的训练数据;
13.步骤6:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统中进行联合训练建模,并最终生成联邦学习模型;
14.步骤7:利用步骤6生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
15.进一步的,步骤3中对银行数据和政务数据的真实特征名进行加密后得到加密后的密文特征名,并且映射加密后的密文特征名与真实的特征名;在整个后续训练步骤中所使用的特征名均为加密后的密文特征名。
16.进一步的,所述步骤5中对银行数据和政务数据进行同态加密,并且加密后的数据保存在各自的联邦学习系统的数据存储模块中;在整个后续训练步骤中所使用的数据均为同态加密后的密文数据;所述步骤4中数据对齐,是根据银行数据和政务数据的各自的id进行两次hash算法进行数据对齐。
17.进一步的,所述步骤6中的联邦学习模型具体包括:银行端和政务端拥有各自的半模型、银行端所设置的模型类型、联邦学习模型训练参数,且模型训练参数在银行数据端和政务数据端是一致的。
18.进一步的,所述步骤6中的联合建模具体包括:银行端根据自身的数据进行本地的半模型训练,政务端根据自身的数据进行本地的半模型训练,各自训练完毕后在联邦学习系统中进行整个联邦学习模型的损失计算,银行端和政务端根据整个联邦学习模型的损失求得各自的梯度并且进行各自半模型的更新。
19.进一步的,所述步骤6和步骤7中的发起方是指:拥有样本标签的那一方,是银行端或政务端。
20.基于联邦学习的银行与政务之间的数据处理系统,该系统包括数据存储模块、数据预处理模块、数据加密和数据对齐模块、数据特征工程模块、同态加密模块、模型构建与训练模块和模型推理模块;
21.数据存储模块:配置用于将银行数据与政务数据存储到联邦学习系统中;
22.数据预处理模块:用于对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、id值设置;且预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;
23.数据加密和数据对齐模块:配置用于将银行数据与政务数据的各自真实特征名进行加密,以及将特征名加密后的银行数据与政务数据进行数据对齐;
24.数据特征工程模块:用于将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;
25.同态加密模块:将经过数据特征工程模块处理后得到的数据进行同态加密,从而获取各自的训练数据;
26.模型构建与训练模块:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统
中进行联合训练建模,并最终生成联邦学习模型;
27.模型推理模块:利用生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
28.进一步的,在具体实施中,步骤4中对银行数据和政务数据进行同态加密,并且加密后的数据保存在各自的联邦学习节点的内存中。在整个后续步骤中所使用的数据均为同态加密后的密文数据。所述数据对齐,是根据银行数据和政务数据的各自的id进行两次hash算法进行数据对齐。
29.本发明打破了数据孤岛效应,采用数据本地不出门也可以进行联合建模。解决当前面临的数据孤岛效应,在保证数据隐私安全的前提下使得数据可用而不可见。同时采用的联邦学习方法而产生的联合建模模型与数据本地融合而训练得出的模型是等效的。银行可以根据自身的数据条件和政务数据的条件,灵活的配置模型参数进行模型训练迭代,并最终生成基于联邦学习的风控模型,用于预测银行未来的风险。
附图说明
30.为了更好的阐述本发明的技术方案,将对实施方式中所需要的附图作简单的介绍,同时附图作为本说明书的一部分。
31.图1是本发明一个实施例提供的流程图。
32.图2是本发明一个实施例提供的具体实现流程图。
33.图3是本发明一个实施例提供的系统模块结构图。
具体实施方式
34.为了加深对本发明的理解,下面结合附图和实施例对本发明进一步说明,该实施仅用于解释本发明,并不对本发明的保护范围构成限定。
35.如图1-图3所示,本发明所述的基于联邦学习的银行与政务之间的数据处理方法,其流程组成如图1所示,包括:
36.步骤1:将银行数据与政务数据存储到联邦学习系统中。
37.在具体实施中:银行端与政务端都各自有自身的本地联邦学习节点,银行端上传银行数据到银行端自身的本地联邦学习节点,而政务端上传政务数据到政务端自身的本地联邦学习节点上。两个或者多个银行节点或者政务节点共同构成联邦学习建模系统。
38.步骤2:对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、id值设置;进一步的,预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制。
39.同时由银行端提出联邦学习申请,并且配置好双方联合建模需要用到的数据,因为银行端使用政务数据进行联合建模,因此需要政务端进行数据审批才可。
40.在具体实施中:银行数据由银行端,根据业务需求和机器学习所需,自行对数据进行id指定、数据清洗、空值处理等。政务数据由政务端,根据业务需求和机器学习所需,自行对数据进行id指定、数据清洗、空值处理等。
41.步骤3:将银行数据与政务数据的各自真实的特征名进行加密。
42.在具体实施中:由于特征名也可能导致数据泄露,因此对银行端和政务端的数据
的特征名进行加密保护。因此对银行数据和政务数据的真实特征名进行加密后得到加密后的密文特征名,并且映射加密后的密文特征名与真实的特征名;在整个后续训练步骤中所使用的特征名均为加密后的密文特征名。
43.本发明采用md5加密,加密后的特征名与真实的特征名的映射,在后面步骤中涉及到各个节点交互中可能暴露特征名的过程均使用加密后的特征名密文。而在各个节点的本地展示中通过映射使用真实名进行本地展示和本地操作。md5的加密参数在各方一致,以此保证各方的相同特征名加密后也相同。
44.步骤4:将特征名加密后的银行数据与政务数据进行数据对齐;将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;。
45.具体实施中:通过双方的数据id,对双方的特征名各自采用两次hash算法,求出双方重合的id以及相同的特征,以此实现双方数据的纵向对齐。银行端与政务端各自对自身的训练样本进行特征工程,包括独热、分箱操作、归一化等操作。特征工程的方法由银行端(发起方)来指定。发起方就是指拥有样本标签的那一方。
46.步骤5:将经过步骤4处理后的各自数据进行同态加密,从而获取各自的训练数据;对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。为保证数据的安全,对银行数据和政务数据均采用同态加密,同时为保证执行效率,同态加密后的数据存储在系统的内存中,在整个后续步骤中所使用的数据均为同态加密后的密文数据。
47.步骤6:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统中进行联合训练建模,并最终生成联邦学习模型;
48.在具体实施中:银行端和政务端拥有各自的半模型,由银行端设置模型双方所使用的模型类型。由双方各自初始化各自的半模型参数。由于银行端设置模型的训练参数,模型的训练参数在银行数据端和政务数据端是一致的。
49.在具体实施中:银行端根据自身的样本数据进行本地的半模型训练,政务端根据自身的数据进行本地的半模型训练,各自训练完毕后在联邦学习建模系统中进行整个联邦学习算法模型的损失计算(有标签的那一方,也就是发起方来执行整个联邦学习算法模型的损失计算),银行端和政务端根据整个联邦学习算法模型的损失求得各自的梯度并且进行各自模型的更新。最终完成迭代得到合适的模型。
50.进一步的,深度学习模型采用逻辑回归或预测树模型。
51.进一步的,整个联邦学习算法模型的损失计算采用交叉熵损失函数。
52.步骤7:利用步骤6生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
53.在具体实施中:银行端需要将自身的推理数据与联邦学习模型中自己的那一方半模型进行绑定,并且向政务端提出推理申请,由政务端配置联邦学习模型的推理数据。最终产生预测数据,返回到银行端。银行端进行同态解密之后可得到明文推理数据。
54.参见图2:是本发明基于联邦学习的银行与政务之间的数据处理系统的具体实现流程图。如图2所示,银行数据包含的特征主要有:性别、年龄、存款数额、贷款数额、贷款次数、逾期次数、消费情况、工资情况。政务数据包含的特征主要有:婚姻状况、工作年限、房产
状况、贫困户、家庭成员、公积金基数、社保基数。
55.各方将各自的数据上传到各自的本地节点。各自对本地数据进行初步清洗、id设置。然后由具有数据标签的那一方发起联合建模申请,被申请方为政务端审批数据。之后进行数据特征名的加密和映射,对数据进行对齐和加密。根据银行端设置的模型类型和模型训练参数,双方共同进行联合建模,建模完成之后将模型输出。根据输出的模型,银行联合政务全量数据进行推理预测,将预测值返回到银行端。银行可依据预测值来调整自身的风险策略,防范风险。
56.参见图3:是本发明的一个实施例提供的种基于联邦学习的银行与政务之间的数据处理系统的模块结构图。如图3所示,本系统包含包括数据存储模块、数据预处理模块、数据加密和数据对齐模块、数据特征工程模块、同态加密模块、模型构建与训练模块和模型推理模块;
57.数据存储模块:配置用于将银行数据与政务数据存储到联邦学习系统中;
58.数据预处理模块:用于对银行数据与政务数据进行预处理,具体包括数据的筛选、清洗、id值设置;且预处理需要条件基于联邦学习算法和机器学习算法、深度学习算法以及业务需要的数据规范限制;
59.数据加密和数据对齐模块:配置用于将银行数据与政务数据的各自真实特征名进行加密,以及将特征名加密后的银行数据与政务数据进行数据对齐;
60.数据特征工程模块:用于将对齐后的数据,根据机器学习算法、深度学习算法所需要的规范进行特征工程;
61.同态加密模块:将经过数据特征工程模块处理后得到的数据进行同态加密,从而获取各自的训练数据;
62.模型构建与训练模块:发起方利用机器学习模型或深度学习模型构建基于银行端和政务端的初步联邦学习模型;银行端和政务端分别将各自训练数据输入到联邦学习系统中进行联合训练建模,并最终生成联邦学习模型;
63.模型推理模块:利用生成的联邦学习模型,对实际业务数据进行联合预测;将预测结果返回到发起方。
64.以上内容和结构描述了本发明产品的基本原理、主要特征和本发明的优点,本行业的技术人员应该了解。上述实例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都属于要求保护的本发明范围之内。本发明要求保护范围由所附的权利要求书及其等效物界定。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献