一种应用于金融场景的隐私特征IV值计算方法与流程

2023-01-15 09:06:30 来源：中国专利 TAG：

一种应用于金融场景的隐私特征iv值计算方法
技术领域
1.本发明涉及隐私计算技术领域，具体是一种应用于金融场景的隐私特征iv值计算方法。

背景技术：

2.随着机器学习、联邦学习等新兴技术的不断崛起和发展，传统金融行业也开始逐步接触和探索机器学习的一些常用算法和模型。其中特征iv值(inform第一参与方tion v第一参与方lue)是机器学习二分类问题中一个比较重要的指标，其主要用来对输入变量进行编码和预测能力的评估。特征变量iv值的大小即表示该变量预测能力的强弱。虽然目前市面上已经有了一些与之相关的一些算法和说明，但这些算法很难直接拿过来用于一些隐私计算的系统或方法上，故在金融场景中落地的难度更是可想而知。
3.传统机器学习算法中，特征变量越多越大时，需要计算特征iv进行筛选，iv值越高，表示特征蕴含信息量越大，越适合于机器学习算法的模型训练。而随着数据隐私及安全保护的日重要性日益提升，基于明文数据计算iv值的方法已经难以满足隐私保护要求，当然使用mpc技术可解决当前的隐私安全的问题，但同时mpc技术对通信宽带要求较高，当数据量很大时，计算成本及时间成本也非常的高，故用这些技术的算法和系统很难在金融场景下落地。
4.综上所述本发明提出一种应用于金融场景的隐私特征iv值计算方法。

技术实现要素：

5.本发明的主要基于部分金融场景的业务和需求特点，提出了一种应用于金融场景的隐私特征iv值计算方法；我们在用逻辑回归、决策树等模型方法构建分类模型时，经常需要对自变量进行筛选，挑选入模变量过程是个比较复杂的过程，需要考虑很多因素，比如变量之间的相关性、变量的预测能力、变量在业务上的可解释性等，其中最主要和直接的衡量标准就是变量的预测能力；隐私iv特征值就是用来解决这个问题的存在，他可以用来衡量自变量的预测能力，从而为我们提供更准确的入模变量。
6.为实现上述目的，本发明提供如下技术方案：一种应用于金融场景的隐私特征iv值计算方法，包括如下步骤：
7.步骤s1，首先参与计算的双方生成一组公私钥对，其中，参与双方分别以即第一参与方和第二参与方表示；
8.步骤s2，将第一参与方的公钥公开给第二参与方；
9.步骤s3，第一参与方利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值，并将样本数据的密文标签值发送给第二参与方；
10.步骤s4，同时针对某一特征，第二参与方基于特征值对多个样本数据进行分组，并结合各个样本数据的密文标签值以及第一参与方的公钥计算每个分组的密文woe值；
11.步骤s5，第二参与方将各分组的密文woe值进行累加，得到该特征的最终密文woe
值；
12.步骤s6，通过各分组的密文woe值计算出各个分组的密文特征iv值；
13.步骤s7，第二参与方将计算后的最终密文特征iv值加密后发送给第一参与方；
14.步骤s8，第一参与方利用自己的私钥解密该特征的最终密文特征iv值，得到该特征的明文特征iv值，并将其发送给第二参与方；
15.步骤s9，第二参与方得到该特征的最终iv值后继续在系统中进行特征工程或者逻辑预测的工程构建。
16.作为本发明的一种优选实施方案，所述步骤s1，首先为参与计算的双方生成一组公私钥对的详细步骤如下：
17.步骤s1.1，确定参与方，将参与双方分别标记为第一参与方和第二参与方：
18.步骤s1.2，第一参与方和第二参与方生成一组公私钥对。
19.作为本发明的一种优选实施方案，所述步骤s3，第一参与方利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值，并将样本数据的密文标签值发送给第二参与方的详细步骤如下：
20.步骤s3.1，第一参与方利用自己的公钥加密各个样本数据的标签值，从而生成各个样本数据的密文标签值：
21.步骤s3.2，第一参与方将样本数据的密文标签值发送给第二参与方。
22.作为本发明的一种优选实施方案，所述步骤s4同时针对某一特征，第二参与方基于特征值对多个样本数据进行分组，并结合各个样本数据的密文标签值以及第一参与方的公钥计算每个分组的密文woe值,的详细步骤如下：
23.步骤s4.1，首先采集每个bin中的坏样本数量和总坏样本数，并依据上述数据计算出每个bin坏样本百分比；
24.步骤s4.2，接着采集每个bin中的好样本数量和总好样本总数，并依据上述数据计算每个bin好样本百分比：
25.步骤s4.3，最后依据上述计算的每个bin的坏样本百分比和每个bin好样本百分比算出每个bin的woe值。
26.作为本发明的一种优选实施方案，所述步骤s4同时针对某一特征，第二参与方基于特征值对多个样本数据进行分组，并结合各个样本数据的密文标签值以及第一参与方的公钥计算每个分组的密文woe值计算公式如下：
[0027][0028][0029][0030]
其中，ηb为单个bin的坏样本百分比，xb为单个bin中坏样本数，x
zb
总的坏样本数；η
bg
为单个bin的好样本百分比，xg为单个bin中好样本数，x
gb
总的好样本数；woe
bin
为单个bin的woe值。
[0031]
作为本发明的一种优选实施方案，所述步骤s5,第二参与方将各分组的密文woe值进行累加，得到该特征的最终密文woe值的计算公式如下：
[0032]
woe＝∑
bin
woe
bin
[0033]
其中，woe为最终密文woe值，woe
bin
为单个bin的woe值。
[0034]
据权利要求6所述的一种应用于金融场景的隐私特征iv值计算方法，其特征在于，所述步骤s6通过各分组的密文woe值计算出各个分组的密文特征iv值的详细步骤包括：
[0035]
步骤s6.1，首先计算依据各组中的bin的iv值，
[0036]
步骤s6.2，接着依据每个bin的iv值计算每个变量的iv值。
[0037]
作为本发明的一种优选实施方案，所述步骤s6.1，首先计算依据各组中的bin的iv值的计算公式如下：
[0038]
iv
bin
＝(η
g-ηb)*woe
[0039]
其中，iv
bin
为单个bin的iv值，η
bg
为单个bin的好样本百分比，woe为最终密文woe值。
[0040]
作为本发明的一种优选实施方案，所述步骤s6.2,接着依据每个bin的iv值计算每个变量的iv值的计算公式如下：
[0041]
iv＝∑
bin
iv
bin
[0042]
其中，iv为每个变量的最终密文特征iv值，iv
bin
为单个bin的iv值。
[0043]
作为本发明的一种优选实施方案，所述步骤s8，第一参与方利用自己的私钥解密该特征的最终密文特征iv值，得到该特征的明文特征iv值，并将其发送给第二参与方所采用的密钥源自于步骤s3第一参与方发给第二参与方的公钥，ηb为单个bin的坏样本百分比。
[0044]
与现有技术相比，
[0045]
1.本发明底层基于密码学的安全多方计算框架，安全性可验；
[0046]
2.本发明对金融场景下隐私计算的各种隐私计算方法如逻辑预测、逻辑回归提供了很好的基础设施；
[0047]
3.本发明不像传统mpc计算那样对通信宽带的要求度那么高，同时兼顾了计算的效率和数据的安全性。
附图说明
[0048]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例。
[0049]
图1为本发明的方法流程框图一；
[0050]
图2为本发明的方法流程框图二；
[0051]
图3为本发明的步骤s1详细步骤流程框图；
[0052]
图4为本发明的步骤s3详细步骤流程框图；
[0053]
图5为本发明的步骤s4详细步骤流程框图；
[0054]
图6为本发明的步骤s6详细步骤流程框图。
具体实施方式
[0055]
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0056]
实施例一
[0057]
请参阅图1-图5，本发明提供一种应用于金融场景的隐私特征iv值计算方法，包括如下步骤：
[0058]
步骤s1，首先参与计算的双方生成一组公私钥对，其中，参与双方分别以即第一参与方和第二参与方表示，详细步骤如下：
[0059]
步骤s1.1，确定参与方，将参与双方分别标记为第一参与方和第二参与方：
[0060]
步骤s1.2，第一参与方和第二参与方生成一组公私钥对；
[0061]
步骤s2，将第一参与方的公钥公开给第二参与方；
[0062]
步骤s3，第一参与方利用自己的公钥加密各个样本数据的标签值生成各个样本数据的密文标签值，并将样本数据的密文标签值发送给第二参与方，详细步骤如下：
[0063]
步骤s3.1，第一参与方利用自己的公钥加密各个样本数据的标签值，从而生成各个样本数据的密文标签值：
[0064]
步骤s3.2，第一参与方将样本数据的密文标签值发送给第二参与方；
[0065]
步骤s4，同时针对某一特征，第二参与方基于特征值对多个样本数据进行分组，并结合各个样本数据的密文标签值以及第一参与方的公钥计算每个分组的密文woe值，详细步骤如下：
[0066]
步骤s4.1，首先采集每个bin中的坏样本数量和总坏样本数，并依据上述数据计算出每个bin坏样本百分比；
[0067]
步骤s4.2，接着采集每个bin中的好样本数量和总好样本总数，并依据上述数据计算每个bin好样本百分比：
[0068]
步骤s4.3，最后依据上述计算的每个bin的坏样本百分比和每个bin好样本百分比算出每个bin的woe值；
[0069]
步骤s5，第二参与方将各分组的密文woe值进行累加，得到该特征的最终密文woe值；
[0070]
步骤s6，通过各分组的密文woe值计算出各个分组的密文特征iv值；
[0071]
步骤s7，第二参与方将计算后的最终密文特征iv值加密后发送给第一参与方；
[0072]
步骤s8，第一参与方利用自己的私钥解密该特征的最终密文特征iv值，得到该特征的明文特征iv值，并将其发送给第二参与方，所述步骤s8，第一参与方利用自己的私钥解密该特征的最终密文特征iv值，得到该特征的明文特征iv值，并将其发送给第二参与方所采用的密钥源自于步骤s3第一参与方发给第二参与方的公钥，ηb为单个bin的坏样本百分比；
[0073]
步骤s9，第二参与方得到该特征的最终iv值后继续在系统中进行特征工程或者逻辑预测的工程构建。
[0074]
在本实施例中，所涉及机器学习中的特征iv值和证据权重woe；在机器学习的二分类问题中，iv值(information value)主要用来对输入变量进行编码和预测能力评估。特征
变量iv值的大小即表示该变量预测能力的强弱。iv值的取值范围是[0,正无穷)，如果当前分组中只包含响应客户或者未响应客户时，iv＝正无穷。量化指标含义如下：《0.02useless for prediction、0.02 to 0.1weak predictor、0.1 to 0.3medium predictor、0.3 to 0.5strong predictor、》0.5 suspicious or too good to be true。而iv值的计算是以woe为基础的，woe是对原始自变量的一种编码形式。
[0075]
本发明在用逻辑回归、决策树等模型方法构建分类模型时，可实现对自变量进行筛选，挑选入模变量过程，均衡考虑到变量之间的相关性、变量的预测能力、变量在业务上的可解释性等，通过隐私iv特征值的计算，可实现直观衡量自变量的预测能力，从而为我们提供更准确的入模变量。
[0076]
实施例二
[0077]
请参阅图1-图5，本发明一种应用于金融场景的隐私特征iv值计算方法，其中所述步骤s4～步骤s6的计算步骤如下：所述步骤s4同时针对某一特征，第二参与方基于特征值对多个样本数据进行分组，并结合各个样本数据的密文标签值以及第一参与方的公钥计算每个分组的密文woe值计算公式如下：
[0078][0079][0080][0081]
其中，ηb为单个bin的坏样本百分比，xb为单个bin中坏样本数，x
zb
总的坏样本数；η
bg
为单个bin的好样本百分比，xg为单个bin中好样本数，x
gb
总的好样本数；woe
bin
为单个bin的woe值。
[0082]
在本实施例中，步骤s5,第二参与方将各分组的密文woe值进行累加，得到该特征的最终密文woe值的计算公式如下：
[0083]
woe＝∑
bin
woe
bin
[0084]
其中，woe为最终密文woe值，woe
bin
为单个bin的woe值。
[0085]
所述步骤s6通过各分组的密文woe值计算出各个分组的密文特征iv值的详细步骤包括：
[0086]
步骤s6.1，首先计算依据各组中的bin的iv值，
[0087]
步骤s6.2，接着依据每个bin的iv值计算每个变量的iv值。
[0088]
在本实施例中，所述步骤s6.1，首先计算依据各组中的bin的iv值的计算公式如下：
[0089]
iv
bin
＝(η
g-ηb)*woe
[0090]
其中，iv
bin
为单个bin的iv值，η
bg
为单个bin的好样本百分比，woe为最终密文woe值。
[0091]
在本实施例中，所述步骤s6.2,接着依据每个bin的iv值计算每个变量的iv值的计算公式如下：
[0092]
iv＝σ
bin
iv
bin
[0093]
其中，iv为每个变量的最终密文特征iv值，iv
bin
为单个bin的iv值。
[0094]
综上所述，本发明主要包括金融场景中隐私计算对特征woe的计算方法；金融场景中隐私计算对特征iv值的计算方法；金融场景中隐私计算如何秘密分享标签信息，其具有如下优点，本发明基于密码学的安全多方计算框架，安全性可验；本发明对金融场景下隐私计算的各种隐私计算方法如逻辑预测、逻辑回归提供了很好的基础设施；本发明不像传统mpc计算那样对通信宽带的要求度那么高，同时兼顾了计算的效率和数据的安全性。
[0095]
本领域技术人员可以理解，上述服务设备的描述仅仅是示例，并不构成对终端设备的限定，可以包括比上述描述更多或更少的部件，或者组合某些部件，或者不同的部件，例如可以包括输入输出设备、网络接入设备、总线等。
[0096]
本应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0097]
以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0098]
以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。
[0099]
以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种城市高密度路网混合交通流元胞传输仿真预测方法

一种应用于金融场景的隐私特征IV值计算方法与流程

相关文献

最热文献