一种贡献评估处理方法及装置与流程

2022-02-20 00:38:11 来源：中国专利 TAG：

1.本发明涉及数据处理领域，具体而言，涉及一种贡献评估处理方法及装置。

背景技术：

2.联邦学习中通常会引入沙普利值(shapley value，简称为sv)公平的评估各参与方的贡献，sv具有很好的公平性，但是sv计算基于边际增益的期望计算，如果直接计算，由于存在的特征子集有多种可能性，直接计算sv的时间复杂度是指数级的，具体实现方案中通常计算sv的近似值以达到提高效率的目的。
3.模拟sv近似计算方法，该方法是一种模型无关的方法，不能解决联邦学习中的特征评价问题，未能证明模拟sv近似计算采样得到无偏估计，收敛性不能很好理解，不确定采样样本数量。
4.针对相关技术中通过模拟sv近似计算方法评估贡献度，效率和准确性低的问题，尚未提出解决方案。

技术实现要素：

5.本发明实施例提供了一种贡献评估处理方法及装置，以至少解决相关技术中通过模拟sv近似计算方法评估贡献度，效率和准确性低的问题。
6.根据本发明的一个实施例，提供了一种贡献评估处理方法，包括：
7.获取多参与方的数据；
8.确定所述多参与方的数据的各特征对应的sv无偏估计；
9.确定所述多参与方的数据的各特征的有效数据量；
10.根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
11.可选地，确定所述多参与方的数据的各特征对应的sv无偏估计包括：
12.将所述多参与方的数据的各特征输入预先训练好的联邦线性模型中，得到所述联邦线性模型输出的所述多参与方的数据的各特征对应的不同sv无偏估计的概率，其中，分别确定所述概率最大值对应的sv无偏估计为所述多参与方的数据的各特征对应的sv无偏估计。
13.可选地，所述方法还包括：
14.获取所述多参与方分别根据映射函数转换得到的样本集；
15.根据所述多参与方的样本集对联邦线性模型进行训练，在损失函数满足预设条件时确定所述联邦线性模型的系数，得到所述训练好的联邦线性模型。
16.可选地，所述多参与方，用于分别采样得到一组仅包含0，1的向量，得到采样向量，其中，所述采样向量的长度为特征数，采样优先从包含1个特征开始，对应得到包含m-1个特征的向量，特征数依次递增；根据映射函数将所述采样向量生成解释模型g的所述样本集：z'i为所述采样向量，当z'i为1时，将取x的实际值，当z'i为0时，在数据中随机选取一个特征
值，x为所述多参与方i的数据。
17.可选地，根据所述多参与方的样本集对联邦线性模型进行训练，在损失函数满足预设条件时确定所述联邦线性模型的系数，得到训练好的所述联邦线性模型包括：
18.将生成h(x,z
′
)带入联邦模型中得到预测值f(h(x,z
′
))，将所述预测值作为g对应的标签；
19.将所述多参与方的样本集输入所述联邦线性模型中进行训练，基于同态加密的安全梯度下降计算加密损失函数，在所述加密损失函数满足所述预设条件时完成训练，得到训练好的所述联邦线性模型，其中，所述加密损失函数为
[0020][0021]
其中，
[0022][0023][0024]
h(x,z'i)＝z；
[0025]
f(x)为任一的联邦模型，g为所述联邦线性模型，g为f(x)的解释模型，u
x
(z
′
)为计算sv对应的核函数，z'i为采样向量，m为所述采样向量的长度，n为所述多参与方的数量，h(x,z'i)为所述映射函数，z为所述多参与方的采样向量的集合。
[0026]
可选地，确定所述多参与方的数据的各特征的有效数据量包括：
[0027]
统计所述多参与方的数据的缺失值和异常值个数；
[0028]
分别从所述多参与方的数据中排除对应的所述缺失值和所述异常值个数，得到所述多参与方的数据的各特征的有效数据量。
[0029]
可选地，根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值包括：
[0030]
将所述多参与方的数据的各特征对应的所述有效数据量确定为权重系数；
[0031]
分别根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述权重系数进行加权平均，得到所述多参与方的贡献值。
[0032]
可选地，在根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值之后，所述方法还包括：
[0033]
将所述多参与方的贡献值传输给所述多参与方。
[0034]
根据本发明的另一个实施例，还提供了一种贡献评估处理装置，包括：
[0035]
第一获取模块，用于获取多参与方的数据；
[0036]
第一确定模块，用于确定所述多参与方的数据的各特征对应的sv无偏估计；
[0037]
第二确定模块，用于确定所述多参与方的数据的各特征的有效数据量；
[0038]
第三确定模块，用于根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
[0039]
可选地，所述第一确定模块，还用于
[0040]
将所述多参与方的数据的各特征输入预先训练好的联邦线性模型中，得到所述联邦线性模型输出的所述多参与方的数据的各特征对应的不同sv无偏估计的概率，其中，分别确定所述概率最大值对应的sv无偏估计为所述多参与方的数据的各特征对应的sv无偏估计。
[0041]
可选地，所述装置还包括：
[0042]
第二获取模块，用于获取所述多参与方分别根据映射函数转换得到的样本集；
[0043]
训练模块，用于根据所述多参与方的样本集对联邦线性模型进行训练，在损失函数满足预设条件时确定所述联邦线性模型的系数，得到所述训练好的联邦线性模型。
[0044]
可选地，所述多参与方，用于分别采样得到一组仅包含0，1的向量，得到采样向量，其中，所述采样向量的长度为特征数，采样优先从包含1个特征开始，对应得到包含m-1个特征的向量，特征数依次递增；根据映射函数将所述采样向量生成解释模型g的所述样本集：z'i为所述采样向量，当z'i为1时，将取x的实际值，当z'i为0时，在数据中随机选取一个特征值，x为所述多参与方i的数据。
[0045]
可选地，所述训练模块，还用于
[0046]
将生成h(x,z
′
)带入联邦模型中得到预测值f(h(x,z
′
))，将所述预测值作为g对应的标签；
[0047]
将所述多参与方的样本集输入所述联邦线性模型中进行训练，基于同态加密的安全梯度下降计算加密损失函数，在所述加密损失函数满足所述预设条件时完成训练，得到训练好的所述联邦线性模型，其中，所述加密损失函数为
[0048][0049]
其中，
[0050][0051][0052]
h(x,z'i)＝z；
[0053]
f(x)为任一的联邦模型，g为所述联邦线性模型，g为f(x)的解释模型，u
x
(z
′
)为计算sv对应的核函数，z'i为采样向量，m为所述采样向量的长度，n为所述多参与方的数量，h(x,z'i)为所述映射函数，z为所述多参与方的采样向量的集合。
[0054]
可选地，所述第二确定模块，还用于
[0055]
统计所述多参与方的数据的缺失值和异常值个数；
[0056]
分别从所述多参与方的数据中排除对应的所述缺失值和所述异常值个数，得到所述多参与方的数据的各特征的有效数据量。
[0057]
可选地，所述第三确定模块，还用于
[0058]
将所述多参与方的数据的各特征对应的所述有效数据量确定为权重系数；
[0059]
分别根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述权重系数进行加权平均，得到所述多参与方的贡献值。
[0060]
可选地，所述装置还包括：
[0061]
传输模块，用于将所述多参与方的贡献值传输给所述多参与方。
[0062]
根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0063]
根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
[0064]
通过本发明，获取多参与方的数据；确定所述多参与方的数据的各特征对应的sv无偏估计；确定所述多参与方的数据的各特征的有效数据量；根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值，可以解决相关技术中通过模拟sv近似计算方法评估贡献度，效率和准确性低的问题，在特征评估的基础上与数据量结合，得到加权后的模型贡献度，提高了评估的效率和准确性。
附图说明
[0065]
此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0066]
图1是本发明实施例的贡献评估处理方法的移动终端的硬件结构框图；
[0067]
图2是根据本发明实施例的贡献评估处理方法的流程图；
[0068]
图3是根据本发明实施例的贡献评估处理装置的框图；
[0069]
图4是根据本发明可选实施例的贡献评估处理装置的框图。
具体实施方式
[0070]
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
[0071]
需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
[0072]
实施例1
[0073]
本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的贡献评估处理方法的移动终端的硬件结构框图，如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备
106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
[0074]
存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的贡献评估处理方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0075]
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(network interface controller，简称为nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(radio frequency，简称为rf)模块，其用于通过无线方式与互联网进行通讯。
[0076]
在本实施例中提供了一种运行于上述移动终端或网络架构的贡献评估处理方法，图2是根据本发明实施例的贡献评估处理方法的流程图，如图2所示，该流程包括如下步骤：
[0077]
步骤s202，获取多参与方的数据；
[0078]
步骤s204，确定所述多参与方的数据的各特征对应的sv无偏估计；
[0079]
步骤s206，确定所述多参与方的数据的各特征的有效数据量；
[0080]
本发明实施例中，上述步骤s206具体可以包括：统计所述多参与方的数据的缺失值和异常值个数；分别从所述多参与方的数据中排除对应的所述缺失值和所述异常值个数，得到所述多参与方的数据的各特征的有效数据量。
[0081]
步骤s208，根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
[0082]
本发明实施例中，上述步骤s208具体可以包括：将所述多参与方的数据的各特征对应的所述有效数据量确定为权重系数；分别根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述权重系数进行加权平均，得到所述多参与方的贡献值。
[0083]
通过上述步骤s202至s208，可以解决相关技术中通过模拟sv近似计算方法评估贡献度，效率和准确性低的问题，在特征评估的基础上与数据量结合，得到加权后的模型贡献度，提高了评估的效率和准确性。
[0084]
本发明实施例中，上述步骤s204具体可以包括：
[0085]
将所述多参与方的数据的各特征输入预先训练好的联邦线性模型中，得到所述联邦线性模型输出的所述多参与方的数据的各特征对应的不同sv无偏估计的概率，其中，分别确定所述概率最大值对应的sv无偏估计为所述多参与方的数据的各特征对应的sv无偏估计。
[0086]
在一可选的实施例中，所述方法还包括：获取所述多参与方分别根据映射函数转换得到的样本集；根据所述多参与方的样本集对联邦线性模型进行训练，在损失函数满足预设条件时确定所述联邦线性模型的系数，得到所述训练好的联邦线性模型。
[0087]
进一步的，将生成h(x,z
′
)带入联邦模型中得到预测值f(h(x,z
′
))，将所述预测值作为g对应的标签；将所述多参与方的样本集输入所述联邦线性模型中进行训练，基于同态加密的安全梯度下降计算加密损失函数，在所述加密损失函数满足所述预设条件时完成训练，得到训练好的所述联邦线性模型，其中，所述加密损失函数为
[0088][0089]
其中，
[0090][0091][0092]
h(x,z'i)＝z；
[0093]
f(x)为任一的联邦模型，g为所述联邦线性模型，g为f(x)的解释模型，u
x
(z
′
)为计算sv对应的核函数，z'i为采样向量，m为所述采样向量的长度，n为所述多参与方的数量，h(x,z'i)为所述映射函数，z为所述多参与方的采样向量的集合。
[0094]
本发明实施例中的上述多参与方，用于分别采样得到一组仅包含0，1的向量，得到采样向量，其中，所述采样向量的长度为特征数，采样优先从包含1个特征开始，对应得到包含m-1个特征的向量，特征数依次递增；根据映射函数将所述采样向量生成解释模型g的所述样本集：z'i为所述采样向量，当z'i为1时，将取x的实际值，当z'i为0时，在数据中随机选取一个特征值，x为所述多参与方i的数据。
[0095]
在另一可选的实施例中，在上述步骤s208之后，将所述多参与方的贡献值传输给所述多参与方。
[0096]
本发明实施例基于sv无偏估计的联邦学习特征重要性评价，满足联邦学习特点提高评估的效率和准确性，在该特征评估方法的基础上与数据量结合，得到加权后的模型贡献度，以此为依据进行收益分配。对与任意的联邦模型f(x)，定义f(x)的解释模型g是一个联邦线性模型，其中φj为第j个特征对应的sv无偏估计，m为特征总数，z
′
∈{0,1}，当z
′
取1时表示，该特征存在，取0时该特征不存在。
[0097]
联邦建模的参与方，分别采样得到一组仅包含0，1的向量，向量长度为本方特征数。为减少方差，采样优先从包含1个特征开始，对应得到包含m-1个特征的向量，特征数依次递增。
[0098]
各方根据映射函数h(x,z'i)＝z将采样结果生成解释模型g的样本集：z'i为采样向量，当z'i为1时，将取x的实际值，当z'i为0时，在数据中随机选取一个特征值。
[0099]
训练模型g，损失函数为
[0100][0101]
其中，u
x
(z
′
)为计算sv无偏估计对应的核函数，表示该组样本的权重，n为参与联邦建模的参数方的数量，i为联邦标识，z为采样向量的全集，其中，
[0102][0103][0104][0105]
将生成h(x,z
′
)带入联邦模型中得到预测值f(h(x,z
′
))，即为模型g对应的标签，利用基于同态加密的安全梯度下降计算，加密损失可以表示为
[0106][0107]
加密计算过程由不属于联邦建模参与方中任意一个的协调方，担任可以是单一节点也可以是区块链平台，经过训练计算出每一个特征的sv无偏估计，也就是线性模型的系数，即为各特征的重要性。
[0108]
各方排除缺失及异常数据后，得到有效数据量cj，以该数据量为权重，各方根据得到的sv无偏估计与cj加权平均得到本方贡献值，以贡献值为奖励分配依据。
[0109]
通过本发明实施例，将计算sv无偏估计的核函数引入联邦纵向线性回归模型计算中，对扰动样本进行拟合，从而达到评估纵向联邦场景下特征重要性的目的。
[0110]
实施例2
[0111]
根据本发明的另一个实施例，还提供了一种贡献评估处理装置，图3是根据本发明实施例的贡献评估处理装置的框图，如图3所示，包括：
[0112]
第一获取模块32，用于获取多参与方的数据；
[0113]
第一确定模块34，用于确定所述多参与方的数据的各特征对应的sv无偏估计；
[0114]
第二确定模块36，用于确定所述多参与方的数据的各特征的有效数据量；
[0115]
第三确定模块38，用于根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
[0116]
可选地，所述第一确定模块34，还用于
[0117]
将所述多参与方的数据的各特征输入预先训练好的联邦线性模型中，得到所述联邦线性模型输出的所述多参与方的数据的各特征对应的不同sv无偏估计的概率，其中，分别确定所述概率最大值对应的sv无偏估计为所述多参与方的数据的各特征对应的sv无偏估计。
[0118]
图4是根据本发明可选实施例的贡献评估处理装置的框图，如图4所示，所述装置还包括：
[0119]
第二获取模块42，用于获取所述多参与方分别根据映射函数转换得到的样本集；
[0120]
训练模块44，用于根据所述多参与方的样本集对联邦线性模型进行训练，在损失函数满足预设条件时确定所述联邦线性模型的系数，得到所述训练好的联邦线性模型。
[0121]
可选地，所述多参与方，用于分别采样得到一组仅包含0，1的向量，得到采样向量，其中，所述采样向量的长度为特征数，采样优先从包含1个特征开始，对应得到包含m-1个特征的向量，特征数依次递增；根据映射函数将所述采样向量生成解释模型g的所述样本集：z'i为所述采样向量，当z'i为1时，将取x的实际值，当z'i为0时，在数据中随机选取一个特征值，x为所述多参与方i的数据。
[0122]
可选地，所述训练模块44，还用于
[0123]
将生成h(x,z
′
)带入联邦模型中得到预测值f(h(x,z
′
))，将所述预测值作为g对应的标签；
[0124]
将所述多参与方的样本集输入所述联邦线性模型中进行训练，基于同态加密的安全梯度下降计算加密损失函数，在所述加密损失函数满足所述预设条件时完成训练，得到训练好的所述联邦线性模型，其中，所述加密损失函数为
[0125][0126]
其中，
[0127][0128][0129]
h(x,z'i)＝z；
[0130]
f(x)为任一的联邦模型，g为所述联邦线性模型，g为f(x)的解释模型，u
x
(z
′
)为计算sv对应的核函数，z'i为采样向量，m为所述采样向量的长度，n为所述多参与方的数量，h(x,z'i)为所述映射函数，z为所述多参与方的采样向量的集合。
[0131]
可选地，所述第二确定模块36，还用于
[0132]
统计所述多参与方的数据的缺失值和异常值个数；
[0133]
分别从所述多参与方的数据中排除对应的所述缺失值和所述异常值个数，得到所述多参与方的数据的各特征的有效数据量。
[0134]
可选地，所述第三确定模块38，还用于
[0135]
将所述多参与方的数据的各特征对应的所述有效数据量确定为权重系数；
[0136]
分别根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述权重系数进行加权平均，得到所述多参与方的贡献值。
[0137]
可选地，所述装置还包括：
[0138]
传输模块，用于将所述多参与方的贡献值传输给所述多参与方。
[0139]
需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
[0140]
实施例3
[0141]
本发明的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0142]
可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：
[0143]
s1，获取多参与方的数据；
[0144]
s2，确定所述多参与方的数据的各特征对应的sv无偏估计；
[0145]
s3，确定所述多参与方的数据的各特征的有效数据量；
[0146]
s4，根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
[0147]
可选地，在本实施例中，上述存储介质可以包括但不限于：u盘、只读存储器(read-only memory，简称为rom)、随机存取存储器(random access memory，简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
[0148]
实施例4
[0149]
本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0150]
可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
[0151]
可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：
[0152]
s1，获取多参与方的数据；
[0153]
s2，确定所述多参与方的数据的各特征对应的sv无偏估计；
[0154]
s3，确定所述多参与方的数据的各特征的有效数据量；
[0155]
s4，根据所述多参与方的数据的各特征对应的sv无偏估计与对应的所述有效数据量确定所述多参与方的贡献值。
[0156]
可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
[0157]
显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。
[0158]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种船舶机械运行模式的判定方法与流程

一种贡献评估处理方法及装置与流程

相关文献

最热文献