一种基于联邦学习的客户端筛选补充方法

2022-09-01 08:34:46 来源：中国专利 TAG：

1.本发明涉及计算机科学技术领域，特别涉及一种基于联邦学习的客户端筛选补充方法。

背景技术：

2.联邦学习中的不同数据集之间数据异构性主要体现在数据分布的不均衡上，其中因标签分布不均衡而造成的偏差是联邦学习面临的主要问题，主要表现在样本数量以及标签个数在不同客户端中的不均匀分布，若不对聚合子集中的样本标签分布加以控制，仅增加样本规模，将因出现不同样本标签之间在数量上的严重失衡而导致全局模型更新方向发生偏移，降低全局模型的更新质量。因此，针对以上问题，需要设计相应的筛选补充策略来缓解对模型收敛效率造成的影响。
3.但如何设计出适用于联邦学习框架下的客户端筛选补充策略仍面临一定的挑战：首先，联邦学习框架下的客户端规模较大，对各个客户端进行筛选评估的过程容易拉长补充阶段的时长，从而降低联邦学习框架中的交互效率；其次，联邦学习对数据的安全隐私保护要求较高，因此无法直接从获取数据信息上来对客户端的贡献进行评估，使得筛选指标的设计受到了隐私保护的约束。因此，在保证数据隐私安全的前提下，如何在有限的等待时间内选择合适的客户端子集来参与全局模型的更新是筛选补充策略设计的关键。

技术实现要素：

4.针对上述问题，本发明的目的在于提供一种基于联邦学习的客户端筛选补充方法，在保证数据隐私安全的前提下，从标签分布角度对各个客户端的数据质量进行评估，以对聚合子集的数据组合质量进行进一步优化。
5.为解决上述技术问题，本发明的实施例提供如下方案：
6.一种基于联邦学习的客户端筛选补充方法，包括以下步骤：
7.参数服务器在预定的时间约束下接收已满足本地更新轮次的客户端，作为聚合子集的第一部分；
8.通过指标衡量各客户端样本标签分布情况，在第一部分聚合子集的基础上，通过客户端之间的随机加和以及非对称加密技术的结合，实现指标信息的加密传输，并计算第一部分聚合子集的平均指标信息，上传至参数服务器；
9.参数服务器将平均指标信息作为询问信息下发给剩余客户端，选取自身指标信息小于等于平均指标信息的剩余客户端作为补充客户端，与第一部分的客户端进行组合补充，形成完整的聚合子集。
10.优选地，联邦学习采用以参数服务器为中心的拓扑架构，基于数据不传出的思想，使用模型梯度或者模型参数代替源数据在各数据源之间的相互传递，并由参数服务器实现全局聚合模型的更新和优化。
11.优选地，所述通过指标衡量各客户端样本标签分布情况，包括：
12.指标w选择以独立同分布的样本标签分布比例作为参考依据，将各个客户端本地数据标签比例分布与其进行差值计算，以计算结果作为衡量各客户端样本标签分布情况，其计算公式如下：
[0013][0014]
其中，c表示c个类别的分类问题，y代表标签空间，pk代表客户端k中样本数据集各个标签之间的分布比例，p代表独立同分布数据集上各个标签之间的分布比例。
[0015]
优选地，将以参数服务器为中心的通信架构转换成客户端之间的点对点传输的通信方式，通过客户端之间的随机加和以及非对称加密技术的结合计算平均指标信息的流程如下：
[0016]
客户端client1本地生成一个随机数，并将其与衡量自己标签分布情况的指标信息w1相加，同时用客户端client2的公钥将计算结果加密，并发送给客户端client2；
[0017]
客户端client2用本地私钥将从客户端client1获取的数据进行解密，并与自己的指标信息w2进行相加，使用客户端client3的公钥将计算结果加密，然后发送给客户端client3；
[0018]
客户端client3同上一步骤继续执行解密计算，并继续将加密结果发送给下一个客户端；
[0019]
待最后结果发送给最后一个客户端后，最后一个客户端将接收到的数据进行解密，并与自己的指标信息进行加和计算，然后用客户端client1的公钥将计算结果加密，并将加密结果发送给客户端client1；
[0020]
此刻，客户端client1接收到所有客户端的指标信息加和，并将结果用自己的私钥进行解密，最后计算出平均值发送给参数服务器。
[0021]
优选地，待筛选补充的剩余客户端仅用于接收第一部分聚合子集的平均指标信息，并行的在本地与筛选阈值进行比较判断，无需将自身的指标信息上传。
[0022]
本发明实施例提供的技术方案带来的有益效果至少包括：
[0023]
本发明实施例中，提出一种基于联邦学习的客户端筛选补充方法，从衡量标签分布偏差的角度来评估不同客户端本地数据集的质量，以对剩余客户端进行筛选，使得各个客户端待接收到参数服务器的平均指标询问信息后，能够并行的在本地与筛选阈值进行比较并决定是否能够称为补充客户端，从而避免了因客户端规模较大而对联邦学习交互效率造成的影响；在隐私保护上，通过客户端之间的随机加和以及非对称加密技术的结合，实现对指标信息的加密传输，有效避免了标签分布偏差信息的泄露。因此，本发明在保证数据隐私安全的前提下，从聚合子集中的样本组合质量来对聚合子集组合进行优化，有效提升了联邦学习框架下进行全局模型更新的收敛效率。
附图说明
[0024]
为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他
的附图。
[0025]
图1是本发明实施例提供的一种基于联邦学习的客户端筛选补充方法的流程图；
[0026]
图2是本发明实施例提供的通过客户端之间的随机加和以及非对称加密技术的结合计算平均指标信息的示意图。
[0027]
如图所示，为了能明确实现本发明的实施例的结构，在图中标注了特定的结构和器件，但这仅为示意需要，并非意图将本发明限定在该特定结构、器件和环境中，根据具体需要，本领域的普通技术人员可以将这些器件和环境进行调整或者修改，所进行的调整或者修改仍然包括在本发明的保护范围中。
具体实施方式
[0028]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0029]
本发明的实施例提供了一种基于联邦学习的客户端筛选补充方法，如图1所示，所述方法包括以下步骤：
[0030]
步骤1：参数服务器在预定的时间约束下接收已满足本地更新轮次的客户端，作为聚合子集的第一部分。
[0031]
在本发明实施例中，联邦学习采取客户端—服务器架构，该框架采用一种以参数服务器为中心的拓扑架构，基于数据不传出的思想，使用模型梯度或者模型参数代替源数据在各数据源之间的相互传递，并由参数服务器实现全局聚合模型的更新和优化。
[0032]
步骤2：通过指标衡量各客户端样本标签分布情况，在第一部分聚合子集的基础上，通过客户端之间的随机加和以及非对称加密技术的结合，实现指标信息的加密传输，并计算第一部分聚合子集的平均指标信息，上传至参数服务器。
[0033]
步骤2.1：所述通过指标衡量各客户端样本标签分布情况，包括：
[0034]
指标w选择以独立同分布的样本标签分布比例作为参考依据，将各个客户端本地数据标签比例分布与其进行差值计算，以计算结果作为衡量各客户端样本标签分布情况，其计算公式如下：
[0035][0036]
其中，c表示c个类别的分类问题，y代表标签空间，pk代表客户端k中样本数据集各个标签之间的分布比例，p代表独立同分布数据集上各个标签之间的分布比例。
[0037]
步骤2.2：将以参数服务器为中心的通信架构转换成客户端之间的点对点传输的通信方式，通过客户端之间的随机加和以及非对称加密技术的结合计算平均指标信息，示意图如图2所示。其流程如下：
[0038]
(1)客户端client1本地生成一个随机数，并将其与衡量自己标签分布情况的指标信息w1相加，同时用客户端client2的公钥将计算结果加密，并发送给客户端client2；
[0039]
(2)客户端client2用本地私钥将从客户端client1获取的数据进行解密，并与自
己的指标信息w2进行相加，使用客户端client3的公钥将计算结果加密，然后发送给客户端client3；
[0040]
(3)客户端client3同上一步骤继续执行解密计算，并继续将加密结果发送给下一个客户端；
[0041]
(4)待最后结果发送给最后一个客户端后，最后一个客户端将接收到的数据进行解密，并与自己的指标信息进行加和计算，然后用客户端client1的公钥将计算结果加密，并将加密结果发送给客户端client1；
[0042]
(5)此刻，客户端client1接收到所有客户端的指标信息加和，并将结果用自己的私钥进行解密，最后计算出平均值发送给参数服务器。
[0043]
步骤3：参数服务器将基于第一部分聚合子集计算出的平均指标信息作为询问信息下发给剩余客户端，开始对剩余客户端进行进一步的筛选，选取自身指标信息小于等于平均指标信息的剩余客户端作为补充客户端，上传至参数服务器，与第一部分的客户端进行组合补充，形成完整的聚合子集。
[0044]
其中，待筛选补充的剩余客户端仅用于接收第一部分聚合子集的平均指标信息，并行的在本地与筛选阈值进行比较判断，无需将自身的指标信息上传。
[0045]
综上所述，本发明提供的一种基于联邦学习的客户端筛选补充方法，从标签的分布信息上来评估不同客户端本地数据集的标签分布偏差程度，在第一部分聚合子集的基础上，通过选取小于等于平均指标信息的剩余客户端来作为选中客户端，为第一阶段的聚合子集进行补充，在扩充样本规模的同时，通过降低聚合子集的指标值来减小样本组合中的标签分布偏差，以选取较优的客户端来优化聚合子集中的数据组合质量，从而能够有效的评估本地数据集的数据质量以达到对剩余客户端进行筛选的目的，有效提升了联邦学习框架下进行全局模型更新的收敛效率。
[0046]
需要说明的是，在说明书中提到“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”等指示所述的实施例可以包括特定特征、结构或特性，但未必每个实施例都包括该特定特征、结构或特性。另外，在结合实施例描述特定特征、结构或特性时，结合其它实施例(无论是否明确描述)实现这种特征、结构或特性应在相关领域技术人员的知识范围内。
[0047]
通常，可以至少部分从上下文中的使用来理解术语。例如，至少部分取决于上下文，本文中使用的术语“一个或多个”可以用于描述单数意义的任何特征、结构或特性，或者可以用于描述复数意义的特征、结构或特性的组合。另外，术语“基于”可以被理解为不一定旨在传达一组排他性的因素，而是可以替代地，至少部分地取决于上下文，允许存在不一定明确描述的其他因素。
[0048]
如本文使用的，术语“标称/标称地”是指在生产或制造过程的设计阶段期间设置的针对部件或过程操作的特性或参数的期望或目标值，以及高于和/或低于期望值的值的范围。值的范围可能是由于制造过程或容限中的轻微变化导致的。如本文使用的，术语“大约”指示可以基于与主题半导体器件相关联的特定技术节点而变化的给定量的值。基于特定技术节点，术语“大约”可以指示给定量的值，其例如在值的5％-15％(例如，值的
±
5％、
±
10％或
±
15％)内变化。
[0049]
可以理解的是，本公开中的“在
……
上”、“在
……
之上”和“在
……
上方”的含义应当以最宽方式被解读，以使得“在
……
上”不仅表示“直接在”某物“上”而且还包括在某物“上”且其间有居间特征或层的含义，并且“在
……
之上”或“在
……
上方”不仅表示“在”某物“之上”或“上方”的含义，而且还可以包括其“在”某物“之上”或“上方”且其间没有居间特征或层的含义。
[0050]
此外，诸如“在
…
之下”、“在
…
下方”、“下部”、“在
…
之上”、“上部”等空间相关术语在本文中为了描述方便可以用于描述一个元件或特征与另一个或多个元件或特征的关系，如在附图中示出的。空间相关术语旨在涵盖除了在附图所描绘的取向之外的在设备使用或操作中的不同取向。设备可以以另外的方式被定向，并且本文中使用的空间相关描述词可以类似地被相应解释。
[0051]
本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外，为了避免对本发明的实质造成不必要的混淆，并没有详细说明众所周知的方法、过程、流程、元件和电路等。
[0052]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读取存储介质中，如：rom/ram、磁碟、光盘等。
[0053]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于联邦学习的客户端筛选补充方法

相关文献

最热文献