一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于联邦化主动学习的目标检测方法

2022-06-18 05:50:30 来源:中国专利 TAG:


1.本发明涉及软件安全技术领域,尤其涉及一种基于联邦化主动学习的目标检测方法。


背景技术:

2.目标检测领域发展至今已有二十多年,从早期的传统方法到如今的深度学习方法,精度越来越高的同时速度也越来越快,这得益于深度学习等相关技术的不断发展。
3.目标检测的任务是找出图像或视频中人们感兴趣的物体,并同时检测出它们的位置和大小。不同于图像分类任务,目标检测不仅要解决分类问题,还要解决定位问题,是属于multi-task的问题。
4.近年来,深度学习模型逐渐取代传统机器视觉方法而成为目标检测领域的主流算法,现有目标检测算法的常规流程如图1所示,此类模型需要大量的训练数据,且需耗大量人工对训练数据进行标记。具体地,对于第二步的数据收集来说,现有的目标检测算法数据集如pascal、voc等仅针对常规的场景,对于一些特殊的场景,如自动驾驶、家庭危险预警等涉及大量的隐私数据(人脸、地理位置等),这些数据很难被使用,一方面,用户对隐私越来越敏感,另一方面,各国政府也纷纷开始对数据隐私立法。对于第三步的人工标注过程,在实际场景中,数据量极大,收集到的很多数据在本质上是重复的,耗费大量人力,且在标注过程中,极容易出现差错。
5.在工业界的图像标注领域,虽然有imagenet等学术界和工业界都在使用的图像数据库,但是在很多特殊的业务场景尤其是安全风控领域,从业人员依旧需要想尽办法去获取业务标注数据。因此,如何在保护数据隐私的情况下生成训练样本并减少人工标注是一个亟待解决的问题。


技术实现要素:

6.考虑到现有目标检测算法在数据标注过程中会耗费大量人力,且无法在保证数据隐私的情况下进行数据采集,本发明针对上述技术问题,提供一种流程清晰、安全性较高的基于联邦化主动学习的目标检测方法及系统,不局限于某种特定的场景,具有一定的通用性,且将极大减轻部署和移植的工作量,降低应用的门槛,为其它深度学习算法解决数据标注和隐私性问题提供了参考。
7.为了实现上述目的,本发明提供如下技术方案:
8.一种基于联邦化主动学习的目标检测方法,服务端首先训练初始模型,然后将其下发到参与联邦训练的客户端,客户端使用本地数据自主进行强化训练,将训练好的参数加密后上传到服务端,服务端对来自各个客户端的模型聚合后再次下发,直到模型达到预期效果为止。
9.进一步地,加密方法包括差分隐私和同态加密。
10.进一步地,上述的基于联邦化主动学习的目标检测方法,包括以下步骤:
11.s1、采集公开数据对目标检测模型进行预训练;
12.s2、服务端与客户端建立连接,采用联邦学习模型,将预训练好的模型下发到各个客户端;
13.s3、客户端对模型进行主动学习,每一轮的学习主要分为两个阶段:
14.第一阶段:选择有效的数据,首先对采集的数据进行处理,得到处理后的数据,然后采用模型对两者分别预测,跟据两者预测结果一致性,计算得分,选择得分高的进入第二阶段,得分低的会在本地保留,并征询用户意见是否上传数据,若用户同意上传,则将数据上传至服务端,由服务端对数据进行人工标注之后对模型训练;
15.第二阶段:计算已标记数据池和第一阶段选择的数据池的互信息,选择可降低已标记数据池数据不平衡性的数据,之后将选择好的数据加入已标记数据池,并对模型进行增强训练;
16.s4、在客户端将训练好的模型进行同态加密,之后上传到服务端;
17.s5、服务端接收到的模型进行参数聚合,聚合成功后分析模型效果,同时分析客户端的参数数据,检测恶意攻击行为,之后将模型再次下发;
18.s6、重复步骤s3-s5,直到模型精度达到预期效果。
19.进一步地,步骤s3中数据处理包括平移、旋转、反转和加噪。
20.进一步地,步骤s4中同态加密的具体算法为:将客户端的数据进行同态加密,之后上传至服务端,在与服务端的数据进行交互计算之后,回传给客户端,客户端解密后使用。
21.进一步地,步骤s4使用模型压缩算法上传。
22.与现有技术相比,本发明的有益效果为:
23.本发明提供的基于联邦化主动学习的目标检测方法,利用主动学习解决数据标注量大的问题,利用联邦学习解决数据隐私性问题,本发法不局限于某种特定的场景,具有一定的通用性,且将极大减轻部署和移植的工作量,降低应用的门槛,安全稳定、效率高,为其它深度学习算法解决数据标注和隐私性问题提供了参考。
附图说明
24.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
25.图1为本发明实施例提供的现有目标检测算法的常规流程。
26.图2为本发明实施例提供的基于联邦化主动学习的目标检测方法的流程图。
具体实施方式
27.为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图和实施例对本发明作进一步的详细介绍。
28.本发明的基于联邦化主动学习的目标检测方法,核心思想是,首先收集公开数据,对模型进行预训练,采用联邦学习模型,将预训练的模型下发到客户端,在本地进行训练,并使用同态加密保护隐私计算。在此过程中,数据标注是最为关键的问题,本方案使用主动学习模型,自动标注,总体流程如图2所示,
29.主动学习的整体思想是通过机器学习算法,对图像数据进行筛选,对于难于分类的样本数据交由人工审核标注,对于易于分类的样本数据,自主进行强化训练。该方法可以在保证模型精度的情况下大量减少人工参与。
30.联邦学习保证了数据只留存在客户端,服务端首先训练初始模型,然后将其下发到参与联邦训练的客户端,客户端使用本地数据进行训练,将训练好的参数加密后上传到服务端,服务端对来自各个客户端的模型聚合后再次下发,直到模型达到预期效果为止。
31.该方法基于主动学习与联邦学习,具体的算法流程如下:
32.1.采集公开数据对目标检测模型进行预训练。
33.2.服务端与客户端建立连接,并将预训练好的模型下发到各个客户端。
34.3.客户端对模型进行主动学习,每一轮的学习主要分为两个阶段:
35.a)第一阶段选择有效的数据(能正确识别的数据),首先对采集的数据进行平移、旋转、反转、加噪处理,得到处理后的数据,然后采用模型对二者分别预测(使用目标检测模型分别对处理前和处理后的图片预测,具体过程就是将图片作为模型的输入,模型输出即为预测结果),跟据两者预测结果一致性,计算得分,选择得分高的进入下一阶段,得分低的会在本地保留,并在合适的时机(需要针对不同的场景来确定,例如自动驾驶场景中可在司机非行驶状态下征询)征询用户意见,若用户同意上传,则将数据上传至服务端,由服务端对数据进行人工标注之后对模型训练。
36.b)第二段计算已标记数据池和上一阶段选择的数据池的互信息,选择可降低已标记数据池数据不平衡性的数据,之后将选择好的数据加入已标记数据池,并对模型进行增强训练。因为此阶段服务端与客户端之间需进行交互计算,为了避免泄露数据隐私,计算过程采用同态加密,具体算法为:将客户端的数据进行同态加密,之后上传至服务端,在与服务端的数据进行交互计算之后,回传给客户端,客户端解密后使用。
37.4.在客户端将训练好的模型进行同态加密,之后上传到服务端。考虑到资源消耗,需要使用模型压缩等算法降低通信数据量。
38.5.服务端接收到的模型进行参数聚合,聚合成功后分析模型效果,同时分析客户端的参数数据,检测恶意攻击等行为,之后将模型再次下发。
39.6.重复步骤3-5,直到模型精度达到预期效果。
40.本发明的方法,基于主动学习,对图像数据进行筛选,选择合适数据进行自动标注,减少人工参与。基于联邦学习,在客户端本地进行训练,不上传用户数据,同时采用同态加密保护隐私计算过程。
41.以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,但这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献