一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于生成对抗网络的数据过滤方法、系统、设备和介质与流程

2022-07-22 21:45:29 来源:中国专利 TAG:

技术特征:
1.一种基于生成对抗网络的数据过滤方法,其特征在于,所述方法包括以下步骤:获取命名实体数据;将所述命名实体数据输入生成对抗网络中预先训练好的生成器生成预设数量的合成数据;其中,所述预设数量的合成数据的数量大于所述命名实体数据的数量,且所述生成对抗网络模型包括判别器;将所述预设数量的合成数据和所述命名实体数据分别输入所述判别器进行编码,并对编码后的数据进行分类,得到分类结果;若判断分类结果为负类的合成数据时,过滤掉该负类的合成数据,得到过滤后的合成数据。2.根据权利要求1所述方法,其特征在于,在所述判别器包括预训练语言模型和分类器的情况下,将所述预设数量的合成数据和所述命名实体数据分别输入所述判别器进行编码,并对编码后的数据进行分类,得到分类结果包括:将所述预设数量的合成数据和所述命名实体数据分别输入所述预训练语言模型进行编码,得到编码后的数据;将所述编码后的数据输入分类器,得到分类结果。3.根据权利要求2所述方法,其特征在于,所述预训练语言模型为bert模型。4.根据权利要求2所述方法,其特征在于,在所述分类器为前馈神经网络的情况下,所述判别器的训练过程包括:将所述预设数量的合成数据和所述命名实体数据合并,将合并后数据作为判别器的训练数据;将所述训练数据输入所述预训练语言模型进行编码,得到编码后的数据;将所述编码后的数据输入前馈神经网络,得到分类结果,若判断分类结果为负类的合成数据时,过滤掉该负类的合成数据,得到过滤后的合成数据;基于所述前馈神经网络的最后一层网络的softmax函数计算所述分类结果的概率误差;在所述概率误差最小时,得到训练好的判别器。5.根据权利要求4所述方法,其特征在于,在将所述预设数量的合成数据和所述命名实体数据合并之前,所述方法还包括:将所述预设数量的合成数据标记为负类,且将所述命名实体数据标记为正类。6.根据权利要求4所述方法,其特征在于,所述判别器的训练过程还包括:将所述判别器接入端对端训练过程当中。7.根据权利要求1所述方法,其特征在于,在所述生成对抗网络中预先训练好的生成器为深度循环神经网络的情况下,将所述命名实体数据输入生成对抗网络中预先训练好的生成器生成预设数量的合成数据包括:将所述命名实体数据输入所述深度循环神经网络生成所述预设数量的合成数据。8.一种基于生成对抗网络的数据过滤系统,其特征在于,所述系统包括:获取模块,用于获取命名实体数据;生成模块,用于将所述命名实体数据输入生成对抗网络中预先训练好的生成器生成预设数量的合成数据;其中,所述预设数量的合成数据的数量大于所述命名实体数据的数量;
编码模块,用于在所述生成对抗网络模型包括判别器的情况下,将所述预设数量的合成数据和所述命名实体数据分别输入所述判别器进行编码;分类模块,用于对编码后的数据进行分类,得到分类结果;过滤模块,用于若判断分类结果为负类的合成数据时,过滤掉该负类的合成数据,得到过滤后的合成数据。9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7中任一项所述的基于生成对抗网络的数据过滤方法。10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项所述的基于生成对抗网络的数据过滤方法。

技术总结
本申请涉及一种基于生成对抗网络的数据过滤方法、系统、电子设备和存储介质,该方法包括获取命名实体数据,将命名实体数据输入生成对抗网络中预先训练好的生成器生成预设数量的合成数据,在生成对抗网络模型包括判别器的情况下,将预设数量的合成数据和命名实体数据分别输入判别器进行编码,并对编码后的数据进行分类,得到分类结果,若判断分类结果为负类的合成数据时,过滤掉该负类的合成数据,得到过滤后的合成数据,本申请解决了相关合成大量数据中存在大量脏数据,导致模型性能遭到破坏的问题,不仅提高了模型的增强效果,给下游模型的训练提高了良好的训练数据,而且还提高了合成数据的整体质量。合成数据的整体质量。合成数据的整体质量。


技术研发人员:王磊
受保护的技术使用者:浙江百应科技有限公司
技术研发日:2022.03.16
技术公布日:2022/7/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献