一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种针对中文文本分类任务的字符级对抗样本生成方法

2022-06-05 08:45:32 来源:中国专利 TAG:

技术特征:
1.一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于包含以下步骤:a)数据获取及存储:从众多网络评论中获取原始数据,并进行存储。b)多音字字典构建:根据所述原始数据,构建多音字字典。所述多音字字典表示为同时包含字符和读音之间关系的字典,用四元组(w,x,y,i)描述。其中,w是多音字的中文表示,x是w的拼音表述,y是w的具体含义,i表示w的第i个读音,i∈[1,7]。c)多音字字典标注:根据所述多音字字典格式,进行标注,确定所述多音字字典中每个字的四元组(w,x,y,i)具体值。d)对抗样本生成:将所述原始样本作为输入,利用构建的所述多音字字典中的数据,在所述原始数据中进行全局匹配,找到w相同的字,进行替换操作,得到与原文字形相同但字音不同的对抗样本。2.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:在步骤a),所述原始数据包括结构化数据和非结构化数据。3.根据权利要求1所述的一种针对中文文本分类任务的字符级对抗样本生成方法,其特征在于:将所述对抗样本输入至目标判别模型,得到所述目标判别模型输出的所述样本的判断类别;根据所述判断类别,得到当前判断与所述原始数据类别之间的差异,得到扰动值,并将所述扰动返回至所述对抗样本生成过程。其中,所述目标判断类别与所述原始类别为不同。

技术总结
本发明提供一种对抗样本生成方法,涉及人工智能领域,尤其涉及自然语言处理领域,具体来说是一种针对中文文本分类任务的字符级对抗样本生成方法。具体实现方法为:获取用于生成对抗样本的原始数据,进行多音字字典的构建;对所述多音字字典中的数据进行标注;对所述原始数据进行利用所述多音字字典标注的数据进行多音字替换,得到对抗样本。本发明可以生成高质量的对抗样本。生成高质量的对抗样本。生成高质量的对抗样本。


技术研发人员:张顺香 吴厚月
受保护的技术使用者:安徽理工大学
技术研发日:2022.03.08
技术公布日:2022/6/4
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献