一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据生成模型的训练方法及装置与流程

2022-06-08 09:22:49 来源:中国专利 TAG:


1.本技术涉及互联网技术,尤其涉及一种数据生成模型的训练方法及装置。


背景技术:

2.恶意数据由于具有变体多、干扰性强、强语义对抗等特点,在对恶意数据进行语义识别时,语义信息容易被对抗扰动摧毁,容易损失恶意数据的数据特征,因此,在对恶意数据进行数据增强的过程中,由于容易损失恶意数据的数据特征,若直接对恶意数据进行相似词替换、或者文字翻译等方式进行数据增强,则可能会对原句的含义造成影响,从而影响到对恶意数据的识别效果。


技术实现要素:

3.本技术实施例提供一种数据生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够生成丰富的对抗文本数据,从而提高相应数据识别模型的识别效果,有效提升对抗文本数据的识别率。
4.本技术实施例的技术方案是这样实现的:
5.本技术实施例提供一种数据生成模型的训练方法,包括:
6.获取多条目标对抗文本数据,并对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;
7.针对每个所述数据簇,从所述数据簇中选取至少一个数据对,每个所述数据对包括两条所述目标对抗文本数据,并
8.将所述数据对作为所述数据生成模型的训练数据样本;
9.以所述训练数据样本中一条数据作为源数据、另一条数据作为标准数据,训练所述数据生成模型,使得训练得到的所述数据生成模型能够基于待处理的目标对抗文本数据,生成对抗文本数据。
10.本技术实施例提供一种数据生成模型的训练装置,包括:。
11.获取模块,用于获取多条目标对抗文本数据,并对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;
12.选取模块,用于针对每个所述数据簇,从所述数据簇中选取至少一个数据对,每个所述数据对包括两条所述目标对抗文本数据,并将所述数据对作为所述数据生成模型的训练数据样本;
13.训练模块,用于以所述训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型,以得到训练后的数据生成模型,所述训练后的所述数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。
14.在上述方案中,所述获取模块,还用于分别对所述多条目标对抗文本数据中各文本数据进行分词处理,得到对应各文本数据的分词结果;基于所述分词结果,确定任意两条
所述目标对抗文本数据之间的词汇交集与词汇并集;获取任意两条所述目标对抗文本数据的词汇交集与词汇并集的比值,并将所述比值确定为相应两条所述目标对抗文本数据之间的相似度;基于确定的所述相似度,对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇。
15.在上述方案中,所述选取模块,还用于从所述数据簇包括的至少两条所述目标对抗文本数据中,随机选取两条目标对抗文本数据,并将随机选取得到的两条所述目标对抗文本数据组成一个所述数据对;重复上述操作,直至选取目标数量的所述数据对或所述数据簇为空。
16.在上述方案中,所述选取模块,还用于获取所述数据簇中所包括文本数据的公共文本数据,作为所述数据簇的聚类种子;从所述数据簇包括的至少两条所述目标对抗文本数据中,选取至少一条目标对抗文本数据;分别将所述聚类种子与选取的目标对抗文本数据中的一条目标对抗文本数据组成所述数据对,以得到至少一个所述数据对。
17.在上述方案中,所述装置还包括识别模块,所述识别模块用于对所述训练数据样本进行语义识别,得到所述训练数据样本的语义识别结果;当所述语义识别结果表征所述训练数据样本中包括不可识别字符时,基于预先设定的映射关系,将所述不可识别字符映射为可识别字符,以得到新训练数据样本;所述训练模块,还用于以所述新训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型。
18.在上述方案中,所述识别模块还用于,对所述不可识别字符进行检测,以确定所述不可识别字符的位置和类型;基于所述不可识别字符的类型,获取与所述类型对应的不可识别字符映射关系,并基于所述不可识别字符的位置,确定所述不可识别字符的位置特征;基于所述映射关系以及所述位置特征,将所述训练数据样本中所述不可识别字符映射为可识别字符,以得到新训练数据样本。
19.在上述方案中,所述数据生成模型包括编码层以及解码层,所述训练模块还用于,通过所述编码层,对所述训练数据样本中的所述源数据、以及所述标准数据分别进行编码,得到对应所述源数据的第一编码特征、以及对应所述标准数据的第二编码特征;通过所述解码层,基于所述第一编码特征以及所述第二编码特征,对所述第一编码特征进行解码,得到对应所述源数据的对抗文本数据;获取所述对抗文本数据与所述标准数据的差异,并基于所述差异更新所述数据生成模型的模型参数。
20.在上述方案中,所述训练模块还用于,通过所述编码层,对所述训练数据样本中的所述源数据、以及所述标准数据分别进行编码,得到对应所述源数据的字符特征、位置特征与分句特征,以及对应所述标准数据的字符特征、位置特征与分句特征;其中,所述分句特征用于区分所述源数据以及所述标准数据;将对应所述源数据的字符特征、位置特征与分句特征进行融合,得到对应所述源数据的第一编码特征;将对应所述标准数据的字符特征、位置特征与分句特征进行融合,得到对应所述标准数据的第二编码特征。
21.在上述方案中,所述装置还包括加密模块,所述加密模块用于,对所述第二编码特征中目标数量的特征进行加密,得到对应所述第二编码数据的加密编码特征;所述训练模块还用于,通过所述解码层,基于所述第一编码特征以及所述加密编码特征,对所述第一编码特征进行解码,得到对应所述源数据的对抗文本数据;获取与所述第二编码特征中加密
的特征对应的、所述对抗文本数据中的目标子数据,并获取与所述第二编码特征中所述加密的特征对应的、所述标准数据中的标准子数据;将所述目标子数据与所述标准子数据进行比对,得到所述目标子数据与所述标准子数据的差异,并基于所述差异更新所述数据生成模型的模型参数。
22.在上述方案中,所述装置还包括扰动模块,所述扰动模块用于,对所述训练数据样本进行数据扰动,得到对应所述训练数据样本的扰动训练样本;所述训练模块还用于,以所述扰动训练样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型。
23.在上述方案中,所述装置还包括应用模块,所述应用模块用于获取训练完成的所述数据生成模型、以及原始目标对抗文本数据;通过所述数据生成模型,基于所述原始目标对抗文本数据,生成对应所述原始目标对抗文本数据的对抗文本数据。
24.在上述方案中,所述应用模块还用于,通过所述数据生成模型,对所述原始目标对抗文本数据进行数据扰动,得到至少两条扰动文本数据;基于所述至少两条扰动文本数据,生成对应所述原始目标对抗文本数据的至少两条对抗文本数据。
25.本技术实施例提供一种电子设备,包括:
26.存储器,用于存储可执行指令;
27.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的数据生成模型的训练方法。
28.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的数据生成模型的训练方法。
29.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本技术实施例提供的数据生成模型的训练方法。
30.本技术实施例具有以下有益效果:
31.通过对目标对抗文本数据进行聚类处理的方式,构建目标对抗文本数据的数据对作为训练数据样本,以通过训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据来训练数据生成模型,从而通过训练得到的数据生成模型基于目标对抗文本数据,生成对抗文本数据。如此,通过生成的对抗文本数据,提高相应数据识别模型的识别效果,从而有效提升对抗文本数据的识别率。
附图说明
32.图1是本技术实施例提供的数据生成模型的训练系统100的架构示意图;
33.图2是本技术实施例提供的电子设备的结构示意图;
34.图3是本技术实施例提供的数据生成模型的训练方法的流程示意图;
35.图4是本技术实施例提供的两条数据之间的词汇交集和词汇并集的示意图;
36.图5是本技术实施例提供的对训练数据样本进行语义识别得到新训练数据样本的流程示意图;
37.图6是本技术实施例提供的将不可识别字符映射为可识别字符的流程示意图;
38.图7是本技术实施例提供的数据生成模型的训练过程的流程示意图;
39.图8是本技术实施例提供的数据生成模型的结构示意图;
40.图9是本技术实施例提供的数据生成模型的结构示意图;
41.图10是本技术实施例提供的数据生成模型的训练过程的流程示意图;
42.图11是本技术实施例提供的数据生成模型的结构示意图;
43.图12是本技术实施例提供的数据生成模型的训练过程的流程示意图;
44.图13是本技术实施例提供的对抗文本数据的生成过程的流程示意图;
45.图14是本技术实施例提供的对抗文本数据的生成过程的流程示意图。
具体实施方式
46.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
47.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
48.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。在以下的描述中,所涉及的术语“多个”是指至少两个。
49.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
50.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
51.1)恶意数据,指以互联网为媒介,以网络技术为主要手段,为计算机信息系统安全和网络空间管理秩序,带来潜在威胁(重大安全隐患)的非法数据。
52.2)seq2seq模型(sequence to sequence),一种序列到序列模型,指将一个序列作为输入映射后获得另一个序列的模型。
53.3)bert模型(bidirectional encoder representations from transformer),一种自然语言处理的预训练技术,用于利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示,然后将文本的语义表示在特定自然语言处理任务中作微调,最终应用于该自然语言处理任务。
54.4)bertonlymlmhead模型,一种调用预测值的方法,用于在基于掩码的方式训练语言模型时,返回预测值。
55.5)对抗文本数据,一种非法文本数据,该非法文本数据可存在于互联网页面中,对抗文本数据是不允许在当前页面显示的文本数据,即对抗文本数据的内容不符合当前场景条件,即与当前场景存在对抗性、干扰性。其中,当前场景条件可以包括相关法律规定、平台规定、页面规定等一种或多种,在此不做限定。故对抗文本数据也是一种恶意数据。示例性
地,当文本数据所处的页面场景为弹幕场景(如针对视频的弹幕场景)时,由于在该页面场景下规定弹幕中只允许观看者发表自身的观点、进行内容评述或内容交流,而不能出现广告内容,因此,当该弹幕场景中存在携带广告的弹幕时,则视为该弹幕为非法文本数据,即是目标对抗文本数据;再例如,当文本数据所处的页面场景为评论场景(如针对新闻、文章的评论场景)时,由于在该页面场景下规定评论中仅用于发表自身的观点、内容评述或内容交流,而不能出现恶意评论如侮辱性评论,因此,当在该评论场景中出现包括侮辱性的评论时,则视为该评论为非法文本数据,即是对抗文本数据。又例如,部分平台规定要求文本数据具备语义完整性,当文本数据的语义信息被破坏,不具备语义完整性的文本数据的可读性较差,甚至如果包括特殊字符、表情或其他难以识别的文本时,还会影响用户视觉体验,前述这类文本数据,也可被确定为一种对抗文本数据。
56.6)目标对抗文本数据,一种语义不具有连续性,即语义完整性遭到破坏的对抗文本数据。例如,目前一些恶意广告,是通过插入各类特殊字符、表情,或使用同音字、形近字替换等文本变异的手段破坏文本语义信息,用以对抗广告识别模型的识别,具有较强的对抗性,使得这类恶意数据难以被识别。在本技术实施例中,目标对抗文本数据包括这类文本语义信息被破坏的文本数据。在一些实施例中,目标对抗文本数据是一种对抗性较强的对抗文本数据。
57.在本技术实施例的实施过程中,申请人发现相关技术存在以下问题:
58.由于各类社交平台中的评论和弹幕等区域是能触达用户、曝光宣传恶意信息最快捷、成本最低的渠道,基本每时每刻都有大量的自动机和恶意账号发送海量的恶意文本到各平台的评论弹幕等区域骚扰用户,如此大量的恶意数据,采用全面人工审核的方式基本是不可能完成的任务。然而,如果基于恶意数据识别模型进行审核,则会由于恶意数据通过插入各类特殊字符,表情,或使用同音字,形近字替换等文本变异的手段破坏文本语义信息,从而影响恶意数据识别模型的识别,即恶意数据由于变体多,对抗性强,所以很难对相应恶意数据进行增强,从而影响到恶意数据的识别效果,使得恶意数据的识别成为业内难题。
59.相关技术中对于恶意数据的增强主要通过三种方法,方法1:基于词汇替换的数据增强方法,主要包括基于词典和词向量的替换,这类方法通常会从文本中随机选择一部分词汇,在字典中或预训练好的词向量中找到该词汇对应的同义词进行替换;方法2:反向翻译的数据增强方法,首先选择一种中间语言,将文本翻译为中间语言再翻译回原语言,如中间语言为英语,则将文本翻译为英语,再将该英文文本翻译回中文,通常情况下翻译后的文本与原始文本语义相近但也存在差异,可以实现数据增强的目的,或者也可以选择多门中间语言来添加更多的噪声,从而实现数据增强;方法3:文本纠错的方法,主要分为基于seq2seq模型以及基于bert模型的方法,通过对文本中的干扰部分进行纠错,还原成正常文本的形式,同样可以达到数据增强的目的。
60.然而,对于方案1,在对文本进行替换时,通常情况下为随机选择需要替换的词汇,选择不当便可能会影响原句的含义;对于方案2,在对文字进行翻译时,比较依赖翻译算法的效果,很容易出现错误传递,同样导致对原句的含义造成影响;对于方案3,由于恶意数据具有变体多、干扰性强、强语义对抗等特点,而相应的纠错模型通常依赖于语义上下文信息,且中文每个字都含有独立语义,因此语义信息容易被对抗扰动摧毁,这使得恶意数据在
通过纠错模型后易损失数据特征,从而影响到对数据的识别效果。
61.基于此,本实施例提供一种数据生成模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,通过自动学习目标对抗文本数据的特征,生成具有相似特征的对抗文本数据,能够提高相应数据识别模型的识别效果,从而有效提升对抗文本数据的识别率。
62.参见图1,图1是本技术实施例提供的数据生成模型的训练系统100的架构示意图,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。终端400和服务器200通过有线或者无线网络相互连接。
63.其中,终端400,用于发送多条目标对抗文本数据至服务器200;
64.服务器200,用于接收终端400发送的多条目标对抗文本数据;并对多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;针对每个数据簇,从数据簇中选取至少一个数据对,每个数据对包括两条目标对抗文本数据,并将数据对作为数据生成模型的训练数据样本;以训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型,以得到训练后的数据生成模型,所述训练后的数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。
65.在一些实施例中,终端400还可以设置数据生成客户端400-1,客户端400-1发送对抗文本数据的获取请求给服务器200,然后服务器200获取待处理的目标对抗文本数据并通过数据生成模型,基于待处理的目标对抗文本数据,生成对抗文本数据;最后将生成的对抗文本数据发送至客户端400-1。
66.在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn,content deliver network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒、智能语音交互设备、智能家电、车载终端、飞行器、以及移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能音箱及智能手表)等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限制。
67.参见图2,图2是本技术实施例提供的电子设备的结构示意图,在实际应用中,电子设备可以为图1示出的服务器200或终端400,参见图2,图2所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
68.处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
69.用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包
括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
70.存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
71.存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器450旨在包括任意适合类型的存储器。
72.在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
73.操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
74.网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
75.呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
76.输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
77.在一些实施例中,本技术实施例提供的数据生成模型的训练装置可以采用软件方式实现,图2示出了存储在存储器450中的数据生成模型的训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、选取模块4552以及训练模块4553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
78.在另一些实施例中,本技术实施例提供的数据生成模型的训练装置可以采用硬件方式实现,作为示例,本技术实施例提供的数据生成模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本技术实施例提供的数据生成模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。
79.在一些实施例中,终端或服务器可以通过运行计算机程序来实现本技术实施例提供的数据生成模型的训练方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(native)应用程序(app,application),即需要在操作系统中安装才能运行的程序,如即时通信app、网页浏览器app;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意app中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
80.基于上述对本技术实施例提供的数据生成模型的训练系统及电子设备的说明,下
面说明本技术实施例提供的数据生成模型的训练方法。在实际实施时,本技术实施例提供的数据生成模型的训练方法可以由终端或服务器单独实现,或者由终端及服务器协同实现,以由图1中的服务器200单独执行本技术实施例提供的数据生成模型的训练方法为例进行说明。参见图3,图3是本技术实施例提供的数据生成模型的训练方法的流程示意图,将结合图3示出的步骤进行说明。
81.步骤101,服务器获取多条目标对抗文本数据,并对多条目标对抗文本数据进行聚类处理,得到至少一个数据簇。
82.需要说明的是,由于相关技术中用于识别对抗文本数据的数据识别模型的识别率较低,因此,对抗文本数据可以包括数据识别模型可识别的对抗文本数据、以及数据识别模型不可识别的对抗文本数据,而这里的目标对抗文本数据即是数据识别模型不可识别的对抗文本数据。
83.在一些实施例中,服务器可以从目标对抗文本数据库中获取多条目标对抗文本数据,其中,目标对抗文本数据库用于存储目标对抗文本数据。
84.在另一些实施例中,服务器也可以通过数据识别模型来获取多条目标对抗文本数据。
85.接下来,对通过数据识别模型来获取多条目标对抗文本数据的过程进行说明。
86.在一种实施方式中,可以通过数据识别模型,将待识别的对抗文本数据与预设的对抗文本数据进行匹配,当匹配结果表征待识别的对抗文本数据与预设的对抗文本数据的相似度达到预先设定的相似度阈值时,确定待识别的对抗文本数据即是可识别的对抗文本数据;当匹配结果表征待识别的对抗文本数据与预设的对抗文本数据的相似度未达到预先设定的相似度阈值时,确定待识别的对抗文本数据即是不可识别的对抗文本数据。需要说明的是,预设的对抗文本数据为语义具有连续性、即语义完整性未遭到破坏的对抗文本数据,这里,当与预设的对抗文本数据的相似度未达到预先设定的相似度阈值时,确定待识别的对抗文本数据语义不具备完整性、即语义完整性遭到破坏,因此,确定待识别的对抗文本数据为目标对抗文本数据。
87.在另一种实施方式中,数据识别模型还可通过识别数据的语义来识别对抗文本数据,例如,当一个待处理文本数据的语义识别结果满足当前场景条件时,可将该待处理文本数据确定为非对抗文本数据;当一个待处理文本数据的语义识别结果不满足当前场景条件时,可将该待处理文本数据确定为对抗文本数据,当无法识别出一个待处理文本数据的语义或无法获得可信的语义识别结果(例如无法获得置信度超过置信度阈值的语义识别结果)时,可将该待处理文本数据确定为目标对抗文本数据。
88.如此,在获取了目标对抗文本数据后,采用目标对抗文本数据构建训练样本以生成丰富的对抗文本数据,可在实际应用中对数据识别模型进一步进行训练,提高数据识别模型对对抗文本数据的识别率。
89.在实际实施时,在获取了多条目标对抗文本数据后,分别对多条目标对抗文本数据进行分词处理,得到对应各文本数据的分词结果;基于各分词结果,确定各目标对抗文本数据之间的相似度,基于确定的相似度,对多条目标对抗文本数据进行聚类处理,得到至少一个数据簇。其中,基于各分词结果,确定各目标对抗文本数据之间的相似度的过程具体包括基于分词结果,确定任意两条目标对抗文本数据之间的词汇交集与词汇并集;获取任意
两条目标对抗文本数据的词汇交集与词汇并集的比值,并将比值确定为相应两条目标对抗文本数据之间的相似度。
90.作为示例,对基于各分词结果,确定各文本数据之间的相似度的过程进行说明,首先获取两条目标对抗文本数据如“需要片的可以找9kk4”以及“想要片的可以找4ss6”,然后对这两条目标对抗文本数据进行分词处理,得到相应的分词结果
“‘
需’,

要’,

片,

的’,

可’,

以’,

找’,
‘9’


k’,

k’,
‘4’”
以及
“‘
想’,

要’,

片,

的’,

可’,

以’,

找’,
‘4’


s’,

s’,
‘6’”
,然后基于分词结果,确定这两条目标对抗文本数据之间的词汇交集和词汇并集,参见图4,图4是本技术实施例提供的两条目标对抗文本数据之间的词汇交集和词汇并集的示意图,基于图4,获取两条目标对抗文本数据的词汇交集与词汇并集的比值0.467,即7/(7 4 4),并将比值确定为相应两条目标对抗文本数据之间的相似度。
91.步骤102,针对每个数据簇,从数据簇中选取至少一个数据对,每个数据对包括两条目标对抗文本数据,并将数据对作为数据生成模型的训练数据样本。
92.在实际实施时,在得到对应多条目标对抗文本数据的至少一个数据簇后,从数据簇中选取至少一个数据对,这里,从数据簇中选取至少一个数据对具体包括两种方式,而具体选取过程可以采取两种方式中的至少之一,接下来,对从数据簇中选取至少一个数据对的两种方式进行说明。
93.在一些实施例中,从数据簇包括的至少两条目标对抗文本数据中,随机选取两条目标对抗文本数据,并将随机选取得到的两条目标对抗文本数据组成一个数据对;重复上述操作,直至选取目标数量的数据对或数据簇为空。
94.需要说明的是,由于同一数据簇中目标对抗文本数据具有相似的数据分布特征,因此随机两两组合来选取数据对,以将数据对作为数据生成模型的训练数据样本。
95.在一些实施例中,获取数据簇中所包括文本数据的公共文本数据,作为数据簇的聚类种子;从数据簇包括的至少两条目标对抗文本数据中,选取至少一条目标对抗文本数据;分别将聚类种子与选取的目标对抗文本数据中的一条目标对抗文本数据组成数据对,以得到至少一个数据对。
96.需要说明的是,获取数据簇中所包括文本数据的公共文本数据,即数据簇的聚类种子的方式可以是通过最长公共子序列,或者其它公共文本数据提取方式,来获取数据簇中所包括文本数据的公共文本数据。
97.在一些实施例中,在将数据对作为数据生成模型的训练数据样本之后,还可以对训练数据样本进行语义识别,得到新训练数据样本,参见图5,图5是本技术实施例提供的对训练数据样本进行语义识别得到新训练数据样本的流程示意图,基于图3,步骤102之后,还可以执行:
98.步骤201,服务器对训练数据样本进行语义识别,得到训练数据样本的语义识别结果。
99.步骤202,当语义识别结果表征训练数据样本中包括不可识别字符时,基于预先设定的映射关系,将不可识别字符映射为可识别字符,以得到新训练数据样本。
100.在实际实施时,当语义识别结果表征训练数据样本中包括不可识别字符时,通过对不可识别字符进行检测,得到检测结果,基于检测结果、以及预先设定的映射关系,将不可识别字符映射为可识别字符,以得到新训练数据样本,参见图6,图6是本技术实施例提供
的将不可识别字符映射为可识别字符的流程示意图,基于图5,步骤202可以通过如下方式实现:
101.步骤2021,对不可识别字符进行检测,以确定不可识别字符的位置和类型。
102.在实际实施时,首先对不可识别字符进行检测,得到检测结果,然后基于检测结果,确定不可识别字符的位置和类型。这里,不可识别字符的位置指的是不可识别字符在训练数据样本中的具体位置,不可识别字符的类型至少包括生僻字、特殊数字符号以及表情符号如emoji表情等。
103.步骤2022,基于不可识别字符的类型,获取与类型对应的不可识别字符映射关系,并基于不可识别字符的位置,确定不可识别字符的位置特征。
104.在实际实施时,在确定了不可识别字符的类型后,基于预先构造的相应不可识别字符字典,获取与不可识别字符的类型对应的不可识别字符映射关系,示例性地,当不可识别字符的类型为特殊数字符号时,基于预先构造的特殊字符字典,获取对应的不可识别字符映射关系;当不可识别字符为表情符号时,基于预先构造的表情符号字典,获取对应的不可识别字符映射关系。
105.在实际实施时,在确定了不可识别字符的位置后,基于不可识别字符出现的位置,确定不可识别字符的位置特征。
106.步骤2023,基于映射关系以及位置特征,将训练数据样本中不可识别字符映射为可识别字符,以得到新训练数据样本。
107.在实际实施时,在确定不可识别字符对应的映射关系以及位置特征后,基于映射关系以及位置特征,将训练数据样本中不可识别字符映射为可识别字符,示例性地,当不可识别字符为



时,确定不可识别字符的类型为特殊数字符号,然后基于预先构造的特殊字符字典,获取对应的不可识别字符映射关系,即



与普通字符9之间的映射关系;当不可识别字符为竖大拇指的表情符号时,确定不可识别字符的类型为表情符号,然后基于预先构造的表情符号字典,获取对应的不可识别字符映射关系,即竖大拇指的表情符号与编码“u'\u0001f44d':':thumbs_up:”之间的映射关系;然后基于不可识别字符的位置特征,在不可识别字符映射后的前后添加标识字符,从而将训练数据样本中不可识别字符映射为可识别字符,以得到新训练数据样本。
108.如此,基于映射关系以及位置特征,将训练数据样本中不可识别字符映射为可识别字符,不仅提高了相应数据识别模型的识别率,同时记录了不可识别字符的位置,从而避免了由于映射过程导致的目标对抗文本数据的部分特征的丢失,使得相应数据识别模型不仅可以通过语义特征进行识别,还可以通过不可识别字符的出现的位置以及频率去识别,从而进一步提高了相应数据识别模型的识别率。
109.需要说明的是,由于恶意数据的检测场景每天需要千万次的调用,数据量高达数十亿级,为了缩减不可识别字符的检测时间,因此,只有当语义识别结果表征训练数据样本中包括不可识别字符时,才会对不可识别字符进行相应检测,从而将不可识别字符映射为可识别字符,以得到新训练数据样本,并以新训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型;而当语义识别结果表征训练数据样本中不包括不可识别字符时,直接以训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型。如此,缩减了不
可识别字符的检测时间,提高了数据生成模型的训练效率以及数据生成效率。
110.步骤103,以训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型,以得到训练后的数据生成模型,训练后的数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。
111.参见图7,图7是本技术实施例提供的数据生成模型的训练过程的流程示意图,需要说明的是,数据生成模型包括编码层以及解码层,参见图8,图8是本技术实施例提供的数据生成模型的结构示意图,基于图7和图8,以训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型的过程可以通过如下方式执行:
112.步骤1031,通过编码层,对训练数据样本中的源数据、以及标准数据分别进行编码,得到对应源数据的第一编码特征、以及对应标准数据的第二编码特征。
113.在实际实施时,首先将训练数据样本中的源数据以及标准数据构造为[sos]源数据[eos]标准数据[sos]的输入,然后参见图9,图9是本技术实施例提供的数据生成模型的结构示意图,基于图9,通过编码层,对训练数据样本中的源数据、以及标准数据分别进行编码,得到对应源数据的第一编码特征、以及对应标准数据的第二编码特征的过程具体包括,通过编码层,对训练数据样本中的源数据、以及标准数据分别进行编码,得到对应源数据的字符特征、位置特征与分句特征,以及对应标准数据的字符特征、位置特征与分句特征;其中,分句特征用于区分源数据以及标准数据;将对应源数据的字符特征、位置特征与分句特征进行融合,得到对应源数据的第一编码特征;将对应标准数据的字符特征、位置特征与分句特征进行融合,得到对应标准数据的第二编码特征。
[0114]
步骤1032,通过解码层,基于第一编码特征以及第二编码特征,对第一编码特征进行解码,得到对应源数据的对抗文本数据。
[0115]
步骤1033,获取对抗文本数据与标准数据的差异,并基于差异更新数据生成模型的模型参数。
[0116]
在实际实施时,在得到对应源数据的对抗文本数据后,将对抗文本数据与标准数据进行比对,获取对抗文本数据与标准数据的差异,并基于差异更新数据生成模型的模型参数。
[0117]
在一些实施例中,在得到第一编码特征和第二编码特征后,参见图10,图10是本技术实施例提供的数据生成模型的训练过程的流程示意图,基于图7,步骤1031之后,还可以执行:
[0118]
步骤301,服务器对第二编码特征中目标数量的特征进行加密,得到对应第二编码数据的加密编码特征。
[0119]
在实际实施时,服务器随机对标准数据的目标数量的特征进行加密,示例性地,这里的加密方式可以是随机掩盖目标数量的特征,对于对目标数量的特征进行加密的方式,本技术实施例对此不做限定。
[0120]
步骤302,通过解码层,基于第一编码特征以及加密编码特征,对第一编码特征进行解码,得到对应源数据的对抗文本数据。
[0121]
参见图11,图11是本技术实施例提供的数据生成模型的结构示意图,基于图11,通过解码层,基于第一编码特征以及加密编码特征中加密的特征左边的编码特征,对第一编
码特征进行解码,得到对应源数据的对抗文本数据。
[0122]
步骤303,获取与第二编码特征中加密的特征对应的、对抗文本数据中的目标子数据,并获取与第二编码特征中加密的特征对应的、标准数据中的标准子数据。
[0123]
步骤304,将目标子数据与标准子数据进行比对,得到目标子数据与标准子数据的差异,并基于差异更新数据生成模型的模型参数。
[0124]
需要说明的是,在对数据生成模型进行训练的过程中,还可以对标准数据段的结束标识进行加密,以此期望模型可以学习到自动结束数据生成。
[0125]
在一些实施例中,在将数据对作为数据生成模型的训练数据样本之后,参见图12,图12是本技术实施例提供的数据生成模型的训练过程的流程示意图,基于图3,步骤103之后,还可以执行:
[0126]
步骤401,服务器对训练数据样本进行数据扰动,得到对应训练数据样本的扰动训练样本。
[0127]
在实际实施时,对训练数据样本进行数据扰动,得到对应训练数据样本的扰动训练样本的方式具体包括两种,接下来,对训练数据样本进行数据扰动,得到对应训练数据样本的扰动训练样本的两种方式进行说明。
[0128]
在一些实施例中,首先获取扰动参数,然后将扰动参数与训练数据样本中的特征进行结合,得到对应训练数据样本的扰动训练样本。需要说明的是,这里的结合方式可以是相加,或者将扰动参数作为特征系数等,对此,本技术实施例不做限制。
[0129]
在一些实施例中,首先获取训练数据样本的总特征,然后基于总特征,随机筛选目标数量的目标特征;基于目标特征,确定与目标特征对应的目标训练样本作为对应训练数据样本的扰动训练样本。
[0130]
步骤402,以扰动训练样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练数据生成模型。
[0131]
如此,通过扰动训练样本对数据生成模型进行训练,避免模型过于依赖某些局部特征,使得模型既不会过拟合,也不过差异太大,泛化性更强,从而得到更多的目标对抗文本数据。
[0132]
在一些实施例中,在对完成对数据生成模型的训练之后,还会基于得到的训练完成的数据生成模型,生成目标对抗文本数据,参见图13,图13是本技术实施例提供的目标对抗文本数据的生成过程的流程示意图,基于图3,在步骤103之后,还可以执行:
[0133]
步骤501,服务器获取训练完成的数据生成模型、以及原始目标对抗文本数据。
[0134]
在实际实施时,服务器获取的原始目标对抗文本数据可以是从视频播放过程中的弹幕中的原始目标对抗文本数据,还可以是视频或者文章等媒体信息的评论中的原始目标对抗文本数据等。
[0135]
步骤502,通过数据生成模型,基于原始目标对抗文本数据,生成对应原始目标对抗文本数据的对抗文本数据。
[0136]
在实际实施时,通过数据生成模型,基于原始目标对抗文本数据,生成对应原始目标对抗文本数据的对抗文本数据的过程具体包括,通过数据生成模型,对原始目标对抗文本数据进行数据扰动,得到至少两条扰动文本数据;基于至少两条扰动文本数据,生成对应原始目标对抗文本数据的至少两条对抗文本数据。
[0137]
作为示例,参见图14,图14是本技术实施例提供的对抗文本数据的生成过程的流程示意图,基于图14,通过数据生成模型,基于原始目标对抗文本数据,生成对应原始目标对抗文本数据的对抗文本数据具体可以通过步骤601至步骤606实现,具体地,通过数据生成模型,对原始目标对抗文本数据进行预处理,得到中间目标对抗文本数据,然后对所述中间目标对抗文本数据进行数据扰动,得到至少两条扰动数据,然后基于至少两条扰动数据,生成对应原始目标对抗文本数据的至少两条对抗文本数据。
[0138]
在实际实施时,在基于数据生成模型得到对抗文本数据之后,将对抗文本数据添加至存储对抗文本数据的数据库中,从而在对待识别文本数据进行识别时,确定待识别文本数据与数据库中对抗文本数据的相似度,当相似度达到预设的相似度阈值时,确定待识别文本数据为对抗文本数据。
[0139]
需要说明的是,除了基于训练得到的数据生成模型生成丰富的对抗文本数据外,还可以基于本技术上述数据生成模型的训练方法,通过生成器与判别器之间的对抗,生成更加丰富的黑产广告数据资源。
[0140]
应用本技术上述实施例,通过对目标对抗文本数据进行聚类处理的方式,构建目标对抗文本数据的数据对作为训练数据样本,以通过训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据来训练数据生成模型,从而通过训练得到的数据生成模型基于目标对抗文本数据,生成对抗文本数据。如此,通过生成的对抗文本数据,提高相应数据识别模型的识别效果,从而有效提升对抗文本数据的识别率。
[0141]
下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。
[0142]
由于各类社交平台如视频播放软件、新闻客户端以及阅读网站等中的评论和弹幕等区域是能触达用户、曝光宣传恶意信息最快捷、成本最低的渠道,基本每时每刻都有大量的自动机和恶意账号发送海量的恶意文本到各平台的评论弹幕等区域骚扰用户,如此大量的恶意数据,采用全面人工审核的方式基本是不可能完成的任务。然而,如果基于对抗恶意数据识别模型进行审核,则会由于恶意数据通过插入各类特殊字符,表情,或使用同音字,形近字替换等文本变异的手段破坏文本语义信息,从而影响对抗恶意数据识别模型的识别,即恶意数据由于变体多,对抗性强,所以很难对相应恶意数据进行增强,从而影响到恶意数据的识别效果,使得恶意数据的识别成为业内难题。
[0143]
相关技术中对于恶意数据的增强主要通过三种方法,方法1:基于词汇替换的数据增强方法,主要包括基于词典和词向量的替换,这类方法通常会从文本中随机选择一部分词汇,在字典中或预训练好的词向量中找到该词汇对应的同义词进行替换;方法2:反向翻译的数据增强方法,首先选择一种中间语言,将文本翻译为中间语言再翻译回原语言,如中间语言为英语,则将文本翻译为英语,再将该英文文本翻译回中文,通常情况下翻译后的文本与原始文本语义相近但也存在差异,可以实现数据增强的目的,或者也可以选择多门中间语言来添加更多的噪声,从而实现数据增强;方法3:文本纠错的方法,主要分为基于seq2seq模型以及基于bert模型的方法,通过对文本中的干扰部分进行纠错,还原成正常文本的形式,同样可以达到数据增强的目的。
[0144]
然而,对于方案1,在对文本进行替换时,通常情况下为随机选择需要替换的词汇,选择不当便可能会影响原句的含义;对于方案2,在对文字进行翻译时,比较依赖翻译算法的效果,很容易出现错误传递,同样导致对原句的含义造成影响;对于方案3,由于恶意数据
具有变体多、干扰性强、强语义对抗等特点,而相应的纠错模型通常依赖于语义上下文信息,且中文每个字都含有独立语义,因此语义信息容易被对抗扰动摧毁,这使得恶意数据在通过纠错模型后易损失数据特征,从而影响到对数据的识别效果。
[0145]
基于此,我们通过深入调研相似恶意数据,系统总结了目前恶意数据演进方向,提出一种半监督的恶意对抗数据模拟生成方法,该方法可以通过自动学习现有的恶意广告数据特征,生成具有相似特征的文本数据,以达到模拟恶意广告升级对抗的过程。在业务上我们可以利用生成的恶意广告数据提高恶意广告识别模型的泛化性,提升恶意广告识别准确率,对相应平台中存在的恶意行为进行精准打击,维护各平台的社区环境,保证用户体验。
[0146]
在本技术实施例中,充分考虑到恶意数据存在的利用特殊符号干扰,强语义对抗的特点,来进行数据增强工作,具体地,首先通过对文本进行预处理,将其中强对抗的特殊字符,表情符号映射为模型可识别的字符;其次,对文本进行分词处理,基于分词结果的jaccard相似度的方法来进行短文本聚类,并进一步通过聚类的结果为模型构造两类训练数据,具体地,将现有的恶意数据进行聚类,对每个聚类簇之间的恶意数据构造《恶意广告数据1,恶意广告数据2》的数据对,并通过最长公共子序列的方式获取每个类别的聚类种子,构造《聚类种子,恶意广告数据》数据对,来作为训练数据样本来训练深度自然语言生成模型(数据生成模型),需要说明的是,这里的聚类种子为该类中最本质的数据特征;最后在模型的数据生成阶段引入样本扰动策略,从而实现自动生成大量具有相似对抗特性的恶意数据,最终达到模拟恶意广告的升级对抗的目的。
[0147]
对于上述对文本进行预处理,将其中强对抗的特殊字符(不可识别字符),如特殊数字字符,表情符号,映射为模型可识别的字符的过程,需要说明的是,根据恶意广告的文本内容,主要将其分为两种类型:数字字母类型的符号广告即文本中明确给出数字字母类型的广告,以及语义广告即主要是通过文本的语义内容吸引用户,从而进行恶意推广的广告。其中数字字母广告类型给数据识别提出了较大的挑战,这里,恶意数据为了躲避,对抗识别模型的识别和打击,经常会使用各类特殊字符等替换正常文本,此类特殊字符包括但不限于生僻字,特殊数字符号,表情符号等。因此,在本技术实施例中,首先会对文本进行预处理,目的是将这些特殊字符映射为模型可识别的,表达意思相近的字符。具体处理如下:对于特殊数字字符,通过构造特殊字符字典,将单个字长的特殊字符,如



等均映射为模型可识别的字符9;而对于表情符号,通过构造对应的表情符号字典,将表情符号映射为相应的编码;最后标识特殊数字字符及表情符号出现位置,这里,为了保留恶意广告数据的特征,区分出原始恶意数据与映射后的正常文本之间的差异,我们在这些特殊字符映射后的前后添加“@#”字符,以便为模型记录文本中出现特殊字符的位置,从而避免了由于映射过程导致的原始恶意数据的部分特征的丢失,使得模型不仅可以通过语义特征进行识别恶意广告数据,还可以通过不可识别字符的出现的位置以及频率去识别恶意广告数据。
[0148]
需要说明的是,需要说明的是,由于恶意广告数据的检测场景每天需要千万次的调用,数据量高达数十亿级,为了缩减特殊字符的检测时间,因此,仅在文本中出现模型无法识别的字符时,才进行表情符号和特殊数字字符的检测。
[0149]
如此,针对目前恶意广告数据的强对抗性,即采用在文字中加入各种各样的包括特殊字符在内的混淆字符干扰识别模型的识别,本技术实施例通过对文本数据进行预处理,极大概率解决了这类问题对识别模型带来的影响。
[0150]
在实际实施时,在对文本进行预处理后,通过将得到的数据对《恶意广告数据1,恶意广告数据2》以及《聚类种子,恶意广告数据》,构造为[sos]源数据[eos]标准数据[sos]的输入,如[sos]恶意广告数据1[eos]恶意广告数据2[sos]以及[sos]聚类种子[eos]恶意广告数据[sos]的输入,然后获取对应的字符特征、位置特征以及分句特征,并将对应源数据的字符特征、位置特征与分句特征进行融合,得到对应源数据的编码特征(第一编码特征);将对应标准数据的字符特征、位置特征与分句特征进行融合,得到对应标准数据的编码特征(第二编码特征),从而基于两个编码特征进行相应数据的生成。具体地,采用seq2seq的结构,首先随机掩盖标准数据中15%的特征并利用源数据中的所有特征加标准数据中该词左边的特征标识学习被掩盖的词。其中被掩盖的数据80%的概率用掩盖词替代,10%的概率随机选择词替代,10%的概率保留真实词。需要说明的是,标准数据端的结束标识[sos]也可以被掩盖掉,以此期望模型可以学习到自动结束数据生成。
[0151]
需要说明的是,在基于两个编码特征进行相应数据的生成后,汇总被掩盖位置的输出,经过bertonlymlmhead模型获取被掩盖位置的预测数据,最终模型的优化目标为基于上下文最大化被掩盖的标准数据的似然度。
[0152]
在实际实施时,由于目前各平台线上采用实时人工标注的方式,通常情况下线上反馈模型漏放的恶意数据量比较少,原始模型对一条输入数据只能生成固定的输出,生成的数量十分有限,迭代后可能无法使模型得到有效的提升。针对这个情况,本技术实施例引入样本扰动的方式,要求给输入加上扰动之后,新的输出分布与原输出的分布一致,如此便可使得同一条源数据生成多条内容不同但特征相近的目标数据。需要说明的是,扰动策略可选择性很多,例如随机dropout方法,每次随机将一定比例的embedding置为0。
[0153]
在实际实施时,除了线上反馈回的标注数据之外,我们还重点挑选识别模型的识别概率低于0.5的文本数据作为源数据。如此,解决了由于这类数据识别概率较低,即使模型现在可以成功识别这些数据,但是很容易通过简单的变换就升级为可对抗广告识别模型的恶意数据的问题。
[0154]
本技术实施例针对恶意数据升级快,常用的恶意识别策略通常采用实时抽样,实时人工标注方式,来感知恶意数据的突发变异对抗,并进一步利用反馈回的数据进行模型迭代。但由于人力的限制,通常反馈回的数据较少,耗时也较长的问题,通过自动学习升级后恶意数据的特征,并生成大量特征分布相似的,可称之为对抗升级后的恶意数据,以此快速迭代模型,缩短研发时间,减少感知黑产升级到打击生效这期间黑产的漏过总量。
[0155]
同时,针对恶意广告攻击的多样性,由于各业务存在数据分布特征以及广告判别标准的不同,恶意产业团伙会有意识的针对不同场景采取不同的干扰方法来生成对抗文本。本社区通过利用不同的业务线的反馈回的数据,自动生成具有对应业务线特征的增强数据,并进一步针对具体业务线不断迭代恶意广告识别模型,从而协调模型的召回率以及识别有效率共同提升。
[0156]
如此,通过数据增强的方式补充恶意数据的训练样本,提高相应恶意数据识别模型效果。通过打击恶意引流的恶意广告,提升高质量评论的曝光量,吸引用户的关注度,进而提升相应产品的整体评论和弹幕区的互动率。
[0157]
应用本技术上述实施例,通过对目标对抗文本数据进行聚类处理的方式,构建目标对抗文本数据的数据对作为训练数据样本,以通过训练数据样本中一条目标对抗文本数
据作为源数据、另一条目标对抗文本数据作为标准数据来训练数据生成模型,从而通过训练得到的数据生成模型基于目标对抗文本数据,生成对抗文本数据。如此,通过生成的对抗文本数据,提高相应数据识别模型的识别效果,从而有效提升对抗文本数据的识别率。
[0158]
下面继续说明本技术实施例提供的数据生成模型的训练装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器440的数据生成模型的训练装置455中的软件模块可以包括:
[0159]
获取模块4551,用于获取多条目标对抗文本数据,并对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇;
[0160]
选取模块4552,用于针对每个所述数据簇,从所述数据簇中选取至少一个数据对,每个所述数据对包括两条所述目标对抗文本数据,并将所述数据对作为所述数据生成模型的训练数据样本;
[0161]
训练模块4553,用于以所述训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型,以得到训练后的数据生成模型,所述训练后的所述数据生成模型用于基于待处理的目标对抗文本数据,生成对抗文本数据。
[0162]
在一些实施例中,所述获取模块4551,还用于分别对所述多条目标对抗文本数据中各文本数据进行分词处理,得到对应各文本数据的分词结果;基于所述分词结果,确定任意两条所述目标对抗文本数据之间的词汇交集与词汇并集;获取任意两条所述目标对抗文本数据的词汇交集与词汇并集的比值,并将所述比值确定为相应两条所述目标对抗文本数据之间的相似度;基于确定的所述相似度,对所述多条目标对抗文本数据进行聚类处理,得到至少一个数据簇。
[0163]
在一些实施例中,所述选取模块4552,从所述数据簇包括的至少两条所述目标对抗文本数据中,随机选取两条目标对抗文本数据,并将随机选取得到的两条所述目标对抗文本数据组成一个所述数据对;重复上述操作,直至选取目标数量的所述数据对或所述数据簇为空。
[0164]
在一些实施例中,所述选取模块4552,还用于获取所述数据簇中所包括文本数据的公共文本数据,作为所述数据簇的聚类种子;从所述数据簇包括的至少两条所述目标对抗文本数据中,选取至少一条目标对抗文本数据;分别将所述聚类种子与选取的目标对抗文本数据中的一条目标对抗文本数据组成所述数据对,以得到至少一个所述数据对。
[0165]
在一些实施例中,所述装置还包括识别模块,所述识别模块用于对所述训练数据样本进行语义识别,得到所述训练数据样本的语义识别结果;当所述语义识别结果表征所述训练数据样本中包括不可识别字符时,基于预先设定的映射关系,将所述不可识别字符映射为可识别字符,以得到新训练数据样本;所述训练模块4553,还用于以所述新训练数据样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型。
[0166]
在一些实施例中,所述识别模块还用于,对所述不可识别字符进行检测,以确定所述不可识别字符的位置和类型;基于所述不可识别字符的类型,获取与所述类型对应的不可识别字符映射关系,并基于所述不可识别字符的位置,确定所述不可识别字符的位置特征;基于所述映射关系以及所述位置特征,将所述训练数据样本中所述不可识别字符映射
为可识别字符,以得到新训练数据样本。
[0167]
在一些实施例中,所述数据生成模型包括编码层以及解码层,所述训练模块4553还用于,通过所述编码层,对所述训练数据样本中的所述源数据、以及所述标准数据分别进行编码,得到对应所述源数据的第一编码特征、以及对应所述标准数据的第二编码特征;通过所述解码层,基于所述第一编码特征以及所述第二编码特征,对所述第一编码特征进行解码,得到对应所述源数据的对抗文本数据;获取所述对抗文本数据与所述标准数据的差异,并基于所述差异更新所述数据生成模型的模型参数。
[0168]
在一些实施例中,所述训练模块4553还用于,通过所述编码层,对所述训练数据样本中的所述源数据、以及所述标准数据分别进行编码,得到对应所述源数据的字符特征、位置特征与分句特征,以及对应所述标准数据的字符特征、位置特征与分句特征;其中,所述分句特征用于区分所述源数据以及所述标准数据;将对应所述源数据的字符特征、位置特征与分句特征进行融合,得到对应所述源数据的第一编码特征;将对应所述标准数据的字符特征、位置特征与分句特征进行融合,得到对应所述标准数据的第二编码特征。
[0169]
在一些实施例中,所述装置还包括加密模块,所述加密模块用于,对所述第二编码特征中目标数量的特征进行加密,得到对应所述第二编码数据的加密编码特征;所述训练模块4553还用于,通过所述解码层,基于所述第一编码特征以及所述加密编码特征,对所述第一编码特征进行解码,得到对应所述源数据的对抗文本数据;获取与所述第二编码特征中加密的特征对应的、所述对抗文本数据中的目标子数据,并获取与所述第二编码特征中所述加密的特征对应的、所述标准数据中的标准子数据;将所述目标子数据与所述标准子数据进行比对,得到所述目标子数据与所述标准子数据的差异,并基于所述差异更新所述数据生成模型的模型参数。
[0170]
在一些实施例中,所述装置还包括扰动模块,所述扰动模块用于,对所述训练数据样本进行数据扰动,得到对应所述训练数据样本的扰动训练样本;所述训练模块4553还用于,以所述扰动训练样本中一条目标对抗文本数据作为源数据、另一条目标对抗文本数据作为标准数据,训练所述数据生成模型。
[0171]
在一些实施例中,所述装置还包括应用模块,所述应用模块用于获取训练完成的所述数据生成模型、以及原始目标对抗文本数据;通过所述数据生成模型,基于所述原始目标对抗文本数据,生成对应所述原始目标对抗文本数据的对抗文本数据。
[0172]
在一些实施例中,所述应用模块还用于,通过所述数据生成模型,对所述原始目标对抗文本数据进行数据扰动,得到至少两条扰动文本数据;基于所述至少两条扰动文本数据,生成对应所述原始目标对抗文本数据的至少两条对抗文本数据。
[0173]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的数据生成模型的训练方法。
[0174]
本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的数据生成模型的训练方法,例如,如图3示出的数据生成模型的训练方法。
[0175]
在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪
存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
[0176]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0177]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
[0178]
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0179]
综上所述,通过本技术实施例具有以下有益效果:
[0180]
(1)通过自动学习目标对抗文本数据的特征,生成具有相似特征的对抗文本数据,能够提高相应数据识别模型的识别效果,从而有效提升对抗文本数据的识别率。
[0181]
(2)基于映射关系以及位置特征,将训练数据样本中不可识别字符映射为可识别字符,不仅提高了相应数据识别模型的识别率,同时记录了不可识别字符的位置,从而避免了由于映射过程导致的目标对抗文本数据的部分特征的丢失,使得相应数据识别模型不仅可以通过语义特征进行识别,还可以通过不可识别字符的出现的位置以及频率去识别,从而进一步提高了相应数据识别模型的识别率。
[0182]
(3)当语义识别结果表征训练数据样本中包括不可识别字符时,才会对不可识别字符进行相应检测,从而将不可识别字符映射为可识别字符,以得到新训练数据样本对数据生成模型进行训练;而当语义识别结果表征训练数据样本中不包括不可识别字符时,直接以训练数据样本训练数据生成模型。如此,缩减了不可识别字符的检测时间,提高了数据生成模型的训练效率以及数据生成效率。
[0183]
(4)通过扰动训练样本对数据生成模型进行训练,避免模型过于依赖某些局部特征,使得模型既不会过拟合,也不过差异太大,泛化性更强,从而得到更多的对抗文本数据。
[0184]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献