一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

样本处理方法、装置、电子设备、存储介质及程序产品与流程

2022-11-16 16:01:56 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,尤其涉及一种样本处理方法、装置、电子设备、存储介质及程序产品。


背景技术:

2.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
3.在相关技术中,对于训练样本的修正,通常是简单化的利用人为制定的筛选规则,将错误的训练样本进行剔除,由于所制定的筛选规则低效且不完备,导致所确定的目标样本所携带标签的准确率较低。


技术实现要素:

4.本技术实施例提供一种样本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高目标样本所携带标签的准确率。
5.本技术实施例的技术方案是这样实现的:
6.本技术实施例提供一种样本处理方法,包括:
7.获取用于训练分类模型的待处理样本和分类模型队列,所述分类模型队列包括模型复杂度由小至大依次排列的多个分类模型;
8.基于所述分类模型队列,依次调用各所述分类模型,对所述待处理样本迭代进行类别预测,得到各所述分类模型对应的类别预测结果;
9.针对各所述分类模型,当基于所述类别预测结果及相应的输入样本的标签,确定标签修正条件得到满足时,对所述输入样本的标签进行修正,得到标签修正后的目标样本;
10.其中,所述分类模型队列包括第一分类模型和第二分类模型,所述第二分类模型的输入样本为所述第一分类模型对应的目标样本,所述第二分类模型处于所述第一分类模型的下一位置。
11.本技术实施例提供一种样本处理装置,包括:
12.获取模块,用于获取用于训练分类模型的待处理样本和分类模型队列,所述分类模型队列包括模型复杂度由小至大依次排列的多个分类模型;
13.类别预测模块,用于基于所述分类模型队列,依次调用各所述分类模型,对所述待处理样本迭代进行类别预测,得到各所述分类模型对应的类别预测结果;
14.修正模块,用于针对各所述分类模型,当基于所述类别预测结果及相应的输入样本的标签,确定标签修正条件得到满足时,对所述输入样本的标签进行修正,得到标签修正后的目标样本;其中,所述分类模型队列包括第一分类模型和第二分类模型,所述第二分类
模型的输入样本为所述第一分类模型对应的目标样本,所述第二分类模型处于所述第一分类模型的下一位置。
15.在一些实施例中,上述类别预测模块,还用于将所述待处理样本作为所述分类模型队列中第一分类模型的输入样本,调用所述第一分类模型,对所述第一分类模型的输入样本进行类别预测,得到所述第一分类模型对应的类别预测结果;调用所述分类模型队列中的第i分类模型,对所述第i分类模型的输入样本进行类别预测,得到所述第i分类模型对应的类别预测结果;其中,1≤i≤n,n表征所述分类模型队列中所述分类模型的数量,所述第i分类模型的输入样本为第i-1分类模型对应的目标样本,所述第一分类模型为所述分类模型队列中所述模型复杂度最小的分类模型。
16.在一些实施例中,上述样本处理装置,还包括:训练模块,用于获取所述第i-1分类模型对应的目标样本;将所述第i-1分类模型对应的目标样本作为训练样本,对待训练第i分类模型进行训练,得到所述第i分类模型。
17.在一些实施例中,上述获取模块,还用于获取经过预训练得到的多个所述分类模型;依据模型参数数量及模型结构中至少之一,确定各所述分类模型的模型复杂度;依据所述模型复杂度对所述多个所述分类模型进行排序,得到所述分类模型队列。
18.在一些实施例中,上述样本处理装置,还包括:标签修正条件模块,用于获取目标概率和标签概率的差值;其中,所述标签概率为,所述输入样本的标签所指示的类别对应的概率;所述目标概率为,所述类别预测结果所指示的所述类别对应的概率;将所述差值和修正阈值进行比较,得到比较结果,并当所述比较结果表征所述差值大于或等于所述修正阈值时,确定所述标签修正条件得到满足。
19.在一些实施例中,上述样本处理装置,还包括:确定模块,用于当所述比较结果表征所述差值小于所述修正阈值时,确定所述标签修正条件不满足,将所述输入样本确定为相应所述分类模型的目标样本。
20.在一些实施例中,上述修正模块,还用于获取所述类别预测结果所指示的所述输入样本归属的类别;将所述输入样本携带的标签,替换为所述类别对应的类别标签,得到所述标签修正后的目标样本。
21.在一些实施例中,所述分类模型为用于进行文本分类的文本分类模型,所述文本分类模型包括向量化层、特征提取层和分类层;上述类别预测模块,还用于调用所述第i分类模型的向量化层,对所述第i分类模型的输入样本进行向量化处理,得到所述输入样本对应的样本向量;调用所述第i分类模型的特征提取层,对所述样本向量进行语义特征提取,得到所述输入样本的语义特征;调用所述第i分类模型的分类层,基于所述语义特征对所述输入样本进行文本分类预测,得到文本分类结果作为所述第i分类模型对应的类别预测结果。
22.在一些实施例中,所述第i分类模型的模型复杂度与第i-1分类模型的模型复杂度满足以下条件至少之一:所述第i分类模型的所述特征提取层的数量,大于所述第i-1分类模型的所述特征提取层的数量;所述第i分类模型的所述特征提取层对应的特征提取维度的数量,大于所述第i-1分类模型的所述特征提取层对应的特征提取维度的数量。
23.在一些实施例中,所述分类模型为用于进行图像分类的图像分类模型,所述图像分类模型包括特征提取层、池化层和分类层;上述类别预测模块,还用于调用所述第i分类
模型的特征提取层,对所述第i分类模型的输入样本进行空间特征提取,得到所述输入样本的空间特征;调用所述第i分类模型的池化层,对所述空间特征进行下采样,得到下采样结果;调用所述第i分类模型的分类层,基于所述下采样结果对所述输入样本进行图像分类预测,得到所述第i分类模型的输入样本对应各类别的概率;将所述各类别的概率中的最大概率值对应的类别,确定为所述第i分类模型对应的类别预测结果。
24.在一些实施例中,上述样本处理装置,还包括:目标分类模型确定模块,用于获取所述分类模型队列中所述模型复杂度最大的分类模型对应的目标样本;将所述模型复杂度最大的分类模型对应的目标样本,作为训练样本,对所述多个分类模型中的至少一个进行训练,得到目标分类模型。
25.本技术实施例提供一种电子设备,包括:
26.存储器,用于存储可执行指令;
27.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的样本处理方法。
28.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的样本处理方法。
29.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的样本处理方法。
30.本技术实施例具有以下有益效果:
31.通过依次调用分类模型队列中模型复杂度由小至大排列的多个分类模型,对待处理样本迭代进行类别预测,得到各分类模型对应的类别预测结果。并针对各分类模型,基于该分类模型的类别预测结果确定满足标签修正条件时,对输入样本的标签进行修正,得到标签修正后的目标样本,由于处于第一分类模型下一位置的第二分类模型的输入样本,为第一分类模型对应的目标样本,且第一分类模型的模型复杂度低于第二分类模型的模型复杂度,从而通过分类模型队列中模型复杂度由小至大依次排列的多个分类模型,逐个判断是否满足标签修正条件,模型复杂度最大的分类模型对应的目标样本,是对待处理样本所携带的标签进行逐步修正而得到的,从而有效提高了目标样本所携带标签的准确率。
附图说明
32.图1是本技术实施例提供的样本处理系统架构的结构示意图;
33.图2是本技术实施例提供的样本处理装置的结构示意图;
34.图3a至图3d是本技术实施例提供的样本处理方法的流程示意图;
35.图4a至图4c是本技术实施例提供的样本处理方法的原理示意图。
具体实施方式
36.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
37.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
38.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
39.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
40.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
41.1)人工智能(artificial intelligence,ai):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大样本处理技术、操作/交互系统、机电一体化等技术。
42.2)卷积神经网络(cnn,convolutional neural networks):是一类包含卷积计算且具有深度结构的前馈神经网络(fnn,feed forward neural networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入图像进行平移不变分类(shift-invariant classification)。
43.3)自然语言处理(nature language processing,nlp):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
44.4)模型复杂度:是用于衡量机器学习模型的复杂程度的参数,模型复杂度与模型容量正相关,模型容量与模型参数量和模型结构复杂程度正相关,模型参数量是指模型中的所有参数所占内存空间的大小,模型结构复杂程度表征模型结构中各功能层的数量和连接关系的复杂程度。当模型结构复杂程度相同时,模型参数量越大,模型复杂度越大;当模型参数量相同时,模型结构复杂程度越高,模型复杂度越大。
45.在本技术实施例的实施过程中,申请人发现相关技术存在以下问题:
46.在相关技术中,缺失值填补会给存在缺失的样本填充一个值,来保证输入的完整性,通常该值是一个默认值或平均值。例如在自然语言处理中,词表中不存在的词会被替换为空值,或使用该词上下文的若干个向量取平均后作为该词的向量。其它清洗方式主要是规则的方式清洗,例如去除包含空值或非法值的数据,去除格式错误的数据,去除重复或不一致的数据等。
47.在相关技术中,依赖人工经验预先编码为规则,低效且不完备,在大数据面前难以全局发现错误规律;另一方面数据中包含大量噪音的情况下疲于发现,也难以纠正。
48.本技术实施例通过分类模型自动学习数据规律,无需人工制定规则,在训练中发现异常数据,纠正异常数据,提升数据质量,数据质量提升反哺模型训练达到更好的准确率,如此螺旋双向提升,在含大量噪音的训练数据中同时获得了高准确率的模型和数据。
49.本技术实施例提供一种样本处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够有效提高目标样本所携带标签的准确率,下面说明本技术实施例提供的样本处理的电子设备的示例性应用,本技术实施例提供的设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时示例性应用。
50.参见图1,图1是本技术实施例提供的样本处理系统100的架构示意图,为实现实体识别的应用场景,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
51.终端400用于供用户使用客户端410,在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。
52.在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例中不做限制。
53.在一些实施例中,服务器200从终端400获取待处理样本和分类模型队列,并确定标签修正后的目标样本,将所确定的目标样本发送到终端400。
54.在另一些实施例中,终端400获取待处理样本和分类模型队列,并确定标签修正后的目标样本,将所确定的目标样本发送至服务器200。
55.在另一些实施例中,本技术实施例可以借助于云技术(cloud technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
56.云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。
57.参见图2,图2是本技术实施例提供的样本处理方法的服务器200的一种结构示意图,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
58.处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数
字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
59.存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
60.存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器250旨在包括任意适合类型的存储器。
61.在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
62.操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。
63.网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等。
64.在一些实施例中,本技术实施例提供的样本处理装置可以采用软件方式实现,图2示出了存储在存储器250中的样本处理装置255,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、类别预测模块2552、修正模块2553,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
65.在另一些实施例中,本技术实施例提供的样本处理装置可以采用硬件方式实现,作为示例,本技术实施例提供的样本处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本技术实施例提供的样本处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(asic,application specific integrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编程门阵列(fpga,field-programmable gate array)或其他电子元件。
66.将结合本技术实施例提供的服务器的示例性应用和实施,说明本技术实施例提供的样本处理方法。
67.参见图3a,图3a是本技术实施例提供的样本处理方法的流程示意图,将结合图3a示出的步骤101至步骤103进行说明,下述步骤101至步骤103的执行主体可以是前述的服务器或终端。
68.在步骤101中,获取用于训练分类模型的待处理样本和分类模型队列,分类模型队列包括模型复杂度由小至大依次排列的多个分类模型。
69.在一些实施例中,分类模型队列包括第一分类模型和第二分类模型,所述第二分类模型的输入样本为所述第一分类模型对应的目标样本,所述第二分类模型处于所述第一分类模型的下一位置。
70.在一些实施例中,分类模型是指用于进行图像或文本分类的机器学习模型,分类模型队列是指模型复杂度由小至大排列的多个分类模型的集合。模型复杂度是用于衡量机器学习模型复杂程度的参数,模型复杂度与模型容量正相关,模型容量与模型参数量和模型结构复杂程度正相关,模型参数量是指模型中的所有参数所占内存空间的大小,模型结构复杂程度表征模型结构中各功能层的数量和连接关系的复杂程度。当模型结构复杂程度相同时,模型参数量越大,模型复杂度越大;当模型参数量相同时,模型结构复杂程度越高,模型复杂度越大。
71.作为示例,用于进行图像分类的机器学习模型包括:数字识别模型(lenet模型),数字识别模型的模型参数量为60k、随机失活模型(alexnet模型),随机失活模型的模型参数量为60m,优化随机失活模型(vggnet模型),优化随机失活模型是将随机失活模型中的大滤波器的卷积层替换为多个小滤波器的卷积层。其中,数字识别模型的模型复杂度低于随机失活模型,随机失活模型的复杂度低于优化随机失活模型。
72.在一些实施例中,上述步骤101中获取分类模型队列可以通过如下方式实现:获取经过预训练得到的多个分类模型;依据模型参数数量及模型结构中至少之一,确定各分类模型的模型复杂度;依据模型复杂度对多个分类模型进行排序,得到分类模型队列。
73.在一些实施例中,上述依据模型参数数量及模型结构中至少之一,确定各分类模型的模型复杂度可以通过如下方式实现:获取各分类模型的模型参数数量,按照模型参数数量由小至大的顺序,对各分类模型进行顺序标记,确定各分类模型的模型复杂度。
74.作为示例,获取各分类模型的模型参数数量,例如,分类模型1的模型参数数量为1000,分类模型2的模型参数数量为500、分类模型3的模型参数数量为300。按照模型参数数量由小至大的顺序,将分类模型3标记为顺序1、将分类模型2标记为顺序2、分类模型1标记为顺序3。将分类模型1的模型复杂度确定为3,将分类模型2的模型复杂度确定为2,将分类模型1的模型复杂度确定为1。
75.在一些实施例中,上述依据模型参数数量及模型结构中至少之一,确定各分类模型的模型复杂度可以通过如下方式实现:获取各分类模型的模型结构复杂度,按照模型结构复杂度由小至大的顺序,对各分类模型进行顺序标记,确定各分类模型的模型复杂度。
76.作为示例,获取各分类模型的模型结构复杂度,例如,分类模型1的模型结构复杂度为1000,分类模型2的模型结构复杂度为500、分类模型3的模型结构复杂度为300。按照模型结构复杂度由小至大的顺序,将分类模型3标记为顺序1、将分类模型2标记为顺序2、分类模型1标记为顺序3。将分类模型1的模型复杂度确定为3,将分类模型2的模型复杂度确定为2,将分类模型1的模型复杂度确定为1。
77.如此,通过获取模型复杂度由小至大依次排列的多个分类模型,便于后续通过模型复杂度由小至大依次排列的多个分类模型,对待处理样本进行净化,得到可信度更高的样本,以对分类模型进行训练。
78.在步骤102中,基于分类模型队列,依次调用各分类模型,对待处理样本迭代进行类别预测,得到各分类模型对应的类别预测结果。
79.在一些实施例中,分类模型用于对图像或文本进行类别预测,得到图像或文本对应的类别。
80.作为示例,图像的类别可以为风景图像、人物图像、物体图像等,不同的分类标准,
图像的类别各不相同。
81.在一些实施例中,参见图3b,图3b是本技术实施例提供的样本处理方法的流程示意图,图3b所示出的步骤102可以通过执行以下步骤1021至步骤1022实现。
82.在步骤1021中,将待处理样本作为分类模型队列中第一分类模型的输入样本,调用第一分类模型,对第一分类模型的输入样本进行类别预测,得到第一分类模型对应的类别预测结果。
83.在一些实施例中,第一分类模型对应的类别预测结果表征第一分类模型的输入样本对应的类别,第一分类模型是分类模型队列中模型复杂度最小的分类模型。
84.作为示例,参见图4a,图4a是本技术实施例提供的样本处理方法的原理示意图。调用第一分类模型(图4a所示出的模型1),对第一分类模型(图4a所示出的模型1)的输入样本(图4a所示出的样本1)进行类别预测,得到第一分类模型(图4a所示出的模型1)对应的类别预测结果。
85.在步骤1022中,调用分类模型队列中的第i分类模型,对第i分类模型的输入样本进行类别预测,得到第i分类模型对应的类别预测结果。
86.在一些实施例中,1《i≤n,n表征分类模型队列中分类模型的数量,且n为大于或等于2的正整数,第i分类模型的输入样本为第i-1分类模型对应的目标样本,第一分类模型为分类模型队列中模型复杂度最小的分类模型。
87.在一些实施例中,第一分类模型是分类模型队列中模型复杂度最小的分类模型,第n分类模型是分类模型队列中模型复杂度最大的分类模型,第i分类模型的模型复杂度大于第i-1分类模型的模型复杂度。
88.作为示例,参见下表1,下表1是本技术实施例提供的分类模型的特性对比表。
89.表1本技术实施例提供的分类模型的特性对比表
90.模型类型模型复杂度噪声样本所需样本规模第1分类模型简单健壮小第2分类模型较简单较健壮较小第3分类模型较复杂较敏感较大第4分类模型复杂敏感大
91.作为示例,第2分类模型的模型复杂度大于第1分类模型的模型复杂度,第3分类模型的模型复杂度大于第2分类模型的模型复杂度。
92.作为示例,参见图4a,调用分类模型队列中的第2分类模型(图4a所示出的模型2),对第2分类模型的输入样本进行类别预测,得到第2分类模型对应的类别预测结果;调用分类模型队列中的第3分类模型(图4a所示出的模型3),对第3分类模型的输入样本进行类别预测,得到第3分类模型对应的类别预测结果。
93.如此,通过分类模型队列中的模型复杂度逐渐递增的多个分类模型,逐渐对输入样本中的噪声样本进行净化,由于模型复杂度较低的分类模型对噪声样本较为不敏感,但是所需样本的规模相对较小,模型复杂度较高的分类模型对噪声样本较为敏感,从而可以更加准确的对噪声样本进行净化。模型复杂度较低的分类模型更加健壮,能够发现并一小部分噪声数据,从而通过逐步加大模型复杂度,使得后续的分类模型能够更加准确的发现噪声样本,从而对噪声样本进行精准净化。
94.在一些实施例中,当分类模型为用于进行文本分类的文本分类模型时,即分类模型的输入样本为文本时,文本分类模型可以是逻辑回归模型(logistic regression)、文本卷积神经模型(textcnn),编解码网络(transformer)等,其中,逻辑回归模型的模型复杂度小于文本卷积神经模型,文本卷积神经模型的模型复杂度小于编解码网络。
95.作为示例,分类模型队列中的第一分类模型可以为逻辑回归模型,分类模型队列中的第2分类模型可以为文本卷积神经模型,分类模型队列中的第3分类模型可以为编解码网络。
96.在一些实施例中,逻辑回归模型是一种广义的线性回归分析模型,常用于数据挖掘,数据预测等领域。例如,区分文本是否与天气相关,选择两组文本,一组是与天气相关组,一组是与天气不相关组,两组必定具有不同的特征。因此,因变量就为是否与天气相关,值为“是”或“否”,自变量就可以包括很多,如热、冷、下雨、晴天等。自变量既可以是连续的,也可以是分类的。然后通过逻辑回归模型,可以得到自变量的权重。
97.在一些实施例中,文本卷积神经模型是用于对文本进行分类的卷积神经网络,文本卷积神经模型包括向量化层、特征提取层和分类层。
98.作为示例,参见图4c,图4c是本技术实施例提供的样本处理方法的原理示意图,图4c所示出的文本卷积神经模型的模型结构,文本卷积神经模型包括向量化层、卷积层、池化层和全连接层,其中,上述特征提取层可以通过卷积层实现,上述分类层可以通过池化层和全连接层实现。
99.在一些实施例中,分类模型队列中的各分类模型可以是同一类型的分类模型,且各分类模型之间的模型复杂度不同。或者,分类模型队列中的各分类模型可以是不同类型的分类模型,且各分类模型之间的模型复杂度不同。
100.作为示例,当分类模型队列中的各分类模型是不同类型的分类模型时,分类模型队列中的第一分类模型可以为逻辑回归模型,分类模型队列中的第2分类模型可以为文本卷积神经模型,分类模型队列中的第3分类模型可以为编解码网络。
101.作为示例,当分类模型队列中的各分类模型是相同类型的分类模型时,分类模型队列中的各分类模型均可以为文本卷积神经模型,且各文本卷积神经模型之间的模型复杂度不同。
102.如此,通过保证分类模型队列中的各分类模型按照模型复杂度递增的顺序排列,分类模型队列中的各分类模型可以是相同类型的分类模型,也可以是不同类型的分类模型,在保证分类模型队列的样本净化功能的前提下,有效保证了模型选取的随机性,有效提高了分类模型队列的普适性。
103.下面,以分类模型队列中的各文本分类模型均为文本卷积神经模型为例进行说明。
104.在一些实施例中,上述分类模型为用于进行文本分类的文本分类模型,文本分类模型包括向量化层、特征提取层和分类层;上述步骤1022可以通过如下方式实现:调用第i分类模型的向量化层,对第i分类模型的输入样本进行向量化处理,得到输入样本对应的样本向量;调用第i分类模型的特征提取层,对样本向量进行语义特征提取,得到输入样本的语义特征;调用第i分类模型的分类层,基于语义特征对输入样本进行文本分类预测,得到文本分类结果作为第i分类模型对应的类别预测结果。
105.在一些实施例中,上述第i分类模型的模型复杂度与第i-1分类模型的模型复杂度满足以下条件至少之一:第i分类模型的特征提取层的数量,大于第i-1分类模型的特征提取层的数量;第i分类模型的特征提取层对应的特征提取维度的数量,大于第i-1分类模型的特征提取层对应的特征提取维度的数量。
106.在一些实施例中,当特征提取层通过卷积层实现时,特征提取层对应的特征提取维度由卷积核的尺寸和卷积核的数量决定。当任意两个文本分类模型的特征提取层的卷积核的数量相同的情况下,卷积核的尺寸越大,对应的特征提取维度越大。当任意两个文本分类模型的特征提取层的卷积核的尺寸相同的情况下,特征提取层的卷积核的数量越大,对应的特征提取维度越大。
107.作为示例,3个尺寸为3
×
3的卷积核的特征提取维度,等于1个尺寸为7
×
7的卷积核的特征提取维度。
108.在一些实施例中,文本分类模型用于对待分类文本进行分类,得到待分类文本对应的类别。
109.作为示例,待分类文本对应的类别可以为:待分类文本是否与天气相关,例如,与天气相关类和与天气不相关类。
110.在一些实施例中,当分类模型为用于进行文本分类的文本分类模型时,文本分类模型的输入可以为文本样本。向量化层用于对输入文本进行向量化处理,得到输入文本的向量表示。特征提取层可以通过卷积层实现,特征提取层用于对输入文本的向量表示进行文本特征提取,得到输入文本的语义特征,其中,输入文本的语义特征表征输入文本的语言含义。分类层用于对输入文本进行分类,得到输入文本的类别。
111.在一些实施例中,上述调用第i分类模型的分类层,基于语义特征对输入样本进行文本分类预测,得到文本分类结果作为第i分类模型对应的类别预测结果可以通过以下方式实现:调用第i分类模型的分类层,基于语义特征对输入样本进行文本分类预测,得到输入样本对应各类别的概率值,将最大概率值对应的类别确定为文本分类结果,将文本分类结果作为第i分类模型对应的类别预测结果。
112.如此,在分类模型队列中的各分类模型是相同类型的分类模型,即,均是文本卷积神经模型时,通过保证各文本卷积神经模型之间的模型复杂度呈由小至大排列,从而保证了分类模型队列的样本净化功能,得到高质量的文本样本,便于后续通过高质量的文本样本对分类模型进行训练。
113.在一些实施例中,当分类模型为用于进行图像分类的图像分类模型时,即分类模型的输入样本为图像时,图像分类模型可以是图像卷积神经模型(lenet模型)、随机激活模型(alexnet模型),跨通道模型(googlenet模型)等,其中,图像卷积神经模型的模型复杂度小于随机激活模型的模型复杂度,随机激活模型的模型复杂度小于跨通道模型的模型复杂度。
114.作为示例,分类模型队列中的第一分类模型可以为图像卷积神经模型,分类模型队列中的第2分类模型可以为随机激活模型,分类模型队列中的第3分类模型可以为跨通道模型。
115.在一些实施例中,图像卷积神经模型的模型参数占用60k的内存容量,图像卷积神经模型包括卷积层、池化层和归一化层,其中卷积层用于提取图像的空间特征,池化层用于
对图像的空间特征进行下采样,归一化层采用分类器,分类器的输出为向量,向量中元素的个数等于总图像类别的个数,向量中元素的值为图像在各个分类上的概率,各个分类上的元素值的加和为1,元素值最大的类别即被认定为图像所属的类别。
116.在一些实施例中,分类模型队列中的各分类模型可以是同一类型的分类模型,且各分类模型之间的模型复杂度不同。或者,分类模型队列中的各分类模型可以是不同类型的分类模型,且各分类模型之间的模型复杂度不同。
117.作为示例,当分类模型队列中的各分类模型是不同类型的分类模型时,分类模型队列中的第一分类模型可以为图像卷积神经模型,分类模型队列中的第2分类模型可以为随机激活模型,分类模型队列中的第3分类模型可以为跨通道模型。
118.作为示例,当分类模型队列中的各分类模型是相同类型的分类模型时,分类模型队列中的各分类模型均可以为图像卷积神经模型,且各图像卷积神经模型之间的模型复杂度不同。
119.如此,通过保证分类模型队列中的各分类模型按照模型复杂度递增的顺序排列,分类模型队列中的各分类模型可以是相同类型的分类模型,也可以是不同类型的分类模型,在保证分类模型队列的样本净化功能的前提下,有效保证了模型选取的随机性,有效提高了分类模型队列的普适性。
120.下面,以分类模型队列中的各图像分类模型均为图像卷积神经模型为例进行说明。
121.在一些实施例中,分类模型为用于进行图像分类的图像分类模型,图像分类模型包括特征提取层、池化层和分类层;上述步骤1022可以通过如下方式实现:调用第i分类模型的特征提取层,对第i分类模型的输入样本进行空间特征提取,得到输入样本的空间特征;调用第i分类模型的池化层,对空间特征进行下采样,得到下采样结果;调用第i分类模型的分类层,基于下采样结果对输入样本进行图像分类预测,得到第i分类模型的输入样本对应各类别的概率;将各类别的概率中的最大概率值对应的类别,确定为第i分类模型对应的类别预测结果。
122.在一些实施例中,上述第i分类模型的模型复杂度与第i-1分类模型的模型复杂度满足以下条件至少之一:第i分类模型的特征提取层的数量,大于第i-1分类模型的特征提取层的数量;第i分类模型的特征提取层对应的特征提取维度的数量,大于第i-1分类模型的特征提取层对应的特征提取维度的数量。
123.在一些实施例中,当特征提取层通过卷积层实现时,特征提取层对应的特征提取维度由卷积核的尺寸和卷积核的数量决定。当任意两个图像分类模型的特征提取层的卷积核的数量相同的情况下,卷积核的尺寸越大,对应的特征提取维度越大。当任意两个图像分类模型的特征提取层的卷积核的尺寸相同的情况下,特征提取层的卷积核的数量越大,对应的特征提取维度越大。
124.作为示例,3个尺寸为3
×
3的卷积核的特征提取维度,等于1个尺寸为7
×
7的卷积核的特征提取维度。
125.在一些实施例中,图像分类模型用于对待分类图像进行分类,得到待分类图像对应的类别。
126.作为示例,待分类图像对应的类别可以为:待分类图像是否与天气相关,例如,与
天气相关类和与天气不相关类。
127.在一些实施例中,当分类模型为用于进行图像分类的图像分类模型时,图像分类模型的输入可以为图像样本。特征提取层可以通过卷积层实现,特征提取层用于对输入图像进行图像特征提取,得到输入图像的空间特征,其中,输入图像的空间特征表征输入图像的语言含义。分类层用于对输入图像进行分类,得到输入图像的类别。
128.如此,在分类模型队列中的各分类模型是相同类型的分类模型,即,均是图像卷积神经模型时,通过保证各图像卷积神经模型之间的模型复杂度呈由小至大排列,从而保证了分类模型队列的样本净化功能,得到高质量的图像样本,便于后续通过高质量的图像样本对分类模型进行训练。
129.在一些实施例中,参见图3c,图3c是本技术实施例提供的样本处理方法的流程示意图,图3c所示出的步骤102之前,可以通过执行以下步骤104至步骤105对分类模型进行训练。
130.在步骤104中,获取第i-1分类模型对应的目标样本。
131.在一些实施例中,当第i-1分类模型对应的类别预测结果及第i-1分类模型的输入样本的标签满足标签修正条件时,第i-1分类模型对应的目标样本,是标签修正后的目标样本。当第i-1分类模型对应的类别预测结果及第i-1分类模型的输入样本的标签不满足修正条件时,第i-1分类模型对应的目标样本,是第i-1分类模型的输入样本。
132.在一些实施例中,第i-1分类模型对应的目标样本可以是图像样本或者是文本样本。
133.在步骤105中,将第i-1分类模型对应的目标样本作为训练样本,对待训练第i分类模型进行训练,得到第i分类模型。
134.在一些实施例中,上述步骤105可以通过如下方式实现:调用待训练第i分类模型,对第i-1分类模型对应的目标样本进行分类预测,得到目标样本对应各类别的概率。将对应各类别的概率中的最大概率值和第i-1分类模型对应的目标样本的类别的概率进行相减,得到损失值。基于损失值对待训练第i分类模型的模型参数进行更新,得到第i分类模型。
135.如此,在调用分类模型队列中的任意一个分类模型进行类别预测之前,通过当前分类模型的相邻的上一个分类模型的目标样本,对当前分类模型进行训练,从而在基于分类模型队列对待处理样本进行迭代净化的同时,对各分类模型进行训练,从而有效提高了分类模型的训练效率。
136.在一些实施例中,参见图3c,图3c所示出的步骤102之后,可以通过执行以下步骤106至步骤107确定标签修正条件。
137.在步骤106中,获取目标概率和标签概率的差值。
138.在一些实施例中,标签概率为,输入样本的标签所指示的类别对应的概率。目标概率为,类别预测结果所指示的类别对应的概率。
139.作为示例,输入样本的标签所指示的类别为非天气类,对应的概率为0.8,类别预测结果所指示的类别为天气类,对应的概率为0.2,目标概率和标签概率的差值为0.6。
140.在步骤107中,将差值和修正阈值进行比较,得到比较结果,并当比较结果表征差值大于或等于修正阈值时,确定标签修正条件得到满足。
141.在一些实施例中,修正阈值用于确定是否对输入样本的标签进行修正,修正阈值
可以根据实际情况而设定。
142.作为示例,当差值为0.6时,将差值0.6和修正阈值0.3进行比较,得到比较结果,比较结果表征差值大于阈值,确定标签修正条件得到满足。
143.在一些实施例中,当比较结果表征差值小于修正阈值时,确定标签修正条件不满足,将输入样本确定为相应分类模型的目标样本。
144.作为示例,当差值为0.2时,将差值0.2和修正阈值0.3进行比较,得到比较结果,比较结果表征差值小于阈值,确定标签修正条件不满足,将输入样本直接确定为相应分类模型的目标样本。
145.在步骤103中,针对各分类模型,当基于类别预测结果及相应的输入样本的标签,确定标签修正条件得到满足时,对输入样本的标签进行修正,得到标签修正后的目标样本。
146.在一些实施例中,上述步骤103可以通过如下方式实现:针对各分类模型,当输入样本的标签所指示的类别对应的概率和分类模型对应的类别预测结果所指示的类别对应的概率的差值,大于或等于修正阈值时,确定标签修正条件得到满足,对输入样本的标签进行修正,得到标签修正后的目标样本。
147.如此,通过判断是否满足标签修正条件,从而确定是否对输入样本的标签进行修正,通过分类模型队列中的各分类模型的迭代修正,从而实现了对待处理样本的迭代修正净化,分类模型队列中模型复杂度最大的分类模型的目标样本,经过了分类模型队列中各分类模型的逐个修正,使得模型复杂度最大的分类模型的目标样本准确率较高,有效剔除了待处理样本中存在错误的噪声样本。
148.在一些实施例中,参见图3d,图3d是本技术实施例提供的样本处理方法的流程示意图,图3d所示出的步骤103可以通过执行以下步骤1031至步骤1032实现。
149.在步骤1031中,获取类别预测结果所指示的输入样本归属的类别。
150.在一些实施例中,类别预测结果对应输入样本对应各类别的概率,将最大的概率对应的类别,确定为类别预测结果所指示的输入样本归属的类别。
151.在步骤1032中,将输入样本携带的标签,替换为类别对应的类别标签,得到标签修正后的目标样本。
152.在一些实施例中,输入样本包括样本数据和标签,将输入样本携带的标签,替换为类别对应的类别标签,得到标签修正后的目标样本,标签修正后的目标样本的样本数据与输入样本的样本数据相同。
153.在一些实施例中,在上述步骤103之后,还可以通过以下方式确定目标分类模型:获取分类模型队列中模型复杂度最大的分类模型对应的目标样本;将模型复杂度最大的分类模型对应的目标样本,作为训练样本,对多个分类模型中的至少一个进行训练,得到目标分类模型。
154.在一些实施例中,分类模型队列中模型复杂度最大的分类模型是分类模型队列中最后一个分类模型,分类模型队列中模型复杂度最大的分类模型对应的目标样本经过了分类模型队列中的每个分类模型的处理,经过层层修正,因此分类模型队列中模型复杂度最大的分类模型对应的目标样本的准确性最高,将准确性最高的目标样本,对分类模型队列中的任意一个分类模型进行训练,得到用于进行图像或文本分类的目标分类模型。
155.在一些实施例中,在上述步骤103之后,还可以继续将模型复杂度最大的分类模型
对应的目标样本,作为第2轮迭代的待处理样本,继续执行上述步骤101至步骤103,可以理解的是,执行一遍步骤101至步骤103即完成了一轮迭代,对待处理样本完成了一轮净化,同时对分类模型队列中的各分类模型完成了一轮训练。
156.如此,通过依次调用分类模型队列中模型复杂度由小至大排列的多个分类模型,对待处理样本迭代进行类别预测,得到各分类模型对应的类别预测结果。并针对各分类模型,基于该分类模型的类别预测结果确定满足标签修正条件时,对输入样本的标签进行修正,得到标签修正后的目标样本,由于处于第一分类模型下一位置的第二分类模型的输入样本,为第一分类模型对应的目标样本,且第一分类模型的模型复杂度低于第二分类模型的模型复杂度,从而通过分类模型队列中模型复杂度由小至大依次排列的多个分类模型,逐个判断是否满足标签修正条件,模型复杂度最大的分类模型对应的目标样本,是对待处理样本进行逐步修正而得到的,从而有效提高了目标样本所携带标签的准确率。
157.下面,将说明本技术实施例在一个实际的文本分类的应用场景中的示例性应用。
158.本技术实施例可以具有如下应用场景,例如,在一个实际的文本分类的应用场景中,用于训练分类模型的待处理样本包括正样本集和负样本集,分类模型队列中的各分类模型为二分类模型,判断待处理样本是否与天气相关,标签1表征待处理文本与天气相关,标签0表征待处理文本与天气不相关。
159.作为示例,待处理样本包括如下训练数据:
160.表1待处理样本的示意表
161.待处理样本标签(1)天气真不错,没有雨1(2)外面有雨,记得带伞1(3)大热天,不用带伞1(4)电影真不错,没有尿点0(5)生病了,不想吃饭0(6)外面有人,开下门0(7)太热了,太阳很大0(8)太阳很大,不想去外面0
162.参见上表1,待处理样本(7):太热了,太阳很大,和待处理样本(8):太阳太大,不想去外面,为标签错误样本,即上述待处理样本的数据准确率为6/8,即75%,通过本技术实施例提供的样本处理方法,可以对上述标签错误样本进行修复,并训练准确的分类模型。
163.参见图4b,图4b是本技术实施例提供的样本处理方法的原理示意图,如图4b所示出的逻辑回归模型(logistic regression,lr)的原理,通过将文本中的各词作为特征,取大量的常见词构成词表,通过词表对逻辑回归模型进行训练,训练后的逻辑回归模型可以发现文本中的“天气”、“伞”、“雨”、“热”等词与天气相关,文本中的“电影”、“尿点”、“外面”、“太阳”等词与天气无关。调用逻辑回归模型,对待处理样本进行分类处理,得到待处理样本中的各词对应天气相关类别的概率,将各词的概率进行加和,得到待处理样本对应天气类别的概率p,当待处理样本对应天气类别的概率p大于或等于概率阈值时,将待处理样本的标签确定为1,即待处理样本与天气相关,将待处理样本确定为正样本;当待处理样本对应天气类别的概率p小于概率阈值时,将待处理样本的标签确定为0,即待处理样本与天气不
相关,将待处理样本确定为负样本。
164.由于逻辑回归模型的模型复杂度较小,不易过拟合,能够发现“热”与天气相关这一通用规律,但是由于数据分布或者标注数据错误的原因,未能发现“太阳”与天气之间的关系,此时,逻辑回归模型在训练时,虽然将“太热了,太阳很大”判定为负样本,通过设定纠正阈值,将分数与标签之差的绝对值超过阈值的数据标签进行纠正。
165.参见图4c,图4c是本技术实施例提供的样本处理方法的原理示意图,如图4b所示出的文本分类模型(textcnn)的结构,经过逻辑回归模型纠正后的样本的数据准确率达到87.5%,在第二轮训练的过程中,采用比逻辑回归模型的模型复杂度大的文本分类模型)来捕获被修正的信息,经过训练后的模型在验证集上的准确率更佳,也识别出了“太阳”与天气之间的关系,识别并修正“太阳很大,不想去外面”为正样本。在经过文本分类模型的处理之后,可以继续采用神经网络模型进行分类,并进行迭代直到分类模型在验证集上的准确率不再提升。
166.在一些实施例中,参见图4a,图4a是本技术实施例提供的样本处理方法的原理示意图。通过螺旋提升的方式对样本进行净化,从模型1开始,模型1的参数较少或者模型容量较小,模型1在大数据下不容易过拟合,因此对噪声数据比较健壮,更能学习到样本的通用模式,因此初始时,使用模型参数较少的模型,但是小模型的缺点是无法学习到样本更加深层次的特征,因此需要逐步加大模型复杂度,能够使其学习到更加深层次的特征,其中,模型1的模型复杂度低于模型2的模型复杂度,模型2的模型复杂度低于模型3的模型复杂度。
167.作为示例,参见下表2,表2是本技术实施例提供的分类模型的特性对比示意表。
168.表2分类模型的特性对比示意表
169.模型类型模型复杂度噪声样本所需样本规模模型1简单健壮小模型2较简单较健壮较小模型3较复杂较敏感较大模型4复杂敏感大
170.为了能从包含噪音的大规模样本中学习更深层次的模式,需要从模型复杂度较小的模型开始逐步迭代。在迭代的过程中,前一轮的模型总是更健壮,能发现明显异常的数据,即噪音数据。数据纠正后辅助下一轮的模型训练效果更好。这样每一轮都只发现并纠正一小部分噪音数据,经过多轮迭代后能使得数据准确度更高,迭代过程中也逐步加大模型,最终得到了足够复杂足够准确的模型。
171.根据上述分析,具体实施步骤如下:准备待处理样本d0用于训练;
172.准备模型若干,并将模型由小/简单到大/复杂排序后标记为m,依次开始训练;从分类模型m0起,对每个分类模型mi执行如下步骤:使用当前训练样本di训练模型mi;使用训练好的模型mi对当前训练数据di进行预测打分;对di的每一条数据,计算样本标签label和该样本标签label的预测分score之间的差绝对值gap=|label-score|,并根据绝对差值gap对di做如下调整:若gap《t,则保持当前数据label不变;若gap》=t,则将当前数据label修改为最大预测分score对应的label;将调整后的di标记为di 1;如果满足停止条件,则停止进行迭代,否则跳到初始循环执行;得到最终的m
final
和d
final
,结束;其中,di表示第i轮所使用的训练数据,mi表示第i轮所训练和使用的模型,label和score分别对应每一条训练数
据的标签和模型预测分数,t是一个决定是否对当前数据label进行修正的阈值,停止条件是一个判断是否需要继续迭代的条件,可选的判断条件包括:已达到固定的迭代轮次;数据修正比例低于某一个阈值;新模型的准确率提升低于某一个阈值。步骤3对每个模型进行训练并修正数据,循环多次后,可以同时得到高准确度的模型m
final
和样本d
final

173.首先,由于对数据的自动净化保证了数据的净化过程是自动且客观的,减少了人工参与的过程,不但减少了昂贵的人工校验成本,还减少了人的主观影响。高效的检测过程使得其对海量数据的净化成为可能。其次,由于数据的净化,不但使模型学习到了更符合现实情况的经验,还减少了模型训练过程中寻找最优解的过程,快速达到收敛点,提升了准确率。总之,本技术实施例提供的样本处理方法,可以使得从包含大量噪音的数据中训练一个高准确度的模型成为可能。
174.上文是以自然语言处理中常见的文本分类任务为例,但本技术实施例提供的样本处理方法,适用于任何从数据中训练模型的任务,例如图像识别也可以用此方案识别错误标注的图像数据。
175.本技术实施例提供的样本处理方法中使用的由小模型到大模型螺旋学习的过程,模型大小是相对的,模型也不局限于上文所举例的分类模型,任何一个分类模型均可。本技术实施例提供的样本处理方法中的迭代次数也不是固定的,可以根据训练效果增大或减小。本技术实施例提供的样本处理方法采用了准确率来衡量模型的性能,但也可以使用召回率、精确率或auc等指标来衡量模型性能。
176.可以理解的是,在本技术实施例中,涉及到待处理样本等相关的数据,当本技术实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
177.下面继续说明本技术实施例提供的样本处理装置255的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的样本处理装置255中的软件模块可以包括:获取模块2551,用于获取用于训练分类模型的待处理样本和分类模型队列,所述分类模型队列包括模型复杂度由小至大依次排列的多个分类模型;类别预测模块2552,用于基于所述分类模型队列,依次调用各所述分类模型,对所述待处理样本迭代进行类别预测,得到各所述分类模型对应的类别预测结果;修正模块2553,用于针对各所述分类模型,当基于所述类别预测结果及相应的输入样本的标签,确定标签修正条件得到满足时,对所述输入样本的标签进行修正,得到标签修正后的目标样本;其中,所述分类模型队列包括第一分类模型和第二分类模型,所述第二分类模型的输入样本为所述第一分类模型对应的目标样本,所述第二分类模型处于所述第一分类模型的下一位置。
178.在一些实施例中,上述类别预测模块2552,还用于将所述待处理样本作为所述分类模型队列中第一分类模型的输入样本,调用所述第一分类模型,对所述第一分类模型的输入样本进行类别预测,得到所述第一分类模型对应的类别预测结果;调用所述分类模型队列中的第i分类模型,对所述第i分类模型的输入样本进行类别预测,得到所述第i分类模型对应的类别预测结果;其中,1≤i≤n,n表征所述分类模型队列中所述分类模型的数量,所述第i分类模型的输入样本为第i-1分类模型对应的目标样本,所述第一分类模型为所述分类模型队列中所述模型复杂度最小的分类模型。
179.在一些实施例中,上述样本处理装置,还包括:训练模块,用于获取所述第i-1分类
模型对应的目标样本;将所述第i-1分类模型对应的目标样本作为训练样本,对待训练第i分类模型进行训练,得到所述第i分类模型。
180.在一些实施例中,上述获取模块2551,还用于获取经过预训练得到的多个所述分类模型;依据模型结构复杂度及模型结构中至少之一,确定各所述分类模型的模型复杂度;依据所述模型复杂度对所述多个所述分类模型进行排序,得到所述分类模型队列。
181.在一些实施例中,上述样本处理装置,还包括:标签修正条件模块,用于获取目标概率和标签概率的差值;其中,所述标签概率为,所述输入样本的标签所指示的类别对应的概率;所述目标概率为,所述类别预测结果所指示的所述类别对应的概率;将所述差值和修正阈值进行比较,得到比较结果,并当所述比较结果表征所述差值大于或等于所述修正阈值时,确定所述标签修正条件得到满足。
182.在一些实施例中,上述样本处理装置,还包括:确定模块,用于当所述比较结果表征所述差值小于所述修正阈值时,确定所述标签修正条件不满足,将所述输入样本确定为相应所述分类模型的目标样本。
183.在一些实施例中,上述修正模块2553,还用于获取所述类别预测结果所指示的所述输入样本归属的类别;将所述输入样本携带的标签,替换为所述类别对应的类别标签,得到所述标签修正后的目标样本。
184.在一些实施例中,所述分类模型为用于进行文本分类的文本分类模型,所述文本分类模型包括向量化层、特征提取层和分类层;上述类别预测模块2552,还用于调用所述第i分类模型的向量化层,对所述第i分类模型的输入样本进行向量化处理,得到所述输入样本对应的样本向量;调用所述第i分类模型的特征提取层,对所述样本向量进行语义特征提取,得到所述输入样本的语义特征;调用所述第i分类模型的分类层,基于所述语义特征对所述输入样本进行文本分类预测,得到文本分类结果作为所述第i分类模型对应的类别预测结果。
185.在一些实施例中,所述第i分类模型的模型复杂度与第i-1分类模型的模型复杂度满足以下条件至少之一:所述第i分类模型的所述特征提取层的数量,大于所述第i-1分类模型的所述特征提取层的数量;所述第i分类模型的所述特征提取层对应的特征提取维度的数量,大于所述第i-1分类模型的所述特征提取层对应的特征提取维度的数量。
186.在一些实施例中,所述分类模型为用于进行图像分类的图像分类模型,所述图像分类模型包括特征提取层、池化层和分类层;上述类别预测模块2552,还用于调用所述第i分类模型的特征提取层,对所述第i分类模型的输入样本进行空间特征提取,得到所述输入样本的空间特征;调用所述第i分类模型的池化层,对所述空间特征进行下采样,得到下采样结果;调用所述第i分类模型的分类层,基于所述下采样结果对所述输入样本进行图像分类预测,得到所述第i分类模型的输入样本对应各类别的概率;将所述各类别的概率中的最大概率值对应的类别,确定为所述第i分类模型对应的类别预测结果。
187.在一些实施例中,上述样本处理装置,还包括:目标分类模型确定模块,用于获取所述分类模型队列中所述模型复杂度最大的分类模型对应的目标样本;将所述模型复杂度最大的分类模型对应的目标样本,作为训练样本,对所述多个分类模型中的至少一个进行训练,得到目标分类模型。
188.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计
算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的样本处理方法。
189.本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的样本处理方法,例如,如图3a示出的样本处理方法。
190.在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
191.在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
192.作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
193.作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
194.综上所述,本技术实施例具有如下有益效果:
195.(1)通过依次调用分类模型队列中模型复杂度由小至大排列的多个分类模型,对待处理样本迭代进行类别预测,得到各分类模型对应的类别预测结果。并针对各分类模型,基于该分类模型的类别预测结果确定满足标签修正条件时,对输入样本的标签进行修正,得到标签修正后的目标样本,由于处于第一分类模型下一位置的第二分类模型的输入样本,为第一分类模型对应的目标样本,且第一分类模型的模型复杂度低于第二分类模型的模型复杂度,从而通过分类模型队列中模型复杂度由小至大依次排列的多个分类模型,逐个判断是否满足标签修正条件,模型复杂度最大的分类模型对应的目标样本,是对待处理样本进行逐步修正而得到的,从而有效提高了目标样本所携带标签的准确率。
196.(2)通过获取模型复杂度由小至大依次排列的多个分类模型,便于后续通过模型复杂度由小至大依次排列的多个分类模型,对待处理样本进行净化,得到可信度更高的样本,以对分类模型进行训练。
197.(3)通过分类模型队列中的模型复杂度逐渐递增的多个分类模型,逐渐对输入样本中的噪声样本进行净化,由于模型复杂度较低的分类模型对噪声样本较为不敏感,但是所需样本的规模相对较小,模型复杂度较高的分类模型对噪声样本较为敏感,从而可以更加准确的对噪声样本进行净化。模型复杂度较低的分类模型更加健壮,能够发现并一小部分噪声数据,从而通过逐步加大模型复杂度,使得后续的分类模型能够更加准确的发现噪声样本,从而对噪声样本进行精准净化。
198.(3)通过保证分类模型队列中的各分类模型按照模型复杂度递增的顺序排列,分
类模型队列中的各分类模型可以是相同类型的分类模型,也可以是不同类型的分类模型,在保证分类模型队列的样本净化功能的前提下,有效保证了模型选取的随机性,有效提高了分类模型队列的普适性。
199.(4)在分类模型队列中的各分类模型是相同类型的分类模型,即,均是文本卷积神经模型时,通过保证各文本卷积神经模型之间的模型复杂度呈由小至大排列,从而保证了分类模型队列的样本净化功能,得到高质量的文本样本,便于后续通过高质量的文本样本对分类模型进行训练。
200.(5)在分类模型队列中的各分类模型是相同类型的分类模型,即,均是图像卷积神经模型时,通过保证各图像卷积神经模型之间的模型复杂度呈由小至大排列,从而保证了分类模型队列的样本净化功能,得到高质量的图像样本,便于后续通过高质量的图像样本对分类模型进行训练。
201.(6)在调用分类模型队列中的任意一个分类模型进行类别预测之前,通过当前分类模型的相邻的上一个分类模型的目标样本,对当前分类模型进行训练,从而在基于分类模型队列对待处理样本进行迭代净化的同时,对各分类模型进行训练,从而有效提高了分类模型的训练效率。
202.(7)通过判断是否满足标签修正条件,从而确定是否对输入样本的标签进行修正,通过分类模型队列中的各分类模型的迭代修正,从而实现了对待处理样本的迭代修正净化,分类模型队列中模型复杂度最大的分类模型的目标样本,经过了分类模型队列中各分类模型的逐个修正,使得模型复杂度最大的分类模型的目标样本准确率较高,有效剔除了待处理样本中存在错误的噪声样本。
203.(8)由于对数据的自动净化保证了数据的净化过程是自动且客观的,减少了人工参与的过程,不但减少了昂贵的人工校验成本,还减少了人的主观影响。高效的检测过程使得其对海量数据的净化成为可能。其次,由于数据的净化,不但使模型学习到了更符合现实情况的经验,还减少了模型训练过程中寻找最优解的过程,快速达到收敛点,提升了准确率。总之,本技术实施例提供的样本处理方法,可以使得从包含大量噪音的数据中训练一个高准确度的模型成为可能。
204.以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献