一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据分类模型的训练方法、数据分类方法和装置与流程

2022-07-02 13:51:57 来源:中国专利 TAG:


1.本说明书一个或多个实施例涉及计算机技术领域,尤其涉及数据分类模型的训练方法、数据分类方法和装置。


背景技术:

2.在机器学习中,需要对原始数据进行标签定义,如此才能利用该定义过标签的数据进行学习训练。
3.然而,在机器学习的实际应用场景中,用于进行机器学习的原始数据中经常会出现“灰标”的情形,即有些数据无法对其进行准确的分类,从而导致无法对该数据进行准确的标签定义,进一步也就导致了训练得到的模型可用性较低。


技术实现要素:

4.本说明书一个或多个实施例描述了数据分类模型的训练方法、数据分类方法和装置,能够提高数据分类的准确性。
5.根据第一方面,提供了数据分类模型的训练方法,包括:
6.获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
7.确定基于所述正数据样本的标准正数据概率分布;以及,
8.确定基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;
9.根据所述标准正数据概率分布和所述拟合正数据概率分布,对数据分类模型进行训练。
10.在一种可能的实现方式中,所述确定基于所述正数据样本的标准正数据概率分布,包括:
11.将所述正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。
12.在一种可能的实现方式中,所述确定基于所述灰度数据样本的拟合正数据概率分布,包括:
13.利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,所述正数据样本和所述灰度数据样本均从所述样本历史数据中获取得到;
14.根据所述条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;
15.将表征出的所述正数据的概率分布定义为拟合正数据概率分布。
16.在一种可能的实现方式中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布对数据分类模型进行训练,包括:
17.根据所述标准正数据概率分布和所述拟合正数据概率分布,确定损失函数;
18.计算所述损失函数中权重参数的更新量。
19.在一种可能的实现方式中,所述根据所述标准正数据概率分布和所述拟合正数据概率分布确定损失函数,包括:
20.计算所述标准正数据概率分布和所述拟合正数据概率分布之间的kl(kullback-leibler)散度损失;
21.确定对所述损失函数进行过拟合修正的正则化损失;
22.根据所述kl散度损失和所述正则化损失,确定所述标准正数据概率分布和所述拟合正数据概率分布的损失函数。
23.在一种可能的实现方式中,所述计算所述标准正数据概率分布和所述拟合正数据概率分布之间的kl散度损失,包括:
24.根据如下计算式计算所述kl散度损失:
[0025][0026]
其中,φ(x)用于表征任意一个数据x为正数据的概率,用于表征所述kl散度损失,bu用于表征所述灰度数据样本,b
p
用于表征所述正数据样本,bu用于表征所述灰度数据样本中的数据个数,b
p
用于表征所述正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。。
[0027]
在一种可能的实现方式中,所述正数据样本中包括:至少两个正数据子样本;所述灰度数据样本中包括:至少两个灰度数据子样本;
[0028]
所述确定对所述损失函数进行过拟合修正的正则化损失,包括:
[0029]
从所述正数据样本中获取至少一个正数据子样本;以及,
[0030]
从所述灰度数据样本中获取至少一个灰度数据子样本;
[0031]
构建一个服从先验分布的抽样参数;
[0032]
利用所述至少一个正数据子样本、所述至少一个灰度数据子样本和所述抽样参数,确定至少一个人工构造数据;
[0033]
根据所述至少一个人工构造数据,确定所述正则化损失。
[0034]
在一种可能的实现方式中,所述根据所述至少一个人工构造数据确定所述正则化损失,包括:
[0035]
将所述人工构造数据输入当前训练的所述数据分类模型中,得到对应各个人工构造数据的模型标签值;
[0036]
利用如下计算式,计算所述正则化损失:
[0037][0038]
其中,用于表征所述正则化损失,b用于表征所述人工构造数据的个数,用于表征第i个人工构造数据,用于表征第i个人工构造数据所对应的人工标签值;用于表征第i个人工构造数据通过数据分类模型得到的模型标签值。
[0039]
在一种可能的实现方式中,所述确定至少一个人工构造数据,包括:
[0040]
当所述正数据子样本或所述灰度数据子样本包括数值特征和/或图像像素点特征时,通过mixup的数据增强机制确定所述人工构造数据;
[0041]
和/或,
[0042]
当所述正数据子样本或所述灰度数据子样本包括文本特征时,通过对数据子样本中的数据进行随机替换确定所述人工构造数据。
[0043]
根据第二方面,提供了数据分类方法,包括:
[0044]
得到待分类的数据;
[0045]
将所述待分类的数据输入数据分类模型,得到该数据分类模型输出的分类标签;其中,所述数据分类模型是利用第一方面中任一所述的方法训练得到的。
[0046]
根据第三方面,提供了数据分类模型的训练装置,包括:
[0047]
数据样本获取模块,配置为获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0048]
标准概率分布确定模块,配置为确定基于所述数据样本获取模块获取到的所述正数据样本的标准正数据概率分布;
[0049]
拟合概率分布确定模块,配置为确定所述数据样本获取模块获取到的基于所述灰度数据样本的拟合正数据概率分布;其中,所述拟合正数据概率分布表征所述灰度数据样本中实际分类标签为正数据的概率分布;
[0050]
模型训练模块,配置为根据所述标准概率分布确定模块确定的所述标准正数据概率分布和所述拟合概率分布确定模块确定的所述拟合正数据概率分布,对数据分类模型进行训练。
[0051]
根据第四方面,提供了数据分类装置,包括:
[0052]
输入模块,配置为得到待分类的数据,并将该待分类的数据输入数据分类模型;
[0053]
数据分类模型,配置为输出所述输入模块输入的待分类数据的分类标签;其中,该数据分类模型是利用第三方面所述的装置训练出来的。
[0054]
根据第五方面,提供了一种计算设备,包括:存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述第一方面和第二方面中任一项所述的方法。
[0055]
根据本说明书实施例提供的方法和装置,在对数据分类模型进行训练时,获取到的正数据样本的标签是已知的,即该正数据样本的标准正数据概率分布是已知的。而灰度数据样本的标签未知,但灰度数据样本中的正数据也是服从标准正数据概率分布的。基于此,通过表征出灰度数据样本中的数据为分类标签已知的正数据的拟合正数据概率分布,并结合标准正数据概率分布即可训练得到数据分类模型。由于本方案的数据分类模型是基于分类标签已知的数据样本进行模型训练得到的,从而能够利用该数据分类模型对数据进行准确的分类。
附图说明
[0056]
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
根据这些附图获得其他的附图。
[0057]
图1是本说明书一个实施例提供的数据分类模型的训练方法的流程图;
[0058]
图2是本说明书一个实施例提供的拟合正数据概率分布的确定方法的流程图;
[0059]
图3是本说明书另一个实施例提供的数据分类模型的训练方法的流程图;
[0060]
图4是本说明书一个实施例提供的损失函数的确定方法的流程图;
[0061]
图5是本说明书一个实施例提供的正则化损失的确定方法的流程图;
[0062]
图6是本说明书又一个实施例提供的数据分类模型的训练方法的流程图;
[0063]
图7是本说明书一个实施例提供的数据分类方法的流程图;
[0064]
图8是本说明书一个实施例提供的数据分类模型的训练装置的示意图
[0065]
图9是本说明书一个实施例提供的数据分类装置的示意图。
具体实施方式
[0066]
如前所述,机器学习的过程中需要对原始数据进行标签定义,如此才能利用该被定义过标签的数据进行学习训练。然而,在机器学习的实际应用场景中很容易出现标签不准或不好确定正负类别的数据,即“灰标”的情形。比如,在风控场景中,虽然经过事后投诉审理能够确定一些交易是否违规,但是仍然有一部分并未被投诉的黑交易案件存在。因此导致只能通过人机交互、打电话咨询以及问卷调查等手段进行黑交易的挖掘,实施上比较耗费人力成本。
[0067]
目前,也有通过算法和模型来解决上述问题的,比如单类别分类方法、传统正例和未标注学习等。然而,单类别分类方法无法利用更多的未标注数据,而传统正例和未标注学习往往是启发式的,对数据处理比较受限,普适性不高。导致目前在对分类标签未知的灰度数据进行分类,以及进一步挖掘“隐案”时的准确性并不高。
[0068]
基于此,本方案考虑将标签已知的正数据和标签未知的灰度数据作为数据分类模型的样本训练数据,通过正数据样本的标准正数据概率分布和灰度数据中数据为正数据的拟合正数据概率分布对数据分类模型进行训练。如此通过基于正数据样本与灰度数据样本中的正数据的关系训练得到模型,能够提高对数据进行分类的准确性。
[0069]
如图1所示,本说明书实施例提供了数据分类模型的训练方法,该方法可以包括如下步骤:
[0070]
步骤101:获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0071]
步骤103:确定基于正数据样本的标准正数据概率分布;以及,
[0072]
步骤105:确定基于灰度数据样本的拟合正数据概率分布;其中,拟合正数据概率分布表征灰度数据样本中实际分类标签为正数据的概率分布;
[0073]
步骤107:根据标准正数据概率分布和拟合正数据概率分布,对数据分类模型进行训练。
[0074]
本实施例中,在训练数据分类模型时,考虑先获取分类标签已知的正数据样本和分类标签未知的灰度数据样本,然后再分别确定该正数据样本的标准正数据概率分布,以及表征该灰度数据样本中的实际分类标签为正数据的拟合正数据概率分布,如此即可根据该标准正数据概率分布和该拟合正数据概率分布对数据分类模型进行训练。由此可见,本方案中的正数据样本的标签是已知的,即该正数据样本的标准正数据概率分布是已知的。
而灰度数据样本的标签未知,但灰度数据样本中的正数据也是服从标准正数据概率分布的。基于此,进一步可以通过标准概率分布和贝叶斯公式表征出灰度数据样本中正数据的拟合正数据概率分布,并结合标准正数据概率分布即可训练得到数据分类模型。由于本方案的数据分类模型是基于分类标签已知的数据样本进行模型训练得到的,从而能够利用该数据分类模型对数据进行准确的分类。
[0075]
下面结合具体的实施例对图1中的各个步骤进行详细说明。
[0076]
1、对于步骤101,获取分类标签已知的正数据样本和分类标签未知的灰度数据样本。
[0077]
在本实施例中,正数据用于表示分类标签已知的数据,而灰度数据用于表示分类标签未知的数据。比如,对于某些交易数据来说,通过用户的举报,以及人工分析等,能够确定一些交易为违规交易,那么这些交易所对应的数据即为标签已知的正数据样本。同时,在这些交易数据中,除了通过用户的举报以及人工分析等确定出的具有违规交易的正数据,其他交易数据中依然可能存在用户没有进行举报的交易,以及人工无法分析确定出是否具有违规行为的交易,那么该交易数据中除已经确定为正数据的数据之外,其他数据即为灰度数据。也就是说,该灰度数据为分类标签无法确定的数据。
[0078]
2、对于步骤103,确定基于正数据样本的标准正数据概率分布。
[0079]
在本实施例中,正数据样本的分类标签是已知的,也就是说,正数据样本中每一个数据为某一个分类标签值的概率是已知的,因此通过经验分布作分布估计即可确定出正数据样本的标准正数据概率分布。
[0080]
由于极大似然估计是一种参数估计方法,能够根据某些先验知识,事先知道总体的分布类型。因此,在一种可能的实现方式中,步骤103在确定基于正数据样本的标准正数据概率分布时,可以将正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。也就是说,通过极大似然估计,能够从正数据中采集来的样本,推断出正数据分布的参数。比如,设正数据ξ的密度函数为f(x;θ),这个密度函数产生有样本x1,

,xm,而密度函数中的参数θ可以通过样本x1,

,xm来进行估计。为了合理化样本的存在,通过假设带估计的参数是能够使得已观测到的样本发生的概率最大的参数,从而可以确定出该正数据的密度函数中的参数θ。进而,也就确定出了该正数据样本的标准正数据概率分布。
[0081]
3、对于步骤105,确定基于灰度数据样本的拟合正数据概率分布。
[0082]
在本实施例中,由于用于训练数据分类模型的样本数据中的正数据是分类标签已知的。因此,在确定灰度数据样本的拟合正数据概率分布时,考虑通过神经网络估计任一未知数据为正数据的条件概率,然后根据该条件概率,利用贝叶斯公式表征出灰度数据样本中实际分类标签为正数据的概率分布。该拟合正数据概率分布应为表征该灰度数据样本中未知正数据的概率分布。如此可以通过不断使标准正数据概率分布和该拟合正数据概率分布的距离缩小,从而实现对数据分类模型的训练。
[0083]
在一种可能的实现方式中,步骤105在确定基于灰度数据的拟合正数据概率分布时,如图2所示,可以通过如下步骤来实现:
[0084]
步骤201:利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,正数据样本和灰度数据样本均从样本历史数据中获取得到;
[0085]
步骤203:根据条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为
正数据的概率分布;
[0086]
步骤205:将表征出的正数据的概率分布定义为拟合正数据概率分布。
[0087]
在本实施例中,考虑利用神经网络来表征出样本历史数据中任意一个数据为正数据的条件概率分布,然后根据该条件概率分布,利用贝叶斯公式可得到实际正数据概率分布的一个概率分布,并将该表征出的概率分布定义为拟合正数据概率分布。由于贝叶斯分布关心的问题是逆概率问题,即从样本数据来猜测概率模型的参数。因此,本实施例中考虑了利用贝叶斯分布来表征,在包含正数据样本和灰度数据样本的样本历史数据中,任意一个数据为正数据的概率分布,如此通过训练后得到的数据分类模型能够具有更高的普适性。
[0088]
在利用贝叶斯分布表征出样本历史数据中任意一个数据为正数据的概率分布时,考虑利用分类标签未知的灰度数据代替样本历史数据,以此来得到正数据的概率分布。比如,假设分类标签未知的灰度数据可以代替全部数据的分布f,用神经网络拟合贝叶斯分布p(y= 1|x),即样本历史数据中分类标签为 1的概率,对任意一个数据给出一个标签φ(x),正数据的边际概率分布为p(x),ef[φ(x)]表征全部数据的期望,则可以给出:
[0089][0090]
由此可见,本实施例中通过贝叶斯公式表征出拟合正数据概率分布f
φ
(x),标准正数据概率分布为f
p
(x),之后可以通过不断优化使得该拟合正数据概率分布和标准正数据概率分布不断接近。当拟合正数据概率分布和标准正数据概率分布之间的距离足够小时,即可认为该贝叶斯分布表征的拟合正数据概率分布是较优的,进而也就训练得到了数据分类模型。
[0091]
4、对于步骤107,根据标准正数据概率分布和拟合正数据概率分布,对数据分类模型进行训练。
[0092]
本实施例中,标准正数据概率分布是正数据样本所对应的概率分布,而拟合正数据概率分布是表征出的灰度数据样本中未知正数据的概率。基于灰度数据样本中的数据为正数据也应服从标准正数据概率分布的原则,当拟合正数据概率分布与标准正数据概率分布之间的距离足够小时,该拟合正数据概率分布就是足够优化的。即通过使拟合正数据概率分布不断接近标准正数据概率分布,能够不断对数据分类模型的参数进行训练,从而获得数据分类模型。
[0093]
在一种可能的实现方式中,如图3所示,步骤107在根据标准正数据概率分布和拟合正数据概率分布对数据分类模型进行训练时,可以包括如下步骤:
[0094]
步骤301:根据标准正数据概率分布和拟合正数据概率分布,确定损失函数;
[0095]
步骤303:计算损失函数中权重参数的更新量。
[0096]
本实施例中,在确定标准正数据概率分布和拟合正数据概率分布之后,可以确定该标准正数据概率分布和拟合正数据概率分布之间的损失函数,然后计算该损失函数中权重参数的更新量,进而利用该权重参数的更新量对数据分类模型中的权重参数进行更新,以实现对数据分类模型的训练。
[0097]
对步骤301进行说明:
[0098]
由于kl(kullback-leibler)散度能够更好的衡量不同分布之间的距离。因此,如
图4所示,步骤301在根据标准正数据概率分布和拟合正数据概率分布确定损失函数时,可以通过如下步骤实现:
[0099]
步骤401:计算标准正数据概率分布和拟合正数据概率分布之间的kl(kullback-leibler)散度损失;
[0100]
步骤403:确定对损失函数进行过拟合修正的正则化损失;
[0101]
步骤405:根据kl散度损失和正则化损失,确定标准正数据概率分布和拟合正数据概率分布的损失函数。
[0102]
由于在优化近似的经验分布时很容易出现过拟合现象。比如,在决策树模型中,如果对于决策树的生长没有合理的限制和修剪的话,决策树的自由生长有可能每片叶子里只包含单纯的事件数据或非事件数据。可以想象,这种决策树当然可以完美匹配(拟合)训练数据,但是一旦应用到新的真实数据时,效果可能就会变得很差。因此,在本实施例中确定标准正数据概率分布和拟合正数据概率分布之间的损失函数时,不仅考虑了标准正数据概率分布和拟合正数据概率分布之间的kl散度损失,即标准正数据概率分布和拟合正数据概率分布之间的距离。还考虑了对过度拟合的情况进行修正,从而得到更加准确的损失函数。
[0103]
对步骤401进行说明:
[0104]
在计算标准正数据概率分布和拟合正数据概率分布之间的kl散度时,可以根据如下计算式来得到:
[0105][0106]
其中,f
p
即为标准正数据概率分布,而f
φ
即为拟合正数据概率分布,上式通过进一步推导则可以有:
[0107][0108]
即:
[0109]
而为一个常数,所以可以在此时不用考虑。因此,在步骤401计算kl散度损失时,具体可以根据如下计算式计算:
[0110][0111]
其中,用于表征kl散度损失,bu用于表征灰度数据样本,b
p
用于表征正数据样本,bu用于表征灰度数据样本中的数据个数,b
p
用于表征正数据样本中的数据个数,φ(x)用于表征任意一个数据x为正数据的概率,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。
[0112]
在本实施例中,计算kl散度损失时,考虑以对数损失作损失函数,以最小化期望风险。其中kl散度损失中第一项的数据x为灰度数据样本中获取到的,第二项的数据x为正数据样本中获取到的,也就是说,当x∈b
p
时,φ(x)用于表征正数据中标签为正数据的概率分
布;当x∈bu时,φ(x)用于表征灰度数据中标签为正数据的概率分布,即公式中的第一项为基于拟合正数据概率分布得到的损失项,而第二项为基于标准正数据概率分布得到的损失项。如此,通过计算第一项和第二项之间的差值,即可计算得到标准正数据概率分布和拟合正数据概率分布之间的距离,即得到两个概率分布之间的kl散度损失。
[0113]
对步骤403进行说明:
[0114]
由于过拟合现象是由于在模型训练时可能只包含单纯的事件数据或非事件数据,如此使得训练的模型能够非常完美的拟合用于训练的数据,但无法具有普适性,无法适用于更多的待分类的数据。因此,对于模型过拟合的情况,考虑通过构建更多的数据,使得样本更加密集,从而对过拟合进行修正。如图5所示,在一种可能的实现方式中,在确定对损失函数进行过拟合修正的正则化损失时,可以包括如下步骤:
[0115]
步骤501:从正数据样本中获取至少一个正数据子样本;以及,
[0116]
步骤503:从灰度数据样本中获取至少一个灰度数据子样本;
[0117]
步骤505:构建一个服从先验分布的抽样参数;
[0118]
步骤507:利用至少一个正数据子样本、至少一个灰度数据子样本和抽样参数,确定至少一个人工构造数据;
[0119]
步骤509:根据至少一个人工构造数据,确定正则化损失。
[0120]
值得注意的是,正数据样本中应包括至少两个正数据子样本,灰度数据样本中应包括至少两个灰度数据子样本。如此在确定正则化损失时,考虑先从正数据样本中获取至少一个正数据子样本,以及从灰度数据样本中获取一个灰度数据子样本。然后构建一个服从先验分布的抽样参数,从而利用该抽样参数、正数据子样本和灰度数据子样本构造至少一个人工构造数据,进而可以利用该人工构造的数据,确定正则化损失。
[0121]
在确定人工构造数据时,首先可以考虑选取一个服从先验分布的抽样参数,比如γ~β(α,α),即构造一个服从beta分布的γ参数。那么步骤507在利用该抽样参数、正数据子样本和灰度数据子样本确定人工构造数据时,可以利用如下计算式确定:
[0122][0123]
其中,用于表征构造的第i个人工构造数据,为从正数据样本中获取到的第i个正数据子样本,为从灰度数据样本中获取到的第i个灰度数据子样本。
[0124]
如此通过上式即可构造出人工构造数据,而每一个构造出的人工构造数据所对应的标签值可以通过如下计算式得到:
[0125][0126]
其中,即为第i个人工构造数据所对应的人工标签值,为正数据子样本中的第i个数据输入到数据分类模型中得到的值,为灰度数据子样本中第i个数据输入到数据分类模型中得到的值。
[0127]
当构造出至少一个人工构造数据之后,步骤509在根据至少一个人工构造数据确定正则化损失时,可以通过如下方式实现:
[0128]
首先,将人工构造数据输入当前训练的数据分类模型中,得到对应各个人工构造数据的模型标签值;
[0129]
然后,利用如下计算式,计算正则化损失:
[0130][0131]
其中,用于表征正则化损失,b用于表征人工构造数据的个数,用于表征第i个人工构造数据,用于表征第i个人工构造数据所对应的人工标签值;用于表征第i个人工构造数据通过数据分类模型得到的模型标签值。
[0132]
在本实施例中,首先利用正数据样本中的各个正数据子样本、灰度数据样本中的各个灰度数据子样本以及选取的抽样参数,可以确定出至少一个人工构造数据,以及进一步可以确定出该各个人工构造数据的人工标签值。如此通过计算各个人工构造数据通过数据分类模型得到的标签值与人工构造数据所对应的人工标签值之间的距离,即可得到对过拟合进行修正的正则化损失。
[0133]
当然值得指出的是,在一种可能的实现方式中,步骤507确定至少一个人工构造数据时,还可以通过其他的方式来确定人工构造数据。比如,当正数据子样本或灰度数据子样本中包括数据特征和/或图像像素点特征时,还可以考虑通过mixup的数据增强机制来确定人工构造数据。再比如,当正数据子样本或灰度数据子样本包括文本特征时,可以考虑通过对数据子样本中的数据进行随机替换来确定人工构造数据。
[0134]
对步骤405进行说明:
[0135]
在一种可能的实现方式中,标准正数据概率分布和拟合正数据概率分布之间的损失函数可以通过如下计算式来计算得到:
[0136][0137]
其中,用于表征损失函数,用于表征kl散度损失,用于表征对损失函数进行过拟合修正的正则化损失,而λ为正则化损失的比例项系数,为一个超参数。
[0138]
对步骤303进行说明:
[0139]
在确定标准正数据概率分布和拟合正数据概率分布的损失函数之后,考虑计算该损失函数中权重参数的更新量。比如先对该损失函数关于权重参数计算偏导数,然后将该偏导数值与迭代步长的乘积确定为损失函数中权重参数的更新量,从而可以利用该更新量对数据分类模型中的权重参数进行更新,以对数据分类模型进行训练。
[0140]
如图6所示,下面从单轮迭代训练的角度对本方案提供的数据分类模型的训练方法进行说明,该方法可以包括如下步骤:
[0141]
步骤601:获取分类标签已知的正数据p和分类标签未知的灰度数据u;
[0142]
本步骤中,在获取到正数据和灰度数据之后,确定数据分类模型的初始参量模型φ,即数据分类模型的初始状态。同时,在获取到分类标签已知的正数据和分类标签未知的灰度数据之后,该正数据所服从的标准正数据概率分布即可确定,同时可以表征出该分类标签未知的灰度数据中实际分类标签为正数据的拟合正数据概率分布。
[0143]
步骤603:从正数据p中获取正数据样本b
p
,以及从灰度数据u中获取灰度数据样本bu;
[0144]
在本步骤中,每次迭代训练时,b
p
和bu可以分别从正数据p和灰度数据u中进行随机获取。在一种可能的实现方式中,可以预先对正数据p和灰度数据u进行样本分割,分别将正数据p分割成至少两个正数据样本,将灰度数据u分割成至少两个灰度数据样本。如此不仅可以保证在获取样本数据进行模型训练时,每次获取到的样本数据是不同的,从而可以遍历到更多的数据。其次,通过将正数据和灰度数据进行样本分割,不会由于一次性输入的训练数据量过大而导致模型训练效率较低,甚至死机无法进行模型训练。
[0145]
容易理解的是,b
p
应服从标准正数据概率分布,bu应服从拟合正数据概率分布。
[0146]
步骤605:利用本轮迭代训练所得到的正数据样本b
p
和灰度数据样本bu计算标准正数据概率分布和拟合正数据概率分布之间的kl散度。
[0147]
本步骤中,利用计算式计算当前迭代训练轮次的kl散度。
[0148]
步骤607:确定人工构造数据以及人工构造数据所对应的人工标签值;
[0149]
本步骤中,首先确定至少一组数据子样本,其中每一组数据子样本中包括一个正数据样本b
p
中的数据,以及一个灰度数据样本bu中的数据。即在本轮次迭代训练中,可以确定多组数据子样本。
[0150]
然后,选取一个抽样参数γ,使其服从beta分布,然后利用如下计算式分别计算各个人工构造数据以及其对应的人工标签值:
[0151][0152]
其中,用于表征由第i组数据子样本构造的人工构造数据,为第i组数据子样本中的正数据,为第i组灰度数据子样本中的灰度数据,为第i组数据子样本所对应的人工标签值。
[0153]
步骤609:计算正则化损失;
[0154]
本步骤中,利用计算式计算损失函数中的正则化损失项。
[0155]
步骤611:计算当前迭代轮次下,标准正数据概率分布和拟合正数据概率分布的损失函数;
[0156]
本步骤中,利用如下计算式计算损失函数,其中λ为正则化损失的比例项系数,为一个超参数。
[0157]
步骤613:更新权重参数;
[0158]
在步骤611得到损失函数之后,利用如下计算式对权重参数进行更新:
[0159]
[0160]
其中,ω为数据分类模型中的权重参数,η为迭代训练的步长。
[0161]
当对数据分类模型中的权重参数ω更新之后,在下一轮的迭代训练中,模型φ中的权重参数对应为更新后的权重参数。
[0162]
步骤615:循环执行上述步骤603至步骤613,直至训练得到的数据分类模型收敛。
[0163]
如图7所示,提供了一种数据分类方法,该方法可以包括如下步骤:
[0164]
步骤701:得到待分类的数据;
[0165]
步骤703:将待分类的数据输入数据分类模型,得到该数据分类模型输出的分类标签;其中,数据分类模型是利用上述各个实施例提供的数据分类模型的训练方法训练得到的。
[0166]
上述数据分类模型训练时,基于标签已知的数据和标签未知的数据训练而成,本实施例中,通过将待分类的数据输入到数据分类模型中,即可得到该数据分类模型输出的分类标签。比如其输出数据为某一类数据的概率,从而进一步根据该概率值确定该数据所对应的标签。因此,利用该数据分类模型能够提高对待分类的数据进行分类的准确性。
[0167]
如图8所示,提供了一种数据分类模型的训练装置,该装置可以包括:
[0168]
数据样本获取模块801,配置为获取分类标签已知的正数据样本和分类标签未知的灰度数据样本;
[0169]
标准概率分布确定模块802,配置为确定基于数据样本获取模块801获取到的正数据样本的标准正数据概率分布;以及,
[0170]
拟合概率分布确定模块803,配置为确定数据样本获取模块801获取到的基于灰度数据样本的拟合正数据概率分布;其中,拟合正数据概率分布表征灰度数据样本中的实际分类标签为正数据的概率分布;
[0171]
模型训练模块804,配置为根据标准概率分布确定模块802确定的标准正数据概率分布和拟合概率分布确定模块803确定的拟合正数据概率分布,对数据分类模型进行训练。
[0172]
在一种可能的实现方式中,标准概率分布确定模块802在确定基于正数据样本的标准正数据概率分布时,配置成将正数据样本的极大似然估计,确定为该正数据样本的标准正数据概率分布。
[0173]
在一种可能的实现方式中,拟合概率分布确定模块803在确定基于灰度数据样本的拟合正数据概率分布时,配置成执行如下操作:
[0174]
利用神经网络表征出样本历史数据中任意一个数据为正数据的条件概率分布;其中,正数据样本和灰度数据样本均从样本历史数据中获取得到;
[0175]
根据条件概率分布,利用贝叶斯表征出灰度数据样本中实际分类标签为正数据的概率分布;
[0176]
将表征出的正数据的概率分布定义为拟合正数据概率分布。
[0177]
在一种可能的实现方式中,模型训练模块804在根据标准正数据概率分布和拟合正数据概率分布对数据分类模型进行训练时,配置成执行如下操作:
[0178]
根据标准正数据概率分布和拟合正数据概率分布,确定损失函数;
[0179]
计算损失函数中权重参数的更新量。
[0180]
在一种可能的实现方式中,模型训练模块804在根据标准正数据概率分布和拟合正数据概率分布确定损失函数时,配置成执行如下操作:
[0181]
计算标准正数据概率分布和拟合正数据概率分布之间的kl(kullback-leibler)散度损失;
[0182]
确定对损失函数进行过拟合修正的正则化损失;
[0183]
根据kl散度损失和正则化损失,确定标准正数据概率分布和拟合正数据概率分布的损失函数。
[0184]
在一种可能的实现方式中,模型训练模块804在计算标准正数据概率分布和拟合正数据概率分布之间的kl散度损失时,配置成执行如下操作:
[0185]
根据如下计算式计算kl散度损失:
[0186][0187]
其中,φ(x)用于表征任意一个数据x为正数据的概率,用于表征kl散度损失,bu用于表征灰度数据样本,b
p
用于表征正数据样本,bu用于表征灰度数据样本中的数据个数,b
p
用于表征正数据样本中的数据个数,公式中的第一项为基于拟合正数据概率分布得到的损失项,公式中的第二项为基于标准正数据概率分布得到的损失项。
[0188]
在一种可能的实现方式中,正数据样本中包括:至少两个正数据子样本;灰度数据样本中包括:至少两个灰度数据子样本;
[0189]
模型训练模块804在确定对损失函数进行过拟合修正的正则化损失时配置成执行如下操作:
[0190]
从正数据样本中获取至少一个正数据子样本;以及,
[0191]
从灰度数据样本中获取至少一个灰度数据子样本;
[0192]
构建一个服从先验分布的抽样参数;
[0193]
利用至少一个正数据子样本、至少一个灰度数据子样本和抽样参数,确定至少一个人工构造数据;
[0194]
根据至少一个人工构造数据,确定正则化损失。
[0195]
在一种可能的实现方式中,模型训练模块804在根据至少一个人工构造数据确定正则化损失时,配置成执行如下操作:
[0196]
将人工构造数据输入当前训练的数据分类模型中,得到对应各个人工构造数据的模型标签值;
[0197]
利用如下计算式,计算正则化损失:
[0198][0199]
其中,用于表征正则化损失,b用于表征人工构造数据的个数,用于表征第i个人工构造数据,用于表征第i个人工构造数据所对应的人工标签值;用于表征第i个人工构造数据通过数据分类模型得到的模型标签值。
[0200]
在一种可能的实现方式中,模型训练模块804在确定至少一个人工构造数据时配置成执行如下操作:
[0201]
当正数据子样本或灰度数据子样本包括数值特征和/或图像像素点特征时,通过
mixup的数据增强机制确定人工构造数据;
[0202]
和/或,
[0203]
当正数据子样本或灰度数据子样本包括文本特征时,通过对数据子样本中的数据进行随机替换确定人工构造数据。
[0204]
如图9所示,提供了一种数据分类装置,包括:
[0205]
输入模块901,配置为得到待分类的数据,并将该待分类的数据输入数据分类模型;
[0206]
数据分类模型902,配置为输出输入模块901输入的待分类数据的分类标签;其中,该数据分类模型是利用上述数据分类模型的训练装置训练出来的。
[0207]
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
[0208]
本说明书还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现说明书中任一个实施例中的方法。
[0209]
可以理解的是,本说明书实施例示意的结构并不构成对数据分类模型的训练装置和数据分类装置的具体限定。在说明书的另一些实施例中,数据分类模型的训练装置和数据分类装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
[0210]
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
[0211]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0212]
以上所述的具体实施方式,对本说明书描述的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献