一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于置信学习的有偏数据检测方法

2023-03-09 15:27:47 来源:中国专利 TAG:


1.本发明属于有偏数据的识别与过滤领域,具体的说是一种基于置信学习的有偏数据检测方法。


背景技术:

2.在信息技术蓬勃发展的时代,我们每天都会通过电子设备接受和处理各种各样的信息,最典型的就是文字和图片内容,同时标签信息也越来越多的穿插在多模态内容中,他不仅能够高度概括对象的关键信息,还可以通过构建内链,实现对象间的互联,形成关系网络。但纷繁多样的数据信息同时带来了大量的有偏数据,对诸多领域尤其是推荐系统都造成了负面影响,以标签信息为例,由于社会化标注形式,标签有偏问题广泛存在于现实数据集中。如imagenet、mnist等权威公开数据集,同样存在着有偏标签,通常表现为标注错误或标签缺失,对模型性能具有十分严重的影响。
3.近些年来,关于标签推荐任务已经有诸如协同过滤、生成模型、深度神经网络等多种方法去完成实现,但大多数的研究都只是使用了文本信息[hashtag recommendation methods for twitter and sina weibo:a review.in future internet.2021]或是单张图片加文本信息。据统计,超过42%的twitter推文含有多模态数据,多张图片与文本所展示的信息很可能是互补的,二者共同作用才能更加全面地反映对象的特征,同时多模态数据类型加剧了有偏标签识别难度,在多模态内容中,特定标签可能只与某种模态相关,在这种情况下若只考虑单一模态,则很可能会将该标签识别为有偏标签,因此需要充分考虑数据的多模态特性;目前有偏数据过滤算法依据其处理方式可以分为两类,分别是有偏样本移除[ensemble-based noise detection:noise ranking and visual performance evaluation.in data mining and knowledge discovery.2014]和有偏样本重标记,考虑到操作效率,样本移除方法更加常见,但是将此类方法与标签推荐任务、多模态数据领域进行迁移和结合的研究仍需进一步发展。针对上述背景及技术,亟需一种能有效提取并融合多模态特征,同时减弱有偏数据标签干扰的有偏数据检测方案。


技术实现要素:

[0004]
本发明是为了解决上述现有技术存在的不足之处,提出一种基于置信学习的有偏数据检测方法,以期能基于置信学习框架,综合考虑文本与图片的特征表达,能够估计含偏标签与正确标签的联合概率分布,从而能筛选出正确数据,并有效降低含偏标签对相关任务的影响。
[0005]
本发明为达到上述发明目的,采用如下技术方案:
[0006]
本发明一种基于置信学习的有偏数据检测方法的特点是按如下步骤进行:
[0007]
步骤1、将包含有偏数据的样本数据集记为x={x1,x2,

,xk,

,xk},其中,k表示所述样本数据集x中的样本数,xk表示第k个样本,且表示第k个样本,且表示第k个样本xk的文本,且文本,且表示第k个样本xk中文本的第n个单词,n为文本的
单词数;表示第k个样本xk的图片集,且的图片集,且表示第k个样本xk中图片集的第m张图片;m为图片集的图片数量;表示第k个样本xk中含偏标签集,且中含偏标签集,且中含偏标签集,且表示第k个样本xk中含偏标签集的第g个含偏标签,g为含偏标签集的含偏标签数;
[0008]
将所述样本数据集x中所有样本的不重复的含偏标签集记作将所述样本数据集x中所有样本的不重复的含偏标签集记作表示第c个含偏标签,c为所述样本数据集x中不重复的含偏标签数量;
[0009]
步骤2、构建多模态集成预测模块,包括:文本分类器、视觉分类器和融合层;
[0010]
步骤2.1、基于bi-lstm模型构建文本分类器;
[0011]
步骤2.1.1、所述文本分类器通过一个嵌入层对第n个单词进行处理,得到第n个单词的嵌入向量从而得到的嵌入向量集合
[0012]
步骤2.1.2、所述文本分类器将嵌入向量集合ek输入bi-lstm网络中并获得文本描述的词级别表征hn:
[0013]
所述bi-lstm网络中的前向网络按照到的顺序读取嵌入向量,并利用式(1)得到第n个单词的前向隐藏状态
[0014][0015]
式(1)中,代表第n-1个单词的前向隐藏状态;
[0016]
所述bi-lstm网络中的后向网络按照到的顺序读取嵌入向量,并利用式(2)得道第n个单词的后向隐藏状态
[0017][0018]
式(2)中,代表第n 1个单词单的后向隐藏状态;
[0019]
所述bi-lstm网络再通过式(3)得到结合上下文情境的第n个单词的表征表示从而得到第k个样本xk的文本的单词表征
[0020][0021]
步骤2.1.3、所述文本分类器采用平均池化的方法处理来获取文本的全局特征再通过softmax分类层对全局特征进行处理,从而利用式(4)生成仅在文本条件下,第k个样本xk对第c个含偏标签的预测概率
[0022][0023]
式(4)中,和分别表示在第c个标签下的参数矩阵和偏置向量;
[0024]
步骤2.2、基于预训练后的vgg-16网络构建视觉分类器;
[0025]
步骤2.2.1、所述视觉分类器将第k个样本的图片集输入预训练后的vgg-16模型中进行处理,并将vgg-16模型中倒数第二个全连接层的输出作为图片集的特征表示集合;其中,表示中第m张图片的特征表示;
[0026]
步骤2.2.2、所述视觉分类器采用平均池化的方法对图片集的特征表示集合的特征表示集合进行聚合操作,得到第k个样本xk的图片集的视觉特征再使用一个mlp层对视觉特征进行处理,并利用式(5)得到视觉特征的隐藏展示最后使用另一个mlp层对隐藏展示进行处理,并利用式(6)生成仅在视觉条件下,第k个样本xk对第c个含偏标签的预测概率
[0027][0028][0029]
式(5)和式(6)中,tanh表示双曲正切函数,并作为隐藏层的激活函数,分别表示隐藏层对应的参数矩阵和偏置向量;和分别表示在第c个含偏标签下的参数矩阵和偏置向量;
[0030]
步骤2.3、融合层使用如式(10)所示的加权平均法对预测概率进行集成,得到第k个样本xk对第c个含偏标签最终的集成预测概率
[0031][0032]
式(7)中,α,β分别为文本分类器和视觉分类器的权重大小,满足α,β∈[0,1]且α β=1;
[0033]
步骤3、多模态集成预测模块的训练:
[0034]
步骤3.1、利用式(8)构建多模态集成预测模块的交叉熵损失函数j:
[0035][0036]
式(8)中,s表示所述多模态样本数据集x中的部分样本作为训练集,|s|表示训练集的样本数,表示训练集中第f个样本xf的含偏标签集;
[0037]
步骤3.2、利用误差反向传播算法对所述多模态集成预测模块进行训练,并最小化损失函数j用于更新模块参数,直到所述损失函数j收敛为止,从而得到最优多模态集成预测模型;
[0038]
步骤4、利用式(9)计算所述含偏标签集中第j个含偏标签的置信度阈值tj:
[0039][0040]
式(9)中,表示样本数据集x中具有第j个含偏标签的样本子集,表示样本子集中的任意一个样本x在最优多模态集成预测模型的参数θ下对第j个含偏标签的预测概率,||表示计数操作;
[0041]
步骤4、构建置信联合计数矩阵和联合概率分布;
[0042]
步骤4.1、根据置信度阈值,对所述样本数据集x中的正确标签进行估计,得到正确标签集y
*
,从而利用式(10)和式(11)计算含偏标签集与正确标签集y
*
的置信联合计数矩阵
[0043][0044][0045]
式(10)与式(11)中,表示中第i行第j列的值,即为同时具有第i个含偏标签与第j个正确标签的样本数量的样本数量表示同时具有第i个含偏标签与第j个正确标签的估计数据集合;
[0046]
步骤4.2、根据置信联合计数矩阵估计含偏标签集与正确标签集y
*
的联合概率分布
[0047]
步骤4.2.1、利用式(12)得到修正后计数矩阵第i行第j列的值
[0048][0049]
步骤4.2.2、利用式(13)得到含偏标签集与正确标签集的联合概率分布估计
[0050][0051]
式(13)中,为联合概率分布估计中第i行第j列的值,表示数据中同时具有第i个含偏标签与第j个正确标签的概率,且满足
[0052]
步骤5、根据有偏率对有偏数据进行过滤:
[0053]
步骤5.1、从中的所有非对角线元素所对应的中选择若干个使得式(14)最小的样本并组成有偏数据候选集:
[0054][0055]
式(14)中,表示样本子集中的任意一个样本x在参数θ下对第i个含偏标签的预测概率;
[0056]
步骤5.2、利用式(15)计算所述有偏数据候选集中的每个样本的边际并用于对样本进行升序排序,得到排序后的有偏数据候选集:
[0057][0058]
式(15)中,mean表示平均池化操作;为样本数据集x中的第i个含偏标签;表示
第k个样本xk的含偏标签集合;表示第k个样本xk在参数θ下对第i个含偏标签的预测概率;
[0059]
步骤5.3、对排序后的有偏数据候选集,选取前一定比例的数据进行过滤,得到相对干净的数据集。
[0060]
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述有偏数据检测方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
[0061]
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述有偏数据检测方法的步骤。
[0062]
与现有技术相比,本发明的有益效果在于:
[0063]
1.本发明提出了一种基于置信学习的有偏数据检测方法,利用基于多模态数据的神经网络集成预测模块输出每类标签的平均预测概率,并结合置信学习框架,计算正确标签与有偏标签的联合概率分布,通过进一步过滤有效降低了数据集的含偏率。
[0064]
2.本发明不同于构造鲁棒的模型结构来降低有偏数据干扰的方式,本发明提出的方法从数据层面出发,以识别并过滤有偏标签为目标,相比于模型结构调整极大提升了通用性和普适性,并且具有简单有效易实施的特点。
[0065]
3.本发明不需要任何先验知识,如部分高质量的标签数据,显然更加符合现实情况。同时具有很强的扩展性,可以轻松扩展到几乎所有单模态、多模态数据集。
[0066]
4.本发明引入置信学习,采用基于不确定性估计的统计方法,不需要做随机均匀的有偏标签分布假设,可以处理不平衡数据。同时由于置信阈值的缘故,并不要求多模态集成预测模块的预测概率具有绝对准确性。
[0067]
5.本发明通过对面向多模态数据的有偏标签检测的研究,有助于提升推荐标签质量,对提升信息检索服务质量与用户体验有一定的现实意义,同时能够帮助研究人员设计更加有效的相关推荐系统。
附图说明
[0068]
图1为本发明基于置信学习的有偏数据检测框架图;
[0069]
图2为本发明的文本分类器结构图;
[0070]
图3为本发明的视觉分类器结构图。
具体实施方式
[0071]
本实例中一种基于置信学习的有偏数据检测方法是结合置信学习框架,通过将多模态集成预测模块在每类标签下的平均预测概率作为置信度阈值以计算出正确标签与有偏标签的联合概率分布,从而能以此为标准进行数据过滤,获得较为干净的数据集。如图1所示,该置信学习框架主要包含多模态集成预测与置信学习过滤两大模块。其中,多模态集成预测模块主要负责预测出标签有偏概率。该模块主要由文本分类器与视觉分类器组成,如图2、图3所示。文本分类器使用双向lstm网络提取文本语义信息,视觉分类器使用预训练的vgg网络提取视觉信息。最后通过集成策略结合两种分类器结果,生成最终的预测概率。该模块以含偏标签作为训练标准进行交叉验证,从而得出不同样本在不同类别下的概率分
布。置信学习过滤模块利用多模态集成预测模块的结果,计算类似于混淆矩阵的计数矩阵,进而估计出有偏标签与正确标签的联合概率分布。然后根据有偏标签分布概率选取一定数量的样本作为有偏数据候选集,同时对样本按照标签有偏概率进行排序。最后从有偏数据候选集中选取一定比例的数据进行过滤,从而构建较为干净的数据集,降低有偏标签对模型精度的影响。具体的说,是按照如下步骤进行的:
[0072]
步骤1、将包含有偏数据的样本数据集记为x={x1,x2,

,xk,

,xk},其中,k表示样本数据集x中的样本数,xk表示第k个样本,且表示第k个样本,且表示第k个样本xk的文本,且本,且表示第k个样本xk中文本的第n个单词,n为文本的单词数;表示第k个样本xk的图片集,且的图片集,且表示第k个样本xk中图片集的第m张图片;m为图片集的图片数量;表示第k个样本xk中含偏标签集,且中含偏标签集,且中含偏标签集,且表示第k个样本xk中含偏标签集的第g个含偏标签,g为含偏标签集的含偏标签数;
[0073]
将样本数据集x中所有样本的不重复的含偏标签集记作将样本数据集x中所有样本的不重复的含偏标签集记作表示第c个含偏标签,c为样本数据集x中不重复的含偏标签数量;
[0074]
步骤2、构建多模态集成预测模块,包括:文本分类器、视觉分类器和融合层;
[0075]
步骤2.1、基于bi-lstm模型构建文本分类器;
[0076]
步骤2.1.1、文本分类器通过一个嵌入层对第n个单词进行处理,得到第n个单词的嵌入向量从而得到的嵌入向量集合且为了保证网络输入尺寸一致,对长度不足n的样本填充0向量,并在后面环节屏蔽填充值;
[0077]
步骤2.1.2、尽管lstm已经能够很好地处理文本数据,但它忽略了下文情境对单词语义表达的影响。所以,为了充分利用上下文情境对单词语义理解的辅助作用,文本分类器采用bi-lstm来提取文本特征。文本分类器将嵌入向量集合ek输入bi-lstm网络中并获得文本描述的词级别表征hn:
[0078]
bi-lstm网络中的前向网络按照到的顺序读取嵌入向量,并利用式(1)得到第n个单词的前向隐藏状态
[0079][0080]
式(1)中,代表第n-1个单词的前向隐藏状态;
[0081]
bi-lstm网络中的后向网络按照到的顺序读取嵌入向量,并利用式(2)得道第n个单词的后向隐藏状态
[0082][0083]
式(2)中,代表第n 1个单词单的后向隐藏状态;
[0084]
bi-lstm网络再通过式(3)得到结合上下文情境的第n个单词的表征表示从而得到第k个样本xk的文本的单词表征
[0085][0086]
步骤2.1.3、文本分类器采用平均池化的方法处理来获取文本的全局特征再通过softmax分类层对全局特征进行处理,从而利用式(4)生成仅在文本条件下,第k个样本xk对第c个含偏标签的预测概率
[0087][0088]
式(4)中,和分别表示在第c个标签下的参数矩阵和偏置向量;
[0089]
步骤2.2、基于预训练后的vgg-16网络构建视觉分类器;
[0090]
步骤2.2.1、由于在多模态帖子中,每条数据大都含有多张图片,所以仅仅使用单张图片来生成视觉特征是有失偏颇的。正是考虑到这一广泛存在的事实,在视觉分类器的结构设计上做出了相应调整,具体如图3所示。视觉分类器将第k个样本的图片集输入预训练后的vgg-16模型中进行处理,并将vgg-16模型中倒数第二个全连接层的输出16模型中倒数第二个全连接层的输出作为图片集的特征表示集合;其中,表示中第m张图片的特征表示。对于图片张数不足m的样本,同样以0向量填充,并在后面环节进行屏蔽;
[0091]
步骤2.2.2、视觉分类器采用平均池化的方法对图片集的特征表示集合的特征表示集合进行聚合操作,得到第k个样本xk的图片集的视觉特征再使用一个mlp层对视觉特征进行处理,从而利用式(5)得到视觉特征的隐藏展示最后使用另一个mlp层对隐藏展示进行处理,从而利用式(6)生成仅在视觉条件下,第k个样本xk对第c个含偏标签的预测概率
[0092][0093][0094]
式(5)和式(6)中,tanh表示双曲正切函数,并作为隐藏层的激活函数,分别表示隐藏层对应的参数矩阵和偏置向量;和分别表示在第c个含偏标签下的参数矩阵和偏置向量;
[0095]
步骤2.3、融合层使用如式(10)所示的加权平均法对预测概率进行集成,得到第k个样本xk对第c个含偏标签最终的集成预测概率
[0096][0097]
式(7)中,α,β分别为文本分类器和视觉分类器的权重大小,满足α,β∈[0,1]且α β=1。发明采用网格搜索算法,以averageprecision作为评价指标,对α,β取值在可行域中通过步长0.1进行遍历搜索,以此获得适当的权重值;
[0098]
步骤3、多模态集成预测模块的训练:
[0099]
步骤3.1、置信学习过滤模块主要是对多模态集成预测模块获得的概率进行一系
列的统计计算,因此并不存在训练问题。所以模型的训练策略主要集中在第一阶段;
[0100]
利用式(8)构建多模态集成预测模块的交叉熵损失函数j:
[0101][0102]
式(8)中,s表示所述多模态样本数据集x中的部分样本作为训练集,|s|表示训练集的样本数,表示训练集中第f个样本xf的含偏标签集;
[0103]
步骤3.2、利用误差反向传播算法对多模态集成预测模块进行训练,并最小化损失函数j用于更新模块参数,直到损失函数j收敛为止,从而得到最优多模态集成预测模型;通过最小化上面的损失函数,能够将真实标签被推荐的概率最大化,从而优化模型参数,达到训练的目标;
[0104]
继续步骤之前,先进行这样的假设:对于所有样本,均存在潜在的正确标签y
*
∈[λ];在标记时存在一个基于类的有偏处理过程将y
*
映射为因此每类标签j∈[λ]都会有一定概率被标记为标签i∈[λ]。显然,这一假设是非常合理的,任何标签都会在一定概率下被错误标记为其他任意标签,并且不同标签被标记为不同类别的错误标签的概率也是不同的。例如在手写数字识别中,对于数字“4”被错误标记为“9”或“3”的概率,直觉上前者要远远高于后者。正是在这样的假设下,置信学习方法对含偏标签与正确标签的联合概率分布进行估计,从而执行基于有偏率的剪枝操作。
[0105]
步骤4、在多模态集成预测模块中,已经获得了每条数据对于含偏标签的预测概率。这些概率可以称之为置信度,表示样本具有相应标签的可能性大小。通过设立置信度阈值,可以对样本的正确标签进行估计。由于不同标签概率分布的差异性,以及广泛存在的不平衡问题,导致对所有标签采用一致的置信度阈值的做法是不理想的。因此,针对每类标签,设立不同的置信度阈值;
[0106]
利用式(9)计算含偏标签集中第j个含偏标签的置信度阈值tj:
[0107][0108]
式(9)中,表示样本数据集x中具有第j个含偏标签的样本子集,表示样本子集中的任意一个样本x在最优多模态集成预测模型的参数θ下对第j个含偏标签的预测概率,||表示计数操作;选取每类标签的期望置信度作为阈值,有效考虑了不同标签的差异性,提升了方法的鲁棒性;
[0109]
步骤4、构建置信联合计数矩阵和联合概率分布;
[0110]
步骤4.1、根据置信度阈值,对样本数据集x中的正确标签进行估计,得到正确标签集y
*
,从而利用式(10)和式(11)计算含偏标签集与正确标签集y
*
的置信联合计数矩阵
[0111][0112][0113]
式(10)与式(11)中,表示中第i行第j列的值,即为同时具有第i个含
偏标签与第j个正确标签的样本数量的样本数量表示同时具有第i个含偏标签与第j个正确标签的估计数据集合;具体思想是通过判断置信度与阈值的大小来估计样本的正确标签。这也是符合直觉的,某类标签的置信度越高,则越有可能是样本的正确标签;
[0114]
步骤4.2、根据置信联合计数矩阵估计含偏标签集与正确标签集y
*
的联合概率分布修正计数矩阵的目的是为了让每一行的计数和都与观察到的样本总数一致,从而使得中所有元素之和等于总标签数。因为在计算计数矩阵时用到了阈值限定条件,可能存在某些样本数据在所有标签上的置信度都低于阈值,导致产生该样本不具有任何正确标签的估计结果。此外,在多标签情况下,中每行的计数和要远大于样本总数。因为这些因素的存在,对计数矩阵进行修正是十分必要的;
[0115]
步骤4.2.1、利用式(12)得到修正后计数矩阵第i行第j列的值
[0116][0117]
步骤4.2.2、利用式(13)得到含偏标签集与正确标签集y
*
的联合概率分布估计
[0118][0119]
式(13)中,为联合概率分布估计中第i行第j列的值,表示数据中同时具有第i个含偏标签与第j个正确标签的概率,且满足
[0120]
步骤5、根据有偏率对有偏数据进行过滤:
[0121]
步骤5.1、从中的所有非对角线元素所对应的中选择若干个使得式(14)最小的样本并组成有偏数据候选集:
[0122][0123]
式(14)中,表示样本子集中的任意一个样本x在参数θ下对第i个含偏标签的预测概率;
[0124]
步骤5.2、一方面,由于本发明基于不确定性估计,所以不能保证候选集中的所有数据都为有偏数据;另一方面,过度清理可能会导致数据较少拟合不足的问题。所以,将候选集中的数据根据样本边际进行排序;
[0125]
利用式(15)计算有偏数据候选集中的每个样本的边际并用于对样本进行升序排序,得到排序后的有偏数据候选集:
[0126][0127]
式(15)中,mean表示平均池化操作;为样本数据集x中的第i个含偏标签;表示样本xk的含偏标签集合;表示样本xk在参数θ下对第i个含偏标签的预测概率;
[0128]
步骤5.3、对排序后的有偏数据候选集,选取前一定比例的数据进行过滤,得到相对干净的数据集;为了选取合适的比例大小,发明通过网格搜索算法进行学习。具体地,首先将按照不同移除比例处理后的数据输入多模态集成预测模块,获取样本对标签的预测概率然后根据相应评估指标,例如averageprecision值,来评判预测效果;最后根据预测效果选取最佳移除率。
[0129]
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述有偏数据检测方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
[0130]
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述有偏数据检测方法的步骤。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献