一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于生成目标多模态分类模型的方法及装置

2022-09-03 20:55:38 来源:中国专利 TAG:


1.本公开的实施例涉及计算机技术领域,具体地,涉及用于生成目标多模态分类模型的方法及装置。


背景技术:

2.在大数据时代有海量的数据可供人们使用,这些数据可来自各种领域,具有不同的模态(例如,音频、图片、文字等)。为了更好地使用这些数据,可从这些数据中提取相应的特征并利用这些特征对这些数据进行分类。一种利用这些特征对这些数据进行分类的方式是直接将每个模态下的特征拼接在一起,再对拼接特征进行机器学习,以学会对拼接特征进行分类。考虑到这些特征具有不同的模态并且每个模态下的特征维度可能不小。如果将每个模态下的特征进行拼接,再对拼接特征进行机器学习,则会增加运算量且降低分类准确度。多模态分类模型通过使用单独的函数分别对每个模态进行建模来提高机器学习表现。


技术实现要素:

3.本文中描述的实施例提供了一种用于生成目标多模态分类模型的方法、装置以及存储有计算机程序的计算机可读存储介质。
4.根据本公开的第一方面,提供了一种用于生成目标多模态分类模型的方法。该方法包括:获取多个训练样本的分类标签向量和在多模态中的每个模态下的特征向量;构建训练标签矩阵,其中,训练标签矩阵包括该多个训练样本的分类标签向量;按模态构建多个训练样本矩阵,其中,每个训练样本矩阵包括该多个训练样本在相应模态下的特征向量;建立用于将训练标签矩阵和该多个训练样本矩阵映射到隐空间中的同一隐空间特征矩阵的初始多模态分类模型;使用训练标签矩阵和该多个训练样本矩阵共同训练初始多模态分类模型以获得该多个训练样本矩阵与隐空间特征矩阵的映射关系;以及基于映射关系来生成目标多模态分类模型。
5.在本公开的一些实施例中,借助第一映射矩阵将训练标签矩阵映射到隐空间特征矩阵,借助多个第二映射矩阵将该多个训练样本矩阵分别映射到隐空间特征矩阵,该多个训练样本矩阵与隐空间特征矩阵的映射关系由该多个第二映射矩阵来表示。
6.在本公开的一些实施例中,使用训练标签矩阵和该多个训练样本矩阵共同训练初始多模态分类模型以获得该多个训练样本矩阵与隐空间特征矩阵的映射关系包括最小化以下项的加权和:训练标签矩阵与第一映射矩阵乘以隐空间特征矩阵的积之间的第一差异;以及多个训练样本矩阵中的每个与相应的第二映射矩阵乘以隐空间特征矩阵的积之间的第二差异。
7.在本公开的一些实施例中,该项还包括:隐空间特征矩阵乘以训练标签矩阵与第一映射矩阵之间的第三差异的积;以及隐空间特征矩阵乘以多个训练样本矩阵中的每个与相应的第二映射矩阵之间的第四差异的积。
8.在本公开的一些实施例中,该项还包括:正则项。
9.在本公开的一些实施例中,该方法还包括:提取隐空间特征矩阵中的元素之间的关系;基于所提取的关系来更新隐空间特征矩阵;以及在目标多模态分类模型中基于更新后的隐空间特征矩阵来执行分类操作。
10.在本公开的一些实施例中,该方法还包括:对所提取的关系进行归一化处理。
11.在本公开的一些实施例中,该方法还包括:对所获取的特征向量进行归一化处理。
12.根据本公开的第二方面,提供了一种用于生成目标多模态分类模型的装置。该装置包括至少一个处理器;以及存储有计算机程序的至少一个存储器。当计算机程序由至少一个处理器执行时,使得装置获取多个训练样本的分类标签向量和在多模态中的每个模态下的特征向量;构建训练标签矩阵,其中,训练标签矩阵包括多个训练样本的分类标签向量;按模态构建多个训练样本矩阵,其中,每个训练样本矩阵包括多个训练样本在相应模态下的特征向量;建立用于将训练标签矩阵和多个训练样本矩阵映射到隐空间中的同一隐空间特征矩阵的初始多模态分类模型;使用训练标签矩阵和多个训练样本矩阵共同训练初始多模态分类模型以获得多个训练样本矩阵与隐空间特征矩阵的映射关系;以及基于映射关系来生成目标多模态分类模型。
13.在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还:提取隐空间特征矩阵中的元素之间的关系;基于所提取的关系来更新隐空间特征矩阵;以及在目标多模态分类模型中基于更新后的隐空间特征矩阵来执行分类操作。
14.在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还:对所提取的关系进行归一化处理。
15.在本公开的一些实施例中,计算机程序在由至少一个处理器执行时使得装置还:对所获取的特征向量进行归一化处理。
16.根据本公开的第三方面,提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时实现根据本公开的第一方面所述的方法的步骤。
附图说明
17.为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
18.图1是根据本公开的实施例的用于生成目标多模态分类模型的方法的示例性流程图;
19.图2是根据本公开的实施例的用于生成目标多模态分类模型的方法所包括的进一步的步骤的示例性流程图;以及
20.图3是根据本公开的实施例的用于生成目标多模态分类模型的装置的示意性框图。
21.需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
22.为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本
公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
23.除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。另外,诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
24.多模态分类模型需要不同模态(在上下文中也可被称为“视图”)下的特征具有一致性,从而将多个视图的数据对齐。共正则化方法通过优化正则化项来提高不同视图特征的一致性,从而将多个视图的数据对齐。
25.典型相关分析(canonical correlation analysis,简称cca)可用于将多个视图的数据对齐。cca将两个视图中的两组特征向量分别变换到一个共享隐空间中,使得两组变换后的特征向量的相关系数最大化。cca的主要缺点在于只考虑了视图对之间的相关性(二阶相关性),而忽略了高阶相关性。由于视图对的特征之间的距离是成对计算的,所以这些方法没有办法扩展到多个视图的情况。尽管可以设计一个代价函数来度量两两一致性的穷举排列,但是这种方法计算效率不高。而且,两两比较并不能解释三个或更多视图之间的高阶相关性。
26.此外,基于cca的方法是无监督的,所以它们区分不同类别的数据的能力不高。
27.本公开的实施例提出一种用于生成目标多模态分类模型的方法。该方法不仅考虑了特征视图,还考虑了类视图,以实现有监督的多视图学习。图1示出根据本公开的实施例的用于生成目标多模态分类模型的方法100的示例性流程图。
28.在该方法100中,在框s102处,获取多个训练样本的分类标签向量和在多模态中的每个模态下的特征向量。在本公开的一些实施例中,在类视图下,每个训练样本的分类标签向量指示该训练样本的分类。在上下文中,以表示该多个训练样本的分类标签向量,其中,k表示该多个训练样本中的类别数量。在该多个训练样本具有k个类别的情况下,每个分类标签向量的维度为k,每个维度对应指示一个类别的标志位。以k为3进行举例说明,分类标签向量“100”可表示第一类别(例如,“狗”),分类标签向量“010”可表示第二类别(例如,“猫”),分类标签向量“001”可表示第三类别(例如,“鸟”)。
29.在本公开的一些实施例中,该多个训练样本的数量为n。每个训练样本可包括m个模态(m个特征视图)下的子训练样本。可从每个子训练样本提取特征向量。在上下文中,以表示在第j模态下的第i子训练样本的特征向量,其中,dj表示在第j模态下的每个特征向量中包括的特征的数量。在本公开的一些实施例中,可对特征向量进行归一化处理。在上下文中所讨论的特征向量可以指经过归一化处理之后的特征向量。
30.在框s104处,构建训练标签矩阵。其中,训练标签矩阵包括该多个训练样本的分类标签向量。在上下文中,以y=[y1,

,yn]表示训练标签矩阵。y中的每一列表示一个训练样本的分类标签向量,其中,yi表示第i列(对应第i训练样本)的分类标签向量,
[0031]
在框s106处,按模态构建多个训练样本矩阵,其中,每个训练样本矩阵包括多个训练样本在相应模态下的特征向量。在上下文中,以以表示第j模态下的训练样本矩阵,xj中的每一列表示第j模态下的一个子训练样本的特征向量,其中,可表示在第j模态下的第i列(第i子训练样本)的特征向量,
[0032]
在框s108处,建立用于将训练标签矩阵和多个训练样本矩阵映射到隐空间中的同一隐空间特征矩阵的初始多模态分类模型。在本公开的一些实施例中,在初始多模态分类模型中,可借助第一映射矩阵可借助第一映射矩阵将训练标签矩阵y映射到隐空间特征矩阵矩阵表示隐空间特征矩阵z中的列向量zi中每个特征对所有类别的贡献。
[0033]
可借助多个(m个)第二映射矩阵(其中,0≤j≤m)将该多个(m个)训练样本矩阵xj分别映射到隐空间特征矩阵z。该多个训练样本矩阵xj与隐空间特征矩阵z的映射关系由多个(m个)第二映射矩阵pj来表示。表示隐空间中的每个特征如何用所有特征来表达。
[0034]
在本公开的一些实施例中,在初始多模态分类模型中,第一映射矩阵q、隐空间特征矩阵z和多个(m个)第二映射矩阵pj可被初始设置为全1矩阵。隐空间特征矩阵z的维度r可以是经验值。
[0035]
在框s110处,使用训练标签矩阵和多个训练样本矩阵共同训练初始多模态分类模型以获得多个训练样本矩阵与隐空间特征矩阵的映射关系。
[0036]
在本公开的一些实施例中,用于训练初始多模态分类模型的损失函数可被设置为:
[0037][0038]
其中,
[0039]
式(1)也可被表示为:
[0040]
其中,(即,)表示训练标签矩阵y与第一映射矩阵q乘以隐空间特征矩阵z的积之间的第一差异,(即,)表示多个训练样本矩阵中的每个训练样本矩阵xj与相应的第二映射矩阵pj乘以隐空间特征矩阵z的
积之间的第二差异,(即,)表示各个(m个)第二差异的加权和。针对每个模态(视图)的权重大小可通过s来调节,其中,s是指数因子,s》1。
[0041]
通过训练可学习到训练样本与隐空间特征之间的一对多关系(在上下文中可被称为全局关系,即yi与zi的关系)。在提取隐空间特征时,直接学习所有隐空间特征zi。在训练过程中,可通过最小化损失函数l1来使得pjzi是在r维隐空间中的最优估计。这样隐空间特征矩阵z可体现各个视图下的特征的共享信息。由于该训练过程是有监督的,相对于无监督的多视图学习,根据本公开的实施例的多模态分类模型能够更好地进行分类。
[0042]
进一步地,本公开的实施例还考虑了训练样本与隐空间特征之间的一对一关系(在上下文中可被称为局部关系,即yi与不同z
l,i
的关系)。在提取隐空间特征时,学习每一个隐空间特征z
l,i
(其中,0≤l≤r,0≤i≤n)。
[0043]
在该实施例中,用于训练初始多模态分类模型的损失函数可被设置为:
[0044]
l=l1 δl2(2)
[0045]
其中,
[0046]
在式(3)中,
[0047]
其中,表示隐空间特征矩阵z乘以训练标签矩阵y与第一映射矩阵q之间的第三差异的积,表示隐空间特征矩阵z乘以多个训练样本矩阵中的每个xj与相应的第二映射矩阵pj之间的第四差异的积,表示z与各个第四差异的积的加权和,δ是对全局关系和局部关系的相对贡献进行加权的参数。在本公开的一些实施例中,δ可以是经验值。
[0048]
如果训练样本特征与第二映射矩阵中的向量相似(就会较小),就说明该训练样本和隐空间特征相关性比较大,从而使得z
l,i
变大。同理,在类视图中,如果yi与q
l
相似,也会使得z
l,i
变大。反之则z
l,i
变小。
[0049]
更进一步地,为了避免过拟合,还可在损失函数中加入正则项。在本公开的一些实施例中,用于训练初始多模态分类模型的损失函数可被设置为:
[0050]
[0051]
该项还包括:表示正则项,结构化正则项(l
2,1
范式)除了可以用于增加pj和q的稀疏性,还可以用于灵活地选择隐空间特征数。在本公开的一些实施例中,λ可以是经验值。
[0052]
经过最小化式(1)、(2)或(4)中的损失函数的训练,可获得pj,z,q,在本公开的一些实施例中,在损失函数收敛的情况下停止训练过程。
[0053]
在框s112处,基于映射关系来生成目标多模态分类模型。如上所述,该多个训练样本矩阵xj与隐空间特征矩阵z的映射关系由多个第二映射矩阵pj来表示。通过训练可使得pjzi是在r维隐空间中的最优估计。通过上式(1)、(2)或(4)可得到pj。在目标多模态分类模型中,可将输入的测试样本(测试样本不带标签)进行归一化处理并形成样本矩阵x
′j。然后,通过pj将x
′j映射到隐空间特征矩阵z

。接着,可对映射到隐空间特征矩阵z

中的测试样本进行分类。
[0054]
本领域技术人员应了解,在框s106处执行的操作可与在框s104处执行的操作并行地执行,或者比在框s104处执行的操作更先执行。
[0055]
在方法100中,通过添加类视图,可使得特征向量与分类标签向量进行有监督的特征融合,隐空间具有判别性,从而提高目标多模态分类模型执行分类的准确性。在考虑所有特征向量和分类标签向量的情况下,可使得目标多模态分类模型是高阶特征相关的。在提取隐空间特征时,同时考虑了训练样本与隐空间特征的全局关系和局部关系,可使得隐空间特征矩阵更好地体现各个视图下的特征的共享信息。
[0056]
此外,多视图学习方法的输出通常是投影到隐空间后的经过变换的特征。在确定最终的映射时,变换后特征之间的相关性可能对后续分类任务产生影响。因此,本公开的实施例提出考虑了变换后的特征之间的相关性的进一步的步骤。
[0057]
图2示出根据本公开的实施例的用于生成目标多模态分类模型的方法所包括的进一步的步骤的示例性流程图。
[0058]
在框s202处,提取隐空间特征矩阵中的元素之间的关系。其中,每个元素表示一个隐空间特征。由于学习到的隐空间特征矩阵z同时考虑了训练样本矩阵xj与训练标签矩阵y,那么在提取隐空间特征相关性的时候也需要融合训练样本矩阵xj与训练标签矩阵y,由于表示如何用第j特征视图来表达隐空间特征,而表示不同隐空间特征对所有类别的贡献。pj、q和z都含有隐空间特征信息,都需要用来学习隐空间特征之间的关系。
[0059]
在本公开的一些实施例中,可建立一个子模型,并以下式(5)为损失函数来学习隐空间特征之间的关系。
[0060][0061]
s.t.θ≥0,diag(θ)=0,θ=θ
t
[0062]
在式(5)中,pj,z,q,可通过式(1)、(2)或(4)来获得。表示任何两个隐空间特征之间的关系。θ作为隐空间特征关系矩阵是对称的。θ矩阵的每一行表示相对应
的隐空间特征和其他隐空间特征之间的关系。在本公开的一些实施例中,可限制θe=e,以对所提取的关系进行归一化处理。其中,e是一个全为1的列向量。通过对子模型进行训练以最小化l3,可获得θ。
[0063]
在框s204处,基于所提取的关系来更新隐空间特征矩阵。在本公开的一些实施例中,可基于下式来更新隐空间特征矩阵:
[0064]
z=z(βi (1-β)θ)(6)
[0065]
其中,β∈[0,1],i表示单位矩阵。在本公开的一些实施例中,β可以是经验值。
[0066]
在本公开的一些实施例中,在目标多模态分类模型中,可将输入的测试样本(测试样本不带标签)进行归一化处理并形成样本矩阵x
′j。然后,通过pj将x
′j映射到隐空间特征矩阵z

。接着,将z

带入式(6)以获得更新的z


[0067]
在框s206处,在目标多模态分类模型中基于更新后的隐空间特征矩阵来执行分类操作。在上述示例中,可对更新后的z

中的测试样本进行分类。在本公开的一些实施例中,可用分类器svm或者其它分类器对映射到隐空间的测试样本进行分类。并且目标多模态分类模型可输出该测试样本的标签。
[0068]
根据本公开的实施例的用于生成目标多模态分类模型的方法通过利用隐空间特征矩阵中的元素之间的关系来更新隐空间特征矩阵,提高了目标多模态分类模型执行分类的准确性。
[0069]
图3示出根据本公开的实施例的用于生成目标多模态分类模型的装置300的示意性框图。如图3所示,该装置300可包括处理器310和存储有计算机程序的存储器320。当计算机程序由处理器310执行时,使得装置300可执行如图1所示的方法100的步骤。在一个示例中,装置300可以是计算机设备或云计算节点。装置300可获取多个训练样本的分类标签向量和在多模态中的每个模态下的特征向量。装置300可构建训练标签矩阵。其中,训练标签矩阵包括该多个训练样本的分类标签向量。装置300可按模态构建多个训练样本矩阵。其中,每个训练样本矩阵包括该多个训练样本在相应模态下的特征向量。装置300可建立用于将训练标签矩阵和该多个训练样本矩阵映射到隐空间中的同一隐空间特征矩阵的初始多模态分类模型。装置300可使用训练标签矩阵和该多个训练样本矩阵共同训练初始多模态分类模型以获得该多个训练样本矩阵与隐空间特征矩阵的映射关系。装置300可基于映射关系来生成目标多模态分类模型。
[0070]
在本公开的一些实施例中,装置300可借助第一映射矩阵将训练标签矩阵映射到隐空间特征矩阵。装置300可借助多个第二映射矩阵将多个训练样本矩阵分别映射到隐空间特征矩阵。该多个训练样本矩阵与隐空间特征矩阵的映射关系由多个第二映射矩阵来表示。
[0071]
在本公开的一些实施例中,装置300可最小化以下项的加权和:训练标签矩阵与第一映射矩阵乘以隐空间特征矩阵的积之间的第一差异;以及多个训练样本矩阵中的每个与相应的第二映射矩阵乘以隐空间特征矩阵的积之间的第二差异。
[0072]
在本公开的一些实施例中,装置300可最小化以下项的加权和:训练标签矩阵与第一映射矩阵乘以隐空间特征矩阵的积之间的第一差异;多个训练样本矩阵中的每个与相应的第二映射矩阵乘以隐空间特征矩阵的积之间的第二差异;隐空间特征矩阵乘以训练标签矩阵与第一映射矩阵之间的第三差异的积;以及隐空间特征矩阵乘以多个训练样本矩阵中
的每个与相应的第二映射矩阵之间的第四差异的积。
[0073]
在本公开的一些实施例中,装置300可最小化以下项的加权和:训练标签矩阵与第一映射矩阵乘以隐空间特征矩阵的积之间的第一差异;多个训练样本矩阵中的每个与相应的第二映射矩阵乘以隐空间特征矩阵的积之间的第二差异;隐空间特征矩阵乘以训练标签矩阵与第一映射矩阵之间的第三差异的积;隐空间特征矩阵乘以多个训练样本矩阵中的每个与相应的第二映射矩阵之间的第四差异的积;以及正则项。
[0074]
在本公开的一些实施例中,装置300可提取隐空间特征矩阵中的元素之间的关系。装置300可基于所提取的关系来更新隐空间特征矩阵。装置300可在目标多模态分类模型中基于更新后的隐空间特征矩阵来执行分类操作。
[0075]
在本公开的一些实施例中,装置300可对所提取的关系进行归一化处理。
[0076]
在本公开的一些实施例中,装置300可对所获取的特征向量进行归一化处理。
[0077]
在本公开的实施例中,处理器310可以是例如中央处理单元(cpu)、微处理器、数字信号处理器(dsp)、基于多核的处理器架构的处理器等。存储器320可以是使用数据存储技术实现的任何类型的存储器,包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。
[0078]
此外,在本公开的实施例中,装置300也可包括输入设备330,例如键盘、鼠标等,用于输入训练样本和测试样本。另外,装置300还可包括输出设备340,例如显示器等,用于输出分类标签。
[0079]
在本公开的其它实施例中,还提供了一种存储有计算机程序的计算机可读存储介质,其中,计算机程序在由处理器执行时能够实现如图1至图3所示的方法的步骤。
[0080]
综上所述,根据本公开的实施例的用于生成目标多模态分类模型的方法和装置通过添加类视图使得特征向量与分类标签向量进行有监督的特征融合,隐空间具有判别性,从而提高目标多模态分类模型执行分类的准确性。在考虑所有特征向量和分类标签向量的情况下,可使得目标多模态分类模型是高阶特征相关的。在提取隐空间特征时,同时考虑了训练样本与隐空间特征的全局关系和局部关系,可使得隐空间特征矩阵更好地体现各个视图下的特征的共享信息。此外,通过利用隐空间特征矩阵中的元素之间的关系来更新隐空间特征矩阵,进一步提高了目标多模态分类模型执行分类的准确性。
[0081]
附图中的流程图和框图显示了根据本公开的多个实施例的装置和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0082]
除非上下文中另外明确地指出,否则在本文和所附权利要求中所使用的词语的单数形式包括复数,反之亦然。因而,当提及单数时,通常包括相应术语的复数。相似地,措辞“包含”和“包括”将解释为包含在内而不是独占性地。同样地,术语“包括”和“或”应当解释为包括在内的,除非本文中明确禁止这样的解释。在本文中使用术语“示例”之处,特别是当
其位于一组术语之后时,所述“示例”仅仅是示例性的和阐述性的,且不应当被认为是独占性的或广泛性的。
[0083]
适应性的进一步的方面和范围从本文中提供的描述变得明显。应当理解,本技术的各个方面可以单独或者与一个或多个其它方面组合实施。还应当理解,本文中的描述和特定实施例旨在仅说明的目的并不旨在限制本技术的范围。
[0084]
以上对本公开的若干实施例进行了详细描述,但显然,本领域技术人员可以在不脱离本公开的精神和范围的情况下对本公开的实施例进行各种修改和变型。本公开的保护范围由所附的权利要求限定。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献