一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

信息处理装置和信息处理方法与流程

2021-11-20 01:01:00 来源:中国专利 TAG:


1.本公开涉及信息处理领域,具体涉及信息处理装置和信息处理方法。


背景技术:

2.声音携带着大量环境信息以及环境中各种事件的信息。通过分析声音,可以区分和/或识别环境中所发生的事件。


技术实现要素:

3.在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
4.本公开的目的是提供一种改进的信息处理装置和信息处理方法。
5.根据本公开的一方面,提供了一种信息处理装置,包括:基础特征提取单元,被配置成提取声音的基础特征;多尺度特征提取单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征,提取所述声音的多尺度特征;初级分类单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征对所述声音进行初级分类,以获得初级分类结果;次级分类单元,被配置成基于所述声音的所述初级分类结果和所述多尺度特征对所述声音进行次级分类,以获得次级分类结果;以及分类结果融合单元,被配置成对所述声音的初级分类结果和次级分类结果进行融合,以获得所述声音的最终分类结果。
6.根据本公开的另一方面,提供了一种信息处理方法,包括:基础特征提取步骤,用于提取声音的基础特征;多尺度特征提取步骤,用于基于通过所述基础特征提取单元所提取的所述基础特征,提取所述声音的多尺度特征;初级分类步骤,用于基于通过所述基础特征提取单元所提取的所述基础特征对所述声音进行初级分类,以获得初级分类结果;次级分类步骤,用于基于所述声音的所述初级分类结果和所述多尺度特征对所述声音进行次级分类,以获得次级分类结果;以及分类结果融合步骤,用于对所述声音的初级分类结果和次级分类结果进行融合,以获得所述声音的最终分类结果。
7.根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品,以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
8.在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
9.本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下
面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
10.图1是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;
11.图2是示出层级化标签的示例的图;
12.图3是示出根据本公开的实施例的信息处理装置的架构示例的图;
13.图4是示出在次级分类器包括循环神经网络的示例情况下次级分类器的架构示例的图;
14.图5是示出根据本公开的实施例的多尺度特征提取单元的功能配置示例的框图;
15.图6是示出根据本公开的实施例的多尺度特征提取单元的架构示例的图;
16.图7是示出根据本公开的实施例的信息处理方法700的流程示例的流程图;以及
17.图8是示出作为本公开的实施例中可采用的个人计算机的示例结构的框图。
具体实施方式
18.在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
19.注意,在本说明书和附图中,具有基本相同或相似的功能配置的部件将由相同或相似的附图标记表示,并且将省略冗余的描述。
20.此外,在本说明书和附图中,还存在以下情况:通过在相同的附图标记之后附加不同的字母来区分具有基本相同的功能配置的多个部件。例如,根据需要将具有基本相同的功能配置的多个部件区分为多尺度特征提取单元104a和多尺度特征提取单元104b。然而,在不需要特别区分具有基本相同的功能配置的多个部件中的每一个的情况下,仅附加相同的附图标记。例如,在不需要特别区分多尺度特征提取单元104a和多尺度特征提取单元104b的情况下,将多尺度特征提取单元104a和多尺度特征提取单元104b简单地称为多尺度特征提取单元104。
21.在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
22.下面结合附图详细说明根据本公开的实施例。
23.首先,将参照图1描述根据本公开的实施例的信息处理装置的功能配置示例。图1是示出根据本公开的实施例的信息处理装置的功能配置示例的框图。如图1所示,根据本公开的实施例的信息处理装置100可以包括基础特征提取单元102、多尺度特征提取单元104、初级分类单元106、次级分类单元108和分类结果融合单元110。
24.基础特征提取单元102可以被配置成提取声音的基础特征,由此通过初级分类单元106对声音进行初级分类。例如,声音的基础特征可以是更利于对声音进行粗分类的特征。例如,基础特征提取单元102可以是基于神经网络(诸如卷积神经网络、循环神经网络
rnn等)的特征提取单元。比如,基础特征提取单元102可以包括多个层叠的二维卷积单元2d conv,其中每个二维卷积单元2d conv可以包括二维卷积层。另外,二维卷积单元2d conv还可以包括批归一化处理层、非线性激活层和/或最大池化层。注意,各个二维卷积单元2d conv的具体配置和参数可以不相同。
25.作为示例,可以将通过对声音进行一系列处理(短时傅里叶变换、取对数等)而获得的梅尔谱(fbank)输入基础特征提取单元102,并且基础特征提取单元102可以利用输入的梅尔谱来提取声音的基础特征。
26.多尺度特征提取单元104可以被配置成基于通过基础特征提取单元102所提取的基础特征,提取声音的多尺度特征。多尺度特征可以表示从不同空间角度和/或时间尺度提取的声音的特征。例如,在多尺度特征提取单元104包括卷积神经网络的情况下,多尺度特征可以是通过对经由卷积神经网络的、具有不同感受野(receptive field)的两个或更多个卷积层所提取的相应特征进行融合(例如,拼接)而获得的特征。在卷积神经网络中,某一卷积层的感受野表示该卷积层的输出中的一个元素所对应的输入层的区域大小(映射)。
27.初级分类单元106可以被配置成基于通过基础特征提取单元102所提取的基础特征对声音进行初级分类,以获得初级分类结果。例如,初级分类单元106可以是基于神经网络(诸如卷积神经网络)的分类单元。比如,初级分类单元106可以包括全局池化层、全连接层和非线性激活单元(例如,包括sigmoid函数的激活单元),但不限于此。
28.次级分类单元108可以被配置成基于声音的初级分类结果和多尺度特征对声音进行次级分类,以获得次级分类结果。例如,次级分类单元108可以是基于循环神经网络的分类单元,但不限于此。
29.分类结果融合单元110可以被配置成对声音的初级分类结果和次级分类结果进行融合,以获得声音的最终分类结果。
30.声音携带着大量环境信息以及环境中的各种事件的信息。通过分析声音,可以区分和/或识别环境中所发生的事件。声音具有不同尺度的特征,然而在常规的声音事件分类中,没有使用声音的这种不同尺度的特征。根据本公开的该实施例的信息处理装置100提取声音的基础特征和多尺度特征,基于所提取的基础特征和多尺度特征对声音进行初级分类和次级分类,并且基于初级分类结果和次级分类结果来获取最终分类结果,使得有可能区分更多的声音事件的类别和/或提高声音事件分类的准确度。
31.声音事件的标签(即,类别)可以定义为基于树状结构描述的层级化标签,如图2所示。例如,在图2中,第一行的标签(例如,人、动物、事物等)可以被视为根类别,并且除第一行的标签之外的标签(例如,人的语音、交通工具、飞机等)可以被视为子类别。此外,例如,在已知声音是人的声音的情况下,可以将比人的声音低一层级的标签(例如,人的语音、摔跤等)视为根类别,并且将比人的声音的低两个层级或更多个层级的标签(例如,讲话、交谈等)视为子类别。也就是说,在将某一层级的标签视为根类别的情况下,比该层级低的层级的标签可以被视为子类别。
32.根据本公开的一个实施例,初级分类单元106可以针对多个根类别,基于基础特征,对声音进行初级分类。在这种情况下,初级分类可以被视为粗分类。例如,初级分类结果可以包括声音属于多个根类别中的每一个根类别的概率。次级分类单元108可以根据初级分类结果和多尺度特征,针对多个子类别,对声音进行次级分类。在这种情况下,次级分类
可以被视为细分类。例如,次级分类单元108可以包括与多个根类别一一对应的多个次级分类器,比如,如图3所示的第1次级分类器至第k次级分类器(k为大于1的自然数)。其中,对于多个次级分类器中的每一个,在声音属于该次级分类器所对应的根类别的概率等于或大于预定阈值的情况下,该次级分类器被激活。例如,如图3所示,信息处理装置100还可以包括控制单元112,该控制单元112可以被配置成针对k个次级分类器中的每一个,将声音属于该次级分类器所对应的根类别的概率与预定阈值进行比较,并且在上述概率等于或大于预定阈值的情况下,激活该次级分类器。例如,在声音属于第1根类别的概率等于或大于预定阈值的情况下,控制单元112可以激活与第1根类别对应的第1次级分类器。
33.上述预定阈值可以由本领域技术人员根据实际需要进行设定。例如,本领域技术人员可以根据需要,通过在不同场景任务下进行实践而获得预定阈值。
34.通过如上所述的那样,获取声音的与根类别有关的初级分类结果,并且进一步基于初级分类结果对声音进行次级分类,使得可以区分更多的声音事件的类别和/或提高声音事件分类的准确度。此外,对于每一个次级分类器,仅需要针对该次级分类器所对应的根类别包括的子类别对声音进行次级分类,因而可以减小每个次级分类器的计算量。
35.根据本公开的一个实施例,多个根类别中的每一个根类别可以包括多个子类别,并且多个根类别包括的子类别的总数目为n,其中n为大于1的自然数。例如,不同根类别包括的子类别可以存在交叠。比如,如图2所示,在将交通工具和引擎用作根类别的情况下,这两个根类别均包括子类别“喷气机引擎”。次级分类结果可以包括通过被激活的次级分类器获得的至少一个n维概率向量。每个n维概率向量中的各个元素表示声音属于各个子类别的概率,并且被预先设置为0。次级分类单元108所包括的次级分类器中的每一个可以被配置成在被激活的情况下通过执行如下迭代处理获取相应的n维概率向量:
36.在第一轮处理中,次级分类器可以基于声音的多尺度特征获得第一概率向量,其中,第一概率向量中的各个元素表示声音属于该次级分类器所对应的根类别包括的各个子类别的概率;选择第一概率向量中的前m个最大的元素对应的子类别作为候选子类别;基于候选子类别生成m个子类别向量,其中m为大于1的自然数;以及针对m个子类别向量中的每一个,基于第一概率向量中的、与该子类别向量包括的元素对应的元素,计算该子类别向量的分数。
37.在第i≥2轮处理中,次级分类器可以选择通过前一轮处理生成的子类别向量中的前n个分数最大的子类别向量作为候选子类别向量,其中n为大于1的自然数并且n≤m;以及针对候选子类别向量中的每一个:基于该候选子类别向量和声音的多尺度特征获得第i概率向量,其中,第i概率向量中的各个元素表示声音属于该次级分类器所对应的根类别包括的各个子类别的概率;选择第i概率向量中的前m个最大的元素对应的子类别作为候选子类别;以及将候选子类别中的每一个分别添加到该候选子类别向量,以新生成子类别向量,并且基于该候选子类别向量的分数以及第i概率向量中的、与新添加的候选子类别对应的元素,计算新生成的子类别向量的分数。
38.在次级分类器执行的上述迭代处理中,在新生成的子类别向量中的每一个的分数均小于从前一轮处理生成的子类别向量中选择的候选子类别向量中的每一个的分数的情况下,迭代处理终止。其中,次级分类器可以基于倒数第二轮处理中生成的子类别向量中的分数最高的子类别向量包括的各个元素所对应的概率获得相应的n维概率向量。
39.例如,分类结果融合单元110可以基于初级分类结果对次级分类结果进行加权平均以获得最终分类结果。比如,分类结果融合单元110可以根据下式(1)对初级分类结果和次级分类结果进行融合以获得最终分类结果r
fusion

[0040][0041]
在式(1)中,r
r
(j)表示声音属于第j根类别的概率,并且r
sj
表示通过与第j根类别对应的次级分类器所获得的n维概率向量。要注意的是,在r
r
(j)小于预定阈值并且与第j根类别对应的次级分类器没有被激活的情况下,r
sj
为0。
[0042]
另外,根据式(1)所获得的最终分类结果是一个n维概率向量,该n维概率向量中的各个元素表示声音属于各个子类别的概率。
[0043]
通过执行上述迭代处理来获取至少一个n维概率向量,并且进一步将所获取的至少一个n维概率向量与初级分类结果进行融合来获得最终分类结果,使得可以获得声音属于各个子类别的概率,并且基于此可以更准确地对声音事件进行分类。
[0044]
例示而非限定,次级分类单元108可以包括循环神经网络。例如,在次级分类单元108包括多个次级分类器的情况下,每个次级分类器可以包括相应的循环神经网络。图4示出在次级分类器包括循环神经网络的示例情况下,次级分类器的架构示例。
[0045]
如图4所示,次级分类器可以包括第一变换单元1082、循环神经网络1084、投影单元1086、第二变换单元1088和输出处理单元1090。当前标签可以表示为向量v,该向量v中的各个元素分别与相应的次级分类器所对应的根类别包括的各个子类别一一对应,并且每个元素的值为0或1。
[0046]
第一变换单元1082可以对输入的向量v进行降维操作。例如,第一变换单元1082所进行的操作可以通过下式(2)表示:
[0047]
e=u1v
ꢀꢀꢀ
(2)
[0048]
其中,e表示向量v通过第一变换单元1082被转化成的标签嵌入空间的向量,并且u1表示第一变换单元1082进行降维操作所采用的矩阵。
[0049]
循环神经网络1084可以是基于门控循环单元gru(gated recurrent unit)的循环神经网络。例如,循环神经网络1084可以基于向量e而获得状态向量o。
[0050]
投影单元1086可以对状态向量o和多尺度特征y进行维度转换,以将状态向量o和多尺度特征y转换到同一维度空间。
[0051]
第二变换单元1088可以对经过投影单元1086进行维度转换的状态向量o和多尺度特征y执行非线性运算。例如,投影单元1086和第二变换单元1088所进行的操作可以通过下式(3)表示:
[0052]
x=f(u2o u3y)
ꢀꢀꢀ
(3)
[0053]
在式(3)中,u2和u3分别表示投影单元1086对状态向量o和多尺度特征y进行维度转换所采用的矩阵,f表示第二变换单元1088所进行的非线性变换操作,并且x表示第二变换单元1088所获得的结果。
[0054]
输出处理单元1090可以根据下式(4)对第二变换单元1088所获得的结果x进行维度转换,以获得概率向量p
s
。概率向量p
s
包括的元素的数目与向量v包括的元素的数目相同。
[0055]
p
s
=u4x
ꢀꢀꢀ
(4)
[0056]
在式(4)中,u4表示输出处理单元1090进行维度转换时所采用的矩阵。
[0057]
下面将结合具体示例描述在次级分类器具有图4所示的示例架构的情况下获取次级分类结果的示例方式。为了方便描述,下面将以对应的根类别包括例如6个子类别s1、s2、s3、s4、s5和s6的第1次级分类器作为示例进行描述。
[0058]
例如,在第1轮处理中,第1次级分类器可以进行以下处理:
[0059]
随机地将当前标签(即,向量v)初始化,将经初始化的当前标签输入第一变换单元1082,并且将通过多尺度特征提取单元104提取的声音的多尺度特征输入投影单元1086,由此获得第一概率向量p
s1
=[p
11
,p
12
,p
13
,p
14
,p
15
,p
16
],其中p
11
、p
12
、p
13
、p
14
、p
15
和p
16
分别表示声音属于子类别s1、s2、s3、s4、s5和s6的概率。
[0060]
选择所获得的第一概率向量中的前m(在该示例中,m=2)个最大的元素对应的子类别作为候选子类别(假设该第一轮处理中选择的候选子类别为s1和s2)。
[0061]
基于候选子类别生成m=2个子类别向量[s1]和[s2]。
[0062]
以及,针对m=2个子类别向量中的每一个,基于第一概率向量中的、与该子类别向量包括的元素对应的元素,计算该子类别向量的分数。例如,可以针对每一个子类别向量,将第一概率向量中的、与该子类别向量包括的元素对应的元素用作该子类别向量的分数。例如,对于子类别向量[s1]和[s2],相应的分数可以被计算为p
11
和p
12
。然而,本领域技术人员可以根据实际需要,以其他方式基于第一概率向量计算子类别向量的分数,这里将不再赘述。
[0063]
在第2轮处理中,第1次级分类器可以进行以下处理:
[0064]
选择通过第1轮处理生成的子类别向量中的前n(在该示例中,n=1)个分数最大的子类别向量作为候选子类别向量(假设该第2轮处理中选择的候选子类别向量为[s1])。
[0065]
以及,针对候选子类别向量[s1]:将向量v中的、与该候选子类别向量[s1]包括的元素(即,子类别)对应的元素设置为1并且将向量v中的其余元素设置为0,将如此设置的向量v(对于候选子类别向量[s1],向量v被设置为[1,0,0,0,0,0])输入第一变换单元1082,并且由此基于向量v和声音的多尺度特征获得第2概率向量p
s2
=[p
21
,p
22
,p
23
,p
24
,p
25
,p
26
],其中p
21
、p
22
、p
23
、p
24
、p
25
和p
26
分别表示声音属于子类别s1、s2、s3、s4、s5和s6的概率;选择第2概率向量p
s2
中的前m=2个最大的元素对应的子类别作为候选子类别(在该示例中,假设该第2轮处理中选择的候选子类别为s3和s4);以及将候选子类别中的每一个分别添加到该候选子类别向量[s1],以新生成子类别向量(在该示例中,新生成的子类别向量为[s1,s3]和[s1,s4]),并且基于该候选子类别向量的分数以及第2概率向量p
s2
中的、与新添加的候选子类别对应的元素,计算新生成的子类别向量的分数。例如,可以将候选子类别向量的分数与第2概率向量p
s2
中的、与新添加的候选子类别对应的元素的乘积用作新生成的子类别向量的分数。例如,对于新生成的子类别向量[s1,s3],分数分别可以被计算为候选子类别向量[s1]的分数与第2概率向量中的、与新添加的候选子类别s3对应的元素(即,p
23
)的乘积。
[0066]
在随后的处理(例如,第3轮处理、第4轮处理等)中,第1次级分类器可以进行与上述第2轮处理中的处理类似的处理,这里将不再赘述。
[0067]
假设在第4轮处理中,新生成的子类别向量中的每一个的分数均小于从第3轮处理生成的子类别向量中选择的候选子类别向量中的每一个的分数,迭代处理终止。在这种情
况下,第1次级分类器可以基于倒数第2轮处理(即,第3轮处理)中生成的子类别向量中的分数最高的子类别向量包括的各个元素所对应的概率获得n维概率向量。例如,次级分类器可以将n维概率向量中的、与第3轮处理中生成的分数最高的子类别向量包括的各个元素对应的相应元素设置为分数最高的子类别向量包括的相应元素所对应的概率,并且将n维概率向量中的其余元素设置为0,由此获得n维概率向量。例如,假设第3轮处理中生成的分数最高的子类别向量为[s1,s3,s5],则n维概率向量可以被设置为[p
11
,0,p
23
,0,p
35
,0,0,0

],其中,p
35
是在3轮处理中所获得的与s5对应的概率。
[0068]
注意,同一个子类别向量中可以包括两个或更多个相同的元素。例如,在倒数第2轮处理中生成的分数最高的子类别向量包括两个或更多个相同的元素的情况下,可以将n维概率向量中的与该元素对应的元素设置为与该元素对应的最高概率。例如,在上述示例中,在第3轮处理中生成的分数最高的子类别向量包括两个或更多个相同的元素(例如,元素s3,此时分数最高的子类别向量为[s1,s3,s3])的情况下,将n维概率向量中的与元素s3对应的元素设置为子类别向量[s1,s3,s3]中的第2个元素s3所对应的概率(即,在2轮处理中所获得的与s3对应的概率p
23
)和第3个元素s3所对应的概率(即,在3轮处理中所获得的与s3对应的概率p
33
)中的较大者。
[0069]
另外,虽然在上面的示例中为了方便描述假设m=2并且n=1,然而在实践中,本领域技术人员可以根据实际需要选择适当的m和n的值。
[0070]
根据本公开的一个实施例,信息处理装置100可以包括多个多尺度特征提取单元104。在这种情况下,信息处理装置100还可以包括多尺度特征融合单元114,该多尺度特征融合单元114可以被配置成对通过多个多尺度特征提取单元104提取的多个多尺度特征进行融合,并且获得融合的多尺度特征。其中,次级分类单元108可以进一步被配置成基于声音的初级分类结果和融合的多尺度特征对声音进行次级分类,以获得次级分类结果。作为示例,多尺度特征融合单元114可以进一步被配置成以拼接的方式对通过多个多尺度特征提取单元104提取的多个多尺度特征进行融合。
[0071]
图5是示出根据本公开的实施例的多尺度特征提取单元104的功能配置示例的框图。如图5所示,每个多尺度特征提取单元104可以包括:多个特征提取子单元1042,每个特征提取子单元1042可以被配置成基于通过基础特征提取单元102所提取的基础特征,提取声音的特征;以及第一特征融合子单元1044,该第一特征融合子单元1044可以被配置成对通过多个特征提取子单元1042提取的声音的多个特征进行融合,将融合结果输出作为通过相应的多尺度特征提取单元104提取的声音的多尺度特征,并且将融合结果输出至下一个多尺度特征提取单元104作为下一个多尺度特征提取单元的输入。
[0072]
例如,特征提取子单元1042可以是二维卷积单元2d conv,但不限于此。在特征提取子单元1042是二维卷积单元2d conv的示例情况下,每个多尺度特征提取单元104还可以包括预处理子单元1048,该预处理子单元1048可以被配置成对多尺度特征提取单元104的输入进行处理以降低输入的维度。例如,该预处理子单元1048可以是1
×
1卷积单元(1
×
1conv),但不限于此。
[0073]
要注意的是,每个特征提取子单元1042的具体结构参数可以不同。
[0074]
作为示例,每个多尺度特征提取单元104还可以包括:多个全局池化子单元1046,每个全局池化子单元可以分别对应于多个特征提取子单元1042中的一个不同的特征提取
子单元1042,并且每个全局池化子单元1046可以被配置成对通过与该全局池化子单元1046对应的特征提取子单元1042提取的声音的特征进行全局池化;以及第二特征融合子单元1050,该第二特征融合子单元1050可以被配置成对经由全局池化子单元1046池化的声音的多个特征进行融合,并且将融合结果输出作为通过相应的多尺度特征提取单元104提取的声音的多尺度特征。例示而非限定,第二特征融合子单元1050可以进一步被配置成以拼接的方式对经由全局池化子单元1046池化的声音的多个特征进行融合。
[0075]
下面将参照图6所示出的多尺度特征提取单元104的架构示例对多尺度特征提取单元104进行详细描述。图6是示出信息处理装置100包括的多尺度特征提取单元104的架构的示例的图。
[0076]
如图6所示,信息处理装置100可以包括三个多尺度特征提取单元104a、104b和104c,并且多尺度特征提取单元104a可以包括三个特征提取子单元1042a、1042b和1042c。此外,多尺度特征提取单元104a还可以包括预处理子单元1048a以及/或者分别与特征提取子单元1042a、1042b和1042c对应的全局池化子单元1046a、1046b和1046c。
[0077]
在图6中,为了方便描述,仅示出多尺度特征提取单元104a的示例配置。多尺度特征提取单元104b和104c可以具有与多尺度特征提取单元104a的配置类似的配置。注意,多尺度特征提取单元104a、104b和104c可以不包括不同数目的特征提取子单元。另外,多尺度特征提取单元104a、104b和104c的具体结构参数可以不同。
[0078]
例如,通过基础特征提取单元102提取的基础特征被输入至多尺度特征提取单元104a中。在多尺度特征提取单元104a不包括预处理子单元1048a的情况下,基础特征被输入至特征提取子单元1042a。另外,在多尺度特征提取单元104a包括预处理子单元1048a的情况下,基础特征被输入至预处理子单元1048a,预处理子单元1048a对基础特征进行处理,以降低基础特征的维度,并且然后将经处理的基础特征输入至特征提取子单元1042a。例如,基础特征的大小可以是(c1,h1,w1),其中,c1、h1和w1分别表示基础特征所包括的特征图的数量、时间方向的长度和频率方向的长度。预处理子单元1048a可以对输入的基础特征进行处理,以获得大小为(cm1,hm1,wm1)的经处理的基础特征,其中,cm1表示预处理子单元1048a的输出通道数量(即,输出的特征图的数量),hm1和wm1分别表示经处理的基础特征的时间方向的长度和频率方向的长度,并且hm1和wm1可以分别等于h1和w1。
[0079]
为了方便描述,本文中假设特征提取子单元1042a、1042b和1042c的输入和输出的大小均为(cm1,hm1,wm1)。然而,在实践中,特征提取子单元1042a、1042b和1042c的输入的大小可以不相同,并且特征提取子单元1042a、1042b和1042c的输出的大小可以不相同。
[0080]
如图6所示,特征提取子单元1042a所提取的声音的特征可以输入至下一个特征提取子单元1042b,并且特征提取子单元1042b所提取的声音的特征可以输入至下一个特征提取子单元1042c。
[0081]
第一特征融合子单元1044(参见图5)可以对分别经由特征提取子单元1042a、1042b和1042c提取的声音的相应特征进行融合(例如,按通道进行拼接),并且将融合结果输出至下一个多尺度特征提取单元104b作为多尺度特征提取单元104b的输入。通过第一特征融合子单元1044融合后的特征的大小可以是(3*cm1,hm1,wm1)。在多尺度特征提取单元104a不包括全局池化子单元1046a、1046b和1046c的情况下,第一特征融合子单元1044将融合结果输出作为通过多尺度特征提取单元104a所提取的多尺度特征。另一方面,在多尺度
特征提取单元104a包括全局池化子单元1046a、1046b和1046c的情况下,全局池化子单元1046a、1046b和1046c分别对经由特征提取子单元1042a、1042b和1042c提取的声音的相应特征进行池化,以获得大小均为(cm1,1,1)的三个特征。第二特征融合子单元1050(参见图5)可以对经由全局池化子单元1046a、1046b和1046c池化的声音的特征进行融合(例如,按通道进行拼接),并且将融合结果输出作为通过多尺度特征提取单元104a所提取的多尺度特征。通过第二特征融合子单元1050融合后的特征的大小可以是(3*cm1,1,1)。
[0082]
类似地,在多尺度特征提取单元104b和104c中,可以进行与多尺度特征提取单元104a中的处理类似的处理,这里将不再重复描述。
[0083]
此外,在多尺度特征提取单元104b和104c不包括全局池化子单元1046的情况下,通过多尺度特征提取单元104b和104c提取的多尺度特征的大小可以分别是(3*cm2,hm2,wm2)和(3*cm3,hm3,wm3),其中,cm2,hm2和wm2分别表示通过多尺度特征提取单元104b的每个特征提取子单元所提取的特征所包括的特征图的数量、时间方向的长度和频率方向的长度,并且cm3,hm3和wm3分别表示通过多尺度特征提取单元104c的每个特征提取子单元所提取的特征所包括的特征图的数量、时间方向的长度和频率方向的长度。在多尺度特征提取单元104b和104c包括全局池化子单元1046的情况下,通过多尺度特征提取单元104b和104c提取的多尺度特征的大小可以分别是(3*cm2,1,1)和(3*cm3,1,1)。
[0084]
多尺度特征融合单元114(参见图1)可以对通过多尺度特征提取单元104a、104b和104c提取的多尺度特征进行融合(例如,按通道进行拼接),并且获得融合的多尺度特征。在多尺度特征提取单元104a、104b和104c包括全局池化子单元的情况下,融合的多尺度特征的大小可以是(3*cm1 3*cm2 3*cm3,1,1)。
[0085]
要注意的是,在尽管在图6所示的示例中,信息处理装置100包括三个多尺度特征提取单元104a、104b和104c,并且多尺度特征提取单元104a、104b和104c中的每一个包括三个特征提取子单元1042a、1042b和1042c,然而本领域技术人员可以根据实际需要选择适当的数量的多尺度特征提取单元以及适当的数量的特征提取子单元。
[0086]
上文已经参照图1至图6描述了根据本公开的实施例的信息处理装置,与上述信息处理装置的实施例相对应的,本公开还提供了以下信息处理方法的实施例。
[0087]
图7是示出根据本公开的实施例的信息处理方法700的流程示例的流程图。如图7所示,根据本公开的实施例的信息处理方法700可以包括基础特征提取步骤s702、多尺度特征提取步骤s704、初级分类步骤s706、次级分类步骤s708和分类结果融合步骤s710。信息处理方法700可以开始于开始步骤s701,并且结束于结束步骤s712。
[0088]
在基础特征提取步骤s702中,可以提取声音的基础特征。例如,在基础特征提取步骤s702中,可以经由神经网络(诸如卷积神经网络、循环神经网络rnn等)来取声音的基础特征。比如,基础特征提取步骤s702可以通过上述信息处理装置100的基础特征提取单元102来实施,具体细节在此不再赘述。
[0089]
在多尺度特征提取步骤s704中,可以基于通过基础特征提取步骤s702所提取的基础特征,提取声音的多尺度特征。例如,多尺度特征提取步骤s704可以通过上述信息处理装置100的多尺度特征提取单元104来实施,具体细节在此不再赘述。
[0090]
在初级分类步骤s706中,可以基于通过基础特征提取步骤s702所提取的基础特征对声音进行初级分类,以获得初级分类结果。例如,可以经由神经网络(诸如卷积神经网络)
对声音进行初级分类。比如,初级分类步骤s706可以通过上述信息处理装置100的初级分类单元106来实施,具体细节在此不再赘述。
[0091]
在次级分类步骤s708中,可以基于声音的初级分类结果和多尺度特征对声音进行次级分类,以获得次级分类结果。例如,可以经由循环神经网络对声音进行次级分类,以获得次级分类结果。比如,次级分类步骤s708可以通过上述信息处理装置100的次级分类单元108来实施,具体细节在此不再赘述。
[0092]
在分类结果融合步骤s710中,可以对声音的初级分类结果和次级分类结果进行融合,以获得声音的最终分类结果。比如,分类结果融合步骤s710可以通过上述信息处理装置100的分类结果融合单元110来实施,具体细节在此不再赘述。
[0093]
声音携带着大量环境信息以及环境中的各种事件的信息。通过分析声音,可以区分和/或识别环境中所发生的事件。声音具有不同尺度的特征,然而在常规的声音事件分类中,没有使用声音的这种不同尺度的特征。与根据本公开的上述实施例的信息处理装置100类似地,根据本公开的该实施例的信息处理方法700提取声音的基础特征和多尺度特征,基于所提取的基础特征和多尺度特征对声音进行初级分类和次级分类,并且基于初级分类结果和次级分类结果来获取最终分类结果,使得有可能区分更多的声音事件的类别和/或提高声音事件分类的准确度。
[0094]
根据本公开的一个实施例,在初级分类步骤s706中,可以针对多个根类别,基于基础特征对声音进行初级分类。在这种情况下,初级分类可以被视为粗分类。例如,通过初级分类步骤s706获得的初级分类结果可以包括声音属于多个根类别中的每一个根类别的概率。在次级分类步骤s708中,可以根据初级分类结果和多尺度特征,针对多个子类别,对声音进行次级分类。在这种情况下,次级分类可以被视为细分类。例如,次级分类步骤s708可以包括与多个根类别一一对应的多个次级分类子步骤。其中,对于多个次级分类子步骤中的每一个,在声音属于该次级分类子步骤所对应的根类别的概率等于或大于预定阈值的情况下,该次级分类子步骤被执行。
[0095]
上述预定阈值可以由本领域技术人员根据实际需要进行设定。例如,本领域技术人员可以根据需要,通过在不同场景任务下进行实践而获得预定阈值。
[0096]
通过如上所述的那样,获取声音的与根类别有关的初级分类结果,并且进一步基于初级分类结果对声音进行次级分类,使得可以区分更多的声音事件的类别和/或提高声音事件分类的准确度。
[0097]
根据本公开的一个实施例,多个根类别中的每一个根类别可以包括多个子类别,并且多个根类别包括的子类别的总数目为n,其中n为大于1的自然数。例如,不同根类别包括的子类别可以存在交叠。次级分类结果可以包括通过执行次级分类子步骤而获得的至少一个n维概率向量。每个n维概率向量中的各个元素表示声音属于各个子类别的概率,并且被预先设置为0。在每一个次级分类子步骤中,可以通过执行如下迭代处理获取相应的n维概率向量:
[0098]
在第一轮处理中,可以基于声音的多尺度特征获得第一概率向量,其中,第一概率向量中的各个元素表示声音属于该次级分类子步骤所对应的根类别包括的各个子类别的概率;选择第一概率向量中的前m个最大的元素对应的子类别作为候选子类别;基于候选子类别生成m个子类别向量,其中m为大于1的自然数;以及针对m个子类别向量中的每一个,基
于第一概率向量中的、与该子类别向量包括的元素对应的元素,计算该子类别向量的分数。
[0099]
在第i≥2轮处理中,可以选择通过前一轮处理生成的子类别向量中的前n个分数最大的子类别向量作为候选子类别向量,其中n为大于1的自然数并且n≤m;以及针对候选子类别向量中的每一个:基于该候选子类别向量和声音的多尺度特征获得第i概率向量,其中,第i概率向量中的各个元素表示声音属于该次级分类子步骤所对应的根类别包括的各个子类别的概率;选择第i概率向量中的前m个最大的元素对应的子类别作为候选子类别;以及将候选子类别中的每一个分别添加到该候选子类别向量,以新生成子类别向量,并且基于该候选子类别向量的分数以及第i概率向量中的、与新添加的候选子类别对应的元素,计算新生成的子类别向量的分数。
[0100]
在次级分类子步骤中执行的上述迭代处理中,在新生成的子类别向量中的每一个的分数均小于从前一轮处理生成的子类别向量中选择的候选子类别向量中的每一个的分数的情况下,迭代处理终止。其中,在次级分类子步骤中,可以基于倒数第二轮处理中生成的子类别向量中的分数最高的子类别向量包括的各个元素所对应的概率获得相应的n维概率向量。
[0101]
例如,次级分类子步骤可以通过上述信息处理装置100的次级分类单元108包括的次级分类器来实施,具体细节将不再赘述。
[0102]
例如,在分类结果融合步骤s710中,基于初级分类结果对次级分类结果进行加权平均以获得最终分类结果。比如,可以根据上述式(1)对初级分类结果和次级分类结果进行融合以获得最终分类结果r
fusion

[0103]
通过执行上述迭代处理来获取至少一个n维概率向量,并且进一步将所获取的至少一个n维概率向量与初级分类结果进行融合来获得最终分类结果,使得可以获得声音属于各个子类别的概率,并且基于此可以更准确地对声音事件进行分类。
[0104]
根据本公开的一个实施例,信息处理方法700还可以包括多尺度特征融合步骤s707,在多尺度特征融合步骤s707中,可以对通过多尺度特征提取步骤s704提取的多个多尺度特征进行融合,并且获得融合的多尺度特征。其中,在次级分类步骤s708中,可以基于声音的初级分类结果和融合的多尺度特征对声音进行次级分类,以获得次级分类结果。比如,在多尺度特征融合步骤s707中,可以对通过多尺度特征提取步骤s704提取的三个多尺度特征进行融合,并且获得融合的多尺度特征。例如,多尺度特征融合步骤s707可以通过上述信息处理装置100的多尺度特征融合单元114来实施,具体细节将不再赘述。
[0105]
根据本公开的一个实施例,多尺度特征提取步骤s704可以包括:特征提取子步骤,在特征提取子步骤中,可以基于通过基础特征提取步骤s702所提取的基础特征,提取声音的特征;以及第一特征融合子步骤,在第一特征融合子步骤中,可以对通过特征提取子步骤提取的声音的多个特征进行融合,将融合结果输出作为声音的多尺度特征。
[0106]
例如,在特征提取子步骤中,可以经由二维卷积单元2d conv来提取声音的特征。在这种情况下,多尺度特征提取步骤s704还可以包括预处理子步骤,在预处理子步骤中,对用于二维卷积单元2d conv的输入进行处理,以降低输入的维度。
[0107]
作为示例,多尺度特征提取步骤s704还可以包括:全局池化子步骤,在全局池化子步骤中,可以对通过特征提取子步骤提取的声音的多个特征进行全局池化;以及第二特征融合子步骤,在第二特征融合子步骤中,可以对经由全局池化子步骤池化的声音的多个特
征进行融合,并且将融合结果输出作为声音的多尺度特征。例如,在第二特征融合子步骤中,可以对经由全局池化的声音的三个特征进行融合,将融合结果输出作为声音的多尺度特征。
[0108]
例如,特征提取子步骤、第一特征融合子步骤、全局池化子步骤、预处理子步骤和第二特征融合子步骤可以通过上述信息处理装置100的多尺度特征提取单元104的特征提取子单元1042、第一特征融合子单元1044全局池化子单元1046、预处理子单元1048和第二特征融合子单元1050来实施,具体细节将不再赘述。
[0109]
应指出,尽管以上描述了根据本公开的实施例的信息处理装置和信息处理方法的功能配置和操作,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块和操作进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
[0110]
此外,还应指出,这里的方法实施例是与上述装置实施例相对应的,因此在方法实施例中未详细描述的内容可参见装置实施例中相应部分的描述,在此不再重复描述。
[0111]
此外,本公开还提供了存储介质和程序产品。应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息处理方法,因此在此未详细描述的内容可参考先前相应部分的描述,在此不再重复进行描述。
[0112]
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
[0113]
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图8所示的通用个人计算机800安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
[0114]
在图8中,中央处理单元(cpu)801根据只读存储器(rom)802中存储的程序或从存储部分808加载到随机存取存储器(ram)803的程序执行各种处理。在ram 803中,也根据需要存储当cpu 801执行各种处理等时所需的数据。
[0115]
cpu 801、rom 802和ram 803经由总线804彼此连接。输入/输出接口805也连接到总线804。
[0116]
下述部件连接到输入/输出接口805:输入部分806,包括键盘、鼠标等;输出部分807,包括显示器,比如阴极射线管(crt)、液晶显示器(lcd)等,和扬声器等;存储部分808,包括硬盘等;和通信部分809,包括网络接口卡比如lan卡、调制解调器等。通信部分809经由网络比如因特网执行通信处理。
[0117]
根据需要,驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
[0118]
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
[0119]
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(cd-rom)和数字通用盘(dvd))、磁光盘
(包含迷你盘(md)(注册商标))和半导体存储器。或者,存储介质可以是rom802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
[0120]
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
[0121]
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
[0122]
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
[0123]
另外,根据本公开的技术还可以如下进行配置。
[0124]
附记1.一种信息处理装置,包括:
[0125]
基础特征提取单元,被配置成提取声音的基础特征;
[0126]
多尺度特征提取单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征,提取所述声音的多尺度特征;
[0127]
初级分类单元,被配置成基于通过所述基础特征提取单元所提取的所述基础特征对所述声音进行初级分类,以获得初级分类结果;
[0128]
次级分类单元,被配置成基于所述声音的所述初级分类结果和所述多尺度特征对所述声音进行次级分类,以获得次级分类结果;以及
[0129]
分类结果融合单元,被配置成对所述声音的初级分类结果和次级分类结果进行融合,以获得所述声音的最终分类结果。
[0130]
附记2.根据附记1所述的信息处理装置,其中,所述初级分类结果包括所述声音属于多个根类别中的每一个根类别的概率,
[0131]
其中,所述次级分类单元包括与所述多个根类别一一对应的多个次级分类器,以及
[0132]
其中,对于所述多个次级分类器中的每一个,在所述声音属于该次级分类器所对应的根类别的概率等于或大于预定阈值的情况下,该次级分类器被激活。
[0133]
附记3.根据附记2所述的信息处理装置,其中,所述多个根类别中的每一个根类别包括多个子类别,并且所述多个根类别包括的子类别的总数目为n,其中n为大于1的自然数,
[0134]
其中,所述次级分类结果包括通过被激活的次级分类器获得的至少一个n维概率向量,每个n维概率向量中的各个元素表示所述声音属于各个子类别的概率,并且被预先设置为0,
[0135]
其中,所述次级分类器中的每一个被配置成在被激活的情况下通过执行如下迭代处理获取相应的n维概率向量,
[0136]
在第一轮处理中,所述次级分类器:
[0137]
基于所述声音的多尺度特征获得第一概率向量,其中,所述第一概率向量中的各个元素表示所述声音属于所述次级分类器所对应的根类别包括的各个子类别的概率;
[0138]
选择所述第一概率向量中的前m个最大的元素对应的子类别作为候选子类别;
[0139]
基于所述候选子类别生成m个子类别向量,其中m为大于1的自然数;以及
[0140]
针对所述m个子类别向量中的每一个,基于所述第一概率向量中的、与该子类别向量包括的元素对应的元素,计算所述子类别向量的分数;
[0141]
在第i≥2轮处理中,所述次级分类器:
[0142]
选择通过前一轮处理生成的所述子类别向量中的前n个分数最大的子类别向量作为候选子类别向量,其中n为大于1的自然数并且n≤m;以及
[0143]
针对所述候选子类别向量中的每一个:基于该候选子类别向量和所述声音的多尺度特征获得第i概率向量,其中,所述第i概率向量中的各个元素表示所述声音属于所述次级分类器所对应的根类别包括的各个子类别的概率;选择所述第i概率向量中的前m个最大的元素对应的子类别作为候选子类别;以及将所述候选子类别中的每一个分别添加到该候选子类别向量,以新生成子类别向量,并且基于该候选子类别向量的分数以及所述第i概率向量中的、与新添加的候选子类别对应的元素,计算新生成的所述子类别向量的分数,
[0144]
其中,在新生成的子类别向量中的每一个的分数均小于从前一轮处理生成的所述子类别向量中选择的所述候选子类别向量中的每一个的分数的情况下,迭代处理终止,并且其中,所述次级分类器基于倒数第二轮处理中生成的子类别向量中的分数最高的子类别向量包括的各个元素所对应的概率获得相应的n维概率向量。
[0145]
附记4.根据附记1至3中任一项所述的信息处理装置,其中,所述信息处理装置包括多个所述多尺度特征提取单元,
[0146]
其中,所述信息处理装置还包括多尺度特征融合单元,被配置成对通过多个所述多尺度特征提取单元提取的多个多尺度特征进行融合,并且获得融合的多尺度特征,以及
[0147]
其中,所述次级分类单元进一步被配置成基于所述声音的所述初级分类结果和所述融合的多尺度特征对所述声音进行次级分类,以获得所述次级分类结果。
[0148]
附记5.根据附记4所述的信息处理装置,其中,每个所述多尺度特征提取单元包括:
[0149]
多个特征提取子单元,每个特征提取子单元被配置成基于通过所述基础特征提取单元所提取的所述基础特征,提取所述声音的特征;以及
[0150]
第一特征融合子单元,被配置成对通过所述多个特征提取子单元提取的所述声音的多个特征进行融合,将融合结果输出作为通过相应的多尺度特征提取单元提取的所述声音的多尺度特征,并且将所述融合结果输出至下一个多尺度特征提取单元作为下一个多尺度特征提取单元的输入。
[0151]
附记6.根据附记5所述的信息处理装置,其中,每个多尺度特征提取单元还包括:
[0152]
多个全局池化子单元,每个全局池化子单元分别对应于一个特征提取子单元,并且每个全局池化子单元被配置成对通过与该全局池化子单元对应的特征提取子单元提取的所述声音的特征进行全局池化;以及
[0153]
第二特征融合子单元,被配置成对经由所述全局池化子单元池化的所述声音的多个特征进行融合,并且将融合结果输出作为通过相应的多尺度特征提取单元提取的所述声音的多尺度特征。
[0154]
附记7.根据附记6所述的信息处理装置,其中,所述特征提取子单元是二维卷积单
元,并且
[0155]
其中,每个多尺度特征提取单元还包括:预处理子单元,被配置成对输入进行处理以降低所述输入的维度。
[0156]
附记8.根据附记6所述的信息处理装置,其中,所述信息处理装置包括三个所述多尺度特征提取单元,并且每个多尺度特征提取单元包括三个所述特征提取子单元和三个所述全局池化子单元。
[0157]
附记9.根据附记1至3中任一项所述的信息处理装置,其中,所述基础特征提取单元包括卷积神经网络,以及/或者所述次级分类单元包括循环神经网络。
[0158]
附记10.根据附记6所述的信息处理装置,其中,所述第一特征融合子单元进一步被配置成以拼接的方式对通过所述多个特征提取子单元提取的所述声音的多个特征进行融合,以及
[0159]
其中,所述第二特征融合子单元进一步被配置成以拼接的方式对经由所述全局池化子单元池化的所述声音的多个特征进行融合。
[0160]
附记11.一种信息处理方法,包括:
[0161]
基础特征提取步骤,用于提取声音的基础特征;
[0162]
多尺度特征提取步骤,用于基于通过所述基础特征提取步骤所提取的所述基础特征,提取所述声音的多尺度特征;
[0163]
初级分类步骤,用于基于通过所述基础特征提取步骤所提取的所述基础特征对所述声音进行初级分类,以获得初级分类结果;
[0164]
次级分类步骤,用于基于所述声音的所述初级分类结果和所述多尺度特征对所述声音进行次级分类,以获得次级分类结果;以及
[0165]
分类结果融合步骤,用于对所述声音的初级分类结果和次级分类结果进行融合,以获得所述声音的最终分类结果。
[0166]
附记12.根据附记11所述的信息处理方法,其中,所述初级分类结果包括所述声音属于多个根类别中的每一个根类别的概率,
[0167]
其中,所述次级分类步骤包括与所述多个根类别一一对应的多个次级分类子步骤,以及
[0168]
其中,对于所述多个次级分类子步骤中的每一个,在所述声音属于该次级分类子步骤所对应的根类别的概率等于或大于预定阈值的情况下,该次级分类子步骤被执行。
[0169]
附记13.根据附记12所述的信息处理方法,其中,所述多个根类别中的每一个根类别包括多个子类别,并且所述多个根类别包括的子类别的总数目为n,其中n为大于1的自然数,
[0170]
其中,所述次级分类结果包括通过执行所述多个次级分类子步骤中的一个或更多个而获得的至少一个n维概率向量,每个n维概率向量中的各个元素表示所述声音属于各个子类别的概率,并且被预先设置为0,
[0171]
其中,在所述多个次级分类子步骤中的每一个中,通过执行如下迭代处理获取相应的n维概率向量,
[0172]
在第一轮处理中:
[0173]
基于所述声音的多尺度特征获得第一概率向量,其中,所述第一概率向量中的各
个元素表示所述声音属于该次级分类子步骤所对应的根类别包括的各个子类别的概率;
[0174]
选择所述第一概率向量中的前m个最大的元素对应的子类别作为候选子类别;
[0175]
基于所述候选子类别生成m个子类别向量,其中m为大于1的自然数;以及
[0176]
针对所述m个子类别向量中的每一个,基于所述第一概率向量中的、与该子类别向量包括的元素对应的元素,计算所述子类别向量的分数;
[0177]
在第i≥2轮处理中:
[0178]
选择通过前一轮处理生成的所述子类别向量中的前n个分数最大的子类别向量作为候选子类别向量,其中n为大于1的自然数并且n≤m;以及
[0179]
针对所述候选子类别向量中的每一个:基于该候选子类别向量和所述声音的多尺度特征获得第i概率向量,其中,所述第i概率向量中的各个元素表示所述声音属于该次级分类子步骤所对应的根类别包括的各个子类别的概率;选择所述第i概率向量中的前m个最大的元素对应的子类别作为候选子类别;以及将所述候选子类别中的每一个分别添加到该候选子类别向量,以新生成子类别向量,并且基于该候选子类别向量的分数以及所述第i概率向量中的、与新添加的候选子类别对应的元素,计算新生成的所述子类别向量的分数,
[0180]
其中,在新生成的子类别向量中的每一个的分数均小于从前一轮处理生成的所述子类别向量中选择的所述候选子类别向量中的每一个的分数的情况下,迭代处理终止,并且其中,基于倒数第二轮处理中生成的子类别向量中的分数最高的子类别向量包括的各个元素所对应的概率获得相应的n维概率向量。
[0181]
附记14.根据附记11至13中任一项所述的信息处理方法,其中,所述信息处理方法还包括多尺度特征融合步骤,用于对通过所述多尺度特征提取步骤提取的多个多尺度特征进行融合,并且获得融合的多尺度特征,以及
[0182]
其中,在所述次级分类步骤中,基于所述声音的所述初级分类结果和所述融合的多尺度特征对所述声音进行次级分类,以获得所述次级分类结果。
[0183]
附记15.根据附记14所述的信息处理方法,其中,所述多尺度特征提取步骤包括:
[0184]
特征提取子步骤,用于基于通过所述基础特征提取步骤所提取的所述基础特征,提取所述声音的特征;以及
[0185]
第一特征融合子步骤,用于对通过所述特征提取子步骤提取的所述声音的多个特征进行融合,将融合结果输出作为所述声音的多尺度特征。
[0186]
附记16.根据附记15所述的信息处理方法,其中,所述多尺度特征提取步骤还包括:
[0187]
全局池化子步骤,用于对通过所述特征提取子步骤提取的所述声音的特征进行全局池化;以及
[0188]
第二特征融合子步骤,用于对经由所述全局池化子步骤池化的所述声音的多个特征进行融合,并且将融合结果输出作为所述声音的多尺度特征。
[0189]
附记17.根据附记16所述的信息处理方法,其中,
[0190]
在特征提取子步骤中,经由二维卷积单元提取所述声音的特征;并且
[0191]
其中,所述多尺度特征提取步骤还包括:预处理子步骤,用对用于二维卷积单元的输入进行处理以降低所述输入的维度。
[0192]
附记18.根据附记16所述的信息处理方法,其中,在所述多尺度特征提取步骤,提
取所述声音的三个多尺度特征,并且其中,所述三个多尺度特征中的每一个是通过对经由全局池化的所述声音的三个特征进行融合而获得的。
[0193]
附记19.根据附记16中任一项所述的信息处理方法,其中,
[0194]
在所述第一特征融合子步骤中,以拼接的方式对通过所述特征提取子步骤提取的所述声音的多个特征进行融合;以及
[0195]
其中,在所述第二特征融合子步骤中,以拼接的方式对经由所述全局池化子步骤池化的所述声音的多个特征进行融合。
[0196]
附记20.一种存储有程序指令的计算机可读存储介质,当所述程序指令被计算机执行时用于执行附记11至19中任一项所述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献