模型训练装置、模型训练方法及存储介质与流程

2021-09-28 19:25:00 来源：中国专利 TAG：模型训练声音检测事件

1.本公开内容总体上涉及声音事件检测，更具体的，涉及用于训练声音事件检测模型的模型训练装置、模型训练方法及存储介质。

背景技术：

2.声音承载了日常生活环境里各种不同事件的信息。可以通过检测声音来感知与该声音相对应的相应场景(例如，喧闹的街道、有序的办公室等)，还可以辨认出一些特定的声学事件(例如，有人步行经过、汽车开过等)。自动检测这些声学事件是有意义的。
3.现实中需要进行检测的环境通常承载有多种声音，例如，吵闹的街区上混合了引擎声和喇叭声的环境，有背景音乐的舞台讲座等。在这样的条件下如何进行有效的声音事件检测是具有挑战的。
4.随着深度学习的发展，人工智能模型有能力基于深度神经网络(deep neural network，dnn)实现对声音事件的自动检测，其中，在实施自动检测前，要使用声音事件样本训练该人工智能模型。dnn的出众表现源于它能使用统计学习方法从原始数据中提取高层特征，在大量的数据中获得输入空间的有效表征特征。这与之前使用手动提取特征或专家设计规则的方法不同。
5.目前的针对声音事件检测的训练数据，大部分有准确标签(即，包含事件类型标注和事件起止时间标注)的数据记录都是具有单个声音事件类型标签的单声音事件数据记录；对于包含多个声音事件的多声音事件数据记录，多数未打标签(对应无事件类型标签的声音事件数据)，或者虽然已打事件类型标签但缺少对缺少事件起止时间的标注(对应弱标签的声音事件数据)。
6.充分利用现有声音数据，训练多声音事件检测模型是具有挑战的。

技术实现要素：

7.在下文中将给出关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
8.考虑到同类声音事件的协同性，发明人提出了一种训练多声音事件检测模型的模型训练方法，以解决如何利用无标签多声音事件数据、弱标签多声音事件数据训练声音事件检测模型(尤其是，多声音事件检测模型)，从而更容易实现对(多)声音事件检测模型的训练，有利于得到具有期望的准确度的(多)声音事件检测模型。
9.根据本公开内容的一个方面，提供了一种用于训练声音事件检测模型的模型训练装置，其特征在于，模型训练装置包括：提取单元，被配置成提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；第一训练单元，被配置成使用第一声音事件样本集
训练单声音事件检测模型；检测单元，被配置成针对第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于第二样本特征检测第二声音事件样本来确定相应检测结果；以及第二训练单元，被配置成使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型；其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
10.根据本公开内容的一个方面，提供了一种用于训练声音事件检测模型的模型训练方法，其特征在于，模型训练方法包括：提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；使用第一声音事件样本集训练单声音事件检测模型；针对第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于第二样本特征检测第二声音事件样本来确定相应检测结果；以及使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型；其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
11.根据本公开内容的一个方面，提供了一种用于检测声音事件的方法，其特征在于，从输入的检测对象提取特征，使用经前述模型训练方法训练的多声音事件检测模型基于所提取的特征对检测对象进行检测。
12.根据本公开内容的另一方面，提供了一种其上存储有程序的计算机可读存储介质，其特征在于，程序使得在程序被处理器执行时实现包含以下的用于训练声音事件检测模型的模型训练方法：提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；使用第一声音事件样本集训练单声音事件检测模型；针对第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于第二样本特征检测第二声音事件样本来确定相应检测结果；以及使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型；其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
13.本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一：使对多声音事件检测模型的训练变得容易，提高声音事件检测模型的性能，以及有利于得到具有期望的准确度的多声音事件检测模型。
附图说明
14.参照附图下面说明本公开内容的实施例，这将有助于更加容易地理解本公开内容的以上和其他目的、特点和优点。附图只是为了示出本公开内容的原理。在附图中不必依照比例绘制出单元的尺寸和相对位置。相同的附图标记可以表示相同的特征。在附图中：
15.图1示出了根据本公开内容的一个实施例的用于训练声音事件检测模型的模型训练方法的流程图；
16.图2示出了根据本公开内容的一个实施例的确定事件特征矩阵的方法的流程图；
17.图3示出了根据本公开内容的一个实施例的确定修正置信度向量的方法的流程图；
18.图4示出了根据本公开内容的一个实施例的训练多声音事件检测模型的方法的流
程图；
19.图5示出了根据本公开内容的一个实施例的检测声音事件的方法的流程图；
20.图6示出了根据本公开内容的一个实施例的用于训练声音事件检测模型的模型训练装置的示例性框图；
21.图7示出了根据本公开内容的一个实施例的检测声音事件的装置的示例性框图；以及
22.图8示出了根据本公开内容的一个实施例的信息处理设备的示例性框图。
具体实施方式
23.在下文中将结合附图对本公开内容的示例性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施例的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中可以做出很多特定于实施例的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施例的不同而有所改变。
24.在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开内容，在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构，而省略了与本公开内容关系不大的其他细节。
25.应理解的是，本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中，在可行的情况下，实施例可以相互组合、不同实施例之间的特征替换或借用、在一个实施例中省略一个或多个特征。
26.本领域的技术人员可以理解，示例性实施例的各方面可以被实施为系统、方法或计算机程序产品。因此，示例性实施例的各个方面可以具体实现为以下形式，即，可以是完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或组合软件部分与硬件部分的实施例。这些在本文中可以一般性地称为"电路"、"模块"或"系统"。此外，示例性实施例的各个方面可以采取体现为一个或多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上面体现有计算机可读程序代码。可以例如通过计算机网络来分发计算机程序，或者计算机程序可以位于一个或更多个远程服务器上，或被嵌入设备的存储器中。
27.可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是，但不限于电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。
28.计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。
29.计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传
输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。
30.体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。
31.用于执行这里公开的示例性实施例的各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如java、smalltalk、c 之类，还包括常规的过程式程序设计语言，诸如"c"程序设计语言或类似的程序设计语言。
32.以下参照按照示例性实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图来描述这里公开的示例性实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理设备执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。
33.也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。
34.也可以把计算机程序指令加载到计算机或其它可编程数据处理设备上，导致在计算机或其它可编程数据处理设备上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
35.本公开内容的一个方面提供用于训练声音事件检测模型的模型训练方法。下面参照图1对该方法进行示例性描述。
36.图1示出了根据本公开内容的一个实施例的用于训练声音事件检测模型的模型训练方法10的示例性流程图。
37.在步骤s101处，提取第一声音事件样本集xs和第二声音事件样本集xm的样本特征。具体而言，提取已打标签的第一声音事件样本集xs中的每个第一声音事件样本ss
i
的第一样本特征fs
i
，以及提取第二声音事件样本集xm中的每个第二声音事件样本sm
j
的第二样本特征fm
j
，其中，i是用于区分各第一声音事件样本的索引，j是用于区分各第二声音事件样本的索引。各第一样本特征fs
i
构成第一样本特征集{fs
i
}，各第二样本特征fm
j
构成第二样本特征集{fm
j
}。可以用i表示第一声音事件样本集xs的样本总数，可以用j表示第二声音事件样本集xm的样本总数。第一样本特征fs
i
可以为g维向量(fs
i1
，fs
i2
,
…
,fs
ig
,
…
,fs
ig
)，可以简记为fs
i
(fs
ig
)。第二样本特征fm
j
可以为g维向量(fm
j1
，fm
j2
,
…
,fm
jg
,
…
,fm
jg
),可以简记为fm
j
(fm
jg
)。作为示例，可以通过短时傅里叶变换操作、卷积操作和池化操作等的使用，实现特征提取。优选的，第一声音事件样本是仅包含单个声音事件的单声音事件样本。进一步优选的，第二声音事件样本包含一个、两个或更多个声音事件。更优选的，第二声音事件样本包含两个或更多个声音事件。对于包含两个或更多个声音事件的声音事件样本可以称为多声音事件样本。每个第一声音事件样本可以已被标注了声音事件类型和事件起止时间。对于第二声音事件样本集xm中的每个第二声音事件样本中包含的各事件，对该各事
件，可以未被标注事件类型或已标注事件类型但缺少该事件的起止时间。本公开内容的方法尤其适使用未被标注事件类型的第二声音事件样本集xm训练多声音事件检测模型。
38.在步骤s103处，使用第一声音事件样本集xs训练单声音事件检测模型ms。可以使用梯度下降法进行训练，使得模型的损失函数最小化。单声音事件检测模型ms可以由深度神经网络来实现。训练后的单声音事件检测模型ms可以对要检测的声音事件(即，检测对象)进行处理，输出的检测结果包括该声音事件的事件类型。进一步的，单声音事件检测模型ms可以被配置成能够检测(识别)多种候选声音事件ec(c是区分各候选声音事件的索引；并且总候选事件数用c来表示)，通过对输入的检测对象进行处理输出包含各候选声音事件e
c
的置信度p
c
(c＝1,2,
……
，c)的置信度向量p：(p1，p2,
…
,p
c
,
…
,p
c
)，可以简记为p(p
c
),其中，单声音事件检测模型ms可以进一步被配置成选择最大置信度所对应的候选声音事件的表示进行输出作为该检测对象的检测到的事件类型。
39.本公开内容的单声音事件检测模型ms和多声音事件检测模型mm可以都是基于深度神经网络的模型。对于深度神经网络，其是一种具备至少一个隐层的神经网络。与浅层神经网络类似，深度神经网络也能够为复杂非线性系统提供建模，但多出的层次为模型提供了更高的抽象层次，因而提高了模型的能力。深度神经网络是一种判别模型，可以使用反向传播算法进行训练。权重更新可以使用函数进行随机梯度下降法求解。此外，深度神经网络还使用损失函数以衡量模型的性能。具体地，通过模型确定的预测值和真实值(例如，样本的标签)之间的比较，得出的一个值，这个值在模型训练(包括拟合)的时候用于告知模型是否还有可以继续优化的空间。模型训练的目的通常是希望最终的模型的损失函数是拟合过的模型中最小的。通常机器学习每一个算法中都会有一个目标函数。模型所包含的算法的求解过程可以是通过对这个目标函数优化的过程。在分类或者回归问题中，通常使用损失函数作为其目标函数。损失函数可以用来评价模型的预测值和真实值不一样的程度。损失函数越好，通常模型的性能越好。本公开内容的单声音事件检测模型ms在训练后可以检测出/识别出声音事件检测对象所包括的声音事件的事件类型，该事件类型是多种候选声音事件的候选声音事件集中的一个声音事件所对应的类型。可以使用候选声音事件表示事件类型。本公开内容的多声音事件检测模型mm在训练后可以检测出/识别出声音事件检测对象所包括的至少一个声音事件的事件类型，至少一个声音事件的事件类型可以是候选声音事件集中的至少一个声音事件。本公开内容的单声音事件检测模型ms在训练后也可以对多声音事件检测对象及第二声音事件样本集xm中的每个第二声音事件样本sm
j
进行检测。
40.在步骤s105处，使用训练过的单声音事件检测模型ms检测第二声音事件样本集xm。具体而言，针对第二声音事件样本集xm中的每个第二声音事件样本sm
j
，使用训练过的单声音事件检测模型ms，基于第二样本特征fm
j
检测第二声音事件样本sm
j
。单声音事件检测模型ms输出的针对第二声音事件样本sm
j
的相应检测结果包括针对各候选声音事件的置信度pm
jc
(c＝1,2,
……
，c)，各置信度pm
jc
构成针对第二声音事件样本sm
j
的置信度向量pm
j
：(pm
j1
，pm
j2
,
…
,pm
jc
,
…
,pm
jc
),简记为pm
j
(pm
jc
)。即，单声音事件检测模型ms输出的针对第二声音事件样本sm
j
的相应检测结果包括针对第二声音事件样本sm
j
的与候选声音事件集{e
c
}对应的置信度向量pm
j
(pm
jc
)。
41.在步骤s107处，使用第一样本特征fs
i
(fs
ig
)、第二样本特征fm
j
(fm
jg
)及相应检测结果训练多声音事件检测模型mm，其中，该相应检测结果是训练后的单声音事件检测模型
ms基于第二样本特征fm
j
(fm
jg
)进行处理输出的针对第二声音事件样本sm
j
(第二样本特征fm
j
(fm
jg
))的检测结果，即相应检测结果与第二样本特征有对应关系。本步骤可以包括：使用第一声音事件样本集xs中的第一样本特征fs
i
(fs
ig
)训练多声音事件检测模型mm以优化多声音事件检测模型mm。这与使用打过标签的训练样本训练模型的常规训练相同。可以使用第一声音事件样本集xs中的部分或所有第一样本特征fs训练多声音事件检测模型mm。本步骤还可以包括：使用基于第二样本特征fm
j
、单声音事件检测模型ms针对第二样本特征fm
j
确定的相应检测结果和第一样本特征集{fs
i
}确定加权特征fmw
j
，以及使用加权特征训练多声音事件检测模型mm。加权特征fmw
j
为g维向量(fmw
j1
，fmw
j2
,
…
,fmw
jg
,
…
,fmw
jg
),简记为fmw
j
(fm
jg
)。例如，加权特征fmw
j
可以为将第二样本特征fmw
j
(fm
jg
)用g维权重向量w
j
加权后的向量。权重向量w
j
具体可以表示为(w
j1
，w
j2
,
…
,w
jg
,
…
,w
jg
)，简记为w
j
(w
jg
)。加权方式具体为：加权特征的各分量等于相应权重向量分量与相应第二样本特征分量的乘积，即，fmw
jg
＝w
jg
fm
jg
，或者简记为fwm
j
＝w
j
fm
j
。权重向量w
j
被设置为等于事件特征矩阵we与修正置信度向量wd
j
的乘积，即，w
j
＝wewd
j
。事件特征矩阵we可以是由各候选声音事件的代表性特征向量we
c
构成的矩阵。事件特征矩阵we的大小为g*c。事件特征矩阵we可以表示为(we1，we2,
…
,we
c
,
…
,we
c
)，简记为we(we
c
)，从这一点看，事件特征矩阵we也可以被看作c维向量。各候选声音事件的代表性特征向量we
c
为g维向量。事件特征矩阵we是基于第一样本特征集{fs
i
}来被确定。修正置信度向量wd
j
是基于第二声音事件样本sm
j
的相应检测结果来被确定，该相应检测结果是指训练后的单声音事件检测模型ms通过检测第二声音事件样本sm
j
确定的检测结果。
42.步骤s107可以包括基于第一声音事件样本集xs确定事件特征矩阵we。更具体的，基于第一声音事件样本集xs的第一样本特征集{fs
i
}及各第一声音事件样本的事件类型标签确定事件特征矩阵we。图2示出了根据本公开内容的一个实施例的确定事件特征矩阵的方法20的流程图。下面参照图2对事件特征矩阵we的确定进行描述。在步骤s201处，根据第一声音事件样本的声音事件标签对第一样本特征集{fs
i
}中的第一样本特征进行分组，其中，第一声音事件样本的声音事件标签是候选声音事件的事件表示中的一个。对于第一声音事件样本集xs，xs中的声音事件样本可以按候选声音事件分为c个样本组。每个样本组包含至少一个声音事件样本。并且，每个样本组的样本数可以不同。相应的，从第一声音事件样本集提取的样本特征fs
i
也可以根据样本的声音事件标签(即，候选声音事件的表示中的一个)分到c个样本特征组中的一个。例如第一样本特征fs
i’所对应的样本的标签是第c候选声音事件的表示，则该第一样本特征fs
i’被分配到第c样本特征组。在步骤s203处，基于各样本特征组确定代表性特征向量we
c
，从而与训练过的单声音事件检测模型ms能够检测出的多个候选声音事件的代表性特征向量有关的确定事件特征矩阵we。对于针对第c候选声音事件的样本特征组{fs
i’}
c
，可以基于该样本特征组内的样本特征的统计特性确定代表性特征向量we
c
。优选的，通过变换样本特征的统计特性，使c个代表性特征向量的同一维度的c个分量的和为1，即，代表性特征向量包括归一化的分量。例如，we
c
＝normaver({fs
i’}
c
)，即，第c候选声音事件的代表性特征向量we
c
可以等于归一化的相应候选声音事件特征组的平均特征。例如，we
c
＝normmid({fs
i’}
c
)，即，第c候选声音事件的代表性特征向量we
c
可以等于归一化的相应候选声音事件特征组的中值特征。代表性特征向量we
c
的第g分量we
cg
可以通过如下方式确定：确定第c候选声音事件特征组的各样本特征fs
i’的第g分量的平均值(c
遍历1至c)，基于确定的c个平均值的和归一化第g分量作为第g分量we
cg
。即，c个第g分量we
cg
((c遍历1至c))的和为1。该平均值可以是：算术平均值、几何平均值或加权平均值。代表性特征向量we
c
的第g分量we
cg
也可以通过如下方式确定：确定第c候选声音事件特征组的各样本特征fs
i’的第g分量构成的分量序列的中值(c遍历1至c)，基于确定的c个中值的和归一化第g分量作为第g分量we
cg
。即，c个第g分量we
cg
的和为1。可以根据样本特征类型的不同选择合适的代表性特征向量确定方法。
43.步骤s107可以包括基于训练过的单声音事件检测模型对第二声音事件样本集的检测结果确定修正置信度向量wd
j
。下面参考图3对确定修正置信度向量wd
j
进行描述。图3示出了根据本公开内容的一个实施例的确定修正置信度向量的方法30的示例性流程图。在步骤s301处，基于置信度向量确定中间向量wm
j
：(wm
j1
，wm
j2
,
…
,wm
jc
,
…
,we
c
)，简记为wm
j
(wm
jc
)。具体而言，训练后的单声音事件检测模型ms使用第二样本特征fm
j
检测第二声音事件样本sm
j
输出的相应检测结果包括置信度向量pm
j
。wm
jc
可以等于、与pm
jc
成线性关系或正比于pm
jc
。在步骤s303处，基于预定条件选择中间向量的分量。选择的原则是：选择明显发生的候选声音事件所对应的分量。预定条件可以为以下中的至少一个：分量大于预定阈值；分量所对应的声音事件标签是相应第二声音事件样本的已打声音事件标签中的至少一个；以及分量为中间向量的多个分量的降序序列中的前n个分量之一，其中，n为小于候选声音事件的总数c的预定整数。在步骤s305处，通过修改中间向量wm
j
的未选择分量为预定小量ξ来将修改后的中间向量作为修正置信度向量wd
j
，其中，修改后的wm
j
的选择的分量保持原值。预定小量ξ为零或接近零的数，优选接近零的数，这可以保证模型的性能同时降低训练时的出错可能性。即，可以基于门限方法确定修正置信度向量wd
j
，基于已打标签确定修正置信度向量wd
j
，或者基于分量降序序列中的前n个分量确定修正置信度向量wd
j
。
44.关于图1中训练多声音事件检测模型的步骤s107，作为示例，可以采用图4中的方法实现。图4示出了根据本公开内容的一个实施例的训练多声音事件检测模型的方法40的流程图。在步骤s401处，使用第一样本特征集{fs
i
}训练多声音事件检测模型mm，其中，第一样本特征集{fs
i
}所对应的第一声音事件样本集xs以被打标签。利用各第一声音事件样本ss
i
的标签优化多声音事件检测模型mm。在步骤s403处，基于第一样本特征集{fs
i
}确定事件特征矩阵we，其中，事件特征矩阵we的大小为g*c，g为作为向量的第一样本特征的维度，c候选声音事件的总数，也是训练后的多声音事件检测模型mm及单声音事件检测模型ms可识别的声音事件类型的总数。在步骤s405处，基于相应检测结果确定修正置信度向量wd
j
，其中，相应检测结果为训练后的单声音事件检测模型ms使用第二样本特征fm
j
检测第二声音事件样本sm
j
所确定检测结果。该步骤可以针对所有第二声音事件样本都执行。在步骤s407处，基于事件特征矩阵we、修正置信度向量wd
j
和第二样本特征fm
j
确定加权特征fmw
j
。该步骤可以针对所有第二声音事件样本都执行。在步骤s409处，基于训练加权特征fmw
j
训练多声音事件检测模型mm。该步骤可以针对所有加权特征都执行(即，遍历所有j的可能取值)。在执行步骤s409时，可以根据确定修正置信度向量wd
j
时选择的中间向量的分量所对应的候选声音事件的表示优化多声音事件检测模型mm。步骤s403至步骤s409可以针对所有第二声音事件样本集中的声音事件样本执行。
45.本公开内容的一个方面提供用于检测声音事件的方法。下面参照图5对该方法进行示例性描述。
46.图5示出了根据本公开内容的一个实施例的检测声音事件的方法50的流程图。在步骤s501处，从输入的检测对象提取特征。该检测对象为声音事件数据。进一步的，该检测对象可以包含多个声音事件。在步骤s503处，使用本公开内容中的方法10训练的训练后的多声音事件检测模型mm基于所提取的特征检测该检测对象，以确定所述检测对象中包含的声音事件的诸如事件类型、事件起止事件的信息。
47.本公开内容的一个方面提供用于训练声音事件检测模型的模型训练装置。下面参照图6对该装置进行示例性描述。
48.图6示出了根据本公开内容的一个实施例的用于训练声音事件检测模型的模型训练装置60的示例性框图。模型训练装置60包括提取单元601、第一训练单元603、检测单元605以及第二训练单元607。提取单元601能够提取已打标签的第一声音事件样本集xs中的每个第一声音事件样本的第一样本特征fs
i
，还能够提取第二声音事件样本集xm中的每个第二声音事件样本的第二样本特征fm
j
。第一训练单元603用于使用第一声音事件样本集训练单声音事件检测模型ms。检测单元605用于针对第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型ms，基于第二样本特征检测第二声音事件样本确定相应检测结果。第二训练单元607用于使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型mm；其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。该相应检测结果来自检测单元605。该模型训练装置60的进一步的描述可参考本公开内容对模型训练方法10的描述。
49.本公开内容的一个方面提供用于检测声音事件的装置。下面参照图7对该方法进行示例性描述。
50.图7示出了根据本公开内容的一个实施例的检测声音事件的装置70的示例性框图。装置70包括提取模块701和检测模块703。提取模块701接收检测对象，从该检测对象提取特征。该检测对象为声音事件数据。进一步的，该检测对象可以包含多个声音事件。检测模块703使用本公开内容中的方法10训练的训练后的多声音事件检测模型mm基于所提取的特征检测该检测对象，以确定检测对象中包含的声音事件的诸如事件类型、事件起止事件的信息。
51.本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质，该程序使得在程序被处理器执行时实现包含以下的用于训练声音事件检测模型的模型训练方法：提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；使用第一声音事件样本集训练单声音事件检测模型；针对第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于第二样本特征检测第二声音事件样本确定相应检测结果；以及使用第一样本特征、第二样本特征及相应检测结果训练多声音事件检测模型；其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
52.本公开内容的一个方面提供一种其上存储有程序的计算机可读存储介质，该程序使得在程序被处理器执行时实现方法50。
53.根据本公开内容一个方面，还提供一种信息处理设备。
54.图8是根据本公开内容的一个实施例的信息处理设备800的示例性框图。在图8中，中央处理单元(cpu)801根据存储在只读存储器(rom)802中的程序或从存储部分808加载到
随机存取存储器(ram)803的程序来进行各种处理。在ram 803中，也根据需要来存储在cpu 801执行各种处理时所需的数据等。
55.cpu 801、rom 802以及ram 803经由总线804彼此连接。输入/输出接口805也连接至总线804。
56.下述部件连接至输入/输出接口805：包括软键盘等的输入部分806；包括诸如液晶显示器(lcd)等的显示器以及扬声器等的输出部分807；诸如硬盘的存储部分808；以及包括网络接口卡如lan卡、调制解调器等的通信部分808。通信部分808经由诸如英特网、局域网、移动网络的网络或其组合执行通信处理。
57.驱动器810根据需要也连接至输入/输出接口805。可拆卸介质811如半导体存储器等根据需要安装在驱动器810上，使得从其中读取的程序根据需要被安装到存储部分808。
58.cpu 801可以运行用于实现本公开内容的方法的程序。
59.本公开内容的方法、装置、信息处理设备和存储介质至少能有助于实现如下效果之一：使对多声音事件检测模型的训练变得容易，提高声音事件检测模型的性能，以及有利于得到具有期望的准确度的多声音事件检测模型。
60.尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下，各实施例之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
61.应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
62.此外，本发明的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
63.附记
64.1.一种用于训练声音事件检测模型的模型训练装置，其特征在于，所述模型训练装置包括：
65.提取单元，被配置成提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；
66.第一训练单元，被配置成使用所述第一声音事件样本集训练单声音事件检测模型；
67.检测单元，被配置成针对所述第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于所述第二样本特征检测所述第二声音事件样本来确定相应检测结果；以及
68.第二训练单元，被配置成使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型；
69.其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
70.2.根据附记1所述的模型训练装置，其中，所述第二声音事件样本集中的每个第二声音事件样本包含两个或更多个声音事件。
71.3.根据附记2所述的模型训练装置，其中，所述第二声音事件样本集中的每个第二声音事件样本中包含的各事件未被分配声音事件标签或已分配声音事件标签但缺少事件起止时间。
72.4.根据附记1所述的模型训练装置，其中，所述训练过的单声音事件检测模型能够通过检测所述检测对象给出所述检测对象的关于候选声音事件集的置信度向量。
73.5.根据附记1所述的模型训练装置，其中，所述第一声音事件样本集中的每个第一声音事件样本仅包含一个声音事件。
74.6.根据附记1所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
75.使用各第二样本特征、针对该第二样本特征的所述相应检测结果和所述第一样本特征集确定针对各第二样本特征的加权特征；以及
76.使用确定的加权特征训练所述多声音事件检测模型。
77.7.根据附记6所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
78.使用所述第一样本特征集确定与所述训练过的单声音事件检测模型能够检测出的多个候选声音事件的代表性特征向量有关的事件特征矩阵；
79.确定针对各第二样本特征的与所述相应检测结果有关的修正置信度向量；以及
80.基于所述事件特征矩阵、所述修正置信度向量和与所述修正置信度向量对应的第二样本特征确定所述加权特征。
81.8.根据附记7所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
82.基于针对各第二样本特征的所述相应检测结果中包括的置信度向量确定针对各第二样本特征的中间向量。
83.9.根据附记8所述的模型训练装置，其中，所述中间向量的分量等于或正比于所述置信度向量中的相应分量。
84.10.根据附记8所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
85.基于预定条件选择所述中间向量的分量。
86.11.根据附记10所述的模型训练装置，其中，所述预定条件为以下条件中的至少一个：
87.所述分量大于预定阈值；
88.所述分量所对应的声音事件标签是相应第二声音事件样本的已打声音事件标签中的一个；以及
89.所述分量为所述中间向量的多个分量的降序序列中的前n个分量之一；
90.其中，n为小于所述多个候选声音事件的数量的预定整数。
91.12.根据附记10所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
92.通过修改所述中间向量的未选择分量为预定小量来将修改后的中间向量作为所述修正置信度向量。
93.13.根据附记12所述的模型训练装置，其中，所述事件特征矩阵由各候选声音事件的代表性特征向量组成。
94.14.根据附记13所述的模型训练装置，其中，所述代表性特征向量为归一化的相应第一声音事件样本的相应第一样本特征的平均值。
95.15.根据附记13所述的模型训练装置，其中，所述代表性特征向量包括归一化的分量。
96.16.根据附记15所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
97.通过根据各第一声音事件样本的声音事件标签对该第一样本特征进行分组来确定多个候选声音事件特征组；
98.其中，各候选声音事件的代表性特征向量等于归一化的相应候选声音事件的特征组的平均特征。
99.17.根据附记15所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
100.通过根据各第一声音事件样本的声音事件标签对该第一样本特征进行分组来确定多个候选声音事件特征组；
101.其中，各候选声音事件的代表性特征向量等于归一化的相应候选声音事件的特征组的中值特征。
102.18.根据附记1所述的模型训练装置，其中，使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型包括：
103.使用所述第一样本特征训练所述多声音事件检测模型。
104.19.一种用于训练声音事件检测模型的模型训练方法，其特征在于，所述模型训练方法包括：
105.提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；
106.使用所述第一声音事件样本集训练单声音事件检测模型；
107.针对所述第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于所述第二样本特征检测所述第二声音事件样本来确定相应检测结果；以及
108.使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型；
109.其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。
110.20.一种其上存储有程序的计算机可读存储介质，其特征在于，所述程序使得在所述程序被处理器执行时实现包含以下的用于训练声音事件检测模型的模型训练方法：
111.提取已打标签的第一声音事件样本集中的每个第一声音事件样本的第一样本特征，以及提取第二声音事件样本集中的每个第二声音事件样本的第二样本特征；
112.使用所述第一声音事件样本集训练单声音事件检测模型；
113.针对所述第二声音事件样本集中的每个第二声音事件样本，通过使用训练过的单声音事件检测模型，基于所述第二样本特征检测所述第二声音事件样本来确定相应检测结
果；以及
114.使用所述第一样本特征、所述第二样本特征及所述相应检测结果训练多声音事件检测模型；
115.其中，训练后的多声音事件检测模型能够检测包含多个声音事件的检测对象。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

模型训练装置、模型训练方法及存储介质与流程

相关文章

最热文献