声音事件检测学习的制作方法

2022-07-10 15:54:33 来源：中国专利 TAG：

声音事件检测学习
1.要求优先权
2.本技术要求于2019年11月25日提交的共同拥有的美国临时专利申请第62/939,801号和2020年11月24日提交的美国非临时专利申请第17/102,797号的优先权，其中每一个的内容都明确地以全文引用的方式并入本文。
技术领域
3.本公开整体涉及声音事件检测和更新声音事件检测模型。

背景技术：

4.技术的进步导致了更小且更强大的计算设备。例如，目前存在各种各样的便携式个人计算设备，包括无线电话(诸如移动电话和智能电话)、平板电脑和膝上型计算机，它们体积小、重量轻且易于用户携带。这些设备可以通过无线网络传送语音和数据包。此外，许多这样的设备包含附加功能，诸如数码相机、数码摄像机、数码记录器和音频文件播放器。此外，此类设备可以处理可执行指令，包括可用于访问互联网的软件应用程序，诸如网络浏览器应用程序。因此，这些设备可以包括显著的计算能力。
5.声音事件检测(sed)是最近取得进展的一个研究领域。sed尝试识别音频信号中的声音事件(例如，关门的猛然砰声、汽车喇叭声等)。sed系统通常使用有监督的机器学习技术进行训练，以识别在标记的训练数据中标识的一组特定声音。因此，每个sed系统往往是领域特定的(例如，能够对一组预定的声音进行分类)。在sed系统经过训练后，很难更新sed系统以识别在标记的训练数据中未标识的新声音。例如，可以使用一组标记的音频数据样本来训练sed系统，这些样本包括一系列城市噪音，诸如汽车喇叭声、警报声、关门的猛然砰声和引擎声音。在此示例中，如果出现需要识别在一组标记的音频数据样本中未标记的声音，诸如门铃声，则更新sed系统以识别门铃声涉及使用针对门铃声的标记的音频数据样本以及该原始一组标记的音频数据样本两者来完全地对sed系统进行重新训练。因此，训练sed系统识别以新声音所需的计算资源(例如，处理器周期、存储器等)与生成全新的sed系统所需的计算资源大致相同。此外，随着时间的推移，随着更多的声音被添加以被识别，必须维护和用于训练sed系统的音频数据样本的数量可能变得难以处理。

技术实现要素：

6.在一个特定方面，一种设备包括被配置为接收音频数据样本的处理器。处理器还被配置为将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出。处理器还被配置为将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出。第二类别计数大于第一类别计数。处理器还被配置为将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出，并将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音事件识别数据。
7.在一个特定方面中，一种方法包括接收音频数据样本并将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出。该方法还包括将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出。第二类别计数大于第一类别计数。该方法还包括将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出。该方法还包括将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音事件识别数据。
8.在一个特定方面，一种非暂时性计算机可读存储介质，该计算机可读存储介质包括指令，当由处理器执行时该指令使处理器将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出。指令还使处理器将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出。第二类别计数大于第一类别计数。该指令还使处理器将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出。指令还使处理器将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音事件识别数据。
9.在一个特定方面中，一种设备包括用于基于音频数据样本生成第一输出的部件，该第一输出对应于第一组声音类别的第一类别计数。该设备还包括用于基于音频数据样本生成第二输出的部件，该第二输出对应于第二组声音类别的第二类别计数。第二类别计数大于第一类别计数。该设备还包括用于基于第一输出生成第三输出的部件，该第三输出对应于第二组声音类别的第二类别计数。该设备还包括用于基于第三输出和第二输出生成声音事件识别数据的部件。
10.在一个特定方面，一种设备包括存储器和耦合到存储器的处理器。存储器存储声音事件分类器，该声音事件分类器被训练以响应于表示第一组声音类别中的一个或多个的音频数据的输入而生成第一声音识别数据。处理器被配置为生成更新的声音事件分类器，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据的输入而生成第二声音识别数据。第二组声音类别包括第一组声音类别和一个或多个附加的声音类别。更新的声音事件分类器包括声音事件分类器、第二声音事件分类器、神经适配器和合并适配器。神经适配器包括一个或多个适配器层，该一个或多个适配器层被配置为接收具有对应于声音事件分类器的输出层的数据元素计数的输入，并且被配置为生成具有对应于第二声音事件分类器的输出层的第二数据元素计数的输出。合并适配器包括一个或多个聚合层和输出层。一个或多个聚合层被配置为合并来自神经适配器的输出和第二神经网络的输出。输出层被配置为生成第二声音识别数据。
11.在一个特定方面，一种设备包括用于存储声音事件分类器的部件，该声音事件分类器被训练以响应于表示第一组声音类别中的一个或多个的音频数据的输入而生成第一声音识别数据。该设备还包括用于生成更新的声音事件分类器的部件，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据的输入而生成第二声音识别数据。第二组声音类别包括第一组声音类别和一个或多个附加声音类别。更新的声音事件分类器包括声音事件分类器、第二声音事件分类器、神经适配器和合并适配器。神经适配器包括一个或多个适配器层，该一个或多个适配器层被配置为接收具有对应于声音事件分类器的输出层的数据元素计数的输入，并且被配置为生成具有对应于第二声音事件分类器的输出层的第二数据元素计数的输出。合并适配器包括一个或多个聚合层和输出
层。一个或多个聚合层被配置为合并来自神经适配器的输出和第二声音事件分类器的输出。输出层被配置为生成第二声音识别数据。
12.在一个特定方面，一种方法包括基于第一声音事件分类器的第一神经网络生成第二神经网络。第一神经网络包括输入层、隐藏层和第一输出层，并且第二神经网络包括第一神经网络的输入层的副本、第一神经网络的隐藏层的副本以及耦合到隐藏层的副本的第二输出层。第一输出层包括第一输出节点计数并且第二输出层包括第二输出节点计数，其中第二输出节点计数大于第一输出节点计数。该方法还包括将第一神经网络和第二神经网络链接到一个或多个适配器网络，并且将标记的训练数据作为输入提供给第一神经网络和第二神经网络。该方法还包括经由一个或多个适配器网络修改第一神经网络和第二神经网络的输出。该方法还包括通过基于适配器网络的输出和标记的训练数据的标记更新第二神经网络和一个或多个适配器网络的链接权重来训练第二声音事件分类器。
13.在一个特定方面，一种非暂时性计算机可读存储介质包括指令，当由处理器执行时该指令使处理器基于第一声音事件分类器的第一神经网络生成第二神经网络。第一神经网络包括输入层、隐藏层和第一输出层，并且第二神经网络包括第一神经网络的输入层的副本、第一神经网络的隐藏层的副本以及耦合到隐藏层的副本的第二输出层。第一输出层包括第一输出节点计数并且第二输出层包括第二输出节点计数，其中第二输出节点计数大于第一输出节点计数。指令还使处理器将第一神经网络和第二神经网络链接到一个或多个适配器网络。指令还使处理器将标记的训练数据作为输入提供给第一神经网络和第二神经网络，并且经由一个或多个适配器网络修改第一神经网络和第二神经网络的输出。该指令还使处理器通过基于适配器网络的输出和标记的训练数据的标记更新第二神经网络和一个或多个适配器网络的链接权重来训练第二声音事件分类器。
14.本公开的其他方面、优点和特征将在仔细研究整个申请后变得显而易见，整个申请包括以下部分：附图说明、具体实施方式和权利要求书。
附图说明
15.图1是被配置为响应于音频数据样本生成声音识别数据并且被配置为生成更新的声音事件检测模型的设备的示例的框图。
16.图2是示出根据特定示例的声音事件检测模型的各方面的框图。
17.图3是示出根据特定示例的生成更新的声音事件检测模型的各方面的图。
18.图4是示出根据特定示例的使用更新的声音事件检测模型生成声音事件检测输出数据的各方面的图。
19.图5是结合了图1、图3或图4的更新的声音事件检测模型的各方面的载具的说明性示例。
20.图6示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的虚拟现实或增强现实头戴式耳机。
21.图7示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的可穿戴电子设备。
22.图8示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的有语音控制扬声器系统。
23.图9示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的相机。
24.图10示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的移动设备。
25.图11示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的航空设备。
26.图12示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的头戴式耳机。
27.图13示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的家用电器。
28.图14是示出使用图1、图3或图4的更新的声音事件检测模型生成声音事件检测数据的方法的示例的流程图。
29.图15是示出生成图1、图3或图4的更新的声音事件检测模型的方法的示例的流程图。
具体实施方式
30.声音事件检测模型可以使用机器学习技术进行训练。例如，可以使用反向传播或其他机器学习训练技术将神经网络训练为声音事件分类器。以这种方式训练的声音事件检测模型可以足够小(就占用的存储空间而言)并且足够简单(就操作期间使用的计算资源而言)以供便携式计算设备存储和使用该声音事件检测模型。然而，与使用经过训练的声音事件检测模型执行声音事件检测相比，训练过程使用的处理资源要多得多。此外，训练过程使用较大的一组标记的训练数据，包括声音事件检测模型被训练要检测的每个声音类别的许多音频数据样本。因此，就存储器利用率或其他计算资源而言，在便携式计算设备或另一个资源有限的计算设备上从头开始训练声音事件检测模型可能是令人望而却步的。因此，希望在便携式计算设备上使用声音事件检测模型的用户可能被限制为从资源较少受限的计算设备或预训练的声音事件检测模型的库中将预训练的声音事件检测模型下载到便携式计算设备上。因此，用户具有有限的定制选项。
31.所公开的系统和方法使用迁移学习技术来生成更新的声音事件检测模型，其方式比从头开始训练声音事件检测模型的资源密集程度要低得多。根据一个特定方面，迁移学习技术可用于基于先前训练的声音事件检测模型(在本文中也称为“基础模型”)生成更新的声音事件检测模型。更新的声音事件检测模型被配置为检测比基础模型更多类型的声音事件。例如，训练基础模型以检测第一组声音事件中的任何一个，该第一组声音事件中的每一个对应于第一组声音类别中的声音类别，并且训练更新的声音事件检测模型以检测第一组声音事件中的任何一个以及第二组声音事件中的任何一个，该第二组声音事件中的每一个对应于第二组声音类别中的声音类别。因此，所公开的系统和方法减少了用于生成更新的声音事件检测模型的计算资源(例如，存储器、处理器周期等)。作为所公开系统和方法的用例的一个示例，便携式计算设备可用于生成定制声音事件检测器。
32.根据一个特定方面，基于先前训练的声音事件检测模型、用于训练该先前训练的声音事件检测模型的训练数据的子集以及对应于更新的声音事件检测模型能够检测到的一个或多个附加声音类别的一组或多组训练数据来生成更新的声音事件检测模型。在这方
面，先前训练的声音事件检测模型(例如，第一模型)被保留并且不变。此外，生成并修改先前训练的声音事件检测模型的副本(例如，第二模型)以具有新的输出层。新的输出层包括针对更新的声音事件检测模型能够检测到的每个声音类别的输出节点。例如，如果第一模型被配置为检测十个不同的声音类别，那么第一模型的输出层可以包括十个输出节点。在此示例中，如果要训练更新的声音事件检测模型来检测十二个不同的声音类别(例如，第一模型被配置为检测的十个声音类别加上两个附加的声音类别)，那么第二模型的输出层包括十二个输出节点。
33.生成一个或多个适配器网络以链接第一模型的输出和第二模型的输出。例如，(多个)适配器网络将第一模型的输出转换为具有对应于第二模型的输出的大小。为了说明，在前一段的示例中，第一模型包括十个输出节点并生成具有十个数据元素的输出，而第二模型包括十二个输出节点并生成具有十二个数据元素的输出。在此示例中，(多个)适配器网络将第一模型的输出修改为具有十二个数据元素。(多个)适配器网络还结合第二模型的输出和第一模型的修改后的输出以生成更新的声音事件检测模型的声音分类输出。
34.使用标记的训练数据训练更新的声音事件检测模型，该标记的训练数据包括音频数据样本和更新的声音事件检测模型被训练以检测的每个声音类别的标记。然而，由于第一模型已经被训练以准确检测第一组声音类别，因此标记的训练数据包含的第一组声音类别的音频数据样本比最初用于训练第一模型的音频数据样本少得多。为了说明，可以使用第一组声音类别的每个声音类别的数百或数千个音频数据样本来训练第一模型。相比之下，用于训练更新的声音事件检测模型的标记的训练数据可以包括第一组声音类别的每个声音类别的数十个或更少的音频数据样本。标记的训练数据还包括第二组声音类别的每个声音类别的音频数据样本。第二组声音类别的音频数据样本还可以包括第二组声音类别的每个声音类别的数十个或更少的音频数据样本。
35.反向传播或另一种机器学习技术用于训练第二模型和一个或多个适配器网络。在此过程中，第一模型不变，这限制或消除了第一模型忘记其先前训练的风险。例如，在其先前的训练中，使用较大的标记的训练数据集训练了第一模型以准确检测第一组声音类别。使用反向传播期间使用的相对较小的标记的训练数据集重新训练第一模型存在导致第一模型的准确性下降的风险(有时称为“忘记”其先前的一些训练)。在训练更新的声音事件检测器模型的同时保持第一模型不变，可以降低忘记第一组声音类别的风险。
36.此外，在训练之前，除了第二模型的输出层及其互连之外，第二模型与第一模型相同。因此，在训练的起始点，预计第二模型比随机种子模型更接近收敛(例如，更接近训练终止条件)。因此，训练第二模型所需的迭代次数应该少于训练第一模型所需的迭代次数。
37.在更新的声音事件检测模型经过训练之后，可以使用该更新的声音事件检测模型(而不是单独使用第一模型)来检测声音事件。例如，当接收到音频数据样本时，将音频数据样本作为输入提供给更新的声音事件检测模型，并且更新的声音事件检测模型生成声音分类输出。在更新的声音事件检测模型中，将音频数据样本作为输入提供给第一模型和第二模型。第一模型生成第一输出，其被提供给(多个)适配器网络、被修改并与来自第二模型的第二输出组合。(多个)适配器网络生成对应于更新的声音事件检测模型的声音分类输出的第三输出。
38.下面参考附图描述本公开的特定方面。在描述中，共同的特征由共同的附图标记
表示。如本文所使用的，各种术语仅用于描述特定实施方式的目的，并不旨在限制实施方式。例如，单数形式的“一”、“一个”以及“该”旨在也包括复数形式，除非上下文以其它方式明确指出。此外，本文描述的一些特征在一些实施方式中是单数的而在其他实施方式中是复数的。为了说明，图1描绘了包括一个或多个麦克风(图1中的“(多个)麦克风114”)的设备100，这表明在一些实施方式中，设备100包括单个麦克风114，而在其他实施方式中，设备100包括多个麦克风114。为了便于参考，这些特征通常作为“一个或多个”特征引入，并且随后以单数或任选的复数形式(通常由以“(多个)”开头的术语表示)来指代，除非正在描述与多个特征相关的各方面。
39.可以进一步理解，术语“包括”可以与“包含”互换使用。此外，应当理解，术语“其中”可以与“在其中”互换使用。如本文所使用的，“示例性”可以指示示例、实施方式和/或方面，并且不应被解释为限制或指示偏好或优选实施方式。如本文所使用的，用于修饰诸如结构、组件、操作等元素的序数术语(例如，“第一”、“第二”、“第三”等)本身并不表示元素相对于另一个元素的任何优先级或顺序，而只是将该元素与另一个(要不是使用序数术语)具有相同名称的元素区分开来。如本文所使用的，术语“组”是指一个或多个特定元素，而术语“多个”是指多个(例如，两个或更多个)特定元素。
40.如本文所用，“耦合”可以包括“通信耦合”、“电耦合”或“物理耦合”，并且还可以(或另选地)包括它们的任何组合。两个设备(或组件)可以经由一个或多个其他设备、组件、电线、总线、网络(例如，有线网络、无线网络、或其组合)等直接或间接地耦合(例如，通信耦合、电耦合或物理耦合)。作为说明性的非限制性示例，电耦合的两个设备(或组件)可以包含在同一设备中或不同设备中，并且可以经由电子器件、一个或多个连接器或电感耦合进行连接。在一些实施方式中，诸如以电通信方式通信耦合的两个设备(或组件)可以诸如经由一个或多个电线、总线、网络等直接或间接地发送和接收电信号(数字信号或模拟信号)。如本文所使用的，“直接耦合”可以包括两个设备在没有中间组件的情况下进行耦合(例如，通信耦合、电耦合或物理耦合)。
41.在本公开中，诸如“确定”、“计算”、“估计”、“转换”、“调整”等术语可用于描述如何执行一个或多个操作。应当注意，这些术语不应被解释为限制性的，并且可以利用其他技术来执行类似的操作。此外，如本文所提及的，“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如，“生成”、“计算”、“估计”或“确定”参数(或信号)可以指主动生成、估计、计算或确定参数(或信号)，或者可以指使用、选择或访问已经生成的参数(或信号)，诸如由另一个组件或设备生成。
42.图1是被配置为响应于音频数据样本的输入而生成声音识别数据的设备100的示例的框图。在图1中，设备100还被配置为生成更新的声音事件检测模型。在一些实施方式中，远程计算设备150生成更新的声音事件检测模型，并且设备100使用更新的声音事件检测模型来响应于音频数据样本生成声音识别数据。在一些实施方式中，远程计算设备150和设备100协作以生成更新的声音事件检测模型，并且设备100使用更新的声音事件检测模型来响应于音频数据样本生成声音识别数据。在各种实施方式中，设备100可以具有比图1所示更多或更少的组件。
43.在特定实施方式中，设备100包括处理器120(例如，中央处理单元(cpu))。设备100可以包括一个或多个附加处理器132(例如，一个或多个dsp)。处理器120、(多个)处理器132
或两者可以被配置为生成声音识别数据、生成更新的声音事件检测模型，或两者兼而有之。例如，在图1中，(多个)处理器132包括声音事件检测(sed)引擎108。sed引擎108被配置为使用诸如基础模型104或更新模型106之类的声音事件分类器来分析音频数据样本。基础模型104是先前训练的声音事件检测模型。在一些实施方式中，诸如远程计算设备150之类的另一计算设备训练基础模型104并且基础模型104被作为默认模型存储在设备100上，或者该设备从其他计算设备下载基础模型。在一些实施方式中，设备100训练基础模型104。训练基础模型104需要使用相对较大的一组标记的训练数据(例如，图1中的基础训练数据152)。在一些实施方式中，无论远程计算设备150还是设备100训练基础模型104，基础训练数据152都被存储在远程计算设备150处，该远程计算设备可以具有比设备100更大的存储容量(例如，更多的存储器)。图2示出了基础模型104的特定实施方式的示例。更新模型106是更新的声音事件检测模型，其基于基础模型104并且如下文进一步描述的那样使用模型更新器110进行训练。
44.在图1中，设备100还包括存储器130和编解码器142。存储器130存储可由处理器120或(多个)处理器132执行的指令124，以实现参考图3至图15描述的一个或多个操作。在一个示例中，指令124包括或对应于sed引擎108、模型更新器110或两者。存储器130还可以存储基础模型104、更新模型106或两者。此外，在图1所示的示例中，存储器130存储音频数据样本126和音频数据样本128。音频数据样本126包括表示用于训练基础模型104的第一组声音类别中的一个或多个的音频数据样本。也就是说，音频数据样本126包括基础训练数据152的相对较小的子集。在一些实施方式中，当设备100准备生成更新模型106时，设备100从远程计算设备150下载音频数据样本126。音频数据样本128包括表示用于训练更新模型106的第二组声音类别中的一个或多个的音频数据样本。在特定实施方式中，设备100捕获音频数据样本128中的一个或多个(例如，使用(多个)麦克风114)。在一些实施方式中，设备100从诸如远程计算设备150之类的另一设备获得音频数据样本128中的一个或多个。图3示出了模型更新器110基于基础模型104、音频数据样本126和音频数据样本128生成更新模型106的操作的示例。
45.在图1中，(多个)扬声器118和(多个)麦克风114可以耦合到编解码器142。在一个特定方面，(多个)麦克风114被配置为接收表示与设备100相关联的声学环境的音频并生成sed引擎108提供给基础模型104或更新模型106以生成声音分类输出的音频数据样本。图4示出了更新模型106生成指示检测到声音事件的输出数据的操作的示例。(多个)麦克风114还可以被配置为将音频数据样本128提供给模型更新器110或提供给存储器130以用于生成更新模型106。
46.在图1所示的示例中，编解码器142包括数模转换器(dac 138)和模数转换器(adc 140)。在一个特定实施方式中，编解码器142从(多个)麦克风114接收模拟信号，使用adc 140将模拟信号转换为数字信号，并将数字信号提供给(多个)处理器132。在一个特定实施方式中，(多个)处理器132(例如，语音和音乐编解码器)将数字信号提供给编解码器142，并且编解码器142使用dac 138将数字信号转换为模拟信号并将模拟信号提供给(多个)扬声器118.
47.在图1中，设备100还包括输入设备122。设备100还可以包括耦合到显示控制器112的显示器102。在一个特定方面，输入设备122包括传感器、键盘、定点设备等。在一些实施方
式中，输入设备122和显示器102被组合在触摸屏或类似的触摸或运动敏感显示器中。输入设备122可用于提供与音频数据样本128之一相关联的标记，以生成用于训练更新模型106的标记的训练数据。在一些实施方式中，设备100还包括与收发器134耦合的调制解调器136。在图1中，收发器134耦合到天线146以实现与诸如远程计算设备150之类的其他设备的无线通信。在其他示例中，收发器134另外或另选地耦合到通信端口(例如，以太网端口)以实现与诸如远程计算设备150之类的其他设备的有线通信。
48.在一个特定实施方式中，设备100被包括在系统级封装或片上系统设备144中。在一个特定实施方式中，存储器130、处理器120、(多个)处理器132、显示控制器112、编解码器142、调制解调器136和收发器134被包括在系统级封装或片上系统设备144中。在一个特定实施方式中，输入设备122和电源116耦合到片上系统设备144。此外，在一个特定实施方式中，如图1所示，显示器102、输入设备122、(多个)扬声器118、(多个)麦克风114、天线146和电源116在片上系统设备144的外部。在一个特定实施方式中，显示器102、输入设备122、(多个)扬声器118、(多个)麦克风114、天线146和电源116中的每一个可以耦合到片上系统设备144的组件，诸如接口或控制器。
49.设备100可以包括、对应于或包含在语音激活设备、音频设备、无线扬声器和语音激活设备、便携式电子设备、汽车、载具、计算设备、通信设备、物联网(iot)设备、虚拟现实(vr)设备、增强现实(ar)设备、智能扬声器、移动计算设备、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板电脑、个人数字助理、显示设备、电视、游戏机、电器、音乐播放器、收音机、数字视频播放器、数字视频光盘(dvd)播放器、调谐器、相机、导航设备或它们的任何组合。在一个特定方面，处理器120、(多个)处理器132或它们的组合被包括在集成电路中。
50.图2是示出根据特定示例的基础模型104的各方面的框图。基础模型104是具有拓扑结构(例如基础拓扑结构202)和可训练参数(例如基础参数236)的神经网络。基础拓扑结构202可以表示为一组节点和边(或链接)；然而，为了便于说明和参考，基础拓扑结构202在图2中被表示为一组层。应当理解，图2的每一层都包括一组节点，并且链接将不同层的节点互连。链接的排列取决于每一层的类型。
51.在反向传播训练期间，基础拓扑结构202是静态的并且基础参数236是改变的。在图2中，基础参数236包括基础链接权重238。基础参数236还可以包括其他参数，诸如与基础模型104的一个或多个节点相关联的偏差值。
52.基础拓扑结构结构202包括输入层204、一个或多个隐藏层(图2中标记的(多个)隐藏层206)和输出层234。输入层204的输入节点计数取决于要提供给基础模型104的音频数据样本的排列。例如，音频数据样本可以包括数据元素的阵列或矩阵，其中每个数据元素对应于输入音频样本的特征。作为具体示例，音频数据样本可以对应于从一秒音频数据中提取的梅尔(mel)频谱特征。在该示例中，音频数据样本可以包括一个128
×
128的特征值元素矩阵。在其他示例中，可以使用其他音频数据样本配置或大小。输出层234的节点计数取决于基础模型104被配置为检测的声音类别的数量。作为示例，输出层234可以包括用于每个声音类别的一个输出节点。
53.取决于具体实施方式，(多个)隐藏层206可以具有各种配置和各种层数。图2示出了(多个)隐藏层206的一个特定示例。在图2中，(多个)隐藏层206包括三个卷积神经网络
(cnn)，包括cnn 208、cnn 228和cnn 230。在该示例中，输出层234包括或对应于激活层232。例如，激活层232接收cnn 230的输出并将激活函数(诸如sigmoid函数)应用于输出以生成一组数据元素作为输出，每个数据元素包括一个值或零值。
54.图2还示出了cnn 208、cnn 228和cnn 230的一个特定实施方式的细节。在图2所示的具体示例中，cnn 208包括二维(2d)卷积层(图2中的conv2d 210)、最大池化层(图2中的最大池化216)和批量归一化层(图2中的批量归一化226)。同样，在图2中，cnn 228包括conv2d 212、最大池化222和批量归一化220，cnn 230包括conv2d 214、最大池化224和批量归一化218。在其他实施方式中，(多个)隐藏层206包括不同数量的cnn或其他层。
55.如上所述，更新模型106包括基础模型104、基础模型104的修改副本以及一个或多个适配器网络。基础模型104的修改副本使用与图2所示相同的基础拓扑结构202，除了修改副本的输出层包括比输出层234更多的输出节点。另外，在训练更新模型106之前，修改副本被初始化为具有与基础模型104相同的基础参数236。
56.图3是示出根据特定示例的生成更新模型106的各方面的图。参考图3描述的操作可以由处理器120或图1的执行指令124的(多个)处理器132来发起、执行或控制。另选地，参考图3描述的操作可以由远程计算设备150使用在设备100处捕获的音频数据样本128和来自基础训练数据152的音频数据样本126来执行。如果参考图3描述的操作在远程计算设备150处执行，则设备100可以从远程计算设备150下载更新模型106或其一部分，诸如增量模型302和一个或多个适配器网络314。
57.为了生成更新模型106，模型更新器110复制基础模型104并用不同的输出层(例如，图3中的输出层322)替换基础模型104的副本的输出层234以生成增量模型302(本文中也称为第二模型)。增量模型302包括基础模型104的基础拓扑结构202，除了用输出层322替换了输出层234和生成用来将输出层322的输出节点链接到增量模型302的隐藏层的链接之外。增量模型302的模型参数(例如增量模型参数306)被初始化为等于基础参数236。基础模型104的输出层234包括第一节点计数(例如，图3中的n个节点，其中n是正整数)，并且增量模型302的输出层322包括第二节点计数(例如，图3中的n k个节点，其中k是正整数)。第一节点计数对应于基础模型104被训练要识别的第一组声音类别的声音类别计数(例如，第一组声音类别包括基础模型104可以识别的n个不同声音类别)。第二节点计数对应于更新模型106将被训练要识别的第二组声音类别的声音类别计数(例如，第二组声音类别包括更新模型106将被训练要识别的n k个不同的声音类别)。因此，第二组声音类别包括第一组声音类别(例如，n个类别)加上一个或多个附加声音类别(例如，k个类别)。
58.除了生成增量模型302之外，模型更新器110还生成一个或多个适配器网络314。在图3中，(多个)适配器网络314包括神经适配器310和合并适配器308。神经适配器310包括一个或多个适配器层(例如，图3中的(多个)适配器层312)。(多个)适配器层312被配置为接收来自基础模型104的输入并生成可以与增量模型302的输出合并的输出。例如，基础模型104可以生成对应于第一组声音类别的第一类别计数的第一输出352作为输出。例如，第一输出包括针对输出层234的每个节点的一个数据元素(例如，n个数据元素)。相比之下，增量模型302生成对应于第二组声音类别的第二类别计数的第二输出354作为输出。例如，第二输出354包括针对输出层322的每个节点的一个数据元素(例如，n k个数据元素)。在该示例中，(多个)适配器层312接收具有第一数据元素计数的输入并且生成具有第二数据元素计数
(例如，n k)的第三输出356。在一个特定示例中，(多个)适配器层312包括两个全连接层(例如，包括n个节点的输入层和包括n k个节点的输出层，其中输入层的每个节点连接到输出层的每个节点)。
59.合并适配器308被配置为通过合并来自神经适配器310的第三输出356和增量模型302的第二输出354来生成输出数据318。在图3中，合并适配器308包括聚合层316和输出层320。聚合层316被配置为以逐个元素的方式组合第二输出354和第三输出356。例如，聚合层316可以将来自神经适配器310的第三输出356的每个元素添加到来自增量模型302的第二输出354的对应元素，并将得到的合并输出提供给输出层320。输出层320是激活层，其将激活函数(诸如sigmoid函数)应用于合并输出以生成输出数据318。输出数据318包括或对应于指示更新模型106为其分配特定音频样本(例如，音频数据样本126或128之一)的声音类别的声音事件标识符360。
60.在训练期间，模型更新器110将标记的训练数据304提供给基础模型104和增量模型302。标记的训练数据304包括音频数据样本126中的一个或多个(其用于训练基础模型104)和一个或多个音频数据样本128(其对应于基础模型104未被训练识别的新声音类别)。响应于标记的训练数据304的特定音频样本，基础模型104生成第一输出352，其作为输入提供给神经适配器310。另外，响应于特定音频样本，增量模型302生成第二输出354，该第二输出与神经适配器310的第三输出356一起被提供给合并适配器308。合并适配器308合并第二输出354和第三输出356以生成合并输出并基于合并输出生成输出数据318。
61.将输出数据318、声音事件标识符360或两者提供给模型更新器110，模型更新器将声音事件标识符360与标记的训练数据304中与特定音频样本相关联的标记进行比较并计算更新的链接权重值(图3中更新的链接权重362)以修改增量模型参数306、神经适配器310的链接权重、合并适配器308的链接权重或其组合。训练过程迭代地继续，直到模型更新器110确定满足训练终止条件。例如，模型更新器110基于标记的训练数据304和输出数据318计算误差值。在该示例中，误差值指示更新模型106基于与每个音频数据样本126和128相关联的标记对标记的训练数据304的每个音频数据样本126和128进行分类的准确程度。在该示例中，当误差值小于阈值或训练迭代之间的误差值的变化小于阈值时，可以满足训练终止条件。在一些实施方式中，当执行的训练迭代的计数大于或等于阈值计数时满足终止条件。
62.图4是示出根据特定示例的使用更新模型106来生成声音事件检测输出数据的各方面的图。参考图4描述的操作可以由处理器120或图1的执行指令124的(多个)处理器132来发起、执行或控制。
63.在图4中，包括音频数据样本406的一个或多个输入450被提供给基础模型104和更新模型106的增量模型302。在一个特定示例中，音频数据样本406包括、对应于或基于由图1的设备100的(多个)麦克风114捕获的音频。例如，音频数据样本406可以对应于从数秒的音频数据中提取的特征，并且输入450可以包括从音频数据中提取的特征数据的阵列或矩阵。
64.响应于输入450，基础模型104生成第一输出452，其被作为输入提供给神经适配器310。基础模型104使用包括基础链接权重238的基础参数236生成第一输出452。基础模型104的第一输出452对应于第一组声音类别的第一类别计数。在一个说明性示例中，第一输出452包括数据元素的阵列或矩阵并且具有对应于基础模型104的输出层234的输出节点的
数量(例如，n个节点)的数据元素计数(例如，n个数据元素)，并且输出层234的输出节点的数量对应于第一组声音类别的第一类别计数。
65.响应于输入450，增量模型302生成第二输出454，其被提供给合并适配器308。增量模型302的第二输出454对应于第二组声音类别的第二类别计数。在一个说明性示例中，第二输出454包括数据元素的阵列或矩阵并且具有对应于增量模型302的输出层322的输出节点的数量(例如，n k个节点)的数据元素计数(例如，n k个数据元素)，并且输出层322的输出节点的数量对应于第二组声音类别的第二类别计数。增量模型302使用包括更新的链接权重404的更新的参数402生成第二输出454，该更新的参数由模型更新器110在训练过程中生成。在一个特定实施方式中，更新的参数402对应于满足参考图3描述的训练终止条件的增量模型302的参数。
66.神经适配器310基于来自基础模型104的第一输出452生成第三输出456。在一个特定示例中，神经适配器310基于模型更新器110在训练过程期间训练的链接权重生成第三输出456。神经适配器310的第三输出456对应于第二组声音类别的第二类别计数。在一个说明性示例中，第三输出456包括数据元素的阵列或矩阵并且具有对应于第二组声音类别的第二类别计数的数据元素计数(例如，n k个数据元素)。
67.来自神经适配器310的第三输出456和来自增量模型302的第二输出454被提供给合并适配器308。合并适配器308的聚合层316逐个元素地组合第三输出456和第二输出454，以生成合并输出458。合并适配器308的输出层320基于合并输出458生成输出数据408。在一个特定示例中，合并适配器308基于在训练过程期间由模型更新器110训练的链接权重生成输出数据408。输出数据408包括指示与音频数据样本406相关联的声音类别的声音识别数据(例如，声音事件识别数据460)。
68.图5是结合了图1、图3或图4的更新的声音事件检测模型106的各方面的载具500的说明性示例。根据一个实施方式，载具500是自动驾驶汽车。根据其他实施方式，载具500是汽车、卡车、摩托车、飞机、水上载具等。在图5中，载具500包括屏幕502(例如，显示器，诸如图1的显示器102)、(多个)传感器504、设备100或其组合。(多个)传感器504和设备100使用虚线显示，以指示载具500的乘客可能看不到这些组件。设备100可以集成到载具500中或耦合到载具500。
69.在一个特定方面，设备100耦合到屏幕502并且响应于检测或识别出本文描述的各种事件(例如，声音事件)而向屏幕502提供输出。例如，设备100向屏幕502提供图4的输出数据408，指示在从(多个)传感器504接收的音频数据中检测到识别的声音事件，诸如汽车喇叭声。在一些实施方式中，设备100可以响应于识别声音事件来执行动作，诸如激活相机或(多个)传感器504之一。在一个特定示例中，设备100提供指示是否正在响应于识别的声音事件执行动作的输出。在一个特定方面，用户可以选择显示在屏幕502上的选项以启用或禁用响应于识别的声音事件而执行的动作。
70.在一个特定实施方式中，(多个)传感器504包括图1的一个或多个麦克风114、载具占用传感器、眼睛跟踪传感器或外部环境传感器(例如，激光雷达传感器或相机)。在一个特定方面，(多个)传感器504的传感器输入指示用户的位置。例如，(多个)传感器504与载具500内的各个位置相关联。
71.图5中的设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。
然而，在其他实施方式中，当在载具500中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到载具500以供sed引擎108使用。
72.因此，关于图1至图4描述的技术使载具500的用户能够更新存储在载具500的存储器中的声音事件检测模型(例如，基础模型104)以生成能够检测一组新的声音类别的声音事件检测模型(例如，更新模型106)。此外，可以在不过度使用载具500上机载的计算资源的情况下更新声音事件检测模型。例如，载具500不必将用于训练基础模型104的所有基础训练数据152都存储在本地存储器中以避免忘记与基础训练数据152相关联的训练。相反，模型更新器110在生成更新模型106的同时保留基础模型104。模型更新过程也比用于从头开始生成新的声音事件检测模型更快地收敛(例如，使用更少的处理器周期)。
73.图6示出了耦合到或集成在头戴式耳机602中的设备100的示例，诸如虚拟现实头戴式耳机、增强现实头戴式耳机、混合现实头戴式耳机、扩展现实头戴式耳机、头戴式显示器或其组合。诸如显示器604之类的视觉接口设备被定位在用户的眼睛前方，以使头戴式耳机602在被佩戴时能够向用户显示增强现实或虚拟现实图像或场景。在一个特定示例中，显示器604被配置为显示设备100的输出，诸如识别的声音事件的指示(例如，声音事件识别数据460)。头戴式耳机602可以包括一个或多个传感器606，诸如图1的(多个)麦克风114、相机、其他传感器或它们的组合。尽管在单个位置中示出，但在其他实施方式中，一个或多个传感器606可以位于头戴式耳机602的其他位置，诸如一个或多个麦克风和一个或多个相机的阵列分布在头戴式耳机602周围以检测多模态输入。
74.(多个)传感器606能够检测音频数据，设备100使用该音频数据来检测声音事件或更新基础模型104以生成更新模型106。例如，设备100向显示器604提供图4的输出数据408，指示在从(多个)传感器606接收的音频数据中检测到识别的声音事件，诸如汽车喇叭声。在一些实施方式中，设备100可以响应于识别声音事件来执行动作，诸如激活相机或(多个)传感器606之一或向用户提供触觉反馈。
75.在图6所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在头戴式耳机602中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到头戴式耳机602以供sed引擎108使用。
76.图7示出了集成到可穿戴电子设备702中的设备100的示例，该可穿戴电子设备被示为“智能手表”，其包括显示器706(例如，图1的显示器102)和(多个)传感器704。(多个)传感器704例如能够基于诸如视频、语音和姿势之类的模态来检测用户输入。(多个)传感器704还能够检测音频数据，设备100使用该音频数据来检测声音事件或更新基础模型104以生成更新模型106。例如，(多个)传感器704可以包括或对应于图1的(多个)麦克风114。
77.(多个)传感器704能够检测音频数据，设备100使用该音频数据来检测声音事件或更新基础模型104以生成更新模型106。例如，设备100将图4的输出数据408提供给显示器706，指示在从(多个)传感器704接收的音频数据中检测到识别的声音事件。在一些实施方式中，设备100可以响应于识别声音事件来执行动作，诸如激活相机或(多个)传感器704之一或向用户提供触觉反馈。
78.在图7所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型
更新器110。然而，在其他实施方式中，当在可穿戴电子设备702中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以被下载到可穿戴电子设备702以供sed引擎108使用。
79.图8是语音控制扬声器系统800的说明性示例。语音控制扬声器系统800可以具有无线网络连接，并且被配置为执行辅助操作。在图8中，设备100被包括在语音控制扬声器系统800中。语音控制扬声器系统800还包括扬声器802和(多个)传感器804。(多个)传感器804可以包括图1的一个或多个麦克风114以接收语音输入或其他音频输入。
80.在操作期间，语音控制扬声器系统800响应于接收到口头命令，可以执行辅助操作。辅助操作可以包括调节温度、播放音乐、打开灯等。(多个)传感器804能够检测音频数据，设备100使用该音频数据来检测声音事件或生成更新模型106。此外，语音控制扬声器系统800可以基于设备100识别的声音事件执行一些操作。例如，如果设备100识别门关闭的声音，则语音控制扬声器系统800可以打开一个或多个灯。
81.在图8所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在语音控制扬声器系统800中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以被下载到语音控制扬声器系统800以供sed引擎108使用。
82.图9示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的相机900。在图9中，设备100被并入或耦合到相机900。相机900包括图像传感器902和一个或多个其他传感器904，诸如图1的(多个)麦克风114。另外，相机900包括设备100，其被配置为基于来自(多个)传感器904的音频数据来识别声音事件。例如，相机900可以响应于设备100检测到来自(多个)传感器904的音频数据中的特定声音事件而使图像传感器902捕获图像。
83.在图9所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在相机900中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到相机900以供sed引擎108使用。
84.图10示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的移动设备1000。在图10中，移动设备1000包括或耦合到图1的设备100。作为说明性的非限制性示例，移动设备1000包括电话或平板电脑。移动设备1000包括显示屏1002和一个或多个传感器1004，诸如图1的(多个)麦克风114。
85.在操作期间，移动设备1000可以响应于设备100检测到特定声音事件而执行特定动作。例如，动作可以包括向其他设备发送命令，其他设备诸如恒温器、家庭自动化系统、另一个移动设备等。(多个)传感器1004能够检测音频数据，设备100使用该音频数据来检测声音事件或者生成更新模型106。
86.在图10所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在移动设备1000中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到移动设备1000以供sed引擎108使用。
87.图11示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的航空设
备1100。在图11中，航空设备1100包括或耦合到图1的设备100。航空设备1100是有人驾驶、无人驾驶或遥控驾驶航空设备(例如，包裹递送无人机)。航空设备1100包括控制系统1102和一个或多个传感器1104，诸如图1的(多个)麦克风114。控制系统1102控制航空设备1100的各种操作，诸如货物释放、传感器激活、起飞、导航、着陆或其组合。例如，控制系统1102可以控制航空设备1100在指定点之间的飞行以及货物在特定位置的部署。在一个特定方面，控制系统1102响应于设备100对特定声音事件的检测执行一个或多个动作。为了说明，控制系统1102可以响应于设备100检测到飞行器引擎而启动安全着陆协议。
88.在图11所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在航空设备1100中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到航空设备1100以供sed引擎108使用。
89.图12示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的头戴式耳机1200。在图12中，头戴式耳机1200包括或耦合到图1的设备100。头戴式耳机1200包括麦克风1204(例如，图1的(多个)麦克风114之一)，其被定位成主要捕获用户的语音。头戴式耳机1200还可以包括一个或多个附加麦克风，该一个或多个附加麦克风被定位成主要捕获环境声音(例如，用于噪声消除操作)。在一个特定方面，头戴式耳机1200响应于设备100对特定声音事件的检测执行一个或多个动作。为了说明，头戴式耳机1200可以响应于设备100检测到枪声而激活噪声消除特征。
90.在图12所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在头戴式耳机1200中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到头戴式耳机1200以供sed引擎108使用。
91.图13示出了结合了图1、图3或图4的更新的声音事件检测模型的各方面的家用电器1300。在图13中，家用电器1300是灯；然而，在其他实施方式中，家用电器1300包括另一物联网家用电器，诸如冰箱、咖啡机、烤箱、另一家用家用电器等。家用电器1300包括或耦合到图1的设备100。家用电器1300包括一个或多个传感器1304，诸如图1的(多个)麦克风114。在一个特定方面，家用电器1300响应于设备100对特定声音事件的检测执行一个或多个动作。为了说明，家用电器1300可以响应于设备100检测到门关闭而激活灯。
92.在图13所示的示例中，设备100包括基础模型104、更新模型106、sed引擎108和模型更新器110。然而，在其他实施方式中，当在家用电器1300中安装或使用时，设备100省略了模型更新器110。为了说明，图1的远程计算设备150可以生成更新模型106。在这样的实施方式中，更新模型106可以下载到家用电器1300以供sed引擎108使用。
93.图14是示出使用图1、图3或图4的更新的声音事件检测模型(例如，更新模型106)生成声音事件检测数据的方法1400的示例的流程图。方法1400可以由设备100发起、控制或执行。例如，图1的(多个)处理器120或132可以执行来自存储器130的指令124，以使sed引擎108使用更新模型106来基于对应于捕获的音频的音频数据样本生成输出数据408。
94.在框1402中，方法1400包括接收音频数据样本。例如，设备100的(多个)麦克风114可以从靠近(多个)麦克风114的声学环境接收音频数据，并且编解码器142或sed引擎108可以基于音频数据生成音频数据样本。
95.在框1404中，方法1400包括将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出。例如，如图4所示，将音频数据样本406(作为一个或多个输入450)提供给基础模型104。在该示例中，基础模型104在输出层234中包括n个节点，其中n是与基础模型104被配置为检测的一组声音类别的计数相对应的整数。输出层234生成第一输出452，其包括输出层234的每个节点一个数据元素(例如，n个数据元素)。
96.在框1406中，方法1400包括将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，其中第二类别计数大于第一类别计数。例如，如图4所示，音频数据样本406被提供给增量模型302。在该示例中，增量模型302的输出层322包括n k个节点，其中k是大于或等于1的整数并且对应于更新模型106可以检测到的未被基础模型104检测到的声音类别的计数。因此，n k大于n。输出层322生成包括输出层322的每个节点一个数据元素的输出(例如，n k个数据元素)。
97.在框1408中，方法1400包括将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出。例如，图4的基础模型104向神经适配器310提供输出。神经适配器310生成具有与增量模型302的输出相同数量的数据元素(例如，n k个数据元素)的输出。
98.在框1410中，方法1400包括将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音识别数据。例如，在图4中，神经适配器310生成第三输出456并且增量模型302生成第二输出454。在此示例中，第三输出456和第二输出454每个被提供给合并适配器308。合并适配器308的聚合层316组合输出454和456以生成合并输出458，并且合并适配器308的输出层320基于合并输出458生成输出数据408。输出数据408包括所识别的声音事件的指示(例如，声音事件识别数据460)。
99.图15是示出生成图1、图3或图4的更新的声音事件检测模型的方法1500的示例的流程图。方法1500可以由设备100发起、控制或执行。例如，图1的(多个)处理器120或132可以执行来自存储器130的指令124，以使模型更新器110基于音频数据样本126和128生成更新模型106。另选地，在一个特定方面，方法1500可以由图1的远程计算设备150发起、控制或执行。为了说明，可以使用来自基础训练数据152的音频数据样本126和从设备100发送到远程计算设备150的音频数据样本128在远程计算设备150处执行模型更新器110。
100.在框1502中，方法1500包括基于第一声音事件分类器的第一神经网络生成第二神经网络。第一神经网络包括输入层、隐藏层和第一输出层，并且第二神经网络包括第一神经网络的输入层的副本、第一神经网络的隐藏层的副本以及耦合到隐藏层的副本的第二输出层。第一输出层包括第一输出节点计数并且第二输出层包括第二输出节点计数，其中第二输出节点计数大于第一输出节点计数。例如，模型更新器110通过重复(例如，复制)包括输入层204、隐藏层206和输出层234的基础模型104并且用输出层322替换或修改输出层234来生成增量模型302。在该示例中，基础模型104是第一神经网络，其被训练以响应于表示第一组声音类别中的一个或多个的音频数据样本的输入而生成声音识别数据，并且基础模型104的输出层234包括对应于第一组声音类别的类别数量的节点计数(例如，n个节点)。此外，增量模型302是第二神经网络，其将被训练以响应于表示第二组声音类别中的一个或多个的音频数据样本的输入而生成声音识别数据，并且增量模型302的输出层322包括对应于
第二组声音类别的第二类别数量的第二节点计数(例如，n k)。第二组声音类别包括第一组声音类别和一个或多个附加的声音类别。
101.在框1504中，方法1500包括将第一神经网络和第二神经网络链接到一个或多个适配器网络。例如，图1的模型更新器110生成(多个)适配器网络314，并将基础模型104(例如，第一神经网络)和增量模型302(例如，第二神经网络)的输出链接到(多个)适配器网络314。
102.在框1506中，方法1500包括将标记的训练数据作为输入提供给第一神经网络和第二神经网络。例如，在图3中，模型更新器110将标记的训练数据304作为一个或多个输入350提供给基础模型104和增量模型302。
103.在框1508中，方法1500包括经由一个或多个适配器网络修改第一神经网络和第二神经网络的输出。例如，响应于标记的训练数据304，图3的基础模型104和增量模型302各自将输出提供给(多个)适配器网络314。为了说明，基础模型104将(多个)第一输出352提供给神经适配器310，并且神经适配器基于(多个)第一输出352生成(多个)第三输出356。另外，增量模型302生成(多个)第二输出354。(多个)第三输出356和(多个)第二输出354被提供给合并适配器308，并且合并适配器308生成输出数据318。
104.在框1510中，方法1500通过基于适配器网络的输出和标记的训练数据的标记来更新第二神经网络和一个或多个适配器网络的链接权重来训练第二声音事件分类器。例如，模型更新器110通过确定更新的链接权重362(例如，使用梯度下降或另一优化搜索过程)并将更新的链接权重362提供给增量模型302、神经适配器310和合并适配器308中的一个或多个来训练更新模型106。在该示例中，基础模型104的基础链接权重238没有改变。
105.结合所描述的实施方式，一种装置包括用于存储声音事件分类器的部件，该声音事件分类器被训练以响应于表示第一组声音类别中的一个或多个的音频数据的输入而生成第一声音识别数据。例如，用于存储的部件包括远程计算设备150、设备100、存储器130、处理器120、(多个)处理器132、被配置为存储经训练的声音事件分类器(例如，神经网络)的一个或多个其他电路或组件，或它们的任何组合。
106.该装置还包括用于生成更新的声音事件分类器的部件，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据样本的输入而生成第二声音识别数据，其中第二组声音类别包括第一组声音类别和一个或多个附加声音类别。例如，用于生成更新的声音事件分类器的部件包括远程计算设备150、设备100、指令124、处理器120、(多个)处理器132、模型更新器110、被配置为生成更新的声音事件分类器的一个或多个其他电路或组件，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据的输入而生成第二声音识别数据，其中第二组声音类别包括第一组声音类别和一个或更多附加的声音类别，或它们的任何组合。
107.结合所描述的实施方式，一种装置包括用于生成与第一组声音类别的第一类别计数相对应的第一输出的部件。例如，生成第一输出的部件包括处理器120、(多个)处理器132、基础模型104、更新模型106、sed引擎108、被配置为生成对应于第一组声音类别的第一类别计数的第一输出的一个或多个其他电路或组件，或它们的任何组合。
108.该装置还包括用于生成与第二组声音类别的第二类别计数相对应的第二输出的部件，第二类别计数大于第一类别计数。例如，用于生成第二输出的部件包括处理器120、(多个)处理器132、增量模型302、更新模型106、sed引擎108、被配置为生成对应于第二组声
音类别的第二类别计数的第二输出的一个或多个其他电路或组件，或它们的任何组合。
109.该装置还包括用于基于第一输出生成第三输出的部件，该第三输出对应于第二组声音类别的第二类别计数。例如，用于生成第三输出的部件包括处理器120、(多个)处理器132、更新模型106、(多个)适配器网络314、神经适配器310、sed引擎108、被配置为基于第一输出生成第三输出的一个或多个其他电路或组件，或它们的任何组合。
110.该装置还包括用于基于第三输出和第二输出生成声音事件识别数据的部件。例如，用于基于第三输出和第二输出生成声音识别数据的部件包括处理器120、(多个)处理器132、更新模型106、(多个)适配器网络314、合并适配器308、sed引擎108、被配置为基于第三输出和第二输出生成声音识别数据的一个或多个其他电路或组件，或它们的任何组合。
111.技术人员将进一步理解，结合本文所公开的实施方式描述的各种说明性逻辑块、配置、模块、电路和算法步骤可以实施为电子硬件、由处理器执行的计算机软件或两者的组合。各种说明性组件、块、配置、模块、电路和步骤已在上面大体上根据它们的功能进行了描述。这种功能是实现为硬件还是处理器可执行指令取决于特定应用和施加在整个系统上的设计约束。技术人员可以针对每种特定应用按照不同方式实现所描述功能，但是此类实施方式决策不应当被解释为导致脱离了本公开的范围。
112.结合本文公开的实施方式所描述的方法或算法的步骤可以直接体现在硬件中、在由处理器执行的软件模块中，或在两者的组合中。软件模块可以驻留在随机存取存储器(ram)、闪存存储器、只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器中(eeprom)、寄存器、硬盘、可移动磁盘、光盘只读存储器(cd-rom)或本领域已知的任何其他形式的非暂时性存储介质。示例性存储介质被耦合到处理器，从而使得处理器可以从该存储介质读取信息，并向该存储介质写入信息。另选地，存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在专用集成电路(asic)中。asic可以驻留在计算设备或用户终端中。另选地，处理器和存储介质可以作为分立组件驻留在计算设备或用户终端中。
113.以下在第一组相互关联的条款中描述了本公开的特定方面：
114.根据条款1，一种设备包括处理器，该处理器被配置为：接收音频数据样本；将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出；将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，第二类别计数大于第一类别计数；将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出；以及将第二输出和第三输出提供给合并适配器，以基于音频数据样本生成声音事件识别数据。
115.条款2包括根据条款1所述的设备，其中第一神经网络具有基础拓扑结构和第一输出层并且第二神经网络具有基础拓扑结构和第二输出层，并且其中第一输出层包括第一节点计数，第二输出层包括第二节点计数，并且第二节点计数大于第一节点计数。
116.条款3包括根据条款2所述的设备，其中神经适配器具有包括第一节点计数的输入层和包括第二节点计数的输出层。
117.条款4包括根据条款1至3中任一项所述的设备，其中合并适配器被配置为逐个元素地合并第二输出和第三输出以形成合并输出。
118.条款5包括根据条款4所述的设备，其中合并适配器被配置为基于合并输出生成包
括声音事件识别数据的输出数据。
119.条款6包括根据条款1至5中任一项所述的设备，其中音频数据样本包括从音频数据中提取的特征。
120.条款7包括根据条款1至6中任一项所述的设备，其中音频数据样本包括从音频数据中提取的梅尔频谱特征。
121.条款8包括根据条款1至7中任一项所述的设备，并且还包括一个或多个麦克风，该一个或多个麦克风耦合到处理器并被配置为捕获音频数据以生成音频数据样本。
122.条款9包括根据条款8所述的设备，其中处理器和一个或多个麦克风集成在移动计算设备内，并且音频数据表示移动计算设备的声学环境。
123.条款10包括根据条款8所述的设备，其中处理器和一个或多个麦克风集成在载具内。
124.条款11包括根据条款8所述的设备，其中处理器和一个或多个麦克风集成在可穿戴设备内，并且音频数据表示可穿戴设备的声学环境。
125.条款12包括根据条款8所述的设备，其中处理器和一个或多个麦克风集成在头戴式耳机中。
126.条款13包括根据条款8所述的设备，其中处理器被包括在集成电路中。
127.以下在第二组相互关联的条款中描述了本公开的特定方面：
128.根据条款14，一种方法包括：接收音频数据样本；由处理器将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出；由处理器将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，第二类别计数大于第一类别计数；由处理器将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出；以及由处理器将第二输出和第三输出提供给合并适配器，以基于音频数据样本生成声音事件识别数据。
129.条款15包括根据条款14所述的方法，其中第一神经网络具有基础拓扑结构和第一输出层并且第二神经网络具有基础拓扑结构和第二输出层，并且其中第一输出层包括第一节点计数，第二输出层包括第二节点计数，并且第二节点计数大于第一节点计数。
130.条款16包括根据条款15所述的方法，其中神经适配器具有包括第一节点计数的输入层和包括第二节点计数的输出层。
131.条款17包括根据条款14至16中任一项所述的方法，其中合并适配器逐个元素地合并第二输出和第三输出以形成合并输出。
132.条款18包括根据条款17所述的方法，其中合并适配器基于合并输出生成包括声音事件识别数据的输出数据。
133.条款19包括根据条款14至18中任一项所述的方法，并且还包括通过从表示声学环境的音频数据中提取特征来生成音频数据样本。
134.条款20包括根据条款14至19中任一项所述的方法，并且还包括在耦合到处理器的一个或多个麦克风处捕获音频数据，其中基于捕获的音频数据生成音频数据样本。
135.条款21包括根据条款14至20中任一项所述的方法，并且还包括响应于声音事件识别数据执行动作。
136.以下在第三组相互关联的条款中描述了本公开的特定方面：
137.根据条款22，一种非暂时性计算机可读存储介质包括指令，当由处理器执行时该指令使处理器：将音频数据样本提供给第一神经网络，该第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出；将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，第二类别计数大于第一类别计数；将第一输出提供给神经适配器以生成对应于第二组声音类别的第二类别计数的第三输出；以及将第二输出和第三输出提供给合并适配器，以基于音频数据样本生成声音事件识别数据。
138.条款23包括根据条款22所述的非暂时性计算机可读存储介质，其中第一神经网络具有基础拓扑结构和第一输出层并且第二神经网络具有基础拓扑结构和第二输出层，并且其中第一输出层包括第一节点计数，第二输出层包括第二节点计数，并且第二节点计数大于第一节点计数。
139.条款24包括根据条款22或条款23所述的非暂时性计算机可读存储介质，其中当由处理器执行时指令还使处理器响应于声音事件识别数据执行动作。
140.条款25包括根据条款22至24中任一项所述的非暂时性计算机可读存储介质，其中合并适配器基于第三输出和第二输出的逐个元素合并的合并输出生成声音事件识别数据。
141.以下在第四组相互关联的条款中描述了本公开的特定方面：
142.根据条款26，一种设备包括：用于基于音频数据样本生成第一输出的部件，第一输出具有对应于第一组声音类别的第一类别计数的第一数据元素计数；用于基于音频数据样本生成第二输出的部件，第二输出对应于第二组声音类别的第二类别计数，第二类别计数大于第一类别计数；用于基于第一输出生成第三输出的部件，第三输出对应于第二组声音类别的第二类别计数；以及用于基于第三输出和第二输出生成声音事件识别数据的部件。
143.条款27包括根据条款26所述的设备，其中用于基于第一输出生成第三输出的部件包括：包括第一节点计数的输入层和包括第二节点计数的输出层，并且其中第一节点计数对应于第一类别计数，并且第二节点计数对应于第二类别计数。
144.条款28包括根据条款26或条款27所述的设备，其中用于基于第三输出和第二输出生成声音事件识别数据的部件被配置为逐个元素地合并第二输出和第三输出以形成合并输出。
145.条款29包括根据条款26至28中任一项所述的设备，其中用于基于第三输出和第二输出生成声音事件识别数据的部件被配置为基于由第三输出和第二输出形成的合并输出生成包括声音事件识别数据的输出数据。
146.条款30包括根据条款26至29中任一项所述的设备，还包括用于捕获音频数据的部件，其中音频数据样本包括从音频数据中提取的特征。
147.以下在第五组相互关联的条款中描述了本公开的特定方面：
148.根据条款31，一种设备包括存储声音事件分类器的存储器，该声音事件分类器被训练以响应于表示第一组声音类别中的一个或多个的音频数据的输入而生成第一声音识别数据。该设备还包括处理器，该处理器耦合到存储器并且被配置为生成更新的声音事件分类器，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据的输入而生成第二声音识别数据，第二组声音类别包括第一组声音类别和一个或多个附加声音类别。更新的声音事件分类器包括声音事件分类器、第二声音事件分类器、神
经适配器和合并适配器。神经适配器包括一个或多个适配器层，该一个或多个适配器层被配置为接收具有对应于声音事件分类器的输出层的数据元素计数的输入，并且被配置为生成具有对应于第二声音事件分类器的输出层的第二数据元素计数的输出。合并适配器包括一个或多个聚合层，该一个或多个聚合层被配置为合并来自神经适配器的输出和第二声音事件分类器的输出，并且包括用于生成第二声音识别数据的输出层。
149.条款32包括根据条款31所述的设备，并且还包括一个或多个麦克风，该一个或多个麦克风耦合到处理器并被配置为接收对应于附加声音类别的音频数据。
150.条款33包括根据条款31或条款32所述的设备，并且还包括一个或多个输入设备，该一个或多个输入设备耦合到处理器并被配置为接收与附加声音类别相关联的标记数据。
151.条款34包括根据条款31至33中任一项所述的设备，其中存储器存储与模型更新器相对应的指令，并且其中模型更新器可由处理器执行以基于声音事件分类器、第一组声音类别和附加声音类别生成更新的声音事件分类器。
152.条款35包括根据条款31至34中任一项所述的设备，其中处理器和存储器集成在移动计算设备内。
153.条款36包括根据条款31至34所述的设备，其中处理器和存储器集成在载具内。
154.条款37包括根据条款31至34所述的设备，其中处理器和存储器集成在可穿戴设备内。
155.条款38包括根据条款31至34所述的设备，其中处理器和存储器集成在增强现实头戴式耳机、混合现实头戴式耳机或虚拟现实头戴式耳机中。
156.条款39包括根据条款31至38所述的设备，其中处理器被包括在集成电路中。
157.条款40包括根据条款31至39所述的设备并且还包括一个或多个输出设备，该一个或多个输出设备耦合到处理器并被配置为基于第二声音识别数据生成声音分类输出。
158.以下在第六组相互关联的条款中描述了本公开的特定方面：
159.根据条款41，一种设备包括用于存储声音事件分类器的部件，该声音事件分类器被训练以响应于表示第一组声音类别中的一个或多个的音频数据的输入而生成第一声音识别数据，并且包括用于生成更新的声音事件分类器的部件，该更新的声音事件分类器被训练以响应于表示第二组声音类别中的一个或多个的音频数据的输入而生成第二声音识别数据；第二组声音类别包括第一组声音类别和一个或多个附加声音类别。更新的声音事件分类器包括声音事件分类器、第二声音事件分类器、神经适配器和合并适配器。神经适配器包括一个或多个适配器层，该一个或多个适配器层被配置为接收具有对应于声音事件分类器的输出层的数据元素计数的输入，并且被配置为生成具有对应于第二声音事件分类器的输出层的第二数据元素计数的输出。合并适配器包括一个或多个聚合层，该一个或多个聚合层被配置为合并来自神经适配器的输出和第二声音事件分类器的输出，并且包括用于生成第二声音识别数据的输出层。
160.条款42包括根据条款41所述的设备并且还包括用于接收对应于附加声音类别的音频数据的部件。
161.条款43包括根据条款41或条款42所述的设备，并且还包括用于接收与附加声音类别相关联的标记数据的部件。
162.条款44包括根据条款41至43中任一项所述的设备，其中用于存储的部件和用于生
成的部件集成在移动计算设备内。
163.条款45包括根据条款41至43中任一项所述的设备，其中用于存储的部件和用于生成的部件集成在载具内。
164.条款46包括根据条款41至43中任一项所述的设备，其中用于存储的部件和用于生成的部件集成在可穿戴设备内。
165.条款47包括根据条款41至43中任一项所述的设备，其中用于存储的部件和用于生成的部件集成在增强现实或虚拟现实头戴式耳机中。
166.以下在第七组相互关联的条款中描述了本公开的特定方面：
167.根据条款48，一种方法包括基于第一声音事件分类器的第一神经网络生成第二神经网络，其中第一神经网络包括输入层、隐藏层和第一输出层，并且第二神经网络包括第一神经网络的输入层的副本、第一神经网络的隐藏层的副本以及耦合到隐藏层的副本的第二输出层。第一输出层包括第一输出节点计数并且第二输出层包括第二输出节点计数，其中第二输出节点计数大于第一输出节点计数。该方法还包括：将第一神经网络和第二神经网络链接到一个或多个适配器网络；将标记的训练数据作为输入提供给第一神经网络和第二神经网络；经由一个或多个适配器网络修改第一神经网络和第二神经网络的输出；以及通过基于适配器网络的输出和标记的训练数据的标记更新第二神经网络和一个或多个适配器网络的链接权重来训练第二声音事件分类器。
168.条款49包括根据条款48所述的方法，其中第一输出节点计数对应于第一声音事件分类器被训练来检测的第一组声音类别，并且第二输出节点计数对应于第二声音事件分类器被训练来检测的第二组声音类别，并且其中第二组声音类别包括第一组声音类别和一个或多个附加声音类别。
169.条款50包括根据条款49所述的方法并且还包括由移动设备的麦克风捕获表示一个或多个附加声音类别的声音事件的音频数据，其中移动设备的处理器部分地基于表示由移动设备的麦克风捕获的音频数据的音频数据样本来训练第二声音事件分类器。
170.条款51包括根据条款49或条款50所述的方法，其中标记的训练数据包括表示第一组声音类别中的每个类别的一个或多个音频数据样本和表示一个或多个附加声音类别中的每个类别的一个或多个音频数据样本。
171.条款52包括根据条款48至51中任一项所述的方法，其中适配器网络包括神经适配器，该神经适配器包括一个或多个适配器层，该一个或多个适配器层被配置为接收具有第一数据元素计数的输入并且被配置为生成具有第二数据元素计数的输出，第一数据元素计数对应于第一输出节点计数并且第二数据元素计数对应于第二输出节点计数。
172.条款53包括根据条款52所述的方法，其中适配器网络包括合并适配器，该合并适配器包括一个或多个聚合层和输出层，其中一个或多个聚合层被配置为合并来自神经适配器的输出和第二神经网络的输出，并且其中输出层被配置为生成标识声音事件的输出数据。
173.条款54包括根据条款48至53中任一项所述的方法，并且还包括：在训练第二声音事件分类器之后，将音频数据样本作为输入提供给第二声音事件分类器，并且生成标识由第二声音事件分类器在音频数据样本中检测到的声音事件的输出数据。
174.条款55包括根据条款54所述的方法，其中生成标识声音事件的输出数据包括将音
频数据样本提供给第一神经网络以生成第一输出；将音频数据样本提供给第二神经网络以生成第二输出；将第一输出提供给一个或多个适配器网络的神经适配器以生成第三输出；以及将第二输出和第三输出提供给一个或多个适配器网络的合并适配器以生成输出数据。
175.条款56包括根据条款48至55中任一项所述的方法，其中在第二声音事件分类器的训练期间不更新第一神经网络的链接权重。
176.条款57包括根据条款48至56中任一项所述的方法，其中第二声音事件分类器包括第一神经网络、第二神经网络和一个或多个适配器网络。
177.以下在第八组相互关联的条款中描述了本公开的特定方面：
178.根据条款58，一种非暂时性计算机可读存储介质，包括指令，当由处理器执行时该指令使处理器：基于第一声音事件分类器的第一神经网络生成第二神经网络，其中第一神经网络包括输入层、隐藏层和第一输出层，并且第二神经网络包括第一神经网络的输入层的副本、第一神经网络的隐藏层的副本以及耦合到隐藏层的副本的第二输出层。第一输出层包括第一输出节点计数并且第二输出层包括第二输出节点计数，其中第二输出节点计数大于第一输出节点计数。指令还使处理器：将第一神经网络和第二神经网络链接到一个或多个适配器网络；将标记的训练数据作为输入提供给第一神经网络和第二神经网络；经由一个或多个适配器网络修改第一神经网络和第二神经网络的输出；以及通过基于适配器网络的输出和标记的训练数据的标记更新第二神经网络和一个或多个适配器网络的链接权重来训练第二声音事件分类器。
179.条款59包括根据条款58所述的非暂时性计算机可读存储介质，其中第一声音事件分类器被训练以检测第一组声音类别并且第二声音事件分类器被训练以检测第二组声音类别，第二组声音类别包括第一组声音类别和一个或多个附加声音类别。
180.条款60包括根据条款58或条款59所述的非暂时性计算机可读存储介质，其中当由处理器执行时指令还使处理器：在训练第二声音事件分类器之后，将表示捕获的音频数据的音频数据样本作为输入提供给第二声音事件分类器，并且生成标识由第二声音事件分类器在音频数据样本中检测到的声音事件的输出数据。
181.对所公开的各方面的以上描述被提供为使本领域技术人员能够实现或使用所公开的各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的，并且在不脱离本公开范围的前提下在本文中定义的原理可以应用于其他方面。因此，本公开不旨在限于本文所示的各方面，而是应被赋予与由所附权利要求限定的原理和新颖特征一致的尽可能宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型处理方法及装置、情感语音合成方法及装置与流程

声音事件检测学习的制作方法

相关文献

最热文献