声音事件检测学习的制作方法

2022-07-10 15:54:33 来源：中国专利 TAG：

技术特征：
1.一种设备，包括：处理器，所述处理器配置为：接收音频数据样本；将所述音频数据样本提供给第一神经网络，所述第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出；将所述音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，所述第二类别计数大于所述第一类别计数；将所述第一输出提供给神经适配器以生成对应于所述第二组声音类别的所述第二类别计数的第三输出；以及将所述第二输出和所述第三输出提供给合并适配器以基于所述音频数据样本生成声音事件识别数据。2.根据权利要求1所述的设备，其中，所述第一神经网络具有基础拓扑结构和第一输出层，并且所述第二神经网络具有所述基础拓扑结构和第二输出层，并且其中，所述第一输出层包括第一节点计数，所述第二输出层包括第二节点计数，并且所述第二节点计数大于所述第一节点计数。3.根据权利要求2所述的设备，其中，所述神经适配器具有包括所述第一节点计数的输入层和包括所述第二节点计数的输出层。4.根据权利要求1所述的设备，其中，所述合并适配器被配置为逐个元素地合并所述第二输出和所述第三输出以形成合并输出。5.根据权利要求4所述的设备，其中，所述合并适配器被配置为基于所述合并输出生成包括所述声音事件识别数据的输出数据。6.根据权利要求1所述的设备，其中，所述音频数据样本包括从音频数据中提取的特征。7.根据权利要求1所述的设备，其中，所述音频数据样本包括从音频数据中提取的梅尔谱特征。8.根据权利要求1所述的设备，还包括一个或多个麦克风，所述一个或多个麦克风耦合到所述处理器并被配置为捕获音频数据以生成所述音频数据样本。9.根据权利要求8所述的设备，其中，所述处理器和所述一个或多个麦克风集成在移动计算设备内，并且所述音频数据表示所述移动计算设备的声学环境。10.根据权利要求8所述的设备，其中，所述处理器和所述一个或多个麦克风集成在载具内。11.根据权利要求8所述的设备，其中，所述处理器和所述一个或多个麦克风集成在可穿戴设备内，并且所述音频数据表示所述可穿戴设备的声学环境。12.根据权利要求8所述的设备，其中，所述处理器和所述一个或多个麦克风集成在头戴式耳机中，并且所述音频数据表示所述头戴式耳机的声学环境。13.根据权利要求1所述的设备，其中，所述处理器被包括在集成电路中。14.一种方法，包括：接收音频数据样本；由处理器将所述音频数据样本提供给第一神经网络，所述第一神经网络被训练以生成
对应于第一组声音类别的第一类别计数的第一输出；由所述处理器将所述音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，所述第二类别计数大于所述第一类别计数；由所述处理器将所述第一输出提供给神经适配器以生成对应于所述第二组声音类别的所述第二类别计数的第三输出；以及由所述处理器将所述第二输出和所述第三输出提供给合并适配器以基于所述音频数据样本生成声音事件识别数据。15.根据权利要求14所述的方法，其中，所述第一神经网络具有基础拓扑结构和第一输出层，并且所述第二神经网络具有所述基础拓扑结构和第二输出层，并且其中，所述第一输出层包括第一节点计数，所述第二输出层包括第二节点计数，并且所述第二节点计数大于所述第一节点计数。16.根据权利要求15所述的方法，其中，所述神经适配器具有包括所述第一节点计数的输入层和包括所述第二节点计数的输出层。17.根据权利要求14所述的方法，其中，所述合并适配器逐个元素地合并所述第二输出和所述第三输出以形成合并输出。18.根据权利要求17所述的方法，其中，所述合并适配器基于所述合并输出生成包括所述声音事件识别数据的输出数据。19.根据权利要求14所述的方法，还包括生成音频数据样本，包括从表示声学环境的音频数据中提取特征。20.根据权利要求14所述的方法，还包括在耦合到所述处理器的一个或多个麦克风处捕获音频数据，其中，基于捕获的音频数据生成所述音频数据样本。21.根据权利要求14所述的方法，还包括响应于所述声音事件识别数据执行动作。22.一种非暂时性计算机可读存储介质，所述计算机可读存储介质包括指令，当由处理器执行时所述指令使所述处理器：将音频数据样本提供给第一神经网络，所述第一神经网络被训练以生成对应于第一组声音类别的第一类别计数的第一输出；将所述音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二类别计数的第二输出，所述第二类别计数大于所述第一类别计数；将所述第一输出提供给神经适配器以生成对应于所述第二组声音类别的所述第二类别计数的第三输出；以及将所述第二输出和所述第三输出提供给合并适配器以基于所述音频数据样本生成声音事件识别数据。23.根据权利要求22所述的非暂时性计算机可读存储介质，其中，所述第一神经网络具有基础拓扑结构和第一输出层，并且所述第二神经网络具有所述基础拓扑结构和第二输出层，并且其中，所述第一输出层包括第一节点计数，所述第二输出层包括第二节点计数，并且所述第二节点计数大于所述第一节点计数。24.根据权利要求22所述的非暂时性计算机可读存储介质，其中，当由所述处理器执行时所述指令还使所述处理器响应于所述声音事件识别数据执行动作。25.根据权利要求22所述的非暂时性计算机可读存储介质，其中，所述合并适配器基于
所述第三输出和所述第二输出的逐个元素合并的合并输出生成所述声音事件识别数据。26.一种设备，包括：用于基于音频数据样本生成第一输出的部件，所述第一输出对应于第一组声音类别的第一类别计数；用于基于所述音频数据样本生成第二输出的部件，所述第二输出对应于第二组声音类别的第二类别计数，所述第二类别计数大于所述第一类别计数；用于基于所述第一输出生成第三输出的部件，所述第三输出对应于所述第二组声音类别的所述第二类别计数；以及用于基于所述第三输出和所述第二输出生成声音事件识别数据的部件。27.根据权利要求26所述的设备，其中，用于基于所述第一输出生成所述第三输出的部件包括：包括第一节点计数的输入层和包括第二节点计数的输出层，并且其中，所述第一节点计数对应于所述第一组声音类别的所述第一类别计数，并且所述第二节点计数对应于所述第二组声音类别的所述第二类别计数。28.根据权利要求26所述的设备，其中，用于基于所述第三输出和所述第二输出生成所述声音事件识别数据的部件被配置为逐个元素地合并所述第二输出和所述第三输出以形成合并输出。29.根据权利要求26所述的设备，其中，用于基于所述第三输出和所述第二输出生成所述声音事件识别数据的部件被配置为基于由所述第三输出和所述第二输出形成的合并输出生成包括所述声音事件识别数据的输出数据。30.根据权利要求26所述的设备，还包括用于捕获音频数据的部件，其中，所述音频数据样本包括从所述音频数据中提取的特征。

技术总结
一种设备，包括处理器，该处理器被配置为接收音频数据样本并将音频数据样本提供给第一神经网络以生成对应于第一组声音类别的第一输出。处理器还被配置为将音频数据样本提供给第二神经网络以生成对应于第二组声音类别的第二输出。第二组声音类别的第二类别计数大于第一组声音类别的第一类别计数。处理器还被配置为将第一输出提供给神经适配器以生成对应于第二组声音类别的第三输出。处理器还被配置为将第二输出和第三输出提供给合并适配器以基于音频数据样本生成声音事件识别数据。以基于音频数据样本生成声音事件识别数据。以基于音频数据样本生成声音事件识别数据。

技术研发人员：F.萨基 Y.郭 E.维瑟 E.许
受保护的技术使用者：高通股份有限公司
技术研发日：2020.11.25
技术公布日：2022/7/9

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：模型处理方法及装置、情感语音合成方法及装置与流程

声音事件检测学习的制作方法

相关文献

最热文献