一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声音识别方法、声音识别装置及电子设备与流程

2022-03-05 00:20:39 来源:中国专利 TAG:


1.本公开涉及语音信号处理技术领域,更具体地,涉及一种声音识别方法、声音识别装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

2.声音是由物体振动产生的声波,是通过介质(空气或固体、液体)传播并能被人或动物听觉器官所感知的波动现象。通过声音可以表达不同的需求,例如婴儿可以通过发出哭声提醒亲属其需求,如饿了、冷了等。
3.在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:较难通过用户的声音特点判断用户的需求。


技术实现要素:

4.有鉴于此,本公开实施例提供了一种声音识别方法、声音识别装置、电子设备、计算机可读存储介质及计算机程序产品。
5.本公开实施例的一个方面提供了一种声音识别方法,包括:
6.获取年龄处于目标年龄段内的用户对象的音频信息,其中,上述用户对象通过声音特点来表达需求;
7.对上述音频信息进行预处理,得到目标音频信息;
8.对上述目标音频信息进行特征提取,得到对数梅尔频谱特征;
9.按照预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵;
10.利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵;根据上述目标二维矩阵和上述初始二维矩阵,生成三维张量;以及
11.将上述三维张量输入分类器识别模块,输出预测结果,其中,上述预测结果用于表征上述用户对象的需求。
12.根据本公开的实施例,上述初始二维矩阵包括目标频率维度和目标时间维度;
13.其中,利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵,包括:
14.在上述目标频率维度和上述目标时间维度上对上述初始二维矩阵分别进行差分处理,得到上述目标二维矩阵。
15.根据本公开的实施例,上述对上述音频信息进行预处理,得到目标音频信息,包括:
16.对上述音频信息的采样率进行降采样处理,得到第一音频信息;
17.对上述第一音频信息进行降噪处理,得到第二音频信息;
18.对上述第二音频信息进行静音抑制处理,得到上述目标音频信息。
19.根据本公开的实施例,上述对上述第二音频信息进行静音抑制处理,得到上述目标音频信息,包括:
20.利用语音活动检测方法对上述第二音频信息中的静音片段进行处理,得到上述目
标音频信息。
21.根据本公开的实施例,上述分类器识别模块包括声音识别模型,上述声音识别模型包括特征嵌入层、模型编码器和多层感知机机头;
22.其中,上述将上述三维张量输入分类器识别模块,输出预测结果,包括:
23.按照预设切割规则对上述三维张量进行切割,得到多个子张量;
24.将多个上述子张量输入上述特征嵌入层,输出第一矩阵;
25.在上述第一矩阵上拼接预设向量,得到第二矩阵;
26.根据上述第二矩阵和预设位置编码矩阵,得到第三矩阵;
27.将上述第三矩阵输入上述模型编码器,输出第四矩阵;
28.将上述第四矩阵输入上述多层感知机机头,输出上述预测结果。
29.根据本公开的实施例,上述将上述第三矩阵输入上述模型编码器,输出第四矩阵,包括:
30.将上述第三矩阵输入上述模型编码器,输出新的第三矩阵;
31.在不满足预设条件的情况下,迭代地将上述新的第三矩阵作为第三矩阵,以将上述第三矩阵输入上述模型编码器;
32.在满足预设条件的情况下,将上述新的第三矩阵确定为上述第四矩阵。
33.根据本公开的实施例,上述模型编码器包括第一层归一化层、多头注意力机制层、第二层归一化层和多层感知机;
34.其中,上述将上述第三矩阵输入上述模型编码器,输出第四矩阵,包括:
35.将上述第三矩阵输入上述第一层归一化层,得到归一化处理后的第三矩阵;
36.利用线性层处理上述归一化处理后的第三矩阵,得到目标特征矩阵;
37.根据上述目标特征矩阵,得到三个三维张量;
38.将上述三个三维张量输入上述多头注意力机制层,输出第五矩阵;
39.根据上述第五矩阵和上述第三矩阵,生成第六矩阵;
40.将上述第六矩阵输入上述第二层归一化层,输出第七矩阵;
41.将上述第七矩阵输入上述多层感知机,输出第八矩阵;
42.根据上述第八矩阵和上述第六矩阵,生成上述第四矩阵。
43.根据本公开的实施例,上述对数梅尔频谱特征包括时间维度和频率维度;
44.其中,上述按照预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵,包括:
45.按照预设频率条件对上述频率维度进行处理,得到目标频率维度;
46.按照预设时长条件对上述时间维度进行处理,得到目标时间维度;
47.根据上述目标频率维度和上述目标时间维度,构建上述初始二维矩阵。
48.本公开实施例的另一个方面提供了一种声音识别装置,包括:
49.获取模块,用于获取年龄处于目标年龄段内的用户对象的音频信息,其中,上述用户对象通过声音特点来表达需求;
50.预处理模块,用于对上述音频信息进行预处理,得到目标音频信息;
51.特征提取模块,用于对上述目标音频信息进行特征提取,得到对数梅尔频谱特征;
52.第一处理模块,用于按照预设信号处理规则对上述对数梅尔频谱特征进行处理,
得到初始二维矩阵;
53.第二处理模块,用于利用预设差分处理规则处理上述初始二维矩阵,得到目标二维矩阵;
54.生成模块,用于根据上述目标二维矩阵和上述初始二维矩阵,生成三维张量;以及
55.预测模块,用于将上述三维张量输入分类器识别模块,输出预测结果,其中,上述预测结果用于表征上述用户对象的需求。
56.本公开实施例的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
57.本公开实施例的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
58.本公开实施例的另一个方面提供了一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
59.根据本公开的实施例,通过利用预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵,再利用预设差分处理规则对获取的初始二维矩阵进行处理,并将差分处理后得到的二维矩阵与初始二维矩阵结合以生成三维张量,将三维张量输入到分类器识别模块中进行预测用户需求的技术手段,至少部分地克服了较难通过用户的声音特点判断用户的需求的技术问题,进而提高了通过声音特点识别用户需求的准确性。
附图说明
60.通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
61.图1示意性示出了根据本公开实施例的可以应用声音识别方法的示例性系统架构;
62.图2示意性示出了根据本公开实施例的声音识别方法的流程图;
63.图3示意性示出了根据本公开实施例的获取预测结果的流程图;
64.图4示意性示出了根据本公开实施例的声音识别方法的结构图;
65.图5示意性示出了根据本公开实施例的uar指标的混淆矩阵图;
66.图6示意性示出了根据本公开的实施例的声音识别装置的框图;以及
67.图7示意性示出了根据本公开实施例的实现声音识别方法的电子设备的框图。
具体实施方式
68.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
69.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在
或添加一个或多个其他特征、步骤、操作或部件。
70.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
71.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
72.哭声是婴儿与外界交流最主要的方式。调查显示,每年全世界有近一亿三千万婴儿出生。有经验的医生,护士和父母可以通过他们的哭声理解他们的想法和需求。然而,对于初为人父母的人来说,通过婴儿哭声来判断他们的想法与需求是非常困难的。除此之外,通过婴儿哭声,一些疾病也能够被预测。因为一个非健康婴儿的哭声中包含着一些与健康婴儿不同的特点。如果父母能够准确地理解和判断,就能给婴儿做出及时地治疗。现有技术中通常采用语谱图或者对数梅尔频谱作为分类模型的输入的特征,从而预测婴儿的需求。
73.然而婴儿哭声信号主要由呼气和吸气两个片段组成,且相对于成年人的语音,且婴儿哭声信号的频率主要分布在1500hz到3000hz之间。使用语谱图或者对数梅尔频谱对于婴儿哭声的表征会存在信息的较大损失。
74.对具有语言障碍的人群,该人群无法通过精准的语言表达其自身的需求,只能通过有限的较为模糊的声音表达需求,然后对于如何通过此类人群的声音判别其需求同样较为困难。
75.有鉴于此,本公开的实施例提供了一种声音识别方法、声音识别装置、电子设备、计算机可读存储介质及计算机程序产品。该方法包括获取年龄处于目标年龄段内的用户对象的音频信息,其中,用户对象通过声音特点来表达需求;对音频信息进行预处理,得到目标音频信息;对目标音频信息进行特征提取,得到对数梅尔频谱特征;按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵;利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵;根据目标二维矩阵和初始二维矩阵,生成三维张量;以及将三维张量输入分类器识别模块,输出预测结果,其中,预测结果用于表征用户对象的需求。
76.图1示意性示出了根据本公开实施例的可以应用声音识别方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
77.如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等。
78.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如音频采集类应用、音频传输类应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
79.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包
括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
80.服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的预测结果、信息、或数据等)反馈给终端设备。
81.需要说明的是,本公开实施例所提供的声音识别方法一般可以由服务器105执行。相应地,本公开实施例所提供的声音识别装置一般可以设置于服务器105中。本公开实施例所提供的声音识别方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的声音识别装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的声音识别方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的声音识别装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
82.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
83.图2示意性示出了根据本公开实施例的声音识别方法的流程图。
84.如图2所示,声音识别方法可以包括操作s201~s207。
85.在操作s201,获取年龄处于目标年龄段内的用户对象的音频信息,其中,用户对象通过声音特点来表达需求。
86.在操作s202,对音频信息进行预处理,得到目标音频信息。
87.在操作s203,对目标音频信息进行特征提取,得到对数梅尔频谱特征。
88.在操作s204,按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵。
89.在操作s205,利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵。
90.在操作s206,根据目标二维矩阵和初始二维矩阵,生成三维张量。
91.在操作s207,将三维张量输入分类器识别模块,输出预测结果,其中,预测结果用于表征用户对象的需求。
92.根据本公开的实施例,用户对象可以指处于目标年龄段的人群,例如处于0~3岁的婴儿,或者具有语言障碍的特殊人群。为了便于对本技术进行说明,以下实施例以0~3岁的婴儿和具有语言障碍的特殊人群进行举例说明。
93.根据本公开的实施例,针对于0~3岁的婴儿,其音频信息可以包括哭声,婴儿可以通过哭声表达如下需求:“尿了”、“饿了”、“困了”、“不舒服”、“疼痛”和“需要抱抱”等。
94.根据本公开的实施例,针对于具有语言障碍的特殊人群,其音频信息可以包括哼唧声,其可以通过不同种类不同声调的哼唧声表达如下需求:“我饿了”、“不舒服”和“疼痛”等。
95.根据本公开的实施例,对数梅尔频谱特征可以指基于以非线性的梅尔刻度表示的对数频谱特征。
96.根据本公开的实施例,预设信号处理规则可以包括对音频信息进行降采样、降噪
等处理。预设差分处理规则可以指对初始二维矩阵进行一次差分和二次差分处理。分类器识别模块内包括用于对三维张量进行识别分类的声音识别模型,以便于输出不同分类下的预测结果,其中,声音识别模型可以包括vision transformer模型。
97.根据本公开的实施例,在利用设备采集到婴儿或特殊人群的音频信息后,由于音频信息中存在一些对婴儿或特殊人群需求的判断造成影响的因素,可以对音频信息进行预处理,以得到质量较佳的目标音频信息。对该目标音频信息进行特征提取后可以得到对数梅尔频谱特征。对该对数梅尔频谱特征进行处理可以构建初始二维矩阵,对该初始二维矩阵进行差分处理可以得到目标二维矩阵,并将其与初始二维矩阵结合,从而构建一个三维张量。将该三维张量输入分类器识别模块以输出能够表征婴儿的需求的预测结果。
98.根据本公开的实施例,通过利用预设差分处理规则对获取的上述初始二维矩阵进行处理,并将差分处理后得到的二维矩阵与初始二维矩阵结合以生成三维张量,将三维张量输入到分类器识别模块中进行预测用户需求的技术手段,至少部分地克服了较难通过用户的声音特点判断用户的需求的技术问题,进而提高了通过声音特点识别用户需求的准确性。
99.根据本公开的实施例,初始二维矩阵包括目标频率维度和目标时间维度。
100.根据本公开的实施例,利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵,可以包括如下操作:
101.在目标频率维度和目标时间维度上对初始二维矩阵分别进行差分处理,得到目标二维矩阵。
102.根据本公开的实施例,差分处理可以包括一次差分处理和二次差分处理。
103.根据本公开的实施例,在提取到对数梅尔频谱特征的情况下,利用预设信号处理规则对对数梅尔频谱特征进行处理,可以得到一个初始二维矩阵x,例如该初始二维矩阵可以为(224,224)的矩阵,其中,224可以指特征向量。对该初始二维矩阵在目标频率维度和目标时间维度上分别进行一次差分处理和二次差分处理,可以得到δtx和δfx的目标二维矩阵,二者也可以为(224,224)的矩阵。
104.根据本公开的实施例,差分处理的计算如公式(1)和公式(2)所示。
[0105][0106][0107]
其中,f表征初始二维矩阵的频率;t表征初始二维矩阵的频率;n表征初始二维矩阵中与目标音频信息对应的某一点,其中,n可以为1或2;n表征对目标音频信息进行特征提取时使用的长度为2的差分窗,其中,n可以为2。
[0108]
根据本公开的实施例,根据得到的δ
t
x和δfx以及初始二维矩阵x,可以构建以下至少一个三维张量:(x,δ
t
x,),(x,δ
t
x,),(x,δfx,),(x,δfx,和
[0109]
(x,δ
t
x,δfx)。
[0110]
其中,t可以表征目标时间维度,f可以表征目标频率维度。
[0111]
根据本公开的实施例,对音频信息进行预处理,得到目标音频信息,可以包括如下操作:
[0112]
对音频信息的采样率进行降采样处理,得到第一音频信息。对第一音频信息进行降噪处理,得到第二音频信息。对第二音频信息进行静音抑制处理,得到目标音频信息。
[0113]
根据本公开的实施例,对第二音频信息进行静音抑制处理,得到目标音频信息,可以包括如下操作:
[0114]
利用语音活动检测方法对第二音频信息中的静音片段进行处理,得到目标音频信息。
[0115]
根据本公开的实施例,婴儿哭声信号的频率主要分布在1500hz到3000hz之间,通过采集设备采集的婴儿音频信息的采样率包括44.1khz或者32khz。
[0116]
根据本公开的实施例,例如在采集到婴儿或特殊人群的音频信息后,可以将采样率为较高频率降采样到较低频率,例如可以将44.1khz或者32khz的音频数据降采样到16khz采样率,从而得到第一音频信息。为了去除低频的环境噪声和其他干扰的声音,可以使用高通滤波器对第一音频信息进行过滤,得到第二音频信息。
[0117]
根据本公开的实施例,由于婴儿哭声以及特殊人群发声的间歇性,因此第二音频信息中存在静音的音频片段,可以利用语音活动检测方法(voice activity detection,vad)去除静音的音频片段。最后对经过语音活动检测方法处理后的目标音频信息进行特征提取。
[0118]
根据本公开的实施例,在进行特征提取时,可以采用32毫秒的汉宁窗,帧移为16毫秒,梅尔滤波器数量取224,得到对数梅尔频谱特征,然后在时间帧数量取224,不足的补0,多余的切断的特征处理规则,从而得到初始二维矩阵x。
[0119]
根据本公开的实施例,分类器识别模块包括声音识别模型,声音识别模型包括特征嵌入层、模型编码器和多层感知机机头。
[0120]
图3示意性示出了根据本公开实施例的获取预测结果的流程图。
[0121]
图4示意性示出了根据本公开实施例的声音识别方法的结构图。
[0122]
如图3所示,将三维张量输入分类器识别模块,输出预测结果,包括操作s301~操作s306。
[0123]
在操作s301,按照预设切割规则对三维张量进行切割,得到多个子张量。
[0124]
在操作s302,将多个子张量输入特征嵌入层,输出第一矩阵。
[0125]
在操作s303,在第一矩阵上拼接预设向量,得到第二矩阵。
[0126]
在操作s304,根据第二矩阵和预设位置编码矩阵,得到第三矩阵。
[0127]
在操作s305,将第三矩阵输入模型编码器,输出第四矩阵。
[0128]
在操作s306,将第四矩阵输入多层感知机机头,输出预测结果。
[0129]
根据本公开的实施例,在三维张量y=(x,δtx,δfx)的情况下,y∈rf×
t
×c,其中,r为实数域,c可以为3,其表征特征的通道维度数,即构成的3个特征矩阵。
[0130]
如图4所示,将上述三维张量y切分成预设数量的子张量,例如可以切割为196个大小为(16,16,3)的子张量。将子张量输入特征嵌入层进而转化成yp∈r
196
×
768
的第一矩阵。
在输出的第一矩阵yp上拼接一个预设向量,从而得到(197,768)的第二矩阵,预设向量可以为(1,768)的类词元(class token)向量。在第二矩阵上加上同样形状和大小的预设位置编码矩阵(position enbedding),从而得到第三矩阵h0,其中,第三矩阵h0如公式(3)所示。
[0131][0132]
其中,e∈r
768
×
768
,e
pos
∈r
197
×
768

[0133]
如图4所示,将上述第三矩阵h0输入模型编码器,输出第四矩阵,进而多层感知机机头处理第四矩阵即可得到预测结果。
[0134]
根据本公开的实施例,将第三矩阵输入模型编码器,输出第四矩阵,可以包括如下操作:
[0135]
将第三矩阵输入模型编码器,输出新的第三矩阵。在不满足预设条件的情况下,迭代地将新的第三矩阵作为第三矩阵,以将第三矩阵输入模型编码器。在满足预设条件的情况下,将新的第三矩阵确定为第四矩阵。
[0136]
如图4所示,为了保证分类器识别模块的预测准确性,可以在将第三矩阵输入模型编码器模块中时进行多次的迭代,在不满足预设条件的情况下进行迭代计算。其中,预设条件可以迭代次数l,其具体数值可以根据实际计算需求具体设定,例如l可以为12次。
[0137]
根据本公开的实施例,模型编码器可以包括第一层归一化层、多头注意力机制层、第二层归一化层和多层感知机。
[0138]
如图4所示,将第三矩阵输入模型编码器,输出第四矩阵,可以包括如下操作:
[0139]
将第三矩阵输入第一层归一化层,得到归一化处理后的第三矩阵。利用线性层处理归一化处理后的第三矩阵,得到目标特征矩阵。根据目标特征矩阵,得到三个三维张量。将三个三维张量输入多头注意力机制层,输出第五矩阵。
[0140]
根据第五矩阵和第三矩阵,生成第六矩阵。将第六矩阵输入第二层归一化层,输出第七矩阵。将第七矩阵输入多层感知机,输出第八矩阵。根据第八矩阵和第六矩阵,生成第四矩阵。
[0141]
根据本公开的实施例,第三矩阵h0输入第一层归一化层时,第一层归一化层可以对第三矩阵h0进行归一化处理,得到归一化处理后的第三矩阵。
[0142]
归一化的计算如公式(4)所示。
[0143][0144]
其中,x表征h0中的数值,y表征某个数值点归一化后的值,e[x]表征求h0中数据的均值,var[x]表征求h0中数据的方差,∈保证平方根为正,γ是增益,β是偏差。
[0145]
根据本公开的实施例,利用线性层对归一化处理后的第三矩阵进行线性处理,可以得到目标特征矩阵,根据目标特征矩阵,得到三个三维张量,例如三个形状为[12,197,64]的张量,其中12代表多头注意力机制的头数,[197,64]代表q,k,v矩阵的大小即每个张量中分别包含12个q,k,v矩阵,其中q,k,v分别表征查询(query)、关键词(key)和价值(value)。
[0146]
根据本公开的实施例,将三个三维张量输入多头注意力机制层(multi-headed self-attention,msa),输出第六矩阵。其中,多头注意力机制层中采用公式(5)~(7)的计
算流程。
[0147]
multi_head(q,k,v)=concat(head1,...,head
12
)w
o (5)
[0148][0149][0150]
其中,wo是一个可训练的权重矩阵。
[0151]
根据本公开的实施例,根据第六矩阵和第三矩阵,生成第七矩阵。将第七矩阵输入第二层归一化层,输出第八矩阵。将第八矩阵输入多层感知机,输出第九矩阵。根据本公开的实施例,多层感知机(multilayer perceptron,mlp)可以包括两个线性层、一个高斯误差线性单元(gaussian error linear unit,gelu)和两个dropout单元。其中gelu作为激活函数,dropout单元是为了防止声音识别模型过拟合。
[0152]
模型编码器可以包括transformer encoder层,其输出和输入的特征形状未发生变换。将模型编码器输出的第四矩阵输入到多层感知机机头mlp head中。感知机机头包括两个线性层和一个tanh激活函数。其先提取模型编码器处理后的特征中的class token∈(1,768)向量,将其作为线性层的输入,第二线性层输出多个类别的可能概率,最终将分类的最大概率的类别作为预测结果进行输出。
[0153]
根据本公开的实施例,对数梅尔频谱特征包括时间维度和频率维度。
[0154]
根据本公开的实施例,按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵,可以包括如下操作:
[0155]
按照预设频率条件对频率维度进行处理,得到目标频率维度。
[0156]
按照预设时长条件对时间维度进行处理,得到目标时间维度。
[0157]
根据目标频率维度和目标时间维度,构建初始二维矩阵。
[0158]
根据本公开的实施例,在分类器识别模块中采用vision transformer模型的情况下,考虑到vision transformer的特性,可以将对数梅尔频谱特征的频率维度设置为224,从而得到目标频率维度。
[0159]
根据本公开的实施例,针对音频信息的不定长的问题,可以采用短的补零,长的切断以及将时间帧的数量设置为224的预设时长条件对音频信息进行处理,从而得到目标时间维度。
[0160]
根据本公开的实施例,根据上述得到目标频率维度和目标时间维度可以构建一个大小为224x 224的初始二维矩阵。根据本公开的实施例,在对分类器识别模块进行训练时,可以录取预设数量的年龄处于1到6个月之间的婴儿的训练音频信息,并对其进行预处理和特征提取,并利用预设信号处理规则对提取到的对数梅尔频谱特征进行处理得到初始训练二维矩阵,从而构建三维训练张量以便于对分类器识别模块进行训练。
[0161]
根据本公开的实施例,在训练完成该分类器识别模块后,可以利用cried数据集和自行录制的婴儿或特殊人群的验证音频信息来进行验证其预测的准确性。其中,cried数据集中音频采样率为32khz,音频时长从0.4秒到41秒不定长。自行录制的音频采样率为44.1khz,音频时长从23秒到195秒不定长,同样对其进行预处理和特征提取,并利用预设信号处理规则对提取到的对数梅尔频谱特征进行处理得到初始验证二维矩阵,从而构建三维
验证张量以便于对分类器识别模块进行验证。其中,三维验证张量可以为(x,δ
t
x,),(x,δ
t
x,),(x,δfx,),(x,δfx,)和(x,δtx,δfx)中的至少一个。验证结果如表1所示。
[0162]
表1
[0163][0164]
如表1所示,序号1~6为相关技术中使用的模型,序号7~11为本公开使用vision transformer模型的分类器识别模块,序号12为本公开的分类器识别模块与相关技术中模型参数的结合的技术方案,其中uar为非加权平均召回率,acc为准确率。
[0165]
从表1中可知,基于(x,δ
t
x,δfx)特征和vit模型组合的识别系统超越了其他系统的分类性能,而且在加载预训练模型进行微调的情况下,序号12的模型的uar指标相较于序号11的模型提高了2.7%,acc指标提高了2.6%。比较(x,δ
t
x,)和(x,δfx,)两种特征,可以看出时间维度和频率维度的差分是有相似的性能的。对比(x,δ
t
x,)(或者(x,δfx,))和(x,δ
t
x,)(或者(x,δfx,))特征,可以得知在时间维度(或者频率维度)做一次差分的基础上,在对应同一维度做二次差分比在另一维度做二次差分要有更好的性能。
[0166]
图5示意性示出了根据本公开实施例的uar指标的混淆矩阵图。
[0167]
如图5所示,图中的neutral表征平静,crying表征哭泣,fussing表征烦躁。横轴为真实的婴儿或特殊人群的状态,纵轴表示预测的婴儿或特殊人群的状态。
[0168]
图5中的混淆矩阵可知不同类别的分类效果。由于“neutral”类别存在更多的样本数量且“crying”和“fussing”两种类别存在更加模糊的分类边界,所以在uar指标上后两类的分类性能较第一种存在一定的差异,而本公开对于这种分类不均衡现象已经有了较大的改善。
[0169]
根据本公开的实施例,在利用自行录制的婴儿或特殊人群的验证音频信息来进行验证本公开的声音识别方法的预测准确性,得到如表2的结果。
[0170]
表2
[0171][0172]
针对于婴儿的需求的判断,表2中由于自行录制的数据样本数量较少,存在比较严重的数据类别不平衡性且样本标签由婴儿亲属标记(导致样本标签的不可靠性),所以在分类结果上并没有非常精确。但是从表2的结果中仍能看出本公开的方法的有效性,相比于其他模型和特征本公开的方法的效果较好。
[0173]
图6示意性示出了根据本公开的实施例的声音识别装置的框图。
[0174]
如图6所示,声音识别装置600可以包括获取模块610、预处理模块620、特征提取模块630、第一处理模块640、第二处理模块650、生成模块660和预测模块670。
[0175]
获取模块610用于获取年龄处于目标年龄段内的用户对象的音频信息,其中,用户对象通过声音特点来表达需求。
[0176]
预处理模块620用于对音频信息进行预处理,得到目标音频信息。
[0177]
特征提取模块630用于对目标音频信息进行特征提取,得到对数梅尔频谱特征。
[0178]
第一处理模块640用于按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵。
[0179]
第二处理模块650用于利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵。
[0180]
生成模块660用于根据目标二维矩阵和初始二维矩阵,生成三维张量。
[0181]
预测模块670用于将三维矩阵输入分类器识别模块,输出预测结果,其中,预测结果用于表征用户对象的需求。
[0182]
根据本公开的实施例,通过利用预设信号处理规则对上述对数梅尔频谱特征进行处理,得到初始二维矩阵,再利用预设差分处理规则对获取的初始二维矩阵进行处理,并将差分处理后得到的二维矩阵与初始二维矩阵结合以生成三维张量,将三维张量输入到分类器识别模块中进行预测用户需求的技术手段,至少部分地克服了较难通过目标年龄段内的用户的声音特点判断用户的需求的技术问题,进而提高了通过声音特点识别用户需求的准确性。
[0183]
根据本公开的实施例,初始二维矩阵包括目标频率维度和目标时间维度。
[0184]
根据本公开的实施例,第二处理模块650可以包括差分处理单元。
[0185]
差分处理单元用于在目标频率维度和目标时间维度上对初始二维矩阵分别进行差分处理,得到目标二维矩阵
[0186]
根据本公开的实施例,预处理模块620可以包括降采样单元、降噪单元和静音抑制单元。
[0187]
降采样单元用于对音频信息的采样率进行降采样处理,得到第一音频信息。
[0188]
降噪单元用于对第一音频信息进行降噪处理,得到第二音频信息。
[0189]
静音抑制单元用于对第二音频信息进行静音抑制处理,得到目标音频信息。
[0190]
根据本公开的实施例,静音抑制单元可以包括静音抑制子单元。
[0191]
静音抑制子单元用于利用语音活动检测方法对第二音频信息中的静音片段进行处理,得到目标音频信息
[0192]
根据本公开的实施例,分类器识别模块可以包括声音识别模型,声音识别模型包括特征嵌入层、模型编码器和多层感知机机头。
[0193]
根据本公开的实施例,预测模块670可以包括切割单元、第一输入单元、拼接单元、得到单元、第二输入单元和第三输入单元。
[0194]
切割单元用于按照预设切割规则对三维张量进行切割,得到多个子张量。
[0195]
第一输入单元用于将多个子张量输入特征嵌入层,输出第一矩阵。
[0196]
拼接单元用于在第一矩阵上拼接预设向量,得到第二矩阵。
[0197]
得到单元用于根据第二矩阵和预设位置编码矩阵,得到第三矩阵。
[0198]
第二输入单元用于将第三矩阵输入模型编码器,输出第四矩阵。
[0199]
第三输入单元用于将第四矩阵输入多层感知机机头,输出预测结果。
[0200]
根据本公开的实施例,第二输入单元可以包括第一输入子单元、迭代子单元和确定子单元。
[0201]
第一输入子单元用于将第三矩阵输入模型编码器,输出新的第三矩阵。
[0202]
迭代子单元用于在不满足预设条件的情况下,迭代地将新的第三矩阵作为第三矩阵,以将第三矩阵输入模型编码器。
[0203]
确定子单元用于在满足预设条件的情况下,将新的第三矩阵确定为第四矩阵。
[0204]
根据本公开的实施例,模型编码器可以包括第一层归一化层、多头注意力机制层、第二层归一化层和多层感知机。
[0205]
根据本公开的实施例,第二输入单元可以包括第二输入子单元、处理子单元、得到子单元、第三输入子单元、第一生成子单元、第四输入子单元、第五输入子单元和第二生成子单元。
[0206]
第二输入子单元用于将第三矩阵输入第一层归一化层,得到归一化处理后的第三矩阵。
[0207]
处理子单元用于利用线性层处理归一化处理后的第三矩阵,得到目标特征矩阵。
[0208]
得到子单元用于根据目标特征矩阵,得到三个三维张量。
[0209]
第三输入子单元用于将三个三维张量输入多头注意力机制层,输出第五矩阵。
[0210]
第一生成子单元用于根据第五矩阵和第三矩阵,生成第六矩阵。
[0211]
第四输入子单元用于将第六矩阵输入第二层归一化层,输出第七矩阵。
[0212]
第五输入子单元用于将第七矩阵输入多层感知机,输出第八矩阵。
[0213]
第二生成子单元用于根据第八矩阵和第六矩阵,生成第四矩阵。
[0214]
根据本公开的实施例,对数梅尔频谱特征可以包括时间维度和频率维度。
[0215]
根据本公开的实施例,第一处理模块640可以包括第一处理单元、第二处理单元和第三处理单元。
[0216]
第一处理单元用于按照预设频率条件对频率维度进行处理,得到目标频率维度。
702以及ram 703通过总线704彼此相连。处理器701通过执行rom 702和/或ram 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 702和ram 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
[0225]
根据本公开的实施例,电子设备700还可以包括输入/输出(i/o)接口705,输入/输出(i/o)接口705也连接至总线704。系统700还可以包括连接至i/o接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(crt)、液晶显示器(liquid crystal display,lcd)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
[0226]
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
[0227]
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
[0228]
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom(erasable programmable read only memory,eprom)或闪存)、便携式紧凑磁盘只读存储器(computer disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0229]
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 702和/或ram 703和/或rom 702和ram 703以外的一个或多个存储器。
[0230]
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的声音识别方法。
[0231]
在该计算机程序被处理器701执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
[0232]
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储
介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
[0233]
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c ,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0234]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
[0235]
以上对本公开的实施例进行了描述。但是这些实施例仅为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献