一种音频特征提取方法、装置及系统与流程

2021-11-05 23:00:00 来源：中国专利 TAG：

1.本技术涉及语音识别领域，尤其涉及一种音频特征提取方法、装置及系统。

背景技术：

2.在语音识别领域，提取梅尔频谱倒谱系数(mel
‑
scalefrequency cepstral coeffkckents，mfcc)是目前最常用的特征提取方法。
3.然而，进行mfcc特征提取时，通常采用等分的m个三角滤波器组进行滤波处理，但是，对于不同的语种，发音频响侧重点会有不同，若采用等分的三角滤波器组进行滤波，对于某些特殊的语种，就会出现语音识别精度降低的问题。

技术实现要素：

4.有鉴于此，本技术提供一种音频特征提取方法、装置及系统，其具体方案如下：
5.一种音频特征提取方法，包括：
6.获取音频信息；
7.对所述音频信息执行加强语音信号性能的预处理，得到经过所述预处理后的音频信息；
8.通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域；
9.将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定所述音频信息的音频特征向量。
10.进一步的，所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
11.基于所述音频信息确定所述音频信息对应的语种信息；
12.确定与所述语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率；
13.将频率域的所述音频信息经过所述基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
14.进一步的，确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率，包括：
15.基于所述音频信息对应的语种信息确定第一方式及第二方式；
16.梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器，第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定；第k 1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定；
17.第k
‑
1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定；第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定；
18.其中，k为小于预设数量与1的和的一半的正整数；k 1为大于或等于预设数量与1的和的一半的正整数；每个梅尔滤波器的特定终止梅尔频率为所述梅尔滤波器的下一个梅
尔滤波器的特定起始梅尔频率。
19.进一步的，确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率，包括：
20.基于所述音频信息对应的语种信息确定第一方式及第二方式；
21.若预设数量为m，待确定的频率点的数量为m 1个；
22.当i小于m与1的和的一半时，第i个频率点及其之前的频率点采用第一方式确定；
23.当i大于等于m与1的和的一半时，第i个频率点及其之后的频率点采用第二方式确定；
24.将m 1个所述频率点按照顺序确定为预设数量的梅尔滤波器的特定起始梅尔频率或特定终止梅尔频率。
25.进一步的，所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定所述音频信息的音频特征向量，包括：
26.将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，得到与所述梅尔滤波器组中梅尔滤波器数量匹配的特征向量；
27.将所述与梅尔滤波器数量匹配的特征向量进行反余弦变换，生成所述音频信息的音频特征向量。
28.进一步的，所述将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
29.基于预设关系将所述音频信息由频率域的频率标度转换为梅尔频谱标度，并将转换为所述梅尔频谱标度的音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
30.进一步的，所述对所述音频信息执行加强语音信号性能的预处理，得到经过所述预处理后的音频信息，包括：
31.对所述音频信息进行分帧处理，得到每一帧音频数据；
32.对所述每一帧音频数据进行预加重处理后，将每一帧进行预加重处理后的音频数据经过窗函数处理，得到预处理后的音频信息。
33.一种音频特征提取系统，包括：
34.获取单元，用于获取音频信息；
35.预处理单元，用于对所述音频信息执行加强语音信息性能的预处理，得到经过所述预处理后的音频信息；
36.转换单元，用于通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域；
37.滤波单元，用于将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定所述音频信息的音频特征向量。
38.一种音频特征提取装置，包括：
39.处理器，用于获取音频信息；对所述音频信息执行加强语音信号性能的预处理，得到经过所述预处理后的音频信息；通过快速傅里叶变换将经过所述预处理后的音频信息由时间域转换为频率域；将频率域的所述音频信息经过基于所述音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定所述音频信息的音频特征向量；
40.存储器，用于存储所述处理器执行上述处理过程的程序。
41.一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行，实现如上述的音频特征提取方法的各步骤。
42.从上述技术方案可以看出，本技术公开的音频特征提取方法、装置及系统，获取音频信息，对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后，通过梅尔滤波器组进行滤波处理，其中，梅尔滤波器组是基于音频信息的语种信息设置的频率，从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的，与其语种特征相关联，从而确定的音频特征向量更符合该音频信息对应的语种信息的特征，提高了音频识别的精度。
附图说明
43.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
44.图1为本技术实施例公开的一种音频特征提取方法的流程图；
45.图2为本技术实施例公开的一种音频特征提取方法的流程图；
46.图3为现有方案与本技术实施例所公开的方案的滤波器频率划分示意图；
47.图4为本技术实施例公开的一种音频特征提取系统的结构示意图；
48.图5为本技术实施例公开的一种音频特征提取装置的结构示意图。
具体实施方式
49.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
50.本技术公开了一种音频特征提取方法，其流程图如图1所示，包括：
51.步骤s11、获取音频信息；
52.步骤s12、对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息；
53.步骤s13、通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域；
54.步骤s14、将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。
55.mfcc(mel
‑
scalefrequency cepstral coeffkckents，梅尔频谱倒谱系数)是在梅尔标度频率域提取出来的倒谱参数，梅尔标度描述了人耳频率的非线性特性。在语音识别和话者识别技术中，经常用到mfcc特征提取，通过对mfcc特征的提取，有助于有效识别音频
信息。
56.目前，在对mfcc特征提取时，通常采用等分的m个三角滤波器组进行滤波处理，即对于一段音频数据，将该音频数据中的频率进行等分，等分后的每一个频段通过一个三角滤波器的滤波处理，但是这样的处理并未考虑到对于不同语种有不同的发音频响侧重点，就会导致对于某些语种来说，采用这样的方式，音频识别的精度较低。
57.为了解决这一问题，本方案中，在获取音频信息后，对音频信息进行预处理，以达到加强语音信号性能的目的，之后对音频信息进行快速傅里叶变换，以使音频信息由时间域转换为频率域，并将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，从而得到音频信息的音频特征向量。
58.在获取音频信息后，进行音频信息的预处理的同时，还会对音频信息的语种进行分析，从而确定音频信息对应的语种信息，即当前音频信息是通过哪一种语种输出的，是英语还是汉语，或者日语等。
59.在获取语种信息后，由于不同的语种信息，其音频的发音频响侧重点不同，因此，在获取语种信息后，需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率，以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后，能够将音频信息的语种特点突出，以达到基于语种信息的特点对音频信息的音频特征向量经过获取，从而达到对音频信息精确识别的目的。
60.另外，对音频信息进行预处理，可以具体为：对音频信息进行分帧处理，得到每一帧音频数据，对每一帧音频数据进行预加重处理后，将每一帧进行预加重处理后的音频数据经过窗函数处理，得到预处理后的音频信息。
61.具体的，分帧即将音频信息分为多帧，每一帧的时长大概为20
‑
30ms，其中一帧中可包括n个采样点，为了避免相邻两帧的变化过大，相邻两帧之间会有重叠区域，该重叠区域包含了m个采样点，通常m的值约为n的值的1/2或1/3。例如：每一帧为25毫秒，每次帧移10毫秒，即相邻的两帧之间有15毫秒的重叠区域。
62.另外，由于处理和传输音频的过程会引入噪声，从而使输出音频的信噪比相对于输入信噪比有所降低，而且大多数过程是对高频不利的，即音频频率越高噪声越大，而人声或音乐的频谱中通常是频率越高的成分幅度越小，这就造成输出端音频越接近高端，其信噪比降低会越严重。为了提高高频成分的传输质量，就要在音频输入端预先处理，将高频成分的幅度加大，以改善解调输出端的高频信噪比，这就是预加重。
63.音频的预加重公式可以为：
64.y
t 1
＝x
t 1
‑
α*x
t
65.其中，x
t
表示t时刻采样点的数值，y表示预加重后的采样点的值，α为预加重系数，其范围为0.95
‑
1之间，音频第一个采样点不变。
66.在预加重之后，进行窗函数的处理，即添加汉明窗，其是为了防止傅里叶变换后出现震荡的现象，将每一帧乘以窗函数，以增加帧左端和右端的连续性，其公式可以为：
67.z
n
＝y
n
*h
n
68.其中，y表示加窗前的采样点，z表示加窗后的采样点，h表示加窗系数，其中，通常α＝0.46，n表示需要加窗的点的总数，n表示某一个采样
点。
69.另外，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
70.基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度，并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
71.预设关系为：
72.通过上述预设关系，可以将音频信息的线性频率转换为梅尔频率，从而便于获取mfcc的音频特征向量。
73.在将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理之后，得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量，会通过将与梅尔滤波器数量匹配的特征向量进行反余弦变换，生成音频信息的音频特征向量。
74.若梅尔滤波器组中共用m个梅尔滤波器，则得到的特征向量为m维特征向量，将该m维特征向量做反余弦变换，可以得到13维特征向量，该13维特征向量即为mfcc特征向量。
75.本实施例公开的音频特征提取方法，获取音频信息，对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后，通过梅尔滤波器组进行滤波处理，其中，梅尔滤波器组是基于音频信息的语种信息设置的频率，从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的，与其语种特征相关联，从而确定的音频特征向量更符合该音频信息对应的语种信息的特征，提高了音频识别的精度。
76.本实施例公开了一种音频特征提取方法，其流程图如图2所示，包括：
77.步骤s21、获取音频信息；
78.步骤s22、对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息；
79.步骤s23、通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域；
80.步骤s24、基于音频信息确定音频信息对应的语种信息；
81.步骤s25、确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率；
82.步骤s26、将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理，确定音频信息的音频特征向量。
83.在基于语种信息对梅尔滤波器中每个梅尔滤波器进行设置时，其设置的是每个梅尔滤波器的频率，是每个梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率，即基于语种信息设置的实际是每个梅尔滤波器的工作频段。
84.现有方案中，将梅尔频率等分为m个梅尔滤波器，即三角滤波器，其等分公式为：
其中，i＝0,1,......，m 1。
85.基于上述公式为每个三角滤波器所分的频段长度是相同的，因此，是将频率等分为m段之后，分别分配给m个三角滤波器，每相邻两个三角滤波器中前一个三角滤波器的终止频率是后一个三角滤波器的中心频率，而前一个三角滤波器的中心频率是后一个三角滤波器的起始频率，依此类推。
86.而本方案中，基于语种的不同，将音频信息分成两部分，这两部分音频信息采用不同的方式确定频率范围，具体的：
87.基于音频信息对应的语种信息确定第一方式及第二方式，梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器，第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔频率采用第一方式确定，第k 1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定；第k
‑
1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定，第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定；其中，k为小于预设数量与1的和的一半的正整数，且k 1为大于或等于预设数量与1的和的一半的正整数，每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的中心频率，每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
88.采用本方案的方式可以为每个梅尔滤波器分别设置与语种匹配的音频的频段，使得每个梅尔滤波器的频段并非是将梅尔频谱等分，而是对应特定的频段。
89.具体的，若梅尔滤波器组中梅尔滤波器为m个，即预设数量为m，k为小于预设数量与1的和的一半的正整数，且k 1为大于或等于预设数量与1的和的一半的正整数，即：(m 1)/2
‑
1≤k﹤(m 1)/2。
90.其中，第一方式为：
91.第二方式为：
92.其中，f为转换为梅尔频谱后的最大频率，i＝1,......，m，当确定某个梅尔滤波器的中心频率时，公式中的f
i
即表示第i个梅尔滤波器的中心频率；当确定某个梅尔滤波器的特定初始梅尔频率时，公式中的f
i
‑1表示第i个梅尔滤波器的特定初始梅尔频率；当确定某个梅尔滤波器的特定终止梅尔频率时，通过f
i 1
表示第i个梅尔滤波器的特定终止梅尔频率；例如：确定第k个梅尔滤波器的中心频率时，公式中的i与k相等，当确定第k个梅尔滤波器的特定终止梅尔频率时，公式中的i与k
‑
1相等。
93.其中，(m 1)/2是将原先的(m 1)划分为上下两部分，而为i或(i
‑
m
‑
1)设置平方是为了改变f
i
的数值分布，改变数值分布后，提取到的信号特征会对低频部分的响应更加灵敏，从而达到提高识别率的目的。
94.k为小于(m 1)/2的正整数，即第k个及设置在第k个梅尔滤波器之前的梅尔滤波
器，其特定起始梅尔频率均采用第一方式确定，而第k 1个滤波器及设置在第k 1个梅尔滤波器之后的梅尔滤波器，其特定起始梅尔频率均采用第二方式确定；
95.在计算特定终止频率时，在第k
‑
1个梅尔滤波器及设置在第k
‑
1个梅尔滤波器之前的梅尔滤波器，其特定终止梅尔频率采用第一方式确定，第k个梅尔滤波器及设置在第k个梅尔滤波器之后的梅尔滤波器，其特定终止梅尔频率采用第二方式确定。
96.由于每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率，因此，在确定了某一个梅尔滤波器的中心频率后，设置在该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率也就确定了。因此，可采用按照梅尔频率点的顺序确定，而无需考虑第几个梅尔滤波器，只要确定出所有梅尔频率点的频率，再按照顺序设置m个梅尔滤波器即可，如下所示：
[0097][0098]
其中，i用于表示第几个频率点，当梅尔频谱上共需要设置m个梅尔滤波器时，相邻设置的两个梅尔滤波器的频率之间是有重叠的，由于相邻设置的梅尔滤波器的前一个滤波器的中心频率为后一个滤波器的起始频率，因此，设置频率点时，只需要确定m 2个频率点即可。在确定完m 2个频率点后，在每相邻三个频率点之间设置一个梅尔滤波器，而相邻的这三个频率点即为该梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率；
[0099]
其中，f
i
表示第i个梅尔滤波器的中心频率，f
i
‑1表示第i个梅尔滤波器的特定起始频率，f
i 1
表示第i个梅尔滤波器的特定终止频率，则两个相邻的梅尔滤波器中前一个梅尔滤波器的中心频率至特定终止频率所在的频段与后一个梅尔滤波器的特定起始频率至中心频率所在的频段是重叠的。
[0100]
如图3所示，其中，直线31为现有方案中确定的梅尔滤波器的频率划分，而弧线32为采用本方案确定的梅尔滤波器的频率划分，其中，m＝71，f＝6539。
[0101]
本实施例公开的音频特征提取方法，获取音频信息，对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后，通过梅尔滤波器组进行滤波处理，其中，梅尔滤波器组是基于音频信息的语种信息设置的频率，从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的，与其语种特征相关联，从而确定的音频特征向量更符合该音频信息对应的语种信息的特征，提高了音频识别的精度。
[0102]
本实施例公开了一种音频特征提取系统，其结构示意图如图4所示，包括：
[0103]
获取单元41，预处理单元42，转换单元43及滤波单元44。
[0104]
其中，获取单元41用于获取音频信息；
[0105]
预处理单元42用于对音频信息执行加强语音信息性能的预处理，得到经过预处理后的音频信息；
[0106]
转换单元43用于通过快速傅里叶变换将经过预处理后的音频信息由时间域转换
为频率域；
[0107]
滤波单元44用于将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。
[0108]
mfcc(mel
‑
scalefrequency cepstral coeffkckents，梅尔频谱倒谱系数)是在梅尔标度频率域提取出来的倒谱参数，梅尔标度描述了人耳频率的非线性特性。在语音识别和话者识别技术中，经常用到mfcc特征提取，通过对mfcc特征的提取，有助于有效识别音频信息。
[0109]
目前，在对mfcc特征提取时，通常采用等分的m个三角滤波器组进行滤波处理，即对于一段音频数据，将该音频数据中的频率进行等分，等分后的每一个频段通过一个三角滤波器的滤波处理，但是这样的处理并未考虑到对于不同语种有不同的发音频响侧重点，就会导致对于某些语种来说，采用这样的方式，音频识别的精度较低。
[0110]
为了解决这一问题，本方案中，在获取音频信息后，对音频信息进行预处理，以达到加强语音信号性能的目的，之后对音频信息进行快速傅里叶变换，以使音频信息由时间域转换为频率域，并将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，从而得到音频信息的音频特征向量。
[0111]
在获取音频信息后，进行音频信息的预处理的同时，还会对音频信息的语种进行分析，从而确定音频信息对应的语种信息，即当前音频信息是通过哪一种语种输出的，是英语还是汉语，或者日语等。
[0112]
在获取语种信息后，由于不同的语种信息，其音频的发音频响侧重点不同，因此，在获取语种信息后，需要基于语种信息的特点设置梅尔滤波器组中每个梅尔滤波器的初始频率及终止频率，以使得当前音频信息在经过基于语种信息的特点进行频率设置的梅尔滤波器组后，能够将音频信息的语种特点突出，以达到基于语种信息的特点对音频信息的音频特征向量经过获取，从而达到对音频信息精确识别的目的。
[0113]
另外，对音频信息进行预处理，可以具体为：对音频信息进行分帧处理，得到每一帧音频数据，对每一帧音频数据进行预加重处理后，将每一帧进行预加重处理后的音频数据经过窗函数处理，得到预处理后的音频信息。
[0114]
具体的，分帧即将音频信息分为多帧，每一帧的时长大概为20
‑
30ms，其中一帧中可包括n个采样点，为了避免相邻两帧的变化过大，相邻两帧之间会有重叠区域，该重叠区域包含了m个采样点，通常m的值约为n的值的1/2或1/3。例如：每一帧为25毫秒，每次帧移10毫秒，即相邻的两帧之间有15毫秒的重叠区域。
[0115]
另外，由于处理和传输音频的过程会引入噪声，从而使输出音频的信噪比相对于输入信噪比有所降低，而且大多数过程是对高频不利的，即音频频率越高噪声越大，而人声或音乐的频谱中通常是频率越高的成分幅度越小，这就造成输出端音频越接近高端，其信噪比降低会越严重。为了提高高频成分的传输质量，就要在音频输入端预先处理，将高频成分的幅度加大，以改善解调输出端的高频信噪比，这就是预加重。
[0116]
音频的预加重公式可以为：
[0117]
y
t 1
＝x
t 1
‑
α*x
t
[0118]
其中，x
t
表示t时刻采样点的数值，y表示预加重后的采样点的值，α为预加重系数，其范围为0.95
‑
1之间，音频第一个采样点不变。
[0119]
在预加重之后，进行窗函数的处理，即添加汉明窗，其是为了防止傅里叶变换后出现震荡的现象，将每一帧乘以窗函数，以增加帧左端和右端的连续性，其公式可以为：
[0120]
z
n
＝y
n
*h
n
[0121]
其中，y表示加窗前的采样点，z表示加窗后的采样点，h表示加窗系数，其中，通常α＝0.46，n表示需要加窗的点的总数，n表示某一个采样点。
[0122]
另外，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
[0123]
基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度，并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
[0124]
预设关系为：
[0125]
通过上述预设关系，可以将音频信息的线性频率转换为梅尔频率，从而便于获取mfcc的音频特征向量。
[0126]
在将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理之后，得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量，会通过将与梅尔滤波器数量匹配的特征向量进行反余弦变换，生成音频信息的音频特征向量。
[0127]
若梅尔滤波器组中共用m个梅尔滤波器，则得到的特征向量为m维特征向量，将该m维特征向量做反余弦变换，可以得到13维特征向量，该13维特征向量即为mfcc特征向量。
[0128]
进一步的，滤波单元44用于：基于音频信息确定音频信息对应的语种信息；确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率；将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
[0129]
在基于语种信息对梅尔滤波器中每个梅尔滤波器进行设置时，其设置的是每个梅尔滤波器的频率，是每个梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率，即基于语种信息设置的实际是每个梅尔滤波器的工作频段。
[0130]
现有方案中，将梅尔频率等分为m个梅尔滤波器，即三角滤波器，其等分公式为：其中，i＝0,1,.......，m 1。
[0131]
基于上述公式为每个三角滤波器所分的频段长度是相同的，因此，是将频率等分为m段之后，分别分配给m个三角滤波器，每相邻两个三角滤波器中前一个三角滤波器的终止频率是后一个三角滤波器的中心频率，而前一个三角滤波器的中心频率是后一个三角滤波器的起始频率，依此类推。
[0132]
而本方案中，基于语种的不同，将音频信息分成两部分，这两部分音频信息采用不同的方式确定频率范围，具体的：
[0133]
基于音频信息对应的语种信息确定第一方式及第二方式，梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器，第k个梅尔滤波器及其之前的梅尔滤波器的特定起始梅尔
频率采用第一方式确定，第k 1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定；第k
‑
1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定，第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定；其中，k为小于预设数量与1的和的一半的正整数，且k 1为大于或等于预设数量与1的和的一半的正整数，每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的中心频率，每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
[0134]
采用本方案的方式可以为每个梅尔滤波器分别设置与语种匹配的音频的频段，使得每个梅尔滤波器的频段并非是将梅尔频谱等分，而是对应特定的频段。
[0135]
具体的，若梅尔滤波器组中梅尔滤波器为m个，即预设数量为m，k为小于预设数量与1的和的一半的正整数，且k 1为大于或等于预设数量与1的和的一半的正整数，即：(m 1)/2
‑
1≤k﹤(m 1)/2。
[0136]
其中，第一方式为：
[0137]
第二方式为：
[0138]
其中，f为转换为梅尔频谱后的最大频率，i＝1,
……
，m，当确定某个梅尔滤波器的中心频率时，公式中的f
i
即表示第i个梅尔滤波器的中心频率；当确定某个梅尔滤波器的特定初始梅尔频率时，公式中的f
i
‑1表示第i个梅尔滤波器的特定初始梅尔频率；当确定某个梅尔滤波器的特定终止梅尔频率时，通过f
i 1
表示第i个梅尔滤波器的特定终止梅尔频率；例如：确定第k个梅尔滤波器的中心频率时，公式中的i与k相等，当确定第k个梅尔滤波器的特定终止梅尔频率时，公式中的i与k
‑
1相等。
[0139]
其中，(m 1)/2是将原先的(m 1)划分为上下两部分，而为i或(i
‑
m
‑
1)设置平方是为了改变f
i
的数值分布，改变数值分布后，提取到的信号特征会对低频部分的响应更加灵敏，从而达到提高识别率的目的。
[0140]
k为小于(m 1)/2的正整数，即第k个及设置在第k个梅尔滤波器之前的梅尔滤波器，其特定起始梅尔频率均采用第一方式确定，而第k 1个滤波器及设置在第k 1个梅尔滤波器之后的梅尔滤波器，其特定起始梅尔频率均采用第二方式确定；
[0141]
在计算特定终止频率时，在第k
‑
1个梅尔滤波器及设置在第k
‑
1个梅尔滤波器之前的梅尔滤波器，其特定终止梅尔频率采用第一方式确定，第k个梅尔滤波器及设置在第k个梅尔滤波器之后的梅尔滤波器，其特定终止梅尔频率采用第二方式确定。
[0142]
由于每个梅尔滤波器的中心频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率，因此，在确定了某一个梅尔滤波器的中心频率后，设置在该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率也就确定了。因此，可采用按照梅尔频率点的顺序确定，而无需考虑第几个梅尔滤波器，只要确定出所有梅尔频率点的频率，再按照顺序设置m个梅尔滤波器即可，如下所示：
[0143][0144]
其中，i用于表示第几个频率点，当梅尔频谱上共需要设置m个梅尔滤波器时，相邻设置的两个梅尔滤波器的频率之间是有重叠的，由于相邻设置的梅尔滤波器的前一个滤波器的中心频率为后一个滤波器的起始频率，因此，设置频率点时，只需要确定m 2个频率点即可。在确定完m 2个频率点后，在每相邻三个频率点之间设置一个梅尔滤波器，而相邻的这三个频率点即为该梅尔滤波器的特定起始梅尔频率、中心频率及特定终止梅尔频率；
[0145]
其中，f
i
表示第i个梅尔滤波器的中心频率，f
i
‑1表示第i个梅尔滤波器的特定起始频率，f
i 1
表示第i个梅尔滤波器的特定终止频率，则两个相邻的梅尔滤波器中前一个梅尔滤波器的中心频率至特定终止频率所在的频段与后一个梅尔滤波器的特定起始频率至中心频率所在的频段是重叠的。
[0146]
如图3所示，其中，直线31为现有方案中确定的梅尔滤波器的频率划分，而弧线32为采用本方案确定的梅尔滤波器的频率划分，其中，m＝71，f＝6539。
[0147]
本实施例公开的音频特征提取系统，获取音频信息，对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后，通过梅尔滤波器组进行滤波处理，其中，梅尔滤波器组是基于音频信息的语种信息设置的频率，从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的，与其语种特征相关联，从而确定的音频特征向量更符合该音频信息对应的语种信息的特征，提高了音频识别的精度。
[0148]
本实施例公开了一种音频特征提取装置，其结构示意图如图5所示，包括：
[0149]
处理器51及存储器52。
[0150]
处理器51用于获取音频信息；对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息；通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域；将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量；
[0151]
存储器52用于存储处理器执行上述处理过程的程序。
[0152]
进一步的，处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
[0153]
处理器基于音频信息确定音频信息对应的语种信息；确定与语种信息匹配的预设数量个梅尔滤波器中每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率；将频率域的音频信息经过基于特定梅尔频率设置的每个梅尔滤波器的滤波处理。
[0154]
进一步的，处理器确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率，包括：
[0155]
处理器基于音频信息对应的语种信息确定第一方式及第二方式；梅尔滤波器组中按顺序排列的预设数量个梅尔滤波器，第k个梅尔滤波器及其之前的梅尔滤波器的特定起
始梅尔频率采用第一方式确定；第k 1个梅尔滤波器及其之后的梅尔滤波器的特定起始梅尔频率采用第二方式确定；第k
‑
1个梅尔滤波器及其之前的梅尔滤波器的特定终止梅尔频率采用第一方式确定；第k个梅尔滤波器及其之后的梅尔滤波器的特定终止梅尔频率采用第二方式确定；其中，k为小于预设数量与1的和的一半的正整数；k 1为大于或等于预设数量与1的和的一半的正整数；每个梅尔滤波器的特定终止梅尔频率为该梅尔滤波器的下一个梅尔滤波器的特定起始梅尔频率。
[0156]
进一步的，处理器确定每个梅尔滤波器所对应的特定起始梅尔频率及特定终止梅尔频率，包括：
[0157]
处理器基于音频信息对应的语种信息确定第一方式及第二方式；若预设数量为m，待确定的频率点的数量为m 1个；当i小于m与1的和的一半时，第i个频率点及其之前的频率点采用第一方式确定；当i大于等于m与1的和的一半时，第i个频率点及其之后的频率点采用第二方式确定；将m 1个频率点按照顺序确定为预设数量的梅尔滤波器的特定起始梅尔频率或特定终止梅尔频率。
[0158]
进一步的，处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量，包括：
[0159]
处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，得到与梅尔滤波器组中梅尔滤波器数量匹配的特征向量；将与梅尔滤波器数量匹配的特征向量进行反余弦变换，生成音频信息的音频特征向量。
[0160]
进一步的，处理器将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，包括：
[0161]
处理器基于预设关系将音频信息由频率域的频率标度转换为梅尔频谱标度，并将转换为梅尔频谱标度的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理。
[0162]
进一步的，处理器对所述音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，包括：
[0163]
处理器对音频信息进行分帧处理，得到每一帧音频数据；对每一帧音频数据进行预加重处理后，将每一帧进行预加重处理后的音频数据经过窗函数处理，得到预处理后的音频信息。
[0164]
本实施例所公开的音频特征提取装置是基于上述实施例公开的音频特征提取方法实现的，在此不再赘述。
[0165]
本实施例公开的音频特征提取装置，获取音频信息，对音频信息执行加强语音信号性能的预处理，得到经过预处理后的音频信息，通过快速傅里叶变换将经过预处理后的音频信息由时间域转换为频率域，将频率域的音频信息经过基于音频信息的语种信息设置频率的梅尔滤波器组的滤波处理，确定音频信息的音频特征向量。本方案通过在对音频信息经过预处理、快速傅里叶变换后，通过梅尔滤波器组进行滤波处理，其中，梅尔滤波器组是基于音频信息的语种信息设置的频率，从而使得音频信息经过的滤波处理是基于音频信息性本身的语种信息实现的，与其语种特征相关联，从而确定的音频特征向量更符合该音频信息对应的语种信息的特征，提高了音频识别的精度。
[0166]
本技术实施例还提供了一种可读存储介质，其上存储有计算机程序，计算机程序
被处理器加载并执行，实现上述音频特征提取方法的各步骤，具体实现过程可以参照上述实施例相应部分的描述，本实施例不做赘述。
[0167]
本技术还提出了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述音频特征提取方法方面的各种可选实现方式中所提供方法，具体实现过程可以参照上述相应实施例的描述，不做赘述。
[0168]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0169]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0170]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd
‑
rom、或技术领域内所公知的任意其它形式的存储介质中。
[0171]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：人机交互方法、装置、设备以及存储介质与流程

一种音频特征提取方法、装置及系统与流程

相关文献

最热文献