一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种车载环境下的语音增强方法和语音识别方法与流程

2022-04-24 22:10:39 来源:中国专利 TAG:


1.本技术属于语音识别技术领域,具体涉及一种车载环境下的语音增强方法和语音识别方法。


背景技术:

2.在车辆驾驶舱内为了减少用户的按钮需求、提高人车交互便利性,语音识别技术得到了广泛应用。但语音识别过程极易受到环境噪音的干扰,驾驶舱内的车辆发动机、变速箱、电机、空气噪音和胎噪等各种噪音给语音识别带来了极大的挑战,导致语音识别准确率降低和用户体验变差。
3.语音增强的目的是在尽可能保留语音信号中有用信号的同时衰减掉车内外的杂音,进而提高语音识别准确率。常见的语音增强方法有:维纳滤波法、同态滤波法和谱减法等。其中谱减法因为算法简单方便,在语音识别领域得到了广泛应用,但同时谱减法也有其缺点:一是谱减过程中产生一部分的负幅值;二是谱减过程会残留部分噪音,从而导致“音乐噪音”问题。
4.技术方案
5.为了解决至少一项上述问题,本技术提出了一种车载环境下的语音增强方法和语音识别方法,可以有效提高语音信噪比,提高语音识别准确率,同时该方法适应性好,能够有效避免“音乐噪音”问题。
6.第一方面,本技术提供的一种车载环境下的语音增强方法,包括:
7.对车载环境下的原始语音信号进行分帧处理和加窗处理后得到时域语音信号x(k),其中,时域噪声信号用n(k)表示,时域纯净语音信号用s(k)表示;
8.将时域语音信号x(k)进行傅里叶变换,得到功率谱p
x
(w),同时保留原始语音信号的相位φ;
9.根据功率谱p
x
(w)估算得到时域噪声信号n(k)的功率谱pn(w);
10.时域纯净语音信号s(k)的功率谱用ps(w)表示,则有公式:其中α和β为根据功率谱p
x
(w)的平均幅值a与最大幅值m自适应变化的参数,α的取值范围为0<α<5,β的取值范围为0<β<1;根据所述公式计算得到功率谱ps(w),将功率谱ps(w)结合原始语音信号的相位φ进行傅里叶逆变换后得到时域纯净语音信号s(k),完成原始语音输入信号增强。
11.在一种可能的实施方式中,α和β根据功率谱p
x
(w)的平均幅值a与最大幅值m自适应变化的步骤包括:
12.将所述平均幅值a与最大幅值m输入已构建完成的模糊控制器,由所述模糊控制器输出α和β的取值。
13.在一种可能的实施方式中,所述模糊控制器的输入和输出分别划分为七级。
14.在一种可能的实施方式中,所述模糊控制器的隶属度函数采用高斯型函数。
15.在一种可能的实施方式中,所述模糊控制器采用max方法进行模糊合成,采用重心
法解模糊。
16.第二方面,本技术提供一种车载环境下的语音识别方法,包括如下步骤:
17.获取车载环境下的原始语音信号;
18.对所述原始语音信号进行预处理,所述预处理包括:按照本技术第一方面所述的语音增强方法完成语音增强;
19.对完成预处理的语音信号进行特征提取;
20.将完成特征提取的语音信号输入训练完成的卷积神经网络模型进行语音识别,由所述卷积神经网络输出语音识别结果。
21.在一种可能的实施方式中,采用mfcc方法对完成预处理的信号进行特征提取。
22.在一种可能的实施方式中,所述卷积神经网络模型包括1个输入层、6个卷积层、6个dropout层和1个全连接层。
23.本技术将改进的谱减法结合模糊理论,使得谱减法系数能够自适应不同的语音信号,能够有效的消除噪音,避免“音乐噪音”问题,同时提高信噪比,保留了语音信号的有效信号。通过实际仿真运算和车内实验,采用本文算法后,能够有效提高行驶车内的语音识别准确率。
附图说明
24.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。另外,应当理解,示意性的附图并未按实物比例绘制。附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行,例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
25.图1是本技术实施例提供的一种车载环境下的语音增强方法的流程图;
26.图2是本技术实施例提供的一种车载环境下的语音识别方法的流程图;
27.图3是本技术仿真对比实验的语音增强效果图。
具体实施方式
28.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
29.需要说明的是,在本技术实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本技术实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。
30.谱减法在1979年由boll提出,是一种独立的噪声抑制算法,用于减少语音中噪声的频谱效应。谱减法首先把语音分帧处理,进而可以假定语音信号中的噪音是平稳随机信号,属于加性信号。谱减法首先对带噪信号进行傅里叶变换并保留相位信息,进而估计噪音
频谱,让带噪语音信号频谱与估计噪音频谱相减,从而得到纯净的语音信号频谱,最后通过傅里叶逆变换得到时域信号。用x(k)表示带噪音的时域语音信号,n(k)表示时域噪声信号,s(k)表示时域纯净语音信号,p
x
(w)、pn(w)和ps(w)分别表示x(k)、n(k)和s(k)的功率谱,传统谱减法可以用公式(1)表示:
[0031][0032]
传统的谱减法的噪音抑制能力较弱,以及存在“音乐噪音”。针对该问题,boll继而提出了改进谱减法,如公式(2)所示:
[0033][0034]
γ是频谱因子,当γ=1时代表传统的谱减法;δ是相减因子,取值范围为[1,5];ε是频谱增益因子,取值范围为[0.01,0.5]。该方法可以改进传统谱减法的噪音过滤不足等问题,但对于“音乐噪音”抑制效果较差。
[0035]
在公式(2)的基础上,berouti又提出了新的改进表达式(3),增加了调节噪音功率谱的参数,新的表达式为:
[0036][0037]
在相关的应用中,表达式(3)中的α和β参数值由人为凭经验各取一个常数值,缺少自适应能力,且难以确定是较佳的参数值。α和β参数对于语音增强结果有着至关重要的影响,当α增大的时候,可以适当提高信噪比,输出的语音信号也相对平滑,毛刺较少,但这样也会导致语音失真较为严重,甚至于会失去信号中的有用语音信号;当β减小的时候,可以有效去除噪音,但是也会增加部分的“音乐噪音”。合理设计α和β参数可以适当提高信噪比,同时消除“音乐噪音”,保留更多的纯正语音信号。基于此,本技术实施例提出了一种车载环境下的语音增强方法,改变了α和β参数取值的取值方式,通过让α和β参数的取值根据功率谱p
x
(w)的平均幅值a和最大幅值m自适应调整,获得了更好的语音增强效果。
[0038]
具体请参照图1,本技术实施例提供的一种车载环境下的语音增强方法,包括如下步骤:
[0039]
步骤s1、对车载环境下的原始语音输入信号进行分帧处理;
[0040]
步骤s2、对分帧后的语音信号进行加窗处理,得到时域语音信号x(k);
[0041]
步骤s3、将时域语音信号x(k)进行傅里叶变换,得到功率谱p
x
(w),同时保留原始语音信号的相位
[0042]
步骤s4、根据功率谱p
x
(w)估算时域噪声信号n(k)的同功率谱pn(w);
[0043]
步骤s5、根据p
x
(w)的平均幅值a和最大幅值m确定参数α和β的值;
[0044]
步骤s6、根据表达式(3)计算得到时域纯净语音信号s(k)的功率谱ps(w);
[0045]
步骤s7、将功率谱ps(w)结合原始语音信号的相位进行傅里叶逆变换后得到时域纯净语音信号s(k),完成原始语音输入信号增强。
[0046]
在本技术实施例中,步骤s5包括:将所述平均幅值a与最大幅值m输入已构建完成的模糊控制器,由所述模糊控制器输出α和β的取值。具体地,模糊控制器的输入和输出设为七级,输入和输出划分为:负大(nb),负中(nm),负小(ns),0(ze),正小(ps),正中(pm),正大
(pb)。七级可以覆盖主要的数值变化范围,同时满足控制要求,对于硬件资源也占用不高,拥有较好的计算效率。隶属度函数采用高斯型函数,采用max方法模糊合成和重心法进行解模糊。
[0047]
需要特别说明的是,本技术实施例中的步骤编号不构成对本技术技术方案实施步骤顺序地限制,例如步骤s5和步骤s4并无必然的先后顺序关系,在另一些具体的实施例中,二者可以交换。
[0048]
基于上述实施例中的车载环境下的语音增强方法,本技术实施例还提供了一种车载环境下的语音识别方法,请参考图2,语音识别的步骤包括:
[0049]
步骤a、获取车载环境下的原始语音信号;
[0050]
步骤b、对所述原始语音信号进行预处理,所述预处理包括:按照前述实施例中的语音增强方法完成语音增强;
[0051]
步骤c、对完成预处理的语音信号进行特征提取;
[0052]
步骤d、将完成特征提取的语音信号输入训练完成的卷积神经网络模型进行语音识别,由所述卷积神经网络输出语音识别结果。
[0053]
具体地,步骤c采用mfcc方法对纯净语音信号进行特征提取;步骤d中所述的卷积神经网络模型包括1个输入层、6个卷积层、6个dropout层和1个全连接层。mfcc是mel-frequency cepstral coefficients的缩写,是语音识别领域用于特征提取的常用技术手段,在此不再赘述。
[0054]
应当理解,在另一些具体的实施例中,步骤b中的预处理还可以包括预加重等其他预处理手段。
[0055]
接下来分别通过对比实验来进一步展示本技术实施例提供的车载环境下的语音增强方法和车载环境下的语音识别方法的技术效果。
[0056]
实施例
[0057]
在行驶的广汽传祺m8车中,采集了20个人(10位男生和10位女生),10个词汇,每个词汇重读30遍的语音数据集。选取语音数据集中一段时长为2秒、内容为“图片抓拍”的男生语音为原始语音信号,图3中(a)部分所示。通过matlab软件中搭建所需的计算模型。
[0058]
步骤s1、对原始语音信号进行分帧处理,分帧后每段语音信号时长为20毫秒,相邻段的语音信号重叠10毫秒。
[0059]
步骤s2、分帧处理后再加汉明窗,得到时域语音信号x(k)。
[0060]
步骤s3、对时域语音信号x(k)做傅里叶变换得到对应的功率谱p
x
(w)。
[0061]
步骤s4、根据功率谱p
x
(w)的估算噪声信号的功率谱pn(w),具体为取功率谱p
x
(w)前5帧的平均值为噪声功率谱pn(w)的幅值。
[0062]
步骤s5、计算功率谱p
x
(w)的平均幅值a与最大幅值m,将a和m作为输入模糊控制器,由模糊控制器输出α和β的值。模糊控制器的输入和输出设为七级,输入和输出划分为:负大(nb),负中(nm),负小(ns),0(ze),正小(ps),正中(pm),正大(pb)。隶属度函数采用高斯型函数,采用max方法模糊合成和重心法进行解模糊。模糊规则如表1和表2所示:
[0063]
表1α参数规则表
[0064][0065]
表2β参数规则表
[0066][0067]
步骤s6、将功率谱p
x
(w)、估算得到的pn(w)、由模糊控制器输出的α和β参数值带入表达式(3)中,计算得到纯净语音信号的功率谱ps(w)。
[0068]
步骤s7、对纯净语音信号的功率谱ps(w)进行傅里叶逆变换得到时域纯净语音信号s(k),如图3中的(c)部分所示。
[0069]
分帧后的每一小段功率功率谱p
x
(w)(对应20毫秒的时域语音信号)的平均幅值a与最大幅值m是不同的,那么α和β的取值是变化的。
[0070]
对比例
[0071]
对比例与实施例的区别仅在于α和β均为固定值。在相关技术中α和β的取值凭经验
确定,为了尽可能与实施例形成对照,在本技术的对照例中,将实施例中α的均值取为对照例中α的固定值,将实施例中β的均值取为对照例中β的固定值。对比例输出的时域纯净语音信号如图3中(b)部分所示。
[0072]
空白例
[0073]
将未处理的原始语音信号作为空白例,图3的(a)部分所示。
[0074]
比较图3中的(a)、(b)和(c)三部分的信号,实施例在保留有用信号的基础上,极大消除了噪音信号,相比于对比例去噪效果更好。
[0075]
进一步地,在前述对比实验的基础上进行语音识别。语音识别方案采用mfcc方法提取特征,通过卷积神经网络来进行语音识别。mfcc是基于人耳听觉效应而设计的一种方法,mfcc从语音信号中提取特征,用于识别任务。卷积神经网络cnn由1个输入层、6个卷积层、6个dropout层和1个dense层构成。识别效果如表3所示:
[0076]
表3识别率对比
[0077]
语音指令空白例对照例实施例“视频录制”65%80%90%“图片抓拍”60%77%88%“降低音量”70%83%95%“打开定位”63%75%85%
[0078]
从表3可以看出,未进行语音增强的原始语音信号(空白例)识别率最低,采用了本技术实施例提供的语音增强方法进行语音增强后的语音信号(实施例)识别率远远高于空白例和对比例。
[0079]
综上所述,本技术提出改进的谱减法(表达式(3))结合模糊理论,使得谱减法系数能够自适应不同的语音信号,能够有效的消除噪音,避免“音乐噪音”问题,同时提高信噪比,保留了语音信号的有效信号。通过实际仿真运算和车内实验,采用本技术提供的技术方案后后,能够有效提高行驶车内的语音识别准确率。
[0080]
以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献