基于噪声抑制的语音检测方法、装置、存储介质以及终端与流程

2021-10-22 21:58:00 来源：中国专利 TAG：语音终端噪声抑制检测方法

1.本技术涉及语音检测领域，尤其涉及一种基于噪声抑制的语音检测方法、装置、存储介质以及终端。

背景技术：

2.随着科学技术的发展，人们也越来越重视意外情况下自身求救的方法，因此通过语音检测实现语音求救成为本领域人员研究的重点之一。
3.在相关技术中，通过语音检测实现语音求救，需要识别出求救语音的语音端点，以便于后续向外界发出求救信号。但是在遇害人发出求救语音时，可能会出现很大或者很低的求救声，对于很大的求救语音能够准确的检测出来，但是当背景噪声超过很低的求救语音时，语音端点检测就不容易检测出来，因此亟需一种基于噪声抑制的语音检测方法。

技术实现要素：

4.本技术提供一种基于噪声抑制的语音检测方法、装置、存储介质以及终端，可以解决相关技术中当背景噪声超过很低的语音时，语音端点检测就不容易检测出来的技术问题。
5.第一方面，本技术实施例提供一种基于噪声抑制的语音检测方法，该方法包括：
6.获取语音信号，提取所述语音信号中的短时能频值序列；
7.判断所述语音信号中的背景噪声是否发生改变，若所述背景噪声发生改变，则重新计算背景噪声；其中，所述重新计算背景噪声包括：对所述语音信号进行建模，并获取所述语音信号的语音噪声概率；根据所述语音噪声概率得到所述语音信号的噪声估计值；对所述噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；
8.根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
9.可选地，所述对所述语音信号进行建模，并获取所述语音信号的语音噪声概率，包括：
10.针对所述语音信号建立高斯模型，并根据所述高斯模型得到所述语音噪声概率，所述语音噪声概率满足以下关系：
11.p(h
k,m
)＝p(h|y
k
(m),{f})αp(y
k
(m)|h,{f})q
k,m
(h|{f})p({f})；
12.其中，所述语音信号的语音状态为h
k,m
＝h
1k,m
，噪声状态为噪声输入频谱系数为y
k
(m)，语音信号的特征数据为{f}，语音帧为m，语音频率为k。
13.可选地，所述根据语音噪声概率得到所述语音信号的噪声估计值，包括：
14.根据所述语音噪声概率执行所述语音信号的噪声估计更新，所述噪声估计值以及所述噪声估计更新满足以下关系：
[0015][0016]
其中，是帧/时间为m，频率槽为k时对噪声频谱量级的估计，参数γ
n
为控制
噪声更新的平滑度。
[0017]
可选地，所述对所述噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号，包括：
[0018]
将所述噪声估计值输入标准维纳滤波器进行最优估计，其中所述标准维纳滤波器满足以下关系：
[0019][0020]
其中是所述噪声估计更新得出的噪声频谱系数；
[0021]
获取所述标准维纳滤波器输出最优估计值，所述最优估计是满足以下关系：
[0022][0023]
使用反向dft将所述最优估计值转换成时域，得到所述语音信号经过所述标准维纳滤波抑制后最优估计得到的语音信号，所述最优估计得到的语音信号满足以下关系：
[0024][0025]
输出所述最优估计得到的语音信号。
[0026]
可选地，所述获取语音信号，提取所述语音信号中的短时能频值序列之前，还包括：
[0027]
获取语音信号，以及解析音频文件并提取数字采样值，得到音频采样序列；
[0028]
对获取到的所述音频采样序列进行带通滤波。
[0029]
可选地，所述对获取到的所述音频采样序列进行带通滤波之后，还包括：
[0030]
将所述音频采样序列分成预定长度的帧，并形成一个帧序列；
[0031]
针对所述帧序列中的每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数。
[0032]
可选地，所述方法还包括：
[0033]
根据所述音频特征参数计算所述帧序列中的每一帧数据的短时能频值，并形成一个短时能频值序列；
[0034]
从所述帧序列中的第一帧数据开始，分析所述短时能频值序列，得到一对语音起点和终点。
[0035]
第二方面，本技术实施例提供一种基于噪声抑制的语音检测装置，该装置包括：
[0036]
短时能频值序列获取模块，用于获取语音信号，提取所述语音信号中的短时能频值序列；
[0037]
噪声抑制模块，用于判断所述语音信号中的背景噪声是否发生改变，若所述背景噪声发生改变，则重新计算背景噪声；其中，所述重新计算背景噪声包括：对所述语音信号进行建模，并获取所述语音信号的语音噪声概率；根据所述语音噪声概率得到所述语音信号的噪声估计值；对所述噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；
[0038]
检测结果输出模块，用于根据噪声抑制信号更新短时能频值序列，以及输出语音
端点检测结果。
[0039]
第三方面，本技术实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行实现上述的方法的步骤。
[0040]
第四方面，本技术实施例提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。
[0041]
本技术一些实施例提供的技术方案带来的有益效果至少包括：
[0042]
本技术实施例提供一种基于噪声抑制的语音检测方法包括：获取语音信号，提取语音信号中的短时能频值序列；判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声；其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。当检测到语音信号中的背景噪声发生改变后，可以通过语音信号进行相关处理，输出噪声抑制信号，并根据噪声抑制信号更新短时能频值序列，以便于更好检测语音端点，有效提高了检测语音端点的精确率。
附图说明
[0043]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1为本技术实施例提供的一种基于噪声抑制的语音检测方法的示例性系统架构图；
[0045]
图2为本技术实施例提供的一种基于噪声抑制的语音检测方法的系统交互图；
[0046]
图3为本技术实施例提供的一种基于噪声抑制的语音检测方法的流程示意图；
[0047]
图4为本技术实施例提供的另一种基于噪声抑制的语音检测方法的流程示意图；
[0048]
图5为本技术实施例提供的另一种基于噪声抑制的语音检测装置的结构示意图；
[0049]
图6为本技术实施例提供的一种终端的结构示意图。
具体实施方式
[0050]
为使得本技术的特征和优点能够更加的明显和易懂，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而非全部实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0051]
下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
[0052]
在本技术实施例的描述中，需要理解的是，在本技术的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例
如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0053]
下面结合具体的实施例对本技术进行详细说明。
[0054]
图1示出了可以应用于本技术实施例的一种基于噪声抑制的语音检测方法的示例性系统架构图。
[0055]
如图1所示，系统架构可以包括求救终端101、施救终端102、网络103和服务器104。网络103用于在求救终端101和施救终端102之间提供通信链路的介质。网络103可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(wireless-fidelity，wi-fi)通信链路或微波通信链路等。
[0056]
求救终端101以及施救终端102可以通过网络103与服务器104交互，以接收来自服务器104的消息或向服务器104发送消息。求救终端101和施救终端102可以是硬件，也可以是软件。当求救终端101和施救终端102为硬件时，可以是各种电子设备，包括但不限于智能手表、智能手机、平板电脑、膝上型便携式计算机和台式计算机等。当求救终端101和施救终端102为软件时，可以是安装在上述所列举的电子设备中，其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。
[0057]
服务器104可以是提供各种服务的业务服务器。需要说明的是，服务器104可以是硬件，也可以是软件。当服务器104为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器104为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。
[0058]
应理解，图1中的施救终端、求救终端、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的施救终端、求救终端、网络和服务器。
[0059]
可以理解的，在本技术实施例中求救终端可以麦克风等拾音装置或者收音装置获取环境中的语音信号，语音信号中可能包括求救者的求救信号，求救终端还可以通过语音识别模块获取语音信号，并对语音信号进行基于噪声抑制的语音检测，并将检测结果发送至通信模块，通信模块将检测结果发送至显示模块进行显示，以及通信模块将检测结果发送服务器，服务器将检测结果发送至施救终端，施救终端可以是公安或者消防系统，以便于施救终端对求救者采取对应的措施。
[0060]
请参阅图2，图2为本技术实施例提供的一种基于噪声抑制的语音检测方法的系统交互图，下面将结合图1和图2介绍基于噪声抑制的语音检测方法中系统交互过程。
[0061]
s201、求救终端获取语音信号，以及解析音频文件并提取数字采样值，得到音频采样序列；对获取到的音频采样序列进行带通滤波。
[0062]
求救终端将音频采样序列分成预定长度的帧，并形成一个帧序列；针对帧序列中的每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数。
[0063]
求救终端根据音频特征参数计算帧序列中的每一帧数据的短时能频值，并形成一个短时能频值序列。
[0064]
求救终端从帧序列中的第一帧数据开始，分析短时能频值序列，得到一对语音起点和终点。
[0065]
s202、求救终端获取语音信号，提取语音信号中的短时能频值序列。
[0066]
s203、求救终端判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声。
[0067]
重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率。
[0068]
可选地，对语音信号进行建模，并获取语音信号的语音噪声概率，包括：
[0069]
针对语音信号建立高斯模型，并根据高斯模型得到语音噪声概率，语音噪声概率满足以下关系：
[0070]
p(h
k,m
)＝p(h|y
k
(m),{f})αp(y
k
(m)|h,{f})q
k,m
(h|{f})p({f})；
[0071]
其中，语音信号的语音状态为h
k,m
＝h
1k,m
，噪声状态为噪声输入频谱系数为y
k
(m)，语音信号的特征数据为{f}，语音帧为m，语音频率为k。
[0072]
s204、求救终端根据语音噪声概率得到语音信号的噪声估计值。
[0073]
可选地，根据语音噪声概率得到语音信号的噪声估计值，包括：
[0074]
根据语音噪声概率执行语音信号的噪声估计更新，噪声估计值以及噪声估计更新满足以下关系：
[0075][0076]
其中，是帧/时间为m，频率槽为k时对噪声频谱量级的估计，参数γ
n
为控制噪声更新的平滑度。
[0077]
s205、求救终端对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号。
[0078]
可选地，对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号，包括：
[0079]
将噪声估计值输入标准维纳滤波器进行最优估计，其中标准维纳滤波器满足以下关系：
[0080][0081]
其中是噪声估计更新得出的噪声频谱系数；
[0082]
获取标准维纳滤波器输出最优估计值，最优估计是满足以下关系：
[0083][0084]
使用反向dft将最优估计值转换成时域，得到语音信号经过标准维纳滤波抑制后最优估计得到的语音信号，最优估计得到的语音信号满足以下关系：
[0085][0086]
输出最优估计得到的语音信号。
[0087]
s206、求救终端根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
[0088]
s207、求救终端将语音端点检测结果发送至服务器。
[0089]
s208、服务器接收语音端点检测结果，根据语音端点检测结果执行施救方案。
[0090]
在本技术实施例中，一种基于噪声抑制的语音检测方法包括：获取语音信号，提取语音信号中的短时能频值序列；判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声；其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。当检测到语音信号中的背景噪声发生改变后，可以通过语音信号进行相关处理，输出噪声抑制信号，并根据噪声抑制信号更新短时能频值序列，以便于更好检测语音端点，有效提高了检测语音端点的精确率。
[0091]
请参阅图3，图3为本技术实施例提供的一种基于噪声抑制的语音检测方法的流程示意图。
[0092]
如图3所示，该方法包括：
[0093]
s301、获取语音信号，提取语音信号中的短时能频值序列。
[0094]
在语音端点检测过程中，我们需要求得每一帧的短时能频值。求第
ⅰ
帧的短时能频值，就要用到第
ⅰ
帧的短时能量、短时过零率和短时信息熵。其提取过程包括步骤1：首先对音频信号序列进行分帧处理，得到一个音频帧序列。在本技术中将10ms规定为一帧。例如，如果音频文件的采样率是48k/s，那么每帧就应该包含480个采样。步骤2：从步骤1中得到的帧序列里的第一帧开始直到最后，计算每一帧的音频特征参数，得到短时能量序列、短时过零率序列和短时信息熵序列。步骤3、从帧序列里的第一帧开始直到最后，应用步骤2里求得的三个音频特征参数序列，并应用每一帧所对应的背景噪声的相应音频特征参数，按照短时能频值的定义公式进行计算。重复此过程直到所有帧的短时能频值都计算完成。最后得到一个与帧序列相对应的短时能频值序列。
[0095]
s302、判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声。
[0096]
其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号。
[0097]
可选地，对语音信号进行建模，并获取语音信号的语音噪声概率，包括：
[0098]
针对语音信号建立高斯模型，并根据高斯模型得到语音噪声概率，语音噪声概率满足以下关系：
[0099]
p(h
k,m
)＝p(h|y
k
(m),{f})αp(y
k
(m)|h,{f})q
k,m
(h|{f})p({f})；
[0100]
其中，语音信号的语音状态为h
k,m
＝h
1k,m
，噪声状态为噪声输入频谱系数为y
k
(m)，语音信号的特征数据为{f}，语音帧为m，语音频率为k。
[0101]
语音噪声这一概率取决于观测到的噪声输入频谱系数y
k
(m)以及处理信号的一些特征数据，也就是这里的{f}。特征数据可以是有噪输入频谱，过往频谱，模型数据等。如特征数据{f}可以包括频谱平坦度测量，谐振峰值距，lpc残余以及模板匹配等。
[0102]
可选地，p({f})是以信号的特征数据为基础的先验概率，该值在下方一个或多个表达式中被设为一个常数。数量q
k,m
(h|{f})是特征数据{f}下的语音/噪声概率，在忽略{f}为基础的先验概率p{f}，简化q
k,m
(h1|{f})＝qq
k,m
(h0|{f})＝1-q，则标准化的语音噪声概率
可写作为：
[0103][0104]
上式简写为：
[0105][0106]
其中似然比(lr)为：
[0107][0108]
在上述δ
k
的表达式中，p(y
k
(m)|h
1,0
,{f})通过线性模型和针对语音和噪声频谱系数的高斯概率密度函数假设来确定。假设高斯概率密度函数使用复杂系数{x
k
(m),n
k
(m)}，为了使计算简单用{x
k
,n
k
}表示，则数量p(y
k
(m)|h,{f})表示如下
[0109][0110][0111]
由于完全可以根据线性模型和高斯pdf假设确定概率。这样，似然比δ
k
变成
[0112][0113]
因此，语音噪声概率可以表示为：
[0114][0115]
p(h0y
k
(m),{f})＝1-p(h1y
k
(m),{f})。
[0116]
可选地，根据语音噪声概率得到语音信号的噪声估计值，包括：
[0117]
根据语音噪声概率执行语音信号的噪声估计更新，噪声估计值以及噪声估计更新满足以下关系：
[0118][0119]
其中，是帧/时间为m，频率槽为k时对噪声频谱量级的估计，参数γ
n
为控制噪声更新的平滑度。
[0120]
基于模型或语音噪声概率，噪声估计模型会对噪声可能性大的每个帧和频率槽的噪声进行更新。对于噪声可能性不大的帧和频率槽，将对信号中上一个帧的估计作为噪声估计。
[0121]
可选地，对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号，包括：
[0122]
将噪声估计值输入标准维纳滤波器进行最优估计，其中标准维纳滤波器满足以下关系：
[0123][0124]
其中是噪声估计更新得出的噪声频谱系数；
[0125]
获取标准维纳滤波器输出最优估计值，最优估计是满足以下关系：
[0126][0127]
使用反向dft将最优估计值转换成时域，得到语音信号经过标准维纳滤波抑制后最优估计得到的语音信号，最优估计得到的语音信号满足以下关系：
[0128][0129]
输出最优估计得到的语音信号。
[0130]
s303、根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
[0131]
上述实施例中的最优估计得到的语音信号也即噪声抑制信号，因此可以根据噪声抑制信号更新短时能频值序列，并根据更新后的短时能频值序列重新计算语音端点，并输出语音端点检测结果。
[0132]
本技术实施例中，一种基于噪声抑制的语音检测方法包括：获取语音信号，提取语音信号中的短时能频值序列；判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声；其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。当检测到语音信号中的背景噪声发生改变后，可以通过语音信号进行相关处理，输出噪声抑制信号，并根据噪声抑制信号更新短时能频值序列，以便于更好检测语音端点，有效提高了检测语音端点的精确率。
[0133]
请参阅图4，图4为本技术实施例提供的另一种基于噪声抑制的语音检测方法的流程示意图。
[0134]
如图4所示，该方法包括：
[0135]
s401、获取语音信号，以及解析音频文件并提取数字采样值，得到音频采样序列；对获取到的音频采样序列进行带通滤波。
[0136]
s402、将音频采样序列分成预定长度的帧，并形成一个帧序列。
[0137]
s403、针对帧序列中的每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数。
[0138]
s404、根据音频特征参数计算帧序列中的每一帧数据的短时能频值，并形成一个短时能频值序列。
[0139]
s405、从帧序列中的第一帧数据开始，分析短时能频值序列，得到一对语音起点和终点。
[0140]
s406、获取语音信号，提取语音信号中的短时能频值序列。
[0141]
s407、判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声。
[0142]
其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号。
[0143]
s408、根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
[0144]
本技术实施例中，一种基于噪声抑制的语音检测方法，当检测到语音信号中的背景噪声发生改变后，可以通过语音信号进行相关处理，输出噪声抑制信号，并根据噪声抑制信号更新短时能频值序列，以便于更好检测语音端点，有效提高了检测语音端点的精确率。
[0145]
请参阅图5，图5为本技术实施例提供的另一种基于噪声抑制的语音检测装置的结构示意图。
[0146]
如图5所示，基于噪声抑制的语音检测装置500包括：
[0147]
短时能频值序列获取模块510，用于获取语音信号，提取语音信号中的短时能频值序列。
[0148]
噪声抑制模块520，用于判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声。
[0149]
其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号。
[0150]
检测结果输出模块530，用于根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
[0151]
本技术实施例还提供了一种计算机存储介质，计算机存储介质存储有多条指令，指令适于由处理器加载并执行如上述实施例中的任一项的方法的步骤。
[0152]
请参见图6，图6为本技术实施例提供的一种终端的结构示意图。如图6所示，终端600可以包括：至少一个处理器601，至少一个网络接口604，用户接口603，存储器605，至少一个通信总线602。
[0153]
其中，通信总线602用于实现这些组件之间的连接通信。
[0154]
其中，用户接口603可以包括摄像头(camera)，可选用户接口603还可以包括标准的有线接口、无线接口。
[0155]
其中，网络接口604可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
[0156]
其中，处理器601可以包括一个或者多个处理核心。处理器601利用各种接口和线路连接整个终端600内的各个部分，通过运行或执行存储在存储器605内的指令、程序、代码集或指令集，以及调用存储在存储器605内的数据，执行终端600的各种功能和处理数据。可选的，处理器601可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field-programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器601可集成中央处理器(central processing unit，cpu)和调制解调器等中的一种或几种的组合。可以理解的是，上述调制解调器也可以不集成到处理器601中，单独通过一块芯片进行实现。
[0157]
其中，存储器605可以包括随机存储器(random access memory，ram)，也可以包括
只读存储器(read-only memory，rom)。可选的，该存储器605包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器605可用于存储指令、程序、代码、代码集或指令集。存储器605可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器605可选的还可以是至少一个位于远离前述处理器601的存储装置。如图6所示，作为一种计算机存储介质的存储器605中可以包括操作系统、网络通信模块、用户接口模块以及基于噪声抑制的语音检测程序。
[0158]
在图6所示的终端600中，用户接口603主要用于为用户提供输入的接口，获取用户输入的数据；而处理器601可以用于调用存储器605中存储的基于噪声抑制的语音检测程序，并具体执行以下操作：
[0159]
获取语音信号，提取语音信号中的短时能频值序列；
[0160]
判断语音信号中的背景噪声是否发生改变，若背景噪声发生改变，则重新计算背景噪声；其中，重新计算背景噪声包括：对语音信号进行建模，并获取语音信号的语音噪声概率；根据语音噪声概率得到语音信号的噪声估计值；对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号；
[0161]
根据噪声抑制信号更新短时能频值序列，以及输出语音端点检测结果。
[0162]
可选地，处理器601在执行对语音信号进行建模，并获取语音信号的语音噪声概率时，具体执行以下步骤：
[0163]
针对语音信号建立高斯模型，并根据高斯模型得到语音噪声概率，语音噪声概率满足以下关系：
[0164]
p(h
k,m
)＝p(h|y
k
(m),{f})αp(y
k
(m)|h,{f})q
k,m
(h|{f})p({f})；
[0165]
其中，语音信号的语音状态为h
k,m
＝h
1k,m
，噪声状态为噪声输入频谱系数为y
k
(m)，语音信号的特征数据为{f}，语音帧为m，语音频率为k。
[0166]
处理器601在执行根据语音噪声概率得到语音信号的噪声估计值时，具体执行以下步骤：
[0167]
根据语音噪声概率执行语音信号的噪声估计更新，噪声估计值以及噪声估计更新满足以下关系：
[0168][0169]
其中，是帧/时间为m，频率槽为k时对噪声频谱量级的估计，参数γ
n
为控制噪声更新的平滑度。
[0170]
处理器601在执行对噪声估计值基于最小均方误差准则进行最优估计，并输出噪声抑制信号时，具体执行以下步骤：
[0171]
将噪声估计值输入标准维纳滤波器进行最优估计，其中标准维纳滤波器满足以下关系：
[0172][0173]
其中是噪声估计更新得出的噪声频谱系数；
[0174]
获取标准维纳滤波器输出最优估计值，最优估计是满足以下关系：
[0175][0176]
使用反向dft将最优估计值转换成时域，得到语音信号经过标准维纳滤波抑制后最优估计得到的语音信号，最优估计得到的语音信号满足以下关系：
[0177][0178]
输出最优估计得到的语音信号。
[0179]
处理器601在执行获取语音信号，提取语音信号中的短时能频值序列之前，具体执行以下步骤：：
[0180]
获取语音信号，以及解析音频文件并提取数字采样值，得到音频采样序列；
[0181]
对获取到的音频采样序列进行带通滤波。
[0182]
处理器601在执行对获取到的音频采样序列进行带通滤波之后，还体执行以下步骤：
[0183]
将音频采样序列分成预定长度的帧，并形成一个帧序列；
[0184]
针对帧序列中的每一帧数据提取短时能量、短时过零率和短时信息熵三个音频特征参数。
[0185]
处理器601还用于执行：
[0186]
根据音频特征参数计算帧序列中的每一帧数据的短时能频值，并形成一个短时能频值序列；
[0187]
从帧序列中的第一帧数据开始，分析短时能频值序列，得到一对语音起点和终点。
[0188]
在本技术所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0189]
作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0190]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0191]
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者
说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0192]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0193]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0194]
以上为对本技术所提供的一种基于噪声抑制的语音检测方法、装置、存储介质以及终端的描述，对于本领域的技术人员，依据本技术实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：一种家用电器的控制方法及家用电器与流程
下一篇：音频数据重建方法及系统与流程

基于噪声抑制的语音检测方法、装置、存储介质以及终端与流程

相关文献

最热文献