农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音降噪方法、装置、设备及存储介质与流程

2021-08-31 17:44:00 来源：中国专利 TAG：降噪音频处理语音装置方法

本申请涉及音频处理技术领域，尤其涉及一种语音降噪方法、装置及存储介质。

背景技术：

现在的生活中充斥着各种各样的噪音音频数据，例如马路边的噪音音频数据、公园里的噪音音频数据和办公室的噪音音频数据等，不同语音场景下噪音音频数据的音频特征不同，与此同时对应采用的语音降噪手段也不相同。

现有的语音降噪方法是基于用户声纹特征的降噪，例如，根据用户的声纹特征对语音数据中的用户语音进行增强，以实现对背景噪声的削弱，完成语音降噪。但实际应用场景中，当背景噪声的音量过大时，该方法无法根据对用户语音的增强实现对背景噪声的削弱，导致降噪的精确度不高。

技术实现要素：

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种语音降噪方法、装置及存储介质。

第一方面，本申请提供了一种语音降噪方法，所述方法包括：

获取语音数据；

将所述语音数据输入预设的标准场景识别模型，确定所述语音数据对应的语音场景，所述标准场景识别模型为根据各个场景下的噪声样本集训练得到；

选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪。

第一方面的其中一个实施例中，获取语音数据的步骤之前，包括：

采集各个场景下的噪声样本集，从各个噪声样本中提取音频特征；

基于所述音频特征对所述噪声样本集进行聚类分析，得到分类语音集；

将所述分类语音集切分为训练语音集和测试语音集，利用所述训练语音集构建所述场景识别模型，并利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型。

第一方面的其中一个实施例中，将所述分类语音集切分为训练语音集和测试语音集，利用所述训练语音集构建所述场景识别模型，并利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型的步骤之后，还包括：

根据采集到的各个场景下的噪声样本集，建立与各个场景对应的降噪模型，以供调用。

第一方面的其中一个实施例中，所述利用所述训练语音集构建得到场景识别模型，包括：

计算每一个特征标注与对应的所述训练语音集之间的基尼指数，得到所述特征标注对应的基尼指数集合，所述特征标注为从各个场景下的噪声样本集中提取得到对应音频特征的类别标注；

对所述基尼指数集合按照从大到小的顺序进行排序，选取所述基尼指数集合中最小的基尼指数所对应的标注作为切分点；

以所述切分点作为初始决策树的根节点，从所述切分点出发生成子节点并将所述训练语音集分配到所述子节点中，直到将所述特征标注中的所有标注遍历完毕，生成所述初始决策树；

对所述初始决策树进行剪枝处理，得到场景识别模型。

第一方面的其中一个实施例中，所述对所述初始决策树进行剪枝处理，得到场景识别模型，包括：

计算所述初始决策树上所有非叶子节点的表面误差增益值；

对所述表面误差增益值小于预设的增益阈值的非叶子节点进行剪枝，得到场景识别模型。

第一方面的其中一个实施例中，所述利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型，包括：

利用所述场景识别模型对所述测试语音集进行场景识别处理，得到所述测试语音集对应的识别结果；

当所述测试语音集对应的识别结果与所述测试语音集对应的特征标注不一致时，重新利用所述训练语音集对所述场景识别模型进行训练，直到所述测试语音集对应的识别结果与所述测试语音集对应的特征标注一致时，得到标准场景识别模型。

第一方面的其中一个实施例中，所述基于所述音频特征对所述噪声样本集进行聚类分析，得到分类语音集，包括：

获取预设的标准特征，计算所述音频特征与所述标准特征之间的条件概率值；

按照所述条件概率值的大小对所述噪声样本集中的每个噪声样本进行排序，以预设的音频间隔为划分点对排序后的噪声样本集进行划分，得到分类语音集。

第一方面的其中一个实施例中，采集各个场景下的噪声样本集，从各个噪声样本中提取音频特征，包括：

对所述噪声样本集进行预加重处理、分帧处理、加窗处理以及快速傅里叶变换，得到所述噪声样本集的短时频谱；

对所述短时频谱取模平方，得到所述噪声样本集的功率谱；

利用预设的梅尔尺度的三角形滤波器组对所述功率谱进行计算并得到对数能量，对所述对数能量进行离散余弦变换，得到每个噪声样本对应的音频特征。

第二方面，本申请提供了一种语音场景识别装置，所述装置包括：

语音数据获取模块，用于获取语音数据；

语音场景识别模块，用于将所述语音数据输入预设的标准场景识别模型，确定所述语音数据对应的语音场景，所述标准场景识别模型为根据各个场景下的噪声样本集训练得到；

降噪模块，用于选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪。

第三方面，提供了一种语音识别设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的语音降噪方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的语音降噪方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例通过将获取得到的语音数据输入预设的标准场景识别模型中，利用所述标准场景识别模型识别出所述语音数据对应的语音场景，识别所述语音数据对应的语音场景可以确定所述语音数据所处的语音环境，并选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪，通过与场景匹配的降噪模型进行降噪，更加精准地执行了降噪操作，因此，实现了提高语音降噪的精确度的目的。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音降噪方法的流程示意图；

图2为本申请实施例提供的语音降噪方法中对场景识别模型进行测试调整的流程示意图；

图3为本申请实施例提供的一种语音降噪的装置的模块示意图；

图4为本申请实施例提供的一种语音降噪的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种语音降噪方法的流程示意图。在本实施例中，所述语音降噪方法包括：

s1、获取语音数据。

本发明实施例中，所述语音数据为待进行降噪处理的含有噪声的音频数据，以便后续进行诸如语音识别等的音频处理。具体的，所述语音数据可以为在任意语音场景中采集到的音频数据。

进一步的，获取语音数据的步骤之前，包括：

采集各个场景下的噪声样本集，从各个噪声样本中提取音频特征；

基于所述音频特征对所述噪声样本集进行聚类分析，得到分类语音集；

将所述分类语音集切分为训练语音集和测试语音集，利用所述训练语音集构建所述场景识别模型，并利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型。

详细地，本申请实施例中，所述噪声样本集包括各个语音场景下的噪音音频数据，例如，公园中的噪音音频数据，马路边的噪音音频数据或者办公室里的噪音音频数据。本发明实施例中，所述噪声样本集中还可以包括各个噪声样本所对应的特征标注，该特征标注用于标注各个噪声样本中提取对应的音频特征。所述音频特征可以包括过零率、梅尔频率倒谱系数、频谱质心、频谱扩散、谱熵和谱通量等，其中，本申请实施例中的所述音频特征优选为梅尔频率倒谱系数。

具体地，所述采集各个场景下的噪声样本集，从各个噪声样本中提取音频特征，包括：

对所述噪声样本集进行预加重处理、分帧处理、加窗处理以及快速傅里叶变换，得到所述噪声样本集的短时频谱；

对所述短时频谱取模平方，得到所述噪声样本集的功率谱；

利用预设的梅尔尺度的三角形滤波器组对所述功率谱进行计算并得到对数能量，对所述对数能量进行离散余弦变换，得到每个噪声样本对应的音频特征。

在本申请一可选实施例中，通过一个预设的高通滤波器对所述噪声样本集进行预加重处理，得到高频噪声样本集，所述预加重处理可以增强所述噪声样本集中语音信号的高频部分。

本申请实施例对所述噪声样本集进行预加重处理，可以突出噪声样本中高频部分的共振峰。

在本申请一可选实施例中，利用预设的采样点将所述高频噪声样本集切分成多帧的数据，得到分帧数据集；

优选地，本申请实施例中，所述采样点为512或者256。

在本申请一可选实施例中，所述加窗处理是根据预设的窗口函数对所述分帧数据集中的每一帧进行加窗处理，得到加窗信号。

详细地，所述预设的窗口函数为：

s′(n)＝s(n)×w(n)

其中，s′(n)为加窗信号，s(n)为分帧数据集，w(n)为窗口函数，n为帧的大小，n为帧的个数。

优选地，本申请实施例中，所述预设的窗口函数可选择汉明窗，所述w(n)为汉明窗的函数表达式。

本申请实施例对所述分帧数据集进行加窗处理可以增加帧左端和帧右端的连续性，减少频谱泄漏。

进一步地，本发明实施例采用下述公式执行快速傅里叶变换，包括：

及

采用下述公式对所述短时频谱取模平方：

其中，s(k)为短时频谱，p(k)为功率谱，s′(n)为加窗信号，n为帧的大小，n为帧的个数，k为短时频谱上的预设参数。

由于信号在时域上的变换通常很难看出信号的特性，因此，本发明实施例将所述噪声样本集转换为频域上的能量分布，不同的能量分布可以代表不同语音的特性。

进一步地，本发明实施例中，所述梅尔(mel)尺度的三角形滤波器组为：

其中，t(m)为对数能量，p(k)为功率谱，h(k)为三角滤波器的频率响应，n为帧的大小，k为短时频谱上的预设参数。

本发明实施例利用所述三角滤波器对所述功率谱进行对数能量的计算可以使短时频谱平滑，并消除谐波，突显语音信息中的共振峰。

具体地，所述基于所述音频特征对所述噪声样本集进行聚类分析，得到分类语音集，包括：

获取预设的标准特征，计算所述音频特征与所述标准特征之间的相关系数；

按照所述相关系数的大小对所述噪声样本集中的每个噪声样本进行排序，以预设的音频间隔为划分点对排序后的噪声样本集进行划分，得到分类语音集。

其中，所述分类语音集包括不同场景下的语音，例如，马路场景下的语音，公园场景下的语音等。

详细地，利用如下公式计算所述噪声样本集中每个噪声样本对应的音频特征与所述标准特征之间的相关系数，包括：

其中，qij为所述相关系数，yi为噪声样本对应的音频特征，yj为所述标准特征，exp为指数函数，yk和yl为固定参数。

具体地，对所述原始噪声样本集进行聚类分析是将分布在高维空间中的噪声样本嵌入到某个低维子空间中，尽可能地保持低维空间中的数据与高维空间中的特性一致。进行所述聚类分析可以在低维空间保持高维数据全局聚类特性的优势，对多种噪声样本的聚类关系进行可视化分析，从而将时频域特性相似的噪声样本归为一类进行分类识别，以提高识别的准确率。

进一步地，将所述分类语音集切分为训练语音集和测试语音集，利用所述训练语音集构建所述场景识别模型，并利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型。其中，根据预设的划分比例对所述分类语音集进行切分，得到训练语音集和测试语音集。

优选地，所述划分比例为训练语音集：测试语音集＝7：3。

其中，所述训练语音集可以用于后续模型训练，是用于模型进行拟合的样本，所述测试语音集可以用于调整模型的超参数和用于对模型的能力进行初步评估，具体用来评估模型的泛化能力。

具体地，所述利用所述训练语音集构建得到场景识别模型，包括：

计算每一个特征标注与对应的所述训练语音集之间的基尼指数，得到所述特征标注对应的基尼指数集合，所述特征标注为从各个场景下的噪声样本集中提取得到对应音频特征的类别标注；

对所述基尼指数集合按照从大到小的顺序进行排序，选取所述基尼指数集合中最小的基尼指数所对应的标注作为切分点；

以所述切分点作为初始决策树的根节点，从所述切分点出发生成子节点并将所述训练语音集分配到所述子节点中，直到将所述特征标注中的所有标注遍历完毕，生成所述初始决策树；

对所述初始决策树进行剪枝处理，得到场景识别模型。

具体地，所述计算每一个特征标注与对应的所述训练数据集之间的基尼指数，包括：

利用下述基尼指数计算函数每一个特征标注和所述特征标注对应的所述训练语音集之间的基尼指数：

其中，gini(p)为基尼指数，pk表示所述训练语音集中的第k帧数据，k是所述训练语音集中的帧数。

详细地，所述基尼指数代表了模型的不纯度，所述基尼指数越小，不纯度越低，说明特征越好。

进一步地，所述对所述初始决策树进行剪枝处理，得到场景识别模型，包括：

计算所述初始决策树上所有非叶子节点的表面误差增益值；

对所述表面误差增益值小于预设的增益阈值的非叶子节点进行剪枝，得到场景识别模型。

其中，本申请实施例中，所述预设的增益阈值为0.5。

进一步地，所述计算所述初始决策树上所有非叶子节点的表面误差增益值，包括：

利用下述增益公式计算计算所述初始决策树上所有非叶子节点的表面误差增益值：

r(t)＝r(t)*p(t)

其中，α表示表面误差增益值，r(t)表示叶子节点的误差代价，r(t)表示非叶子节点的误差代价，n(t)表示所述初始决策树的节点个数，r(t)为叶子节点的错误率，p(t)为叶子节点的个数与所有节点个数的占比。

具体地，参阅图2所示，所述利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型，包括：

s101、利用所述场景识别模型对所述测试语音集进行场景识别处理，得到所述测试语音集对应的识别结果；

s102、当所述测试语音集对应的识别结果与所述测试语音集对应的特征标注不一致时，重新利用所述训练语音集对所述场景识别模型进行训练，直到所述测试语音集对应的识别结果与所述测试语音集对应的特征标注一致时，得到标准场景识别模型。

进一步地，将所述分类语音集切分为训练语音集和测试语音集，利用所述训练语音集构建所述场景识别模型，并利用所述测试语音集对所述场景识别模型进行测试调整，得到标准场景识别模型的步骤之后，还包括：

根据采集到的各个场景下的噪声样本集，建立与各个场景对应的降噪模型，以供调用。

s2、将所述语音数据输入预设的标准场景识别模型，确定所述语音数据对应的语音场景，所述标准场景识别模型为根据各个场景下的噪声样本集训练得到。

本申请实施例中，将获取到的语音数据输入至所述预设的标准场景识别模型中，所述预设的标准场景识别模型对所述语音数据进行场景识别处理，输出所述语音数据对应的语音场景。

s3、选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪。

本申请实施例中，所述降噪模型包括动态时间规整模型、矢量量化模型和隐马尔可夫模型等，根据所述语音数据所对应的语音场景及所述降噪模型的特性，选择对应的降噪模型对所述语音数据执行降噪操作，得到降噪结果。

本申请实施例通过将获取得到的语音数据输入预设的标准场景识别模型中，利用所述标准场景识别模型识别出所述语音数据对应的语音场景，识别所述语音数据对应的语音场景可以确定所述语音数据所处的语音环境，并选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪，提高语音降噪的精确度。

如图3所示，本申请实施例提供了一种语音降噪装置10的模块示意图，所述语音降噪装置10，包括：语音数据获取模块11、语音场景识别模块12和降噪模块13。

所述语音数据获取模块11，用于获取语音数据；

所述语音场景识别模块12，用于将所述语音数据输入预设的标准场景识别模型，确定所述语音数据对应的语音场景，所述标准场景识别模型为根据各个场景下的噪声样本集训练得到；

所述降噪模块13，用于选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪。

详细地，本申请实施例中所述语音降噪装置10中的各模块在使用时采用与上述的图1中所述的语音降噪方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。

如图4所示，本申请实施例提供了一种语音降噪设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的语音降噪方法，包括：

获取语音数据；

将所述语音数据输入预设的标准场景识别模型，确定所述语音数据对应的语音场景，所述标准场景识别模型为根据各个场景下的噪声样本集训练得到；

选择预设的与所述语音场景对应的降噪模型，对所述语音数据进行降噪。

上述通信总线114可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该通信总线114可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口112用于上述电子设备与其他设备之间的通信。

存储器113可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器113还可以是至少一个位于远离前述处理器111的存储装置。

上述的处理器111可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field-programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任意一个方法实施例提供的语音降噪方法的步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别模型的训练方法、语音识别方法和装置与流程

语音降噪方法、装置、设备及存储介质与流程

相关文章

最热文献