一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音降噪方法、装置、设备及存储介质与流程

2021-08-31 17:44:00 来源:中国专利 TAG:降噪 音频处理 语音 装置 方法

技术特征:

1.一种语音降噪方法,其特征在于,所述方法包括:

获取语音数据;

将所述语音数据输入预设的标准场景识别模型,确定所述语音数据对应的语音场景,所述标准场景识别模型为根据各个场景下的噪声样本集训练得到;

选择预设的与所述语音场景对应的降噪模型,对所述语音数据进行降噪。

2.根据权利要求1所述的语音降噪方法,其特征在于,获取语音数据的步骤之前,包括:

采集各个场景下的噪声样本集,从各个噪声样本中提取音频特征;

基于所述音频特征对所述噪声样本集进行聚类分析,得到分类语音集;

将所述分类语音集切分为训练语音集和测试语音集,利用所述训练语音集构建所述场景识别模型,并利用所述测试语音集对所述场景识别模型进行测试调整,得到标准场景识别模型。

3.根据权利要求2所述的语音降噪方法,其特征在于,将所述分类语音集切分为训练语音集和测试语音集,利用所述训练语音集构建所述场景识别模型,并利用所述测试语音集对所述场景识别模型进行测试调整,得到标准场景识别模型的步骤之后,还包括:

根据采集到的各个场景下的噪声样本集,建立与各个场景对应的降噪模型,以供调用。

4.根据权利要求2所述的语音降噪方法,其特征在于,所述利用所述训练语音集构建所述场景识别模型,包括:

计算每一个特征标注与对应的所述训练语音集之间的基尼指数,得到所述特征标注对应的基尼指数集合,所述特征标注为从各个场景下的噪声样本集中提取得到对应音频特征的类别标注;

对所述基尼指数集合按照从大到小的顺序进行排序,选取所述基尼指数集合中最小的基尼指数所对应的标注作为切分点;

以所述切分点作为初始决策树的根节点,从所述切分点出发生成子节点并将所述训练语音集分配到所述子节点中,直到将所述特征标注中的所有标注遍历完毕,生成所述初始决策树;

对所述初始决策树进行剪枝处理,得到场景识别模型。

5.根据权利要求4所述的语音降噪方法,其特征在于,所述对所述初始决策树进行剪枝处理,得到场景识别模型,包括:

计算所述初始决策树上所有非叶子节点的表面误差增益值;

对所述表面误差增益值小于预设的增益阈值的非叶子节点进行剪枝,得到场景识别模型。

6.根据权利要求4所述的语音降噪方法,其特征在于,所述利用所述测试语音集对所述场景识别模型进行测试调整,得到标准场景识别模型,包括:

利用所述场景识别模型对所述测试语音集进行场景识别处理,得到所述测试语音集对应的识别结果;

当所述测试语音集对应的识别结果与所述测试语音集对应的特征标注不一致时,重新利用所述训练语音集对所述场景识别模型进行训练,直到所述测试语音集对应的识别结果与所述测试语音集对应的特征标注一致时,得到标准场景识别模型。

7.根据权利要求2所述的语音降噪方法,其特征在于,所述基于所述音频特征对所述噪声样本集进行聚类分析,得到分类语音集,包括:

获取预设的标准特征,计算所述音频特征与所述标准特征之间的条件概率值;

按照所述条件概率值的大小对所述噪声样本集中的每个噪声样本进行排序,以预设的音频间隔为划分点对排序后的噪声样本集进行划分,得到分类语音集。

8.根据权利要求1至5中任意一项所述的语音降噪方法,其特征在于,采集各个场景下的噪声样本集,从各个噪声样本中提取音频特征,包括:

对所述噪声样本集进行预加重处理、分帧处理、加窗处理以及快速傅里叶变换,得到所述噪声样本集的短时频谱;

对所述短时频谱取模平方,得到所述噪声样本集的功率谱;

利用预设的梅尔尺度的三角形滤波器组对所述功率谱进行计算并得到对数能量,对所述对数能量进行离散余弦变换,得到每个噪声样本对应的音频特征。

9.一种语音降噪装置,其特征在于,所述装置包括:

语音数据获取模块,用于获取语音数据;

语音场景识别模块,用于将所述语音数据输入预设的标准场景识别模型,确定所述语音数据对应的语音场景,所述标准场景识别模型为根据各个场景下的噪声样本集训练得到;

降噪模块,用于选择预设的与所述语音场景对应的降噪模型,对所述语音数据进行降噪。

10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现权利要求1-8中任意一项所述的语音降噪方法的步骤。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任意一项所述的语音降噪方法的步骤。


技术总结
本申请涉及音频处理技术领域,揭露了一种语音降噪方法,包括:获取语音数据,将所述语音数据输入预设的标准场景识别模型,确定所述语音数据对应的语音场景,所述标准场景识别模型为根据各个场景下的噪声样本集训练得到,选择预设的与所述语音场景对应的降噪模型,对所述语音数据进行降噪。此外,本申请还揭露一种语音降噪方法、装置、设备及存储介质。本申请可提高语音降噪的精确度。

技术研发人员:汪雪;黄石磊;程刚;何竹
受保护的技术使用者:深圳市北科瑞声科技股份有限公司
技术研发日:2021.06.23
技术公布日:2021.08.31
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜