语音信号处理方法、装置、设备及存储介质与流程

2021-11-26 21:30:00 来源：中国专利 TAG：

技术特征：
1.一种语音信号处理方法，其特征在于，所述方法包括：将待处理语音信号由时域变换至频域，获取频域上各个频点的第一功率谱和相位信息；其中，所述待处理语音信号为初始语音信号或受损语音信号，所述初始语音信号是指未经过级联编码处理的语音信号，所述受损语音信号是指经过所述级联编码处理后得到的语音信号；获取所述各个频点的频带增益值，基于所述各个频点的第一功率谱和频带增益值，确定所述各个频点的第二功率谱；基于所述各个频点的相位信息和第二功率谱，生成符合语音播放条件的目标语音信号。2.根据权利要求1所述的方法，其特征在于，响应于所述待处理语音信号为所述初始语音信号，所述基于所述各个频点的相位信息和第二功率谱，生成符合语音播放条件的目标语音信号，包括：基于所述各个频点的相位信息和第二功率谱，生成中间语音信号；对所述中间语音信号进行所述级联编码处理，得到所述目标语音信号。3.根据权利要求1所述的方法，其特征在于，响应于所述待处理语音信号为所述受损语音信号，所述方法还包括：在将所述待处理语音信号由时域变换至频域之前，对所述初始语音信号进行所述级联编码处理，得到所述受损语音信号。4.根据权利要求1所述的方法，其特征在于，所述获取所述各个频点的频带增益值，基于所述各个频点的第一功率谱和频带增益值，确定所述各个频点的第二功率谱，包括：将所述各个频点的第一功率谱输入目标神经网络，得到所述各个频点的频带增益值；其中，所述目标神经网络包括顺序连接的第一全连接层、门控循环单元层和第二全连接层；将所述各个频点的第一功率谱与频带增益值之积，作为所述各个频点的第二功率谱。5.根据权利要求4所述的方法，其特征在于，所述目标神经网络的训练过程包括：获取语音样本在频域上各个频点的第三功率谱，所述第三功率谱是通过将所述语音样本由时域变换至频域得到的；将所述语音样本对应的第三功率谱输入初始神经网络，得到所述第三功率谱对应的预测频带增益值；基于所述语音样本的预测频带增益值和目标频带增益值，构建损失函数；基于所述损失函数，不断调整所述初始神经网络的网络参数，直至满足预设条件，得到所述目标神经网络；其中，所述目标频带增益值是基于所述第三功率谱和所述语音样本对应的第四功率谱得到的，所述第四功率谱是通过对所述语音样本进行所述级联编码处理后，再将所述语音样本由时域变换至频域得到的。6.根据权利要求5所述的方法，其特征在于，所述目标频带增益值为所述第三功率谱与所述第四功率谱之比的平方根值。7.根据权利要求4至6中任一项权利要求所述的方法，其特征在于，所述将所述各个频点的第一功率谱输入目标神经网络，得到所述各个频点的频带增益值，包括：将所述各个频点的第一功率谱输入所述第一全连接层，经过所述第一全连接层对所述
各个频点的第一功率谱进行特征提取，得到特征向量；将所述特征向量输入所述门控循环单元层，经过所述门控循环单元层中的更新门和重置门，对所述特征向量之间的相关性和有效信息进行提取，得到输出向量；将所述输出向量输入所述第二全连接层，经过所述第二全连接层将所述输出向量整合为所述各个频点的频带增益值。8.根据权利要求1所述的方法，其特征在于，所述将待处理语音信号由时域变换至频域，获取频域上各个频点的第一功率谱和相位信息，包括：对所述待处理语音信号依次进行分帧处理和加窗处理；对经过分帧处理和加窗处理后的所述待处理语音信号进行快速傅里叶变换；基于得到的变换结果，确定频域上所述各个频点的第一功率谱和相位信息。9.根据权利要求3所述的方法，其特征在于，所述级联编码处理包括m次编解码处理，其中，m为大于1的正整数，所述对所述初始语音信号进行所述级联编码处理，得到所述受损语音信号，包括：对所述初始语音信号进行m次编解码处理，得到所述受损语音信号；其中，上一次编解码处理的输出作为下一次编解码处理的输入；对于任意一次编解码处理，所述编解码处理包括一次编码处理和一次解码处理，且所述编码处理的输出作为所述解码处理的输入。10.一种语音信号处理装置，其特征在于，所述装置包括：获取模块，用于将待处理语音信号由时域变换至频域，获取频域上各个频点的第一功率谱和相位信息；其中，所述待处理语音信号为初始语音信号或受损语音信号，所述初始语音信号是指未经过级联编码处理的语音信号，所述受损语音信号是指经过所述级联编码处理后得到的语音信号；确定模块，用于获取所述各个频点的频带增益值，基于所述各个频点的第一功率谱和频带增益值，确定所述各个频点的第二功率谱；生成模块，用于基于所述各个频点的相位信息和第二功率谱，生成符合语音播放条件的目标语音信号。11.根据权利要求10所述的装置，其特征在于，响应于所述待处理语音信号为所述初始语音信号，所述生成模块还用于：基于所述各个频点的相位信息和第二功率谱，生成中间语音信号；对所述中间语音信号进行所述级联编码处理，得到所述目标语音信号。12.根据权利要求10所述的装置，其特征在于，响应于所述待处理语音信号为所述受损语音信号，所述装置还包括：处理模块，用于在将所述待处理语音信号由时域变换至频域之前，对所述初始语音信号进行所述级联编码处理，得到所述受损语音信号。13.根据权利要求10所述的装置，其特征在于，所述确定模块用于：将所述各个频点的第一功率谱输入目标神经网络，得到所述各个频点的频带增益值；其中，所述目标神经网络包括顺序连接的第一全连接层、门控循环单元层和第二全连接层；将所述各个频点的第一功率谱与频带增益值之积，作为所述各个频点的第二功率谱。14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器
用于存储至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行如权利要求1至权利要求9中任一项所述的语音信号处理方法。15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求9中任一项所述的语音信号处理方法。

技术总结
本申请提供了一种语音信号处理方法、装置、设备及存储介质，属于人工智能技术领域。对于待处理语音信号，首先获取这类语音信号在频域上各个频点的第一功率谱和相位信息，然后通过获取各个频点对应的频带增益值，实现对第一功率谱进行增强，得到各个频点的第二功率谱，进而实现根据各个频点的第二功率谱和相位信息来生成符合语音播放条件的目标语音信号。由于该种处理方式有针对性地对各个频点的功率谱均进行了增强，使得语音信号的增强效果更加稳定，有效提升了语音质量，进而增强了语音可懂度；而且，无论待处理语音信号先前是否经过级联编码处理，均可以采用该种处理方式对这类语音信号进行增强，适用范围广。适用范围广。适用范围广。

技术研发人员：梁俊斌
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：2021.03.01
技术公布日：2021/11/25

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音信号处理方法、装置、设备及存储介质与流程

相关文献

最热文献