技术总结
本公开实施例提供一种音频数据处理方法和装置,该方法包括:获取时域音频数据;在时域音频数据中提取第一声学特征和第二声学特征,两个声学特征的维度小于预设维度;将第一声学特征和第二声学特征进行拼接得到输入特征;将输入特征输入至预先建立的语音增强模型中,在语音增强模型的网络层之间进行特征叠加处理,得到音频数据对应的掩膜特征;将掩膜特征扩展到频域后与时域音频数据的幅度谱特征相乘,得到所述音频数据中的人声预测结果。本公开实施例在实现抑制音频数据中的噪声的同时能够进一步降低特征维度,从而极大的降低了模型的参数量和计算复杂度,即使在实时通信场景下,也能够快速抑制语音数据中的噪声,得到更清晰、纯净的人声信号。纯净的人声信号。纯净的人声信号。
技术研发人员:陈诚
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2021.04.02
技术公布日:2021/7/8
本公开实施例提供一种音频数据处理方法和装置,该方法包括:获取时域音频数据;在时域音频数据中提取第一声学特征和第二声学特征,两个声学特征的维度小于预设维度;将第一声学特征和第二声学特征进行拼接得到输入特征;将输入特征输入至预先建立的语音增强模型中,在语音增强模型的网络层之间进行特征叠加处理,得到音频数据对应的掩膜特征;将掩膜特征扩展到频域后与时域音频数据的幅度谱特征相乘,得到所述音频数据中的人声预测结果。本公开实施例在实现抑制音频数据中的噪声的同时能够进一步降低特征维度,从而极大的降低了模型的参数量和计算复杂度,即使在实时通信场景下,也能够快速抑制语音数据中的噪声,得到更清晰、纯净的人声信号。纯净的人声信号。纯净的人声信号。
技术研发人员:陈诚
受保护的技术使用者:北京字节跳动网络技术有限公司
技术研发日:2021.04.02
技术公布日:2021/7/8
再多了解一些
本文用于企业家、创业者技术爱好者查询,结果仅供参考。