音频数据处理方法和装置与流程

2021-07-09 12:14:00 来源：中国专利 TAG：

技术特征：
1.一种音频数据处理方法，其特征在于，方法包括：获取时域音频数据；在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据的人声预测结果。2.根据权利要求1所述的方法，其特征在于，所述第一声学特征为巴克频率倒谱系数bfcc特征，所述在所述时域音频数据中提取第一声学特征，包括：对所述时域音频数据进行短时傅里叶变换，得到所述音频数据在复频域的幅度谱特征；根据所述幅度谱特征，确定所述音频数据的功率谱；将所述功率谱映射至巴克域，得到巴克域功率谱数据；对所述巴克域功率谱数据取对数，并对所述对数进行离散余弦变换，得到所述bfcc特征。3.根据权利要求1所述的方法，其特征在于，所述第二声学特征为基音pitch特征，所述在所述时域音频数据中提取第二声学特征，包括：基于基音提取算法，提取所述音频数据的pitch特征。4.根据权利要求1所述的方法，其特征在于，所述语音增强模型包括三层门控循环单元gru网络和三个全连接层，所述将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征，包括：将所述输入特征依次输入至第一全连接层和第一gru网络，对所述第一全连接层和第一gru网络分别输出的特征进行第一次特征叠加处理；将所述第一次叠加处理得到的特征输入第二gru网络，对所述第二gru网络输出的特征进行第二次特征叠加处理；将所述第二次特征叠加处理得到的特征依次输入第三gru网络和第二全连接层，得到输出特征；将所述输出特征映射为掩膜特征。5.根据权利要求4所述的方法，其特征在于，所述将所述输入特征依次输入至第一全连接层和第一gru网络，对所述第一全连接层和第一gru网络分别输出的特征进行第一次特征叠加处理，包括：将所述输入特征输入至第一全连接层，所述第一全连接层将所述输入特征映射为第一中间特征，所述第一中间特征的维度低于所述输入特征的维度；将所述第一中间特征输入至第一gru网络，得到所述第一gru网络输出的第二中间特征；将所述第一中间特征与所述第二中间特征进行叠加，得到第三中间特征。
6.根据权利要求5所述的方法，其特征在于，所述将所述第一次叠加处理得到的特征输入第二gru网络，对所述第二gru网络输出的特征进行第二次特征叠加处理，包括：将所述第三中间特征输入至第二gru网络，得到所述第二gru网络输出的第四中间特征；将所述第三中间特征与所述第四中间特征进行叠加，得到第五中间特征。7.根据权利要求6所述的方法，其特征在于，所述将所述第二次特征叠加处理得到的特征依次输入第三gru网络和第二全连接层，得到输出特征，包括：将所述第五中间特征输入至第三gru网络，得到所述第三gru网络输出的第六中间特征；将所述第六中间特征输入至第二全连接层，所述第二全连接层将所述第六中间特征映射为输出特征，所述输出特征的维度小于所述第六中间特征的维度。8.根据权利要求5
‑
7任一项所述的方法，其特征在于，还包括：将所述第二中间特征输入至第三全连接层，所述第三全连接层将所述第二中间特征映射为维度为二的语音概率输出vad特征，并将所述vad特征的数值映射到预设数值范围内，所述预设数值范围为[0，1]，所述语音概率输出特征用于判断所述音频数据中是否存在人声信息。9.根据权利要求1
‑
7任一项所述的方法，其特征在于，所述将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘之前，所述方法还包括：基于三角滤波算法，对所述掩膜特征进行三角滤波后处理，得到滤波后的掩膜特征。10.根据权利要求9所述的方法，其特征在于，还包括：基于包络后处理算法，对所述滤波后的掩膜特征进行包络处理。11.根据权利要求8所述的方法，其特征在于，所述语音增强模型还包括第一加法器和第二加法器，其中，所述第一全连接层与第一gru网络相连，所述第一gru网络通过所述第一加法器与第二gru网络相连，所述第一加法器的输入量包括所述第一全连接层的输出量和所述第一gru网络的输出量；所述第二gru网络通过第二加法器与第三gru网络相连，所述第二加法器的输入量包括所述第一加法器的输出量和所述gru网络的输出量；所述第三gru网络还与第二全连接层相连，所述第一gru网络还与第三全连接层相连。12.一种音频数据处理装置，其特征在于，包括：数据获取模块，用于获取时域音频数据；特征提取模块，用于在所述时域音频数据中分别提取第一声学特征和第二声学特征，所述第一声学特征和所述第二声学特征的维度小于预设维度；特征拼接模块，用于将所述第一声学特征和所述第二声学特征进行拼接，得到输入特征；特征处理模块，用于将所述输入特征输入至预先建立的语音增强模型中，以在所述语音增强模型的网络层之间进行特征叠加处理，得到所述音频数据对应的掩膜特征；人声预测模块，用于将所述掩膜特征扩展到频域后与所述时域音频数据的幅度谱特征相乘，得到所述音频数据中的人声预测结果。
13.一种电子设备，其特征在于，包括：至少一个处理器和存储器；所述存储器存储计算机执行指令；所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1
‑
11任一项所述的音频数据处理方法。14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1
‑
11任一项所述的音频数据处理方法。15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1
‑
11任一项所述的音频数据处理方法。

再多了解一些

2/3 首页上一页 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

音频数据处理方法和装置与流程

相关文章

最热文献