一种基于混合特征及编码解码的音频分离方法与流程

2021-10-09 00:39:00 来源：中国专利 TAG：音频数据处理解码混合分离

技术特征：
1.一种基于混合特征及编码解码的音频分离方法，其特征在于，包括如下步骤：步骤一：数据收集；通过多终端设备收集音频数据，并将音频流数据按照数据序列的先后顺序缓存在本地服务器；步骤二：前期训练；随机抽取部分数据，将有声部分和无声部分端点进行标注，供参考训练；步骤三：音频特征提取；在音频信号的频域、时域和倒谱域进行特征提取，并通过注意力机制对多个特征进行加权；步骤四：音频空白去除；将步骤三中得到的最终音频特征表示，通过语音端点检测算法和集成分类器去除音频中低能量区域，并保留含有明显声音的高能量区域，将切分后的有效音频片段进行拼接；步骤五：音频分离；将环境音与人声视为两种音源，使用去除空白后的音频波形数据，利用编码解码网络结构分析混合音频的语音波形，通过预测对应于单个的时频掩码对音源进行分离。2.根据权利要求1所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述步骤一中，数据序列的先后顺序为数据流在传输前该设备所提供的编号顺序。3.根据权利要求1所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述步骤四中，在对切分后的有效音频片段进行拼接时，通过对音频波形两端添加过渡信号，对有效音频片段两端做平滑处理。4.根据权利要求1所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述环境音为影响对说话人语音识别的噪音和其他非主要说话人的声音。5.根据权利要求1所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述步骤二中，将已标注数据分成训练集、验证集和测试集，训练集用于对分类器进行训练，验证集用于对模型训练过程进行验证，测试集用于检测最终模型的效果。6.根据权利要求5所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述训练集占比为60%~90%。7.根据权利要求5所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述分类器为基于决策树的音频分类器、基于knn的音频分类器或基于神经网络的音频分类器。8.根据权利要求5所述的基于混合特征及编码解码的音频分离方法，其特征在于，训练后的所述分类器对所述语音端点检测算法得到的端点前后n个帧的类别进行判断，并纠正所述端点。9.根据权利要求1所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述步骤五中，编码解码模型结构设计包括：s1：将模型网络设置为l个级别，其中包括l个下采样块和l个上采样块；s2：将音频数据经过l个下采样块进行处理，在较粗的时间尺度上计算越来越多的高级特征；s3：经过s2处理后的数据经过一维卷积处理，再经过l个上采样块进行处理，计算出局部高分辨率特征；s4：将s2与s3中特征进行结合，得到用于预测的多尺度特征；s5：通过多尺度特征进行预测，将音频数据分离成k个源音频。
10.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，在将下采样块与上采样块输出特征进行结合时，将下采样块沿处理顺序正向排列，将上采样块沿处理顺序反向排列，将排列后每个下采样块输出特征与对应排列顺序的上采样块输出特征进行合并。11.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，l个级别中，每个连续级别的运行时间分辨率是前一个级别的一半。12.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，每个下采样块和上采样块包括一层卷积层与残差网络，残差网络位于卷积层后，以减轻过拟合。13.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，对应要预测的k个源音频，该模型在区间（
‑
1,1）内返回预测，每个源音频样本为一个。14.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，所述一维卷积包括填充为零的基本架构和一个激活函数，所述激活函数为leakyrelu激活函数或tanh激活函数。15.根据权利要求14所述的基于混合特征及编码解码的音频分离方法，其特征在于，经过上采样块处理后的音频数据经过一个一维卷积，所述一维卷积为tanh激活函数，其余一维卷积为leakyrelu激活函数。16.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，在进行下采样处理时，每隔一个时间步抽取丢弃特征，并将时间分辨率减半。17.根据权利要求9所述的基于混合特征及编码解码的音频分离方法，其特征在于，在进行上采样处理时，upsample使用线性插值在时间方向上以两倍的倍数执行上采样。

技术总结
本发明涉及音频数据处理技术领域，尤其涉及一种基于混合特征及编码解码的音频分离方法，包括如下步骤：数据收集；通过多终端设备收集音频数据；前期训练；随机抽取部分数据进行标注，将有声部分和无声部分端点进行标注；音频特征提取；在音频信号的频域、时域和倒谱域进行特征提取，并通过注意力机制对多个特征进行加权；音频空白去除；将得到的最终音频特征表示，通过语音端点检测算法和集成分类器去除音频中低能量区域，并保留含有明显声音的高能量区域，将切分后的片段进行拼接；音频分离；使用去除空白后的音频波形数据，利用编码解码网络结构分析混合音频的语音波形，通过预测对应于单个的时频掩码对音源进行分离，输出仅包括人声的音频。人声的音频。人声的音频。

技术研发人员：吴俊颜庆国董勤伟查显光崔林赵新冬戴威
受保护的技术使用者：国网江苏省电力有限公司
技术研发日：2021.07.02
技术公布日：2021/10/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种音乐声乐训练可调节辅助装置的制作方法

一种基于混合特征及编码解码的音频分离方法与流程

相关文章

最热文献