一种基于混合特征及编码解码的音频分离方法与流程

2021-10-09 00:39:00 来源：中国专利 TAG：音频数据处理解码混合分离

1.本发明涉及音频数据处理技术领域，尤其涉及一种基于混合特征及编码解码的音频分离方法。

背景技术：

2.多终端设备的普及和高速网络传输技术的进步，获取海量的数据已不是现有企业难以解决的问题。获取的大量数据中往往含有很多低质量的数据，这些数据严重影响企业下游业务的运行。语音数据是互联网数据中的一大类。在网络教学、音视频会议等场景下，语音数据是课堂行为监控、记录留存、人机交互等行为的重要组成部分。而后端业务服务器处理的语音数据流存在大量的语音空白和无法识别的环境噪音，这增大了业务服务器处理的负担。
3.一种缓解这个问题的方式是扩展分布式服务器的数量，使用算力应对无效数据的处理，但单一扩展算力并不能根本上解决问题。数据中台的概念提出后，越来越多的企业愿意使用一种集中的方式，使用算法对数据进行预处理，再通过数据提取，将有效数据分发到各业务服务器用于下游任务的使用。
4.传统的语音空白去除算法有语音端点检测算法(voice activity detection, vad)。这个算法的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，并把静音和实际语音分离开来，是语音信号处理过程的关键技术。传统的语音分离技术有基于非负矩阵分解(non
‑
negative matrix factorization，nmf)的方法以及基于f0估计的方法是用于语音分离任务的传统监督方法，分离效果较差。
5.鉴于上述问题的存在，本设计人基于从事此类产品工程应用多年丰富的实务经验及专业知识，并配合学理的运用，积极加以研究创新，以期创设一种基于混合特征及编码解码的音频分离方法，使其更具有实用性。
6.公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。

技术实现要素：

7.本发明提供了一种基于混合特征及编码解码的音频分离方法，从而有效解决背景技术中的问题。
8.为了达到上述目的，本发明所采用的技术方案是：一种基于混合特征及编码解码的音频分离方法，包括如下步骤：步骤一：数据收集；通过多终端设备收集音频数据，并将音频流数据按照数据序列的先后顺序缓存在本地服务器；步骤二：前期训练；随机抽取部分数据进行标注，将有声部分和无声部分端点进行标注，供参考训练；步骤三：音频特征提取；在音频信号的频域、时域和倒谱域进行特征提取，并通过
注意力机制对多个特征进行加权；步骤四：音频空白去除；将步骤三中得到的最终音频特征表示，通过语音端点检测算法和集成分类器去除音频中低能量区域，并保留含有明显声音的高能量区域，将切分后的有效音频片段进行拼接；步骤五：音频分离；将环境音与人声视为两种音源，使用去除空白后的音频波形数据，利用编码解码网络结构分析混合音频的语音波形，通过预测对应于单个的时频掩码对音源进行分离。
9.进一步地，所述步骤一中，数据序列的先后顺序为数据流在传输前该设备所提供的编号顺序。
10.进一步地，所述步骤四中，在对切分后的有效音频片段进行拼接时，通过对音频波形两端添加过渡信号，对有效音频片段两端做平滑处理。
11.进一步地，所述环境音为影响对说话人语音识别的噪音和其他非主要说话人的声音。
12.进一步地，所述步骤二中，将已标注数据分成训练集、验证集和测试集，训练集用于对分类器进行训练，验证集用于对模型训练过程进行验证，测试集用于检测最终模型的效果。
13.进一步地，所述训练集占比为60%~90%。
14.进一步地，所述分类器为基于决策树的音频分类器、基于knn的音频分类器或基于神经网络的音频分类器。
15.进一步地，训练后的所述分类器对所述语音端点检测算法得到的端点前后n个帧的类别进行判断，并纠正所述端点。
16.进一步地，所述步骤五中，编码解码模型结构设计包括：s1：将网络设置为l个级别，其中包括l个下采样块和l个上采样块；s2：将音频数据经过l个下采样块进行处理，在较粗的时间尺度上计算越来越多的高级特征；s3：经过s2处理后的数据经过一维卷积处理，再经过l个上采样块进行处理，计算出局部高分辨率特征；s4：将s2与s3中特征进行结合，得到用于预测的多尺度特征；s5：通过多尺度特征进行预测，将音频数据分离成k个源音频。
17.进一步地，在将下采样块与上采样块输出特征进行结合时，将下采样块沿处理顺序正向排列，将上采样块沿处理顺序反向排列，将排列后每个下采样块输出特征与对应排列顺序的上采样块输出特征进行合并。
18.进一步地，l个级别中，每个连续级别的运行时间分辨率是前一个级别的一半。
19.进一步地，每个下采样块和上采样块包括一层卷积层与残差网络，残差网络位于卷积层后，以减轻过拟合。
20.进一步地，对应要预测的k个源音频，该模型在区间（
‑
1,1）内返回预测，每个源音频样本为一个。
21.进一步地，所述一维卷积包括填充为零的基本架构和一个激活函数，所述激活函数为leakyrelu激活函数或tanh激活函数。
22.进一步地，经过上采样块处理后的音频数据经过一个一维卷积，所述一维卷积为tanh激活函数，其余一维卷积为leakyrelu激活函数。
23.进一步地，在进行下采样处理时，每隔一个时间步抽取丢弃特征，并将时间分辨率减半。
24.进一步地，在进行上采样处理时，upsample使用线性插值在时间方向上以两倍的倍数执行上采样。
25.本发明的有益效果为：本发明通过数据收集、前期训练、音频特征提取、音频空白去除和音频分离的步骤，针对多终端获取的音频数据中存在大量的空白和环境噪音，在频域、时域和倒谱域上提取特征，并通过注意力机制对特征进行加权处理，获得的最终的音频特征数据比使用单一的特征更能描述声音的特点；将语音端点算法和集成分类器相结合，使检测的语音端点相比传统上仅使用端点检测算法更加准确，避免有效声音被去除所导致的下游语音识别错误，使用基于编码解码框架的深度学习模型，提高了音频分离质量，最终将环境音去除，输出仅包括人声的音频。
附图说明
26.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
27.图1为本发明的流程图；图2为音频空白去除的流程图图3为音频分离的流程图。
具体实施方式
28.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。
29.在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或者位置关系为基于附图所示的方位或者位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
30.在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如可以是固定连接，也可以是可拆卸连接，或一体式连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过中间媒介间接连接，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
31.如图1至2所示：一种基于混合特征及编码解码的音频分离方法，包括如下步骤：步骤一：数据收集；通过多终端设备收集音频数据，并将音频流数据按照数据序列的先后顺序缓存在本地服务器；步骤二：前期训练；随机抽取部分数据进行标注，将有声部分和无声部分端点进行
标注，供参考训练；步骤三：音频特征提取；在音频信号的频域、时域和倒谱域进行特征提取，并通过注意力机制对多个特征进行加权；步骤四：音频空白去除；将步骤三中得到的最终音频特征表示，通过语音端点检测算法和集成分类器去除音频中低能量区域，并保留含有明显声音的高能量区域，将切分后的有效音频片段进行拼接；步骤五：音频分离；将环境音与人声视为两种音源，使用去除空白后的音频波形数据，利用编码解码网络结构分析混合音频的语音波形，通过预测对应于单个的时频掩码对音源进行分离。
32.通过数据收集、前期训练、音频特征提取、音频空白去除和音频分离的步骤，针对多终端获取的音频数据中存在大量的空白和环境噪音，在频域、时域和倒谱域上提取特征，并通过注意力机制对特征进行加权处理，获得的最终的音频特征数据比使用单一的特征更能描述声音的特点；将语音端点算法和集成分类器相结合，使检测的语音端点相比传统上仅使用端点检测算法更加准确，避免有效声音被去除所导致的下游语音识别错误，使用基于编码解码框架的深度学习模型，提高了音频分离质量，最终将环境音去除，输出仅包括人声的音频。
33.其中频域特征包括频域能量、子带能量比、基于帧的频谱质心和基于帧的频谱带宽等，时域特征包括短时能量、短时过零率、短时平均幅度差和短时平均幅度等，倒谱域特征有梅尔倒谱系数、线性预测倒谱系数，同时还可联合其他特征包括响度、响度范围、反射系数、静音帧比例、小波系数和谱熵值等；使用以上方法计算多种声音特征，并通过注意力机制，得到加权平均的音频特征，此加权系数可通过反向传播的方式进行训练。
34.在本实施例中，步骤一中，数据序列的先后顺序为数据流在传输前该设备所提供的编号顺序。
35.通过将数据序列的先后顺序为数据流在传输前该设备所提供的编号顺序，有助于对多设备的空间位置等进行还原，提高后续音频数据的处理、表达效果。
36.作为上述实施例的优选，步骤四中，在对切分后的有效音频片段进行拼接时，通过对音频波形两端添加过渡信号，对有效音频片段两端做平滑处理。
37.在对有效音频片段进行切分再拼接后，会使两片段之间的过渡不自然，影响后续的听取效果，通过在音频波形两端添加过渡信号，对有效音频片段两端做平滑处理，使得音频之间过渡更自然，输出的音频效果更好。
38.在本实施例中，环境音为影响对说话人语音识别的噪音和其他非主要说话人的声音。
39.在会议记录等情景下，需要对当前主要说话人的声音进行记录，其他非主要说话人的声音和对说话人语音识别的噪音都是具有影响的声音，将这两者都判定为环境音，从而保证对主要说话人声音的识别，增加音频处理的效果。
40.作为上述实施例的优选，步骤二中，将已标注数据分成训练集、验证集和测试集，训练集用于对分类器进行训练，验证集用于对模型训练过程进行验证，测试集用于检测最终模型的效果。
41.在随机抽取部分数据，将有声部分和无声部分端点进行标注，并且供参考训练，将
已标注数据分成训练集、验证集和测试集，训练集用于对分类器进行训练，验证集用于对模型训练过程进行验证，测试集用于检测最终模型的效果，从而增加分类器的识别效果。
42.在本实施例中，训练集占比为60%~90%，将已标记数据的大部分作为训练集，将其余的小部分作为验证集和测试集，验证集和测试集占比可相等，分类器在经过占比大部分已标记数据的训练集的训练，再经小部分的验证集的验证和测试，分类效果更准确。
43.其中，分类器可以为基于决策树的音频分类器、可以为基于k邻近算法（k
‑
nearest neighbor、knn）的音频分类器还可以为基于神经网络的音频分类器。
44.作为上述实施例的优选，训练后的分类器对语音端点检测算法得到的端点前后n个帧的类别进行判断，并纠正端点。
45.在后续语音端点检测算法对音频空白部分和有效部分进行划分时，为了判断其划分的端点是否准确，将训练后的分类器对语音端点检测算法得到的端点前后n个帧的类别进行判断，识别其为有效数据和无效数据，并纠正其端点，从而减少语音帧的错误筛除，增加识别效果。
46.如图3所示，在本实施例中，编码解码模型结构设计包括：s1：将模型网络设置为l个级别，其中包括l个下采样块和l个上采样块；s2：将音频数据经过l个下采样块进行处理，在较粗的时间尺度上计算越来越多的高级特征；s3：经过s2处理后的数据经过一维卷积处理，再经过l个上采样块进行处理，计算出局部高分辨率特征；s4：将s2与s3中特征进行结合，得到用于预测的多尺度特征；s5：通过多尺度特征进行预测，将音频数据分离成k个源音频。
47.通过将网络设置为l个级别，将音频数据经过下采样块处理，得到高级特征，再经过上采样块进行处理，得到局部高分辨率特征，将其结合得到用于预测的多尺度特征，在基于多尺度特征进行预测，将音频数据分离成k个源音频，从而将音频分离。其中，仅需将人声和环境音进行分离，这里k=2，由于在对音频分离过程中，将下采样块和上采样块的输出进行结合，增加了分离的准确性。
48.在本实施例中，在将下采样块与上采样块输出特征进行结合时，将下采样块沿处理顺序正向排列，将上采样块沿处理顺序反向排列，将排列后每个下采样块输出特征与对应排列顺序的上采样块输出特征进行合并。
49.在对下采样块和上采样块的输出特征进行结合时，将下采样块沿处理顺序正向排列，将上采样块沿处理顺序反向排列，将排列后每个下采样块输出特征与对应排列顺序的上采样块输出特征进行合并，从而将当前的高级特征和对应的局部高分辨率特征结合起来，增加识别的准确性。
50.在l个级别中，每个连续级别的运行时间分辨率是前一个级别的一半，因为在经过一个级别处理后，会输出一个特征，后续的处理会减少，从而将每个连续级别的运行时间分辨率设置为前一个级别的一半。
51.作为上述实施例的优选，每个下采样块和上采样块包括一层卷积层与残差网络，残差网络位于卷积层后，以减轻过拟合。
52.在一层卷积层后设置一个残差网络，以减轻过拟合，从而提高了音频分离质量。
53.在本实施例中，对应要预测的k个源音频，该模型在区间（
‑
1,1）内返回预测，每个源音频样本为一个，从而增加预测分离效果。
54.在本实施例中，conv1(x,y)表示为大小为y的x个过滤器的一维卷积，一维卷积包括填充为零的基本架构和一个激活函数，在一维卷积基本框架的扩展中，conv1d不涉及零填充，x首先被中心裁剪，因此它具有与当前层相同的时间步长。
55.激活函数为leakyrelu激活函数或tanh激活函数。leakyrelu激活函数理论上来讲，具有relu的所有有点，外加不会有deadrelu的问题，其区间是1到正无穷的固定参数，tanh激活函数取值范围是
‑
1到1，有点是负的输入会映射成负值，0输入会被映射成0附近的值。
56.作为上述实施例的优选，经过上采样块处理后的音频数据经过一个一维卷积，一维卷积为tanh激活函数，其余一维卷积为leakyrelu激活函数。
57.因为模型在区间（
‑
1,1）内返回预测，所以将经过上采样块处理后的音频数据经过一个一维卷积，且这个一维卷积的激活函数为tanh激活函数，将其余的一维卷积的激活函数设置为leakyrelu激活函数。
58.在实施例中，在进行下采样处理时，每隔一个时间步抽取丢弃特征，并将时间分辨率减半。在进行上采样处理时，upsample使用线性插值在时间方向上以两倍的倍数执行上采样，线性插值相比其他插值方式，具有简单、方便的特点。
59.本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种音乐声乐训练可调节辅助装置的制作方法

一种基于混合特征及编码解码的音频分离方法与流程

相关文章

最热文献