一种面向声学编码的逐步压缩方法与流程

2022-02-22 07:18:46 来源：中国专利 TAG：

技术特征：

1.一种面向声学编码的逐步压缩方法，其特征在于包括以下步骤：

1)针对声学任务，利用信号处理方法从原始音频文件中提取到基于帧的音频特征序列；

2)随机初始化声学模型的参数，使用声学模型对音频特征序列进行编码，编码过程中逐步压缩序列长度；

3)对编码过程中的音频特征进行融合；

4)将融合后的表示传递给语音识别模块或语音翻译模块，完成整个建模过程。

2.按权利要求1所述的面向声学编码的逐步压缩方法，其特征在于：在步骤2)中，随机初始化声学模型的参数，使用声学模型对音频特征序列进行编码，编码过程中逐步压缩序列长度，具体为：

201)将音频特征序列输入到声学模型中，通过一个间隔为2，核大小为5的卷积层对其进行序列长度压缩，使序列长度变为之前的一半；

202)通过层正则化方法来标准化压缩后的表示，然后向压缩后的序列加入位置编码，再通过多个编码层进行编码；

203)重复上述两个步骤多次，将序列长度不断进行压缩，在每个阶段中可以选择不同层数的编码层；编码器底部阶段的序列长度大于L，则选择两个编码层进行编码，降低计算代价；中间阶段的序列长度相对适中，采用六个编码层来编码；在顶部阶段通过两个编码层编码，进一步压缩序列特征，得到一个长度为1/8、1/16或1/32L的编码器表示；

204)通过控制卷积层的间隔控制压缩比例；在倾向于更快计算速度的情况下，进行更多的压缩从而得到更短的序列长度；在倾向于更好模型性能的情况下，更小的压缩比例用于保留更多原始信息，从而进行更充分的编码，得到性能更好的声学模型。

3.按权利要求1所述的面向声学编码的逐步压缩方法，其特征在于：在步骤3)中，对编码过程中的特征进行融合，具体为：

301)将编码过程分为多个阶段，使得每个阶段的特征序列长度均不同；

302)通过一个特征融合模块对不同阶段编码后的特征进行融合，将所有特征通过卷积层压缩到和最终序列相同的长度，然后乘以对应的权重，得到最终的编码表示；

303)不同阶段的权重初始化时为相同的值，通过在训练过程中不断优化，顶部阶段的特征获得50％以上的权重，而底层仍然保留8％～12％的权重。

4.按权利要求1所述的面向声学编码的逐步压缩方法，其特征在于，在步骤4)中，将融合后的表示传递给语音识别模块或语音翻译模块，完成整个建模过程，具体为：

将上述声学模型作为语音识别模型的编码器，将特征融合后的表示传递给一个解码器，得到一个语音识别系统。

5.按权利要求4所述的面向声学编码的逐步压缩方法，其特征在于，在步骤4)中，对于语音翻译模块，完成整个建模过程，具体为：

将声学模型得到的表示传递给文本编码器，然后再通过一个解码器，得到一个语音翻译系统。

技术总结
本发明公开一种面向声学编码的逐步压缩方法，步骤为：1)针对声学任务，利用信号处理方法从原始音频文件中提取到基于帧的音频特征序列；2)随机初始化声学模型的参数，使用声学模型对音频特征序列进行编码，编码过程中逐步压缩序列长度；3)对编码过程中的音频特征进行融合；4)将融合后的表示传递给语音识别模块或语音翻译模块，完成整个建模过程。本发明在编码过程中逐渐压缩特征序列的长度，降低了模型对计算资源的需求；同时避免了在压缩过程中导致的信息丢失问题，从而可以实现更加有效的编码；可应用于多种声学任务中，不仅可以加快模型的计算速度，且有效地提高了模型性能。

技术研发人员：杜权;张秋林;
受保护的技术使用者：沈阳雅译网络技术有限公司;
技术研发日：2021.11.30
技术公布日：2022.02.01

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于侧链路接口定位用户设备的方法与流程

一种面向声学编码的逐步压缩方法与流程

相关文献

最热文献