一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向声学编码的逐步压缩方法与流程

2022-02-22 07:18:46 来源:中国专利 TAG:

技术特征:

1.一种面向声学编码的逐步压缩方法,其特征在于包括以下步骤:

1)针对声学任务,利用信号处理方法从原始音频文件中提取到基于帧的音频特征序列;

2)随机初始化声学模型的参数,使用声学模型对音频特征序列进行编码,编码过程中逐步压缩序列长度;

3)对编码过程中的音频特征进行融合;

4)将融合后的表示传递给语音识别模块或语音翻译模块,完成整个建模过程。

2.按权利要求1所述的面向声学编码的逐步压缩方法,其特征在于:在步骤2)中,随机初始化声学模型的参数,使用声学模型对音频特征序列进行编码,编码过程中逐步压缩序列长度,具体为:

201)将音频特征序列输入到声学模型中,通过一个间隔为2,核大小为5的卷积层对其进行序列长度压缩,使序列长度变为之前的一半;

202)通过层正则化方法来标准化压缩后的表示,然后向压缩后的序列加入位置编码,再通过多个编码层进行编码;

203)重复上述两个步骤多次,将序列长度不断进行压缩,在每个阶段中可以选择不同层数的编码层;编码器底部阶段的序列长度大于L,则选择两个编码层进行编码,降低计算代价;中间阶段的序列长度相对适中,采用六个编码层来编码;在顶部阶段通过两个编码层编码,进一步压缩序列特征,得到一个长度为1/8、1/16或1/32L的编码器表示;

204)通过控制卷积层的间隔控制压缩比例;在倾向于更快计算速度的情况下,进行更多的压缩从而得到更短的序列长度;在倾向于更好模型性能的情况下,更小的压缩比例用于保留更多原始信息,从而进行更充分的编码,得到性能更好的声学模型。

3.按权利要求1所述的面向声学编码的逐步压缩方法,其特征在于:在步骤3)中,对编码过程中的特征进行融合,具体为:

301)将编码过程分为多个阶段,使得每个阶段的特征序列长度均不同;

302)通过一个特征融合模块对不同阶段编码后的特征进行融合,将所有特征通过卷积层压缩到和最终序列相同的长度,然后乘以对应的权重,得到最终的编码表示;

303)不同阶段的权重初始化时为相同的值,通过在训练过程中不断优化,顶部阶段的特征获得50%以上的权重,而底层仍然保留8%~12%的权重。

4.按权利要求1所述的面向声学编码的逐步压缩方法,其特征在于,在步骤4)中,将融合后的表示传递给语音识别模块或语音翻译模块,完成整个建模过程,具体为:

将上述声学模型作为语音识别模型的编码器,将特征融合后的表示传递给一个解码器,得到一个语音识别系统。

5.按权利要求4所述的面向声学编码的逐步压缩方法,其特征在于,在步骤4)中,对于语音翻译模块,完成整个建模过程,具体为:

将声学模型得到的表示传递给文本编码器,然后再通过一个解码器,得到一个语音翻译系统。


技术总结
本发明公开一种面向声学编码的逐步压缩方法,步骤为:1)针对声学任务,利用信号处理方法从原始音频文件中提取到基于帧的音频特征序列;2)随机初始化声学模型的参数,使用声学模型对音频特征序列进行编码,编码过程中逐步压缩序列长度;3)对编码过程中的音频特征进行融合;4)将融合后的表示传递给语音识别模块或语音翻译模块,完成整个建模过程。本发明在编码过程中逐渐压缩特征序列的长度,降低了模型对计算资源的需求;同时避免了在压缩过程中导致的信息丢失问题,从而可以实现更加有效的编码;可应用于多种声学任务中,不仅可以加快模型的计算速度,且有效地提高了模型性能。

技术研发人员:杜权;张秋林;
受保护的技术使用者:沈阳雅译网络技术有限公司;
技术研发日:2021.11.30
技术公布日:2022.02.01
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献