技术特征:
1.一种音频信息处理方法,其特征在于,包括:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
2.根据权利要求1所述的音频信息处理方法,其特征在于,所述根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,包括:
在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征;
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码。
3.根据权利要求2所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行编码,包括:
根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征;
根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,依次执行上述步骤,直至所述编码次数到达指定编码次数,完成对所述指定时刻的音频特征的编码;
将所述第一音频特征对应的最终编码音频特征作为所述第二音频特征。
4.根据权利要求3所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征和多个所述目标时刻的音频特征,对所述指定时刻的音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征,包括:根据所述指定时刻的线性音频特征、所述指定时刻的非线性音频特征、多个所述目标时刻的线性音频特征以及多个所述目标时刻的非线性音频特征进行第一次编码,获得所述第一音频特征对应的第一编码音频特征。
5.根据权利要求3所述的音频信息处理方法,其特征在于,所述根据所述指定时刻的音频特征对应的第一编码音频特征和多个所述目标时刻的音频特征对应的第一编码音频特征,对所述指定时刻的音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征,包括:根据所述指定时刻的音频特征对应的第一编码线性音频特征、所述指定时刻的音频特征对应的第一编码非线性音频特征、多个所述目标时刻的音频特征对应的第一编码线性音频特征以及多个所述目标时刻的音频特征对应的第一编码非线性音频特征进行第二次编码,获得所述第一音频特征对应的第二编码音频特征。
6.根据权利要求5所述的音频信息处理方法,其特征在于,还包括:
对所述第一音频特征对应的第一编码音频特征进行线性变换,获得所述第一音频特征对应的第一编码线性音频特征;
对所述第一音频特征对应的第一编码线性音频特征进行线性整流,获得所述第一音频特征对应的第一编码非线性音频特征。
7.根据权利要求2所述的音频信息处理方法,其特征在于,所述在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定与所述指定时刻的音频特征相邻的音频特征的范围;
根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
8.根据权利要求7所述的音频信息处理方法,其特征在于,所述确定与所述指定时刻的音频特征相邻的音频特征的范围,包括:确定在所述指定时刻的音频特征之前、与所述指定时刻的音频特征相邻的音频特征的第一范围,并确定在所述指定时刻的音频特征之后、与所述指定时刻的音频特征相邻的音频特征的第二范围;
所述根据与所述指定时刻的音频特征相邻的音频特征的范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
9.根据权利要求8所述的音频信息处理方法,其特征在于,所述根据所述第一范围和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:
确定步幅因子,所述步幅因子为用于指示在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征时的取值时间间隔;
根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
10.根据权利要求9所述的音频信息处理方法,其特征在于,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第一步幅因子和所述第一范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
11.根据权利要求9所述的音频信息处理方法,其特征在于,所述根据所述步幅因子、根据所述第一范围以及所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征,包括:根据第二步幅因子和所述第二范围,在与所述指定时刻的音频特征相邻的音频特征中选择多个目标时刻的音频特征。
12.根据权利要求1所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息,包括:根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息。
13.根据权利要求12所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第二音频信息对应的待解码音频信息进行解码,获得所述音频信息对应的文本信息,包括:
获得所述第二音频特征对应的第一待解码音频信息;
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息;
获得所述第二音频特征对应的第二待解码音频信息;
更新所述第一解码文本信息为所述已解码信息;
根据所述第二音频特征和所述已解码文本信息,对所述第二待解码音频信息进行解码,获得第二解码文本信息,依次执行上述步骤,直至对所述第二音频信息对应的全部待解码音频信息进行解码,获得所述音频信息对应的文本信息。
14.根据权利要求13所述的音频信息处理方法,其特征在于,所述已解码信息包括:用于指示对所述第二音频信息对应的待解码音频信息进行解码的指示信息。
15.根据权利要求13所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得第一解码文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息;
根据所述第一待解码音频信息对应的文本信息和所述已解码文本信息,获得第一解码文本信息。
16.根据权利要求15所述的音频信息处理方法,其特征在于,所述根据所述第二音频特征和所述已解码文本信息,对所述第一待解码音频信息进行解码,获得所述第一待解码音频信息对应的文本信息,包括:
根据所述第二音频特征和所述已解码文本信息,获得所述第一待解码音频信息对应的文本单位的预测值;
获得所述文本单位的概率分布;
获得概率值最大的文本单位,作为所述第一待解码音频信息对应的文本信息。
17.根据权利要求1所述的音频信息处理方法,其特征在于,所述获得音频信息对应的第一音频特征,包括:
获得所述音频信息;
对所述音频信息进行特征提取,获得所述第一音频特征。
18.根据权利要求17所述的音频信息处理方法,其特征在于,所述对所述音频信息进行特征提取,获得所述第一音频特征,包括:对所述音频信息进行特征提取,获得所述音频信息对应的第一音频特征序列。
19.根据权利要求1所述的音频信息处理方法,其特征在于,还包括:输出所述音频信息对应的文本信息。
20.一种音频信息处理装置,其特征在于,包括:
第一音频特征获得单元,用于获得音频信息对应的第一音频特征;
第二音频特征获得单元,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
已解码文本信息获得单元,用于获得所述音频信息对应的已解码文本信息;
文本信息获得单元,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
21.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储音频信息处理方法的程序,该设备通电并通过所述处理器运行所述音频信息处理方法的程序后,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
22.一种存储设备,其特征在于,存储有音频信息处理方法的程序,该程序被处理器运行,执行下述步骤:
获得音频信息对应的第一音频特征;
根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
获得所述音频信息对应的已解码文本信息;
根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
23.一种智能音箱,其特征在于,包括:音频采集设备和音频识别设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;所述音频采集设备,用于获得音频信息
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。
24.一种车载智能语音交互装置,其特征在于,包括:音频采集设备、音频识别设备和执行设备,其中,所述音频识别设备包括:音频特征提取模块、音频特征编码模块、已解码文本存储模块以及音频特征编码模块;
所述音频采集设备,用于获得音频信息;
所述音频特征提取模块,用于获得所述音频信息对应的第一音频特征;
所述音频特征编码模块,用于根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;
所述已解码文本存储模块,用于获得所述音频信息对应的已解码文本信息;
所述音频特征编码模块,用于根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;
所述执行设备,用于根据所述音频信息对应的文本信息执行相应指令。
25.一种音频信息处理系统,其特征在于,包括:客户端、服务端;
所述客户端,用于获得音频信息;将所述音频信息发送给所述服务端;
所述服务端,用于获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息;将所述音频信息对应的文本信息提供给所述客户端。
技术总结
本申请提供了一种音频信息处理方法、装置、电子设备以及存储介质。本申请提供的音频信息处理方法,包括:获得音频信息对应的第一音频特征;根据所述第一音频特征中指定时刻的音频特征和与所述指定时刻的音频特征相邻的音频特征,对所述指定时刻的音频特征进行编码,获得所述音频信息对应的第二音频特征;获得所述音频信息对应的已解码文本信息;根据所述第二音频特征和所述已解码文本信息,获得所述音频信息对应的文本信息。本申请提供的音频信息处理方法,在获得第二音频特征以及根据第二音频特征和已解码文本信息获得音频信息对应的文本信息的过程中,需要的参数较少,从而降低了音频信息处理过程中的计算复杂度,提高了音频信息处理的效率。
技术研发人员:张仕良;雷鸣
受保护的技术使用者:阿里巴巴集团控股有限公司
技术研发日:2020.01.10
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。