技术特征:
1.一种基于神经网络模型的语音处理方法,其特征在于,所述方法包括:
获取待处理的语音信号;
选取所述语音信号中的第一时间点片段;
以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
根据所述目标片段,得到关于所述语音信号的语音识别文字。
2.根据权利要求1所述的方法,其特征在于,所述第一窗口为伯努利分布控制的软窗口或者长度固定的硬窗口。
3.根据权利要求1所述的方法,其特征在于,所述以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,包括:
以所述第一时间点片段为基准,通过第一窗口向前和/或向后截取所述语音信号的部分片段;
根据所述第一时间点片段以及截取的部分片段,生成所述语音信号的目标片段。
4.根据权利要求3所述的方法,其特征在于,所述目标片段为第一时间点片段、第一片段以及第二片段的结合;
其中,所述第一片段为通过所述第一窗口向前截取的所述语音信号的部分片段,所述第二片段为通过所述第一窗口向后截取的所述语音信号的部分片段。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标片段,得到关于所述语音信号的语音识别文字,包括:
对所述目标片段进行计算,得到第一矩阵;
对所述第一矩阵进行归一化处理,得到第二矩阵;
根据所述第二矩阵,得到关于所述语音信号的语音识别文字。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第二矩阵,得到关于所述语音信号的语音识别文字,包括:
根据所述第二矩阵,得到关于所述语音信号的隐含特征;
将所述隐含特征进行解码处理,得到关于所述语音信号的语音识别文字。
7.根据权利要求5所述的方法,其特征在于,所述对所述目标片段进行计算,得到第一矩阵,包括:
获取第一矩阵参数、第二矩阵参数以及第三矩阵参数;
将所述第一矩阵参数与所述第一时间点片段相乘,得到第一子矩阵;
将所述第二矩阵参数与所述目标片段相乘,得到第二子矩阵;
将所述第三矩阵参数与所述目标片段相乘,得到第三子矩阵;
其中,所述第一矩阵包括:所述第一子矩阵、所述第二子矩阵以及所述第三子矩阵。
8.一种基于神经网络模型的语音处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的语音信号;
第一选取模块,用于选取所述语音信号中的第一时间点片段;
第一处理模块,用于以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
第二获取模块,用于根据所述目标片段,得到关于所述语音信号的语音识别文字。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线;其中,处理器、通信接口以及存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如权利要求1至7任一项所述的基于神经网络模型的语音处理方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一项所述的基于神经网络模型的语音处理方法。
技术总结
本发明实施例提供了一种基于神经网络模型的语音处理方法、装置及电子设备,涉及语音识别技术领域。该方法包括:获取待处理的语音信号;选取所述语音信号中的第一时间点片段;以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;根据所述目标片段,得到关于所述语音信号的语音识别文字。上述方案,可以降低encoder核心部件MHA的感知域,即每个隐层的单元仅需要感知其上层对应的部分语音片段即可,从而可以减少计算量。
技术研发人员:唐浩雨
受保护的技术使用者:百果园技术(新加坡)有限公司
技术研发日:2021.03.22
技术公布日:2021.06.11
本文用于企业家、创业者技术爱好者查询,结果仅供参考。