一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

声音识别方法、声音识别装置及电子设备与流程

2022-03-05 00:20:39 来源:中国专利 TAG:

技术特征:
1.一种声音识别方法,包括:获取年龄处于目标年龄段内的用户对象的音频信息,其中,所述用户对象通过声音特点来表达需求;对所述音频信息进行预处理,得到目标音频信息;对所述目标音频信息进行特征提取,得到对数梅尔频谱特征;按照预设信号处理规则对所述对数梅尔频谱特征进行处理,得到初始二维矩阵;利用预设差分处理规则处理所述初始二维矩阵,得到目标二维矩阵;根据所述目标二维矩阵和初始二维矩阵,生成三维张量;以及将所述三维张量输入分类器识别模块,输出预测结果,其中,所述预测结果用于表征所述用户对象的需求。2.根据权利要求1所述的方法,所述初始二维矩阵包括目标频率维度和目标时间维度;其中,利用预设差分处理规则处理所述初始二维矩阵,得到目标二维矩阵,包括:在所述目标频率维度和所述目标时间维度上对所述初始二维矩阵分别进行差分处理,得到所述目标二维矩阵。3.根据权利要求1所述的方法,其中,所述对所述音频信息进行预处理,得到目标音频信息,包括:对所述音频信息的采样率进行降采样处理,得到第一音频信息;对所述第一音频信息进行降噪处理,得到第二音频信息;对所述第二音频信息进行静音抑制处理,得到所述目标音频信息。4.根据权利要求3所述的方法,其中,所述对所述第二音频信息进行静音抑制处理,得到所述目标音频信息,包括:利用语音活动检测方法对所述第二音频信息中的静音片段进行处理,得到所述目标音频信息。5.根据权利要求1所述的方法,所述分类器识别模块包括声音识别模型,所述声音识别模型包括特征嵌入层、模型编码器和多层感知机机头;其中,所述将所述三维张量输入分类器识别模块,输出预测结果,包括:按照预设切割规则对所述三维张量进行切割,得到多个子张量将多个所述子张量输入所述特征嵌入层,输出第一矩阵;在所述第一矩阵上拼接预设向量,得到第二矩阵;根据所述第二矩阵和预设位置编码矩阵,得到第三矩阵;将所述第三矩阵输入所述模型编码器,输出第四矩阵;将所述第四矩阵输入所述多层感知机机头,输出所述预测结果。6.根据权利要求5所述的方法,其中,所述将所述第三矩阵输入所述模型编码器,输出第四矩阵,包括:将所述第三矩阵输入所述模型编码器,输出新的第三矩阵;在不满足预设条件的情况下,迭代地将所述新的第三矩阵作为第三矩阵,以将所述第三矩阵输入所述模型编码器;在满足预设条件的情况下,将所述新的第三矩阵确定为所述第四矩阵。7.根据权利要求5所述的方法,所述模型编码器包括第一层归一化层、多头注意力机制
层、第二层归一化层和多层感知机;其中,所述将所述第三矩阵输入所述模型编码器,输出第四矩阵,包括:将所述第三矩阵输入所述第一层归一化层,得到归一化处理后的第三矩阵;利用线性层处理所述归一化处理后的第三矩阵,得到目标特征矩阵;根据目标特征矩阵,得到三个三维张量;将所述三个三维张量输入所述多头注意力机制层,输出第五矩阵;根据所述第五矩阵和所述第三矩阵,生成第六矩阵;将所述第六矩阵输入所述第二层归一化层,输出第七矩阵;将所述第七矩阵输入所述多层感知机,输出第八矩阵;根据所述第八矩阵和所述第六矩阵,生成所述第四矩阵。8.根据权利要求1所述的方法,所述对数梅尔频谱特征包括时间维度和频率维度;其中,所述按照预设信号处理规则对所述对数梅尔频谱特征进行处理,得到初始二维矩阵,包括:按照预设频率条件对所述频率维度进行处理,得到目标频率维度;按照预设时长条件对所述时间维度进行处理,得到目标时间维度;根据所述目标频率维度和所述目标时间维度,构建所述初始二维矩阵。9.一种声音识别装置,包括:获取模块,用于获取年龄处于目标年龄段内的用户对象的音频信息,其中,所述用户对象通过声音特点来表达需求;预处理模块,用于对所述音频信息进行预处理,得到目标音频信息;特征提取模块,用于对所述目标音频信息进行特征提取,得到对数梅尔频谱特征;第一处理模块,用于按照预设信号处理规则对所述对数梅尔频谱特征进行处理,得到初始二维矩阵;第二处理模块,用于利用预设差分处理规则处理所述初始二维矩阵,得到目标二维矩阵;生成模块,用于根据所述目标二维矩阵和所述初始二维矩阵,生成三维张量;以及预测模块,用于将所述三维张量输入分类器识别模块,输出预测结果,其中,所述预测结果用于表征所述用户对象的需求。10.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~8中任一项所述的方法。

技术总结
本公开提供了一种声音识别方法、声音识别装置及电子设备。该方法包括获取年龄处于目标年龄段内的用户对象的音频信息,其中,用户对象通过声音特点来表达需求;对音频信息进行预处理,得到目标音频信息;对目标音频信息进行特征提取,得到对数梅尔频谱特征;按照预设信号处理规则对对数梅尔频谱特征进行处理,得到初始二维矩阵;利用预设差分处理规则处理初始二维矩阵,得到目标二维矩阵;根据目标二维矩阵和初始二维矩阵,生成三维张量;以及将三维张量输入分类器识别模块,输出预测结果,其中,预测结果用于表征用户对象的需求。预测结果用于表征用户对象的需求。预测结果用于表征用户对象的需求。


技术研发人员:张结 徐海涛 戴礼荣
受保护的技术使用者:中国科学技术大学
技术研发日:2021.12.03
技术公布日:2022/3/3
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献