技术特征:
1.一种声音信号识别方法,其特征在于,包括:
获取至少两个采集点分别对至少两个声源采集的原始观测数据;
对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;
根据所述后验域估计数据,得到各个声源的信号分量;
分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;
根据所述波束成形估计信号,得到各个所述声源的时域声源信号。
2.根据权利要求1所述的声音信号识别方法,其特征在于,对所述原始观测数据进行第一级降噪处理,得到后验域估计数据的步骤包括:
初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;
求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;
根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;
根据所述先验频域估计更新所述加权协方差矩阵;
根据更新后的所述加权协方差矩阵,更新所述分离矩阵;
校正更新后的所述分离矩阵;
根据校正后的所述分离矩阵,对所述原始观测数据进行分离,将分离得到的各个声源的后验域估计数据。
3.根据权利要求2所述的声音信号识别方法,其特征在于,根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计的步骤包括:
根据上一帧的分离矩阵对所述观测信号矩阵进行分离,得到当前帧各个声源的先验频域估计。
4.根据权利要求2所述的声音信号识别方法,其特征在于,根据所述先验频域估计更新所述加权协方差矩阵的步骤包括:
根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵,更新所述加权协方差矩阵。
5.根据权利要求2所述的声音信号识别方法,其特征在于,根据更新后的所述加权协方差矩阵,更新所述分离矩阵的步骤包括:
根据各个声源的加权协方差矩阵,计算各个声源的特征向量;
根据所述特征向量,分别更新各个声源的分离矩阵。
6.根据权利要求2所述的声音信号识别方法,其特征在于,校正更新后的所述分离矩阵的步骤包括:
根据所述分离矩阵的逆矩阵的对角阵,对所述分离矩阵进行频谱幅度解模糊处理,以校正所述分离矩阵的频谱畸变。
7.根据权利要求1所述的声音信号识别方法,其特征在于,根据所述后验域估计数据,得到各个声源的信号分量的步骤包括:
根据所述后验域估计数据,得到各个声源在波束成形滤波器的各通道中的信号分量,所述信号分量包括期望信号和残留噪声信号。
8.据权利要求7所述的声音信号识别方法,其特征在于,分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号的步骤包括:
根据各个所述声源的信号分量,确定各个所述声源的输入信号;
分别对各个所述声源的所述输入信号逐帧进行如步骤一至二的处理:
步骤一、检测当前帧为噪声帧或非噪声帧,
步骤二、在当前帧是噪声帧的情况下,根据上一帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,估计当前帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,
在所述当前帧是非噪声帧的情况下,根据上一帧的所述期望信号的自相关矩阵,估计当前帧的所述期望信号的自相关矩阵;
根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,得到各个所述声源的权重向量;
根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量,得到各个所述声源的波束成形估计信号。
9.根据权利要求8所述的声音信号识别方法,其特征在于,所述根据所述波束成形估计信号,得到各个所述声源的时域声源信号的步骤包括:
对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加,得到各个声源的时域声源信号。
10.一种声音信号识别装置,其特征在于,包括:
原始数据获取模块,用于获取至少两个采集点分别对至少两个声源采集的原始观测数据;
第一降噪模块,用于对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;
信号映射模块,用于根据所述后验域估计数据,得到各个声源的信号分量;
第二降噪模块,用于分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;
增强信号输出模块,用于根据所述波束成形估计信号,得到各个所述声源的时域声源信号。
11.根据权利要求10所述的声音信号识别装置,其特征在于,所述第一降噪模块包括:
矩阵初始化子模块,用于初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;
观测信号矩阵构建子模块,用于求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;
先验频域求取子模块,用于根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;
协方差矩阵更新子模块,用于根据所述先验频域估计更新所述加权协方差矩阵;
分离矩阵更新子模块,用于根据更新后的所述加权协方差矩阵,更新所述分离矩阵;
校正子模块,用于校正更新后的所述分离矩阵;
后验域求取子模块,用于根据校正后的所述分离矩阵,对所述原始观测数据进行分离,将分离得到的各个声源的后验域估计数据。
12.根据权利要求11所述的声音信号识别装置,其特征在于,
所述先验频域求取子模块,用于根据上一帧的分离矩阵对所述观测信号矩阵进行分离,得到当前帧各个声源的先验频域估计。
13.根据权利要求11所述的声音信号识别装置,其特征在于,
所述协方差矩阵更新子模块,用于根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵,更新所述加权协方差矩阵。
14.根据权利要求11所述的声音信号识别装置,其特征在于,所述分离矩阵更新子模块包括:
特征值计算子模块,用于根据各个声源的加权协方差矩阵,计算各个声源的特征向量;
更新子模块,用于根据所述特征向量,分别更新各个声源的分离矩阵。
15.根据权利要求11所述的声音信号识别装置,其特征在于,
所述校正子模块,用于根据所述分离矩阵的逆矩阵的对角阵,对所述分离矩阵进行频谱幅度解模糊处理,以校正所述分离矩阵的频谱畸变。
16.根据权利要求10所述的声音信号识别装置,其特征在于,
所述信号映射模块,用于根据所述后验域估计数据,得到各个声源在波束成形滤波器的各通道中的信号分量,所述信号分量包括期望信号和残留噪声信号。
17.据权利要求16所述的声音信号识别装置,其特征在于,所述第二降噪模块包括:
输入信号构建子模块,用于根据各个所述声源的信号分量,确定各个所述声源的输入信号;
自相关矩阵估算子模块,用于分别对各个所述声源的所述输入信号逐帧进行如步骤一至二的处理:
步骤一、检测当前帧为噪声帧或非噪声帧,
步骤二、在当前帧是噪声帧的情况下,根据上一帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,估计当前帧的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,
在所述当前帧是非噪声帧的情况下,根据上一帧的所述期望信号的自相关矩阵,估计当前帧的所述期望信号的自相关矩阵;
权重向量计算子模块,用于根据各个所述声源的最终的所述期望信号的自相关矩阵和所述残留噪声信号的自相关矩阵,得到各个所述声源的权重向量;
波束成形估计信号获取子模块,用于根据各个所述声源的所述输入信号的共轭转置矩阵和所述权重向量,得到各个所述声源的波束成形估计信号。
18.根据权利要求17所述的声音信号识别装置,其特征在于,
所述增强信号输出模块,用于对所述各个声源的波束成形估计信号进行短时傅立叶逆变换后重叠相加,得到各个声源的时域声源信号。
19.一种计算机装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取至少两个采集点分别对至少两个声源采集的原始观测数据;
对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;
根据所述后验域估计数据,得到各个声源的信号分量;
分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;
根据所述波束成形估计信号,得到各个所述声源的时域声源信号。
20.一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种声音信号识别方法,所述方法包括:
获取至少两个采集点分别对至少两个声源采集的原始观测数据;
对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;
根据所述后验域估计数据,分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;
根据所述波束成形估计信号,得到各个所述声源的时域声源信号。
技术总结
本公开是关于一种声音信号识别方法及装置。涉及智能语音交互技术,解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题。该方法包括:获取至少两个采集点分别对至少两个声源采集的原始观测数据;对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;根据所述后验域估计数据,得到各个声源的信号分量;分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;根据所述波束成形估计信号,得到各个所述声源的时域声源信号。本公开提供的技术方案适用于智能语音系统,实现了高效、抗干扰能力强语音信号识别。
技术研发人员:何琪琪;侯海宁
受保护的技术使用者:北京小米移动软件有限公司;北京小米松果电子有限公司
技术研发日:2021.05.25
技术公布日:2021.08.27
本文用于企业家、创业者技术爱好者查询,结果仅供参考。