技术特征:
1.一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括以下步骤:
语音采集设备在乒乓球馆实时采集以打乒乓球为背景的噪声信号,采集到的噪声信号包含不同人说话的声音、环境噪声和乒乓球碰撞的声音;
为分析采集到的噪声信号,对噪声信号进行建模仿真处理,分析噪声信号的统计特性,建立乒乓球训练背景下的噪声信号模型,去除噪声信号中的环境噪声,只保留不同人说话的声音;
采用声纹提取模块对训练人员的声音进行采集,记录下每个训练人员的声音特征;
设定乒乓球发球机指令,乒乓球发球机指令包括乒乓球发球机的发球指令、乒乓球发球机的关机指令、乒乓球发球机的唤醒指令和乒乓球发球机的开机指令;
实时重复采集噪声信号,基于噪声信号模型来去除噪声信号中的乒乓球碰撞的声音,只保留不同人说话的声音;
不同人说话的声音与记录的训练人员的声音特征对比并判断是否有相互匹配的,有匹配的则识别不同人说话的声音中是否有乒乓球发球机指令,如果有乒乓球发球机指令则乒乓球发球机执行相应动作。
2.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,由于输入的噪声信号是不平稳的,采用噪声估计法处理非平稳的噪声信号,公式如下:
其中,λ表示帧数,k表示频点索引,y表示频域的带噪语音谱,σ表示噪声谱,α表示平滑因子,平滑因是固定值;
为了区别不同人的声音,利用不同人的语音特征mfcc的不同来判断,记录不同人的声纹特征,提取过程如下:
预加重处理:将语音信号通过一个高通滤波器进行滤波处理:
h(z)=1-μz-1;
其中,μ为常量,z是高通滤波器的自变量;
分帧先将n个噪声信号集合成一个观测单位,称为帧;
加窗:将每帧乘以一个汉明窗,以增加帧左端和帧右端的连续性;
其中,0≤n≤n-1,0<a<1,a取值的不同会产生不同的汉明窗;
快速傅里叶变换:
由于在时域上的变换通常很难看出不同人说话的声音的特性,所以通常将它转换为频域上的能量分布来观察,不同的能量分布代表不同语音的特性;所以在每帧乘上汉明窗后,每帧再经过快速傅里叶变换以得到在频谱上的能量分布:
其中,0≤k≤n,其中x(n)表示输入的语音信号,j表示虚数,n表示傅里叶变换的点数;
三角带通滤波器将频谱上的能量分布通过一组mel尺度的滤波器组,定义一个有m个三角带通滤波器的滤波器组;
三角带通滤波器的滤波器组中,各f(m)之间的间隔随着m值的减小而缩小,随着m值得增大而增宽,三角带通滤波器的频率响应的公式如下:
其中,f(m)表示各个三角带通滤波器,0≤k≤n;
三角带通滤波器对频谱进行平滑化,并消除谐波的作用,突显不同人说话的声音的共振峰,降低运算量;
计算每个滤波器组输出的对数能量:
其中0≤m≤m,m为三角滤波器的个数;xa(k)表示每帧信号的在频谱上的能量分布;
hm(k)表示三角带通滤波器的频率响应;
对数能量进行离散余弦变换:
基于上述公式,获得噪声信号中不同人说话的声音的特征向量,根据不同人说话的声音的特征向量的不同判断噪声信号中哪个声音是训练人员发出的声音。
3.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,如果不同人说话的声音与记录的训练人员的声音特征对比后判断为不匹配,则乒乓球发球机不动作;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的发球指令,如果有乒乓球发球机的发球指令则乒乓球发球机发球;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的关机指令,如果有乒乓球发球机的关机指令则乒乓球发球机关机;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的唤醒指令,如果有乒乓球发球机的唤醒指令则乒乓球发球机关闭节能模式并正常运行;
如果不同人说话的声音与记录的训练人员的声音特征对比后判断为匹配,则判断不同人说话的声音中是否有乒乓球发球机的开机指令,如果有乒乓球发球机的开机指令则乒乓球发球机开机。
4.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括语音降噪模块,收集打乒乓球时的噪声信号,基于仿真建模之后得到的噪声信号模型去除噪声信号中的环境噪声,环境噪声包括乒乓球碰撞的声音和人走路声音。
5.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,包括:
语音分离模块,将训练人员的说话的声音与其他人说话声分离;
声纹识别模块,识别训练人员所发出的乒乓球发球机指令。
6.根据权利要求5所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,利用仿真处理之后获得的噪声信号模型完成对环境噪声的消除;
将环境噪声消除之后的噪声信号作为语音分离模块的输入,并进行语音分离;
将训练人员发出的乒乓球发球机指令和其他人说话声分离;
语音分离模块的输出就是每个人说话的语音;
声纹识别模块,以每个人说话的语音为输入,进行声纹识别来判断分离之后的哪个语音是属于训练人员的声音特征。
7.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,在比较安静的场合下,让训练人员读一篇文章,同时语音采集设备采集训练人员的声音,以此来记录训练人员的声纹特征。
8.根据权利要求1所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,噪声信号基于训练人员佩戴的蓝牙耳机或麦克风采集。
9.根据权利要求2所述的一种在复杂场景下提取目标人声的乒乓球指令的方法,其特征在于,μ的值介于0.9–1.0之间,通常取0.97;n的值为256或512,涵盖的时间为20~30ms;a取0.46;m取22-26。
技术总结
本发明公开了一种在复杂场景下提取目标人声的乒乓球指令的方法,建立一个语音分离的系统,该系统包括三个部分,一是语音降噪,二是语音分离,三是声纹识别。对一个由多重噪声干扰的声音,首先经过语音降噪的处理,将环境噪声给去除。下一阶段的目标就是将目标语音和其他不同人说话的声音分离开。我们将语音传入到语音分离的系统当中进行处理,在语音分离的系统中会对语音进行分离,输出的是分离之后的各个不同人说话的语音。最后一步就是识别出分离出来的语音哪个是我们所需要的,我们采用声纹识别的方式,来获取我们所需要的语音。在此之前我们已经记录了用户的声纹,我们一一进行对比,就可以获得相对纯净的,没有干扰的目标语音。
技术研发人员:李晓飞;张竹松
受保护的技术使用者:南京邮电大学
技术研发日:2021.02.04
技术公布日:2021.06.18
本文用于企业家、创业者技术爱好者查询,结果仅供参考。