一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于声纹特征的多人语音分离方法、设备及介质与流程

2022-02-22 02:34:11 来源:中国专利 TAG:


1.本发明涉及智能语音分离领域,尤其是涉及一种基于声纹特征的多人语音分离方法、设备及介质。


背景技术:

2.人类可以在多个声源存在时进行选择性的聆听,而计算机却不具备这种能力。在日常生活中,当我们的注意力集中在和某一个目标或对象的谈话之中时,通常会忽略周遭环境中其他人之间发生的对话或者环境中的噪音,这被称为鸡尾酒会效应。鸡尾酒会效应通常在以下两种情况下发生:

人类的注意力集中在某个声音的情况,如看电影时人的注意力会集中注意力在电影的声源上;

人类的听觉感官受到某种刺激的情况,如发生爆炸的轰鸣声会让人忽略周围的其他声音。
3.1953年,cherry,e.colin提出了著名的鸡尾酒会问题(cocktail party problem),即空间内存在多个说话人同时讲话,并且在这个空间中存在着其他的背景噪声的情况下,如何准确追踪并识别出特定的说话人的语音的问题。鸡尾酒会问题也可以被形象的理解为计算机视觉中图形背景问题的听觉版本,关注的声音即为图形,其他的声音即为背景。目前,鸡尾酒会问题中存在着两个挑战性问题:
4.(1)如何从混合语音信号中分离出目标语音信号?
5.(2)如何追踪并保持对目标声源的注意力,并且能够在不同的声源之间进行注意力的转换?
6.在大多数情况下,以上两个挑战是相互影响的,对目标声源的追踪可以从好的语音分离中受益,而语音分离也可以从对目标声源的追踪中受益。事实上,目前针对解决鸡尾酒会问题的研究工作主要集中于第一个挑战性问题,即语音分离。
7.语音交互在现实世界的实际应用中通常是一对一的,即智能设备往往只需要关注目标说话人的声源发出的语音信号,而可以忽略其他声源。因此,面对语音分离问题,要解决的基础目标为:从由多个说话人的语音信号构成的混合语音信号中,分离出目标说话人的语音信号。然而,现有的绝大多数基于深度神经网络的语音分离方法通常仅以混合音频的频谱特征作为模型输入,而没有考虑到目标说话人的其他的语音特征。
8.随着多模态机器学习方法的兴起,有学者提出了说话人独立的音频-视觉联合模型(joint audio-visual model),来从混合语音信号中分离出目标语音信号,其中的视觉特征被用于跟踪场景中的目标说话人。尽管多模态机器学习的语音分离方法取得了不错的效果,然而多模态的方法要求同时使用音频信息和视觉信息,在现实世界的很多语音交互应用的场合中视觉信息是很难获取的,因此多模态机器学习的语音分离方法对应用场景中可获取的信息类别要求较高,应用范围并不广泛。
9.本发明所要解决的技术问题为:无需视觉等除语音外的其他信息,精确地从混合语音信号中分离目标语音信号。


技术实现要素:

10.本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于声纹特征的多人语音分离方法、设备及介质,该方法基于声纹特征可精确地从混合语音信号中分离目标语音信号。
11.本发明的目的可以通过以下技术方案来实现:
12.根据本发明的第一方面,提供了一种基于声纹特征的多人语音分离方法,该方法包括以下步骤:
13.步骤s1:声纹特征提取,包括获取目标说话人的声纹特征x
ref
以及对混合音频采用短时傅里叶变换提取其频谱特征x
mix

14.步骤s2:声纹特征融合,通过拼接混合音频的频谱特征x
mix
与目标说话人的声纹特征x
ref
得到参考声纹特征的频谱特征x

mix
,并将频谱特征x

mix
输入到用于捕获低级别音频特征的扩张卷积层,得到语音分离模型的输入特征x
input

15.步骤s3:语音分离,通过基于语音分离模型获取频谱掩膜,并将其与混合音频的频谱特征x
mix
相乘,得到预测出的目标说话人的纯净音频的频谱;通过参考混合音频的相位谱并结合短时傅里叶逆变换,得到预测出的目标说话人在时域上的纯净音频。
16.优选地,所述步骤s1中获取目标说话人的声纹特征x
ref
具体为:将目标说话人的参考音频输入至声纹特征提取器中,获取目标说话人的梅尔频率倒谱系数mfccs,将其作为目标说话人的声纹特征x
ref
,具体包括以下步骤:
17.步骤s11:同时对目标说话人的参考音频和混合音频进行静音段修剪;
18.步骤s12:对去除静音段的参考音频和去除静音段的混合音频进行处理,以保证参考音频的长度与混合音频的长度一致;
19.步骤s13:从去除静音段的参考音频中提取梅尔频率倒谱系数mfccs,取前p维作为目标说话人的声纹特征x
ref

20.优选地,所述步骤s12为:若去除静音段的参考音频的长度小于去除静音段的混合音频的长度,则对参考音频进行循环拼接;若去除静音段的参考音频的长度大于去除静音段的混合音频的长度,则对参考音频进行修剪,以保证参考音频的长度与混合音频的长度一致;其中所述静音段为低于20db的语音段。
21.优选地,所述步骤s1中对混合音频采用短时傅里叶变换提取混合音频的频谱特征x
mix
具体包括以下步骤:
22.步骤s14:使用窗口大小为256、帧移为64对去除静音段的混合音频进行短时傅里叶变换,同时得到混合音频的幅度谱和相位谱;
23.步骤s15:使用幅度谱作为混合音频的频谱特征x
mix
;而相位谱则用作恢复分离模型预测目标说话人纯净音频时所使用的相位谱。
24.优选地,所述步骤s2中的扩张卷积层包括卷积神经网络cnn。
25.优选地,所述语音模型获取频谱掩膜的过程具体为:使用深度聚类模型dpcl基于输入特征x
input
得到嵌入向量,采用k-means算法对得到的嵌入向量进行聚类获取频谱掩膜。
26.优选地,所述频谱掩膜为二进制频谱掩膜,即每个频谱图中的每个时频箱仅属于一个说话人。
27.优选地,所述深度聚类模型dpcl包括双向长短时记忆网络bilstm。
28.根据本发明的第二方面,提供了一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现所述的方法。
29.根据本发明的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现所述的方法
30.与现有技术相比,本发明具有以下优点:
31.1)本发明所提出的基于声纹特征的多人语音分离方法,将从目标说话人的参考音频中提取出的目标说话人的声纹特征作为补充特征与混合音频的频谱特征进行拼接,通过深度神经网络模型从混合音频中分离出目标说话人的纯净音频,一定程度上提高语音分离模型对目标说话人纯净音频的预测的精确程度;
32.2)相较于采用d-vector特征,本发明使用梅尔频率倒谱系数mfcc的特征提取速度快,泛化性更强,因为d-vector提取的特征很大程度上依赖于训练数据集的选择;
33.3)相较于使用视觉信息的音频-视觉联合模型来讲,此类模型对于视觉信息的要求较高,且日常生活中高品质的视觉信息的获取往往比音频信息的获取繁琐,本发明仅从目标说话人的语音段中提取声纹特征更加便利和快捷。
附图说明
34.图1为本发明基于声纹特征的多人语音分离方法工作流程图。
具体实施方式
35.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
36.如图1所示,为本发明的基于声纹特征的多人语音分离方法工作流程图,该方法包括以下步骤:
37.步骤s1:将目标说话人的参考音频输入到声纹特征提取器中,获取目标说话人的梅尔频率倒谱系数,作为目标说话人的声纹特征x
ref
;同时对混合音频应用短时傅里叶变换提取混合音频的频谱特征x
mix

38.步骤s11:同时对目标说话人的参考音频和混合音频进行静音段(低于20db)修剪;
39.步骤s12:若去除静音段的参考音频的长度小于去除静音段的混合音频的长度,则对参考音频进行循环拼接;若去除静音段的参考音频的长度大于去除静音段的混合音频的长度,则对参考音频进行修剪;以保证参考音频的长度与混合音频的长度一致;
40.步骤s13:使用窗口大小为256、帧移为64、梅尔三角滤波器数目为40个从去除静音段的参考音频中提取梅尔频率倒谱系数mfccs,取前13维作为目标说话人的声纹特征x
ref
。梅尔频率倒谱系数是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换,在梅尔刻度下,人耳对频率的感知呈现线性关系,即当信号的梅尔频率为倍数关系,那么人耳所感知到的音调的差异大概也是倍数关系。普通频率刻度f与梅尔频率刻度mel(f)的映射关系为:
[0041][0042]
步骤s14:使用窗口大小为256、帧移为64对去除静音段的混合音频进行短时傅里叶变换,同时得到混合音频的幅度谱和相位谱;
[0043]
步骤s15:使用幅度谱作为混合音频的频谱特征x
mix
;而相位谱则用作恢复分离模型预测目标说话人纯净音频时所使用的相位谱,;
[0044]
步骤s2:先将混合音频的频谱特征x
mix
与目标说话人的声纹特征拼接x
ref
得到参考声纹特征的频谱特征x

mix
;其次将x

mix
输入到用于捕获低级别音频特征的扩张卷积层得到语音分离模型的输入特征x
input
,该扩张卷积层是由8层卷积神经网络(cnn)构成的,其参数设置如表1所示,参数设置参考自谷歌的voice filter:target voice separation by speaker-conditioned spectrogram mask一文。
[0045]
表1扩张卷积层参数设置
[0046][0047]
步骤s3:将通过dpcl模型获得的二进制频谱掩膜与混合音频的频谱相乘,即可得到预测出的目标说话人的纯净音频的频谱;
[0048]
步骤s4:通过参考混合音频的相位谱并结合短时傅里叶逆变换即可恢复得到预测出的目标说话人的在时域上的纯净音频。
[0049]
以下结合具体实验数据对本发明所示的参考目标说话人声纹特征的多人语音分离方法进一步说明。
[0050]
实验条件与评分标准:
[0051]
本发明采用daniel povey提供的librispeech数据集,该数据集中含有大概1000小时的采样率为16000hz的英语朗读演讲;采用librispeech的train-clean-100数据子集对本文提出的模型进行训练,train-clean-100数据子集中共含有251个说话人的大概100小时的音频,其中男性为126位、女性为125位;采用librispeech的test-clean数据子集对提出的模型进行测试,test-clean数据子集中共含有40个说话人的大概5小时的音频,其中男女各为20位。采用对纯净音频进行融合的方法来生成训练所需的混合音频,并且为了保证训练的可靠性,使用ffmpeg-normalize对librispeech中的音频进行了归一化处理。
[0052]
本发明采用信号失真率(sdr)评价模型的性能,sdr反映了分离得到的音频信号和原始音频信号之间的相似程度,计算公式如下:
[0053]
[0054]
其中s代表目标语音信号,代表语音分离模型的输出,信号均为时域语音信号。分离得到的音频信号和原始音频信号相似度越高,那么差值越小,log(
·
)值越大,sdr越大,模型的性能越好。
[0055]
实验结果:
[0056]
本文以dpcl、pitnet以及去除说话人识别网络的裸voice filter三种语音分离模型作为基础模型,使用mfccs和d-vector作为目标说话人的声纹特征,并采用直接拼接法(dc)、扩张卷积后拼接法(ec)、拼接后扩张卷积法(ce),三种应用声纹特征的方法进行对比实验。
[0057]
表2参考声纹特征前后sdr对比结果
[0058][0059]
(1)横向对比:

无论应用哪种声纹特征,以及无论采取何种提出的应用声纹特征的方法,均能够显著提升语音分离模型的性能。

使用mfccs作为目标说话人的声纹特征的语音分离模型的性能均优于使用d-vector作为目标说话人的声纹特征的语音分离模型的性能。mfccs是从传统信号处理角度对目标说话人的声纹特征进行提取,得到的信息相对原始,信息量更加完整,然而d-vector提取的声纹特征则很大程度上依赖于训练数据集,故mfccs声纹特征的的普适性更好,分离的结果较好。
[0060]
(2)应用声纹特征的语音模型中:

使用拼接后扩张卷积法(ce)应用mfccs声纹特征的dpcl模型表现最佳,其sdr为12.430,相较于不应用声纹特征的dpcl模型,性能提升了约50%。

使用扩张卷积后拼接法(ec)应用d-vector声纹特征的voice filter模型表现最差,其sdr仅为8.159。
[0061]
(3)以mfccs作为目标说话人的声纹特征的语音分离模型中:

使用拼接后扩张卷积法(ce)的dpcl模型表现最佳,sdr为12.430。

使用直接拼接法的voice filter模型表现最差,sdr仅为10.420,与最优的dpcl的sdr相差2.01。

除dpcl模型外,使用扩张卷积后拼接法(ec)的语音分离模型与使用拼接后扩张卷积法(ce)的语音分离模型的性能并无显著差异。

扩张卷积层的存在可以小幅度的提高语音分离模型的性能。
[0062]
综上:本发明的提出的使用拼接后扩张卷积法(ce)应用mfccs声纹特征的dpcl模型表现最佳。
[0063]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0064]
本发明电子设备包括中央处理单元(cpu),其可以根据存储在只读存储器(rom)中的计算机程序指令或者从存储单元加载到随机访问存储器(ram)中的计算机程序指令,来执行各种适当的动作和处理。在ram中,还可以存储设备操作所需的各种程序和数据。cpu、rom以及ram通过总线彼此相连。输入/输出(i/o)接口也连接至总线。
[0065]
设备中的多个部件连接至i/o接口,包括:输入单元,例如键盘、鼠标等;输出单元,例如各种类型的显示器、扬声器等;存储单元,例如磁盘、光盘等;以及通信单元,例如网卡、
调制解调器、无线通信收发机等。通信单元允许设备通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0066]
处理单元执行上文所描述的各个方法和处理,例如方法s1~s3。例如,在一些实施例中,方法s1~s3可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元而被载入和/或安装到设备上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法s1~s3的一个或多个步骤。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法s1~s3。
[0067]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
[0068]
用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0069]
在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0070]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献