语音增强方法及装置、存储介质、电子设备与流程

2022-11-23 14:16:56 来源：中国专利 TAG：

1.本发明涉及计算机领域，具体而言，涉及一种语音增强方法及装置、存储介质、电子设备。

背景技术：

2.在各种的智能语音交互场景中，声音的输入和输出常常都会受到各种各样的干扰。通过基于心理-生理模型的听觉感知建模，实现音频增强和噪声消除是主流的处理方式。
3.相关技术中，很多的语音信号处理系统，如语音识别、说话人身份识别等系统均使用幅度谱/能量谱有关的特征，一般忽略相位特性。这是因为传统上认为人的听觉是对相位不敏感的。但是最新的一些研究表明，无论从耳蜗的生理构造还是声音信号处理过程，都存在对声音相位的处理和感知，而采用声音的频率等特征进行语音增强时，由于环境音的不确定性和随机性，存在干扰音频的频率特征与人的音频的频率特征混叠甚至重合，导致语音增强的效果差。
4.针对相关技术中存在的上述问题，目前尚未发现有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种语音增强方法及装置、存储介质、电子设备。
6.根据本发明实施例的一个方面，提供了一种语音增强方法，包括：获取原始语音，其中，所述原始语音包括有用音频信号；采用自动编码器对所述原始语音进行相位编码，得到增强语音；采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音，其中，所述纯净语音包括所述有用音频信号。
7.可选的，采用自动编码器对所述原始语音进行相位编码，得到增强语音包括：采用编码器对所述原始语音执行第一编码操作，生成相位信息；采用生成器对所述相位信息执行第二编码操作，生成增强语音；其中，所述自动编码器包括所述编码器和所述生成器。
8.可选的，采用编码器对所述原始语音执行第一编码操作，生成相位信息包括：在时域上提取所述原始语音的波形信号；对所述波形信号进行短时傅里叶变换变换，生成所述原始语音的频域信号；对所述频域信号进行取相位角操作，获取所述原始语音的相位谱，并基于所述相位谱生成所述相位信息。
9.可选的，采用生成器对所述相位信息执行第二编码操作，生成增强语音包括：确定所述生成器的敏感相位区间，其中，所述敏感相位区间是耳蜗感知声音的相位区间；采用所述敏感相位区间过滤所述相位信息，得到中间相位谱，其中，所述中间相位谱包含第一相位谱和第二相位谱，其中，所述第一相位谱与所述干扰音频信号对应，所述第二相位谱与所述有用音频信号对应，其中，所述原始语音还包括所述干扰音频信号；获取所述原始语音的目标特征谱，其中，所述目标特征谱包括与指定对象的声带对应的幅度谱和/或能量谱；采用所述中间相位谱和所述目标特征谱编码生成增强语音。
10.可选的，获取所述原始语音的目标特征谱包括：解析所述原始语音中的固定音色图谱，并将所述固定音色图谱确定为所述有用音频信号的音色图谱；在所述原始语音的语音段中截取所述固定音色图谱对应的参考语音；从所述参考语音中过滤出基音分量，从所述基音分量中提取所述指定对象的声带对应的幅度谱和/或能量谱。
11.可选的，采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音包括：将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；获取所述分类器输出的若干个语音类别，以及获取所述判断器输出的语音真实度，其中，一个所述语音类别对应一个所述语音真实度；将最大的所述语音真实度对应的语音类别确定为目标语音类别，并在所述增强语音中选择所述目标语音类别的时域分量，将所述时域分量输出为所述原始语音的第一纯净语音，其中，所述纯净语音包括所述第一纯净语音。
12.可选的，采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音包括：将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；获取所述分类器输出的语音类别，以及获取所述判断器输出的语音真实度；判断所述语音类别与所述自动编码器的生成器的配置类别是否相同，且所述语音真实度是否大于预设阈值，其中，所述配置类别用于指示所述有用音频信号的信号类别；若所述语音类别与所述自动编码器的生成器的配置类别相同，且所述语音真实度大于预设阈值，将所述增强语音输出为所述原始语音的第二纯净语音，其中，所述纯净语音包括所述第二纯净语音。
13.根据本发明实施例的另一个方面，提供了一种语音增强装置，包括：获取模块，用于获取原始语音，其中，所述原始语音包括有用音频信号；编码模块，用于采用自动编码器对所述原始语音进行相位编码，得到增强语音；输出模块，用于采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音，其中，所述纯净语音包括所述有用音频信号。
14.可选的，所述编码模块包括：第一编码单元，用于采用编码器对所述原始语音执行第一编码操作，生成相位信息；第二编码单元，用于采用生成器对所述相位信息执行第二编码操作，生成增强语音；其中，所述自动编码器包括所述编码器和所述生成器。
15.可选的，所述第一编码单元包括：提取子单元，用于在时域上提取所述原始语音的波形信号；变换子单元，用于对所述波形信号进行短时傅里叶变换变换，生成所述原始语音的频域信号；获取子单元，用于对所述频域信号进行取相位角操作，获取所述原始语音的相位谱，并基于所述相位谱生成所述相位信息。
16.可选的，所述第二编码单元包括：确定子单元，用于确定所述生成器的敏感相位区间，其中，所述敏感相位区间是耳蜗感知声音的相位区间；过滤子单元，用于采用所述敏感相位区间过滤所述相位信息，得到中间相位谱，其中，所述中间相位谱包含第一相位谱和第二相位谱，其中，所述第一相位谱与所述干扰音频信号对应，所述第二相位谱与所述有用音频信号对应，其中，所述原始语音还包括所述干扰音频信号；获取子单元，用于获取所述原始语音的目标特征谱，其中，所述目标特征谱包括与指定对象的声带对应的幅度谱和/或能量谱；生成子单元，用于采用所述中间相位谱和所述目标特征谱编码生成增强语音。
17.可选的，所述获取子单元还用于：解析所述原始语音中的固定音色图谱，并将所述固定音色图谱确定为所述有用音频信号的音色图谱；在所述原始语音的语音段中截取所述固定音色图谱对应的参考语音；从所述参考语音中过滤出基音分量，从所述基音分量中提
取所述指定对象的声带对应的幅度谱和/或能量谱。
18.可选的，所述输出模块包括：输入单元，用于将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；第一获取单元，用于获取所述分类器输出的若干个语音类别，以及获取所述判断器输出的语音真实度，其中，一个所述语音类别对应一个所述语音真实度；第一输出单元，用于将最大的所述语音真实度对应的语音类别确定为目标语音类别，并在所述增强语音中选择所述目标语音类别的时域分量，将所述时域分量输出为所述原始语音的第一纯净语音，其中，所述纯净语音包括所述第一纯净语音。
19.可选的，所述输出模块包括：输入单元，用于将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；第二获取单元，用于获取所述分类器输出的语音类别，以及获取所述判断器输出的语音真实度；判断单元，用于判断所述语音类别与所述自动编码器的生成器的配置类别是否相同，且所述语音真实度是否大于预设阈值，其中，所述配置类别用于指示所述有用音频信号的信号类别；第二输出单元，用于若所述语音类别与所述自动编码器的生成器的配置类别相同，且所述语音真实度大于预设阈值，将所述增强语音输出为所述原始语音的第二纯净语音，其中，所述纯净语音包括所述第二纯净语音。
20.根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的步骤。
21.根据本发明实施例的另一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；其中：存储器，用于存放计算机程序；处理器，用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
22.本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述方法中的步骤。
23.通过本发明，获取原始语音，其中，原始语音包括有用音频信号，采用自动编码器对原始语音进行相位编码，得到增强语音，采用条件生成对抗网络对增强语音进行分类判别，输出原始语音的纯净语音，其中，纯净语音包括有用音频信号和干扰音频信号，通过对原始语音进行相位编码，并利用条件生成对抗网络进行分类判别约束，实现了一种基于相位的噪声消除方案，解决了相关技术基于频率进行语音增强时效果差的技术问题，充分利用语音的时域信息和相位信息，能有效提升语音的质量与可懂度。
附图说明
24.此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图1是本发明实施例的一种拾音设备的硬件结构框图；图2是根据本发明实施例的一种语音增强方法的流程图；图3是本发明实施例中自动编码器-条件生成对抗网络的结构示意图；图4是本发明实施例对语音进行增强的波形示意图；图5是根据本发明实施例的一种语音增强装置的结构框图；图6是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
25.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。
26.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.实施例1本发明实施例一所提供的方法实施例可以在服务器，手机，录音/收音/拾音设备，平板，计算机，处理器或者类似的语音处理装置中执行。以运行在拾音设备上为例，图1是本发明实施例的一种拾音设备的硬件结构框图。如图1所示，拾音设备可以包括一个或多个（图1中仅示出一个）拾音设备102（拾音设备102可以包括但不限于微拾音设备mcu或可编程逻辑器件fpga等的处理装置）和用于存储数据的存储器104，可选地，上述拾音设备还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述拾音设备的结构造成限定。例如，拾音设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
28.存储器104可用于存储拾音设备程序，例如，应用软件的软件程序以及模块，如本发明实施例中的一种语音增强方法对应的拾音设备程序，拾音设备102通过运行存储在存储器104内的拾音设备程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于拾音设备102远程设置的存储器，这些远程存储器可以通过网络连接至拾音设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
29.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括拾音设备的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器（network interface controller，简称为nic），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频（radio frequency，简称为rf）模块，其用于通过无线方式与互联网进行通讯。
30.在本实施例中提供了一种语音增强方法，图2是根据本发明实施例的一种语音增强方法的流程图，如图2所示，该流程包括如下步骤：步骤s202，获取原始语音，其中，原始语音包括有用音频信号；本实施例的原始语音是包括干扰音频信号和有用音频信号。其中，有用音频信号
是指定的说话人发出的声音信号。干扰音频信号可以为环境音或噪音，也可以为不相关的说话人发出的声音信号。例如，在客服场景中，有用音频信号即为拨打热线的用户的语音信号，以及回答该用户的客服说话的语音信号。干扰音频信号可以为除该用户和回答该用户的客服相关的语音信号之外的其它信号，例如其它客服的说话声，或者环境的嘈杂声等。
31.可选的，原始语音是通过收音设备（如咪头）采集得到的语音信号。
32.步骤s204，采用自动编码器对原始语音进行相位编码，得到增强语音；本实施例的自编码器（auto-encoder，ae）包括两个网络：分别是编码（encoder）网络和解码（decoder）网络。编码网络，用于将声音信号编码为声音特征，在模型中用 e表示；解码网络也叫生成器（generator），用于基于声音特征解码得到声音信号，在模型中用于 g表示。编码网络的原理是压缩信息的过程，解码网络的原理是解压缩的过程。
33.步骤s206，采用条件生成对抗网络对增强语音进行分类判别，输出原始语音的纯净语音，其中，纯净语音包括有用音频信号；本实施例的条件生成对抗网络（conditional generative adversarial nets，cgan）包括分类器（classifier，c）和判别器（discriminator，d），分类器输入语音 x，输出所属类别 c，辨别器输入语音 x，判断类别 c的真实度。
34.通过上述步骤，获取原始语音，其中，原始语音包括有用音频信号，采用自动编码器对原始语音进行相位编码，得到增强语音，采用条件生成对抗网络对增强语音进行分类判别，输出原始语音的纯净语音，其中，纯净语音包括有用音频信号，通过对原始语音进行相位编码，并利用条件生成对抗网络进行分类判别约束，实现了一种基于相位的噪声消除方案，解决了相关技术基于频率进行语音增强时效果差的技术问题，充分利用语音的时域信息和相位信息，能有效提升语音的质量与可懂度。
35.在实施例中，采用自动编码器对原始语音进行相位编码，得到增强语音包括：s11，采用编码器对原始语音执行第一编码操作，生成相位信息；在本实施例的一个实施方式中，采用编码器对原始语音执行第一编码操作，生成相位信息包括：在时域上提取原始语音的波形信号；对波形信号进行短时傅里叶变换变换，生成原始语音的频域信号；对频域信号进行取相位角操作，获取原始语音的相位谱。
36.频谱特征是指在声音在频域上的信号特征，本实施例采用短时傅里叶变换(short-time fourier transform, stft)将时域信号变换到频域上。本实施例的相位谱(phase spectrogram)，是将原始语音的波形信号变换到频域上之后，对信号进行取相位角操作即可获取信号的相位信息。
37.s12，采用生成器对相位信息执行第二编码操作，生成增强语音。
38.在本实施例的一个实施方式中，采用生成器对相位信息执行第二编码操作，生成增强语音包括：确定生成器的敏感相位区间，其中，敏感相位区间是耳蜗感知声音的相位区间；采用敏感相位区间过滤相位信息，得到中间相位谱，其中，中间相位谱包含第一相位谱和第二相位谱，其中，第一相位谱与干扰音频信号对应，第二相位谱与有用音频信号对应，其中，原始语音还包括干扰音频信号；获取原始语音的目标特征谱，其中，目标特征谱包括与指定对象的声带对应的幅度谱和/或能量谱；采用中间相位谱和目标特征谱编码生成增强语音。
39.由于原始语音较嘈杂，原始语音的总相位区间包含耳蜗感知声音的相位区间和耳
蜗感知不到声音的相位区间，通过过滤，从原始语音的相位信息中过滤出敏感相位区间，可以按照相位过滤原始语音中的一部分干扰音频信号，剩下耳蜗可以感知的另一部分干扰音频信号和有用音频信号，即第一相位谱的音频信号和第二相位谱的音频信号。
40.声音的相位特征以度作为单位。例如，对于正弦波来说，0
°
就代表着波的起点。第一个波峰为90
°
，波形在180
°
时会变为负值，并在360
°
处完成一个完整的周期。当两个相同频率的正弦波在同一时间振荡时，它们被认为是同相的。当对它们进行合成时波的强度会加倍。
41.如果其中一个波在另一个波开始半个周期之后才开始，那门它们就是反相的，它们的相位差是180
°
。对它们进行叠加时，波峰就会相互抵消。如果两个波的相位差大于或者小于180
°
，在对它们进行叠加时仅会对某些频率产生影响，影响音质。
42.声音的感知基于人体的听觉神经，对于单一频率的正弦波，频率在2khz以上的，基本没有细胞电位和音频之间的相锁（phase lock），毛细胞不再根据正弦波的不同相位改变自身的电位，此时听觉系统不再编码声音的相位，而只编码幅值。所以2khz以上的正弦波的相位对人耳而言，基本是没有意义的，不属于人体的敏感相位区间。而且，在多声道的场景中，相位的调节是多声道之间的相位调节（1khz以内）能够影响人耳主观听感，尤其是对声场定位和焦点影响，如低音炮与主音箱之间的相位匹配或者主动降噪耳机，对于常见的立体声音箱或者耳机，同步改变两个声道的相位通常不会有显著的听觉影响，或者说单体自身的绝对相位的可听性是很弱的，除非是左右声道之间存在相位差，所以1khz以上的多声道正弦波的相位对人耳而言，基本是没有意义的，不属于人体的敏感相位区间。
43.虽然敏感相位区间之外的音频信号对人体的听觉神经没有意义，但是同一时刻的声音可能包含着相同信息的多个信号之间的时间关系，当对包含相同声源的两个音频信号（例如，喇叭发出的声音和喇叭运行时产生的噪音，多个对爵士鼓进行拾音的麦克风或者吉他音箱信号）混叠时，如果它们彼此的相位不同，则可能发生相位抵消，从而导致某些频率的信号丢失，甚至是整个信号的丢失，从而影响语音质量，本实施例通过确定出耳蜗感知声音的敏感相位区间，过滤掉可能产生干扰的相位谱和无用的相位谱。
44.可选的，获取原始语音的目标特征谱包括：解析所述原始语音中的固定音色图谱，并将固定音色图谱确定为有用音频信号的音色图谱；在原始语音的语音段中截取固定音色图谱对应的参考语音；从参考语音中过滤出基音分量，从基音分量中提取指定对象的声带对应的幅度谱和/或能量谱。其中，指定对象为需要提取语音的对象（人，动物等），纯净语音即指定对象的声源产生的语音。
45.在本实施例中，参考语音可以从原始语音中实时解析得到，也可以从语音采集之前的测试阶段，将测试音作为参考语音。在实时解析时，由于固定对象的声道发声时，音色特征信息是固定（每个人的音色都不相同）的，因此其音色图谱也是固定的，而环境中的其他杂音则是不固定的随机声音，音色图谱是分散的，因此可以通过分散音色图谱过滤掉原始语音中的嘈杂音分量，得到相对清楚的基音分量，得到有用音频信号的基音分量，从而得到有用的目标特征谱，可以通过目标特征谱生成目标音频特征明显的增强语音，将增强语音输入条件生成对抗网络后，可以输出包括更多有用音频信号更少干扰音频信号的纯净语音。
46.在本实施例的一个示例中，采用条件生成对抗网络对增强语音进行分类判别，输
出原始语音的纯净语音包括：将增强语音同步输入条件生成对抗网络的分类器和判断器；获取分类器输出的若干个语音类别，以及获取判断器输出的语音真实度，其中，每个语音类别对应一个语音真实度；在若干个语音类别中选择语音真实度最大的目标语音类别，在增强语音中选择目标语音类别的时域分量，将时域分量输出为原始语音的第一纯净语音。
47.在某些场景中，干扰音频和有用音频相当，或者是干扰音频的来源很多，在这种情况下，无法轻易确定哪一个语音类别是最终要输出的有用音频信号（如指定用户发出的声音），本实施例中的每个语音类别对应声源类型，声源类型可以按照不同的物体进行分类，如人，动物，机器，也可以进一步对某个物体进行分类，如用户a，用户b，用户c分别对应一个语音类别，这可以分类器的训练阶段对其采用不同的训练样本进行训练得到。判断器（判别器/辨别器）则用于判断分类器输出语音类别的真实度，可以用二分类（0,1），也可以是0-100的区间。
48.在本实施例的另一个示例中，采用条件生成对抗网络对增强语音进行分类判别，输出原始语音的纯净语音包括：将增强语音同步输入条件生成对抗网络的分类器和判断器；获取分类器输出的语音类别，以及获取判断器输出的语音真实度；判断语音类别与自动编码器的生成器的配置类别是否相同，且语音真实度是否大于预设阈值，其中，配置类别用于指示有用音频信号的信号类别；若语音类别与自动编码器的生成器的配置类别相同，且语音真实度大于预设阈值，将增强语音输出为原始语音的第二纯净语音。
49.本实施例的自动编码器还可以预先设置配置类别c，编码器（e），输入语音 x，输出编码 z，给定了类别 c，那么生成的 z 就会质量更高，即更随机，因为可移除c中已包含的信息。生成器（g），输入编码 z，输出语音 x，如果给定了类别 c，那么就会生成属于类别 c 的语音。在正常情况下，条件生成对抗网络的分类器输出的类别应该是与自动编码器的生成器的配置类别相同。
50.图3是本发明实施例中自动编码器-条件生成对抗网络的结构示意图，包括 4 个组件，对应到 4 个神经网络，在此进行说明：组件e：编码器，输入语音 x，输出编码 z。
51.如果还给定了类别 c，那么生成的 z 就会质量更高，即更随机，因为可移除c中已包含的信息。
52.组件g：生成器，输入编码 z，输出语音 x’。
53.如果还给定了类别 c，那么就会生成属于类别 c 的语音。
54.组件c：分类器，输入语音 x，输出所属类别 c。
55.组件d：辨别器，输入语音 x，判断它的真实度，0或1。
56.本实施例中的自动编码器和 gan 互补，用于对原始语音进行增强。其中的 g 用于：对于从 x 生成的 z，g 应能还原出接近 x 的 x'（音素上的接近），g 生成的语音应可由 d 鉴别为属于真实语音，g 生成的语音应可由 c 鉴别为属于 c 类别。
57.本实施例提出的一种基于自动编码生成对抗网络的语音增强算法，由自动编码器与生成对抗网络gan相结合自动编码器-条件生成对抗网络的语音增强。在该算法中，生成器g网络执行增强任务。g网络的输入是噪声语音信号和潜在表示z，其输出是增强信号。该算法设计的g网络和生成器网络都是全卷积的。同时，为了改善生成器d限制
能力不足的问题，在g网的损失函数中增加两个次要成分，可以将它生成的增强语音信号与纯净语音信号之间的差异距离减至最小。其次，还训练了一个二元分类器c，c的结构与d一致，用于区分带噪语音和纯净语音。将g生成的增强语音，同时也输入到c中，反向传播给g的损失函数定义为l
gc
：其中，xc为原始语音；g(z,xc) 为增强语音；c()为反向传播函数；λ2为超参数，该超参数为自定义的值，示例性地，λ2可以设定为1/2。
58.图4是本发明实施例对语音进行增强的波形示意图，纯净语音的波形更简洁，音质更清楚。
59.本实施例提出一种基于自动编码生成对抗网络的语音增强算法，由自动编码器与生成对抗网络gan相结合自动编码器-条件生成对抗网络的语音增强，该模型的输入是原始语音信号，在判别器d和分类器c共同监督下，自动编码器自动提取原始波形中的特征，有监督的学习带噪语音和纯净语音之间的复杂映射关系，自动编码器的输出为增强后的语音波形。该算法充分利用语音的时域信息,有效解决忽略相位的问题，能有效提升语音的质量与可懂度。
60.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如rom/ram、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。
61.实施例2在本实施例中还提供了一种语音增强装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
62.图5是根据本发明实施例的一种语音增强装置的结构框图，如图5所示，该装置包括：获取模块50，编码模块52，输出模块54，其中，获取模块50，用于获取原始语音，其中，所述原始语音包括有用音频信号；编码模块52，用于采用自动编码器对所述原始语音进行相位编码，得到增强语音；输出模块54，用于采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音，其中，所述纯净语音包括所述有用音频信号。
63.可选的，所述编码模块包括：第一编码单元，用于采用编码器对所述原始语音执行第一编码操作，生成相位信息；第二编码单元，用于采用生成器对所述相位信息执行第二编码操作，生成增强语音；其中，所述自动编码器包括所述编码器和所述生成器。
64.可选的，所述第一编码单元包括：提取子单元，用于在时域上提取所述原始语音的波形信号；变换子单元，用于对所述波形信号进行短时傅里叶变换变换，生成所述原始语音的频域信号；获取子单元，用于对所述频域信号进行取相位角操作，获取所述原始语音的相
位谱，并基于所述相位谱生成所述相位信息。
65.可选的，所述第二编码单元包括：确定子单元，用于确定所述生成器的敏感相位区间，其中，所述敏感相位区间是耳蜗感知声音的相位区间；过滤子单元，用于采用所述敏感相位区间过滤所述相位信息，得到中间相位谱，其中，所述中间相位谱包含第一相位谱和第二相位谱，其中，所述第一相位谱与所述干扰音频信号对应，所述第二相位谱与所述有用音频信号对应，其中，所述原始语音还包括所述干扰音频信号；获取子单元，用于获取所述原始语音的目标特征谱，其中，所述目标特征谱包括与指定对象的声带对应的幅度谱和/或能量谱；生成子单元，用于采用所述中间相位谱和所述目标特征谱编码生成增强语音。
66.可选的，所述获取子单元还用于：解析所述原始语音中的固定音色图谱，并将所述固定音色图谱确定为所述有用音频信号的音色图谱；在所述原始语音的语音段中截取所述固定音色图谱对应的参考语音；从所述参考语音中过滤出基音分量，从所述基音分量中提取所述指定对象的声带对应的幅度谱和/或能量谱。
67.可选的，所述输出模块包括：输入单元，用于将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；第一获取单元，用于获取所述分类器输出的若干个语音类别，以及获取所述判断器输出的语音真实度，其中，一个所述语音类别对应一个所述语音真实度；第一输出单元，用于将最大的所述语音真实度对应的语音类别确定为目标语音类别，并在所述增强语音中选择所述目标语音类别的时域分量，将所述时域分量输出为所述原始语音的第一纯净语音，其中，所述纯净语音包括所述第一纯净语音。
68.可选的，所述输出模块包括：输入单元，用于将所述增强语音同步输入所述条件生成对抗网络的分类器和判断器；第二获取单元，用于获取所述分类器输出的语音类别，以及获取所述判断器输出的语音真实度；判断单元，用于判断所述语音类别与所述自动编码器的生成器的配置类别是否相同，且所述语音真实度是否大于预设阈值，其中，所述配置类别用于指示所述有用音频信号的信号类别；第二输出单元，用于若所述语音类别与所述自动编码器的生成器的配置类别相同，且所述语音真实度大于预设阈值，将所述增强语音输出为所述原始语音的第二纯净语音，其中，所述纯净语音包括所述第二纯净语音。
69.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
70.实施例3本技术实施例还提供了一种电子设备，图6是本发明实施例的一种电子设备的结构图，如图6所示，包括处理器61、通信接口62、存储器63和通信总线64，其中，处理器61，通信接口62，存储器63通过通信总线64完成相互间的通信，存储器63，用于存放计算机程序；处理器61，用于执行存储器63上所存放的程序时，实现如下步骤：获取原始语音，其中，所述原始语音包括有用音频信号；采用自动编码器对所述原始语音进行相位编码，得到增强语音；采用条件生成对抗网络对所述增强语音进行分类判别，输出所述原始语音的纯净语音，其中，所述纯净语音包括所述有用音频信号。
71.上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
72.通信接口用于上述终端与其他设备之间的通信。
73.存储器可以包括随机存取存储器(random access memory，简称ram)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
74.上述的处理器可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field－programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
75.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音增强方法。
76.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的语音增强方法。
77.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（dsl））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质（例如固态硬盘solid state disk (ssd)）等。
78.以上所述仅为本技术的较佳实施例而已，并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本技术的保护范围内。
79.以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：背景音乐生成器的训练方法、设备和计算机程序产品与流程

语音增强方法及装置、存储介质、电子设备与流程

相关文献

最热文献