农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音处理方法及装置与流程

2021-06-11 21:44:00 来源：中国专利 TAG：公开音视频语音装置方法

本公开涉及音视频技术领域。更具体地，本公开涉及一种语音处理方法及装置。

背景技术：

语音变声在短视频和直播场景下有着广泛应用。传统变声方法通过信号处理方法分析和改变语音的基频和共振峰达到变声的目的，虽然达到一定效果，但往往不够自然真实。

技术实现要素：

本公开的示例性实施例在于提供一种语音处理方法及装置，以至少解决相关技术中的语音处理的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种语音处理方法，包括：获取语音信号的音素向量和声纹向量；基于所述语音信号的音素向量和声纹向量，获取所述语音信号的变声信号。

可选地，获取语音信号的音素向量和声纹向量的步骤可包括：对所述语音信号进行特征提取，获得所述语音信号的特征向量；基于所述语音信号的特征向量对所述语音信号进行音素识别和声纹提取，分别获得所述语音信号的音素向量和声纹向量。

可选地，基于所述语音信号的特征向量对所述语音信号进行声纹提取的步骤可包括：将所述语音信号的特征向量输入到声纹提取网络进行声纹提取，通过所述声纹提取网络获得所述语音信号的声纹向量。

可选地，基于所述语音信号的特征向量对所述语音信号进行音素识别的步骤可包括：将所述语音信号的特征向量输入到音素识别网络进行音素识别，通过所述音素识别网络获得所述语音信号的音素向量。

可选地，音素向量中的每个元素表示所述语音信号的音素是相应音素的概率。

可选地，对所述语音信号进行特征提取的步骤可包括：对所述语音信号进行预处理；对预处理后的语音信号执行短时傅里叶变换，获得所述语音信号的时频域数据；获取所述语音信号的时频域数据的能量谱；通过预设滤波器组计算能量谱的对数能量；对对数能量进行离散余弦变换，获得所述语音信号的特征向量。

可选地，对所述语音信号进行预处理的步骤可包括：通过预加重系统提升所述语音信号的高频部分。

可选地，获取所述语音信号的变声信号的步骤可包括：基于所述语音信号的声纹向量选择目标声纹向量；基于所述语音信号的音素向量和目标声纹向量生成所述语音信号的变声信号。

可选地，基于所述语音信号的声纹向量选择目标声纹向量的步骤可包括：计算多个候选声纹向量中的每个候选声纹向量与所述语音信号的声纹向量之间的相似度；将所述多个候选声纹向量中的与所述语音信号的声纹向量之间的相似度最大的候选声纹向量作为目标声纹向量。

可选地，计算多个候选声纹向量中的每个候选声纹向量与所述语音信号的声纹向量之间的相似度的步骤可包括：针对所述多个候选声纹向量中的每个候选声纹向量，计算候选声纹向量与所述语音信号的声纹向量之间的内积；基于所述内积与候选声纹向量的模值、所述语音信号的声纹向量的模值，计算候选声纹向量与所述语音信号的声纹向量之间的余弦相似度作为候选声纹向量与所述语音信号的声纹向量之间的相似度。

可选地，基于所述语音信号的音素向量和目标声纹向量生成所述语音信号的变声信号的步骤可包括：将所述语音信号的音素向量和目标声纹向量输入到变声网络，通过所述变声网络生成梅尔谱；基于生成的梅尔谱合成所述语音信号的变声信号。

根据本公开的示例性实施例，提供一种语音处理装置，包括：特征获取单元，被配置为获取语音信号的音素向量和声纹向量；和语音变声单元，被配置为基于所述语音信号的音素向量和声纹向量，获取所述语音信号的变声信号。

可选地，特征获取单元可被配置为：对所述语音信号进行特征提取，获得所述语音信号的特征向量；基于所述语音信号的特征向量对所述语音信号进行音素识别和声纹提取，分别获得所述语音信号的音素向量和声纹向量。

可选地，特征获取单元可包括声纹提取单元，被配置为：将所述语音信号的特征向量输入到声纹提取网络进行声纹提取，通过所述声纹提取网络获得所述语音信号的声纹向量。

可选地，特征获取单元可包括音素识别单元，被配置为：将所述语音信号的特征向量输入到音素识别网络进行音素识别，通过所述音素识别网络获得所述语音信号的音素向量。

可选地，音素向量中的每个元素表示所述语音信号的音素是相应音素的概率。

可选地，特征获取单元可被配置为：对所述语音信号进行预处理；对预处理后的语音信号执行短时傅里叶变换，获得所述语音信号的时频域数据；获取所述语音信号的时频域数据的能量谱；通过预设滤波器组计算能量谱的对数能量；对对数能量进行离散余弦变换，获得所述语音信号的特征向量。

可选地，特征获取单元可被配置为：通过预加重系统提升所述语音信号的高频部分。

可选地，语音变声单元可被配置为：基于所述语音信号的声纹向量选择目标声纹向量；基于所述语音信号的音素向量和目标声纹向量生成所述语音信号的变声信号。

可选地，语音变声单元可被配置为：计算多个候选声纹向量中的每个候选声纹向量与所述语音信号的声纹向量之间的相似度；将所述多个候选声纹向量中的与所述语音信号的声纹向量之间的相似度最大的候选声纹向量作为目标声纹向量。

可选地，语音变声单元可被配置为：针对所述多个候选声纹向量中的每个候选声纹向量，计算候选声纹向量与所述语音信号的声纹向量之间的内积；基于所述内积与候选声纹向量的模值、所述语音信号的声纹向量的模值，计算候选声纹向量与所述语音信号的声纹向量之间的余弦相似度作为候选声纹向量与所述语音信号的声纹向量之间的相似度。

可选地，语音变声单元可被配置为：将所述语音信号的音素向量和目标声纹向量输入到变声网络，通过所述变声网络生成梅尔谱；基于生成的梅尔谱合成所述语音信号的变声信号。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的语音处理方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的语音处理方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的语音处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

实现千人千面的变声效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开的示例性实施例的语音处理系统的结构示意图。

图2示出根据本公开的示例性实施例的语音处理方法的流程图。

图3示出本公开的示例性实施例的声纹提取网络的一个示例。

图4示出本公开的示例性实施例的音素识别网络的一个示例。

图5示出本公开的示例性实施例的变声网络的一个示例。

图6示出根据本公开的示例性实施例的语音处理装置的框图。

图7示出根据本公开的示例性实施例的特征获取单元61的框图。

图8是根据本公开的示例性实施例的电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

下面，将参照图1至图8具体描述根据本公开的示例性实施例的语音处理方法及装置。

图1示出根据本公开的示例性实施例的语音处理系统的结构示意图。

如图1所示，语音处理系统100中包括特征提取网络101、编码器102、解码器103和声纹提取网络104。这里，编码器(encoder)102可以是预训练的模型，可以实现从语音信号到音素的识别。声纹提取网络104可以是预训练的声纹识别网络或模型。

在本公开的示例性实施例中，说话人的语音信号首先被输入到特征提取网络101。特征提取网络101进行特征提取，输出语音信号的特征向量。特征提取网络101输出的语音信号的特征向量被输入到编码器(encoder)102。编码器102进行音素识别，输出语音信号的音素向量。

在本公开的示例性实施例中，特征提取网络101输出的语音信号的特征向量还被输入到声纹提取网络104。声纹提取网络104进行声纹提取，输出语音信号的声纹向量。

在本公开的示例性实施例中，语音信号的音素向量和声纹向量被输入到解码器103。

在本公开的示例性实施例中，解码器103首先基于语音信号的声纹向量选择目标声纹向量，然后获取语音信号的音素向量和目标声纹向量的梅尔谱，之后将梅尔谱转换为语音信号，作为语音信号的变声信号。

在语音处理系统的训练过程中，通过对当前说话人的声纹的分析，可以得到当前说话人在可选的多个targetspeaker池中的相似度分布。例如，如果男声1，30％像女生1，40％像女声2，30％像女声3，则训练时的输入输出对也按照这种分布进行操作。如果训练100句男声1，则男1女1对比例为30％，男1女2对比例为40％，则男1女3对比例为30％。

在使用语音处理系统进行变声时，输入任何一个男声声纹，都可以实现对应的不同的女声变音。

图2示出根据本公开的示例性实施例的语音处理方法的流程图。

参照图2，在步骤s201，获取语音信号的音素向量和声纹向量。

在本公开的示例性实施例中，在获取语音信号的音素向量和声纹向量时，可首先对语音信号进行特征提取，获得语音信号的特征向量，然后基于语音信号的特征向量对语音信号进行音素识别和声纹提取，分别获得语音信号的音素向量和声纹向量。这里，音素向量中的每个元素可表示语音信号的音素是相应音素的概率。

在本公开的示例性实施例中，在对语音信号进行特征提取时，可首先对语音信号进行预处理，对预处理后的语音信号执行短时傅里叶变换，获得语音信号的时频域数据，然后获取语音信号的时频域数据的能量谱，并通过预设滤波器组计算能量谱的对数能量，然后对对数能量进行离散余弦变换，获得语音信号的特征向量。

在本公开的示例性实施例中，在对语音信号进行预处理时，可通过预加重系统提升语音信号的高频部分。

在一个示例中，在对语音信号进行特征提取时，首先将语音信号通过预加重系统提升高频部分，使语音信号的频谱变得平坦并消除发声过程中声带和嘴唇的效应，接着通过执行短时傅里叶变换(stft)将语音信号变换到时频域。若长度为t的语音信号x在时域上为x(t),其中t代表时间，0＜t≤t，则经过短时傅里叶变换后，x(t)在时频域可表示为：x(n，k)＝stft(x(t))。这里，n为帧序列，0＜n≤n，(n为总帧数)；k为中心频率序列0＜k≤k，(k为总频点数)。

接着将stft的结果取能量谱后通过梅尔滤波器组hm(k)，该滤波器组可以是一组非线性分布的三角滤波器组，中心频率为f(m)，m＝1，2，...m,m为滤波器个数，其频率响应定义为如下：

这里，

接着根据以下公式计算每个滤波器输出的对数能量s(m)。

之后，根据以下公式进行离散余弦变换，即可得到梅尔倒谱系数(mel-scalefrequencycepstralcoefficients，简称mfcc)c(l)，作为语音信号的特征向量。这里，l为mfcc的阶数。

在本公开的示例性实施例中，在基于语音信号的特征向量对语音信号进行声纹提取时，可将语音信号的特征向量输入到声纹提取网络进行声纹提取，通过声纹提取网络获得语音信号的声纹向量。这里，声纹提取网络可包括多层长短期记忆网络层和全连接层。多层长短期记忆网络层的最后一层的隐藏状态的输出结果可被输入到全连接层，全连接层输出语音信号的声纹向量。

图3示出本公开的示例性实施例的声纹提取网络的一个示例。在图3中，声纹提取网络可包括3层长短期记忆网络层(lstm1、lstm2、和lstm3)和一层全连接层。应理解，声纹提取网络中的长短期记忆网络层可不限于3层，本公开对此不进行限定。

如图3所示，语音信号的特征向量mfcc被输入到声纹提取网络，经过lstm1、lstm2、和lstm3，并且取lstm3的隐藏状态经过全连接层输出说话人的声纹向量。这里，为一个固定维度的向量。

在本公开的示例性实施例中，在基于语音信号的特征向量对语音信号进行音素识别时，可将语音信号的特征向量输入到音素识别网络进行音素识别，通过音素识别网络获得语音信号的音素向量。这里，音素识别网络可包括prenet网络、cbhg网络和全连接层。cbhg网络可用于捕获上下文信息，cb代表卷积块convolutionbanks，h为公路网highwaynetwork，g为双向门控循环单元gru。语音信号的特征向量被输入到prenet网络，prenet网络的输出结果被输入到cbhg网络，cbhg网络的输出结果被输入到全连接层，全连接层输出语音信号的音素向量。

图4示出本公开的示例性实施例的音素识别网络的一个示例。在图4中，音素识别网络包括一个prenet网络、一个cbhg网络和一层全连接层。音素识别网络是预训练的与说话人无关的编码器网络。

如图4所示，语音信号的特征向量mfcc被输入到音素识别网络，每帧输入所对应的输出为一个与预先设定好因素字典q＝[q1，q2，...，qn]长度相同的向量p＝[p1，p2，...，pn]，其中，每个元素的值域在[0，1]之间，表示为对应音素的概率大小。在图4中，prenet网络包括两层含有dropout的全连接层，cbhg网络可用于捕获上下文信息，cb代表卷积块(convolutionbanks)，h为公路网(highwaynetwork)，g为双向门控循环单元(gru)。

在步骤s202，基于语音信号的音素向量和声纹向量，获取语音信号的变声信号。

在本公开的示例性实施例中，在获取语音信号的变声信号时，可首先基于语音信号的声纹向量选择目标声纹向量，然后基于语音信号的音素向量和目标声纹向量生成语音信号的变声信号。

在本公开的示例性实施例中，在基于语音信号的声纹向量选择目标声纹向量时，可首先计算多个候选声纹向量中的每个候选声纹向量与语音信号的声纹向量之间的相似度，然后将多个候选声纹向量中的与语音信号的声纹向量之间的相似度最大的候选声纹向量作为目标声纹向量。

在本公开的示例性实施例中，在计算多个候选声纹向量中的每个候选声纹向量与语音信号的声纹向量之间的相似度时，可首先针对多个候选声纹向量中的每个候选声纹向量，计算候选声纹向量与语音信号的声纹向量之间的内积，然后基于候选声纹向量与语音信号的声纹向量之间的内积与候选声纹向量的模值、语音信号的声纹向量的模值，计算候选声纹向量与语音信号的声纹向量之间的余弦相似度作为候选声纹向量与语音信号的声纹向量之间的相似度。

在一个示例中，可根据公式来计算候选声纹向量与语音信号的声纹向量之间的余弦相似度。这里，dot表示向量间的内积，abs表示取模，输出的余弦相似度值在[0,1]之间，sim(a，b)值越大表示a和b的声音越相似。

在本公开的示例性实施例中，在基于语音信号的音素向量和目标声纹向量生成语音信号的变声信号时，可首先将语音信号的音素向量和目标声纹向量输入到变声网络，通过变声网络生成梅尔谱，然后基于生成的梅尔谱合成语音信号的变声信号。这里，变声网络可包括prenet网络、门控循环单元gru、cbhg网络和全连接层。

图5示出本公开的示例性实施例的变声网络的一个示例。在图5中，变声网络是一个解码器网络，包括一个prenet网络、一个门控循环单元gru、一个cbhg网络和一层全连接层。

如图5所示，语音信号的音素向量被输入到prenet网络，目标声纹向量和prenet网络的输出结果在频率维上串联后被输入到门控循环单元gru，门控循环单元gru的输出结果被输入到cbhg网络，cbhg网络的输出结果被输入到全连接层，全连接层输出语音信号的音素向量和目标声纹向量的梅尔谱。

以上已经结合图1至图5对根据本公开的示例性实施例的语音处理方法进行了描述。在下文中，将参照图6和图7对根据本公开的示例性实施例的语音处理装置及其单元进行描述。

图6示出根据本公开的示例性实施例的语音处理装置的框图。

参照图6，语音处理装置包括特征获取单元61和语音变声单元62。

特征获取单元61被配置为获取语音信号的音素向量和声纹向量。

在本公开的示例性实施例中，特征获取单元61可被配置为：对语音信号进行特征提取，获得语音信号的特征向量；基于语音信号的特征向量对语音信号进行音素识别和声纹提取，分别获得语音信号的音素向量和声纹向量。这里，音素向量中的每个元素可表示语音信号的音素是相应音素的概率。

在本公开的示例性实施例中，特征获取单元61可被配置为：对语音信号进行预处理；对预处理后的语音信号执行短时傅里叶变换，获得语音信号的时频域数据；获取语音信号的时频域数据的能量谱；通过预设滤波器组计算能量谱的对数能量；对对数能量进行离散余弦变换，获得语音信号的特征向量。

在本公开的示例性实施例中，特征获取单元61可被配置为：通过预加重系统提升语音信号的高频部分。

在本公开的示例性实施例中，特征获取单元61可包括声纹提取单元611，被配置为：将语音信号的特征向量输入到声纹提取网络进行声纹提取，通过声纹提取网络获得语音信号的声纹向量。

在本公开的示例性实施例中，特征获取单元61可包括音素识别单元612，被配置为：将语音信号的特征向量输入到音素识别网络进行音素识别，通过音素识别网络获得语音信号的音素向量。

语音变声单元62被配置为基于语音信号的音素向量和声纹向量，获取语音信号的变声信号。

在本公开的示例性实施例中，语音变声单元62可被配置为：基于语音信号的声纹向量选择目标声纹向量；基于语音信号的音素向量和目标声纹向量生成语音信号的变声信号。

在本公开的示例性实施例中，语音变声单元62可被配置为：计算多个候选声纹向量中的每个候选声纹向量与语音信号的声纹向量之间的相似度；将多个候选声纹向量中的与语音信号的声纹向量之间的相似度最大的候选声纹向量作为目标声纹向量。

在本公开的示例性实施例中，语音变声单元62可被配置为：针对多个候选声纹向量中的每个候选声纹向量，计算候选声纹向量与语音信号的声纹向量之间的内积；基于内积与候选声纹向量的模值、语音信号的声纹向量的模值，计算候选声纹向量与语音信号的声纹向量之间的余弦相似度作为候选声纹向量与语音信号的声纹向量之间的相似度。

在本公开的示例性实施例中，语音变声单元62可被配置为：将语音信号的音素向量和目标声纹向量输入到变声网络，通过变声网络生成梅尔谱；基于生成的梅尔谱合成语音信号的变声信号。

图7示出根据本公开的示例性实施例的特征获取单元61的框图。

如图7所示，特征获取单元61可包括声纹提取单元611，被配置为：将语音信号的特征向量输入到声纹提取网络进行声纹提取，通过声纹提取网络获得语音信号的声纹向量。特征获取单元61还可包括音素识别单元612，被配置为：将语音信号的特征向量输入到音素识别网络进行音素识别，通过音素识别网络获得语音信号的音素向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6和图7对根据本公开的示例性实施例的语音处理装置进行了描述。接下来，结合图8对根据本公开的示例性实施例的电子设备进行描述。

图8是根据本公开的示例性实施例的电子设备800的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的语音处理的方法。

作为示例，电子设备800可以是pc计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器801，上述指令可由装置800的处理器802执行以完成上述方法。可选地，计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的语音处理的方法。

以上已参照图1至图8描述了根据本公开的示例性实施例的语音处理方法及装置。然而，应该理解的是：图6和图7中所示的语音处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图8中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的语音处理方法及装置，通过首先获取语音信号的音素向量和声纹向量，然后基于语音信号的音素向量和声纹向量，获取语音信号的变声信号，从而实现千人千面的变声效果。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：齿音调整方法、装置、电子设备及计算机可读存储介质与流程

语音处理方法及装置与流程

相关文章

最热文献