技术特征:
1.一种基于深度学习的语音合成方法,其特征是按如下步骤进行:
步骤1、建立文本数据库和音频数据库,所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应,从而得到n条原始数据,记为w={w(1),w(2),…,w(n),…,w(n)},w(n)表示第n条原始数据,且w(n)=<audion,textn>;audion表示第n条音频,textn表示第n个文本,n=1,2,…,n;
步骤2、对第n个文本textn进行标准化处理,得到预处理后的第n个文本textn′;
将所述预处理后的第n个文本text′n中的字符串转化为字符,并用one-hot向量表示每个字符,从而得到向量化后的第n个文本向量,记为
步骤3、利用梅尔频率倒谱系数对第n条音频audion进行语音特征提取,得到第n条语音信息特征mfccn,从而与所述向量化后的第n个文本向量cn共同构成第n条训练数据w′(n)=<mfccn,cn>;
步骤4、构建基于bert模型的编码器神经网络,包括:多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层;所述多头注意力层是由h个点积注意力组成;所述双层全连接层、单层全连接层中设置有概率为p的dropout函数以及神经元的激活函数tanh;
步骤4.1、利用式(1)得到第n个文本向量cn在t位置对应的位置信息编码
式(1)中,t表示字符在所述向量化后的第n个文本向量cn中的位置,f(t)i表示第i个字符
步骤4.2、将第n个文本向量cn及其位置信息编码ln在对应位置相加后得到第n个输入向量xn;再将第n个输入向量xn输入所述多头注意力层的每个点积注意力中,从而利用式(2)得出第j个点积注意力的输出αj:
式(2)中,
步骤4.3、将h个点积注意力的输出
式(3)中,wo表示d×dk维的线性变换矩阵,concat(·)表示拼接操作;
步骤4.4、将多头注意力的输出向量on与其第n个输入向量xn经过残差连接与归一化层,从而利用式(4)得到输出向量hn:
hn=layernorm(xn on)(4)
式(4)中,layernorm(·)表示层归一化函数;
步骤4.5、将输出向量hn输入所述双层全连接层中,从而利用式(5)得到相应层的输出in:
in=max(0,hnw1 b1)w2 b2(5)
式(5)中,w1,w2表示维度为d×dff的两个待训练的参数矩阵,dff表示全连接层隐藏节点的个数即该层的输出维度,b1表示第一偏置矩阵,b2表示第二偏置矩阵,max(·)表示取最大值函数;
步骤4.6、将双层全连接层的输出in与输出向量hn经过残差连接与归一化层,从而利用式(4)得到第n个文本向量cn的上下文向量un;
步骤4.7、所述上下文向量un通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量u′n,并作为编码器的输出向量;
步骤5、构建解码器神经网络,包括:预处理网络、2个单向lstm层、位置敏感注意力层、停止标记位预测层、mel预测层以及后处理网络;所述预处理网络包含2个全连接层,每个全连接层均有dpre个relu隐藏单元;所述后处理网络r层卷积层,每层包含ddec个维度为k×1的卷积核;
步骤5.1、定义t时刻解码器神经网络的输出为
步骤5.2、所述t时刻解码器神经网络的输出
将预处理层的输出向量
步骤5.3、将t时刻单向lstm层的输出向量
步骤5.4、将注意力向量ftn通过维度为(m ddec)×1的停止标记位预测层的处理后再经过sigmod函数激活处理后得到t时刻的停止标记值
当
当
步骤5.5、注意力向量ftn经过所述mel预测层的处理后输出mel向量
步骤5.6、将t 1赋值给t后,返回步骤5.2执行;
步骤6、将所述向量化后的第n个文本向量cn及第n条语音信息特征mfccn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练,从而获得训练后的梅尔频谱预测模型,用于将文本转换成梅尔频谱帧;
步骤7、使用waveglow模型作为声码器,并使用第n条语音信息特征mfccn以及对应音频进行训练,从而获得训练后的waveglow模型,用于将梅尔频谱帧生成对应的音频;
步骤8、将训练后的梅尔频谱预测模型与waveglow模型组成为语音合成模型,从而对按照步骤2处理后的文本向量进行语音合成,并获得音频结果。
技术总结
本发明公开了一种基于深度学习的语音合成方法,包括:1、对输入文本进行标准化处理,去除无效字符;2、增加位置编码,使输入信号在前向和后向传播时任意位置间的间隔缩短;3、构建基于BERT的端到端神经网络模型,经过训练能快速的将输入的文本信息转化为梅尔频谱帧;4、使用预训练模型WaveGlow将生成的梅尔频谱帧转化为高质量的音频。本发明能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度,并能从输入序列中获取远距离信息,使其在长文本语音合成中效果跟好,进而在实际使用过程中能更好的满足高效、高质量的需求。
技术研发人员:安鑫;代子彪;李阳;孙晓
受保护的技术使用者:合肥工业大学
技术研发日:2021.04.21
技术公布日:2021.07.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。