一种基于深度学习的语音合成方法与流程

2021-07-13 16:21:00 来源：中国专利 TAG：深度自然语言语音合成学习方法

技术特征：

1.一种基于深度学习的语音合成方法，其特征是按如下步骤进行：

步骤1、建立文本数据库和音频数据库，所述文本数据库中的每个文本与所述音频数据库中的每个音频用编号相对应，从而得到n条原始数据，记为w＝{w(1),w(2),…,w(n),…,w(n)}，w(n)表示第n条原始数据，且w(n)＝<audion,textn>；audion表示第n条音频，textn表示第n个文本，n＝1,2,…,n；

步骤2、对第n个文本textn进行标准化处理，得到预处理后的第n个文本textn′；

将所述预处理后的第n个文本text′n中的字符串转化为字符，并用one-hot向量表示每个字符，从而得到向量化后的第n个文本向量，记为其中，表示第n个文本向量的第i个字符，i＝1,2,…,m，m为字符串长度；

步骤3、利用梅尔频率倒谱系数对第n条音频audion进行语音特征提取，得到第n条语音信息特征mfccn，从而与所述向量化后的第n个文本向量cⁿ共同构成第n条训练数据w′(n)＝<mfccn,cⁿ>；

步骤4、构建基于bert模型的编码器神经网络，包括：多头注意力层、两个残差连接与归一化层、双层全连接层、单层全连接层；所述多头注意力层是由h个点积注意力组成；所述双层全连接层、单层全连接层中设置有概率为p的dropout函数以及神经元的激活函数tanh；

步骤4.1、利用式(1)得到第n个文本向量cⁿ在t位置对应的位置信息编码从而得到第n个文本向量cⁿ的位置信息编码

式(1)中，t表示字符在所述向量化后的第n个文本向量cⁿ中的位置，f(t)ⁱ表示第i个字符在t位置的位置信息的计算函数，:＝表示生成符号，δ表示缩放尺寸，d表示单个字符向量的维度；

步骤4.2、将第n个文本向量cⁿ及其位置信息编码lⁿ在对应位置相加后得到第n个输入向量xⁿ；再将第n个输入向量xⁿ输入所述多头注意力层的每个点积注意力中，从而利用式(2)得出第j个点积注意力的输出αj：

式(2)中，表示所述第n个输入向量xⁿ经过d×dk维的线性变换矩阵w^q的映射后所得到的查询向量，表示所述第n个输入向量xⁿ经过d×dk维的线性变换矩阵w^k的映射后所得到的关键字向量，dk表示kj的维度，表示的转置，表示所述第n个输入向量xⁿ经过d×dv维的线性变换矩阵w^v的映射后所得到的值向量，dv表示vj的维度，softmax(·)表示归一化指数函数，j＝1,2,…,h；

步骤4.3、将h个点积注意力的输出进行拼接，得到第n个向量矩阵αⁿ，从而利用式(3)得到多头注意力层最终的输出向量oⁿ；

式(3)中，w^o表示d×dk维的线性变换矩阵，concat(·)表示拼接操作；

步骤4.4、将多头注意力的输出向量oⁿ与其第n个输入向量xⁿ经过残差连接与归一化层，从而利用式(4)得到输出向量hⁿ：

hⁿ＝layernorm(xⁿ oⁿ)(4)

式(4)中，layernorm(·)表示层归一化函数；

步骤4.5、将输出向量hⁿ输入所述双层全连接层中，从而利用式(5)得到相应层的输出iⁿ：

iⁿ＝max(0,hⁿw1 b1)w2 b2(5)

式(5)中，w1,w2表示维度为d×dff的两个待训练的参数矩阵，dff表示全连接层隐藏节点的个数即该层的输出维度，b1表示第一偏置矩阵，b2表示第二偏置矩阵，max(·)表示取最大值函数；

步骤4.6、将双层全连接层的输出iⁿ与输出向量hⁿ经过残差连接与归一化层，从而利用式(4)得到第n个文本向量cⁿ的上下文向量uⁿ；

步骤4.7、所述上下文向量uⁿ通过一层全连接层处理后得到所述编码器神经网络输出的维度为d×dff的缩放后的上下文向量u′ⁿ，并作为编码器的输出向量；

步骤5、构建解码器神经网络，包括：预处理网络、2个单向lstm层、位置敏感注意力层、停止标记位预测层、mel预测层以及后处理网络；所述预处理网络包含2个全连接层，每个全连接层均有dpre个relu隐藏单元；所述后处理网络r层卷积层，每层包含ddec个维度为k×1的卷积核；

步骤5.1、定义t时刻解码器神经网络的输出为定义t时刻位置敏感注意力层的输出为当t＝0时，令解码器神经网络的输出和位置敏感注意力层的输出均为全0矩阵；

步骤5.2、所述t时刻解码器神经网络的输出通过所述预处理网络后得到预处理层的输出向量

将预处理层的输出向量与t时刻位置敏感注意力层的输出连接后通过2个具有denc个隐藏单元的单向lstm层，得到输出向量

步骤5.3、将t时刻单向lstm层的输出向量与编码器的输出向量u′ⁿ输入到位置敏感注意力层中得到该层输出的注意力向量ftⁿ；

步骤5.4、将注意力向量ftⁿ通过维度为(m ddec)×1的停止标记位预测层的处理后再经过sigmod函数激活处理后得到t时刻的停止标记值

当时，表示预测结束，并将所有时刻解码器神经网络的输出整合为第n个输入向量xⁿ最终的目标梅尔频谱帧向量yⁿ后，执行步骤6；

当时，执行步骤5.5，其中，threshold表示停止阈值；

步骤5.5、注意力向量ftⁿ经过所述mel预测层的处理后输出mel向量将mel向量与注意力向量ftⁿ进行残差连接后再输入到所述后处理网络中，经过ddec个卷积层的处理后再进行batch归一化处理，且所述后处理网络除在最后一层卷积层之外的其他所有层上均用tanh激活函数，从而得到时刻t 1的输出

步骤5.6、将t 1赋值给t后，返回步骤5.2执行；

步骤6、将所述向量化后的第n个文本向量cⁿ及第n条语音信息特征mfccn输入到由编码器神经网络和解码器神经网络所构成的模型中进行训练，从而获得训练后的梅尔频谱预测模型，用于将文本转换成梅尔频谱帧；

步骤7、使用waveglow模型作为声码器，并使用第n条语音信息特征mfccn以及对应音频进行训练，从而获得训练后的waveglow模型，用于将梅尔频谱帧生成对应的音频；

步骤8、将训练后的梅尔频谱预测模型与waveglow模型组成为语音合成模型，从而对按照步骤2处理后的文本向量进行语音合成，并获得音频结果。

技术总结
本发明公开了一种基于深度学习的语音合成方法，包括：1、对输入文本进行标准化处理，去除无效字符；2、增加位置编码，使输入信号在前向和后向传播时任意位置间的间隔缩短；3、构建基于BERT的端到端神经网络模型，经过训练能快速的将输入的文本信息转化为梅尔频谱帧；4、使用预训练模型WaveGlow将生成的梅尔频谱帧转化为高质量的音频。本发明能充分利用GPU的并行计算能力从而获得更快的训练速度和预测速度，并能从输入序列中获取远距离信息，使其在长文本语音合成中效果跟好，进而在实际使用过程中能更好的满足高效、高质量的需求。

技术研发人员：安鑫;代子彪;李阳;孙晓
受保护的技术使用者：合肥工业大学
技术研发日：2021.04.21
技术公布日：2021.07.13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：音频合成方法、装置、设备、介质及程序产品与流程

一种基于深度学习的语音合成方法与流程

相关文章

最热文献