一种新型维吾尔语音合成方法与流程

2021-06-08 14:45:00 来源：中国专利 TAG：维吾尔人工智能方法语音合成

1.本发明涉及人工智能领域，具体是指一种新型维吾尔语音合成方法。

背景技术：

2.人工神经网络是一种以模拟生物神经系统为基础的数学模型。在某种程度上反映了大脑生物系统的一些基本特征，是一种与生物多样性进程相关的网络结构。2012年，hiton等人，将深度学习成功的应用到语音识别，且很大幅度的提升了识别率，继而产生了基于神经网络的语音合成方法。
3.在基于神经网络语音合成方法中，最常用的有基于递归神经网络的方法(dnn)、基于循环神经网络(rnn)方法及基于长短时记忆网络(lstm)的方法。schuster提出的双向rnn的合成方法，作为序列学习器，能够对当前帧的上下文信息进行编码，生成双向的序列，通过序列学习进行建模。hochreiter等人，为了解决传统rnn的梯度消失问题，提出了新的long short term memory简称lstm(长短时记忆)结构。最近较流行的方法是采用深度置信网络(dbm)，同时对语言和声学特征的关系建模。通过实值音轨神经自回归密度和深层混合密度网络对函数预测声学特征进行估计。深度前馈神经网络可以视为基于hmm语音中的决策树的替代。循环神经网络的被用于表达tts为一个序列到序列的映射问题。加入上下文的约束情况下，长短时记忆网络将基于rnn的门递归单元(gru)与混合密度模型进行结合，预测概率密度函数的序列。因此，上述反应的技术问题是本领域技术人员亟待解决的问题。

技术实现要素：

4.本发明要解决的技术问题是克服上述技术的缺陷，提供一种新型维吾尔语音合成方法。
5.为解决上述技术问题，本发明提供的技术方案为一种新型维吾尔语音合成方法：包括以下步骤：
6.(1)使用两个递归神经网络组成循环神经网络；
7.(2)利用递归神经网络实现源语言的编码和目标语言的解码，编码器将变长线性序列映射到固定长度向量，并且该解码器将向量表示映射到可变长目标序列；
8.(3)利用rnn从文本序列起点开始前向读取，另一个rnn模型从文本序列终点读取；
9.(5)通过长短时记忆网络扩展记忆，用lstm的单元作一个rnn层的构建单元。
10.一种新型维吾尔语音合成系统，包括训练模块以及合成模块；
11.所述训练模块用于语言特征的构建与声学特征的提取，并将数据发送给合成部分；
12.所述合成模块用于输入数据，接受训练模块发送的数据合成语音。
13.作为改进，所述训练模块包括数据库、文本处理模块以及语音处理模块。
14.作为改进，所述合成模块包括回归模型、文本输入模块以及合成语音模块。
15.作为改进，所述语言特征的构建包括以下步骤：
16.一种新型维吾尔语音合成方法.进行前端文本处理，并生成对应的标注文件；
17.b.对标注文件进行编码处理，将每一个上下文标签映射至一个特征向量，作为dnn语言特征向量的输入
18.c.进行上采样处理，构建完成语言特征；
19.d.对语言特征采用最小最大标椎化方式进行归一化。
20.作为改进，所述对标注文件进行编码处理，将每一个上下文标签映射至一个特征向量包括以下步骤：
21.1)使用前端工具，从文本中提取音素和上下文特征；
22.2)对于训练数据的文本和音频进行对齐，获得每一个音素的开始和结束时间；
23.3)将前端工具生成的音素结构化表示的转换为相应文件，使用相同的标注文件格式。
24.作为改进，所述声学特征的提取包括以下步骤：
25.一种新型维吾尔语音合成方法.使用声码器读取语音信号的谱包络信息；
26.b.将mfcc特征转化为mgc参数，提取谱包络信息；
27.c.提取可变维度的非周期性特征，之后将语音基频特征进行转化。
28.作为改进，所述回归模型通过状态持续时间模型生成状态持续时间特征，最后状态持续时间特征和语言特征相结合所得到的特征输入到声学模型，获取声学特征，最后通过声码器合成出语音。
29.作为改进，所述文本处理模块包括文本数据、前端处理以及语言特征的构建；
30.所述语音处理模块包括语音数据以及声学特征的提取。
31.作为改进，所述文本输入模块包括输入文本数据、输入文本前端处理以及输入语言特征的构建；
32.所述合成语音模块包括生成声学特征、声码器以及合成语音。
33.本发明与现有技术相比的优点在于：基于深度学习的端到端语音合成语音自然度高，基于hmm的方法系统稳定性好，系统前端部分利用hmm获取维吾尔语固有的语言特征，后端合成部分利用深度神经网络框架建立自回归模型的语音合成方法的效果最好，合成语音的连续性和稳定性明显优于参数合成方法和端到端的合成方法，自然度达到了令人满意的效果。
附图说明
34.图1是本发明一种新型维吾尔语音合成方法的流程图。
35.图2是本发明一种新型维吾尔语音合成系统的系统框架图。
36.图3是本发明一种新型维吾尔语音合成系统的语言特征的构建流程图。
37.图4是本发明一种新型维吾尔语音合成系统的基于bilstm的语音合成方法的特征和参数预测图。
38.图5是本发明一种新型维吾尔语音合成系统的原始语音的谱图。
39.图6是本发明一种新型维吾尔语音合成系统的合成语音的谱图。
40.图7是本发明一种新型维吾尔语音合成系统的维吾尔语
‑
汉语音翻译系统图。
具体实施方式
41.下面结合附图对本发明一种新型维吾尔语音合成方法做进一步的详细说明。
42.结合附图，一种新型维吾尔语音合成方法，包括以下步骤：
43.(1)使用两个递归神经网络组成循环神经网络；
44.(2)利用递归神经网络实现源语言的编码和目标语言的解码，编码器将变长线性序列映射到固定长度向量，并且该解码器将向量表示映射到可变长目标序列；
45.(3)利用rnn从文本序列起点开始前向读取，另一个rnn模型从文本序列终点读取；
46.(5)通过长短时记忆网络扩展记忆，用lstm的单元作一个rnn层的构建单元。
47.一种新型维吾尔语音合成系统，其特征在于：包括训练模块以及合成模块；
48.所述训练模块用于语言特征的构建与声学特征的提取，并将数据发送给合成部分；
49.所述合成模块用于输入数据，接受训练模块发送的数据合成语音。
50.所述训练模块包括数据库、文本处理模块以及语音处理模块。
51.所述合成模块包括回归模型、文本输入模块以及合成语音模块。
52.所述语言特征的构建包括以下步骤：
53.a.进行前端文本处理，并生成对应的标注文件；
54.b.对标注文件进行编码处理，将每一个上下文标签映射至一个特征向量，作为dnn语言特征向量的输入
55.c.进行上采样处理，构建完成语言特征；
56.d.对语言特征采用最小最大标椎化方式进行归一化。
57.所述对标注文件进行编码处理，将每一个上下文标签映射至一个特征向量包括以下步骤：
58.1)使用前端工具，从文本中提取音素和上下文特征；
59.2)对于训练数据的文本和音频进行对齐，获得每一个音素的开始和结束时间；
60.3)将前端工具生成的音素结构化表示的转换为相应文件，使用相同的标注文件格式。
61.所述声学特征的提取包括以下步骤：
62.a.使用声码器读取语音信号的谱包络信息；
63.b.将mfcc特征转化为mgc参数，提取谱包络信息；
64.c.提取可变维度的非周期性特征，之后将语音基频特征进行转化。
65.所述回归模型通过状态持续时间模型生成状态持续时间特征，最后状态持续时间特征和语言特征相结合所得到的特征输入到声学模型，获取声学特征，最后通过声码器合成出语音。
66.所述文本处理模块包括文本数据、前端处理以及语言特征的构建；
67.所述语音处理模块包括语音数据以及声学特征的提取。
68.所述文本输入模块包括输入文本数据、输入文本前端处理以及输入语言特征的构建；
69.所述合成语音模块包括生成声学特征、声码器以及合成语音。
70.本发明具体实施方式如下：
71.如附图1
‑
6所述的实施例一：采用设计的维吾尔语前端文本处理模块提取语言特征信息，然后merlin基于神经网络的声学建模模块对语言特征矢量化，声学和语言特征进行归一化，训练声学模型，用world合成器合成语音，搭建了基于神经网络的维吾尔语音合成系统。
72.采用不同的神经网络框架进行了试验，对神经网络的输出特征mcc、bap、log f0等特征进行了对比，合成出的语音进行了客观评价，本实验中所使用的基准神经网络模型如下：
73.1)前馈神经网络dnn(deep neural network)：最简单前馈神经网络的扩展类型，在输入与输出层之间包含了多层的隐含层。
74.2)长短期记忆神经网络lstm(long short term memory)：是循环神经网络的一个变体，通过记忆单元来对rnn中隐含层进行替换[65]，如此网络即可学会存储更新数据信息以及忘记历史信息。
[0075]
3)双向长短期记忆神经网络bilstm：是由前向lstm与后向lstm组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。
[0076]
由于神经网络语音合成对语料规模的大小要求高，本实验中扩大了语料规模，收集了两年的新闻文本，然后文本进行筛选，通过文本规范化处理了特殊符号和未登录词，整理了7200条句子。在电视台直播室进行了录音工作，发音人是电视台的播音员，录制设备：录音软件：powereditor(infomedia)音频处理软件。调音台：studer onair2500。麦克风：electrol.vioce model 309a。语音文件指标：音频参数为48000hz，1536kbps。数据位数为6bit。采样率为16khz。频道为单声道。7200条句子和对应的声音文件作为训练集，100条句子作为测试集。首次采用基于dnn的神经网络进行了训练。神经网络的输入为486维的维吾尔语言特征，包括音素上下文，音节，词，韵律短语及词性等信息。神经网络的输出特征，在5毫秒帧间隔上提取60维mcc，5维bap，及log f0特征。
[0077]
本实验中用dnn神经网络、lstm神经网络模型及bilstm的神经网络框架进行了训练。训练模型的参数设置如表1所示：
[0078]
表1训练模型的参数设置
[0079][0080][0081]
对神经网络的输出特征mcc、bap、log f0等特征进行了对比，合成出的语音进行了
客观评价。表2表示基于dnn的语音合成方法结果，表3表示基于lstm的语音合成方法结果，表4表示基于bilstm的语音合成方法结果：
[0082]
表2基于dnn的语音合成方法结果
[0083][0084]
表3基于lstm的语音合成方法
[0085][0086]
表4基于bilstm的语音合成方法
[0087][0088]
如附图1、2和7所示的实施例二：基于bilstm的维吾尔语音合成系统成功的应用到维吾尔语
‑
汉语音翻译系统中，提高了语言翻译系统合成语音的自然度。维吾尔语
‑
汉语音翻译系统主要语音识别、语音合成、机器翻译等三大模块组成。
[0089]
1)在语音识别模块，对输入的语音信号通过语音识别系统进行识别，将语音信号转换成文本。
[0090]
2)在机器翻译模块，将语音识别系统的输出文本通过机器翻译系统进行翻译。
[0091]
3)语音合成模块将机器翻译模块翻译出的文本作为输入文本，通过语音合成系统，将文本内容转换成语音。
[0092]
维吾尔语
‑
汉语音翻译系统适应于广大群众应用需求，目前软件研发出安卓版供用户下载使用，通过移动设备进行交互，软件界面简单、方便，用户在使用过程一目了然。该系统识别率达到95％以上，是个非定人语音识别系统，无需指定人声音，能识别任何人的维
吾尔语。翻译部分通过端到端的神经网络快速翻译。语音合成部分同过基于bilstm的神经网络系统，将输入文本转换语音，合成效果自然度、清楚度上已经达到了令人满意的水平。本论文研究的维吾尔语音合成系统嵌入到语音翻译系统中，提高了应用价值。
[0093]
以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

再多了解一些

1/3 1 2 3 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于时频域联合损失函数的语音增强方法与流程

一种新型维吾尔语音合成方法与流程

相关文章

最热文献