一种基于人工智能的语音合成方法与流程

2022-07-30 22:23:29 来源：中国专利 TAG：

1.本发明涉及语音合成技术领域，具体为一种基于人工智能的语音合成方法。

背景技术：

2.随着人工智能技术的发展，语音合成技术越来越受到人们的重视，语音合成被广泛运用于智能阅读、智能播报等应用场景。如根据文本播放语音，或在具体流程中播放预设语音。
3.现有的语音合成技术，主要采用循环神经网络模型进行语音合成，但利用循环神经网络模型进行语音合成的方式存在合成效率低的问题。

技术实现要素：

4.本发明的目的在于提供一种基于人工智能的语音合成方法，以解决上述背景技术中提出的问题。
5.为实现上述目的，本发明提供如下技术方案：一种基于人工智能的语音合成方法，包括如下步骤：
6.s1、获取语音数据，并根据语音数据生成语音样本数据集；
7.s2、对语音样本数据集进行识别训练，获取语音样本对应的文本数据；
8.s3、对语音数据进行分割处理，获得分割后的单字语音数据，与文本数据建立映射关系；
9.s4、将不同的单字语音数据重新合成为连续的语音数据，并与语音文本数据集进行比较；
10.s5：通过步骤s4的对比结果建立语音合成模型的损失函数；
11.s6：利用损失函数对语音合成模型进行训练，对模型进行调整，获取最终的语音合成模型；
12.s7：利用步骤s6获得的语音合成模型，通过文本输出合成后的语音信息。
13.优选的，所述步骤s1中，建立语音样本数据集前对语音数据进行分析处理，去除无效的语音信息。
14.优选的，所述步骤s2中，识别语音后获得的文本数据进行校正处理，剔除错别字。
15.优选的，所述步骤s3中，对于分割后的单字语音数据进行处理，删除单字语音前后的干扰音段。
16.优选的，所述步骤s4中，按照步骤s2识别出来的文本信息，将步骤s3中的单字语音数据重新按照顺序进行组合，生成连续的语音信息。
17.优选的，所述步骤s5中，生成的损失函数使步骤s4中所生成的语音信息趋向于步骤s1中的语音数据。
18.优选的，所述步骤s6中，语音合成模型为步骤s4中将单字语音数据重新合成为连续的语音数据的模型。
19.优选的，所述步骤s7中，语音合成模型接收待合成语音的文本信息，利用映射关系获取对应的单字语音数据，并将单字语音数据重新合成为连续的语音数据，之后利用损失函数进行处理，最后输出合成后的语音信息。
20.与现有技术相比，本发明的有益效果是：本发明通过单字语音数据合成为连续的语音数据来实现语音合成的目的，并通过重复训练处理利用损失函数来降低合成后语音的不协调杂音问题，保障合成后语音的连贯性；相较于传统的循环神经网络模型进行语音合成的方式，具有更高的效率。
附图说明
21.图1为本发明的流程示意。
具体实施方式
22.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
23.请参阅图1，本发明提供一种技术方案：一种基于人工智能的语音合成方法，包括如下步骤：
24.s1、获取语音数据，并根据语音数据生成语音样本数据集；
25.s2、对语音样本数据集进行识别训练，获取语音样本对应的文本数据；
26.s3、对语音数据进行分割处理，获得分割后的单字语音数据，与文本数据建立映射关系；
27.s4、将不同的单字语音数据重新合成为连续的语音数据，并与语音文本数据集进行比较；
28.s5：通过步骤s4的对比结果建立语音合成模型的损失函数；
29.s6：利用损失函数对语音合成模型进行训练，对模型进行调整，获取最终的语音合成模型；
30.s7：利用步骤s6获得的语音合成模型，通过文本输出合成后的语音信息。
31.进一步的，所述步骤s1中，建立语音样本数据集前对语音数据进行分析处理，去除无效的语音信息。
32.进一步的，所述步骤s2中，识别语音后获得的文本数据进行校正处理，剔除错别字。
33.进一步的，所述步骤s3中，对于分割后的单字语音数据进行处理，删除单字语音前后的干扰音段。
34.进一步的，所述步骤s4中，按照步骤s2识别出来的文本信息，将步骤s3中的单字语音数据重新按照顺序进行组合，生成连续的语音信息。
35.进一步的，所述步骤s5中，生成的损失函数使步骤s4中所生成的语音信息趋向于步骤s1中的语音数据。
36.进一步的，所述步骤s6中，语音合成模型为步骤s4中将单字语音数据重新合成为
连续的语音数据的模型。
37.进一步的，所述步骤s7中，语音合成模型接收待合成语音的文本信息，利用映射关系获取对应的单字语音数据，并将单字语音数据重新合成为连续的语音数据，之后利用损失函数进行处理，最后输出合成后的语音信息。
38.工作原理：在步骤s1中，利用语音数据建立样本数据集，并在建立数据集之前，对语音信息进行分析识别，去除无效的语音信息，保障数据集的有效。步骤s2中，通过语音识别技术对于语音样本数据集获取对应的文本数据，同时对获得的文本数据进行校正处理，以保障文本数据的有效。后续步骤s3中，对语音进行分割，获取单字语音数据，并形成与对应文本的映射，同时对于单字语音数据进行处理，删除单字语音前后的干扰音段，保障语音信息的纯净。步骤s4中，单字语音数据按照文本信息重新组合成连续的语音数据，并与预先的语音信息进行比对，在步骤s5中建立损失函数，通过损失函数使重新组合后的语音信息趋向于最先的语音信息。步骤s6中，利用损失信息建立语音合成模型，并重复训练完善模型；在步骤s7中，接收到合成语音的文本信息后，利用映射关系获取单字语音数据，模型将单字语音数据重新合成为连续的语音数据，同时通过损失函数进行处理，最后输出合成后的语音信息。
39.尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：
1.一种基于人工智能的语音合成方法，其特征在于：包括如下步骤：s1、获取语音数据，并根据语音数据生成语音样本数据集；s2、对语音样本数据集进行识别训练，获取语音样本对应的文本数据；s3、对语音数据进行分割处理，获得分割后的单字语音数据，与文本数据建立映射关系；s4、将不同的单字语音数据重新合成为连续的语音数据，并与语音文本数据集进行比较；s5：通过步骤s4的对比结果建立语音合成模型的损失函数；s6：利用损失函数对语音合成模型进行训练，对模型进行调整，获取最终的语音合成模型；s7：利用步骤s6获得的语音合成模型，通过文本输出合成后的语音信息。2.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s1中，建立语音样本数据集前对语音数据进行分析处理，去除无效的语音信息。3.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s2中，识别语音后获得的文本数据进行校正处理，剔除错别字。4.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s3中，对于分割后的单字语音数据进行处理，删除单字语音前后的干扰音段。5.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s4中，按照步骤s2识别出来的文本信息，将步骤s3中的单字语音数据重新按照顺序进行组合，生成连续的语音信息。6.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s5中，生成的损失函数使步骤s4中所生成的语音信息趋向于步骤s1中的语音数据。7.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s6中，语音合成模型为步骤s4中将单字语音数据重新合成为连续的语音数据的模型。8.根据权利要求1所述的一种基于人工智能的语音合成方法，其特征在于：所述步骤s7中，语音合成模型接收待合成语音的文本信息，利用映射关系获取对应的单字语音数据，并将单字语音数据重新合成为连续的语音数据，之后利用损失函数进行处理，最后输出合成后的语音信息。

技术总结
本发明涉及语音合成技术领域，具体公开了一种基于人工智能的语音合成方法，包括如下步骤：S1、获取语音数据，并根据语音数据生成语音样本数据集；S2、对语音样本数据集进行识别训练，获取语音样本对应的文本数据；S3、对语音数据进行分割处理，获得分割后的单字语音数据，与文本数据建立映射关系；S4、将不同的单字语音数据重新合成为连续的语音数据，并与语音文本数据集进行比较；S5：通过步骤S4的对比结果建立语音合成模型的损失函数；S6：利用损失函数对语音合成模型进行训练，对模型进行调整，获取最终的语音合成模型；S7：利用步骤S6获得的语音合成模型，通过文本输出合成后的语音信息；本发明实现了根据文本合成语音数据。本发明实现了根据文本合成语音数据。本发明实现了根据文本合成语音数据。

技术研发人员：黄雪澄
受保护的技术使用者：南京小灿灿网络科技有限公司
技术研发日：2022.03.28
技术公布日：2022/7/29

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于交叉门控并行卷积网络的说话人辨识方法

一种基于人工智能的语音合成方法与流程

相关文献

最热文献