农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种基于AI处理的语音合成处理系统及方法与流程

2021-07-13 16:21:00 来源：中国专利 TAG：语音合成方法系统 ai

本发明涉及语音合成技术领域，尤其涉及一种基于ai处理的语音合成处理系统及方法。

背景技术：

语音合成，又称文语转换(texttospeech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来。涉及声学、语言学、数字信号处理以及计算机科学等多个学科技术，解决的主要问题就是如何将文字信息转化为可听的声音信息。

目前来说，在广播节目大都需要通过播音员或主持人运用有声语言来传递信息，类似于独白的这种简单工作繁琐，但工作量大，目前仍需通过人工来完成，大大地降低了工作效率。且人工读白会出现的读错字、漏字、吞字等失误，降低了质量。

技术实现要素：

本发明实施例提供一种基于ai处理的语音合成处理系统及方法，以解决现有技术中广播节目大是通过播音员或主持人运用有声语言来传递信息，工作量大，通过人工完成，降低了工作效率。且人工读白会出现的读错字、漏字、吞字等失误，降低了质量的技术问题。

本发明实施例采用下述技术方案：一种基于ai处理的语音合成处理系统及方法，包括以下步骤：

s1：获取文本信息；

s2：文本与韵律分析模型，对文本分词、发音与韵律上上标注；

s3：声纹模型；

s4：声音合成。

进一步的，所述获取文本信息的步骤为：获取语音输入信息，采用预设的转换模型将语音输入信息转换为文本信息。

进一步的，所述文本与韵律分析模型的具体步骤为：文本信息获取完成后，然后对文本进行分词和标注，分词会将文本切成一个个词语，标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息，根据分词和标注的结果提取文本的特征，将文本变成一个个文本特征向量组成的序列。

进一步的，所述声纹模型的步骤为：声纹模型对文本特征向量组成的序列进行处理，也就是从文本特征向量到声纹特征向量的映射，一个个文本特征向量经过声纹模型的处理，会变成一个个声纹特征向量，还会将语音信息中能反映说话人身份特征的个性特征参数提取出来，生成具有特定声纹的语音信息。

进一步，所述声音合成包括声码器，所述声码器可以根据声纹特征反变换得到语音波形，反变换中可改变语速语调，还能利用少量语音获得特人的音色。

进一步的，所述声码器的步骤为：声码器对声纹特征向量处理，通过声纹特征反变换得到相应的语音波形，依次进行拼接就得到了整个文本的合成语音。

本发明实施例采用的上述至少一个技术方案能够达到以下有益效果：

本发明通过其建立声纹模型，将语音信号中能反映说话人身份特征的个性特征参数提取出来，生成具有特定声纹的语音信息，通过声纹特征反变换得到相应的语音波形，依次进行拼接就得到了整个文本的合成语音，能够应用于广播节目中，提高了工作效率和质量，声纹特征向量能够反映语音信号中的一些关键信息，反变换会将关键信息还原全量信息，反变换的过程中能够对参数进行调整，从而改变合成语音的语调和语速，还能将合成的语音具备特定的音色，使得播出的语音更加逼真。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为实施例中一种基于ai处理的语音合成处理系统及方法的框架图；

图2为实施例中一种基于ai处理的语音合成处理系统及方法的工作流程图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

参照图1至图2所示，本发明实施例提供一种基于ai处理的语音合成处理系统及方法，包括以下步骤：

s1：获取文本信息；

s2：文本与韵律分析模型，对文本分词、发音与韵律上上标注；

s3：声纹模型；

s4：声音合成。

具体地，所述获取文本信息的步骤为：获取语音输入信息，采用预设的转换模型将语音输入信息转换为文本信息。

具体地，所述文本与韵律分析模型的具体步骤为：文本信息获取完成后，然后对文本进行分词和标注，分词会将文本切成一个个词语，标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息，根据分词和标注的结果提取文本的特征，将文本变成一个个文本特征向量组成的序列。

具体地，所述声纹模型的步骤为：声纹模型对文本特征向量组成的序列进行处理，也就是从文本特征向量到声纹特征向量的映射，一个个文本特征向量经过声纹模型的处理，会变成一个个声纹特征向量，还会将语音信息中能反映说话人身份特征的个性特征参数提取出来，生成具有特定声纹的语音信息；声纹特征向量能够反映语音信号中的一些关键信息，反变换会将关键信息还原全量信息，反变换的过程中能够对参数进行调整，从而改变合成语音的语调和语速，还能将合成的语音具备特定的音色。

具体地，所述声音合成包括声码器，所述声码器可以根据声纹特征反变换得到语音波形，反变换中可改变语速语调，还能利用少量语音获得特人的音色。

具体地，所述声码器的步骤为：声码器对声纹特征向量处理，通过声纹特征反变换得到相应的语音波形，依次进行拼接就得到了整个文本的合成语音。

以上所述仅为本发明的实施例而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

技术特征：

1.一种基于ai处理的语音合成处理系统及方法，其特征在于，包括以下步骤：

s1：获取文本信息；

s2：文本与韵律分析模型，对文本分词、发音与韵律上上标注；

s3：声纹模型；

s4：声音合成。

2.根据权利要求1所述的一种基于ai处理的语音合成处理系统，其特征在于：所述获取文本信息的步骤为：获取语音输入信息，采用预设的转换模型将语音输入信息转换为文本信息。

3.根据权利要求1所述的一种基于ai处理的语音合成处理系统，其特征在于：所述文本与韵律分析模型的具体步骤为：文本信息获取完成后，然后对文本进行分词和标注，分词会将文本切成一个个词语，标注则会注明每个字的发音以及哪里是重音、哪里需要停顿等韵律信息，根据分词和标注的结果提取文本的特征，将文本变成一个个文本特征向量组成的序列。

4.根据权利要求1所述的一种基于ai处理的语音合成处理系统，其特征在于：所述声纹模型的步骤为：声纹模型对文本特征向量组成的序列进行处理，也就是从文本特征向量到声纹特征向量的映射，一个个文本特征向量经过声纹模型的处理，会变成一个个声纹特征向量，还会将语音信息中能反映说话人身份特征的个性特征参数提取出来，生成具有特定声纹的语音信息。

5.根据权利要求1所述的一种基于ai处理的语音合成处理系统，其特征在于：所述声音合成包括声码器，所述声码器可以根据声纹特征反变换得到语音波形，反变换中可改变语速语调，还能利用少量语音获得特人的音色。

6.根据权利要求5所述的一种基于ai处理的语音合成处理系统，其特征在于：所述声码器的步骤为：声码器对声纹特征向量处理，通过声纹特征反变换得到相应的语音波形，依次进行拼接就得到了整个文本的合成语音。

技术总结
本发明公开了一种基于AI处理的语音合成处理系统及方法，属于语音合成技术领域，包括以下步骤：获取文本信息；文本与韵律分析模型，对文本分词、发音与韵律上上标注；声纹模型；声音合成。本发明通过其建立声纹模型，将语音信号中能反映说话人身份特征的个性特征参数提取出来，生成具有特定声纹的语音信息，通过声纹特征反变换得到相应的语音波形，依次进行拼接就得到了整个文本的合成语音，能够应用于广播节目中，提高了工作效率和质量，声纹特征向量能够反映语音信号中的一些关键信息，反变换会将关键信息还原全量信息，反变换的过程中能够对参数进行调整，改变合成语音的语调和语速，还能将合成的语音具备特定的音色，使得播出的语音更加逼真。

技术研发人员：尤文杰;邬锡敏
受保护的技术使用者：上海红阵信息科技有限公司
技术研发日：2021.03.30
技术公布日：2021.07.13

再多了解一些

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种基于AI处理的语音合成处理系统及方法与流程

相关文章

最热文献