农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种融合词汇及音素发音特征的情感语音合成方法及系统与流程

2021-08-13 19:22:00 来源：中国专利 TAG：音素人工智能发音词汇融合

技术特征：

1.一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，包括如下步骤：

步骤一，通过录音采集设备，采集文本及情感标签；

步骤二，对所述文本进行预处理，获取音素及音素对齐信息，生成分词及分词语义信息；

步骤三，分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息；

步骤四，分别训练分词语速预测网络net_wordspeed、分词能量预测网络net_wordenergy、音素基频预测网络net_phonemef0；

步骤五，通过tacotron2的encoder，获取音素隐含信息，通过net_wordspeed，获取分词语速隐含信息，通过net_wordenergy，获取分词能量隐含信息，通过net_phonemef0，获取音素基频隐含信息；

步骤六，拼接所述音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息，合成情感语音。

2.如权利要求1所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤一具体包括步骤s1：通过录音采集设备，采集中性、开心、悲伤、生气、害怕、厌恶、惊讶的7种情感类型的语音音频，表示为，语音对应的文本，表示为，语音对应的情感类型，表示为。

3.如权利要求2所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤二具体包括如下步骤：

步骤s2，对采集的文本，通过pypinyin工具包转换为对应的音素文本，表示为，然后将音素文本和得到的通过语音处理工具软件htk，获取文本的时间对齐信息，生成包含每个音素发音时长的音素-时长文本，表示为；

步骤s3，对文本，通过结巴分词工具进行分词，即在原始文本中插入分词边界标识符，生成分词文本，将分词文本输入到输出宽度为d中文预训练bert网络，得到维度为n×d的分词特征，具体的，

其中，是一个维度为d的向量。

4.如权利要求3所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤三具体包括如下步骤：

步骤s4，利用生成的和生成的分词文本计算每个分词的发音时长，得到分词-时长文本；

步骤s5，通过得到的分词-时长文本计算分词的语速信息，并将语速归为5类，分别为：慢、较慢、一般、较快、快，从而得到分词文本对应的语速类别标签；

步骤s6，对所述音频和分词-时长文本，通过分词持续时间内音频幅值的平方和计算分词的发音能量信息，并将能量信息归为五类，分别为：低、较低、中、较高、高，从而得到分词文本对应的能量标签；

步骤s7，对所述音频和音素-时长文本，通过librosa工具包计算音素发音的基频信息，并将基频信息根据基频高低归为五类，分别为：低、较低、中、较高、高，从而得到音素文本对应的基频标签。

5.如权利要求4所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤四具体包括如下步骤：

步骤s8，训练分词语速预测网络net_wordspeed：将情感类型和分词特征作为网络输入，语速类别标签作为网络目标，输入到深度学习序列预测网络bilstm-crf，然后通过深度学习的网络训练得到分词语速预测网络net_wordspeed；

步骤s9，训练分词能量预测网络net_wordenergy：将情感类型和分词特征作为网络输入，能量标签作为网络目标，输入到深度学习序列预测网络blstm-crf，通过与步骤s8同样的处理方法，得到分词能量预测网络net_wordenergy；

步骤s10，训练音素基频预测网络net_phonemef0：将情感类型和音素文本都通过one-hot转换技术，转换为向量形式后，作为网络输入，基频标签通过one-hot转换技术，转换为向量形式后，作为网络目标，输入到序列预测深度学习序列预测网络blstm-crf，通过与步骤s8一样的训练方法，得到音素基频预测网络net_phonemef0。

6.如权利要求5所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤s8具体包括如下步骤：

步骤a：情感类型，通过one-hot向量转换技术，转换为宽度为7的one-hot向量，然后通过宽度为d的单层全连接网络，转换为维度为d的标签输入隐含特征；

步骤b：将得到的和在第一个维度进行拼接，得到网络输入，具体的，

步骤c：将分词长度n为的标签，通过one-hot向量转换技术，转换为宽度为5的one-hot向量，最终得到维度为n×5的网络标签矩阵，具体的，

其中，是一个维度为5的向量；

步骤d：将网络输入和网络标签矩阵，输入到blstm-crf网络中进行训练，通过网络的自动学习，得到可以预测文本语速的语速预测网络net_wordspeed。

7.如权利要求5所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤五具体包括如下步骤：

步骤s11，通过tacotron2的encoder，获取音素隐含信息：将对应的音素文本输入到tacotron2网络的encoder网络，得到encoder网络的输出特征；

步骤s12，通过net_wordspeed，获取分词语速隐含信息：将分词特征输入到分词语速预测网络net_wordspeed，得到bilstm输出的语速隐含特征，根据每个分词包含的音素个数，对语速隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的语速隐含特征；

步骤s13，通过net_wordenergy，获取分词能量隐含信息：将分词特征输入到分词能量预测网络net_wordenergy，得到bilstm输出的能量隐含特征，根据每个分词包含的音素个数，对能量隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的能量隐含特征；

步骤s14，通过net_phonemef0，获取音素基频隐含信息：将音素文本输入到音素基频预测网络net_phonemef0，得到bilstm输出的音素基频隐含特征。

8.如权利要求7所述的一种融合词汇及音素发音特征的情感语音合成方法，其特征在于，所述步骤六具体包括如下步骤：

步骤s15将、、、，进行拼接，得到最终tacotron2的decoder解码器网络的输入，具体的，

步骤s16，将所述，输入到tacotron2的decoder解码器网络中，然后通过tacotrn2网络的后续结构，解码并合成得到最终的情感语音。

9.一种融合词汇及音素发音特征的情感语音合成系统，其特征在于，包括：

文本采集模块，用于采用http传输，采集需要合成的文本内容及情感标签；

文本预处理模块，用于将采集到的文本进行预处理，对所述文本进行分词、音素转换操作，包括：对文本依次进行文本符号统一转换为英文符号、数字格式统一转换为中文文本、对中文本分词、将分词文本通过预训练bert转换成语义向量表示形式、文本通过pypinyin工具包转换得到音素文本，所述情感标签通过one-hot转换得到情感标签的向量表示，生成可用于神经网络处理的数据；

情感语音合成模块，用于通过设计的网络模型处理文本及情感信息，合成情感语音；

数据存储模块，用于利用mysql数据库，存储已经合成的情感语音；

合成语音调度模块，用于决策，采用模型合成语音，还是从数据库调用已合成语音，作为输出，并开放http端口用于输出合成好的情感语音。

10.如权利要求9所述的融合词汇及音素发音特征的情感语音合成系统，其特征在于，所述输出优先采用已合成情感语音，其次采用模型合成以提升系统响应速度。

技术总结
本发明属于人工智能领域，具体涉及一种融合词汇及音素发音特征的情感语音合成方法及系统，该方法为：通过录音采集设备，采集文本及情感标签，对所述文本进行预处理，获取音素及音素对齐信息，生成分词及分词语义信息，分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息，分别训练分词语速预测网络、分词能量预测网络、音素基频预测网络，获取并拼接音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息，合成情感语音。本发明通过将与情感发音有关的词汇及音素发音特征融合到端到端语音合成模型中去，能够使得合成的情感语音更加自然。

技术研发人员：郑书凯;李太豪;裴冠雄
受保护的技术使用者：之江实验室
技术研发日：2021.05.31
技术公布日：2021.08.13

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于GFCC的改进特征参数的语种识别方法与流程

一种融合词汇及音素发音特征的情感语音合成方法及系统与流程

相关文章

最热文献