农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

一种融合词汇及音素发音特征的情感语音合成方法及系统与流程

2021-08-13 19:22:00 来源：中国专利 TAG：音素人工智能发音词汇融合

本发明属于人工智能领域，具体涉及一种融合词汇及音素发音特征的情感语音合成方法及系统。

背景技术：

语言交互是人类最早的交流方式之一，因此语音成为了人类表达情感的主要方式。随着人机交互的兴起，让对话机器人拥有类似人的情感，说话听起来像真人，成为一种迫切的需求。目前情感主要的分类方式是上世纪ekman提出的7种情感，分别为：中性、开心、悲伤、生气、害怕、厌恶、惊讶。

语音合成技术随着近几年深度学习的兴起，越发成熟起来，让机器的发音像一个播音员一样已经可以实现。但是，让机器像人一样，发出带情感的语音，仍然是一个非常困难的问题，当前主流的情感语音合成可以分为两种方法。一种是基于隐马尔可夫模型这种传统机器学习的分段方法；另外一种是基于深度学习的端到端方法。基于隐马尔可夫方法合成的语音机械感很强，听起来不自然，目前已经非常少用到。基于深度学习的方法合成的语音相对比较自然。但是目前基于深度学习合成的情感语音，也只是简单的将情感标签融入文本特征中，合成的情感语音质量并不能得到有效保证。

在目前的技术中，由于融入情感信息方式比较简单，通常只是将情感的标签简单的融合到文本特征中，而没有考虑人在情感语音发音中的特点，导致模型不能很好的学习到情感信息，所以合成的情感语音比较生硬，不自然。

技术实现要素：

为了解决现有技术中存在的上述技术问题，本发明提出了一种融合词汇及音素发音特征的情感语音合成方法及系统，其具体技术方案如下：

一种融合词汇及音素发音特征的情感语音合成方法，包括如下步骤：

步骤一，通过录音采集设备，采集文本及情感标签；

步骤二，对所述文本进行预处理，获取音素及音素对齐信息，生成分词及分词语义信息；

步骤三，分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息；

步骤四，分别训练分词语速预测网络net_wordspeed、分词能量预测网络net_wordenergy、音素基频预测网络net_phonemef0；

步骤五，通过tacotron2的encoder，获取音素隐含信息，通过net_wordspeed，获取分词语速隐含信息，通过net_wordenergy，获取分词能量隐含信息，通过net_phonemef0，获取音素基频隐含信息；

步骤六，拼接所述音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息，合成情感语音。

进一步的，所述步骤一具体包括步骤s1：通过录音采集设备，采集涵盖中性、开心、悲伤、生气、害怕、厌恶、惊讶的7种情感类型的语音音频，表示为，语音对应的文本，表示为，语音对应的情感类型，表示为。

进一步的，所述步骤二具体包括如下步骤：

步骤s2，对采集的文本，通过pypinyin工具包转换为对应的音素文本，表示为，然后将音素文本和得到的通过语音处理工具软件htk，获取文本的时间对齐信息，生成包含每个音素发音时长的音素-时长文本，表示为；

步骤s3，对文本，通过结巴分词工具进行分词，即在原始文本中插入分词边界标识符，生成分词文本，将分词文本输入到输出宽度为d中文预训练bert网络，得到维度为n×d的分词特征，具体的，

其中，是一个维度为d的向量。

进一步的，所述步骤三具体包括如下步骤：

步骤s4，利用生成的和生成的分词文本计算每个分词的发音时长，得到分词-时长文本；

步骤s5，通过得到的分词-时长文本计算分词的语速信息，并将语速归为5类，分别为：慢、较慢、一般、较快、快，从而得到分词文本对应的语速类别标签；

步骤s6，对所述音频和分词-时长文本，通过分词持续时间内音频幅值的平方和计算分词的发音能量信息，并将能量信息归为五类，分别为：低、较低、中、较高、高，从而得到分词文本对应的能量标签；

步骤s7，对所述音频和音素-时长文本，通过librosa工具包计算音素发音的基频信息，并将基频信息根据基频高低归为五类，分别为：低、较低、中、较高、高，从而得到音素文本对应的基频标签。

进一步的，所述步骤四具体包括如下步骤：

步骤s8，训练分词语速预测网络net_wordspeed：将情感类型和分词特征作为网络输入，语速类别标签作为网络目标，输入到深度学习序列预测网络bilstm-crf，然后通过深度学习的网络训练得到分词语速预测网络net_wordspeed；

步骤s9，训练分词能量预测网络net_wordenergy：将情感类型和分词特征作为网络输入，能量标签作为网络目标，输入到深度学习序列预测网络blstm-crf，通过与步骤s8同样的处理方法，得到分词能量预测网络net_wordenergy；

步骤s10，训练音素基频预测网络net_phonemef0：将情感类型和音素文本都通过one-hot转换技术，转换为向量形式后，作为网络输入，基频标签通过one-hot转换技术，转换为向量形式后，作为网络目标，输入到序列预测深度学习序列预测网络blstm-crf，通过与步骤s8一样的训练方法，得到音素基频预测网络net_phonemef0。

进一步的，所述步骤s8具体包括如下步骤：

步骤a：情感类型，通过one-hot向量转换技术，转换为宽度为7的one-hot向量，然后通过宽度为d的单层全连接网络，转换为维度为d的标签输入隐含特征；

步骤b：将得到的和在第一个维度进行拼接，得到网络输入，具体的，

步骤c：将分词长度n为的标签，通过one-hot向量转换技术，转换为宽度为5的one-hot向量，最终得到维度为n×5的网络标签矩阵，具体的，

其中，是一个维度为5的向量；

步骤d：将网络输入和网络标签矩阵，输入到blstm-crf网络中进行训练，通过网络的自动学习，得到可以预测文本语速的语速预测网络net_wordspeed。

进一步的，所述步骤五具体包括如下步骤：

步骤s11，通过tacotron2的encoder，获取音素隐含信息：将对应的音素文本输入到tacotron2网络的encoder网络，得到encoder网络的输出特征；

步骤s12，通过net_wordspeed，获取分词语速隐含信息：将分词特征输入到分词语速预测网络net_wordspeed，得到bilstm输出的语速隐含特征，根据每个分词包含的音素个数，对语速隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的语速隐含特征；

步骤s13，通过net_wordenergy，获取分词能量隐含信息：将分词特征输入到分词能量预测网络net_wordenergy，得到bilstm输出的能量隐含特征，根据每个分词包含的音素个数，对能量隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的能量隐含特征；

步骤s14，通过net_phonemef0，获取音素基频隐含信息：将音素文本输入到音素基频预测网络net_phonemef0，得到bilstm输出的音素基频隐含特征。

进一步的，所述步骤六具体包括如下步骤：

步骤s15将、、、，进行拼接，得到最终tacotron2的decoder解码器网络的输入，具体的，

步骤s16，将所述，输入到tacotron2的decoder解码器网络中，然后通过tacotrn2网络的后续结构，解码并合成得到最终的情感语音。

一种融合词汇及音素发音特征的情感语音合成系统，包括：

文本采集模块，用于采用http传输，采集需要合成的文本内容及情感标签；

文本预处理模块，用于将采集到的文本进行预处理，对所述文本进行分词、音素转换操作，包括：对文本依次进行文本符号统一转换为英文符号、数字格式统一转换为中文文本、对中文本分词、将分词文本通过预训练bert转换成语义向量表示形式、文本通过pypinyin工具包转换得到音素文本，所述情感标签通过one-hot转换得到情感标签的向量表示，生成可用于神经网络处理的数据；

情感语音合成模块，用于通过设计的网络模型处理文本及情感信息，合成情感语音；

数据存储模块，用于利用mysql数据库，存储已经合成的情感语音；

合成语音调度模块，用于决策，采用模型合成语音，还是从数据库调用已合成语音，作为输出，并开放http端口用于输出合成好的情感语音。

进一步的，所述输出优先采用已合成情感语音，其次采用模型合成以提升系统响应速度。

本发明的优点：

1.本发明的情感语音合成方法，通过控制词语的发音控制间接控制合成语音的情感，由于词语是发音韵律的基本单位，人通过控制不同词语发音的音量、语速、基频来信息表达不同的情感，所以通过模拟人类发音表达情感的方式进行情感语音合成，能够更好的合成蕴含语音的情感，使得合成的语音更加自然；

2.本发明的情感语音合成方法，利用独立的语速预测网络、能量预测网络和基频预测网络预测关于情感发音的三个要素，所以可以通过对独立网络的输出通过一个简单的系数进行相乘调整的方式，便捷的控制最终输出语音的效果；

3.本发明的情感语音合成方法，利用tacotron2作为骨架网络，能够有效提升最终语音合成的质量；

4、本发明的情感语音合成系统配置有情感语音调用接口，能够通过简单的http调用就能合成带情感的高质量情感语音，对于需要进行人机语音交互的场景，能够极大提高用户使用体验感。例如用于智能电话客服对话场景，地图智能导航对话场景，儿童教育中的对话机器人交互场景，银行、机场等人形机器人对话交互场景等。

附图说明

图1为本发明的情感语音合成系统的结构示意图；

图2为本发明的情感语音合成方法的流程示意图；

图3为本发明的情感语音合成方法的网络结构示意图；

图4语音合成系统tacotron2网络结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图，对本发明作进一步详细说明。

如图1所示，一种融合词汇及音素发音特征的情感语音合成系统，包括：

文本采集模块，用于采用http传输，采集需要合成的文本内容及情感标签；

文本预处理模块，用于将采集到的文本进行预处理，对所述文本进行分词、音素转换操作，包括：对文本依次进行文本符号统一转换为英文符号、数字格式统一转换为中文文本、对中文本分词、将分词文本通过预训练bert转换成语义向量表示形式、文本通过pypinyin工具包转换得到音素文本，所述情感标签通过one-hot转换得到情感标签的向量表示，生成可用于神经网络处理的数据；

情感语音合成模块，用于通过设计的网络模型处理文本及情感信息，合成情感语音；

数据存储模块，用于利用mysql数据库，存储已经合成的情感语音；

合成语音调度模块，用于决策，采用模型合成语音，还是从数据库调用已合成语音，作为输出，并开放http端口用于输出合成好的情感语音，其中输出的情感语音优先采用已合成情感语音，其次采用模型合成以提升系统响应速度。

如图2-图4所示，一种融合词汇及音素发音特征的情感语音合成方法，包括如下步骤：

步骤s1，采集文本及情感标签：通过录音采集设备，采集涵盖中性、开心、悲伤、生气、害怕、厌恶、惊讶的7种情感类型的语音音频，表示为，语音对应的文本，表示为，语音对应的情感类型，表示为；

步骤s2，预处理文本，获取音素及音素对齐信息：对步骤s1采集的文本，通过pypinyin工具包转换为对应的音素文本，表示为，然后将音素文本和步骤s1得到的通过语音处理工具软件htk，获取文本的时间对齐信息，生成包含每个音素发音时长的音素-时长文本，表示为；

步骤s3，预处理文本，生成分词及分词语义信息：对文本，通过结巴分词工具进行分词，即在原始文本中插入分词边界标识符，生成分词文本，将分词文本输入到输出宽度为d中文预训练bert网络，得到维度为n×d的分词特征，具体的，

其中，是一个维度为d的向量；

步骤s4，计算分词发音时长信息：利用步骤s2生成的和步骤s3生成的分词文本计算每个分词的发音时长，得到分词-时长文本；

步骤s5，计算分词发音语速信息：通过步骤s4得到的分词-时长文本计算分词的语速信息，并将语速归为5类，分别为：慢、较慢、一般、较快、快，从而得到分词文本对应的语速类别标签；

步骤s6，计算分词发音能量信息：对步骤s1得到的音频和步骤s4得到的分词-时长文本，通过分词持续时间内音频幅值的平方和计算分词的发音能量信息，并将能量信息归为五类，分别为：低、较低、中、较高、高，从而得到分词文本对应的能量标签；

步骤s7，计算音素基频信息：对步骤s1得到的音频和步骤s2得到的音素-时长文本，通过librosa工具包计算音素发音的基频信息，并将基频信息根据基频高低归为五类，分别为：低、较低、中、较高、高，从而得到音素文本对应的基频标签；

步骤s8，训练分词语速预测网络net_wordspeed：将步骤s1得到的情感类型和步骤s3得到的分词特征作为网络输入，步骤s5得到的语速类别标签作为网络目标，输入到深度学习序列预测网络bilstm-crf，采用bilstm双向长短期记忆网络的原因是因为bilstm特别适合处理序列类任务，例如语音信号处理，文本信号处理等，然后通过深度学习的网络训练得到分词语速预测网络net_wordspeed。具体的，包括如下步骤：

步骤a：情感类型，通过one-hot向量转换技术，转换为宽度为7的one-hot向量，然后通过宽度为d的单层全连接网络，转换为维度为d的标签输入隐含特征；

步骤b：将步骤s3和步骤a得到的和在第一个维度进行拼接，得到网络输入，具体的，

步骤c：将分词长度n为的标签，通过one-hot向量转换技术，转换为宽度为5的one-hot向量，最终得到维度为n×5的网络标签矩阵，具体的，

其中，是一个维度为5的向量；

步骤d：将步骤b得到的网络输入和步骤c得到的网络标签矩阵，输入到blstm-crf网络中进行训练，通过网络的自动学习，得到可以预测文本语速的语速预测网络net_wordspeed。

步骤s9，训练分词能量预测网络net_wordenergy：将步骤s1得到的情感类型和步骤s3得到的分词特征作为网络输入，步骤s6得到的能量标签作为网络目标，输入到深度学习序列预测网络blstm-crf，通过与步骤s8同样的处理方法，得到分词能量预测网络net_wordenergy。

步骤s10，训练音素基频预测网络net_phonemef0：将步骤s1得到的情感类型和步骤s2得到的音素文本都通过one-hot转换技术，转换为向量形式后，作为网络输入，步骤s7得到的基频标签通过one-hot转换技术，转换为向量形式后，作为网络目标，输入到深度学习序列预测网络blstm-crf，通过与步骤s8一样的训练方法，得到音素基频预测网络net_phonemef0。

步骤s11，通过tacotron2的encoder，获取音素隐含信息：将步骤s2得到的输入到tacotron2网络的encoder网络，得到encoder网络的输出特征；

步骤s12，通过net_wordspeed，获取分词语速隐含信息：将步骤s3得到的分词特征输入到步骤s8得到的分词语速预测网络net_wordspeed，得到bilstm输出的语速隐含特征，根据每个分词包含的音素个数，对语速隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的语速隐含特征；

步骤s13，通过net_wordenergy，获取分词能量隐含信息：将步骤s3得到的分词特征输入到步骤s9得到的分词能量预测网络net_wordenergy，得到bilstm输出的能量隐含特征，根据每个分词包含的音素个数，对能量隐含特征通过复制的在时间维度进行长度补齐，得到长度为音素个数的能量隐含特征；

步骤s14，通过net_phonemef0，获取音素基频隐含信息：将步骤s2得到的音素文本输入到步骤s10得到的音素基频预测网络net_phonemef0，得到bilstm输出的音素基频隐含特征；

步骤s15，拼接音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息：将步骤s11得到，步骤s12得到，步骤s13得到，步骤s14得到，进行拼接，得到最终tacotron2的decoder解码器网络的输入，具体的，

步骤s16，合成情感语音：将步骤s15得到的，输入到tacotron2的decoder解码器网络中，然后通过tacotrn2网络的后续结构，解码并合成得到最终的情感语音。

综上所述，本实施提供的方法，通过控制文本词汇的发音，提高了情感语音特征生成的合理性，能够提高最终合成的情感语音的质量。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于GFCC的改进特征参数的语种识别方法与流程

一种融合词汇及音素发音特征的情感语音合成方法及系统与流程

相关文章

最热文献