技术特征:
1.一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,包括如下步骤:
步骤一,通过录音采集设备,采集文本及情感标签;
步骤二,对所述文本进行预处理,获取音素及音素对齐信息,生成分词及分词语义信息;
步骤三,分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息;
步骤四,分别训练分词语速预测网络net_wordspeed、分词能量预测网络net_wordenergy、音素基频预测网络net_phonemef0;
步骤五,通过tacotron2的encoder,获取音素隐含信息,通过net_wordspeed,获取分词语速隐含信息,通过net_wordenergy,获取分词能量隐含信息,通过net_phonemef0,获取音素基频隐含信息;
步骤六,拼接所述音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息,合成情感语音。
2.如权利要求1所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤一具体包括步骤s1:通过录音采集设备,采集中性、开心、悲伤、生气、害怕、厌恶、惊讶的7种情感类型的语音音频,表示为
3.如权利要求2所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤二具体包括如下步骤:
步骤s2,对采集的文本
步骤s3,对文本
其中,
4.如权利要求3所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤三具体包括如下步骤:
步骤s4,利用生成的
步骤s5,通过得到的分词-时长文本
步骤s6,对所述音频
步骤s7,对所述音频
5.如权利要求4所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤四具体包括如下步骤:
步骤s8,训练分词语速预测网络net_wordspeed:将情感类型
步骤s9,训练分词能量预测网络net_wordenergy:将情感类型
步骤s10,训练音素基频预测网络net_phonemef0:将情感类型
6.如权利要求5所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤s8具体包括如下步骤:
步骤a:情感类型
步骤b:将得到的
步骤c:将分词长度n为的标签,通过one-hot向量转换技术,转换为宽度为5的one-hot向量,最终得到维度为n×5的网络标签矩阵
其中,
步骤d:将网络输入
7.如权利要求5所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤五具体包括如下步骤:
步骤s11,通过tacotron2的encoder,获取音素隐含信息:将对应的音素文本
步骤s12,通过net_wordspeed,获取分词语速隐含信息:将分词特征
步骤s13,通过net_wordenergy,获取分词能量隐含信息:将分词特征
步骤s14,通过net_phonemef0,获取音素基频隐含信息:将音素文本
8.如权利要求7所述的一种融合词汇及音素发音特征的情感语音合成方法,其特征在于,所述步骤六具体包括如下步骤:
步骤s15将
步骤s16,将所述
9.一种融合词汇及音素发音特征的情感语音合成系统,其特征在于,包括:
文本采集模块,用于采用http传输,采集需要合成的文本内容及情感标签;
文本预处理模块,用于将采集到的文本进行预处理,对所述文本进行分词、音素转换操作,包括:对文本依次进行文本符号统一转换为英文符号、数字格式统一转换为中文文本、对中文本分词、将分词文本通过预训练bert转换成语义向量表示形式、文本通过pypinyin工具包转换得到音素文本,所述情感标签通过one-hot转换得到情感标签的向量表示,生成可用于神经网络处理的数据;
情感语音合成模块,用于通过设计的网络模型处理文本及情感信息,合成情感语音;
数据存储模块,用于利用mysql数据库,存储已经合成的情感语音;
合成语音调度模块,用于决策,采用模型合成语音,还是从数据库调用已合成语音,作为输出,并开放http端口用于输出合成好的情感语音。
10.如权利要求9所述的融合词汇及音素发音特征的情感语音合成系统,其特征在于,所述输出优先采用已合成情感语音,其次采用模型合成以提升系统响应速度。
技术总结
本发明属于人工智能领域,具体涉及一种融合词汇及音素发音特征的情感语音合成方法及系统,该方法为:通过录音采集设备,采集文本及情感标签,对所述文本进行预处理,获取音素及音素对齐信息,生成分词及分词语义信息,分别计算并得到分词发音时长信息、分词发音语速信息、分词发音能量信息、音素基频信息,分别训练分词语速预测网络、分词能量预测网络、音素基频预测网络,获取并拼接音素隐含信息、分词语速隐含信息、分词能量隐含信息、音素基频隐含信息,合成情感语音。本发明通过将与情感发音有关的词汇及音素发音特征融合到端到端语音合成模型中去,能够使得合成的情感语音更加自然。
技术研发人员:郑书凯;李太豪;裴冠雄
受保护的技术使用者:之江实验室
技术研发日:2021.05.31
技术公布日:2021.08.13
本文用于企业家、创业者技术爱好者查询,结果仅供参考。