文本拼音的转换方法及装置、存储介质及电子设备与流程

2021-10-16 03:15:00 来源：中国专利 TAG：自然语言电子设备拼音装置文本

技术特征：
1.一种文本拼音的转换方法，其特征在于，包括：当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；依据预设的词典，确定所述文本对应的各组拼音序列；依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；将所述目标拼音序列确定为所述文本对应的文本拼音。2.根据权利要求1所述的方法，其特征在于，所述确定所述音频对应的各个音频特征，包括：将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；确定每帧所述音频信号对应的频率；依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。3.根据权利要求1所述的方法，其特征在于，所述声学模型的建立过程，包括：确定各个样本音频和每个所述样本音频对应的样本文本；将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。4.根据权利要求1所述的方法，其特征在于，所述依据预设的词典，确定所述文本对应的各组拼音序列，包括：确定所述文本对应的每个文字；在所述预设的词典中，确定每个所述文字对应的各个拼音；基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。5.根据权利要求1所述的方法，其特征在于，所述依据各个所述音频特征对应的所述概
率集合，确定每组所述拼音序列对应的概率，包括：基于各个所述音频特征对应的所述概率集合，以及预设的维特比算法，计算每组所述拼音序列对应的路径概率；将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。6.根据权利要求1所述的方法，其特征在于，所述确定目标拼音序列，包括：将各组所述拼音序列对应的所述概率进行比较，在各组所述拼音序列对应的所述概率中确定目标概率，所述目标概率为各个所述概率中最大的概率；在各组所述拼音序列中，确定所述目标概率对应的拼音序列，并将所述目标概率对应的拼音序列确定为所述目标拼音序列。7.一种文本拼音的转换装置，其特征在于，包括：第一确定单元，用于当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；输入单元，用于将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；第二确定单元，用于依据预设的词典，确定所述文本对应的各组拼音序列；第三确定单元，用于依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；第四确定单元，用于确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；第五确定单元，用于将所述目标拼音序列确定为所述文本对应的文本拼音。8.根据权利要求7所述的装置，其特征在于，所述第一确定单元，包括：分帧子单元，用于将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；第一确定子单元，用于确定每帧所述音频信号对应的频率；第二确定子单元，用于依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；第三确定子单元，用于将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～6任意一项所述的文本拼音的转换方法。10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～6任意一项所述的文本拼音的转换方法。

技术总结
本发明提供一种文本拼音的转换方法及装置、存储介质及电子设备，该方法包括：当接收到将文本转换为拼音的触发指令时，确定文本对应的音频，并确定音频对应的各个音频特征；将每个音频特征输入预先建立的声学模型，经声学模型处理后，获得每个音频特征对应的概率集合，每个音频特征对应的概率集合中包括该音频特征对应每个音素的概率；依据预设的词典，确定文本对应的各组拼音序列；依据各个音频特征对应的概率集合，确定每组拼音序列对应的概率，将对应概率最大的拼音序列确定为目标拼音序列，并将目标拼音序列确定为该文本对应的文本拼音。应用本发明的方法，结合音频特征确定拼音，可提高文本拼音与音频的匹配准确度，改善合成器的训练效果。合成器的训练效果。合成器的训练效果。

技术研发人员：黄智超王强
受保护的技术使用者：北京读我网络技术有限公司
技术研发日：2021.07.28
技术公布日：2021/10/15

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语音识别的言语功能自动评估系统和方法与流程

文本拼音的转换方法及装置、存储介质及电子设备与流程

相关文章

最热文献