文本拼音的转换方法及装置、存储介质及电子设备与流程

2021-10-16 03:15:00 来源：中国专利 TAG：自然语言电子设备拼音装置文本

1.本发明涉及自然语言处理技术领域，特别是涉及一种文本拼音的转换方法及装置、存储介质及电子设备。

背景技术：

2.随着计算机技术的不断发展，人机交互的方式也越来越丰富，人机语音通信便是重要的交互方式之一。在人机语音通信的过程中，机器的发音通常是由语音合成系统，根据给定的文字合成音频实现的。
3.在语音合成系统合成语音过程中，通常需将文字转换为拼音，通过合成器，将拼音映射成对应的声学特征。而在合成器的训练过程中，需要将训练文本转换为对应的拼音，结合训练文本对应的音频，训练合成器对于拼音到声学特征的映射。
4.目前，将训练文本转换为对应的拼音的过程，是基于词典进行转换的，也就是在词典中为每个文字匹配对应的拼音。而在实际的应用场景下，训练文本对应的音频中，可能存在多音字发音错误或是存在口语化读音等情况，基于目前的训练文本的拼音转换方法，在音频存在发音错误或是口语化读音等情况下，训练文本转换得到的拼音通常难以对应音频中的发音，使得转换得到的拼音与其对应音频的匹配度较差，影响合成器的训练效果。

技术实现要素：

5.有鉴于此，本发明实施例提供了一种文本拼音的转换方法，以解决文本转换得到的拼音与其对应的音频的匹配度较差，导致合成器的训练效果较差的问题。
6.本发明实施例还提供了一种文本拼音的转换装置，用以保证上述方法实际中的实现及应用。
7.为实现上述目的，本发明实施例提供如下技术方案：
8.一种文本拼音的转换方法，包括：
9.当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；
10.将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；
11.依据预设的词典，确定所述文本对应的各组拼音序列；
12.依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；
13.确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；
14.将所述目标拼音序列确定为所述文本对应的文本拼音。
15.上述的方法，可选的，所述确定所述音频对应的各个音频特征，包括：
16.将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；
17.确定每帧所述音频信号对应的频率；
18.依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；
19.将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。
20.上述的方法，可选的，所述声学模型的建立过程，包括：
21.确定各个样本音频和每个所述样本音频对应的样本文本；
22.将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；
23.对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；
24.确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；
25.基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；
26.依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。
27.上述的方法，可选的，所述依据预设的词典，确定所述文本对应的各组拼音序列，包括：
28.确定所述文本对应的每个文字；
29.在所述预设的词典中，确定每个所述文字对应的各个拼音；
30.基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；
31.将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。
32.上述的方法，可选的，所述依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率，包括：
33.基于各个所述音频特征对应的所述概率集合，以及预设的维特比算法，计算每组所述拼音序列对应的路径概率；
34.将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。
35.上述的方法，可选的，所述确定目标拼音序列，包括：
36.将各组所述拼音序列对应的所述概率进行比较，在各组所述拼音序列对应的所述概率中确定目标概率，所述目标概率为各个所述概率中最大的概率；
37.在各组所述拼音序列中，确定所述目标概率对应的拼音序列，并将所述目标概率对应的拼音序列确定为所述目标拼音序列。
38.一种文本拼音的转换装置，包括：
39.第一确定单元，用于当接收到将文本转换为拼音的触发指令时，确定所述文本对
应的音频，并确定所述音频对应的各个音频特征；
40.输入单元，用于将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；
41.第二确定单元，用于依据预设的词典，确定所述文本对应的各组拼音序列；
42.第三确定单元，用于依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；
43.第四确定单元，用于确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；
44.第五确定单元，用于将所述目标拼音序列确定为所述文本对应的文本拼音。
45.上述的装置，可选的，所述第一确定单元，包括：
46.分帧子单元，用于将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；
47.第一确定子单元，用于确定每帧所述音频信号对应的频率；
48.第二确定子单元，用于依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；
49.第三确定子单元，用于将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。
50.上述的装置，可选的，还包括：
51.第六确定单元，用于确定各个样本音频和每个所述样本音频对应的样本文本；
52.样本分帧单元，用于将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；
53.第七确定单元，用于对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；
54.第八确定单元，用于确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；
55.第九确定单元，用于基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；
56.训练单元，用于依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。
57.上述的装置，可选的，所述第二确定单元，包括：
58.第四确定子单元，用于确定所述文本对应的每个文字；
59.第五确定子单元，用于在所述预设的词典中，确定每个所述文字对应的各个拼音；
60.第六确定子单元，用于基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；
61.第七确定子单元，用于将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。
62.上述的装置，可选的，所述第三确定单元，包括：
63.计算子单元，用于基于各个所述音频特征对应的所述概率集合，以及预设的维特
比算法，计算每组所述拼音序列对应的路径概率；
64.第八确定子单元，用于将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。
65.上述的装置，可选的，所述第四确定单元，包括：
66.比较子单元，用于将各组所述拼音序列对应的所述概率进行比较，在各组所述拼音序列对应的所述概率中确定目标概率，所述目标概率为各个所述概率中最大的概率；
67.第九确定子单元，用于在各组所述拼音序列中，确定所述目标概率对应的拼音序列，并将所述目标概率对应的拼音序列确定为所述目标拼音序列。
68.一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的文本拼音的转换方法。
69.一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的文本拼音的转换方法。
70.基于上述本发明实施例提供的一种文本拼音的转换方法，包括：当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；依据预设的词典，确定所述文本对应的各组拼音序列；依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；将所述目标拼音序列确定为所述文本对应的文本拼音。应用本发明实施例提供的方法，在将文本转换为拼音的过程中，可先确定文本对应的多组拼音序列，通过预先建立的声学模型，获得各个音频特征对应各个音素的概率，结合各个音频特征对应各个音素的概率，在各组拼音序列中，确定文本对应的文本拼音，可以提高文本拼音与音频中发音的匹配度，可以提高合成器的训练样本中文本转换得到的拼音，与其对应音频中的发音的匹配准确度，以改善合成器的训练效果。
附图说明
71.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
72.图1为本发明实施例提供的一种文本拼音的转换方法的方法流程图；
73.图2为本发明实施例提供的一种文本拼音的转换方法的又一方法流程图；
74.图3为本发明实施例提供的一种文本拼音的转换装置的结构示意图；
75.图4为本发明实施例提供的一种文本拼音的转换装置的又一结构示意图；
76.图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
77.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完
整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
78.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
79.由背景技术可知，在语音合成系统的架构中，合成器是重要的组成部分之一，在合成语音的过程中需要通过合成器将拼音(即声母、韵母)映射成声学特征。而合成器将拼音映射到声学特征的能力需要通过大量样本进行训练，而在实际的应用场景下，训练样本中的文本转换得到的拼音，常常会出现与音频中的发音不匹配的情况，例如音频中存在多音字发音错误，或是存在口语化读音等发音异常，例如“大都”读音应为“dadou”，而音频发音为“dadu”，抑或是“那个”读音应为“nage”，而音频发音为口语化读音“neige”。另一方面，目前的将文本转换拼音通常是基于词典进行的，当文本中存在多音字时，通常是选择出现频率较高的读音为文本中的多音字标音，亦常常会出现多音字的拼音转换错误。上述情况都会导致文本拼音与文本对应音频中的发音不匹配，使得训练样本中拼音与音频中的发音特征匹配准确度较低，从而导致合成器的训练效果较差，使得合成器将拼音映射到声学特征的准确性较低，影响语音合成效果。目前，要提高文本拼音与音频的匹配准确度，一般只能够通过人工听音频，人工对文本进行标音，以将文本转换为拼音，而这样的方式则需要耗费大量的人力资源，工作量较大，且效率较低。
80.因此，本发明实施例提供了一种文本拼音的转换方法，在将文本转换为拼音的过程中，结合音频的音频特征进行拼音转换，可提高转换得到的文本拼音与音频中发音的匹配度，进一步改善合成器的训练效果。
81.本发明实施例提供了一种文本拼音的转换方法，所述方法可应用于多种系统平台，如各类文本转换的系统平台，其执行主体可以为计算机终端或各种移动设备的处理器，所述方法的方法流程图如图1所示，包括：
82.s101：当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；
83.本发明实施例提供的方法中，用户可从系统前端输入需转换成拼音的文本，以触发将文本转换为拼音的触发指令。也可以通过前端发送触发指令，触发处理器读取数据库中预先存储的文本。该文本可以为合成器的训练样本中的文本。处理器可获取与该文本对应的音频，该音频可由用户从前端导入，也可从数据库中读取。该文本对应的音频中的发音与该文本相对应。
84.处理器可依据预设的特征提取策略，提取音频对应的各个音频特征，具体可预先设置特征提取器，将音频输入该特征提取器，获得该音频对应的各个音频特征。该音频对应的每个音频特征为表征该音频某一段音频信号的声学特性的特征。各个音频特征分别表征该音频各段音频信号的声学特性。该音频特征可用梅尔频率倒谱系数表征特性，也可以采用其他表征声学特性的参数表征特性。
85.s102：将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；
86.本发明实施例提供的方法中，预先建立了一个声学模型，该声学模型可根据音频特征确定其对应每个音素的概率，也就是该音频特征对应的音频信号对应某一个音素的发音的概率。音素是根据语音的自然属性划分出来的最小语音单位，从生理性质来看，可以认为一个发音动作形成一个音素。音素一般分为元音和辅音两大类，如拼音“ni”，则包含“n”和“i”两个音素。
87.本发明实施例提供的方法中，可将音频对应的每个音频特征输入声学模型，经该声学模型处理后，该声学模型可输出该音频特征对应每个音素的概率，以获得每个音频特征对应的概率集合。
88.s103：依据预设的词典，确定所述文本对应的各组拼音序列；
89.本发明实施例提供的方法中，可依据预设的词典，确定文本中每个文字对应的拼音，将文本中各个文字对应的拼音进行拼接，可得到该文本对应的拼音序列。该词典中包含可能出现的每个汉字的所有读音拼音，其中包括口语化读音的拼音。在确定拼音序列的过程中，对于每个文字可按照其对应的所有拼音进行展开，分别进行拼接，故得到各组拼音序列。例如“商贾云集”，其中“贾”对应的读音拼音有“jia”和“gu”，而其他文字分别仅对应一个读音拼音，则将这两个读音拼音分别与其他文字对应的拼音进行拼接，得到两组拼音序列：“shangjiayunji”以及“shangguyunji”。
90.需要说明的是，在具体的实现过程中，当前文本对应的拼音序列可以有多组，也可以仅有一组，也就是当文本中的每个文字分别仅对应一个读音拼音时，该文本仅对应一组拼音序列，那么在后续处理过程中，则将该拼音序列作为该文本对应的文本拼音即可，不影响本发明实施例提供的方法实现功能。
91.s104：依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；
92.本发明实施例提供的方法中，可根据每个音频特征对应每个音素的概率，确定每组拼音序列对应的概率。具体的，可以根据每组拼音序列中包含的各个音素，结合每个音频特征对应的概率集合，确定每组拼音序列对应的概率。
93.s105：确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；
94.本发明实施例提供的方法中，可在各组拼音序列中确定目标拼音序列，目标拼音序列对应的概率，为各组拼音序列对应的概率中最大的。
95.s106：将所述目标拼音序列确定为所述文本对应的文本拼音。
96.本发明实施例提供的方法中，将目标拼音序列确定为文本对应的文本拼音，作为当前文本的拼音转换结果，也就是当前文本转换得到的文本拼音为目标拼音序列。
97.基于本发明实施例提供的方法，在将文本转换为拼音的过程中，可提取该文本对应音频的各个音频特征，通过声学模型获得每个音频特征对应每个音素的概率。依据预设的词典确定文本对应的各组拼音序列，基于各个音频特征对应每个音素的概率，确定每组拼音序列对应的概率，并将其中对应的概率最大的拼音序列作为当前文本对应的文本拼
音。应用本发明实施例提供的方法，可确定文本对应的多组拼音序列，结合音频中各个音频特征对应每个音素的概率，进一步确定每组拼音序列对应的概率，将概率最大的拼音序列作为文本拼音，在文本中出现多音字，或是音频中出现异常读音的情况下，可提高文本拼音与音频中发音的匹配准确度，可以提高合成器的训练样本中文本转换得到的拼音，与其对应音频中的发音的匹配准确度，以改善合成器的训练效果，提高合成器声学特征的映射准确性，进一步可提高语音合成的准确度。另一方面，无需通过人工听取音频进行人工标音，可节省大量人力资源，且可避免人员精力有限的弊端，提高处理效率。
98.进一步的，本发明实施例提供了又一种文本拼音的转换方法，在图1所示方法的基础，本发明实施例提供的方法中，步骤s101中所提及的确定所述音频对应的各个音频特征，包括：
99.将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；
100.本发明实施例提供的方法中，可对音频进行分帧处理，处理后得到各帧音频信号。具体的，可以以25ms作为一帧，帧移10ms，对音频进行分割。
101.确定每帧所述音频信号对应的频率；
102.本发明实施例提供的方法中，对于每帧音频信号，可通过预设的频率提取策略，提取该音频信号的声音的频率，将该频率作为该音频信号对应的频率。提取音频信号的声音频率可通过现有的音频处理技术实现，例如傅里叶分析等等，在此不作具体说明。
103.依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；
104.本发明实施例提供的方法中，可依据预设的梅尔频率倒谱系数的计算公式，根据每帧音频信号对应的频率，计算得到每帧音频信号对应的梅尔频率倒谱系数的值，梅尔频率倒谱系数的维数可采用40维。梅尔频率倒谱系数(mel
‑
scale frequency cepstral coefficients，mfcc)，是在mel标度频率域提取出来的倒谱系数，mel标度描述了人耳频率的非线性特性，mfcc是现有的特征参数，在此不作具体说明。每帧音频信号对应的梅尔频率倒谱系数可根据下述公式近似计算：
[0105][0106]
其中，mel(f)表示音频信号对应的梅尔频率倒谱系数，f表示音频信号对应的频率。
[0107]
将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。
[0108]
本发明实施例提供的方法中，将每帧音频信号对应的梅尔频率倒谱系数作为该音频对应的音频特征。也就是该音频对应的各个音频特征为，该音频对应的各帧音频信号对应的梅尔频率倒谱系数。
[0109]
基于本发明实施例提供的方法，将音频对应的每帧音频信号对应的梅尔频率倒谱系数作为音频对应的各个音频特征，梅尔频率倒谱系数是一类考虑到了人类的听觉特征的参数，可以反映出音频中的各个声学特征，可以提高语音特征的识别率，有利于表征音频特征与音素之间的对应关系，可以进一步提高音频中发音与拼音的匹配准确度。
[0110]
为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，
结合图2所示流程图，本发明实施例提供了又一种文本拼音的转换方法，本发明实施例提供的方法中，步骤s102中提及的声学模型的建立过程，包括：
[0111]
s201：确定各个样本音频和每个所述样本音频对应的样本文本；
[0112]
本发明实施例提供的方法中，可确定对声学模型进行训练的各个样本音频和每个样本音频对应的样本文本。各个样本音频的总时长不小于1000小时。每个样本音频及其对应的样本文本为标准发音和标准标音的数据，也就是每个样本音频中的语音发音与其对应的样本文本都是相匹配的。
[0113]
需要说明的是，本发明实施例提供的方法中的样本音频和样本文本，指的是对于声学模型的训练所确定训练样本，与本文中提及的合成器的训练样本不同。
[0114]
s202：将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；
[0115]
本发明实施例提供的方法中，对于每个样本音频可分别进行分帧处理，可以以25ms作为一帧，帧移10ms。处理后获得每个样本音频对应的各帧音频信号。
[0116]
s203：对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；
[0117]
本发明实施例提供的方法中，可依据预设的频率提取策略，提取每个样本音频对应的每帧音频信号的声音频率，继而根据预设的梅尔频率倒谱系数的计算公式，计算每个样本音频对应的每帧音频信号的梅尔频率倒谱系数，可采用40维的梅尔频率倒谱系数，关于梅尔频率倒谱系数的简要说明及计算，可参见上述实施例提供的方法中的说明，在此不再赘述。
[0118]
s204：确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；
[0119]
本发明实施例提供的方法中，对于每个样本音频，可将其对应的样本文本，结合样本文本对应的词典，将样本文本转换为各个音素，也就是将其转换为与样本文本相对应的拼音序列。
[0120]
s205：基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；
[0121]
本发明实施例提供的方法中，对于每个样本音频对应的每帧音频信号，可以基于该样本音频对应的各个音素，按照时间给每帧音频信号打上对应的音素标签，也就是建立音频信号与音素的对应关系。
[0122]
s206：依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。
[0123]
本发明实施例提供的方法中，预先建立时延神经网络模型(time delay neural network，tdnn)作为基础模型结构，tdnn模型为现有的神经网络模型结构，在此不作具体说明。
[0124]
本发明实施例提供的方法中，将音频信号与音素对应后，可基于各个样本音频对应的各帧音频信号所对应的音素，及各帧音频信号对应的梅尔频率倒谱系数，对tdnn模型进行迭代训练，使其学习梅尔频率倒谱系数这一特征与音素的映射关系。在训练过程中，可
基于维特比算法进行强制对应，对音频信号与音素重新进行对齐，得到音频信号对应的新的音素标签后，继续进行新的训练。当训练迭代至预先设置的次数时，停止训练，将完成训练的tdnn模型作为本发明实施例提供的方法中的声学模型。
[0125]
基于本发明实施例提供的方法，可通过训练tdnn模型，建立声学模型，tndd模型在语音信号处理中具有良好的应用基础，具有良好的语音识别效果，可进一步提升音频特征与音素的映射准确性，亦可提高声学模型的建立效率。
[0126]
进一步的，本发明实施例提供了又一种文本拼音的转换方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤s103所提及的依据预设的词典，确定所述文本对应的各组拼音序列的过程，包括：
[0127]
确定所述文本对应的每个文字；
[0128]
本实施例提供的方法中，可对文本进行拆分，将其拆分为每个文字。
[0129]
在所述预设的词典中，确定每个所述文字对应的各个拼音；
[0130]
本发明实施例提供的方法中，可预先配置包含每个汉字对应的所有读音的词典。具体的，可以采用g2pc词表作为词典，g2pc词表是一个现有的汉字读音库，包含每个汉字对应的所有读音，其中包括口语化读音。可将文本对应的每个文字在词典中进行匹配，获取词典中包含的文本中每个文字对应的所有读音拼音。
[0131]
需要说明的是，在具体的实现过程中，文本中的文字可能仅对应一个拼音。
[0132]
基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；
[0133]
本发明实施例提供的方法中，可基于文本中每个文字对应的各个拼音，分别进行匹配生成各个拼音集合。例如文本为abc，每个大写字母表征一个汉字。a对应一个拼音a1，b对应两个拼音，分别为b1、b2，c对应两个拼音，分别为c1和c2。将每个汉字的每个拼音对分别与其他汉字的一个读音进行匹配组合，可以得到a1、b1及c1为一个拼音集合，a1、b2及c1为一个拼音集合，a1、b1及c2为一个拼音集合，a1、b2及c2为一个拼音集合。
[0134]
将每个拼音集合中的各个拼音按照文本中的文字顺序进行拼接，得到该拼音集合对应的拼音序列。如分别得到a1b1c1，a1b2c1，a1b1c2和a1b2c2这四个拼音序列。
[0135]
需要说明的是，本发明实施例提供的方法中所提及的具体文本的文字个数，文字对应的拼音个数，都仅是为了更好地说明本发明实施例提供的方法所提供的示意性举例，具体实现过程中的文本中文字个数，文字对应的读音个数，所确定的拼音集合的个数，都是根据实际情况确定的，不影响本发明实施例提供的方法实现功能。
[0136]
将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。
[0137]
本发明实施例提供的方法中，可将每个拼音集合对应的拼音序列确定为该文本对应的拼音序列。
[0138]
基于本发明实施例提供的方法，可将文本拆分成每个文字，获取每个文字对应的所有读音以生成拼音序列，可得到文本发音的所有可能情况，有利于确定与音频相对应的拼音序列，提高匹配准确度。
[0139]
为了更好地说明本发明实施例提供的方法，在图1所示方法的基础上，本发明实施例提供了又一种文本拼音的转换方法，在步骤s104中所提及的依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率的过程，包括：
[0140]
基于各个所述音频特征对应的所述概率集合，以及预设的维特比算法，计算每组所述拼音序列对应的路径概率；
[0141]
将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。
[0142]
本发明实施例提供的方法中，可以结合每个音频特征对应每个音素的概率，通过维特比算法，确定每组拼音序列对应的路径概率。维特比算法是一种动态规划算法，用于寻找最有可能产生观测事件序列的
‑
维特比路径
‑
隐含状态序列。具体的，可以通过维特比算法，按照各个音频特征对应每个音素映射出音频对应的各个发音路径，可以按照每个拼音序列中包含的各个音素，在各个发音路径中确定每个拼音序列对应的路径，根据各个音频特征对应每个音素的概率计算与每个拼音序列相对应的路径的概率，将与每个拼音序列相对应的路径的概率作为每组拼音序列对应的路径概率，亦作为该拼音序列对应的概率。也就是在各个音频特征对应每个音素的概率的基础上，确定按照每组拼音序列中包含的各个音素发音的可能性。
[0143]
基于本发明实施例提供的方法，可以通过维特比算法确定每组拼音序列对应的概率，可以结合动态规划更好地观测音频的发音路径，可进一步提高音频与文本拼音的匹配准确度。
[0144]
进一步的，在图1所示方法的基础上，本发明实施例提供了又一种文本拼音的转换方法，本发明实施例提供的方法中，步骤s105中所提及的确定目标拼音序列的过程，包括：
[0145]
将各组所述拼音序列对应的所述概率进行比较，在各组所述拼音序列对应的所述概率中确定目标概率，所述目标概率为各个所述概率中最大的概率；
[0146]
本发明实施例提供的方法中，可比较各组拼音序列对应的概率的数值大小，将各个概率中数值最大的概率确定为目标概率。
[0147]
在各组所述拼音序列中，确定所述目标概率对应的拼音序列，并将所述目标概率对应的拼音序列确定为所述目标拼音序列。
[0148]
本发明实施例提供的方法中，将与目标概率相匹配的拼音序列确定为目标拼音序列。
[0149]
基于本发明实施例提供的方法，可通过概率数值大小的比较，快捷地确定目标拼音序列，可进一步提高处理效率。
[0150]
与图1所示的文本拼音的转换方法相对应的，本发明实施例还提供了一种文本拼音的转换装置，用于对图1中所示方法的具体实现，其结构示意图如图3所示，包括：
[0151]
第一确定单元301，用于当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；
[0152]
输入单元302，用于将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；
[0153]
第二确定单元303，用于依据预设的词典，确定所述文本对应的各组拼音序列；
[0154]
第三确定单元304，用于依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；
[0155]
第四确定单元305，用于确定目标拼音序列，所述目标拼音序列为各组所述拼音序
列中，对应的概率最大的拼音序列；
[0156]
第五确定单元306，用于将所述目标拼音序列确定为所述文本对应的文本拼音。
[0157]
基于本发明实施例提供的装置，在将文本转换为拼音的过程中，可提取该文本对应音频的各个音频特征，通过声学模型获得每个音频特征对应每个音素的概率。依据预设的词典确定文本对应的各组拼音序列，基于各个音频特征对应每个音素的概率，确定每组拼音序列对应的概率，并将其中对应的概率最大的拼音序列作为当前文本对应的文本拼音。应用本发明实施例提供的装置，可确定文本对应的多组拼音序列，结合音频中各个音频特征对应每个音素的概率，进一步确定每组拼音序列对应的概率，将概率最大的拼音序列作为文本拼音，在文本中出现多音字，或是音频中出现异常读音的情况下，可提高文本拼音与音频中发音的匹配准确度，可以提高合成器的训练样本中文本转换得到的拼音，与其对应音频中的发音的匹配准确度，以改善合成器的训练效果，提高合成器声学特征的映射准确性，进一步可提高语音合成的准确度。另一方面，无需通过人工听取音频进行人工标音，可节省大量人力资源，且可避免人员精力有限的弊端，提高处理效率。
[0158]
在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第一确定单元301，包括：
[0159]
分帧子单元，用于将所述音频进行分帧处理，获得所述音频对应的各帧音频信号；
[0160]
第一确定子单元，用于确定每帧所述音频信号对应的频率；
[0161]
第二确定子单元，用于依据每帧所述音频信号对应的所述频率，确定每帧所述音频信号对应的梅尔频率倒谱系数；
[0162]
第三确定子单元，用于将每帧所述音频信号对应的所述梅尔频率倒谱系数，确定为所述音频对应的音频特征。
[0163]
本发明实施例提供了又一种文本拼音的转换装置，其结构示意图如图4所示，在图3所示装置的基础上，本发明实施例提供的装置中，还包括：
[0164]
第六确定单元307，用于确定各个样本音频和每个所述样本音频对应的样本文本；
[0165]
样本分帧单元308，用于将每个所述样本音频进行分帧处理，获得每个所述样本音频对应的各帧音频信号；
[0166]
第七确定单元309，用于对于每个所述样本音频，确定该样本音频对应的每帧所述音频信号对应的梅尔频率倒谱系数；
[0167]
第八确定单元310，用于确定每个所述样本音频对应的音素集合，每个所述样本音频对应的所述音素集合中包括，该样本音频对应的样本文本所对应的各个音素；
[0168]
第九确定单元311，用于基于每个所述样本音频对应的所述音素集合，确定每个所述样本音频对应的每帧所述音频信号对应的音素；
[0169]
训练单元312，用于依据各个所述样本音频对应的各帧所述音频信号对应的所述梅尔频率倒谱系数及其对应的音素，对预先构建的时延神经网络模型进行训练，并将训练完成的时延神经网络模型作为所述声学模型。
[0170]
在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第二确定单元303，包括：
[0171]
第四确定子单元，用于确定所述文本对应的每个文字；
[0172]
第五确定子单元，用于在所述预设的词典中，确定每个所述文字对应的各个拼音；
[0173]
第六确定子单元，用于基于各个所述文字对应的各个拼音，确定所述文本对应的各个拼音集合，并确定每个所述拼音集合对应的拼音序列；
[0174]
第七确定子单元，用于将每个所述拼音集合对应的所述拼音序列确定为所述文本对应的所述拼音序列。
[0175]
在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第三确定单元304，包括：
[0176]
计算子单元，用于基于各个所述音频特征对应的所述概率集合，以及预设的维特比算法，计算每组所述拼音序列对应的路径概率；
[0177]
第八确定子单元，用于将每组所述拼音序列对应的所述路径概率确定为每组所述拼音序列对应的所述概率。
[0178]
在上述实施例提供的装置的基础上，本发明实施例提供的装置中，所述第四确定单元305，包括：
[0179]
比较子单元，用于将各组所述拼音序列对应的所述概率进行比较，在各组所述拼音序列对应的所述概率中确定目标概率，所述目标概率为各个所述概率中最大的概率；
[0180]
第九确定子单元，用于在各组所述拼音序列中，确定所述目标概率对应的拼音序列，并将所述目标概率对应的拼音序列确定为所述目标拼音序列。
[0181]
本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述的文本拼音的转换方法。
[0182]
本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器401，以及一个或者一个以上的指令402，其中一个或者一个以上指令402存储于存储器401中，且经配置以由一个或者一个以上处理器403执行所述一个或者一个以上指令402进行以下操作：
[0183]
当接收到将文本转换为拼音的触发指令时，确定所述文本对应的音频，并确定所述音频对应的各个音频特征；
[0184]
将每个所述音频特征输入预先建立的声学模型，经所述声学模型处理后，获得每个所述音频特征对应的概率集合，每个所述音频特征对应的所述概率集合中包括该音频特征对应每个音素的概率；
[0185]
依据预设的词典，确定所述文本对应的各组拼音序列；
[0186]
依据各个所述音频特征对应的所述概率集合，确定每组所述拼音序列对应的概率；
[0187]
确定目标拼音序列，所述目标拼音序列为各组所述拼音序列中，对应的概率最大的拼音序列；
[0188]
将所述目标拼音序列确定为所述文本对应的文本拼音。
[0189]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根
据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0190]
专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0191]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于语音识别的言语功能自动评估系统和方法与流程

文本拼音的转换方法及装置、存储介质及电子设备与流程

相关文章

最热文献