语音生成方法、装置及存储介质与流程

2022-04-30 11:15:55 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，尤其涉及一种语音生成方法、装置及存储介质。

背景技术：

2.语音交互式人们用来传递信息的最直接、最自然也是最有效的一种方式。随着近些年来手机等电子设备的迅速发展，新型的语音交互方式也成为了计算机、语言学、通信等科学研究的热点。语音交互是基于语音识别，自然语言理解及语音合成的人机对话技术，语音合成是语音交互的核心之一，其目的是能够使得电子设备能够像人一样地发出自然的声音。因此，如何让手机、电脑等电子设备可以完全像人一样会“说”，播报带有感情语气、自然流畅的语音，使得播报的语音更符合用户输入的文本内容等所对应语气场景等，是目前亟待解决的问题。

技术实现要素：

3.为克服相关技术中存在的问题，本技术提供一种语音生成方法、装置及存储介质。
4.根据本技术实施例的第一方面，提供一种语音生成方法，包括：
5.对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
6.根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
7.根据所述文本信息和所述目标韵律信息，生成目标语音。
8.在一些实施例中，所述文本信息包括：文本音素和文本音调；所述根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息，包括：
9.根据各个所述文本单元的所述文本音素和所述文本音调，确定各个所述文本单元文本韵律信息；
10.根据所述符号信息，确定各个所述文本单元的符号韵律信息；
11.根据所述文本韵律信息和所述符号韵律信息，确定所述目标韵律信息。
12.在一些实施例中，所述符号信息包括：符号位置；所述根据所述符号信息，确定各个所述文本单元的符号韵律信息，包括：
13.根据所述标点符号的符号位置，确定各个所述标点符号所作用的文本单元；其中，一个标点符号作用于至少一个文本单元；
14.确定所述标点符号所作用的文本单元的符号韵律信息。
15.在一些实施例中，所述符号信息包括：符号类型和符号数量；所述根据所述符号信息，确定各个所述文本单元的符号韵律信息，包括：
16.根据所述标点符号的符号类型，确定语气类型；
17.根据所述标点符号的符号数量，确定语气程度；
18.根据所述语气类型和/或所述语气程度，确定所述符号韵律信息。
19.在一些实施例中，所述根据所述文本信息和所述目标韵律信息，生成目标语音，包括：
20.将所述文本信息和所述目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配；其中，所述预设语音库用于存储音频片段，以及所述预设文本信息和所述预设韵律信息与所述音频片段之间的映射关系；
21.利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音；其中，不同的匹配结果对应不同的语音生成策略。
22.在一些实施例中，所述利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音，包括：
23.在所述匹配结果表征所述预设语音库中存在所述文本信息和所述目标韵律信息的情况下，从所述预设语音库确定与所述文本信息和所述目标韵律信息对应的音频片段；
24.对各个所述音频片段进行拼接处理，生成所述目标语音。
25.在一些实施例中，所述利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音，包括：
26.在所述匹配结果表征所述预设语音库中不存在所述文本信息和所述目标韵律信息的情况下，对各个所述文本单元的所述文本信息和所述目标韵律信息进行特征转换处理，得到声学特征；
27.对各个所述声学特征进行解码处理，生成所述目标语音。
28.根据本技术实施例的第二方面，提供一种语音生成装置，包括：
29.分析模块，配置为对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
30.确定模块，配置为根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
31.生成模块，配置为根据所述文本信息和所述目标韵律信息，生成目标语音。
32.在一些实施例中，所述文本信息包括：文本音素和文本音调；所述确定模块，配置为：
33.根据各个所述文本单元的所述文本音素和所述文本音调，确定各个所述文本单元文本韵律信息；
34.根据所述符号信息，确定各个所述文本单元的符号韵律信息；
35.根据所述文本韵律信息和所述符号韵律信息，确定所述目标韵律信息。
36.在一些实施例中，所述符号信息包括：符号位置；所述确定模块，配置为：
37.根据所述标点符号的符号位置，确定各个所述标点符号所作用的文本单元；其中，一个标点符号作用于至少一个文本单元；
38.确定所述标点符号所作用的文本单元的符号韵律信息。
39.在一些实施例中，所述符号信息包括：符号类型和符号数量；所述确定模块，配置为：
40.根据所述标点符号的符号类型，确定语气类型；
41.根据所述标点符号的符号数量，确定语气程度；
42.根据所述语气类型和/或所述语气程度，确定所述符号韵律信息。
43.在一些实施例中，所述生成模块，配置为：
44.将所述文本信息和所述目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配；其中，所述预设语音库用于存储音频片段，以及所述预设文本信息和所述预设韵律信息与所述音频片段之间的映射关系；
45.利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音；其中，不同的匹配结果对应不同的语音生成策略。
46.在一些实施例中，所述生成模块，配置为：
47.在所述匹配结果表征所述预设语音库中存在所述文本信息和所述目标韵律信息的情况下，从所述预设语音库确定与所述文本信息和所述目标韵律信息对应的音频片段；
48.对各个所述音频片段进行拼接处理，生成所述目标语音。
49.在一些实施例中，所述生成模块，配置为：
50.在所述匹配结果表征所述预设语音库中不存在所述文本信息和所述目标韵律信息的情况下，对各个所述文本单元的所述文本信息和所述目标韵律信息进行特征转换处理，得到声学特征；
51.对各个所述声学特征进行解码处理，生成所述目标语音。
52.根据本技术实施例的第三方面，提供一种语音生成装置，包括：
53.处理器；
54.配置为存储处理器可执行指令的存储器；
55.其中，所述处理器配置为：执行时实现上述第一方面中任一种语音生成方法中的步骤。
56.根据本技术实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由语音生成装置的处理器执行时，使得所述装置能够执行上述第一方面中任一种语音生成方法中的步骤。
57.本技术的实施例提供的技术方案可以包括以下有益效果：
58.本技术通过确定待处理文本中各个文本单元的文本信息，以及待处理文本所包含的标点符号的符号信息，共同确定各个文本单元的目标韵律信息，然后通过得到的文本信息和目标韵律信息来生成目标语音。这样，通过将标点符号的符号信息和文本信息相结合，第一方面，能够使得待处理文本中的标点符号对生成的目标语音产生作用，进而使得生成的目标语音更符合书写文字时的情感场景等；第二方面，通过引入标点符号的符号信息，可以使得目标语音更加符合文本所在语境的需要，更自然真实且接近自然语言表达方式。
59.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本技术。
附图说明
60.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
61.图1是根据本技术一示例性实施例示出的一种语音生成方法的流程图。
62.图2是根据本技术一示例性实施例示出的一种语音合成系统的示意图。
63.图3是根据本技术一示例性实施例示出的一种语音生成装置框图。
64.图4是根据本技术一示例性实施例示出的一种语音生成装置的硬件结构框图。
65.图5是根据本技术一示例性实施例示出的一种语音生成装置的硬件结构框图。
具体实施方式
66.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
67.图1是根据一示例性实施例示出的语音生成方法的流程图，如图1所示，主要包括以下步骤：
68.在步骤101中，对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
69.在步骤102中，根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
70.在步骤103中，根据所述文本信息和所述目标韵律信息，生成目标语音。
71.在一些实施例中，本技术的语音生成方法可以应用于电子设备，这里，电子设备可以包括：终端设备，例如，移动终端、固定终端或车载终端等。其中，移动终端可以包括：手机、平板电脑、笔记本电脑或者穿戴式设备等设备，还可以包括智能家居设备，例如，智能音箱等。固定终端可以包括：台式电脑或智能电视等。车载终端可以包括车辆监控管理系统的前端设备，也可以称为车辆调度监控(telematics control unit，tcu)终端，如，车机终端等。车载终端可以融合全球定位系统(global positioning system，gps)技术、里程定位技术及汽车黑匣等技术，能用于对车辆进行现代化管理，包括：行车安全监控管理、运营管理、服务质量管理、智能集中调度管理、电子站牌控制管理等。
72.本技术实施例中，待处理文本可以是指当前需要处理的文本，文本可以包含文本内容以及标点符号。文本可以是具有完整、系统含义的带标点符号的一个句子或多个句子的组合，一个文本可以是一个句子、一个段落或者一个篇章，如短句、谚语、格言、标题等短文本，或者文章、文档文本等长文本。待处理文本可以通过向量序列等形式来表示(例如但不限于[i do not like the story ofthe movie，very much！])，本技术实施例对此不作具体限定。文本单元可以是指包含于待处理文本中具有自身属性的单元，例如，文本单元可以是待处理文本中单个的字或词，例如：待处理文本为“张三乘高铁前往某市。”，则所述待处理文本中包含的文本单元依次为“张三”、“乘”、“高铁”、“前往”和“某市”。
[0073]
文本信息可以是指用来表示文本单元的属性的信息，如，可以标识文本单元的语义、读音等属性的信息，文本信息可以包括以下至少之一：音素信息；音调信息；位置信息；语法信息；发音时长；频率信息等。例如：待处理文本为汉字文本(如，有一个道理...)，电子设备可以对汉字文本进行音素转换处理，得到音素序列(也即连续的拼音字符串)(如，[you yi ge dao li...])，再对音素序列进行音调标注处理，可以得到带有音调标记的音素序列(如，[you3 yi1 ge4 dao4 li3...])，电子设备可以将带有音调标记的音素序列等作为文本信息。
[0074]
在一些实施例中，电子设备可以通过对待处理文本进行文本分析处理，得到待处理文本中各个文本单元的文本信息。文本分析(也可以称为语言学分析，主要模拟人对自然语言的理解过程)可以是指为了得到文本信息而对待处理文本进行的特征提取或者特征转换等处理，文本分析主要可以包括：文本正则化、分词、词性标注、多音字消歧等处理。电子设备可以以句为处理单位，逐句对待处理文本进行词汇、语法和语义等形式上的分析，以确定句子的底层结构(如，以音节为单位的结构或者以字为单位的结构等底层结构)和每个字音素等的组成，文本分析还可以包括：文本的断句、字词切分、数字、字符的处理、缩略语的处理等，得到电子设备能够理解的文本信息。
[0075]
标点符号可以是指书面上用于标明句读和语气的符号，标点符号是辅助文字记录语言的符号，是书面语的组成部分，可以用来表示停顿、语气以及词语的性质和作用等，标点符号可以包括标号和点号等。本技术实施例中，待处理文本可以包括文本内容以及标点符号，标点符号的符号信息可以作用于文本内容。符号信息可以是指用来表征标点符号的属性的信息，例如，符号信息可以包括：标点符号的类型、位置等属性的信息，标点符号的符号信息可以包括符号名称、符号位置、符号数量等信息。以待处理文本为“在上课？”为例，可以确定标点符号的符号名称为问号，符号位置为在文本单元“上课”之后，那么电子设备可以确定待处理文本中的文本单元“上课”应该是以疑问语气进行播报。
[0076]
语音的韵律在声学上表现为停顿、音高、音长、音强等特性，也被称为超音段特征，电子设备在进行语音播报时，通过播报不同文本单元“轻重缓急，抑扬顿挫”等不同语气特点，来体现出语音的韵律。韵律信息(也可以称为韵律参数或者韵律序列等)可以是指用来表征韵律特性的属性信息，韵律信息可以用序列或数值等形式来表示，每个文本单元可以对应一个目标韵律信息。目标韵律信息用于表征待处理文本中的各个文本单元对应的韵律信息，与待处理文本整体对应的韵律信息作区别。
[0077]
在一些实施例中，电子设备可以通过对待处理文本进行韵律预测处理来确定韵律信息，韵律预测处理可以理解为通过对待处理文本进行语调、重音、时长以及停顿的处理，从而确定各个文本单元的具体发音、停顿位置及其轻重读音等抑扬顿挫特点等信息。电子设备进行韵律预测时，可以按照不同的韵律层级对待处理文本进行处理，得到不同韵律层级对应的韵律信息，可以包括：韵律词(prosody word，pw)级，韵律短语(prosody phrase，pp)级和语调短语(intonation phrase，ip)级等，本技术不作具体限定。
[0078]
本技术实施例中，电子设备可以根据文本信息和待处理文本所包含的标点符号的符号信息，确定各个文本单元的目标韵律信息。电子设备可以基于待处理文本中的文本单元对应的文本信息和标点符号对应的符号信息，共同确定韵律信息。在一种可能的实施例中，电子设备可以先基于文本单元，生成第一韵律信息，再基于符号信息，生成第二韵律信息，然后将第一韵律信息和第二韵律信息进行综合处理(如，对第一韵律信息和第二韵律信息进行相加处理等)，得到目标韵律信息。电子设备也可以根据文本信息和符号信息，直接生成目标韵律信息等，本技术不作具体限定。
[0079]
在一种可能的实施例中，电子设备可以将文本单元输入韵律预测模型中，得到第一韵律信息，韵律预测模型可以是指训练好的、用于根据文本单元生成第一韵律信息的神经网络模型。以韵律预测模型为基于双向长短期记忆神经网络模型为例，电子设备可以先确定待处理文本的各个文本单元，然后将文本单元转换为词嵌入向量，将各个词嵌入向量
输入神经网络模型，得到各个文本单元的预测标签，根据预测标点确定第一韵律信息。
[0080]
在一些实施例中，电子设备可以预先设备符号信息与第二韵律信息之间的对应关系，在电子设备确定符号信息之后，可以根据符号信息以及对应关系确定第二韵律信息。例如：电子设备可以预先设置问号对应疑问语气，感叹号对应感慨语气等，疑问语气对应的第二韵律信息为a，感慨语气对应的第二韵律信息为b等。若电子设备识别出待处理文本中存在问号，那么可以确定第二韵律信息为a，其中，第二韵律信息a可以单独作用在问号前或者问号后的文本单元，也可以作用在问号前后的句子中等，对于第二韵律信息作用的范围不作具体限定，可以根据实际使用需求自定义设置。
[0081]
电子设备确定各个文本单元的目标韵律信息后，可以根据文本信息和目标韵律信息，生成目标语音。目标语音可以是指基于待处理文本进行播报的音频数据，音频数据可以包括声音信号或者语音波形数据等数据。电子设备生成目标语音的方法按设计的主要思想，可以划分为规则驱动方法和数据驱动两类。规则驱动的主要思想是根据人类发音物理过程制定规则来模拟重现发音过程，数据驱动则是利用语音库中的数据，通过统计建模的方法来完成语音合成，对语音语料库的质量、最小单元和规模有更多的依赖，合成的语音更自然流畅。例如：共振峰合成、波形拼接、谐波加噪声模型和神经网络及端到端的深度神经网络模型等语音生成方法，对于生成目标语音的具体方式，本技术不作具体限定。
[0082]
本技术通过确定待处理文本中各个文本单元的文本信息，以及待处理文本所包含的标点符号的符号信息，共同确定各个文本单元的目标韵律信息，然后通过得到的文本信息和目标韵律信息来生成目标语音。这样，通过将标点符号的符号信息和文本信息相结合，第一方面，能够使得待处理文本中的标点符号对生成的目标语音产生作用，进而使得生成的目标语音更符合书写文字时的情感场景等；第二方面，通过引入标点符号的符号信息，可以使得目标语音更加符合文本所在语境的需要，更自然真实且接近自然语言表达方式。
[0083]
在一些实施例中，所述文本信息包括：文本音素和文本音调；所述根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息，包括：
[0084]
根据各个所述文本单元的所述文本音素和所述文本音调，确定各个所述文本单元文本韵律信息；
[0085]
根据所述符号信息，确定各个所述文本单元的符号韵律信息；
[0086]
根据所述文本韵律信息和所述符号韵律信息，确定所述目标韵律信息。
[0087]
本技术实施例中，文本信息至少可以包括文本音素和文本音调。音素(phone)是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。如，汉语音节啊(
ā
)只有一个音素，爱(
à
i)有两个音素，代(d
à
i)有三个音素等。声音频率的高低叫做音调(pitch)，是声音的三个主要的主观属性，即音量(响度)、音调、音色(也称音品)之一。音调可以表示用户的听觉分辨一个声音的调子高低的程度，音调主要由声音的频率决定，同时也与声音强度有关。文本音素可以是指基于待处理文本的文本内容，确定的音素，文本音调可以是指基于待处理文本的文本内容，确定的音调，为了与基于标点符号等其他内容确定的音素和音调作区别。
[0088]
在一种可能的实施例中，电子设备可以通过音素转换处理，将待处理文本转换为文本音素。例如：电子设备可以利用训练好的音素转换模型，将为“明天去学校”的待处理文
本，转换为“[ming tian qu xue xiao]”形式的文本音素。然后电子设备可以对文本音素进行音调标注处理，例如：电子设备能够以音节为处理单位，在预设的词典中查询每个音节对应的音调，得到文本音调[2,1,4,2,4]等，电子设备可以将文本音素和文本音调，使用一个序列综合表示文本信息，例如，[ming2 tian1 qu4 xue2 xiao4]等。
[0089]
电子设备确定文本音素和文本音调后，可以根据文本音素和文本音调进行韵律预测处理，得到各个文本单元的文本韵律信息。例如：电子设备可以通过机器学习方法根据预先训练的韵律预测模型对待预测的文本音素和文本音调等内容进行预测，从而获取该文本单元对应的停顿预测结果(如，停顿位置、包括上停顿和短停顿的停顿类型以及停顿类型相对于的概率值等)等的文本韵律信息。
[0090]
电子设备确定符号信息后，可以根据符号信息，确定各个文本单元的符号韵律信息。电子设备可以预先设置符号信息与符号韵律信息之间的对应关系，然后根据具体的符号信息以及对应关系，确定符号韵律信息。例如：电子设备预先设置第一符号信息对应第一符号韵律信息，第二符号信息对应第二符号韵律信息等，然后电子设备可以将对应关系存储在电子设备的存储器中，在确定第一符号信息之后，可以从存储器中查询得到第一符号韵律信息等。在另一种可能的实施例中，电子设备还可以通过符号韵律预测模型，根据符号信息得到符号韵律信息。符号韵律预测模型可以是指训练好的神经网络模型，输入符号信息，输出对应的符号韵律信息等，例如：电子设备可以通过将符号信息输入训练好的符号韵律预测模型，得到具体的符号韵律信息等。在训练的过程中，电子设备可以将标记好的符号信息和符号韵律信息输入初始化的符号韵律预测模型进行配置参数的训练，得到训练好的符号韵律预测模型。
[0091]
电子设备确定文本韵律信息和符号韵律信息后，可以根据文本韵律信息和符号韵律信息，确定目标韵律信息。在一个可选的实施例中，电子设备可以将文本韵律信息和符号韵律信息进行相加融合处理，得到目标韵律信息。例如：电子设备确定文本韵律信息为[0.3,0.2,0.7]序列等形式，其中序列中数值可以表示韵律不同属性的属性值(如，音高为0.3、音长位0.2以及音强为0.7等)。电子设备可以确定符号韵律信息为[0.6,0.5,0.1]等，那么电子设备可以确定目标韵律信息为[0.9,0.7,0.8]等。
[0092]
在一种可能的实施例中，电子设备还可以对文本韵律信息和符号韵律信息进行加权均值处理，例如：电子设备先确定文本韵律信息的权重为0.4，符号韵律信息的权重为0.6等，然后根据具体的权重计算文本韵律信息和符号韵律信息的加权均值。对于不同的文本单元对应的文本韵律信息和符号韵律信息之间的权重可以相同，也可以不同。电子设备可以根据文本单元对应的词性，来确定权重，例如，文本单元为主语，文本韵律信息和符号韵律信息对应的权重可以分别为0.3和0.7；文本单元为谓语，文本韵律信息和符号韵律信息对应的权重可以分别为0.4和0.6等。
[0093]
本技术实施例中，通过根据各个文本单元的文本音素和文本音调，确定各个文本单元的文本韵律信息，根据符号信息，确定各个文本单元的符号韵律信息，根据文本韵律信息和符号韵律信息，确定目标韵律信息。相对于相关技术中，仅考虑基于待处理文本的文本信息来确定韵律信息，未考虑待处理文本的其他信息来确定韵律信息，本技术实施例中，可以根据多种不同形式的内容得到文本韵律信息和符号韵律信息，从而确定更准确丰富的目标韵律信息。
[0094]
在一些实施例中，所述符号信息包括：符号位置；所述根据所述符号信息，确定各个所述文本单元的符号韵律信息，包括：
[0095]
根据所述标点符号的符号位置，确定各个所述标点符号所作用的文本单元；其中，一个标点符号作用于至少一个文本单元；
[0096]
确定所述标点符号所作用的文本单元的符号韵律信息。
[0097]
本技术实施例中，标点符号的符号信息至少可以包括符号位置。电子设备可以通过对待处理文本进行字符串识别处理，从而确定出各个标点符号的符号位置，例如：电子设备确定出第一标点符号为逗号，第一标点符号的符号位置为10，电子设备确定出第二标点符号为句号，第二标点符号的符号位置为23等。由于电子设备播报语音时，不会直接播报标点符号，所以需要确定各个标点符号所作用的文本单元，电子设备确定标点符号的符号位置后，可以确定各个标点符号所作用的文本单元。其中，一个标点符号作用于至少一个文本单元。
[0098]
在一些实施例中，电子设备可以预先设置作用范围，电子设备可以将标点符号之前的一个文本单元作为所作用的文本单元，也可以将标点符号之后的一个文本单元作为所作用的文本单元，还可以将标点符号之间的一个或多个文本单元作为所作用的文本单元等。例如：对于待处理文本“在上课？”，电子设备确定标点符号“？”所作用的文本单元可以为“上课”。对于待处理文本“？？张三是说真的吗”，电子设备确定标点符号“？？”所作用的文本单元可以为“张三”等。对于待处理文本“李四昨天！逃课看电影去了”，电子设备确定标点符号“！”所作用的文本单元可以为“昨天”和“逃课”等。
[0099]
电子设备确定各个标点符号所作用的文本单元后，可以分别确定标点符号所作用的文本单元的符号韵律信息，例如：待处理文本中第一个、第二个和第三个文本单元无符号韵律信息，第四个文本单元的符号韵律信息可以为[0.2,0.5,0.7]等。电子设备可以对多个文本单元组成的句级单位的文本进行播报时，利用符号韵律信息播报对应的语气，也可以只对待处理文本中部分文本单元进行播报时，利用符号韵律信息播报对应的语气等。在一种可能的实施例中，电子设备还可以根据不同类型的标点符号的组合，共同来确定标点符号所作用的文本单元。例如：电子设备可以确定待处理文本为“今天老师朗读了《乡愁！》”，那么电子设备可以确定感叹号“！”对应的感叹语气所作用的文本单元，可以为书名号内的文本内容“乡愁”等。电子设备还可以通过引号(如，“你还好吗？”。等形式)或连续、相同的多个标点符号(如，？明天不上班？。等形式)等形式，来确定标点符号所作用的文本单元。
[0100]
本技术实施例中，通过根据标点符号的符号位置，确定各个标点符号所作用的文本单元，其中，一个标点符号作用于至少一个文本单元，确定标点符号所作用的文本单元的符号韵律信息，可以准确地确定待处理文本对应的符号韵律信息，相对于确定每个文本单元对应的符号韵律信息，可以有效地减少工作量，在播报待处理文本的过程中，使得播报语气更自然流畅等。
[0101]
在一些实施例中，所述符号信息包括：符号类型和符号数量；所述根据所述符号信息，确定各个所述文本单元的符号韵律信息，包括：
[0102]
根据所述标点符号的符号类型，确定语气类型；
[0103]
根据所述标点符号的符号数量，确定语气程度；
[0104]
根据所述语气类型和/或所述语气程度，确定所述符号韵律信息。
[0105]
本技术实施例中，符号信息至少包括：符号类型和符号数量。符号类型可以包括：停顿类、免读类或者语气类等多种类型。如，停顿类可以包括：逗号、顿号、句号、分号、连接号等标点符号；免读类可以包括：书名号、括号等标点符号；语气类可以包括问号、叹号等标点符号；其中，停顿类和免读类也可以称为无语气类型。语气类型至少可以包括：陈述语气、祈使语气、感叹语气、疑问语气等类型的语气，电子设备可以预先设备不同的标点符号与不同的语气类型之间的对应关系。例如：句号对应陈述语气，感叹号对应感叹语气，问号对应疑问语气等。对于没有明显语气特性的标点符号，电子设备可以将标点符号设置为默认语气类型，例如：电子设备可以将逗号、分号等标点符号设置为默认语气类型等。
[0106]
电子设备可以根据标点符号的符号数量，确定语气程度，例如：一个问号“？”可以表示普通疑问语气级，连续两个及以上的问号“？？”可以表示强烈疑问语气级等；一个感叹号“！”可以表示普通感叹语气级，连续两个及以上的感叹号“！！”可以表示强烈感叹语气级等。在一种可能的实施例中，不同类型的标点符号也可以组合在一起，如，“？！”或“？？！！”等，可以用于表示强烈的疑问同时惊讶，因此在问号前的文本单元可以标记疑问惊讶语气级或强烈疑问惊讶语气级(如果有两个及以上)等。
[0107]
电子设备确定符号类型和符号数量后，可以根据语气类型和/或语气程度，确定符号韵律信息。例如：电子设备确定待处理文本有5个文本单元，在最后一个文本单元后面有一个问号，那么电子设备可以确定第五个文本单元对应的符号韵律信息可以为普通疑问语气等。
[0108]
本技术实施例中，通过根据标点符号的符号类型，确定语气类型，根据标点符号的符号数量，确定语气程度，根据语气类型和/或语气程度，确定符号韵律信息，可以简单有效地确定符号韵律信息，提高电子设备的运行效率等。
[0109]
在一些实施例中，所述根据所述文本信息和所述目标韵律信息，生成目标语音，包括：
[0110]
将所述文本信息和所述目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配；其中，所述预设语音库用于存储音频片段，以及所述预设文本信息和所述预设韵律信息与所述音频片段之间的映射关系；
[0111]
利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音；其中，不同的匹配结果对应不同的语音生成策略。
[0112]
本技术实施例中，预设语音库可以用于存储音频片段，以及预设文本信息和预设韵律信息与音频片段之间的映射关系。例如：第一预设文本信息和第一预设韵律信息对应第一音频片段，第二预设文本信息和第二预设韵律信息对应第二音频片段等。音频片段可以是指较短的文本(如，字或词等文本单元)对应的音频数据，电子设备可以通过多个音频片段组合成完整的待处理文本对应的目标语音。
[0113]
同时存在文本信息和目标韵律信息
[0114]
电子设备可以将文本信息和目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配。匹配结果至少可以包括：匹配成功和匹配失败。若预设语音库中同时存在与文本信息对应的预设文本信息以及与目标韵律信息对应的预设韵律信息，那么电子设备可以确定匹配成功。若预设语音库中未同时存在文本信息对应的预设文本信息以及目标韵律信息对应的预设韵律信息(如，预设语音库中只存在文本信息对应的预设文本信息，
或者预设语音库中只存在目标韵律信息对应的预设韵律信息)，或者预设语音库中既不存在文本信息对应的预设文本信息又不存在目标韵律信息对应的预设韵律信息，那么电子设备可以确定匹配失败。例如：电子设备确定文本信息与第一预设文本信息匹配成功，且目标韵律信息与第一预设韵律信息匹配成功，那么电子设备可以确定匹配结果为匹配成功；若电子设备确定文本信息与第二预设文本信息匹配成功，目标韵律信息与所有的预设韵律信息都不匹配，那么电子设备可以确定匹配结果为匹配失败等。
[0115]
电子设备确定匹配结果后，可以利用与匹配结果对应的语音生成策略，根据文本信息和目标韵律信息，生成目标语音，其中，不同的匹配结果对应不同的语音生成策略。例如：匹配成功可以对应第一语音生成策略，匹配失败可以对应第二语音生成策略等。语音生成策略可以是指电子设备生成目标语音的方式或规则等，如：共振峰合成策略、发音过程合成策略、波形拼接策略、神经网络模型策略等。例如：若匹配结果为匹配成功，那么电子设备可以利用第一语音生成策略，生成目标语音；若匹配结果为匹配失败，那么电子设备可以利用第二语音生成策略，生成目标语音等。
[0116]
本技术实施例中，通过将文本信息和目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配，利用与匹配结果对应的语音生成策略，根据文本信息和目标韵律信息，生成目标语音，可以利用多种不同策略，准确有效地保证得到完整的目标语音。
[0117]
在一些实施例中，所述利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音，包括：
[0118]
在所述匹配结果表征所述预设语音库中存在所述文本信息和所述目标韵律信息的情况下，从所述预设语音库确定与所述文本信息和所述目标韵律信息对应的音频片段；
[0119]
对各个所述音频片段进行拼接处理，生成所述目标语音。
[0120]
本技术实施例中，电子设备在匹配结果表征预设语音库中存在文本信息和目标韵律信息的情况下，也即匹配结果为匹配成功时，电子设备可以从预设语音库确定与文本信息和目标韵律信息对应的音频片段。例如：电子设备确定第一文本单元的文本信息和目标韵律信息对应第一音频片段，第二文本单元的文本信息和目标韵律信息对应第二音频片段等。然后电子设备可以对各个音频片段进行拼接处理，生成目标语音。
[0121]
电子设备可以根据各个文本单元之间的位置信息，来确定拼接顺序，例如：电子设备确定第一文本信息为待处理文本中的第一个文本单元，第二文本信息为待处理文本中的第二个文本单元，那么电子设备可以确定第一音频片段与第二音频片段相连，且第一音频片段在前。在对各个音频片段进行拼接处理，电子设备也可以对各个音频片段进行缩放、滤波、增强等处理，从而保证生成目标语音的自然流畅等。
[0122]
本技术实施例中，通过在匹配结果表征预设语音库中存在文本信息和目标韵律信息的情况下，从预设语音库确定与文本信息和目标韵律信息对应的音频片段，对各个音频片段进行拼接处理，生成目标语音，可以直接从预设语音库中简单准确地确定音频片段，有比较稳定的合成效果，提高电子设备的运行效率等。
[0123]
在一些实施例中，所述利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音，包括：
[0124]
在所述匹配结果表征所述预设语音库中不存在所述文本信息和所述目标韵律信息的情况下，对各个所述文本单元的所述文本信息和所述目标韵律信息进行特征转换处
理，得到声学特征；
[0125]
对各个所述声学特征进行解码处理，生成所述目标语音。
[0126]
本技术实施例中，电子设备在匹配结果表征预设语音库中不存在文本信息和目标韵律信息的情况下，也即匹配结果为匹配失败时，电子设备可以对各个文本单元的文本信息和目标韵律信息进行特征转换处理，得到声学特征。声学特征(也可以称为声学参数或语音参数等)可以是表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如，表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。例如：电子设备可以通过训练好的声学模型，将文本信息和目标韵律信息转换为声学特征。
[0127]
电子设备得到声学特征后，可以对各个声学特征进行解码处理，生成目标语音，例如：电子设备可以将各个文本单元对应的声学特征，按照各个文本单元之间的位置，组合成声学特征序列或集合等，输入到训练好的声码器中，得到目标语音(也可以称为待处理文本对应的目标波形等)。声码器是指用于将前面得到的高层特征(也即声学特征)转换为声音波形的神经网络模型。
[0128]
在一种可能的实施例中，电子设备也可以通过利用端对端等策略来生成目标语音，端到端合成策略可以直接输入待处理文本或者待处理文本的注音字符，直接输出音频波形(也即目标语音)。电子设备可以利用端到端模型(如，tacotron模型)来实现端到端合成策略，电子设备可以将文本信息和目标韵律信息输入训练好的端到端模型，输入目标语音。在端到端模型的训练过程中，需要根据标记好的文本信息、韵律信息以及语音等数据进行训练。本技术实施例中，电子设备利用端到端策略来生成目标语音，可以降低对语言学知识的要求，同时能够方便快捷地在不同语种上进行复制，批量实现几十种甚至更多语种的合成策略，并且端到端策略具有强大丰富的发音风格和韵律表现力等。
[0129]
在一种可能的实施例中，电子设备也可以先根据文本韵律信息，生成第一语音，然后根据符号韵律信息对第一语音进行调整，生成目标语音。电子设备预先设置符号韵律信息对应的调整方式，例如：若待处理文本中包含感叹号，那么电子设备可以表示为将第一语音的振幅缩小10％等，从而得到目标语音。采用上述方式，电子设备可以直接利用现有的语音合成策略，通过文本韵律信息生成第一语音，只需要在现有技术中的流程逻辑中添加少量的调整处理模块，就可以生成目标语音，减少开发人员的工作量等。
[0130]
在一种可能的实施例中，本技术中的语音生成方法可以应用在语音合成系统中，如图2所示，图2可以表示一种语音合成系统的示意图。如图2所示，语音合成系统可以包括：前端处理模块201和后端处理模块，其中，后端处理模块可以包括：第一后端模块和/或第二后端模块，第一后端模块可以包括声学模型202和声码器203，第二后端模块可以包括预设语音库204等。在处理的过程中，电子设备可以确定待处理文本，这里，待处理文本包括文本内容以及标点符号。电子设备可以通过爬虫处理，在互联网上获取文章等形式的待处理文本，也可以接收用户通过鼠标或键盘等组件上传的待处理文本。然后电子设备可以将待处理文本输入前端处理模块201进行处理，得到目标韵律信息。
[0131]
这里，语音合成系统主要可以分为两个模块：前端处理模块201和后端处理模块。前端处理模块201主要可以进行：文本正则化、分词、词性标注、多音字消歧、以及韵律预测等环节(子模块)的处理，其中在韵律预测环节，本实施例中加入了标点检测子模块，用户根
据待处理文本中的标点符号的符号信息，确定符号韵律信息等。
[0132]
前端处理模块201可以对输入到语音合成系统中的待处理文本进行解析。在解析过程中前端处理首先会对文本进行正则化，将一些特殊字符(比如阿拉伯数字的解释可以是数词也可以是电话号码)等问题按一定规则标记好。在这个处理过程中，会完成分词处理。分词是将待处理文本按自然语言的规则和词组进行切割，分词时也会依据前面待处理文本正则化时处理的一些特殊字符以及标点符号的信息。在分词结束后，进入词性标注环节，词性标注的作用是对分词结果中的每个单词标注一个正确的词性类型(名词、动词、形容词或者其他词性)。
[0133]
然后进行多音字消歧环节，这个环节会以分词为处理单位(也即文本单元)，对于各个分词可以按最长匹配原则与读音库中的词表进行对比，确定各个分词的音素和音调等信息。在匹配完成之后，电子设备也可以记录各个分词所对应的音素级别(上一个音素、下一个音素)、音节级别(单词的第几个音节)、单词级别(词性/在句子中的位置)等信息，可以用于后续的音律预测。若电子设备在读音库中找不到“词”级别的匹配结果，那么电子设备能够以小于“词”级别的“字”级别为处理单位，来进行匹配，这种情况有可能会存在多音字的问题，可以简单选择读音库中统计的概率最大的读音，得到文本信息。然后电子设备可以进行韵律预测，在韵律预测的过程中除了需要对各个分词进行韵律预测，得到文本韵律信息外，可以按“句”为单位对每句话的标点符号进行处理，得到符号韵律信息。例如：当解析过程中遇到了标点符号，前端处理模块201可以对标点种类和范围进行识别和记录。然后电子设备可以根据文本韵律信息和符号韵律信息，确定目标韵律信息。
[0134]
在一种可能的实施例中，以中文为例，本语音合成系统支持的都是国标中规定的标点符号。例如：停顿类的标点符号可以包括，逗号(“，”)：逗号一般是用于句中停顿的，一般没有特别的语气而使用默认语气级，因此处理逻辑比较简单，只需要在断句处前1个分词的属性中记录一个“逗号停顿时间”即可。顿号(“、”)：顿号与逗号类似，一般也是用于句中词语与词语间停顿，一般没有特别的语气而使用默认语气级，因此处理逻辑比较简单，只需要在断句处前1个分词的属性中记录一个“顿号停顿时间”即可，其中，一般顿号停顿时间可以稍小于逗号停顿时间。分号(“；”)：分号与逗号类似，一般也是用于句间停顿，一般没有特别的语气而使用默认语气级，因此处理逻辑比较简单，只需要在断句处前1个分词的属性中记录一个“分号停顿时间”即可，其中，一般分号停顿时间可以稍大于逗号停顿时间。句号(“。”)：句号与逗号类似，一般是用于句尾停顿，一般没有特别的语气而使用默认语气级，因此处理逻辑比较简单，只需要在断句处前1个分词的属性中记录一个“句号停顿时间”即可，其中，一般句号停顿时间比较大，可以大过其他标点的停顿时间。连接号(
“‑”
)：连接号与顿号类似，一般也是用于连接两个词，一般没有特别的语气而使用默认语气级，因此处理逻辑比较简单，只需要在断句处前1个分词的属性中记录一个“连接号停顿时间”即可，其中，一般连接号停顿时间可以和顿号停顿时间一致。省略号(
“……”
)：省略号一般用于省略场景，一般没有特别的语气而使用默认语气级，只需要在断句处前1个分词的属性中记录一个“省略号停顿时间”即可，其中，一般省略号停顿时间可以比逗号停顿时间稍长。破折号(“—”)：破折号一般用于解释说明或话题转变场景，一般没有特别的语气而使用默认语气级，只需要在断句处前1个分词的属性中记录一个“破折号停顿时间”即可。有一个破折号的特例，即有时表示声音延长。这种情况因为要对文本内容进行分析和处理，目前暂不支持，其中，一
般破折号停顿时间可以比逗号停顿时间稍长。
[0135]
免读类的标点符号可以包括，括号(“()”)：括号直接忽略其中的文字不处理。书名号(“《》”，“《》”)：书名号中内容也不进行特殊语气处理，使用默认语气级，无停顿时间。
[0136]
语气类的标点符号可以包括，问号(“？”)：问号用于疑问句，因此问号前的分词会标记“普通疑问语气级”。如果有2个及以上问号(“？？？”)，那么问号前的分词会标记“强烈疑问语气级”。叹号(“！”)：叹号用于感叹句，因此叹号前的分词会标记“普通感叹语气级”。如果有2个及以上问号(“！！！”)，那么问号前的分词会标记“强烈感叹语气级”。问号与叹号组合(“？！”或“？？？！！！”)：这种组合是比较特殊的一种用法，一般用于强烈的疑问同时惊讶，因此在问号前的分词会标记疑问惊讶语气级或强烈疑问惊讶语气级(如果有2个及以上)。
[0137]
符号韵律信息中的语气程度可以分为不同的级别，例如：无语气、普通疑问语气、强烈疑问语气、普通感叹语气、强烈感叹语气等(可以扩展更多更细腻语气种类)。通过检测待处理文本最后的标点符号，来决定使用什么样的语气去播报这个待处理文本，语气会作用在分词之后的最后一个文本单元上，比如待处理文本是：在上课？可以使用疑问语气，分词后的结果是：在/上课/？，对上课这个词会用疑问的语气读出来；而在上课！这个文本，可以用感叹语气，对上课使用感叹语气读出来等。
[0138]
电子设备经过前端处理模块201的处理，得到目标韵律信息之后，可以将目标韵律信息输入后端处理模块进行后端处理，其中。后端处理模块的作用是根据目标韵律信息生成目标语音，后端处理模块可以包括：第一后端模块和/或第二后端模块，第一后端模块可以包括声学模型202和声码器203，第二后端模块可以包括预设语音库204等。后端处理可以包括基于统计参数建模的语音合成(或称参数合成或参数法等)，以及基于单元挑选和波形拼接的语音合成(或称拼接合成或拼接法等)。对于参数法，电子设备可以先通过声学模型202生成声学特征。若电子设备采用参数法来生成目标语音，那么电子设备可以通过声码器203对声学特征进行处理，得到目标语音。若电子设备采用拼接法来生成目标语音，那么电子设备可以从预设语音库204中，获取各个文本单元对应的音频片段，然后对音频片段进行拼接处理，生成目标语音。
[0139]
本技术通过确定待处理文本中各个文本单元的文本信息，以及待处理文本所包含的标点符号的符号信息，共同确定各个文本单元的目标韵律信息，然后通过得到的文本信息和目标韵律信息来生成目标语音。这样，通过将标点符号的符号信息和文本信息相结合，第一方面，能够使得待处理文本中的标点符号对生成的目标语音产生作用，进而使得生成的目标语音更符合书写文字时的情感场景等；第二方面，通过引入标点符号的符号信息，可以使得目标语音更加符合文本所在语境的需要，更自然真实且接近自然语言表达方式。
[0140]
图3是根据一示例性实施例示出的一种语音生成装置框图。如图3所示，该语音生成装置300主要包括：
[0141]
分析模块301，配置为对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
[0142]
确定模块302，配置为根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
[0143]
生成模块303，配置为根据所述文本信息和所述目标韵律信息，生成目标语音。
[0144]
在一些实施例中，所述文本信息包括：文本音素和文本音调；所述确定模块302，配
置为：
[0145]
根据各个所述文本单元的所述文本音素和所述文本音调，确定各个所述文本单元文本韵律信息；
[0146]
根据所述符号信息，确定各个所述文本单元的符号韵律信息；
[0147]
根据所述文本韵律信息和所述符号韵律信息，确定所述目标韵律信息。
[0148]
在一些实施例中，所述符号信息包括：符号位置；所述确定模块302，配置为：
[0149]
根据所述标点符号的符号位置，确定各个所述标点符号所作用的文本单元；其中，一个标点符号作用于至少一个文本单元；
[0150]
确定所述标点符号所作用的文本单元的符号韵律信息。
[0151]
在一些实施例中，所述符号信息包括：符号类型和符号数量；所述确定模块302，配置为：
[0152]
根据所述标点符号的符号类型，确定语气类型；
[0153]
根据所述标点符号的符号数量，确定语气程度；
[0154]
根据所述语气类型和/或所述语气程度，确定所述符号韵律信息。
[0155]
在一些实施例中，所述生成模块303，配置为：
[0156]
将所述文本信息和所述目标韵律信息与预设语音库中的预设文本信息和预设韵律信息进行匹配；其中，所述预设语音库用于存储音频片段，以及所述预设文本信息和所述预设韵律信息与所述音频片段之间的映射关系；
[0157]
利用与匹配结果对应的语音生成策略，根据所述文本信息和所述目标韵律信息，生成所述目标语音；其中，不同的匹配结果对应不同的语音生成策略。
[0158]
在一些实施例中，所述生成模块303，配置为：
[0159]
在所述匹配结果表征所述预设语音库中存在所述文本信息和所述目标韵律信息的情况下，从所述预设语音库确定与所述文本信息和所述目标韵律信息对应的音频片段；
[0160]
对各个所述音频片段进行拼接处理，生成所述目标语音。
[0161]
在一些实施例中，所述生成模块303，配置为：
[0162]
在所述匹配结果表征所述预设语音库中不存在所述文本信息和所述目标韵律信息的情况下，对各个所述文本单元的所述文本信息和所述目标韵律信息进行特征转换处理，得到声学特征；
[0163]
对各个所述声学特征进行解码处理，生成所述目标语音。
[0164]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0165]
图4是根据一示例性实施例示出的一种语音生成装置的硬件结构框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0166]
参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(i/o)的接口412，传感器组件414，以及通信组件416。
[0167]
处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指
令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。
[0168]
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0169]
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。
[0170]
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0171]
音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(mic)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。
[0172]
i/o接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
[0173]
传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
[0174]
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如wi-fi，4g或5g，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)
技术，蓝牙(bt)技术和其他技术来实现。
[0175]
在示例性实施例中，装置400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
[0176]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0177]
一种非临时性计算机可读存储介质，当所述存储介质中的指令由语音生成装置的处理器执行时，使得语音生成装置能够执行一种语音生成方法，包括：
[0178]
对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
[0179]
根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
[0180]
根据所述文本信息和所述目标韵律信息，生成目标语音。
[0181]
图5是根据一示例性实施例示出的一种用于语音生成的装置500的硬件结构框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行一种语音生成方法，包括：
[0182]
对待处理文本进行文本分析处理，得到所述待处理文本中各个文本单元的文本信息；
[0183]
根据所述文本信息和所述待处理文本所包含的标点符号的符号信息，确定各个所述文本单元的目标韵律信息；
[0184]
根据所述文本信息和所述目标韵律信息，生成目标语音。
[0185]
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入/输出(i/o)接口558。装置500可以操作基于存储在存储器532的操作系统，例如windows servertm，mac os xtm，unixtm，linuxtm，freebsdtm或类似。
[0186]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
[0187]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音生成方法、装置及存储介质与流程

相关文献

最热文献