一种语音生成方法、装置、设备及存储介质与流程

2022-12-13 20:09:45 来源：中国专利 TAG：

1.本技术涉及语音合成技术领域，尤其涉及一种语音生成方法、装置、设备及存储介质。

背景技术：

2.语音合成通常是基于语音库中的语音素材，合成符合交互场景的语音。随着基于语音的人机交互技术的发展和应用，语音合成在智能家居、智能机器人等配置人机交互功能的智能设备上的应用越来越广泛。
3.目前，比较常用的构建语音库的方式是由发音人按照标准发音朗读文本，同时对发音人的朗读语音进行录制，录制的语音即作为语音素材存储至语音库中。采用这种方式所生成的语音，是语气一成不变、平铺直叙的语音，基于这些语音素材而合成的语音，不会带有任何感情色彩，这就导致合成的语音非常呆板，无法达到与用户共情交互的效果，更无法使得人机交互像人人交互那样自然和真实。

技术实现要素：

4.基于上述技术现状，本技术提出一种语音生成方法、装置、设备及存储介质，能够生成符合目标情感效果的语音，利用这些语音进行语音合成，能够得到具有感情色彩的合成语音，从而有利于提高人机交互效果。
5.本技术第一方面提供了一种语音生成方法，包括：根据录音文本以及目标语音情感效果，生成录音情感引导信息；输出所述录音情感引导信息，以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本；采集所述目标发音人对所述录音文本的朗读语音，得到与所述录音文本对应的语音数据。
6.本技术第二方面提供了一种语音生成装置，包括：信息生成单元，用于根据录音文本以及目标语音情感效果，生成录音情感引导信息；数据输出单元，用于输出所述录音情感引导信息，以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本；数据采集单元，用于采集所述目标发音人对所述录音文本的朗读语音，得到与所述录音文本对应的语音数据。
7.本技术第三方面提供了一种语音生成设备，包括：处理器，以及分别与所述处理器连接的存储器、麦克风和输出设备；其中，所述存储器用于存储数据和计算机程序；所述处理器，用于通过运行所述存储器中的计算机程序，根据录音文本以及目标语音情感效果，生成录音情感引导信息，并将生成的录音情感引导信息发送给所述输出设备；所述输出设备用于输出所述处理器发送的录音情感引导信息，以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本；所述麦克风与所述存储器连接，用于采集所述目标发音人对所述录音文本的朗读语音，得到与所述录音文本对应的语音数据，并将所述语音数据存储至所述存储器。
8.本技术第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述
计算机程序被处理器运行时，实现上述的语音生成方法。
9.本技术提出的语音生成方法在生成语音时，能够根据录音文本和目标语音情感效果生成录音情感引导信息并输出，以使发音人能够在该录音情感引导信息的引导下朗读录音文本。此时，采集发音人对录音文本的朗读语音，即得到与录音文本对应的语音数据。
10.上述的语音生成过程中，能够根据录音文本及目标语音情感效果，实时地生成录音情感引导信息，从而能够为发音人提供录音情感参考，使发音人更加直观、准确地知晓应当以何种情感朗读录音文本，进而可以采集得到带有各种情感色彩的语音数据。该方法一方面能够为发音人发音提供便利，即可以自动生成录音情感引导信息，方便发音人明确应当如何调整发音情感；另一方面，将任意语音情感作为目标语音情感效果，然后通过执行本技术技术方案能够生成各种情感的语音数据，这些语音数据可以作为语音素材用于合成具有感情色彩的语音，能够提高语音合成效果，进而有利于改善基于语音的人机交互效果。
附图说明
11.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
12.图1为本技术实施例提供的一种语音生成方法的流程示意图；
13.图2为本技术实施例提供的口语文本生成模型的处理过程示意图；
14.图3为本技术实施例提供的文本纠错模型的文本纠错过程示意图；
15.图4为本技术实施例提供的语音识别系统迭代训练示意图；
16.图5为本技术实施例提供的语音生成装置的结构示意图；
17.图6为本技术实施例提供的语音生成设备的结构示意图。
具体实施方式
18.本技术实施例所提出的技术方案适用于语音生成的应用场景，具体可以用于生成语音从而构建得到语音库的应用场景。采用本技术实施例技术方案，能够使得生成的语音具有情感效果，从而可以使得利用这些语音构建的语音库能够用于合成具有情感色彩、能够适用于更多场景和语言风格的语音。
19.人类在日常生活中相互交流的方式多种多样，而最直接易懂和自然的交流模式就是语音，计算机和互联网科技的飞速发展很大程度上改变了人们的生活方式，人与计算机之间的关系密不可分。如今语音合成在智能家居、智能机器人等交互领域得到了广泛应用。近年来，很多有关语音合成的开发技术在不断创新，人与机器通过语音交互的梦想在逐步的实现。语音开发技术与应用产品成功结合的案例也是层出不穷，例如手机语音助手和语音输入法等。
20.但是在使用智能语音设备时，相比于机器一成不变、平铺直叙的语音合成技术，针对不同场景、不同风格的拟人化语音合成变的更加被需要，拟人化语音可以使得人机交
互系统更加接近于人人沟通。例如，在手机语音助手场景下，机器可以根据机主的情绪选取对应的情感与机主沟通，达到共情的效果；在车载语音助手场景下，当车辆能源不足时，可以切换到虚弱的语气与车主沟通；在有声小说场景下，根据小说的情节，选取不同的风格与语气情感来表述，大大增强表现力。因此在这种情况下更具场景、风格、情感表现力的语音合成系统就显得非常迫切，而为了训练出该语音合成系统，原始语音库的构建就显得尤为重要。
21.目前常规的语音库构建方式是由发音人按照标准发音朗读文本，同时对发音人的朗读语音进行录制，录制的语音即作为语音素材存储至语音库中。采用这种方式所生成的语音，是语气一成不变、平铺直叙、不带有感情色彩的语音，基于这些语音素材而合成的语音，也不会带有任何感情色彩，这就导致合成的语音非常呆板，无法达到与用户共情交互的效果，更无法使得人机交互像人人交互那样自然和真实。
22.针对上述技术现状，本技术实施例提出一种新的语音生成方法，该方法能够使得生成的语音具有感情色彩，将利用该方法生成的语音用于语音库构建，可以使得该语音库能够用于生成适合不同场景、不同风格、不同情感的语音，使得语音合成能够支持更自然和更真实的人机交互。
23.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
24.示例性方法
25.请参阅图1，本技术实施例首先提出一种语音生成方法，该方法包括：
26.s101、根据录音文本以及目标语音情感效果，生成录音情感引导信息。
27.上述的录音文本，是指用于录音的文本。该录音文本可以是任意语种、任意内容、任意长度的文本内容。
28.上述的语音情感效果，是指语音所具有的情感效果。作为一种优选的实施方式，上述的目标语音情感效果，是指语音中携带所有可知的情感中的任意一种情感而达到的情感效果，例如可以是喜、怒、哀、惧、紧张、激动等各种可知的情感中的任意一种。
29.本技术实施例可用于生成语音从而构建得到语音库，该语音库理论上应当能够支持构建得到任意情感效果的语音。因此，上述的目标语音情感效果，可以是遍历每一种可能的语音情感效果。也就是，将每一种语音情感效果，分别作为上述的目标语音情感效果，并执行本技术实施例技术方案，从而生成对应每种语音情感效果的语音。由此生成的语音以及利用生成的语音构建得到的语音库，能够用于生成任意情感效果的语音。
30.上述的语音情感引导信息，是指用于引导发音人按照上述的目标语音情感效果进行发音的信息。该语音情感引导信息，可以是任意形式的信息，例如可以是文本形式、音频形式或视频形式的信息。具体的信息内容可以是情感提示文本、情感提示语音、具有与目标语音情感效果相同情感基调的音频或视频等。
31.在实施本技术实施例技术方案时，根据录音文本以及目标语音情感效果而生成的录音情感引导信息，具体可以是录音情感引导视频、录音情感引导音频和录音情感引导文本中的一种或多种。
32.其中，上述的录音情感引导视频，可以是与目标语音情感效果相同情感的视频。
33.上述的录音情感引导音频，具体可以是录音情感引导语音和/或录音情感引导音乐，例如提示发音人调整发音情感的情感引导提示语，或者，是与录音文本的文本内容情境或目标语音情感效果的情感相符的音乐。
34.作为一种可选的实施方式，当确定录音文本和目标语音情感效果时，对录音文本和目标语音情感效果进行解析，确定录音文本的情境，以及目标语音情感效果的情感基调。
35.然后，生成与录音文本的情境相匹配，和/或与目标语音情感效果的情感基调相同的录音情感引导信息。
36.例如，当录音文本为小说文本时，根据小说内容的情境，确定与小说内容相匹配的情感，然后生成用于引导发音人以这种情感朗读小说的引导信息，例如生成情境提示文本或情境提示音，或者搜索相应情境的音乐、视频等作为录音情感引导信息。
37.又例如，当目标语音情感效果为悲伤情感效果时，可以搜索某些有强烈悲伤情感的影视剧或音乐，作为生成的录音情感引导信息。这些录音情感引导信息，都将有利于引导发音人以悲伤情感朗读录音文本。
38.作为一种可选的情况，当录音文本的情境与目标语音情感效果不同时，可以根据设定，以录音文本的情境为准生成录音情感引导信息，也可以以目标语音情感效果为准生成录音情感引导信息。
39.可以理解，本技术实施例能够根据录音文本以及目标语音情感效果，自动生成与录音文本和目标语音情感效果相匹配的录音情感引导信息。该录音情感引导信息生成方式，可以使得无需刻意规定发音人一定要按照标准发音，或者按照某种情感进行发音，而是可以根据录音文本的内容，以及语音情感效果要求，实时地生成相应的录音情感引导信息。从而能够更加实时、动态地对发音人的发音情感进行引导。
40.s102、输出所述录音情感引导信息，以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本。
41.具体的，当生成与录音文本和/或目标语音情感效果相匹配的录音情感引导信息后，将生成的录音情感引导信息输出给目标发音人。目标发音人在该录音情感引导信息的引导下、有感情地朗读上述的录音文本。
42.例如，假设上述的录音情感引导信息为录音情感提示文本，则当发音人朗读录音文本时，实时输出录音情感提示文本，发音人看到该录音情感提示文本后，按照文本提示的录音情感进行朗读，即可得到发音人所发出的带有情感的朗读语音。
43.又例如，假设上述的录音情感引导信息为具有与目标语音情感效果相同情感基调的音频或视频，则当发音人朗读录音文本时，播放该音频或视频，使发音人沉浸在目标语音情感效果的情感氛围下进行朗读，从而引导发音人的朗读也携带相同的情感基调。
44.本技术实施例将根据录音文本和目标语音情感效果而实时生成的录音情感引导信息输出给发音人，可以使得发音人在朗读录音文本的过程中实时地被录音情感信息引导，从而能够使得发音人在朗读录音文本的整个过程中实时地根据录音情感引导信息而潜移默化地调整朗读情感，得到情感饱满的朗读语音。
45.s103、采集所述目标发音人对所述录音文本的朗读语音，得到与所述录音文本对
应的语音数据。
46.具体的，在目标发音人对录音文本进行朗读的过程中，对目标发音人的朗读语音进行采集和录制，即得到与录音文本对应的语音数据。
47.通过上述介绍可见，本技术实施例在生成语音时，能够根据录音文本和目标语音情感效果生成录音情感引导信息并输出，以使发音人能够在该录音情感引导信息的引导下朗读录音文本。此时，采集发音人对录音文本的朗读语音，即得到与录音文本对应的语音数据。
48.上述的语音生成过程中，能够根据录音文本及目标语音情感效果，实时地生成录音情感引导信息，从而能够为发音人提供录音情感参考，使发音人更加直观、准确地知晓应当以何种情感朗读录音文本，进而可以采集得到带有各种情感色彩的语音数据。该方法一方面能够为发音人发音提供便利，即可以自动生成录音情感引导信息，方便发音人明确应当如何调整发音情感；另一方面，本技术实施例技术方案能够用于生成各种情感的语音数据，这些语音数据可以作为语音素材用于合成具有感情色彩的语音，能够提高语音合成效果，进而有利于改善基于语音的人机交互效果。
49.通常情况下，当发音人在通过语音表达强烈情感时会改变音色，从而使情感强烈的语音的音色与发音人正常音色偏差较大，而若同一发音人的语音的音色差异较大时，会影响利用该发音人的语音作为素材训练语音合成系统的效果，利于导致语音合成系统不稳定。
50.因此，应当保证同一发音人所发出的各种情感的语音的音色保持一致。为了实现上述目的，当输出录音情感引导信息从而引导目标发音人有感情地朗读录音文本得到与录音文本对应的语音数据后，作为一种优选的实施例方式，本技术实施例还对该具有感情色彩的语音数据进行音色一致性校验，判断其是否符合目标发音人的正常音色。
51.示例性的，本技术实施例将目标发音人在设定情感下发音的音色，作为目标发音人的正常音色。
52.在此基础上，当采集到目标发音人对录音文本的朗读语音后，检测目标发音人对录音文本的朗读语音的音色，与目标发音人的设定情感的朗读语音的音色是否一致；
53.若一致，则可以将目标发音人对录音文本的朗读语音进行存储。
54.若不一致，则说明目标发音人对录音文本的朗读语音的音色已经与目标发音人的正常音色不一致，若将目标发音人对录音文本的朗读语音用于训练语音合成模型，则可能导致语音合成模型不稳定，因此本技术实施例直接将目标发音人对录音文本的朗读语音舍弃。
55.作为一种优选的实施方式，上述的目标发音人的设定情感的朗读语音，首选为目标发音人的中立情感的朗读语音，因为发音人在中立情感状态下的发音是最能体现发音人音色的。
56.因此，本技术实施例通过检测目标发音人对录音文本的朗读语音的音色与目标发音人的中立情感的朗读语音的音色是否一致，来判断目标发音人对录音文本的朗读语音的音素是否与发音人的正常音色一致。
57.作为一种可选的检测方法，首先分别从目标发音人对录音文本的朗读语音中，以及目标发音人的设定情感的朗读语音(优选为中立情感的朗读语音)中，提取说话人表征
信息。
58.例如，分别对目标发音人对录音文本的朗读语音，以及目标发音人的设定情感的朗读语音进行特征提取，然后将提取的语音特征分别输入说话人模型中，识别得到对应的说话人表征特征。
59.然后，计算从目标发音人对录音文本的朗读语音中提取的说话人表征信息，与从目标发音人的设定情感的朗读语音中提取的说话人表征信息的相似度。即计算从上述两种语音中各自提取的说话人表征特征的相似度。
60.若计算得到的相似度大于预设的相似度阈值，则可以确定目标发音人对录音文本的朗读语音的音色，与目标发音人的设定情感的朗读语音的音色一致；否则，可以确定目标发音人对录音文本的朗读语音的音色，与目标发音人的设定情感的朗读语音的音色不一致。
61.本技术实施例在生成语音时，主要依靠发音人对录音文本进行朗读而得到与录音文本对应的语音。而不同发音人的音色、声音表现力等都是不同的。因此，要想取得具有某种特定的感情色彩的语音，应当选用其音色符合该感情色彩，并且对这种感情色彩具有较好的声音表现力的发音人。
62.为了便于筛选发音人，本技术实施例预先对各个候选发音人统计详细的画像信息，然后在选择目标发音人时，根据录音文本以及目标语音情感效果，结合各个候选人的画像信息，从各个候选发音人中筛选合适的目标发音人。
63.其中，上述的候选发音人的画像信息，包括发音人基本信息，例如性别、年龄、国籍、口音等，还包括发音人人设信息，例如性格、职业、受众等，除此之外，还包括发音人发音特点信息，例如音色、发音风格、希望的发音角色和/或发音风格、不希望的发音角色和/或发音风格等。
64.表1示出了一种发音人画像信息的示例。
65.表1
66.67.本技术实施例从更加全面的角度对候选翻译人进行画像刻画，从而能够通过候选发音人的画像信息，全面、直观地确定候选发音人的特点、能力和适合的语音情感，从而有利于从多个候选发音人中选出合适的发音人。
68.在明确各个候选发音人的画像信息的基础上，当确定录音文本以及目标语音情感效果时，可以根据各个候选发音人的画像信息，从候选发音人中筛选出能够朗读录音文本并且表现出目标语音情感效果的候选发音人，作为第一候选发音人。
69.然后，再根据各个第一候选发音人的试音语音，对各个第一候选发音人的发音效果进行评估，根据对各个第一候选发音人的发音效果评估结果，从各个第一候选发音人中选出目标发音人。
70.作为可选的实施方式，本实施例从音色、吐字、气息、节奏、声音表现力和语音合成效果这些方面中的至少一方面，对各个第一候选发音人进行发音效果评估。优选的，可以从上述各方面分别对第一候选发音人进行发音效果评估，以提高评估结果的全面性。
71.其中，上述的声音表现力包括情感表现力和/或风格表现力。
72.作为示例性的实现方式，对第一候选发音人进行发音效果评估时，可以通过预先训练的发音效果评估模型，实现对第一候选发音人的发音效果的自动评估。然后，对各个候选发音人在各个方面的评估结果进行综合，从各个第一候选发音人中，选出综合评估结果最好的发音人，作为目标发音人。
73.上述的语音合成效果，包括基于第一候选发音人的试音语音进行语音合成得到的语音的效果。
74.本技术实施例在对上述的第一候选发音人进行语音合成效果评估时，先利用第一候选发音人的试音语音，训练一个与第一候选发音人对应的简易的语音合成系统。该语音合成系统一般通过对声学模型进行训练得到，该声学模型包括但不限于hmm模型、神经网络模型等。
75.然后，将第一候选发音人的试音语音输入与之对应的语音合成系统，利用发音人的试音语音合成语音，然后对合成语音进行语音合成效果评估，得到语音合成效果评估结果。
76.示例性的，对合成语音进行语音合成效果评估，也可以借助预先训练的语音合成效果评估模型实现，即，将合成语音输入预先训练的语音合成效果评估模型，得到模型输出的语音合成效果评估结果。
77.根据该语音合成效果评估结果，即可确定对第一候选发音人的发音效果评估结果。例如，当对第一候选发音人进行发音效果评估时，若仅从语音合成效果方面进行评估，则可以直接将语音合成效果评估结果，作为对第一候选发音人的发音效果评估结果；若从多方面对第一候选发音人进行发音效果评估，则将通过上述处理确定的语音合成效果评估结果，与通过其他方面得出的评估结果进行综合，作为对第一候选发音人的发音效果评估结果。
78.本技术实施例通过语音合成效果对发音人进行评估，可以更加真实地评估发音人的语音在语音合成中应用时的效果，从而有利于选出语音合成效果更好的发音人。
79.另一方面，在根据录音文本生成语音进而利用生成的语音构建语音库时，录音文本的质量，也直接影响着语音库的质量。
80.在录音文本的制作上，除了选出各种场景和各种风格情绪的文本以外，还要考虑文本的音素覆盖度，例如可以采用音素的ngram覆盖度作为指标，保障所制作的文本能够有效覆盖绝大部分音素组合，保障后续语音合成系统训练的效果。
81.另外，在某些场景或某些情感下，需要语音合成系统具有更加口语化的表达，能够实现更加拟人化的沟通，所以需要大量的口语化文本来制作语音库，或者通过口语化的文本表达出一定的语音情感。
82.针对上述情况，本技术实施例在根据录音文本以及目标语音情感效果生成录音情感引导信息之前，先根据录音文本，生成与录音文本对应的口语化录音文本。
83.作为一种示例性的实现方式，本技术实施例预先训练一个口语文本生成模型，该模型能够通过向输入模型的文本中添加语义词，从而生成口语化文本。
84.基于上述的口语文本生成模型，将获取的录音文本输入该口语文本生成模型，即可得到模型输出的与录音文本对应的口语化录音文本。
85.参见图2所示的口语文本生成模型处理过程，上述的口语文本生成模型，对输入的文本先进行分词，对于每一个词w分别进行特征提取(例如可以通过循环神经网络进行特征提取)，得到每一个词的特征表征e，然后根据每个词的特征表征，通过隐层h以及全连接层的处理，对每个词后面是否插入语气词进行判别。其中，口语化的语气词均是预先设置的语气词。
86.该口语文本生成模型通过书面语文本与口语文本的平行文本对进行一定量的训练，即可自动对书面语文本生成口语化文本，提高了口语化文本生成效率。
87.并且，生成与录音文本对应的口语化录音文本，更加有利于发音人朗读录音文本得到具有目标语音情感效果的语音。
88.更进一步的，在通过上述处理生成口语化录音文本后，本技术实施例还对生成的口语化录音文本进行文本纠错，以保证口语化录音文本的正确性。
89.作为一种可选的实施方式，本技术实施例预先训练文本纠错模型，用于对口语化录音文本进行文本纠错。
90.该文本纠错模型，能够从输入模型的文本中检测漏字、错字和别字等各种类型的文本错误，并对检测到的文本错误进行纠正。
91.上述的文本纠错模型可以采用但不限于基于深度神经网络的文本纠错的方案进行文本纠错。
92.该文本纠错采用四种编辑标签类型，分别是：c(将当前输入文本复制到输出)，d(将当前输入文本删除)，xc(将当前输入文本复制到输出，并在其前面添加文本x)，xh(将当前输入文本替换为x)。
93.图3示例性的展示了文本纠错模型的文本纠错过程。在该文本纠错过程中，除了保留了大部分原文本内容外，“大”字前添加“大”字，然后替换“文”字为“闻”字。图3所示的文本纠错模型的编码器和解码器通常可以采用各种深度神经网络模型，通过上述模型可以对录音文本中的漏字、错字、别字等进行检测，并进行自动纠错，大大提升了文本纠错的效率。
94.本技术实施例生成的与录音文本对应的语音数据，可以直接用于构建语音库。
95.在构建语音库时，通常需要对语音数据进行标注，例如进行字音对齐标注、韵律
标注等。
96.为了提高对语音数据的标注效率，本技术实施例预先训练语音识别模型，用于对语音数据进行音素识别，从而可以根据模型输出的音素识别结果对语音数据进行音素标注。
97.参见图4所示，上述的语音识别模型，可以通过发音人的语音，对说话人无关的语音识别系统进行迭代训练得到。
98.对说话人无关的语音识别系统的迭代过程如下：
99.(1)发音人语音首先通过说话人无关语音识别系统进行强制切分，得到音素对齐的结果，即得到从发音人语音中识别到的各个音素，以及音素的起止时间。
100.该说话人无关语音识别系统可以但不限于是隐马尔可夫模型或者深度神经网络的模型。
101.(2)然后使用该音素切分结果对说话人无关语音识别系统的声学模型进行微调训练，如隐马尔可夫模型可以使用最大后验概率准则进行训练，而深度神经网络模型则可以使用交叉熵准则更新神经网络的部分参数。
102.(3)使用步(2)得到的模型重复步1的操作，迭代进行，直到音素切分结果不再发生变化或者变化极小为止。
103.将上述步骤s103处理得到的语音数据输入上述的语音识别模型，即可得到模型输出的音素识别结果，在该音素识别结果中，包含音素的起止位置信息。
104.然后，根据该音素识别结果，即可对上述语音数据进行音素标注。例如，按照音素识别结果中的各个音素的起止位置信息，在语音数据的相应起止位置进行音素标注。
105.另一方面，在对语音数据进行韵律标注时，可以借助韵律预测模型对语音数据进行韵律预测，然后根据韵律预测结果对语音数据进行韵律标注。
106.其中，上述的韵律预测模型的训练，以及利用韵律预测模型进行韵律预测，并根据韵律预测结果进行韵律标注的具体处理过程，均可以参见上述的音素标注的处理过程，本实施例不再详述。
107.本实施例借助语音识别模型和韵律预测模型，能够自动获取语音数据的音素识别结果以及韵律预测结果，从而可以根据音素识别结果和韵律预测结果，对语音数据进行音素和韵律标注，现对于人工进行音素和韵律标注，本实施例的标注效率更高。
108.示例性装置
109.与上述的语音生成方法相对应的，本技术实施例还提供了一种语音生成装置，参见图5所示，该装置包括：
110.信息生成单元100，用于根据录音文本以及目标语音情感效果，生成录音情感引导信息；
111.数据输出单元110，用于输出所述录音情感引导信息，以便目标发音人在所述录音情感引导信息的引导下朗读所述录音文本；
112.数据采集单元120，用于采集所述目标发音人对所述录音文本的朗读语音，得到与所述录音文本对应的语音数据。
113.作为一种可选的实施方式，根据录音文本以及目标语音情感效果，生成录音情感引导信息，包括：
114.根据录音文本以及目标语音情感效果，生成与所述录音文本的情境相匹配和/或与所述目标语音情感效果的情感基调相同的录音情感引导信息。
115.作为一种可选的实施方式，所述录音情感引导信息，包括录音情感引导视频、录音情感引导音频和录音情感引导文本中的至少一项；
116.所述录音情感引导音频，包括录音情感引导语音和录音情感引导音乐中的至少一项。
117.作为一种可选的实施方式，所述装置还包括：
118.数据处理单元，用于检测所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色是否一致；
119.若所述目标发音人对所述录音文本的朗读语音的音色与所述目标发音人的设定情感的朗读语音的音色不一致，则舍弃所述目标发音人对所述录音文本的朗读语音。
120.作为一种可选的实施方式，检测所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色是否一致，包括：
121.分别从所述目标发音人对所述录音文本的朗读语音中，以及所述目标发音人的设定情感的朗读语音中，提取说话人表征信息；
122.计算从所述目标发音人对所述录音文本的朗读语音中提取的说话人表征信息，与从所述目标发音人的设定情感的朗读语音中提取的说话人表征信息的相似度；
123.若计算得到的相似度大于预设的相似度阈值，则确定所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色一致。
124.作为一种可选的实施方式，所述装置还包括：
125.发音人筛选单元，用于根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选得到目标发音人；
126.其中，候选发音人的画像信息，包括发音人基本信息、发音人人设信息以及发音人发音特点信息；
127.所述发音人基本信息包括性别、年龄、国籍和口音中的至少一项；所述发音人人设信息包括性格、职业和受众中的至少一项；所述发音人发音特点信息包括音色、发音风格、希望的发音角色和/或发音风格、不希望的发音角色和/或发音风格中的至少一项。
128.作为一种可选的实施方式，根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选得到目标发音人，包括：
129.根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选出能够朗读所述录音文本并且表现出所述目标语音情感效果的第一候选发音人；
130.根据各个第一候选发音人的试音语音，对各个第一候选发音人进行发音效果评估；
131.根据对各个第一候选发音人的发音效果评估结果，从各个第一候选发音人中选出目标发音人。
132.作为一种可选的实施方式，根据各个第一候选发音人的试音语音，对各个第一候选发音人进行发音效果评估，包括：
133.根据各个第一候选发音人的试音语音，从音色、吐字、气息、节奏、声音表现力和语音合成效果中的至少一方面，对各个第一候选发音人进行发音效果评估；
134.其中，所述声音表现力包括情感表现力和风格表现力中的至少一项；所述语音合成效果包括基于试音语音进行语音合成得到的语音的效果。
135.作为一种可选的实施方式，根据第一候选发音人的试音语音，从语音合成效果方面对第一候选发音人进行发音效果评估，包括：
136.利用第一候选发音人的试音语音，训练得到与所述第一候选发音人对应的语音合成系统；
137.对与所述第一候选发音人对应的语音合成系统输出的合成语音进行语音合成效果评估，得到语音合成效果评估结果；
138.根据所述语音合成效果评估结果，确定对所述第一候选发音人的发音效果评估结果。
139.作为一种可选的实施方式，所述装置还包括：
140.数据预处理单元，用于根据所述录音文本，生成与所述录音文本对应的口语化录音文本。
141.作为一种可选的实施方式，根据所述录音文本，生成与所述录音文本对应的口语化录音文本，包括：
142.将所述录音文本，输入预先训练的口语文本生成模型，得到与所述录音文本对应的口语化录音文本；
143.其中，所述口语文本生成模型具备通过向输入模型的文本中添加语气词生成口语化文本的功能。
144.作为一种可选的实施方式，所述数据预处理单元还用于：
145.将所述口语化录音文本输入预先训练的文本纠错模型，对生成的口语化录音文本进行文本纠错处理；
146.其中，所述文本纠错模型至少具备从输入模型的文本中检测漏字、错字和别字中的至少一种文本错误，并对检测到的文本错误进行纠正的功能。
147.作为一种可选的实施方式，所述装置还包括：
148.第一语音标注单元，用于将与所述录音文本对应的语音数据输入预先训练的语音识别模型，得到对所述语音数据的音素识别结果；
149.根据所述音素识别结果，对所述语音数据进行音素标注。
150.作为一种可选的实施方式，所述装置还包括：
151.第二语音标注单元，用于将与所述录音文本对应的语音数据输入预先训练的韵律预测模型，得到对所述语音数据的韵律预测结果；
152.根据所述韵律预测结果，对所述语音数据进行韵律标注。
153.本实施例提供的语音生成装置，与本技术上述实施例所提供的语音生成方法属于同一申请构思，可执行本技术上述任意实施例所提供的语音生成方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的语音生成方法的具体处理内容，此处不再加以赘述。
154.示例性电子设备
155.本技术另一实施例还提出一种语音生成设备，参见图6所示，该设备包括：
156.存储器200和处理器210；
157.其中，所述存储器200与所述处理器210连接，用于存储计算机程序以及存储数据；
158.所述处理器210，用于通过运行所述存储器200中存储的计算机程序，根据录音文本以及目标语音情感效果，生成录音情感引导信息。
159.具体的，上述语音生成设备还包括：总线、通信接口220、输入设备230 和输出设备240。
160.处理器210、存储器200、通信接口220、输入设备230和输出设备240 通过总线相互连接。其中：
161.总线可包括一通路，在计算机系统各个部件之间传送信息。
162.处理器210可以是通用处理器，例如通用中央处理器(cpu)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit， asic)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列 (fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
163.处理器210可包括主处理器，还可包括基带芯片、调制解调器等。
164.存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-onlymemory，rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。该存储器200具备数据存储功能，可以用来存储处理器生成的录音情感引导信息，以及存储输入设备230所采集或接收的各种类型的数据。
165.输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。处理器210可以将生成的录音情感引导信息发送给输出设备240，输出设备240可以将该录音情感引导信息输出给用户，例如输出给目标发音人，以使目标发音人在该录音情感引导信息的引导下朗读录音文本。
166.输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。用户可以通过输入设备230输入录音文本以及选择目标语音情感效果，输入设备230将接收到的录音文本以及目标语音情感效果信息，发送给处理器210，以便处理器210根据录音文本以及目标语音情感效果信息生成录音情感引导信息。
167.在本技术实施例中，上述的输入设备230包括麦克风，该麦克风用于采集目标发音人对录音文本的朗读语音，得到与录音文本对应的语音数据。输入设备230采集的语音数据最终存储至存储器200。
168.通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(ran)，无线局域网(wlan)等。
169.另外，处理器210执行存储器200中所存放的程序，以及调用其他设备，可以实现本技术上述实施例所提供的任意一种语音生成方法的各个步骤。
170.具体的，处理器210根据录音文本以及目标语音情感效果，生成录音情感引导信
息，包括：
171.根据录音文本以及目标语音情感效果，生成与所述录音文本的情境相匹配和/或与所述目标语音情感效果的情感基调相同的录音情感引导信息。
172.作为一种可选的实施方式，所述录音情感引导信息，包括录音情感引导视频、录音情感引导音频和录音情感引导文本中的至少一项；
173.所述录音情感引导音频，包括录音情感引导语音和录音情感引导音乐中的至少一项。
174.作为一种可选的实施方式，所述处理器210还用于：
175.检测所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色是否一致；
176.若所述目标发音人对所述录音文本的朗读语音的音色与所述目标发音人的设定情感的朗读语音的音色不一致，则舍弃所述目标发音人对所述录音文本的朗读语音。
177.作为一种可选的实施方式，检测所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色是否一致，包括：
178.分别从所述目标发音人对所述录音文本的朗读语音中，以及所述目标发音人的设定情感的朗读语音中，提取说话人表征信息；
179.计算从所述目标发音人对所述录音文本的朗读语音中提取的说话人表征信息，与从所述目标发音人的设定情感的朗读语音中提取的说话人表征信息的相似度；
180.若计算得到的相似度大于预设的相似度阈值，则确定所述目标发音人对所述录音文本的朗读语音的音色，与所述目标发音人的设定情感的朗读语音的音色一致。
181.作为一种可选的实施方式，在输出所述录音情感引导信息之前，所述处理器210还用于：
182.根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选得到目标发音人；
183.其中，候选发音人的画像信息，包括发音人基本信息、发音人人设信息以及发音人发音特点信息；
184.所述发音人基本信息包括性别、年龄、国籍和口音中的至少一项；所述发音人人设信息包括性格、职业和受众中的至少一项；所述发音人发音特点信息包括音色、发音风格、希望的发音角色和/或发音风格、不希望的发音角色和/或发音风格中的至少一项。
185.作为一种可选的实施方式，根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选得到目标发音人，包括：
186.根据录音文本、目标语音情感效果，以及候选发音人的画像信息，从候选发音人中筛选出能够朗读所述录音文本并且表现出所述目标语音情感效果的第一候选发音人；
187.根据各个第一候选发音人的试音语音，对各个第一候选发音人进行发音效果评估；
188.根据对各个第一候选发音人的发音效果评估结果，从各个第一候选发音人中选出目标发音人。
189.作为一种可选的实施方式，根据各个第一候选发音人的试音语音，对各个第一候选发音人进行发音效果评估，包括：
190.根据各个第一候选发音人的试音语音，从音色、吐字、气息、节奏、声音表现力和语音合成效果中的至少一方面，对各个第一候选发音人进行发音效果评估；
191.其中，所述声音表现力包括情感表现力和风格表现力中的至少一项；所述语音合成效果包括基于试音语音进行语音合成得到的语音的效果。
192.作为一种可选的实施方式，根据第一候选发音人的试音语音，从语音合成效果方面对第一候选发音人进行发音效果评估，包括：
193.利用第一候选发音人的试音语音，训练得到与所述第一候选发音人对应的语音合成系统；
194.对与所述第一候选发音人对应的语音合成系统输出的合成语音进行语音合成效果评估，得到语音合成效果评估结果；
195.根据所述语音合成效果评估结果，确定对所述第一候选发音人的发音效果评估结果。
196.作为一种可选的实施方式，在根据录音文本以及目标语音情感效果，生成录音情感引导信息之前，所述处理器210还用于：
197.根据所述录音文本，生成与所述录音文本对应的口语化录音文本。
198.作为一种可选的实施方式，根据所述录音文本，生成与所述录音文本对应的口语化录音文本，包括：
199.将所述录音文本，输入预先训练的口语文本生成模型，得到与所述录音文本对应的口语化录音文本；
200.其中，所述口语文本生成模型具备通过向输入模型的文本中添加语气词生成口语化文本的功能。
201.作为一种可选的实施方式，所述处理器210还用于：
202.将所述口语化录音文本输入预先训练的文本纠错模型，对生成的口语化录音文本进行文本纠错处理；
203.其中，所述文本纠错模型至少具备从输入模型的文本中检测漏字、错字和别字中的至少一种文本错误，并对检测到的文本错误进行纠正的功能。
204.作为一种可选的实施方式，所述处理器210还用于：
205.将与所述录音文本对应的语音数据输入预先训练的语音识别模型，得到对所述语音数据的音素识别结果；
206.根据所述音素识别结果，对所述语音数据进行音素标注。
207.作为一种可选的实施方式，所述处理器210还用于：
208.将与所述录音文本对应的语音数据输入预先训练的韵律预测模型，得到对所述语音数据的韵律预测结果；
209.根据所述韵律预测结果，对所述语音数据进行韵律标注。
210.本实施例提供的语音生成设备，与本技术上述实施例所提供的语音生成方法属于同一申请构思，可执行本技术上述任意实施例所提供的语音生成方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的语音生成方法的具体处理内容，此处不再加以赘述。
211.示例性计算机程序产品和存储介质
212.除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的语音生成方法中的步骤，并能够取得相应的技术效果。
213.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c 等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
214.此外，本技术的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的语音生成方法中的步骤，并实现相应的技术效果。
215.对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
216.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
217.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
218.本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
219.本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
220.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
221.另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
222.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单
元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
223.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
224.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
225.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：闪存磨损次数预测方法、装置及存储介质与流程

一种语音生成方法、装置、设备及存储介质与流程

相关文献

最热文献