语音合成方法及相关装置、电子设备和存储介质与流程

2022-04-09 06:36:57 来源：中国专利 TAG：

1.本技术涉及语音合成技术领域，特别是涉及一种语音合成方法及相关装置、电子设备和存储介质。

背景技术：

2.近年来，语音合成技术在智能客服、语音助手、小说阅读、虚拟人物等方向广泛应用。例如，语音助手可以利用语音识别技术识别用户的语音，再利用自然语言处理技术生成回答文本，最后根据文本通过语音合成技术生成流利的语音和用户交流。
3.目前，语音合成技术合成语音都是偏正式的流利语言。但是在日常交流过程中，通常会有各种不流利的口语现象。故此，相对于人与人之间日常的口语化交流而言，语音合成出的偏正式的流利语言，由于不符合口语表达，故难以给予用户良好的交互体验。有鉴于此，如何实现口语化的语音合成，以提升用户交互体验成为亟待解决的问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种语音合成方法及相关装置、电子设备和存储介质，能够实现口语化的语音合成，以提升用户交互体验。
5.为了解决上述技术问题，本技术第一方面提供了一种语音合成方法，包括：将待合成文本进行口语化转换，得到口语化文本；其中，口语化转换参考至少一种转换模式；提取口语化文本的音素序列，并预测口语化文本的口语化控制标签；其中，口语化控制标签用于控制发音状态；基于音素序列和口语化控制标签，合成得到待合成文本的口语化语音。
6.为了解决上述技术问题，本技术第二方面提供了一种语音合成装置，包括：口语转换模块、音素提取模块、标签预测模块和声音合成模块，口语转换模块，用于将待合成文本进行口语化转换，得到口语化文本；其中，口语化转换参考至少一种转换模式；音素提取模块，用于提取口语化文本的音素序列；标签预测模块，用于预测口语化文本的口语化控制标签；其中，口语化控制标签用于控制发音状态；声音合成模块，用于基于音素序列和口语化控制标签，合成得到待合成文本的口语化语音。
7.为了解决上述技术问题，本技术第三方面提供了一种电子设备，包括：相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音合成方法。
8.为了解决上述技术问题，本技术第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音合成方法。
9.上述方案，将待合成文本进行口语化转换，得到口语化文本，且口语化文本参考至少一种转换模式，并提取口语化文本的音素序列，以及预测口语化文本的口语化控制标签，且口语化控制标签用于控制发音状态，在此基础上，再基于音素序列和口语化控制标签，合成得到待核查文本的口语化语音，一方面先参考至少一种转换模式对待合成文本进行口语化转换得到口语化文本，有利于使口语化文本尽可能地符合口语化表达，另一方面在此基
础上预测口语化文本的口语化控制标签，能够在前述文本层面的基础上，进一步从声学层面为口语化语音合成提供参考，故此能够同时从文本层面和声学层面两个不同层面，实现口语化的语音合成，以提升用户交互体验。
附图说明
10.图1是本技术语音合成方法一实施例的流程示意图；
11.图2是获取样本数据一实施例的过程示意图；
12.图3是口语化预测网络一实施例的框架示意图；
13.图4是口语化预测网络另一实施例的框架示意图；
14.图5是获取第一标签一实施例的过程示意图；
15.图6是获取音素类别一实施例的过程示意图；
16.图7是获取音素标注一实施例的过程示意图；
17.图8是获取情感特征表示一实施例的过程示意图；
18.图9是语音情感网络一实施例的框架示意图；
19.图10是本技术语音合成方法一实施例的过程示意图；
20.图11是本技术语音合成装置一实施例的框架示意图；
21.图12是本技术电子设备一实施例的框架示意图；
22.图13是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
23.下面结合说明书附图，对本技术实施例的方案进行详细说明。
24.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本技术。
25.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。
26.请参阅图1，图1是本技术语音合成方法一实施例的流程示意图。具体而言，可以包括如下步骤：
27.步骤s11：将待合成文本进行口语化转换，得到口语化文本。
28.本公开实施例中，口语化转换参考至少一种转换模式。示例性地，转换模式可以包括但不限于：添加语气词、添加口头禅、添加重复语句、纠正内容、倒装语序。例如，可以在待合成文本开头添加语气词“嗯嗯”；和/或，可以在待合成文本开头添加口头禅“那个”；和/或，可以在待合成文本中对部分词语重复，如可以重复待合成文本中诸如“明白”(即重复后为“明白明白”)、“好的”(即重复后为“好的好的”)等词语；和/或，可以纠正待合成文本中相关表达，如可以纠正待合成文本中的错误表达(如，“我明天可以，啊不，后天可以去你那”、“我想要这个草莓口味的，还是要这个菠萝口味的吧”等)；和/或，可以倒装诸如状语等表达语序(如，“你这属于是张冠李戴了”倒装为“你这张冠李戴了属于是”)。其他情况可以以此类推，在此不再一一举例。
29.在一个实施场景中，为了提升语音合成的效率，可以预先训练一个语音合成模型，且语音合成模型可以包括口语化预测网络，从而可以通过口语化预测网络对待合成文本进行预测，得到口语化文本。此外，口语化模型可以采用若干样本文本对训练得到，且第二样本文本通过口语化录制得到，第一样本文本在第二样本文本基础上经书面化转换得到。上述方式，口语化文本基于口语化预测网络得到，口语化模型采用若干样本文本对训练得到，样本文本对包括第一样本文本和第二样本文本，且第二样本文本通过口语化录制得到，第一样本文本在第二样本文本基础上经书面化转换得到，能够使口语化预测网络学习到口语化表达特征，有利于提升口语化转换的精度和效率。
30.在一个具体的实施场景中，上述样本数据可以基于与预设口语化场景相关的对话主题和对话提纲录制得到。示例性地，对于聊天场景，则可以设计与聊天相关的对话主题(如，旅游主题)和对话提纲(如，去过哪些地方、印象最深的地方、旅行中发生的趣事、计划去那些地方)；或者，对于争论场景，则可以设计与争论相关的对话主题和对话提纲，其他场景可以以此类推，在此不再一一举例。上述方式，利用样本数据训练语音合成模型，且样本数据基于与预设口语化场景相关的对话主题和对话提纲录制得到，能够在音库录制层面确保训练样本的质量，有利于提升语音合成模型的准确性。
31.在一个具体的实施场景中，上述样本数据可以包括但不限于：录制得到的样本口语化语音、经样本口语化语音转写得到的第二样本文本，以及在第二样本文本基础上经书面化转换得到的第一样本文本。请结合参阅图2，图2是获取样本数据一实施例的过程示意图。如图2所示，可以根据设计好的对话主题和对话提纲进行交谈，在此之前可以约定对话者根据自身的口语习惯自由演绎该对话主题。此外，还可以将两位对话者在不同录音室通过打电话的方式进行交谈，分别录制两位对话者的样本口语化语音，尽可能地减少录音时出现声音重叠，以提升样本质量。进一步地，如图2所示，在录音过程中，可以采用人工监听方式或者算法实时监测的方式获取对话者的情绪，并及时调用对话者的情绪，使对话者产生符合语境的情绪表达。例如，在聊天场景下，可以调动对话者的情绪处于相对放松的状态；或者，在争论场景下，可以调动对话者的情绪处于相对亢奋的状态，其他场景可以以此类推，在此不再一一举例。在获取到样本口语化语音之后，可以采用诸如asr(automatic speech recognition，自动语音识别)工具将样本口语化语音进行转换，得到第二样本文本，并将第二样本文本进行书面化转换，得到第一样本文本。示例性地，在前述旅游主题的对话过程中，录制得到样本语音“我印象中天气很冷当时”，识别得到第二样本文本“我印象中天气很冷当时”，发现存在语序倒装的口语现象，故进行书面化转换，修正该语序倒装，得到第一样本文本“我印象中当时天气很冷”。其他情况可以以此类推，在此不再一一举例。
32.在一个具体的实施场景中，口语化预测网络可以包括但不限于诸如encoder-decoder结构的端到端(end to end)网络。在此情况下，请结合参阅图3，图3是口语化预测网络一实施例的框架示意图。如图3所示，可以将第一样本文本输入至口语化预测网络的编码器(encoder)进行编码，得到第一样本文本中各个样本词语的样本语义特征表示，再将各个样本词语的样本语义特征表示输入至口语化预测网络的解码器(decoder)进行解码，得到若干预测词语，在此基础上，可以基于第i个预测词语与第二样本文本中第i个样本词语之间的差异，得到口语化预测网络的预测损失，并基于预测损失，调整口语化预测网络的网络参数。具体而言，解码器每次解码时均可以解码得到预设词表中各个预设词语的预测概
率值，从而可以将最大预测概率值对应的预设词语作为本次解码输出的预测词语。此外，可以基于第i个预测词语与第二样本文本中第i个样本词语之间的差异，以及第i个预测词语的预测概率值，通过诸如交叉熵等损失函数计算得到预测损失。进一步地，可以通过诸如梯度下降等优化方式，基于预测损失调整口语化预测网络的网络参数。需要说明的是，预测损失的具体计算过程，可以参阅诸如交叉熵等损失函数的技术细节，而网络参数的具体调整过程，可以参阅诸如梯度下降等优化方式的技术细节，在此不再赘述。基于此，可以利用口语化预测网络对待合成文本进行预测，得到对应的口语化文本。具体而言，在口语化预测网络为encoder-decoder结构的情况下，口语化预测网络的编码器可以对待合成文本中各个词语进行编码，得到各个词语的语义特征表示，并将各个词语的语义特征表示输入至口语化预测网络的解码器进行解码，得到若干预测词语，从而可以将依序解码得到的预测词语的组合，作为口语化文本。如前所述，转换模式可以包括但不限于：添加语气词、添加口头禅、添加重复语句、纠正内容、倒装语序。请参阅表1，表1是口语化转换一实施例的示意表。如表1所示，下划线表示在待合成文本基础上所做的口语化转换。例如，对于添加语气词的转换模式而言，待合成文本为“我也觉得很不错”，口语化之后的口语化文本为“嗯，我也觉得很不错”。表1中其他转换模式可以以此类推，在此不再一一举例。需要说明的是，表1所示仅仅是口语化转换的几种典型示例，并不因此而排除其他口语化转换的方式。
33.表1口语化转化一实施例的示意表
[0034][0035]
需要说明的是，编码器可以包括但不限于：多层长短时记忆网络、transformer结构等，在此不做限定。编码器可以进一步包括输入层、隐层和输出层，输出层的输出结果通过attention机制输入到解码器中。此外，解码器可以包括但不限于：多层长短时记忆网络、transformer结构等，在此不做限定。解码器的输入是attention机制得到的输出，解码器逐字自回归输出对应的口语化文本。如图3所示，在输入待合成文本“我也觉得不错”的情况下，可以输出口语化文本“嗯，我也觉得不错”。
[0036]
在一个具体的实施场景中，口语化预测网络也可以不是端到端网络。示例性地，口语化预测网络可以基于第一样本文本和第二样本文本之间的编辑差异训练得到。具体而言，可以基于第一样本文本和第二样本文本之间的编辑距离，将第一样本文本和第二样本文本进行对齐，并基于第一样本文本和第二样本文本之间的对齐结果，获取第一样本文本
中各个样本词语的样本编辑标签，且样本编辑标签包括样本编辑类型和样本编辑文本。请结合参阅表2，表2是从第一样本文本到第二样本文本的样本编辑标签的示意表。如表2所示，第一样本文本“明白我马上就去”和第二样本文本“明白明白我马上就去”可以基于最小编辑距离算法进行对齐，对齐结果显示在第一样本文本中样本词语“明白”处插入一个样本词语“明白”，即可得到第二样本文本，故可以得到表2所示第一样本文本各个样本词语的样本编辑标签，如样本词语“明白”的样本编辑标签“keep|明白”，其中样本编辑类型为“keep”，样本编辑文本为“明白”，以此来表示在“keep”(即保留)第一样本文本中样本词语“明白”的基础上加入样本编辑文本“明白”；类似地，样本词语“我”的样本编辑标签“keep”，其中，样本编辑类型为“keep”，样本编辑文本为空，以此来表示“keep”(保留)第一样本文本中样本词语“我”，且无需加入其它词语。其他样本词语的样本编辑标签以此类推，在此不再一一举例。此外，还可以包括但不限于诸如插入(insert)、删除(delete)等编辑类型，在此不做限定。
[0037]
表2从第一样本文本到第二样本文本的样本编辑标签的示意表
[0038][0039][0040]
在此基础上，可以利用口语化预测网络预测第一样本文本中各个样本词语的预测编辑标签，且预测编辑标签包括预测编辑类型和预测编辑文本，从而可以基于样本编辑标签和预测编辑标签之间的差异，调整口语化预测网络的网络参数。具体而言，请结合参阅图4，图4是口语化预测网络另一实施例的框架示意图。如图4所示，口语化预测网络可以包括语义提取子网络和标签预测子网络，语义提取子网络可以包括但不限于bert(bidirectional encoder representation from transformers，即基于transformer的双向编码器表征)等，用于提取输入书面文本的语义表征序列，而标签预测子网络可以包括但不限于双向长短时记忆神经网络(bidirectional long short-term memory,bi-lstm)、前馈神经网络等，用于基于语义表征序列预测编辑标签。关于根据差异调整参数的具体过程，可以参考前述损失计算以及梯度下降等相关描述，在此不再赘述。上述方式，基于第一样本文本和第二样本文本之间的编辑距离，将第一样本文本和第二样本文本进行对齐，并基于第一样本文本和第二样本文本之间的对齐结果，获取第一样本文本中各个样本词语的样本编辑标签，且样本编辑标签包括样本编辑类型和样本编辑文本，再基于口语化预测网络预测第一样本文本中各个样本词语的预测编辑标签，且预测编辑标签包括预测编辑类型和预测编辑文本，从而基于样本编辑标签和预测编辑标签之间的差异，调整口语化预测网络的网络参数，故能够使口语化预测网络从编辑角度学习到书面文本与口语化文本之间的编辑差异，有利于提升口语化转换的准确性和可解释性。
[0041]
在口语化预测网络训练之后，可以基于口语化预测网络可以预测得到待合成文本中各个词语的编辑标签，且编辑标签可以包括编辑类型和编辑文本，在此基础上，可以分别
对各个词语，基于词语的编辑文本，执行词语的编辑类型所对应的编辑操作，得到口语化文本。示例性地，以待合成文本“我也觉得很不错”为例，如表3所示，可以预测得到待合成文本中各个词语的编辑标签。编辑标签的具体含义，可以参阅前述表2以及相关描述，在此不再赘述。
[0042]
表3待合成文本中各个词语的编辑标签
[0043]
序号12345待合成文本我也觉得很不错编辑标签keep|嗯keepkeepkeepkeep
[0044]
在此基础上，对于词语“我”而言，可以基于其编辑文本“嗯”，执行该词语的编辑类型(即keep)对应的编辑操作，即在“keep”(保留)该词语“我”的前提下，加入编辑文本“嗯”；类似地，对于其他词语可以以此类推，最终即可得到口语化文本“嗯我也觉得很不错”。其他待合成文本可以以此类推，在此不再一一举例。上述方式，基于口语化预测网络预测待合成文本中各个词语的编辑标签，且编辑标签包括编辑类型和编辑文本，在此基础上，分别对各个词语，基于词语的编辑文本，执行词语的编辑类型对应的编辑操作，得到口语化文本，能够使口语化预测网络从编辑角度学习到书面文本与口语化文本之间的编辑差异，有利于提升口语化转换的准确性和可解释性。
[0045]
步骤s12：提取口语化文本的音素序列，并预测口语化文本的口语化控制标签。
[0046]
本公开实施例中，口语化控制标签用于控制发音状态。需要说明的是，发音状态可以表示音素序列中各个音素在最终合成得到的口语化语音中的发音缓急、发音情绪、发音顿挫等，在此不做限定。
[0047]
在一个实施场景中，音素表征根据语音的自然属性划分出来的最小语音单位。示例性地，对于口语化文本“嗯我也觉得很不错”而言，其音素序列可以表示为“en#uo#ie#j#ve#d#e#h#en#b#u#c#uo”。其他文本可以以此类推，在此不再一一举例。此外，为了提升提取音素序列的便利性，可以采用前端文本分析工具对口语化文本进行分析，得到音素序列。前端文本分析工具可以包括但不限于phonemizer等，在此不做限定。
[0048]
在一个实施场景中，口语化标签可以包括第一标签，且第一标签可以表征音素序列中各个音素所属的词语是否属于语气词。上述方式，通过将口语化标签设置为包括第一标签，且第一标签表征音素序列中各个音素所属的词语是否属于语气词，故能够有利于在最终合成的口语化语音中控制语气词的发音，使最终合成的口语化语音在声学层面更符合口语化表达。
[0049]
在一个具体的实施场景中，请结合参阅图5，图5是获取第一标签一实施例的过程示意图。如图5所示，可以将口语化文本中位于语气词词表的词语，作为候选词语，并基于候选词语在口语化文本中的词语位置，确定候选词语是否属于语气词，以及基于音素序列中各个音素所属的词语是否属于语气词，得到第一标签。具体来说，可以预先维护一个语气词词表(如，可以包含：嗯、啊、嗨、哎等语气词)，然后利用前端文本分析工具对口语化文本进行分词，得到口语化文本中各个词语，如可以对前述口语化文本“嗯我也觉得很不错”进行分词，得到如下词语：嗯、我、也、觉得、很、不错，其他文本可以以此类推，在此不再一一举例。此外，如图5所示，可以进一步根据候选词语在口语化文本中的词语位置，判断其是否位于短语边界(l3边界)和起始位置，若是则可以确定该候选词语属于语气词。示例性地，前述
口语化文本“嗯我也觉得很不错”中词语“嗯”位于语气词词表，故可以确定其为候选词语，且该候选词语也同时处于短语边界和起始位置，则可以确定该候选词语为语气词。此外，示例性地，为了提升标记标签的便利性，若音素序列中音素所属的词语属于语气词，则可以标记为1，反之，若音素序列中音素所属的词语不属于语气词，则可以标记为0。在此情况下，对于上述口语化文本“嗯我也觉得很不错”而言，其第一标签可以以向量形式表示为[1000000000000]。其他文本可以以此类推，在此不再一一举例。上述方式，通过将口语化文本中位于语气词词表的词语，作为候选词语，并基于候选词语在口语化文本中的词语位置，确定候选词语是否属于语气词，再基于音素序列中各个音素所属的词语是否属于语气词，得到第一标签，能够有利于提升第一标签的准确性。
[0050]
在一个实施场景中，口语化标签可以包括第二标签，且第二标签表征音素序列中各个音素的时长。上述方式，将口语化标签进一步设置为包括第二标签，且第二标签表征音素序列中各个音素的时长，能够有利于在最终合成的口语化语音中控制各音素的发音时长，使最终合成的口语化语音在声学层面更符合口语化表达。
[0051]
在一个具体的实施场景中，可以提取口语化文本的语义特征表示，并提取口语化文本的韵律边界信息，在此基础上，可以基于语义特征表示和韵律边界信息进行拖音预测，得到音素序列中各个音素的音素类别，且音素类别包括拖音音素、普通音素中任一者，在此基础上，可以对拖音音素和普通音素分别进行时长预测，得到各个音素的时长，并基于音素序列中各个音素的时长，得到第二标签。需要说明的是，拖音音素表示在该音素上发音时存在拖音现象，而普通音素表示在该音素上不存在拖音现象。在口语化表达中，通常会存在拖音现象。示例性地，对于口语化文本“那个我忘记了”中“那个”而言，其属于口头禅表达，在发出文字“个”时，通常会存在拖音现象。其他情况可以以此类推，在此不再一一举例。此外，韵律边界信息表示短语边界信息，可以表征哪些词语位于边界，如前述“那个”即位于短语边界。请结合参阅图6，图6是获取音素类别一实施例的过程示意图。如图6所示，为了提升拖音预测的效率，可以预先训练一个拖音预测网络，而拖音预测网络可以包括诸如bert等语义提取子网络，用于提取口语化文本的语义特征表示，拖音预测网络还可以包括前端文本分析工具，用于对口语化文本进行分析，得到韵律边界信息。拖音预测网络还可以包括标签预测子网络(如，bi-lstm、前馈神经网络等)，在此基础上，可以将语义特征表示和韵律边界信息输入标签预测子网络，得到各个音素的音素类型。上述方式，通过提取口语化文本的语义特征表示，并提取口语化文本的韵律边界信息，在此基础上，基于语义特征表示和韵律边界信息进行拖音预测，得到音素序列中各个音素的音素类别，且音素类别为拖音音素、普通音素中任一者，从而对拖音音素和普通音素分别进行时长预测，得到各个音素的时长，进而基于音素序列中各个音素的时长，得到第二标签，能够有利于提升第二标签的准确性。
[0052]
在一个具体的实施场景中，如前所述，音素类别基于拖音预测网络得到，拖音预测网络采用若干样本文本训练得到，样本文本的样本音素序列中标注有各个样本音素的音素类别，且样本音素的音素类别基于样本音素的实际时长与预测时长之间的时长差值得到。示例性地，若样本音素的实际时长与预测时长之间的时长差值大于时长阈值，则可以认为该样本音素的音素类别为拖音音素，反之，则可以认为该样本音素的音素类别为正常音素。此外，样本文本可以由样本语音识别得到，样本音素的实际时长通过样本语音获取得到，样本音素的预测时长通过预先训练的时长预测网络预测得到。示例性地，上述样本文本可以
为样本数据中的第二样本文本，即在口语化录制过程中所录制得到的样本语音转写得到的样本文本。请结合参阅图7，图7是获取音素标注一实施例的过程示意图。如图7所示，对于样本文本的样本音素序列而言，可以利用预先训练的时长预测网络对各个样本音素进行预测，得到其预测时长，并将样本音素的预测时长与样本音素的实际时长做差值，得到时长差值。在此基础上，可以将时长差值与时长阈值进行比较，以确定将该样本音素标注为拖音音素或普通音素。需要说明的是，时长阈值可以根据样本文本的样本音素序列中各个样本音素的实际时长统计得到(如，可以取实际时长的平均值等)。此外，可以预先利用标注有实际音素时长的样本音素训练得到时长预测网络，时长预测网络具体可以包括但不限于：长短期记忆网络、前馈神经网络等，在此不做限定。上述方式，音素类别基于拖音预测网络得到，拖音预测网络采用若干样本文本训练得到，样本文本的样本音素序列中标注有各个样本音素的音素类别，且样本音素的音素类别基于样本音素的实际时长与预测时长之间的时长差值得到，且样本文本由样本语音识别得到，样本音素的实际时长通过样本语音获取得到，样本音素的预测时长通过预先训练的时长预测网络预测得到，能够通过时长预测网络对样本音素序列进行时长预测，而免于对样本音素序列中各个样本音素进行音素类别的人工标注，有利于提升训练效率。
[0053]
在一个具体的实施场景中，为了提升对普通音素和拖音音素进行时长预测的效率和精度，可以预先训练一个混合时长预测网络，且该混合时长预测网络中包含用于预测普通音素的时长的第一预测网络，以及用于预测拖音音素的时长的第二预测网络。在此基础上，可以根据音素序列中各个音素的音素类别选择第一预测网络或第二预测网络进行时长预测，有利于提升时长预测的准确性。此外，考虑到在显示场景中，拖音现象比较少，则可以使用语音识别数据来扩充训练数据规模，有利于提升网络稳定性。
[0054]
在一个实施场景中，口语化标签可以包括情感特征表示，用于表征口语化文本的情绪分类，如平和、放松、亢奋等，在此不做限定。需要说明的是，情感特征表示可以以向量形式予以表达。具体地，可以获取口语化文本的若干参考文本，且若干参考文本包括在口语化文本之前和/或之后的交互文本，在此基础上，再基于口语化文本的语义特征表示和各参考文本的语义特征表示，得到口语化文本的情感特征表示。请结合参阅图8，图8是获取情感特征表示一实施例的过程示意图。如图8所示，为了便于描述，可以将口语化文本称之为当前文本，在此之前交互产生的文本称之为历史文本，在此之后产生的交互文本称之为未来文本。为了提升获取情感特征表示的效率，可以预先训练情感预测网络，且情感预测网络可以包括语义提取子网络，语义提取子网络可以包括但不限于bert等，用于提取语义特征表示，此外，情感预测网络可以包括表示预测子网络，表示预测子网络可以包括但不限于：bi-lstm、前馈神经网络等，用于预测情感特征表示。上述方式，口语化控制标签包括情感特征表示，并获取口语化文本的若干参考文本，且若干参考文本包括在口语化文本之前和/或之后的交互文本，在此基础上，基于口语化文本的语义特征表示和各参考文本的语义特征表示，得到口语化文本的情感特征表示，即结合参考文本获取口语化文本的情感特征表示，有利于提升情感特征表示的准确性。
[0055]
在一个具体的实施场景中，如前所述，情感特征表示基于可以情感预测网络得到，而情感预测网络采用若干样本文本训练得到，样本文本标注有样本情感特征表示，样本文本由样本语音识别得到，样本情感特征表示通过预先训练的语音情感网络对样本语音预测
得到。请结合参阅图9，图9是语音情感网络一实施例的框架示意图。如图9所示，语音情感网络可以包括编码器、解码器和情绪识别子网络，样本语音标注有样本情绪类别，利用语音情感网络的编码器可以对样本情绪类别进行编码，得到预测情感特征表表示，在此基础上，可以利用情绪识别子网络对预测情感特征表示进行情绪预测，得到预测情绪类别，在此基础上，可以基于预测情绪类别和样本情绪类别之间的差异，调整语音情感网络的网络参数。需要说明的是，编码器可以通过vae(variational autoencoder，变分自编码器)、gst(即global style token)等实现。此外，解码器可以进一步通过预测情感特征表示解码得到预测语音，并在训练过程中，尽可能地提升预测语音中对于样本语音所含的情感表达，以及抑制预测语音中对于样本语音所含的实质内容，以协同情绪类别的识别任务，尽可能地提升预测情绪特征表示的准确性，使其尽可能多地包含与情感相关的特征信息，并尽可能少地包含与实质内容相关的特征信息。在语音情感网络训练收敛之后，即可对样本文本对应的样本语音进行编码，得到样本语音的预测情感特征表示，并将其标注为该样本文本的样本情感特征表示。在此基础上，可以利用情感预测网络对该样本文本的语义特征表示进行处理，得到该样本文本的预测情感特征表示，并基于该样本文本的预测情感特征表示和样本情感特征表示之间的差异，调整情感预测网络的网络参数，直至收敛，即可使用该情感预测网络预测口语化文本的情感特征表示。上述方式，情感特征表示基于情感预测网络得到，情感预测网络采用若干样本文本训练得到，样本文本标注有样本情感特征表示，且样本文本由样本语音识别得到，样本情感特征表示通过预先训练的语音情感网络对样本语音预测得到，故能够通过预先训练的语音情感网络标注样本情感特征表示，在此基础上，再对情感预测网络进行训练，有利于提升样本标注的精确性。
[0056]
步骤s13：基于音素序列和口语化控制标签，合成得到待合成文本的口语化语音。
[0057]
具体而言，口语化语音基于语音合成模型合成得到，且语音合成模型采用若干样本数据训练得到，样本数据基于与预设口语化场景相关的对话主题和对话提纲录制得到。示例性地，样本数据可以包括第一样本文本、第二样本文本和样本语音，相关含义可以参阅前述相关描述，在此不再赘述。此外，语音合成模型可以包括但不限于前述口语化预测网络、拖音预测网络、时长预测网络、混合时长预测网络、情感预测网络、语音情感网络等，在此不做限定。请结合参阅图10，图10是本技术语音合成方法一实施例的过程示意图。如图10所示，待合成文本先通过口语化预测网络得到口语化文本，口语化文本可以结合前述情感预测网络，得到情感特征表示；与此同时，口语化文本通过前端文本分析工具，可以得到音素序列、韵律边界信息，短语边界可以结合口语化文本确定第一标签，而韵律边界信息可以结合口语化文本以及前述拖音预测网络，得到音素类别(即普通音素或拖音音素)。进一步地，语音合成模型还可以进一步包括声学模型，且前述混合时长预测网络可以包含于声学模型中，以通过混合时长预测网络预测出来的普通音素的音素时长和拖音音素的音素时长(即第二标签)，并结合前述音素序列、第一标签和情感特征表示，得到若干声学参数。具体而言，通过前端文本分析工具可以分析得到音素序列特征，在此基础上，可以将音素序列特征和第一标签(即语气词标签)、情感特征表示拼接，得到拼接特征。进一步地可以预测音素类型(即进行拖音标签预测，也就是预测音素为普通音素或拖音音素)，然后根据音素类型选择对应的时长模型(即选择前述混合时长预测网络中第一预测网络或第二预测网络)预测得到音素时长。最后，可以根据音素时长对上述拼接特征进行扩展(复制)到帧级，输入声
学模型即可得到帧级声学参数。此外，语音合成模型还可以包括声码器，用于基于声学参数生成语音波形，得到口语化语音。
[0058]
上述方案，将待合成文本进行口语化转换，得到口语化文本，且口语化文本参考至少一种转换模式，并提取口语化文本的音素序列，以及预测口语化文本的口语化控制标签，且口语化控制标签用于控制发音状态，在此基础上，再基于音素序列和口语化控制标签，合成得到待核查文本的口语化语音，一方面先参考至少一种转换模式对待合成文本进行口语化转换得到口语化文本，有利于使口语化文本尽可能地符合口语化表达，另一方面在此基础上预测口语化文本的口语化控制标签，能够在前述文本层面的基础上，进一步从声学层面为口语化语音合成提供参考，故此能够同时从文本层面和声学层面两个不同层面，实现口语化的语音合成，以提升用户交互体验。
[0059]
请参阅图11，图11是本技术语音合成装置110一实施例的框架示意图。语音合成装置110包括：口语转换模块111、音素提取模块112、标签预测模块113和声音合成模块114，口语转换模块111，用于将待合成文本进行口语化转换，得到口语化文本；其中，口语化转换参考至少一种转换模式；音素提取模块112，用于提取口语化文本的音素序列；标签预测模块113，用于预测口语化文本的口语化控制标签；其中，口语化控制标签用于控制发音状态；声音合成模块114，用于基于音素序列和口语化控制标签，合成得到待合成文本的口语化语音。
[0060]
上述方案，一方面先参考至少一种转换模式对待合成文本进行口语化转换得到口语化文本，有利于使口语化文本尽可能地符合口语化表达，另一方面在此基础上预测口语化文本的口语化控制标签，能够在前述文本层面的基础上，进一步从声学层面为口语化语音合成提供参考，故此能够同时从文本层面和声学层面两个不同层面，实现口语化的语音合成，以提升用户交互体验。
[0061]
在一些公开实施例中，口语化文本基于口语化预测网络得到，口语化预测网络采用若干样本文本对训练得到，样本文本对包括第一样本文本和第二样本文本，且第二样本文本通过口语化录制得到，第一样本文本在第二样本文本基础上经书面化转换得到。
[0062]
因此，口语化文本基于口语化预测网络得到，口语化模型采用若干样本文本对训练得到，样本文本对包括第一样本文本和第二样本文本，且第二样本文本通过口语化录制得到，第一样本文本在第二样本文本基础上经书面化转换得到，能够使口语化预测网络学习到口语化表达特征，有利于提升口语化转换的精度和效率。
[0063]
在一些公开实施例中，语音合成装置110包括文本对齐模块，用于基于第一样本文本和第二样本文本之间的编辑距离，将第一样本文本和第二样本文本进行对齐；语音合成装置110包括文本对齐模块包括标签标注模块，用于基于第一样本文本和第二样本文本之间的对齐结果，获取第一样本文本中各个样本词语的样本编辑标签；其中，样本编辑标签包括样本编辑类型和样本编辑文本；语音合成装置110包括标签预测模块，用于基于口语化预测网络预测第一样本文本中各个样本词语的预测编辑标签；其中，预测编辑标签包括预测编辑类型和预测编辑文本；语音合成装置110包括参数调整模块，用于基于样本编辑标签和预测编辑标签之间的差异，调整口语化预测网络的网络参数。
[0064]
因此，基于第一样本文本和第二样本文本之间的编辑距离，将第一样本文本和第二样本文本进行对齐，并基于第一样本文本和第二样本文本之间的对齐结果，获取第一样
本文本中各个样本词语的样本编辑标签，且样本编辑标签包括样本编辑类型和样本编辑文本，再基于口语化预测网络预测第一样本文本中各个样本词语的预测编辑标签，且预测编辑标签包括预测编辑类型和预测编辑文本，从而基于样本编辑标签和预测编辑标签之间的差异，调整口语化预测网络的网络参数，故能够使口语化预测网络从编辑角度学习到书面文本与口语化文本之间的编辑差异，有利于提升口语化转换的准确性和可解释性。
[0065]
在一些公开实施例中，口语转换模块111包括标签预测子模块，用于基于口语化预测网络预测待合成文本中各个词语的编辑标签；其中，编辑标签包括编辑类型和编辑文本；口语转换模块111包括文本编辑子模块，用于分别对各个词语，基于词语的编辑文本，执行词语的编辑类型所对应的编辑操作，得到口语化文本。
[0066]
因此，基于口语化预测网络预测待合成文本中各个词语的编辑标签，且编辑标签包括编辑类型和编辑文本，在此基础上，分别对各个词语，基于词语的编辑文本，执行词语的编辑类型对应的编辑操作，得到口语化文本，能够使口语化预测网络从编辑角度学习到书面文本与口语化文本之间的编辑差异，有利于提升口语化转换的准确性和可解释性。
[0067]
在一些公开实施例中，口语化控制标签包括第一标签，第一标签表征音素序列中各个音素所属的词语是否属于语气词。
[0068]
因此，通过将口语化标签设置为包括第一标签，且第一标签表征音素序列中各个音素所属的词语是否属于语气词，故能够有利于在最终合成的口语化语音中控制语气词的发音，使最终合成的口语化语音在声学层面更符合口语化表达。
[0069]
在一些公开实施例中，标签预测模块113包括候选词语提取子模块，用于将口语化文本中位于语气词词表的词语，作为候选词语；标签预测模块113包括语气词确定子模块，用于基于候选词语在口语化文本中的词语位置，确定候选词语是否属于语气词；标签预测模块113包括第一标签获取子模块，用于基于音素序列中各个音素所属的词语是否属于语气词，得到第一标签。
[0070]
因此，通过将口语化文本中位于语气词词表的词语，作为候选词语，并基于候选词语在口语化文本中的词语位置，确定候选词语是否属于语气词，再基于音素序列中各个音素所属的词语是否属于语气词，得到第一标签，能够有利于提升第一标签的准确性。
[0071]
在一些公开实施例中，口语化控制标签包括第二标签，第二标签表征音素序列中各个音素的时长。
[0072]
因此，将口语化标签进一步设置为包括第二标签，且第二标签表征音素序列中各个音素的时长，能够有利于在最终合成的口语化语音中控制各音素的发音时长，使最终合成的口语化语音在声学层面更符合口语化表达。
[0073]
在一些公开实施例中，标签预测模块113包括信息提取子模块，用于提取口语化文本的语义特征表示，并提取口语化文本的韵律边界信息；标签预测模块113包括音素类别预测子模块，用于基于语义特征表示和韵律边界信息进行拖音预测，得到音素序列中各个音素的音素类别；其中，音素类别为拖音音素、普通音素中任一者；标签预测模块113包括音素时长预测子模块，用于对拖音音素和普通音素分别进行时长预测，得到各个音素的时长；标签预测模块113包括第二标签获取子模块，用于基于音素序列中各个音素的时长，得到第二标签。
[0074]
因此，通过提取口语化文本的语义特征表示，并提取口语化文本的韵律边界信息，
在此基础上，基于语义特征表示和韵律边界信息进行拖音预测，得到音素序列中各个音素的音素类别，且音素类别为拖音音素、普通音素中任一者，从而对拖音音素和普通音素分别进行时长预测，得到各个音素的时长，进而基于音素序列中各个音素的时长，得到第二标签，能够有利于提升第二标签的准确性。
[0075]
在一些公开实施例中，音素类别基于拖音预测网络得到，拖音预测网络采用若干样本文本训练得到，样本文本的样本音素序列中标注有各个样本音素的音素类别，且样本音素的音素类别基于样本音素的实际时长与预测时长之间的时长差值得到；其中，样本文本由样本语音识别得到，样本音素的实际时长通过样本语音获取得到，样本音素的预测时长通过预先训练的时长预测网络预测得到。
[0076]
因此，音素类别基于拖音预测网络得到，拖音预测网络采用若干样本文本训练得到，样本文本的样本音素序列中标注有各个样本音素的音素类别，且样本音素的音素类别基于样本音素的实际时长与预测时长之间的时长差值得到，且样本文本由样本语音识别得到，样本音素的实际时长通过样本语音获取得到，样本音素的预测时长通过预先训练的时长预测网络预测得到，能够通过时长预测网络对样本音素序列进行时长预测，而免于对样本音素序列中各个样本音素进行音素类别的人工标注，有利于提升训练效率。
[0077]
在一些公开实施例中，口语化控制标签包括情感特征表示，标签预测模块113包括参考文本获取子模块，用于获取口语化文本的若干参考文本；其中，若干参考文本包括在口语化文本之前和/或之后的交互文本；标签预测模块113包括特征表示预测子模块，用于基于口语化文本的语义特征表示和各参考文本的语义特征表示，得到口语化文本的情感特征表示。
[0078]
因此，口语化控制标签包括情感特征表示，并获取口语化文本的若干参考文本，且若干参考文本包括在口语化文本之前和/或之后的交互文本，在此基础上，基于口语化文本的语义特征表示和各参考文本的语义特征表示，得到口语化文本的情感特征表示，即结合参考文本获取口语化文本的情感特征表示，有利于提升情感特征表示的准确性。
[0079]
在一些公开实施例中，情感特征表示基于情感预测网络得到，情感预测网络采用若干样本文本训练得到，样本文本标注有样本情感特征表示，且样本文本由样本语音识别得到，样本情感特征表示通过预先训练的语音情感网络对样本语音预测得到。
[0080]
因此，情感特征表示基于情感预测网络得到，情感预测网络采用若干样本文本训练得到，样本文本标注有样本情感特征表示，且样本文本由样本语音识别得到，样本情感特征表示通过预先训练的语音情感网络对样本语音预测得到，故能够通过预先训练的语音情感网络标注样本情感特征表示，在此基础上，再对情感预测网络进行训练，有利于提升样本标注的精确性。
[0081]
在一些公开实施例中，口语化语音基于语音合成模型合成得到，且语音合成模型采用若干样本数据训练得到，样本数据基于与预设口语化场景相关的对话主题和对话提纲录制得到。
[0082]
因此，利用样本数据训练语音合成模型，且样本数据基于与预设口语化场景相关的对话主题和对话提纲录制得到，能够在音库录制层面确保训练样本的质量，有利于提升语音合成模型的准确性。
[0083]
请参阅图12，图12是本技术电子设备120一实施例的框架示意图。电子设备120包
括相互耦接的存储器121和处理器122，存储器121中存储有程序指令，处理器122用于执行程序指令以实现上述任一语音合成方法实施例中的步骤。具体地，电子设备120可以包括但不限于：台式计算机、笔记本电脑、服务器、手机、平板电脑等等，在此不做限定。
[0084]
具体而言，处理器122用于控制其自身以及存储器121以实现上述任一语音合成方法实施例中的步骤。处理器122还可以称为cpu(central processing unit，中央处理单元)。处理器122可能是一种集成电路芯片，具有信号的处理能力。处理器122还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器122可以由集成电路芯片共同实现。
[0085]
上述方案，一方面先参考至少一种转换模式对待合成文本进行口语化转换得到口语化文本，有利于使口语化文本尽可能地符合口语化表达，另一方面在此基础上预测口语化文本的口语化控制标签，能够在前述文本层面的基础上，进一步从声学层面为口语化语音合成提供参考，故此能够同时从文本层面和声学层面两个不同层面，实现口语化的语音合成，以提升用户交互体验。
[0086]
请参阅图13，图13是本技术计算机可读存储介质130一实施例的框架示意图。计算机可读存储介质130存储有能够被处理器运行的程序指令131，程序指令131用于实现上述任一语音合成方法实施例中的步骤。
[0087]
上述方案，一方面先参考至少一种转换模式对待合成文本进行口语化转换得到口语化文本，有利于使口语化文本尽可能地符合口语化表达，另一方面在此基础上预测口语化文本的口语化控制标签，能够在前述文本层面的基础上，进一步从声学层面为口语化语音合成提供参考，故此能够同时从文本层面和声学层面两个不同层面，实现口语化的语音合成，以提升用户交互体验。
[0088]
在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。
[0089]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。
[0090]
在本技术所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。
[0091]
作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0092]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0093]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于焦点信息的语音合成方法、装置、设备和存储介质与流程

语音合成方法及相关装置、电子设备和存储介质与流程

相关文献

最热文献