农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种语音合成方法、装置、存储介质及电子设备与流程

2021-07-02 21:13:00 来源：中国专利 TAG：电子设备装置实施计算机申请

本申请实施例涉及计算机技术领域，尤其涉及一种语音合成方法、装置、存储介质及电子设备。

背景技术：

随着人工智能技术的飞速发展，智能语音交互在被广泛应用于金融、物流、客服等领域，通过智能营销、智能催收、内容导航等功能提高了企业客服的服务水平。

在目前的智能语音交互中，通常做法是指定一个通用音库进行模型的训练和语音合成。

该做法可以满足智能语音交互的基本需求，但是风格比较单一，没有情感表达，客户体验差。

技术实现要素：

本申请实施例提供一种语音合成方法、装置、存储介质及电子设备，可以根据客户输入语音实时调整应答合成语音的风格标签与情感标签，提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

第一方面，本申请实施例提供了一种语音合成方法，该方法包括：

获取用户输入的当前语音；

根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；

根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

第二方面，本申请实施例提供了一种语音合成装置，该装置包括：

当前语音获取单元，用于获取用户输入的当前语音；

标签获得单元，用于根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；

应答合成语音得到单元，用于根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

第三方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例所述的语音合成方法。

第四方面，本申请实施例提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例所述的语音合成方法。

本申请实施例所提供的技术方案，获取用户输入的当前语音；根据当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与当前语音进行交互。本技术方案，可以根据客户输入语音实时调整应答合成语音的风格标签与情感标签，提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

附图说明

图1是本申请实施例一提供的语音合成方法的流程图；

图2是本申请实施例二提供的语音合成装置的结构示意图；

图3是本申请实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1是本申请实施例一提供的语音合成方法的流程图，本实施例可适用于智能语音交互的情况，该方法可以由本申请实施例所提供的语音合成装置执行，该装置可以由软件和/或硬件的方式来实现，并可集成于用于语音合成的智能终端等设备中。

如图1所示，所述语音合成方法包括：

s110、获取用户输入的当前语音。

在本方案中，语音合成是一个将文本转化为语音输出的过程，这个过程的工作主要是将输入的文本按照发音分解成音素，并对特殊符号进行处理，通过声学模型和声码器将音素序列转换成数字音频。通过语音合成可以获得应答合成语音，实现智能语音的交互。

其中，当前语音可以是指用户当前时刻输入的语音。例如，当前语音可以是今天天气情况或者明天温度是多少等。可以采用语音识别规则获取用户输入的当前语音，具体语音识别规则本实施例不做限定。

s120、根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签。

在本实施例中，应答文本可以是与当前语音进行语音交互的文本。例如，当前语音是今天天气情况，应答文本可以是今天天气晴。

其中，风格标签可以是指在进行语音交互时，根据不同的交际场合、目的、任务及交际者的秉性和素质而采用的不同的语言素材和方式。例如，风格标签可以是甜美或者严厉等。其中，甜美可以是指声音很柔美动听；严厉可以是指声音严肃。

在本方案中，情感标签可以是指以鲜明的形象与情感诉诸人的审美心理并唤起想象再现的语言情感。例如，情感标签可以是喜或怒等。

其中，预设风格情感匹配模型的输出结果为标签的匹配度，通过输出最大匹配度的标签，确定情感标签和/或风格标签。预设风格情感匹配模型可以是神经网络模型、也可以是bert模型。优选的，预设风格情感匹配模型可以是bert模型。bert模型通过查询字向量表将文本中的每个字转换为一维向量，作为模型输入；模型输出则是输入各字对应的融合全文语义信息后的向量表示。

在本实施例中，获得当前语音后，将当前语音转换为交互文本，对交互文本进行处理，得到应答文本，并利用预设风格情感匹配模型对交互文本和应答文本进行处理，得到应答文本的风格标签和/或情感标签。

在本技术方案中，可选的，根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签，包括：

根据所述当前语音，得到所述当前语音的交互文本和应答文本；

利用预设风格情感匹配模型对所述交互文本和应答文本进行处理，得到所述应答文本的风格标签和/或情感标签。

其中，交互文本可以是指当前语音的文本形式。

在本方案中，可以对当前语音进行转换得到交互文本，对当前语音进行解析，获得应答文本，并将交互文本和应答文本作为输入，利用预设风格情感匹配模型对交互文本和应答文本进行处理，输出情感标签和/或风格标签，将匹配度最大的情感标签和/或风格标签作为应答文本的风格标签和/或情感标签。

利用预设风格情感匹配模型对交互文本和应答文本进行处理，可以得到应答文本的风格标签和/或情感标签，能够提高智能语音交互中的客户体验。

在本技术方案中，可选的，根据所述当前语音，得到所述当前语音的交互文本和应答文本，包括：

通过语音识别模块将所述当前语音转换为交互文本；

利用语义理解模块、对话管理模块和语音生成模块对所述交互文本进行处理，生成应答文本。

在本方案中，语音识别模块用于对语音进行识别，将语音转换为文本的形式；语音理解模块用于对文本的内容进行解析，得到文本的关键内容。在语义理解的过程中，包含了对话管理、纠错、内容管理以及上下文信息；对话管理模块用于根据文本的关键内容在相应的技术领域中进行检索，获得与文本的关键内容相对应的应答内容；语音生成模块用于对应答内容进行处理，获得应答文本。例如，当前语音是今天天气情况，通过语音识别模块将当前语音转换为交互文本；语义理解模块对交互文本的内容进行解析，可以获得文本的关键内容是今天、天气；对话管理模块在天气领域进行检索，获得今天天气晴；语音生成模块将检索到的内容生成应答文本。

通过对当前语音进行处理，可以获得与当前语音相匹配的应答文本，能够实现智能语音交互。

在本技术方案中，可选的，利用预设风格情感匹配模型对所述交互文本和应答文本进行处理，得到所述应答文本的风格标签和/或情感标签，包括：

将所述交互文本和应答文本进行拼接，得到目标文本；

将所述目标文本和风格标签作为第一输入，和/或，将所述目标文本和情感标签作为第二输入，利用预设风格情感匹配模型对所述第一输入和/或第二输入进行风格情感匹配，将匹配度最大的风格标签和/或情感标签作为应答文本的风格标签和/或情感标签。

在本实施例中，可以通过增添分隔符将交互文本和应答文本进行拼接得到目标文本。其中，分隔符可以是字母、数字或者特殊标识等。例如，交互文本是今天天气情况，应答文本是今天天气晴，目标文本可以是今天天气情况and今天天气晴。

在本方案中，预设风格情感匹配模型输出结果为标签匹配度，通过将第一输入和/或第二输入与情感标签库进行一一匹配，输出最大匹配度的标签，得到应答文本的风格标签和/或情感标签。例如，目标文本是今天天气情况and今天天气晴，风格标签是甜美、严厉，情感标签是喜、怒，利用预设风格情感匹配模型分别将目标文本、甜美和喜，目标文本、甜美和怒，目标文本、严厉和喜，目标文本、严厉和怒，与情感标签库进行一一匹配，得到目标文本、甜美和喜的匹配度最大，则应答文本的风格标签是甜美，情感标签是喜。

利用预设风格情感匹配模型对第一输入和/或第二输入进行风格情感匹配，可以获得带有风格标签和/或情感标签的应答文本，提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

在本技术方案中，可选的，所述预设风格情感匹配模型包括bert模型；其中，所述bert模型用于对匹配输出应答文本的风格标签和/或情感标签。

在本方案中，在bert的输出端加入一个具有分类功能的神经网络，由bert模型和神经网络共同对第一输入和/或第二输入进行处理，输出结果为标签的匹配度，通过输出最大匹配度的标签，确定情感标签与风格标签。

基于预训练模型bert的风格情感匹配模型进行合成语音风格和情感的标签预测，通过在预训练模型bert上进行微调得到风格情感匹配模型，并对各个标签进行逐一匹配，可以在小数据量上取得更好的效果，减少数据标注的工作量。

在本技术方案中，可选的，所述风格标签包括甜美、自然、严厉和活泼；所述情感标签包括喜、怒、哀和乐。

通过确定应答文本的风格标签和/或情感标签，可以提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

在本技术方案中，可选的，根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，包括：

利用语音合成模块对带有风格标签和/或情感标签的应答文本进行语音合成处理，得到应答合成语音。

在本方案中，可以通过dnn(deepneuralnetworks，深度神经网络)与lstm(longshort-termmemory，长短期记忆网络)结合，或者端到端与神经网络声码器结合的等语音合成规则对带有风格标签和/或情感标签的应答文本进行语音合成处理，得到应答合成语音。其中，端到端与神经网络声码器结合的等语音合成规则通过单元拼接的方式去产生音频。端到端的语音合成可以是指从文本直接转到语音，这过程包括了数据库、声学建模、声学模型。

通过利用语音合成模块对带有风格标签和/或情感标签的应答文本进行语音合成处理，可以提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

s130、根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

其中，应答合成语音可以是指与当前语音进行交互的应答语音，带有特定风格和特定情感。例如，应答合成语音可以是带有甜美风格标签和喜情感标签的应答语音。可以根据应答文本的内容以及风格标签和/或情感标签，得到与风格标签和/或情感标签匹配的应答合成语音。

本申请实施例所提供的技术方案，获取用户输入的当前语音；根据当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与当前语音进行交互。通过执行本技术方案，可以根据客户输入语音实时调整应答合成语音的风格标签与情感标签，提高应答合成语音的表现力，从而提高智能语音交互中的客户体验。

实施例二

图2是本申请实施例二提供的语音合成装置的结构示意图，如图2所示，语音合成装置包括：

当前语音获取单元210，用于获取用户输入的当前语音；

标签获得单元220，用于根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；

应答合成语音得到单元230，用于根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

在本技术方案中，可选的，标签获得单元220，包括：

文本得到子单元，用于根据所述当前语音，得到所述当前语音的交互文本和应答文本；

应答文本标签得到子单元，用于利用预设风格情感匹配模型对所述交互文本和应答文本进行处理，得到所述应答文本的风格标签和/或情感标签。

在本技术方案中，可选的，文本得到子单元，具体用于：

通过语音识别模块将所述当前语音转换为交互文本；

利用语义理解模块、对话管理模块和语音生成模块对所述交互文本进行处理，生成应答文本。

在本技术方案中，可选的，应答文本标签得到子单元，具体用于：

将所述交互文本和应答文本进行拼接，得到目标文本；

将所述目标文本和风格标签作为第一输入，和/或，将所述目标文本和情感标签作为第二输入，利用预设风格情感匹配模型对所述第一输入和/或第二输入进行风格情感匹配，将匹配度最大的风格标签和/或情感标签作为应答文本的风格标签和/或情感标签。

在本技术方案中，可选的，所述预设风格情感匹配模型包括bert模型；其中，所述bert模型用于对匹配输出应答文本的风格标签和/或情感标签。

在本技术方案中，可选的，所述风格标签包括甜美、自然、严厉和活泼；所述情感标签包括喜、怒、哀和乐。

在本技术方案中，可选的，应答合成语音得到单元230，具体用于：

利用语音合成模块对带有风格标签和/或情感标签的应答文本进行语音合成处理，得到应答合成语音。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音合成方法，该方法包括：

获取用户输入的当前语音；

根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；

根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装存储介质，例如cd-rom、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如dram、ddrram、sram、edoram，兰巴斯(rambus)ram等；非易失性存储器，诸如闪存、磁存储介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的语音合成操作，还可以执行本申请任意实施例所提供的语音合成方法中的相关操作。

实施例四

本申请实施例提供了一种电子设备，该电子设备中可集成本申请实施例提供的语音合成装置。图3是本申请实施例四提供的一种电子设备的结构示意图。如图3所示，本实施例提供了一种电子设备300，其包括：一个或多个处理器320；存储装置310，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器320执行，使得所述一个或多个处理器320实现本申请实施例所提供的语音合成方法，该方法包括：

获取用户输入的当前语音；

根据所述当前语音，利用预设风格情感匹配模型获得应答文本的风格标签和/或情感标签；

根据带有风格标签和/或情感标签的应答文本，得到应答合成语音，用于与所述当前语音进行交互。

当然，本领域技术人员可以理解，处理器320还实现本申请任意实施例所提供的语音合成方法的技术方案。

图3显示的电子设备300仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图3所示，该电子设备300包括处理器320、存储装置310、输入装置330和输出装置340；电子设备中处理器320的数量可以是一个或多个，图3中以一个处理器320为例；电子设备中的处理器320、存储装置310、输入装置330和输出装置340可以通过总线或其他方式连接，图3中以通过总线350连接为例。

存储装置310作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块单元，如本申请实施例中的语音合成方法对应的程序指令。

存储装置310可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置310可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置310可进一步包括相对于处理器320远程设置的存储器，这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置330可用于接收输入的数字、字符信息或语音信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏、扬声器等电子设备。

本申请实施例提供的电子设备，可以达到根据客户输入语音实时调整应答合成语音的风格标签与情感标签，提高应答合成语音的表现力，从而提高智能语音交互中的客户体验的目的。

上述实施例中提供的语音合成装置、存储介质及电子设备可执行本申请任意实施例所提供的语音合成方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的语音合成方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种语音合成方法、装置、存储介质及电子设备与流程

相关文章

最热文献