农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

一种对话处理方法、装置及电子设备与流程

2021-08-03 14:28:00 来源：中国专利 TAG：电子设备语音装置对话方法

本发明涉及语音处理领域，更具体的说，涉及一种对话处理方法、装置及电子设备。

背景技术：

随着语音对话功能的不断完善，智能语音助手已经成为智能网联汽车中不可或缺的产品。

智能语音助手不仅可替代传统按钮来实现某些车辆功能的控制，还能够与用户进行语音交流，满足用户沟通需求。

目前，智能语音助手在与用户进行语音交流时，对多个用户的适用性较差，进而使得用户体验较差。

技术实现要素：

有鉴于此，本发明提供一种对话处理方法、装置及电子设备，以解决智能语音助手在与用户进行语音交流时，对多个用户的适用性较差，进而使得用户体验较差的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种对话处理方法，应用于控制器，所述对话处理方法包括：

获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据；

获取用户确定的语言风格类型；所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项；

调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果；所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型；

输出所述文本对话结果。

可选地，获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，包括：

获取用户输入的语音，并确定所述语音对应的文本；

将所述文本确定为所述语音对应的目标文本数据。

可选地，获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，包括：

获取用户输入的语音的文本对应的初始文本对话结果，并将所述初始文本对话结果确定为所述语音对应的目标文本数据。

可选地，获取用户输入的语音对应的初始文本对话结果，包括：

获取用户输入的语音，并确定所述语音对应的文本；所述语音为用户与所述控制器语音对话过程中的连续语音；

调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果。

可选地，调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果，包括：

调用预设语音对话模型，以使所述预设语音对话模型对所述语音对应的文本进行环境信息分析和用户情绪分析，并基于环境信息分析的结果和用户情绪分析的结果，得到所述语音对应的初始文本对话结果。

可选地，在所述输出所述文本对话结果之后，还包括：

将所述文本对话结果转换成与所述语言风格类型对应的语音文本；

输出所述语音文本。

可选地，获取用户确定的语言风格类型，包括：

获取用户从语言风格输入界面中显示的多种预设语言风格类型中选择的预设语言风格类型；

或，获取用户从语言风格输入界面中的语言风格输入区域输入的至少一个语言风格选项。

可选地，所述预设数据处理模型的生成过程包括：

获取训练样本，所述训练样本包括语音样本对应的文本、以及所述文本的语言风格类型；

使用所述训练样本对预设数据处理模型进行训练，直至满足预设停止条件时停止训练。

一种对话处理装置，应用于控制器，所述对话处理装置包括：

数据获取模块，用于获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据；

风格获取模块，用于获取用户确定的语言风格类型；所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项；

数据处理模块，用于调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果；所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型；

结果输出模块，用于输出所述文本对话结果。

一种电子设备，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据；

获取用户确定的语言风格类型；所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项；

调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果；所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型；

输出所述文本对话结果。

相较于现有技术，本发明具有以下有益效果：

本发明提供了一种对话处理方法、装置及电子设备，本发明中，首先获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，然后获取用户确定的语言风格数据，并调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。由于所述预设数据处理模型基于包括语音样本对应的文本、以及所述文本的语言风格类型的训练样本训练得到，进而预设数据处理模型能够识别不同语言风格类型且得到不同语言风格类型对应的文本对话结果。本发明中，用户预先设定了语言风格类型，进而预设数据处理模型能够输出与用户设定的语言风格类型相匹配的文本对话结果，使得预设数据处理模型输出的文本对话结果更加符合用户需求，进而能够满足不同用户的语音对话要求，用户体验较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种对话处理方法的方法流程图；

图2为本发明实施例提供的预设数据处理模型的训练场景图；

图3为本发明实施例提供的一种对话的场景示意图；

图4为本发明实施例提供的一种对话处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现代智能网联汽车中，车载语音助手已经成为不可或缺的产品功能。使用语音助手对车辆进行操控不仅可以解放双手，提升驾驶安全性；也更加符合人类的交互习惯，具有比传统按键、旋钮操控更好的用户体验。

目前智能语音助手除了能够控制车辆的控制器，实现车辆的行驶控制之外，智能语音助手还能够实现人机对话，提高用户体验。

在人机对话过程中，一般采用“问答对”的方式，“问答对”基本上都是一个标准问和多个相似问对应一个答案，也就是说，不管用户的说法如何变换，只要匹配到了相同的问答对，对应的回答都是一样的，使得用户不管如何诉说同一问题，均得到同一回答，灵活性较差。另外，针对不同的用户，人机交互过程相同，不能针对不同的用户进行个性化设置。

也就是说，目前智能语音助手能够实现人机交互，但是对语音助手的交互质量、用户体验涉及较少。语音助手存在交互生硬、体验差等问题。

为了解决这一技术问题，发明人经过研究发现，若是能够在进行人机交互时，能够对语音输出的风格进行预先设定，在与用户沟通时，输出的数据的风格为用户设定的风格，能够对不同的用户进行个性化设置，用户体验较好，而且，针对同一个问题，不同用户设定的风格不同，则针对不同的用户，得到的回答也不同，也会提高语音助手的灵活性。

具体的，本发明中，首先获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，然后获取用户确定的语言风格数据，并调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。由于所述预设数据处理模型基于包括语音样本对应的文本、以及所述文本的语言风格类型的训练样本训练得到，进而预设数据处理模型能够识别不同语言风格类型且得到不同语言风格类型对应的文本对话结果。本发明中，用户预先设定了语言风格类型，进而预设数据处理模型能够输出与用户设定的语言风格类型相匹配的文本对话结果，使得预设数据处理模型输出的文本对话结果更加符合用户需求，进而能够满足不同用户的语音对话要求，用户体验较高。

在上述内容的基础上，本发明实施例提供了一种对话处理方法，应用于控制器，本实施例中的控制器可以是车载语音助手的控制器，也可以是任意能够实现人机交互的控制器，该控制器使得在语音对话过程中，得到符合用户设定的语言风格类型的数据，即使得对话过程人格化，拟人化。

参照图1，对话处理方法可以包括：

s11、获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据。

在实际应用中，处理器能够实现人机交互，用户可以输出语音或者文本，如输出“今天天气怎么样”的语音或文本，若在用户输入的是语音时，需要将语音转换成文本。若用户输入的是文本，则直接对文本进行处理即可。

在实际应用中，在用户输入为语音的情况下，在风格转换时，转换的是，该语音对应的文本，或者是该语音对应的文本的初始文本对话结果。也就是说，本实施例中的预设数据处理模型既可以实现对初始文本对话结果进行风格转换的功能，还可以实现得到语音对应的文本的初始文本对话结果的功能，现分别介绍。

在预设数据处理模型可以实现得到语音对应的文本的初始文本对话结果、以及对初始文本对话结果进行风格转换的功能时，本实施例中的目标文本数据为用户输入的语音的文本识别结果。

具体的，步骤s11可以包括：

获取用户输入的语音，确定所述语音对应的文本，并将所述文本确定为所述语音对应的目标文本数据。

在实际应用中，在控制器接收到用户输入的语音之后，通过语音转文本功能，可以得到语音对应的文本，该文本即为语音对应的目标文本数据。

在预设数据处理模型仅可以实现对初始文本对话结果进行风格转换的功能时，本实施例中的目标文本数据为用户输入的语音的文本对应的初始文本对话结果。

具体的，步骤s11可以包括：

获取用户输入的语音的文本对应的初始文本对话结果，并将所述初始文本对话结果确定为所述语音对应的目标文本数据。

其中，获取用户输入的语音对应的初始文本对话结果，包括：

1)获取用户输入的语音，并确定所述语音对应的文本；所述语音为用户与所述控制器语音对话过程中的连续语音。

本实施例中的具体实现过程，请参照上述步骤的相应解释说明。

需要说明的是，为了提高语音对话的准确度，本实施例中，在进行对话时，并不是仅对当前用户输出的最新一句语音进行分析，而是对用户输入的连续语音，如用户整个对话过程中的语音，或者是人机对话五分钟内的语音进行分析。

2)调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果。

具体的，可以预先训练一个语音对话模型，该模型可以是神经网络模型，模型通过训练得到，训练样本可以是语音样本、以及人工标注的语音样本的对话结果。

在得到用户输入的语音之后，将该语音输入到语音对话模型中，得到语音对应的初始文本对话结果。

此外，为了提高语音对话模型输出结果的准确度，本发明实施例中，在进行训练时，训练样本还可以包括人工标注的语音样本的环境信息和用户情绪，其中，环境信息和用户情绪是人工通过语音样本分析得到，具体可以为语音样本中的特定词汇，或者是人工分析得到的结果。举例来说，用户输入的语音是“今天怎么这么难受，天气让人看着也很烦躁”，可知，用户情绪是难受、烦躁，天气可能是与烦躁相对应的场景，如阴天，此时，可以标注，用户情绪为难受、烦躁，天气为阴天。

在训练样本中加入了环境信息和用户情绪，使用该训练样本训练，则语音对话模型能够学习语音的环境信息和用户情绪，从而得到更准确地输出结果。

则在语音对话模型使用过程中，会调用预设语音对话模型，以使所述预设语音对话模型对所述语音对应的文本进行环境信息分析和用户情绪分析，并基于环境信息分析的结果和用户情绪分析的结果，得到所述语音对应的初始文本对话结果。

s12、获取用户确定的语言风格类型。

所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项。

在实际应用中，控制器配置有对应的显示界面，显示界面上显示有语言风格输入界面，语言风格输入界面中可以以下拉框的形式展示有多种预设语言风格类型，其中，每一种预设语言风格类型可以是某一特定人物或者是某一风格的选项，特定人物可以是孙悟空、明星a等，风格可以是武侠风格、水浒传风格等。获取用户从语言风格输入界面中显示的多种预设语言风格类型中选择的预设语言风格类型，即可获取用户确定的语言风格类型。

除了上述设定好的预设语言风格类型之外，用户还可以自己配置语言风格类型，语言风格输入界面中还设置有多种语言风格选项，如年龄、性别、性格、地域、幽默感等。其中，用户可以在年龄选择框中选择年龄，如20岁，40岁等，性别可以选择男女，性格可以选择沉默寡言或者是善于表达等，地域可以是北京、上海等地区，幽默感可以是幽默或者不幽默。

用户选择了至少一语言风格选择后，选择的语言风格选项则组成一组语音风格选项集，该语言风格选项集也可以作为一种语言风格类型，如{“男”,”20岁”,”沉默寡言”}{“女”,”40岁”,”善于表达”}。

此时，获取用户从语言风格输入界面中的语言风格输入区域输入的至少一个语言风格选项，即可获取用户确定的语言风格类型。

需要说明的是，选择预设语言风格类型或者是选择语言风格选项，是两种确定语言风格类型的方式，在实际应用中，可以择一使用，或者是结合使用。

s13、调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。

在实际应用中，所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型。

所述预设数据处理模型的生成过程包括：

获取训练样本，所述训练样本包括语音样本对应的文本、以及所述文本的语言风格类型，使用所述训练样本对预设数据处理模型进行训练，直至满足预设停止条件时停止训练。

预设停止条件可以是损失函数值小于预设阈值。

具体的，预设数据处理模型可以是gan(生成对抗网络)。

生成gan主要分为三个工作步骤：数据准备、对抗生成网络建模以及训练。

在数据准备阶段，可以通过两个方式来定义人格化数据。第一种人格化是指某个特定人物(例如明星或者亲友)或者某个特定风格(例如武侠，水浒传)，准备该类人格化数据，即收集特定人物或者特定风格的语言文本交流对话，特定人物或者特定风格即为该交流对话的人格化标签。第二种是指将人格化拆分为各个人格属性(例如情绪，年龄，性别，性格等)，准备该类数据可以收集具有各种人格属性的人物对话交流，而该人物的人格属性则为该数据的人格化标签。本实施例中的人格化标签即为文本的语言风格类型。

在网络建模阶段，采用gan(生成对抗网络)作为网络模型，如图2，模型主体由生成器网络和和判别器网络构成，生成器网络的作用是将一句原始文本x，结合语言风格类型s，生成为一句新的带有s风格的句子y。其中s可以是预设语言风格类型集合s的一种，或者s＝{s1,s2,…,sk}，即为某些语言风格选项的集合，或者是语言风格类型与语言风格选项集合的结合，具体参照上述的语言风格类型的确定过程。而判别器网络的作用是判别生成器网络生成出来的y是否是s风格，可以通过生成器网络和判别器网络的对抗训练，让生成器生成特定s风格的句子。

生成器是由编码器和解码器构成，编码器和解码器均为transformer，编码器的输入为文本字符序列和语言风格类型s。判别器的结构则是transformer编码器接着分类器(若是数值属性则为回归)，输入是文本的字符序列或者是生成器解码后的字符概率分布序列，输出则是判断的风格s。

在训练的阶段，整个过程如图2由三个部分组成：重建、回译和风格判定。重建的期望是一个也具有s风格的文本x和语言风格类型s输入生成器可以生成x。回译的期望是将一个具有风格s的文本x和语言风格类型s’输入生成器，所产生的y’应具有s’风格，且y’和风格s输入生成器生成的y应该和x一致。风格判定的期望是一个具有语言风格类型s的文本x输入判定器输出的风格应该为s，或者一个具有语言风格类型s的文本x和语言风格类型s’输入生成器的解码器所产生的字符概率分布序列输入判别器，输出的风格应该是s’。判别器所需要优化的损失函数为风格判定过程中的期望偏差，生成器所需要优化的损失函数为三个过程中产生的期望偏差的加权之和。

训练时分三个阶段，1)先用重建过程来训练一个基础的生成器，2)用第一步训练好的生成器，输入语言风格类型为s的文本x和语言风格类型s，得到字符概率分布序列，再混合真实数据来训练判别器，3)最后交替训练生成器和判别器来得到更好的生成器。

由于输入的语言风格类型s可以是预设语言风格类型，也可以是语言风格选项集合，还可以是预设语言风格类型与语言风格选项集合的结合，所以，训练出来的生成器可以处理特定的现实人物(如明星，亲友等)，也可以处理结构化的人格属性的设定(如年龄，性别，幽默程度，情绪，性格特点)还可以结合预设语言风格类型与语言风格选项集合，如输出(明星、年龄，性别，幽默程度)的风格语句。

现结合实际场景中的训练过程，详细介绍训练一个将普通文本转换为明星a说话风格的生成器的训练过程，具体如下：

1、收集两个数据集，越多越好。一个数据集是普通的语音助手的数据集，一个是明星a的语录数据集，两个数据集不需要对齐，但需要标注每条文本是属于哪个语言风格类型。

2、将两个数据集混合打乱用重建的方式训练一个基本的生成器。

3、用上述两个数据集中的50％的真实数据输入上个步骤所得生成器后所得到的字符概率分布序列，混合剩下50％的真实数据一起训练判别器。

4、之后训练生成器时，不仅用相同风格和对应的文本作为输入通过重建来得到loss重建，也通过先后将文本和两种风格两次输入生成器(先输入与文本风格不一样的风格，再输入和文本风格一致的风格，类似把中文文本翻译成英文再翻译成中文)，得到loss回译，并通过判别器得到loss风格，最后将三个loss加权求和来得到最终的loss，从而进行对生成器的优化。

5、交替训练生成器和判别器。当生成器达到收敛的状态后结束训练。

模型训练好后，训练所得生成器可以被加载，当用户与语音助手交流时，原本的普通的回复就可以被变换为用户设置的语言风格类型的文本，提升用户体验。上述实例中多提到的具体风格(明星a)也可以直接改为特定属性的集合所构成的风格。这样训练出来的生成器可以达到细粒度调整属性值来自定义人格化风格的效果。

在实际应用中，可以在原有的语音助手对话处理模块(根据对话提供固定的回复)的基础上，设置有风格设置模块和上述的预设数据处理模型。语音助手的asr部分根据对话状态跟踪模块所跟踪的用户及环境的状态，把用户说的话识别进入语音助手对话处理模块输出一句原有普通的回复文本，风格设置模块中存在用户预先设置好的语言风格类型，预设数据处理模型将普通的回复文本转换成与用户设定的语言风格类型对应的文本，再由tts部分输出播放给用户。

参照图3，图3给出了本发明中的语言风格转换的具体场景，智能语音助手接收到的输入是“今天的天好热”，智能语音助手进行环境信息分析和用户情绪分析，具体的情绪状态为{情绪:烦躁，……}，环境状态为{天气：今天气温20-30度，晴，明天气温14-19度，有明显降温，……}，得到的初步初始文本对话结果为“是的，今天天气真热”，然后调用本实施例中的预设语音对话模型，即图3中的风格转换器(可以设置明星a风格，或结构化的人格属性：{年龄：25，性别：男，性格：体贴，……})进行处理，得到的文本对话结果为“嘿，不用您说……”，相比于“是的，今天天气真热”的回答，更加符合用户设定的风格，提高用户体验。

上述举例是在原有的语音助手之后，将语音助手生成的普通回复进行风格变换。这种方式采用的是pipelinemodel(管道模型)结构，每个模块都是一个独立的模型，且都有特定的作用(原有的语音助手产生普通回复，预设数据处理模型将普通回复变换风格)，这个方案可以利用现有的语音助手，数据比较容易收集，对模型的要求较低，比较容易实现。

此外还可以直接将原有的语音助手和预设数据处理模型融合到一个模型中，直接将用户输出的语音的文本，转换成设定的风格，并输出。这种整合的方式是一个end-to-endmodel(端到端模型)，即用一个模型完成了整个系统的数据处理过程，中间没有模块的数据交互，好处是没有模块之间数据处理过程中的错误传递，但对训练模型的数据收集和训练过程的难度有所提高。

s14、输出所述文本对话结果。

本实施例中，可以将该文本对话结果直接显示在控制器的显示界面，以使用户能够看到对话结果。

为了进一步提高用户体验，可以将该对话结果语音输出，此时需要将所述文本对话结果转换成与所述语言风格类型对应的语音文本，然后通过tts模块输出该语音给用户。

在将文本对话结果转换成与所述语言风格类型对应的语音文本时，也可以训练一个神经网络模型，该模型的训练样本是文本、文本对应的语音、语音的风格，使用该训练样本得到的模型能够将输入的文本转换成某种风格的语音。

得到该语音之后，通过智能语音助手tts模块输出，使得用户能够直接的接收到人机交互结果，用户体验更好。

本实施例中，首先获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，然后获取用户确定的语言风格数据，并调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。由于所述预设数据处理模型基于包括语音样本对应的文本、以及所述文本的语言风格类型的训练样本训练得到，进而预设数据处理模型能够识别不同语言风格类型且得到不同语言风格类型对应的文本对话结果。本发明中，用户预先设定了语言风格类型，进而预设数据处理模型能够输出与用户设定的语言风格类型相匹配的文本对话结果，使得预设数据处理模型输出的文本对话结果更加符合用户需求，进而能够满足不同用户的语音对话要求，用户体验较高。

另外，本发明可以细粒度的设定语言风格属性，而再只是单纯的风格类型，这样用户可以根据自身的喜好细粒度调整人格化特征，从而让用户能得到更细粒度、更定制化的风格变换体验。并且，在对话过程还考虑了对话的环境和用户状态，使得回复更加贴合场景，更符合实际，让用户获得更多更准确的信息，从而提升用户体验。

此外，本发明解决现有语音助手固定死板的回复的问题，赋予语音助手人格化特征，结合对话状态给出人格化合理化的回复，提升用户体验。对话过程中，可以结合对话状态帮助模型更好的理解用户和环境的状态，意图和需要变换的文本的语义信息，并且让模型有能力在保持原有文本的语义不变信息不少的情况下添加适当符合场景的信息表达，从而可以和用户更加符合场景的生动丰富的交流。不仅如此，结合对话的状态主要是用户的状态可以对模型在人格化风格变换的时候进行微调，从而更贴近用户的感受。而在人格化风格设置方面，本发明不仅支持单纯的风格类型(如特定人物，文学风格，方言特点等)，还支持更加细粒度的结构化的语言风格的设置，这样用户不仅可以选择自己喜欢的语言风格类型，还可以“创造”一个自己理想的虚拟人物(包括但不限于年龄，性别，地域，性格，幽默感等)，深度定制，让语音助手不再是一个生硬的对话工具，而是通过人格化技术赋予车载语音助手特定的语言特点，例如亲人、明星，可以极大地拉近语音助手与用户的距离，提高用户体验。

可选地，在上述对话处理方法的实施例的基础上，本发明的另一实施例提供了一种对话处理装置，应用于控制器，参照图4，所述对话处理装置包括：

数据获取模块11，用于获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据；

风格获取模块12，用于获取用户确定的语言风格类型；所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项；

数据处理模块13，用于调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果；所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型；

结果输出模块14，用于输出所述文本对话结果。

进一步，数据获取模块11具体用于：

获取用户输入的语音，并确定所述语音对应的文本；

将所述文本确定为所述语音对应的目标文本数据。

进一步，数据获取模块11具体用于：

获取用户输入的语音的文本对应的初始文本对话结果，并将所述初始文本对话结果确定为所述语音对应的目标文本数据。

进一步，数据获取模块11用于获取用户输入的语音的文本对应的初始文本对话结果时，具体用于：

获取用户输入的语音，并确定所述语音对应的文本；所述语音为用户与所述控制器语音对话过程中的连续语音；

调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果。

进一步，数据获取模块11用于调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果时，具体用于：

调用预设语音对话模型，以使所述预设语音对话模型对所述语音对应的文本进行环境信息分析和用户情绪分析，并基于环境信息分析的结果和用户情绪分析的结果，得到所述语音对应的初始文本对话结果。

进一步，还包括：

语音输出模块，用于将所述文本对话结果转换成与所述语言风格类型对应的语音文本，并输出所述语音文本。

进一步，风格获取模块12具体用于：

获取用户从语言风格输入界面中显示的多种预设语言风格类型中选择的预设语言风格类型；

或，获取用户从语言风格输入界面中的语言风格输入区域输入的至少一个语言风格选项。

进一步，还包括，模型生成模块，具体用于：

获取训练样本，所述训练样本包括语音样本对应的文本、以及所述文本的语言风格类型；

使用所述训练样本对预设数据处理模型进行训练，直至满足预设停止条件时停止训练。

本实施例中，首先获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，然后获取用户确定的语言风格数据，并调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。由于所述预设数据处理模型基于包括语音样本对应的文本、以及所述文本的语言风格类型的训练样本训练得到，进而预设数据处理模型能够识别不同语言风格类型且得到不同语言风格类型对应的文本对话结果。本发明中，用户预先设定了语言风格类型，进而预设数据处理模型能够输出与用户设定的语言风格类型相匹配的文本对话结果，使得预设数据处理模型输出的文本对话结果更加符合用户需求，进而能够满足不同用户的语音对话要求，用户体验较高。

需要说明的是，本实施例中的各个模块的工作过程，请参照上述实施例中的相应说明，在此不再赘述。

可选地，在上述对话处理方法及装置的实施例的基础上，本发明的另一实施例提供了一种电子设备，如控制器，包括：存储器和处理器；

其中，所述存储器用于存储程序；

处理器调用程序并用于：

获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据；

获取用户确定的语言风格类型；所述语言风格类型包括用户选择的预设语言风格类型，或，包括用户设定的至少一个语言风格选项；

调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果；所述预设数据处理模型基于训练样本训练得到；所述训练样本包括语音样本对应的文本、以及所述文本对应的语言风格类型；

输出所述文本对话结果。

进一步，获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，包括：

获取用户输入的语音，并确定所述语音对应的文本；

将所述文本确定为所述语音对应的目标文本数据。

进一步，获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，包括：

获取用户输入的语音的文本对应的初始文本对话结果，并将所述初始文本对话结果确定为所述语音对应的目标文本数据。

进一步，获取用户输入的语音对应的初始文本对话结果，包括：

获取用户输入的语音，并确定所述语音对应的文本；所述语音为用户与所述控制器语音对话过程中的连续语音；

调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果。

进一步，调用预设语音对话模型对所述语音对应的文本进行处理，得到所述语音对应的初始文本对话结果，包括：

调用预设语音对话模型，以使所述预设语音对话模型对所述语音对应的文本进行环境信息分析和用户情绪分析，并基于环境信息分析的结果和用户情绪分析的结果，得到所述语音对应的初始文本对话结果。

进一步，在所述输出所述文本对话结果之后，还包括：

将所述文本对话结果转换成与所述语言风格类型对应的语音文本；

输出所述语音文本。

进一步，获取用户确定的语言风格类型，包括：

获取用户从语言风格输入界面中显示的多种预设语言风格类型中选择的预设语言风格类型；

或，获取用户从语言风格输入界面中的语言风格输入区域输入的至少一个语言风格选项。

进一步，所述预设数据处理模型的生成过程包括：

获取训练样本，所述训练样本包括语音样本对应的文本、以及所述文本的语言风格类型；

使用所述训练样本对预设数据处理模型进行训练，直至满足预设停止条件时停止训练。

本实施例中，首先获取依据预设语音处理规则对用户输入的语音进行处理，得到的所述语音对应的目标文本数据，然后获取用户确定的语言风格数据，并调用预设数据处理模型对所述目标文本数据进行语言风格转换处理，得到与所述语言风格类型对应的文本对话结果。由于所述预设数据处理模型基于包括语音样本对应的文本、以及所述文本的语言风格类型的训练样本训练得到，进而预设数据处理模型能够识别不同语言风格类型且得到不同语言风格类型对应的文本对话结果。本发明中，用户预先设定了语言风格类型，进而预设数据处理模型能够输出与用户设定的语言风格类型相匹配的文本对话结果，使得预设数据处理模型输出的文本对话结果更加符合用户需求，进而能够满足不同用户的语音对话要求，用户体验较高。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于对抗样本的语音隐写方法与流程

一种对话处理方法、装置及电子设备与流程

相关文章

最热文献