有声表情的生成方法、装置和设备与流程

2022-11-28 13:25:53 来源：中国专利 TAG：

1.本技术的实施例涉及表情生成领域，尤其涉及有声表情的生成方法、装置、设备和计算机可读存储设备。

背景技术：

2.随着互联网技术以及手机终端的发展，网络社交成为一种重要的社交方式，用户可以通过即时通讯工具发送信息进行互动，例如可以发送文字、表情包等，其中，表情包是一种通过静态或动态图像来表达情感的方式，能够弥补文字交流的枯燥和态度表达不准确的弱点，提高互动交流的趣味性。
3.但是，这些表情包难以从听觉维度共同传达情绪信息，而在网络社交场景中，语音是情感表达的一种重要媒介，表情包无法传达语音信息，导致情感表达效果单一，通过表情包进行沟通的互动效果较为单一，因此，对于即时通讯工具的运营商来说，如何生成语音表情，以丰富表情包的情感传达维度，增强用户之间的互动性，是目前的一个重要研究方向。

技术实现要素：

4.根据本技术的实施例，提供了一种有声表情的生成方案。
5.在本技术的第一方面，提供了一种有声表情的生成方法。该方法包括：
6.获取用户的语音数据；
7.将所述语音数据输入至数据分析模型，得到与所述语音数据对应的表情标识和虚拟形象标识；
8.基于所述表情标识和虚拟形象标识，生成面部表情关键点；
9.基于所述语音数据、面部表情关键点，构建有声表情。
10.进一步地，所述数据分析模型过如下方式进行训练：
11.生成训练样本集合，其中，训练样本包括带有标注信息的语音数据；所述标注信息为表情标识和虚拟形象标识；
12.利用所述训练样本集合中的样本对数据分析模型进行训练，以脚本文件作为输入，以表情标识和虚拟形象标识作为输出，当输出的表情标识和虚拟形象标识与标注的表情标识和虚拟形象标识的统一率满足预设阈值时，完成对数据分析模型的训练。
13.进一步地，所述基于所述表情标识和虚拟形象标识，生成面部表情关键点包括：
14.基于所述表情标识，通过tts生成有感情的语音；
15.基于所述有感情的语音和虚拟形象标识，生成面部表情关键点。
16.进一步地，所述有声表情包括面部表情、口型、头部运动和肢体动作。
17.在本技术的第二方面，提供了一种有声表情的生成装置。该装置包括：
18.获取模块，用于获取用户的语音数据；
19.分析模块，用于将所述语音数据输入至数据分析模型，得到与所述语音数据对应的表情标识和虚拟形象标识；
20.生成模块，用于基于所述表情标识和虚拟形象标识，生成面部表情关键点；
21.构建模块，用于基于所述语音数据、面部表情关键点，构建有声表情。
22.进一步地，所述数据分析模型过如下方式进行训练：
23.生成训练样本集合，其中，训练样本包括带有标注信息的语音数据；所述标注信息为表情标识和虚拟形象标识；
24.利用所述训练样本集合中的样本对数据分析模型进行训练，以脚本文件作为输入，以表情标识和虚拟形象标识作为输出，当输出的表情标识和虚拟形象标识与标注的表情标识和虚拟形象标识的统一率满足预设阈值时，完成对数据分析模型的训练。
25.进一步地，所述基于所述表情标识和虚拟形象标识，生成面部表情关键点包括：
26.基于所述表情标识，通过tts生成有感情的语音；
27.基于所述有感情的语音和虚拟形象标识，生成面部表情关键点。
28.进一步地，所述有声表情包括面部表情、口型、头部运动和肢体动作。
29.在本技术的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。
30.在本技术的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本技术的第一方面的方法。
31.本技术实施例提供的有声表情的生成方法，通过获取用户的语音数据；将所述语音数据输入至数据分析模型，得到与所述语音数据对应的表情标识和虚拟形象标识；基于所述表情标识和虚拟形象标识，生成面部表情关键点；基于所述语音数据、面部表情关键点，构建有声表情，解决了表情情感表达效果单一的问题。
32.应当理解，发明内容部分中所描述的内容并非旨在限定本技术的实施例的关键或重要特征，亦非用于限制本技术的范围。本技术的其它特征将通过以下的描述变得容易理解。
附图说明
33.结合附图并参考以下详细说明，本技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：
34.图1示出了本技术的实施例提供的方法所涉及的系统架构图。
35.图2示出了根据本技术的实施例的有声表情的生成方法的流程图；
36.图3示出了根据本技术的实施例的有声表情的生成装置的方框图；
37.图4示出了适于用来实现本技术实施例的终端设备或服务器的结构示意图。
具体实施方式
38.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。
39.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另
外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
40.图1示出了可以应用本技术的有声表情的生成方法或有声表情的生成装置的实施例的示例性系统架构100。
41.如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
42.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如模型训练类应用、视频识别类应用、网页浏览器应用、社交平台软件等。
43.终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
44.当终端101、102、103为硬件时，其上还可以安装有视频采集设备。视频采集设备可以是各种能实现采集视频功能的设备，如摄像头、传感器等等。用户可以利用终端101、102、103上的视频采集设备来采集视频。
45.服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的数据处理的后台服务器。后台服务器可以对接收到的数据进行分析等处理，并可以将处理结果反馈给终端设备。
46.需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
47.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。特别地，在目标数据不需要从远程获取的情况下，上述系统架构可以不包括网络，而只包括终端设备或服务器。
48.如图2所示，是本技术实施例有声表情的生成方法的流程图。从图2中可以看出，本实施例的有声表情的生成方法，包括以下步骤：
49.s210，获取用户的语音数据。
50.在本实施例中，用于有声表情的生成方法的执行主体(例如图1所示的服务器)可以通过有线方式或者无线连接的方式获取用户的语音数据。
51.进一步地，上述执行主体可以获取与之通信连接的电子设备(例如图1所示的终端设备)发送的用户的语音数据，也可以是预先存储于本地的用户的语音数据。
52.s220，将所述语音数据输入至数据分析模型，得到与所述语音数据对应的表情标识和虚拟形象标识。
53.其中，表情标识为，对人类情感进行的标定，如，喜、怒、哀、乐等。
54.生成训练样本集合，其中，训练样本包括带有标注信息的语音数据；所述标注信息为表情标识和虚拟形象标识；
55.利用所述训练样本集合中的样本对数据分析模型进行训练，以脚本文件作为输入，以表情标识和虚拟形象标识作为输出，当输出的表情标识和虚拟形象标识与标注的表情标识和虚拟形象标识的统一率满足预设阈值时，完成对数据分析模型的训练。
56.在一些实施例中，所述表情标识可以为多个，即，根据不同的语境可以分别标注多个表情标识。
57.s230，基于所述表情标识和虚拟形象标识，生成面部表情关键点。
58.在一些实施例中，基于所述表情标识，通过tts生成有感情的语音；基于所述有感情的语音和虚拟形象标识，生成面部表情关键点。
59.通常用户直接录入的语音会有一定的噪音(口音、背景声音嘈杂等)，因此，直接使用用户录入的语音，生成面部表情关键点会出现不匹配的问题，即不能够生成和用户所表达的“情感”一致的面部表情，因此在本公开中，基于所述表情标识，通过tts生成有感情的语音，基于所述有感情的语音和虚拟形象标识，生成面部表情关键点。
60.在一些实施例中，为了进一步地提升用户体验，所述面部表情关键点具有一定的随机性，如，通过情绪“愤怒”可构建多组与其对应的面部表情，避免了现有模型表情和动作过于单一的缺陷，大幅度提升了模型的拟人性，增强了互动体验。
61.s240，基于所述语音数据、面部表情关键点，构建有声表情。
62.在一些实施例中，基于所述语音数据、面部表情关键点，构建有声表情。所述有声表情包括面部表情、口型、头部运动和/或肢体动作等。
63.下面给出基于本公开的有声表情的生成方法，实现用户间信息传达的具体实施例：
64.在本技术实施例中，第一终端为第一用户所使用的终端，安装和运行有支持即时通讯的目标应用程序，第二终端为第二用户所使用的终端，其功能与第一终端类似，第一、二终端为互相进行信息传递的终端。
65.第一终端触发配音(发出语音)指令“我今天很生气”，该触发操作可以为点击操作、长按操作等，参考现有技术中语音录入，在此不做具体限定。
66.通过本公开的方法，将语音“我今天很生气”转化为包括面部表情、口型、头部运动和肢体动作的多个三维人物模型，该三维人物模型为随机生成的与语音“我今天很生气”对应的多个三维人物模型，第一用户可根据自己的喜好，选取一个或多个三维人物模型发送至第二终端，同时第一用户也可以将生成的任一三维人物模型进行保存，以便下次能够直接使用，即，第一用户在下次使用时，不需要进行语音录入，直接可以从表情数据库(表情包)中调出。
67.根据本公开的实施例，实现了以下技术效果：
68.通过本公开的方法，可以将用户录入的语音，转化为具有高度拟人特征(对应的表情、动作和有感情的语音)表情，大幅提升了用户的交互体验。
69.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为
依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本技术所必须的。
70.以上是关于方法实施例的介绍，以下通过装置实施例，对本技术所述方案进行进一步说明。
71.图3示出了根据本技术的实施例的有声表情的生成装置500的方框图如图3所示，装置300包括：
72.获取模块310，用于获取用户的语音数据；
73.分析模块320，用于将所述语音数据输入至数据分析模型，得到与所述语音数据对应的表情标识和虚拟形象标识；
74.生成模块330，用于基于所述表情标识和虚拟形象标识，生成面部表情关键点；
75.构建模块340，用于基于所述语音数据、面部表情关键点，构建有声表情。
76.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
77.图4示出了适于用来实现本技术实施例的终端设备或服务器的结构示意图。
78.如图4所示，终端设备或服务器400包括中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的程序或者从存储部分408加载到随机访问存储器(ram)403中的程序而执行各种适当的动作和处理。在ram 703中，还存储有系统400操作所需的各种程序和数据。cpu 401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
79.以下部件连接至i/o接口405：包括键盘、鼠标等的输入部分406；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分407；包括硬盘等的存储部分408；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至i/o接口405。可拆卸介质411，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器410上，以便于从其上读出的计算机程序根据需要被安装入存储部分408。
80.特别地，根据本技术的实施例，上文方法流程步骤可以被实现为计算机软件程序。例如，本技术的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分409从网络上被下载和安装，和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(cpu)401执行时，执行本技术的系统中限定的上述功能。
81.需要说明的是，本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。
82.计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本技术中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、rf等等，或者上述的任意合适的组合。
83.附图中的流程图和框图，图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
84.描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
85.作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序，当上述前述程序被一个或者一个以上的处理器用来执行描述于本技术的方法。
86.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本技术中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

有声表情的生成方法、装置和设备与流程

相关文献

最热文献