一种用于模拟虚拟人物说话的方法及装置与流程

2022-04-16 15:40:43 来源：中国专利 TAG：

1.本发明实施例涉及语言识别处理领域，具体涉及一种用于模拟虚拟人物说话的方法及装置。

背景技术：

2.虚拟数字人口型当前市场主要有以下三种解决方案：
3.(1)固定虚拟数字人口型动画：不管虚拟角色说啥，口型都是固定的，做不到语音口型同步。
4.(2)音量驱动虚拟数字人口型动画：根据虚拟角色说话的音量大小，来控制虚拟角色的口型大小，非常不准确，做不到语音口型同步。
5.(3)真人图片序列帧动画：该解决方案局限性大，需要拍摄大量的真人素材。

技术实现要素：

6.为此，本发明实施例提供一种用于模拟虚拟人物说话的方法及装置，以解决现有技术中的音量识别和固定口型只适用于卡通角色，无法实现语音口型同步的问题。
7.为了实现上述目的，本发明的实施方式提供如下技术方案：
8.在本发明的实施方式的一个方面中，提供了用于模拟虚拟人物说话的方法，所述方法包括：
9.步骤1：根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；其中，所述多个音素分类包括：(aa)、(oh)、(ou)、第一通用分类、第二通用分类；所述第一通用分类和所述第二通用分类内包括多个音素；
10.步骤2：输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；
11.步骤3：从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；
12.步骤4：将选择的所述基础口型合成所述音频帧的对应口型。
13.进一步地，所述多个基础口型包括：与音素分类(aa)对应的第一基础口型、与音素分类(oh)对应的第二基础口型、与音素分类(ou)对应的第三基础口型、与所述第一通用分类对应的第一通用口型、与所述第二通用分类对应的第二通用口型；
14.所述第一通用分类包括的音素有：pp、th、kk、ss、rr、ee、ih；所述第二通用分类包括的音素有：ff、dd、ch、nn。
15.进一步地，步骤3具体为：
16.同一所述音频帧中的多个音素被分在所述第一通用分类中时，通过排序算法将同一所述音频帧中的多个音素对应的驱动值进行排序；
17.采用驱动值最大的所述音素驱动所述第一通用口型。
18.进一步地，步骤3具体为：
19.同一所述音频帧中的多个音素被分在所述第二通用分类中时，通过排序算法将同
一所述音频帧中的多个音素对应的驱动值进行排序；
20.采用驱动值最大的所述音素驱动所述第二通用口型。
21.进一步地，在所述音频流中，提取2.5ms至60ms为单位的数据量为一帧音频。
22.进一步地，所述方法还包括：制作虚拟人物模型，根据所述音频帧的对应口型，生成所述虚拟人物的口型。
23.在本发明的实施方式的一个方面中，还提供了一种用于模拟虚拟人物说话的装置，所述装置包括：
24.基础口型生成单元(102)，用于根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；其中，所述多个音素分类包括：(aa)、(oh)、(ou)、第一通用分类、第二通用分类；所述第一通用分类和所述第二通用分类内包括多个音素；
25.音素提取单元(104)，用于输入音频流，提取所述音频流的音频帧，识别所述音频帧的音素；
26.基础口型确定单元(106)，用于从所述多个音素分类中，确定与所述音频帧的音素对应的所述音素分类，选择与之对应的所述基础口型；
27.口型合成单元(108)，用于将选择的所述基础口型合成所述音频帧的对应口型。
28.进一步地，所述多个基础口型包括：与音素分类(aa)对应的第一基础口型、与音素分类(oh)对应的第二基础口型、与音素分类(ou)对应的第三基础口型、与所述第一通用分类对应的第一通用口型、与所述第二通用分类对应的第二通用口型；
29.所述第一通用分类包括的音素有：pp、th、kk、ss、rr、ee、ih；所述第二通用分类包括的音素有：ff、dd、ch、nn。
30.在本发明的实施方式的另一个方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述方法。
31.在本发明的实施方式的另一个方面中，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述方法。
32.本发明的实施方式具有如下优点：
33.本发明实施例公开了一种用于模拟虚拟人物说话的方法及装置，将真人口型通过音素分类，整理为5个基本口型，可以让计算机通过音素识别，驱动虚拟数字人口型同步。通过虚拟数字人口型专利，可以快速准确的实现虚拟数字人的语音口型同步。通过音素的融合分类，实现了虚拟数字人语音口型同步，使虚拟数字人说话时的口型容错率达到99.9％。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人，极大的提升了用户的体验。
附图说明
34.为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引申获得其它的实施附图。
35.本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的
实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
36.图1为本发明的实施例提供的一种用于模拟虚拟人物说话的方法的流程示意图；
37.图2为本发明的实施例提供的用于模拟虚拟人物说话的装置的结构示意图。
38.图中：102-基础口型生成单元、104-音素提取单元、106-基础口型确定单元、108-口型合成单元。
具体实施方式
39.以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
40.本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
41.实施例
42.参考图1、2所示，本发明的实施例提供了一种用于模拟虚拟人物说话的方法，方法包括以下步骤：
43.s1：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型。其中，多个音素分类包括：(aa)、(oh)、(ou)、第一通用分类、第二通用分类；第一通用分类和第二通用分类内包括多个音素。具体地，音素：音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。例如在本发明中，经过大量测试，将普通话的音素整理为5个对应发音口型，分别包括三个固定口型和两个通用口型。多个音素分类包括以下5个分类：
44.(aa)、(oh)、(ou)、第一通用分类、第二通用分类。以上每个分类的集合中都包括音素，(aa)、(oh)、(ou)中各包括一个音素，第一通用分类、第二通用分类中各包括多个音素。多个基础口型包括：与音素分类(aa)对应的第一基础口型、与音素分类(oh)对应的第二基础口型、与音素分类(ou)对应的第三基础口型、与第一通用分类对应的第一通用口型、与第二通用分类对应的第二通用口型。
45.具体地，制作5个与上述5个音素分类集合相对应的基础口型。顺序调用第一通用口型和第二通用口型，可以解决虚拟数字人口型颤动和动画平滑过度的问题。
46.以下为音素分类表，表中包括5个音素分类及对应的基础口型，
47.音素分类口型分类(aa)第一基础口型
(oh)第二基础口型(ou)第三基础口型第一通用分类第一通用口型第二通用分类第二通用口型
48.其中第一通用分类包括的音素有：pp、th、kk、ss、rr、ee、ih。第二通用分类包括的音素有：ff、dd、ch、nn。
49.s2：输入音频流，提取音频流的音频帧，识别音频帧的音素。音频数据是流式的，本身没有明确的一帧帧的概念，在实际的应用中，为了音频算法处理/传输的方便，一般约定俗成取2.5ms～60ms为单位的数据量为一帧音频。这个时间被称之为“采样时间”，其长度没有特别的标准，它是根据编解码器和具体应用的需求来决定的。具体地，在提取一段音频帧后，通过神经网络识别模型将识别该音频帧中的音素，同时利用神经网络模型识别音素的驱动值。
50.s3：从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型。具体地，将该音频帧中的音素与上述5的音素分类进行比对，确定与该音频帧的音素对应的音素分类。其中，音素分类可能是1个，也可能是多个，例如识别一个音频帧后得到多个音素，需分别确认与多个音素对应的多个音素分类，并选择与多个音素分类对应的多个基础口型。
51.例如：同一音频帧中的多个音素被分在第一通用分类中时，通过排序算法将同一音频帧中的多个音素对应的驱动值进行排序。采用驱动值最大的音素驱动第一通用口型。
52.同一音频帧中的多个音素被分在第二通用分类中时，通过排序算法将同一音频帧中的多个音素对应的驱动值进行排序。采用驱动值最大的音素驱动第二通用口型。
53.s4：将选择的基础口型合成音频帧的对应口型。进一步地，制作虚拟人物模型，根据音频帧的对应口型，生成虚拟人物的口型。本发明的技术方案可通过实时调用识别音频帧中的音素，并合成与所述音频帧对应的图像帧，将图像帧实时合成动画或视频，可以快速准确的实现超写实/写实虚拟数字人的语音口型同步。
54.进一步地，多个基础口型包括：与音素分类(aa)对应的第一基础口型、与音素分类(oh)对应的第二基础口型、与音素分类(ou)对应的第三基础口型、与第一通用分类对应的第一通用口型、与第二通用分类对应的第二通用口型。当从音频帧中未识别出音素时，选择嘴闭合口型作为基础口型。
55.例如，当识别到多个音素属于第一通用分类时，将该多个音素的驱动值进行分类，选取驱动值最大的音素来驱动第一通用口型。同理，当识别到多个音素属于第二通用分类时，将该多个音素的驱动值进行分类，选取驱动值最大的音素来驱动第二通用口型。循环调用“第一通用口型”，“第二通用口型”。在本实施例的技术方案中，将小口型分为两大类第一通用分类和第二通用分类，通过此算法可以减少小口型频繁切换引发的嘴唇颤动。
56.如图2所示，本发明的实施例还提供了一种用于模拟虚拟人物说话的装置，该装置包括：基础口型生成单元102、音素提取单元104、基础口型确定单元106及口型合成单元108。
57.其中，基础口型生成单元102用于根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型。音素提取单元104用于输入音频流，提取音频流的音频帧，识别音
频帧的音素。基础口型确定单元106用于从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型。口型合成单元108用于将选择的基础口型合成音频帧的对应口型。
58.本发明的技术方案通过音素的融合分类，实现了虚拟数字人语音口型同步，使虚拟数字人说话时的口型容错率达到99.9％。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。同时让虚拟数字人更加接近于真人，极大的提升了用户的体验。
59.本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。
60.根据另一方面的实施例，还提供了一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行结合图1所描述的方法。
61.根据再一方面的实施例，还提供了一种计算设备，包括存储器和处理器，存储器中存储有可执行代码，处理器执行可执行代码时，实现结合图1的方法。
62.结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于ram存储器、闪存、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、移动硬盘、cd-rom或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外，该asic可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。
63.本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
64.虽然，上文中已经用一般性说明及具体实施例对本发明做了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。虽然，上文中已经用一般性说明及具体实施例对本发明做了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种算力中心化的短距离运算托管系统及运行方法

一种用于模拟虚拟人物说话的方法及装置与流程

相关文献

最热文献