三维数字人口型生成方法、装置、电子设备及存储介质与流程

2022-11-12 20:46:55 来源：中国专利 TAG：

1.本发明涉及三维数字人技术领域，尤其涉及一种三维数字人口型生成方法、装置、电子设备及存储介质。

背景技术：

2.虚拟数字人，是指存在于数字世界，通过动作捕捉、三维建模、语音合成等技术高度还原真实人类，再借助ar/mr/vr等终端呈现出来的立体“人”。随着虚拟数字人相关技术的不断发展，其运用门槛也相对降低，这也就将数字人相较于真人的优势凸显了出来，其可以通过大幅减少人力成本来提高效率，毕竟虚拟数字人不需要饮食睡眠，也不会疲倦生病，可以做到24小时不间断地工作。
3.现有技术的口型驱动效果不理想，并且脸部表情和口型之间相互依赖，导致算法模型无法区分说话人的语气、情绪和真正的说话内容之间的真实口型表达。

技术实现要素：

4.本发明提供了一种三维数字人口型生成方法、装置、电子设备及存储介质，用于解决现有技术的口型驱动效果不理想，并且脸部表情和口型之间相互依赖，导致算法模型无法区分说话人的语气、情绪和真正的说话内容之间的真实口型表达的技术问题。
5.本发明提供了一种三维数字人口型生成方法，包括：获取语音输入信号；将所述语音输入信号转换为数字输入信号；分割所述数字输入信号，得到语音数字信号矩阵；建立所述语音数字信号矩阵的情绪模型，得到情绪表征向量；建立所述语音数字信号矩阵的语义模型，得到语义表征向量；对所述情绪表征向量和所述语义表征向量进行卷积操作，提取语音特征；根据所述语音特征生成口型驱动系数；采用所述口型驱动系数生成三维数字人口型。
6.可选地，所述将所述语音输入信号转换为数字输入信号的步骤，包括：通过线性预测编码将语音输入信号转换为数字输入信号。
7.可选地，所述分割所述数字输入信号，得到语音数字信号矩阵的步骤，包括：通过滑动窗口对所述数字输入信号进行分割，得到多个语音数字信号；采用多个所述语音数字信号生成语音数字信号矩阵。
8.可选地，所述对所述情绪表征向量和所述语义表征向量进行卷积操作，提取语音特征的步骤，包括：将所述情绪表征向量与所述语义表征向量进行拼接，得到第一拼接向量；采用预设残差卷积神经网络对所述第一拼接向量进行卷积计算，得到第一卷积向量；
将所述第一卷积向量和所述情绪表征向量进行拼接，得到第二拼接向量；采用预设残差卷积神经网络对所述第二拼接向量进行卷积计算，得到第二卷积向量；将所述第二卷积向量和所述情绪表征向量进行拼接，得到第三拼接向量；采用预设残差卷积神经网络对所述第三拼接向量进行卷积计算，得到第三卷积向量；将所述第三卷积向量和所述情绪表征向量进行拼接，得到第四拼接向量；采用预设残差卷积神经网络对所述第四拼接向量进行卷积计算，得到第四卷积向量；将所述第四卷积向量和所述情绪表征向量进行拼接，得到第五拼接向量；采用预设残差卷积神经网络对所述第五拼接向量进行卷积计算，得到语音特征。
9.可选地，所述根据所述语音特征生成口型驱动系数的步骤，包括：获取预设第一线性运算的第一权重和第一偏移量；获取预设第二线性运算的第二权重和第二偏移量；采用所述语音特征、所述第一权重、所述第一偏移量、所述第二权重和所述第二偏移量生成口型驱动系数。
10.本发明还提供了一种三维数字人口型生成装置，包括：语音输入信号获取模块，用于获取语音输入信号；数字输入信号转换模块，用于将所述语音输入信号转换为数字输入信号；分割模块，用于分割所述数字输入信号，得到语音数字信号矩阵；情绪表征向量获取模块，用于建立所述语音数字信号矩阵的情绪模型，得到情绪表征向量；语义表征向量获取模块，用于建立所述语音数字信号矩阵的语义模型，得到语义表征向量；语音特征提取模块，用于对所述情绪表征向量和所述语义表征向量进行卷积操作，提取语音特征；口型驱动系数生成模块，用于根据所述语音特征生成口型驱动系数；三维数字人口型生成模块，用于采用所述口型驱动系数生成三维数字人口型。
11.可选地，所述数字输入信号转换模块，包括：数字输入信号转换子模块，用于通过线性预测编码将语音输入信号转换为数字输入信号。
12.可选地，所述分割模块，包括：分割子模块，用于通过滑动窗口对所述数字输入信号进行分割，得到多个语音数字信号；语音数字信号矩阵生成子模块，用于采用多个所述语音数字信号生成语音数字信号矩阵。
13.本发明还提供了一种电子设备，所述设备包括处理器以及存储器：所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；所述处理器用于根据所述程序代码中的指令执行如上任一项所述的三维数字人
口型生成方法。
14.本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的三维数字人口型生成方法。
15.从以上技术方案可以看出，本发明具有以下优点：本发明提供了一种三维数字人口型生成方法，包括：获取语音输入信号；将语音输入信号转换为数字输入信号；分割数字输入信号，得到语音数字信号矩阵；建立语音数字信号矩阵的情绪模型，得到情绪表征向量；建立语音数字信号矩阵的语义模型，得到语义表征向量；对情绪表征向量和语义表征向量进行卷积操作，提取语音特征；根据语音特征生成口型驱动系数；采用口型驱动系数生成三维数字人口型。本发明通过将语音输入信号转换为数字输入信号，然后从中提取情绪表征向量和语义表征向量，再对情绪表征向量和语义表征向量进行融合，得到同时反映情绪和语义的语音特征，生成基于语音特征生成的口型驱动系数，从而使得基于口型驱动系数生成的三维数字人口型能够反映人的语气和情绪，实现更真实的口型表达。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。
17.图1为本发明实施例提供的一种三维数字人口型生成方法的步骤流程图；图2为本发明另一实施例提供的一种三维数字人口型生成方法的步骤流程图；图3为本发明实施例提供的一种三维数字人口型生成装置的结构框图。
具体实施方式
18.本发明实施例提供了一种三维数字人口型生成方法、装置、电子设备及存储介质，用于解决现有技术的口型驱动效果不理想，并且脸部表情和口型之间相互依赖，导致算法模型无法区分说话人的语气、情绪和真正的说话内容之间的真实口型表达的技术问题。
19.为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
20.请参阅图1，图1为本发明实施例提供的一种三维数字人口型生成方法的步骤流程图。
21.本发明提供的一种三维数字人口型生成方法，具体可以包括以下步骤：步骤101，获取语音输入信号；在本发明实施例中，可以通过语音接收设备（如麦克风）来获取用户的声音，生成语音输入信号。
22.步骤102，将语音输入信号转换为数字输入信号；在本发明实施例中，在获取到语音输入信号后，可以将语音输入信号转换为数字
输入信号。
23.在具体实现中，本发明获取的语音输入信号为音频模拟信号，通过使用线性预测编码（lpc）可以将音频模拟信号转换为数字输入信号。
24.步骤103，分割数字输入信号，得到语音数字信号矩阵；在获取到数字输入信号后，可以对其进行分割，生成语音数字信号矩阵。
25.步骤104，建立语音数字信号矩阵的情绪模型，得到情绪表征向量；在本发明实施例中，在获取到语音数字信号矩阵之后，可以对其进行情绪建模，得到情绪表征向量。
26.步骤105，建立语音数字信号矩阵的语义模型，得到语义表征向量；在本发明实施例中，在获取到语音数字信号矩阵之后，可以对其进行语义建模，得到语义表征向量。
27.步骤106，对情绪表征向量和语义表征向量进行卷积操作，提取语音特征；在获取到情绪表征向量和语义表征向量之后，可以对情绪表征向量和语义表征向量进行卷积操作，提取语音特征。
28.步骤107，根据语音特征生成口型驱动系数；在获取到语音特征后，可以根据语音特征生成口型驱动系数。
29.在具体实现中，口型驱动系数可以包括27个基础表情的系数，通过这27个基础表情的任意权重组合，可以生成三维数字人的口型表情。
30.在一个示例中，基础表情可以包括左上唇上抬（mouthupperup_l）、右上唇上抬（mouthupperup_r）、左下唇下拉（mouthlowerdown_l）、右下唇下拉（mouthlowerdown_r）、下嘴唇外伸（mouthshruglower）、上嘴唇外伸（mouthshrugupper）、下颚前伸（mouthshruglower）等27个互相独立、互不影响的嘴部相关的基础表情。
31.步骤108，采用口型驱动系数生成三维数字人口型。
32.在本发明实施例中，在获取到口型驱动系数之后，可以采用口型驱动系数生成三维数字人口型。
33.本发明通过将语音输入信号转换为数字输入信号，然后从中提取情绪表征向量和语义表征向量，再对情绪表征向量和语义表征向量进行融合，得到同时反映情绪和语义的语音特征，生成基于语音特征生成的口型驱动系数，从而使得基于口型驱动系数生成的三维数字人口型能够反映人的语气和情绪，实现更真实的口型表达。
34.请参阅图2，图2为本发明另一实施例提供的一种三维数字人口型生成方法的步骤流程图。具体可以包括以下步骤：步骤201，获取语音输入信号；在本发明实施例中，可以通过语音接收设备（如麦克风）来获取用户的声音，生成语音输入信号。
35.步骤202，通过线性预测编码将语音输入信号转换为数字输入信号；在本发明实施例中，可以通过线性预测编码（lpc）来将语音输入信号转换为数字输入信号。一个语音输入信号的抽样能够用过去若干个语音抽样的线性组合来逼近，通过使实际语音抽样的线性预测抽样之间差值的平方和达到最小，来确定唯一的一组线性预测系数。通过线性预测系数，可以将语音输入信号转换为数字输入信号。
36.在具体实现中，线性预测编码lpc的系数可以通过以下公式计算得到：可以通过以下公式计算得到：可以通过以下公式计算得到：其中，是对真实语音输入信号的当前时刻信号值的建模；表示对真实语音输入信号的当前时刻往前第i个时刻信号值的建模；p表示采集的真实语音输入信号的信号值的数量；表示线性预测编码lpc的系数；为理想状态下的语音输入信号当前时刻信号值的表达，同时用于表示预测当前时刻的信号值；i表示当前时刻往前第i个时刻，为激励信号，同时被视为真实语音输入信号和理想状态下的语音输入信号的误差值，因此求解过程中需要使最小化，从而求解出（i=1，2，...，n）。
37.步骤203，分割数字输入信号，得到语音数字信号矩阵；在获取到数字输入信号后，可以对其进行分割，生成语音数字信号矩阵。
38.在一个示例中，分割数字输入信号，得到语音数字信号矩阵的步骤，可以包括以下子步骤：s31，通过滑动窗口对数字输入信号进行分割，得到多个语音数字信号；s32，采用多个语音数字信号生成语音数字信号矩阵。
39.在具体实现中，可以对数字输入信号采用滑动窗口截取片段的方法，将数字输入信号分割为多个语音数字信号，从而生成语音数字信号矩阵。
40.步骤204，建立语音数字信号矩阵的情绪模型，得到情绪表征向量；在本发明实施例中，在获取到语音数字信号矩阵之后，可以对其进行情绪建模，得到情绪表征向量。
41.在具体实现中，可以对语音信号矩阵进行多卷积核的多层卷积操作，且每一层的卷积核数量逐步增加，提取出深度语义表征向量。该表征向量能够对不同说话内容进行唯一区分。
42.在具体实现中，单层卷积操作可以表示为：其中，表示语音数字信号矩阵中第i行第j列的卷积运算结果；表示语音数字信号矩阵中第i m行第j n列的值；表示卷积核中第m行第n列的值；表示使用卷积核k对语音数字信号矩阵i的第i行j列的值进行卷积操作。
43.在一个示例中，情绪模型可以使用2层卷积层，卷积核大小均设置为3*3，每一层的卷积核数量分别设置为16，32。
44.步骤205，建立语音数字信号矩阵的语义模型，得到语义表征向量；在本发明实施例中，可以对语音数字信号矩阵进行深度的多层卷积，且每一层的卷积核数量逐步增加，提取出深度语义表征向量，该表征向量能够对不同说话人内容进行唯一区分。
45.在一个示例中，语义模型可以使用5层卷积层，卷积核的大小均设置为3*1，每一层的卷积核数量分别设置为16、32、64、96、128。
46.步骤206，对情绪表征向量和语义表征向量进行卷积操作，提取语音特征；在获取到情绪表征向量和语义表征向量之后，可以对情绪表征向量和语义表征向量进行卷积操作，提取语音特征。
47.在一个示例中，对情绪表征向量和语义表征向量进行卷积操作，提取语音特征的步骤，可以包括以下子步骤：s601，将情绪表征向量与语义表征向量进行拼接，得到第一拼接向量；s602，采用预设残差卷积神经网络对第一拼接向量进行卷积计算，得到第一卷积向量；s603，将第一卷积向量和情绪表征向量进行拼接，得到第二拼接向量；s604，采用预设残差卷积神经网络对第二拼接向量进行卷积计算，得到第二卷积向量；s605，将第二卷积向量和情绪表征向量进行拼接，得到第三拼接向量；s606，采用预设残差卷积神经网络对第三拼接向量进行卷积计算，得到第三卷积向量；s607，将第三卷积向量和情绪表征向量进行拼接，得到第四拼接向量；s608，采用预设残差卷积神经网络对第四拼接向量进行卷积计算，得到第四卷积向量；s609，将第四卷积向量和情绪表征向量进行拼接，得到第五拼接向量；s610，采用预设残差卷积神经网络对第五拼接向量进行卷积计算，得到语音特征。
48.在具体实现中，可以将情绪表征向量和语义表征向量进行拼接，得到第一拼接向量，然后采用预设残差卷积神经网络对第一拼接向量进行卷积操作，得到第一卷积向量。接着将情绪表征向量与第一卷积向量进行拼接，进行下一次的卷积操作。每一次卷积操作的结果均与情绪表征向量进行拼接后进行下一次卷积，总共通过5层卷积层，最终得到语音特征。
49.步骤207，根据语音特征生成口型驱动系数；在本发明实施例中，在获取到语音特征后，可以采用语音特征生成口型驱动系数。
50.在一个示例中，根据语音特征生成口型驱动系数的步骤，可以包括以下子步骤：s71，获取预设第一线性运算的第一权重和第一偏移量；s72，获取预设第二线性运算的第二权重和第二偏移量；s73，采用语音特征、第一权重、第一偏移量、第二权重和第二偏移量生成口型驱动系数。
51.在具体实现中，可以通过以下已训练好的神经网络模型计算得到口型驱动系数：
其中，为第一线性运算的第一权重，为第二线性运算的第二权重，为第一线性运算的第一偏移量，为第二线性运算的第二偏移量，为语音特征，y为口型驱动系数（包含27个基础表情分别对应的系数）。
52.在一个示例中，上述神经网络模型的训练过程可以分为学习目标、学习损失函数以及优化器。其中学习目标为口型驱动系数（包含27个基础表情分别对应的系数，每个基础表情的系数的取值范围均为0到1之间），学习损失函数采用均方差损失函数（mse）、时序稳定损失、正则化损失结合的方式，其中均方差损失函数可以表示为下述公式：其中，n为训练样本数量，为第i个样本的学习目标，为第i个样本的预测输出。
53.优化器采用自适应动量优化器（adam）。
54.步骤208，采用口型驱动系数生成三维数字人口型。
55.在本发明实施例中，在获取到口型驱动系数之后，可以采用口型驱动系数生成三维数字人口型。
56.本发明通过将语音输入信号转换为数字输入信号，然后从中提取情绪表征向量和语义表征向量，再对情绪表征向量和语义表征向量进行融合，得到同时反映情绪和语义的语音特征，生成基于语音特征生成的口型驱动系数，从而使得基于口型驱动系数生成的三维数字人口型能够反映人的语气和情绪，实现更真实的口型表达。
57.请参阅图3，图3为本发明实施例提供的一种三维数字人口型生成装置的结构框图。
58.本发明实施例提供了一种三维数字人口型生成装置，包括：语音输入信号获取模块301，用于获取语音输入信号；数字输入信号转换模块302，用于将语音输入信号转换为数字输入信号；分割模块303，用于分割数字输入信号，得到语音数字信号矩阵；情绪表征向量获取模块304，用于建立语音数字信号矩阵的情绪模型，得到情绪表征向量；语义表征向量获取模块305，用于建立语音数字信号矩阵的语义模型，得到语义表征向量；语音特征提取模块306，用于对情绪表征向量和语义表征向量进行卷积操作，提取语音特征；口型驱动系数生成模块307，用于根据语音特征生成口型驱动系数；三维数字人口型生成模块308，用于采用口型驱动系数生成三维数字人口型。
59.在本发明实施例中，数字输入信号转换模块302，包括：数字输入信号转换子模块，用于通过线性预测编码将语音输入信号转换为数字输入信号。
60.在本发明实施例中，分割模块303，包括：
分割子模块，用于通过滑动窗口对数字输入信号进行分割，得到多个语音数字信号；语音数字信号矩阵生成子模块，用于采用多个语音数字信号生成语音数字信号矩阵。
61.在本发明实施例中，语音特征提取模块306，包括：第一拼接子模块，用于将情绪表征向量与语义表征向量进行拼接，得到第一拼接向量；第一卷积子模块，用于采用预设残差卷积神经网络对第一拼接向量进行卷积计算，得到第一卷积向量；第二拼接子模块，用于将第一卷积向量和情绪表征向量进行拼接，得到第二拼接向量；第二卷积子模块，用于采用预设残差卷积神经网络对第二拼接向量进行卷积计算，得到第二卷积向量；第三拼接子模块，用于将第二卷积向量和情绪表征向量进行拼接，得到第三拼接向量；第三卷积子模块，用于采用预设残差卷积神经网络对第三拼接向量进行卷积计算，得到第三卷积向量；第四拼接子模块，用于将第三卷积向量和情绪表征向量进行拼接，得到第四拼接向量；第四卷积子模块，用于采用预设残差卷积神经网络对第四拼接向量进行卷积计算，得到第四卷积向量；第五拼接子模块，用于将第四卷积向量和情绪表征向量进行拼接，得到第五拼接向量；语音特征提取子模块，用于采用预设残差卷积神经网络对第五拼接向量进行卷积计算，得到语音特征。
62.在本发明实施例中，口型驱动系数生成模块307，包括：第一权重和第一偏移量获取子模块，用于获取预设第一线性运算的第一权重和第一偏移量；第二权重和第二偏移量获取子模块，用于获取预设第二线性运算的第二权重和第二偏移量；口型驱动系数生成子模块，用于采用语音特征、第一权重、第一偏移量、第二权重和第二偏移量生成口型驱动系数。
63.本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行本发明实施例的三维数字人口型生成方法。
64.本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的三维数字人口型生成方法。
65.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，
装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
66.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
67.本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
68.本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。
69.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。
70.这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。
71.尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
72.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
73.以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：基于车联网漏洞数据的预测方法、设备和存储介质与流程

三维数字人口型生成方法、装置、电子设备及存储介质与流程

相关文献

最热文献