一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种实时音频驱动人脸生成方法、装置及服务器与流程

2021-12-14 22:43:00 来源:中国专利 TAG:

据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐射场模 型,以获取目标神经辐射场模型;
42.渲染模块,用于将输入地与目标视频同步的音频信息作为条件信息,使用所述目标 神经辐射场模型进行图像渲染,以生成当前视角及音频条件下的目标图像。
43.第三方面,本技术提供了一种服务器,包括存储器和处理器,所述存储器中存储有 程序指令,所述处理器通过运行所述程序指令,执行下述步骤:
44.获取训练视频的图像信息和与所述训练视频同步的音频信息;
45.对所述图像信息进行特征提取,得到每帧图像的人脸姿态特征和像素位置特征;
46.对所述音频信息进行特征提取,得到每帧图像的音频特征;
47.构建神经辐射场模型,所述神经辐射场模型用于生成渲染图像;
48.根据每帧图像的所述人脸姿态特征、像素位置特征和所述音频特征训练所述神经辐 射场模型,以获取目标神经辐射场模型;
49.将输入地与目标视频同步的音频信息作为条件信息,使用所述目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
50.由以上技术方案可知,基于本技术提供的实时音频驱动人脸生成方法,通过使用包 括编码器和解码器结构的卷积神经网络作为神经辐射场模型,以及使用图像像素位置特 征作为输入用于训练神经辐射场。显著提升了音频驱动人脸生成过程的运算速度,达到 实时语音驱动人脸视频的生成。
附图说明
51.为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单 的介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。
52.图1示例性示出了本技术实施例提供的实时音频驱动人脸生成方法的流程示意图;
53.图2示例性示出了本技术实施例提供的神经辐射场模型的结构示意图;
54.图3示例性示出了本技术实施例提供的神经辐射场模型训练过程的流程示意图;
55.图4示例性示出了本技术实施例提供的神经辐射场模型推断过程的流程示意图。
具体实施方式
56.为使本技术的目的和实施方式更加清楚,下面将结合本技术示例性实施例中的附图, 对本技术示例性实施方式进行清楚、完整地描述,显然,描述的示例性实施例仅是本申 请一部分实施例,而不是全部的实施例。
57.需要说明的是,本技术中对于术语的简要说明,仅是为了方便理解接下来描述的实 施方式,而不是意图限定本技术的实施方式。除非另有说明,这些术语应当按照其普通 和通常的含义理解。
58.本技术中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三
”ꢀ
等是用于区别类似或同类的对象或实体,而不必然意味着限定特定的顺序或先后次序, 除非另外注明。应该理解这样使用的用语在适当情况下可以互换。术语“包括”和“具 有”以及他们
观察,手动划定出一固定图像区域,使视频每帧图像中的人脸区域均被包含在此手动划 定的区域,将视频每帧图像中的此人工划定区域提取出来,产生新的仅包含人脸区域的 视频。自动裁剪是通过人脸检测算法,自动检测视频每一帧图像中的人脸区域,然后根 据所有帧图像的人脸检测区域,计算出一更大的图像区域,使得所有帧图像的人脸检测 区域均为此更大区域的子集,将视频每帧图像中的此更大区域提取出来,产生新的仅包 含人脸区域的视频。
67.进一步地,获取包含人脸区域的视频集合,人脸视频集合包括多个区域子集合;使 用人脸分割模型,对多个区域子集合逐帧进行分割,获得视频每帧图像不同区域的掩模。 不同区域子集合包括非人脸区域(背景、人体躯干部分等),不包含唇部的人脸区域,上 唇、下唇及双唇所包围的区域。将每个区域得到的视频每帧图像的分割结果使用不同的 数值进行对应标记。
68.在一些实施例中,s1还包括:对每帧分割结果进行人脸关键点检测,得到二维人脸 关键点;将二维人脸关键点与预设三维人脸模型进行关键点匹配,得到对应的三维人脸 关键点;根据二维人脸关键点和对应的三维人脸关键点确定关键点转换关系;根据关键 点转换关系获取当前图像的人脸姿态特征;将人脸姿态特征进行特征变换,得到对应的 摄像机姿态特征;摄像机姿态特征包括摄像机相对人脸的旋转矩阵和平移向量。
69.示例性的,获取视频每帧图像包括人脸区域子集合,可以理解的是,使用仅包含人 脸区域的视频。从视频每帧图像中检测二维人脸关键点,将二维人脸关键点匹配至一固 定的三维人脸模型的关键点,对应求解三维关键点和对应二维关键点的转换关系,估计 出当前视频帧图像中人脸相对摄像机的旋转矩阵和平移向量,用以获得当前视频帧图像 的人脸姿态特征。对视频中每一帧均计算出人脸姿态特征。记每帧人脸姿态特征的旋转 矩阵为平移向量为其中均为列向量。根据第一公式, 变换此人脸特征,获得摄像机相对人脸的姿态特征,获得的旋转矩阵为r
c
,平移向量为在视频拍摄过程中,摄像机姿态固定,人脸姿态是动态变化的。经过此变换后,人脸姿 态是固定的,相对地,摄像机姿态是动态变化的。即得到人脸区域视频中每帧图像的摄 像机姿态特征。
70.第一公式为:
[0071][0072]
其中,r
f
为人脸姿态特征的旋转矩阵;为人脸姿态特征的平移向量;r
c
为摄像机姿 态特征的旋转矩阵;为摄像机姿态特征的平移向量。
[0073]
在一些实施例中,s1还包括,像素位置特征由以下步骤得到:根据图像信息获取每 帧图像的图像尺寸,图像尺寸对应的图像包括多个像素,像素对应有原始像素位置特征; 将每个像素利用预设公式进行编码,得到每个像素对应编码后的像素位置特征;将编码 后的像素位置特征与原始像素位置特征进行拼接并更新所述原始像素位置特征,以获得 更新后的像素位置特征。
[0074]
示例性的,由于视频帧图像的尺寸是固定的且图像尺寸对应的图像包括多个像
素。 在给定射线采样深度的前提下,每帧图像的像素位置特征是固定的,每个像素的位置特 征包含像素所在的行、列及深度。使用预设公式,如正余弦周期函数对像素的位置特征 进行编码,将编码后的特征作为像素的位置特征。
[0075]
正余弦周期函数如下:
[0076]
γ(p)=(sin(20πp),cos(20πp),

,sin(2
l
‑1πp),cos(2
l
‑1πp));
[0077]
其中,p为像素各位置特征;l为特征编码组数;l取值为10。
[0078]
进一步地,对每一个像素的各个位置特征进行正余弦周期函数编码后,将编码后的 像素位置特征与原始的位置特征拼接,并更新原始像素位置特征,拼接后生成新的位置 特征,即作为最终输入至神经辐射场模型中的像素位置特征。需要说明的是,预设公式 还包括傅里叶编码或mip编码等,以对每一个像素的各个位置特征进行编码。
[0079]
s2,构建神经辐射场模型,神经辐射场模型用于生成渲染图像;根据每帧图像的人 脸姿态特征、像素位置特征和音频特征训练神经辐射场模型,以获取目标神经辐射场模 型。
[0080]
在一些实施例中,s2还包括,获取全部帧的平移向量,根据全部帧的平移向量计算 平移向量的均值及标准差;根据平移向量的均值及标准差对全部帧的平移向量进行标准 化处理,获得像素姿态特征。
[0081]
示例性的,上述提取出的视频每帧摄像机姿态特征包含摄像机相对人脸的旋转矩阵 和平移向量,记旋转矩阵为平移向量为其中均为列 向量。将旋转矩阵修改为使用所有视频帧的平移向量计算并记录平 移向量的均值及标准差,该均值及标准差用于后续模型推断过程。进一步地,使用计算 出的均值及标准差对所有视频帧的平移向量进行标准化,即标准化后的平移向量=(平移 向量

平移向量均值)/平移向量标准差。将处理后的每帧摄像机姿态特征映射到以视频帧 图像为范围的标准化设备坐标上。此步骤是计算在摄像机相对人脸方向上,以摄像机为 源点,以图像上每个像素为终点,摄像机相对像素点的姿态特征。即将此特征作为像素 姿态特征。
[0082]
同样地,对提取出音频的频域特征进行计算特征值的均值及标准差,记录此均值及 标准差用于后续模型的推断过程。同时,使用计算出的均值及标准差对音频的频域特征 进行标准化。即对音频特征进行预处理得到标准化后的频域特征。
[0083]
在一些实施例中,s2还包括,神经辐射场模型包括卷积网络编码器和卷积网络解码 器;卷积网络编码器包括卷积层、激活层、池化层和归一化层,卷积网络解码器包括卷 积层、激活层、归一化层、升采样层和反卷积层。
[0084]
示例性的,参见图2,卷积网络编码器的作用是将输入图像特征编码至隐层空间, 获得对输入特征的抽象表达。卷积网络编码器由卷积层、激活层、池化层、归一化层等 神经网络基本结构构成。卷积网络编码器结构可以为图像分类、分割、检测、超分辨率、 去噪等任务的卷积神经网络的编码器构成,也可使用基本结构自行设计编码器网络结构。
[0085]
卷积网络解码器的作用是将编码器获得的抽象表达映射至图像空间,获得在某一视 角下的图像中每个图像像素颜色值(图像rgb)及密度值。卷积网络解码器由卷积层、 激活层、归一化层、升采样层、反卷积层等神经网络基本结构构成。卷积网络解码器结 构可以
为图像分割、超分辨率、去噪等任务的卷积神经网络的解码器构成,也可使用基 本结构自行设计解码器网络结构。
[0086]
在一些实施例中,神经辐射场模型中的卷积网络编码器设置为e,卷积网络解码器设 置为d。将上述获得的像素位置特征f
p
、像素姿态特征f
c
和音频特征f
a
输入神经辐射场中, 通过神经辐射场模型输出为图像中每个图像像素颜色值(图像rgb)及密度值。
[0087]
示例性的,将上述图2的神经辐射场模型记为nerf1。
[0088]
在nerf1中,直接拼接像素位置特征f
p
、像素姿态特征f
c
和音频特征f
a
,将拼接后特征 输入卷积网络编码器e获得隐层特征,再输入卷积网络解码器为d获得输出,此过程可由 第二公式表达。
[0089]
第二公式为:
[0090]
nerf1(f
p
,f
c
,f
a
)=d(e(f
p
,f
c
,f
a
));
[0091]
需要说明的是,本技术提供的神经辐射场模型包括卷积网络编码器e和卷积网络解码 器d,并不指定某种特定的神经网络结构,可根据实际情况自行设计。例如,还可以包括 多模态注意力模块,将卷积网络编码器和卷积网络解码器与多模态注意力模块进行结合。 其中,多模态注意力模块包括特征编码器、特征注意力层和特征融合层等三部分。在本 申请中能达到功能的神经网络结构均可以用来构成特定模块。
[0092]
在一些实施例中,s2还包括,通过摄像机姿态特征确定摄像机姿态方向;对训练视 频中每帧图像在摄像机姿态方向上进行采样,得到多个采样点;根据像素姿态特征、像 素位置特征与音频特征得到多个采样点处的像素颜色值和像素密度值;将多个采样点处 的像素颜色值和像素密度值进行渲染,以获得渲染图像。
[0093]
示例性的,将上述计算得到的每帧图像的摄像机姿态确定为摄像机姿态方向,接着在 摄像机姿态方向上进行采样,得到多个采样点,将每帧图像的摄像机姿态方向设置为d。 各特征经过神经辐射场模型后,输出图像像素颜色值(图像rgb)结果记为c,图像像素 密度值结果记为σ。图像像素密度值σ可以理解为光线沿摄像机姿态方向,也就是在经过 当前像素时被物体像素终止的概率,即此像素的不透明度。此像素的颜色即为光线沿摄 像机姿态方向。经过所有像素颜色的累积,可由积分方式得到。进一步地,将沿摄像机 姿态方向的光线r记为r(t)=o td,其中o为光线原点,d为前述摄像机姿态方向,t为光 线上采样点,t
n
和t
f
分别表示光线穿过物体的距离摄像机的近端与远端边界。当以视频某 帧图像作为输入时,在当前摄像机姿态方向上,观察到的任意一个像素的颜色值可以使 用第三公式进行计算。
[0094]
第三公式为:
[0095][0096]
其中,t(t)为光线从t
n
到t这一段路径上的所有像素的累积密度值;t
n
为光线穿过物体 的距离摄像机的近端边界;t
f
为光线穿过物体的距离摄像机的远端边界;c(r(t))为光线r 上的采样点t处的图像像素颜色值;σ(r(t))为光线r上的采样点t处的密度值。
[0097]
进一步地,t(t)为光线从t
n
到t这一段路径上的所有像素的累积密度值,使用第四公式 计算。
[0098]
第四公式为:
[0099][0100]
其中,t为光线上采样点;t
n
为光线穿过物体的距离摄像机的近端边界;σ(r(s))为光 线r上的采样点s处的密度值。
[0101]
即上述各特征输入并经过神经辐射场模型后,通过第三公式和第四公式可以计算出 输出的图像像素颜色值结果c和图像像素密度值结果σ。
[0102]
进一步地,在实际应用中,由于图像由离散像素构成,需对连续点的图像渲染过程进 行离散处理,也就是采用离散近似的图像渲染方式。将摄像机姿态方向光线上需要积分 的区域分为n个区间,在每个区间中进行均匀随机采样。这样,在光线上既采样到离散点, 又保证了采样点的连续性,第i个采样点由第五公式进行计算。
[0103]
第五公式为:
[0104][0105]
进一步地,基于上述离散采样点,将第五公式中的积分进行形式简化得到求和形式第 六公式。
[0106]
第六公式为:
[0107][0108]
其中,i为第i个采样点,i的取值范围为[1,n];c
i
为在光线r下第i个采样点的图像 像素颜色值,即上述c(r(t),d)的离散表示;δ
i
=t
i 1

t
i
为邻近两采样点间的距离,t
i
为 离散形式的t(t),t
i
通过第七公式进行计算;σ
i
为在光线r下第i个采样点的密度值,即 上述σ(r(t))的离散表示。
[0109]
第七公式为:
[0110][0111]
其中,j为第j个采样点,j的范围为[1,i

1]。
[0112]
综上,将上述图像像素颜色值结果c和图像像素密度值结果σ用于进行离散空间下的 渲染,同时作为渲染过程的输入,经过第五公式、第六公式和第七公式,进行渲染过程 后输出图像渲染结果最终获得当前摄像机姿态下的渲染图像。
[0113]
在一些实施例中,s2还包括,将训练视频中每帧图像的像素位置特征、像素姿态特 征和音频特征作为条件信息,输入至神经辐射场模型中进行图像渲染生成渲染图像;根 据渲染图像与训练视频的原图像计算得到预设损失函数,预设损失函数用于反向传播并 训练神经辐射场模型,以生成目标神经辐射场模型。
[0114]
示例性的,将训练视频逐帧作为输入,根据按提取特征并进行处理后得到像素位置特 征f
p
、像素姿态特征f
c
和音频特征f
a
。将上述特征输入至神经辐射场模型中并进行图像渲 染处理获得渲染结果后,需计算渲染结果与原视频帧图像的差异。本技术中提供了多种 计算渲染结果与原视频帧图像差异的方法,也就是渲染结果与训练视频帧图像的差异。 多种方法包括l2距离、加权l2距离和感知损失函数。其中,l2距离的计算采用第八公 式获得,计算与所有像素的平均差异。
[0115]
第八公式为:
[0116][0117]
其中,为图像渲染结果,i为输入的原视频帧图像,h为输入的原视频帧图像的高 度,w为输入的原视频帧图像的宽度。
[0118]
进一步地,加权l2距离中的权重来自于输入的训练视频帧图像的分割结果。将上述 已分割出输入训练视频帧图像的不同区域,即非人脸区域(背景、人体躯干部分等)、不包 含唇部的人脸区域和上唇、下唇及双唇所包围的区域。对分割结果中的不同区域赋予不 同的数值,获得权重矩阵w
i
,数值越大的区域获得更高的l2距离权重,对l2距离损失 函数的贡献越大,加权l2距离的计算采用第九公式获得。
[0119]
第九公式为:
[0120][0121]
其中,为图像渲染结果,i为输入的原视频帧图像,h为输入的原视频帧图像的高 度,w为输入的原视频帧图像的宽度;i为第i行像素点,取值范围为[1,h];j为第j列 像素点,取值范围为[1,w]。
[0122]
需要说明的是,不能同时使用l2距离和加权l2距离,两者可根据实际情况任取其 一使用。无论使用何种l2距离,均不影响本技术整体流程的完整性,仅对最终的输出效 果存在影响。除使用l2距离或加权l2距离外,还可使用其他任何可以描述预测数值与 目标数值差异的可微的损失函数,如l1距离、感知损失函数、感知损失函数与l2距离 结合和感知损失函数与加权l2距离结合等。
[0123]
进一步地,计算出图像渲染结果与原始视频帧图像的损失函数后,进行反向传播过程。 根据计算出的损失函数,对神经辐射场模型中各组件的参数计算梯度,使用梯度下降方 法优化更新神经辐射场模型中各组件参数。神经辐射场模型训练过程包含若干轮次,每 个轮次均执行上述神经辐射场模型训练过程,直到达成训练终止条件,完成神经辐射场 模型的训练,即得到目标神经辐射场模型。
[0124]
综上,图3为神经辐射场模型训练过程的流程图。参见图3,通过提取训练视频中的 特征,将获取的上述音频特征、像素位置特征和像素姿态特征输入至神经辐射场模型中, 得到图像渲染过程后的渲染图像。将渲染图像与训练视频中的原图像进行差异计算,得 到损失函数。损失函数用于反向传播过程,通过多次对神经辐射场模型训练,优化模型 中的多个参数,以生成目标神经辐射场模型。
[0125]
s3,将输入地与目标视频同步的音频信息作为条件信息,使用目标神经辐射场模型 进行图像渲染,以生成当前视角及音频条件下的目标图像。
[0126]
示例性的,执行神经辐射场模型训练过程之后,接着进行神经辐射场模型的推断过 程,即实际使用过程。图4为神经辐射场模型推断过程的流程图,与图3所示的神经辐 射场模型训练过程相比,神经辐射场模型推断过程仅需要对输入的音频按上述音频特征 的提取及处理进行计算。
[0127]
进一步地,在神经辐射场模型训练过程中,像素位置特征仅与输入视频帧图像的尺 寸大小相关,与视频帧图像内容无关。则在固定输入视频帧图像尺寸大小的情况下,神 经辐射场模型推断过程使用的像素位置特征可以在神经辐射场模型训练过程中获取。
配置的其他程序步骤,这里不再赘述。服务器可以为云服务器,也可以为本地服务器。
[0161]
由以上技术方案可以看出,首先,本技术直接将音频特征作为条件信号作用于神经 辐射场模型中,无需其他任何中间模态的转换,如人脸表情,人脸关键点等,进一步提 高了语音到人脸形状映射的准确性。其次,本技术不需要大量成对的语音

视频数据集中 用于训练,只需要单个人三至五分钟的视频即可用于神经辐射场模型的训练。最后,基 于本技术提供的实时音频驱动人脸生成方法,通过使用包括编码器和解码器结构的卷积 神经网络作为神经辐射场模型,以及使用图像像素位置特征作为输入用于训练神经辐射 场。显著提升了音频驱动人脸生成过程的运算速度,达到实时语音驱动人脸视频的生成。
[0162]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以 通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解, 上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非 易失性存储介质(可以是cd

rom、u盘或移动硬盘等)中,包括若干指令用以使得一 台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例所 述的方法。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献