一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

表情特征参数处理方法、装置及电子设备与流程

2021-12-01 01:43:00 来源:中国专利 TAG:


1.本技术涉及图像处理领域,具体而言,涉及一种表情特征参数处理方法、装置及电子设备。


背景技术:

2.随着图像处理技术的不断发展,人脸3d模型生成技术被使用到的各种领域,例如,视频特效叠加、虚拟形象生成、数据分析等。为了使生成的3d人脸生动形象,在生成人脸3d模型时需要使用到多种不同的数据。以在生成人脸3d模型时较为常用的3d可变模型(3d morphable mode,3dmm)为例,在人脸重建的过程通常需要三种类型的特征参数,分别为:用于表征无表情状态下人脸轮廓3d形状的形状特征参数(又称形状系数)、用于表征人脸上色彩或阴影的颜色特征参数(又称颜色系数)、以及用于在重建的人脸模型上进行数据调整从而使模型具有不同表情的表情特征参数(又成表情系数)。
3.为了使生成的人脸模型更加逼真自然,以表情特征参数为例,可以通过对2d的图像进行识别分析,从而预测获得3d的表情特征系数。一些表情特征系数获取方式中,仅对单帧2d图像进行识别处理,从而获得单帧的表情特征系数识别结果,但可能存在识别错误率较高的问题;另一些表情特征系数提取方式中,采用了对多帧连续的2d图像进行特征提取及特征处理,联合得出单帧的识别结果,但处理计算量较大,处理效率不佳。


技术实现要素:

4.为了克服现有技术中的上述不足,本技术的目的在于提供一种表情特征参数处理方法,所述方法包括:
5.获取待识别视频中的第一图像帧,通过单帧识别模型对所述第一图像帧进行表情特征参数识别,获得目标单帧识别结果;
6.获取所述第一图像帧之前的多个第二图像帧的历史单帧识别结果;所述历史单帧识别结果包括对所述第二图像帧进行表情特征参数识别获得的表情特征参数;
7.将所述目标单帧识别结果及多个所述历史单帧识别结果输入的偏移量预测模型,获得与所述第一图像帧对应的识别偏移量;所述识别偏移量表征通过多个所述历史单帧识别结果的变化趋势预测出的表情特征参数与所述目标单帧识别结果之间的差异;
8.根据所述识别偏移量对所述目标单帧识别结果进行调整,获得调整后的表情特征参数。
9.在一种可能的实现方式中,所述单帧识别模型包括至少一个卷积单元及全连接单元;所述通过单帧识别模型对所述第一图像帧进行表情特征参数识别,获得目标单帧识别结果的步骤,包括:
10.通过所述至少一个卷积单元对所述第一图像帧进行处理,获得中间处理结果;
11.通过所述全连接单元对所述中间处理结果进行处理,获得所述目标单帧识别结果,所述目标单帧识别结果包括多个表征不同面部器官的状态的数据。
12.在一种可能的实现方式中,将所述目标单帧识别结果及多个所述历史单帧识别结果输入偏移量预测模型,获得与所述第一图像帧对应的识别偏移量的步骤,包括:
13.基于所述偏移量预测模型中预先训练获得的第一模型参数、第二模型参数和第三模型参数,通过注意力机制根据所述目标单帧识别结果及多个所述历史单帧识别结果计算获得所述识别偏移量;
14.其中,所述第一模型参数和所述第二模型参数用于计算所述目标单帧识别结果和多个所述历史单帧识别结果之间的关联度,所述第三模型参数用于计算多个所述历史单帧识别结果的变化趋势。
15.在一种可能的实现方式中,基于所述偏移量预测模型中预先训练获得的第一模型参数、第二模型参数和第三模型参数,通过注意力机制根据所述目标单帧识别结果及多个所述历史单帧识别结果计算获得所述识别偏移量的步骤,包括:
16.根据所述目标单帧识别结果及所述偏移量预测模型的第一模型参数确定注意力函数的第一计算向量;
17.根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第二模型参数确定注意力函数的第二计算向量;
18.根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第三模型参数确定注意力函数的第三计算向量;所述编码常量矩阵用于指示多个所述历史单帧识别结果的顺序;
19.通过自注意力函数根据所述第一计算向量、第二计算向量及第三计算向量,计算获得所述识别偏移量。
20.在一种可能的实现方式中,所述根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第二模型参数确定注意力函数的第二计算向量的步骤,包括:
21.将由多个所述历史单帧识别结果组成的历史识别结果矩阵与所述编码常量矩阵相加,获得识别结果调整矩阵,并将所述识别结果调整矩阵与所述第二模型参数相乘,获得所述第二计算向量;
22.所述根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第三模型参数确定注意力函数的第三计算向量的步骤,包括:
23.由将多个所述历史单帧识别结果组成的历史识别结果矩阵与所述编码常量矩阵相加,获得识别结果调整矩阵,并将所述识别结果调整矩阵与所述第三模型参数相乘,获得所述第三计算向量;
24.其中,所述编码常量矩阵中,时序上靠近所述第一图像帧的第二图像帧对应的数据项的值大于时序上远离所述第一图像帧的第二图像帧对应的数据项的值。
25.在一种可能的实现方式中,述方法还包括:
26.根据所述调整后的表情特征参数进行面部重建。
27.在一种可能的实现方式中,所述方法还包括:
28.获取训练视频数据中的第三图像帧,及与所述第三图像帧对应的表情特征参数标签;
29.将所述第三图像帧输入待训练的单帧识别模型,获得所述单帧识别模型输出的表
情特征参数预测结果;
30.根据所述表情特征参数预测结果及所述表情特征参数标签对所述单帧识别模型的模型参数进行调整。
31.在一种可能的实现方式中,所述方法还包括:
32.获取在所述训练视频数据中,位于所述第三图像帧之前的多个第四图像帧的历史单帧识别结果;
33.将多个所述第四图像帧的历史单帧识别结果输入待训练的偏移量预测模型,获得所述偏移量预测模型输出的预测偏移量;
34.根据所述第三图像帧的表情特征参数标签及表情特征参数预测结果计算获得实际偏移量;
35.根据所述实际偏移量及所述预测偏移量对所述偏移量预测模型的模型参数进行调整。
36.本技术的另个一目的在于提供一种表情特征参数处理装置,所述表情特征参数处理装置包括:
37.数据获取模块,用于获取待识别视频中的第一图像帧,及所述第一图像帧之前的多个第二图像帧的历史单帧识别结果;所述历史单帧识别结果包括对所述第二图像帧进行表情特征参数识别获得的表情特征参数;
38.单帧识别模块,用于通过单帧识别模型对所述第一图像帧进行表情特征参数识别,获得目标单帧识别结果;
39.偏移确定模块,用于将所述目标单帧识别结果及多个所述历史单帧识别结果输入基于自注意力机制的偏移量预测模型,获得与所述第一图像帧对应的识别偏移量;
40.结果调整模块,用于根据所述识别偏移量对所述目标单帧识别结果进行调整,获得调整后的表情特征参数。
41.本技术的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本技术提供的表情特征参数处理方法。
42.本技术的另一目的在于提供一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本技术提供的表情特征参数处理方法。
43.相对于现有技术而言,本技术具有以下有益效果:
44.本技术提供一种表情特征参数处理方法、装置及电子设备,通过根据第一图像帧之前的多个第二图像的历史单帧识别结果,确定出识别偏移量以对第一图像帧的目标单帧识别结果进行调整。如此,可以根据历史单帧识别结果纠正当前的目标单帧识别结果,抵消目标单帧识别结果中可能存在的数据突变错误,使调整后的表情特征参数更符合历史单帧识别结果的变化趋势,并且计算量相对较小,处理效率更高。
附图说明
45.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对
范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
46.图1为本技术实施例提供的直播系统的示意图;
47.图2为本技术实施例提供的表情特征处理方法的步骤流程示意图;
48.图3为本技术实施例提供的表情特征识别模型的示意图;
49.图4为本技术实施例提供的直播服务器的示意图;
50.图5为本技术实施例提供的表情特征处理装置的功能模块示意图。
具体实施方式
51.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
52.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
53.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
54.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
55.在本技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
56.本实施例提供一种表情特征参数识别模型,该表情特征参数识别模型可以应用于对2d视频图像进行识别处理,获得人脸表情特征参数。这些表情特征参数可以被用于结合至无表情的人脸3d模型,从而使所述人脸3d模型可以具有和2d视频图像中的人脸相似的表情。
57.例如,该表情特征参数识别模型100可以被适用于视频直播系统中,请参照图1,该视频直播系统可以包括直播服务器10、视频提供终端20和视频接收终端30,该视频直播系统可以是用于诸如互联网直播之类的服务平台。所述直播服务器10可以分别与所述视频提供终端20和所述视频接收终端30通信连接,用于为所述视频提供终端20和所述视频接收终端30提供直播服务,并可以为所述视频提供终端20和所述视频接收终端30提供直播过程中的相关产品直播服务,如游戏直播服务等。
58.在一些可能的实现方式中,所述视频提供终端20和所述视频接收终端30可以互换使用。例如,所述视频提供终端20的主播可以使用所述视频提供终端20来为观众提供直播视频服务,或者作为观众查看其它主播提供的直播视频。又例如,所述视频接收终端30的观
众也可以使用所述视频接收终端30观看所关注的主播提供的直播视频,或者作为主播为其它观众提供直播视频服务。
59.在本实施例中,所述视频提供终端20和视频接收终端30可以是,但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。在具体实施过程中,可能有零个、一个或多个视频提供终端20和视频接收终端30接入该直播服务器10,图1中仅示出一个。其中,视频提供终端20和视频接收终端30中可以安装用于提供互联网直播服务的程序产品,例如,程序产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序app、web网页、小程序等。
60.本实施例中,所述直播服务器10可以是单个物理服务器,也可以是一个由多个用于执行不同数据处理功能的物理服务器构成的设备集群。该设备集群可以是集中式的,也可以是分布式的(例如,直播服务器10可以是分布式系统)。在一些可能的实施方式中,如直播服务器10采用单个物理服务器,可以基于不同直播服务功能为该物理服务器分配不同的逻辑设备集群件。
61.可以理解,图1所示的直播服务器10仅为一种可行的示例,在其它可行的实施例中,该直播服务器10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
62.具体地,所述表情特征参数识别模型100可以被配置于所述直播服务器10中,该直播服务器10中还可以配置有人脸重建模型300。所述直播服务器10可以从所述视频提供终端20获得待处理的直播视频数据,并通过所述表情特征参数识别模型100对所述直播视频数据中人脸图像进行识别处理,获得表情特征参数。然后通过所述人脸重建模型300将所述表情特征参数与虚拟形象的人脸3d模型,或者根据所述表情特征参数进行人脸重建,获得处理后的直播视频数据。然后所述直播服务器10再将处理后的直播视频数据推送给各视频接收终端30。
63.下面结合图1所示的应用场景对本技术实施例提供的直播数据流交互方法进行示例性说明。首先,请参阅图2,本实施例提供的直播数据流交互方法可以由图1中的直播服务器10执行,应当理解,在其它实施例中,本实施例的直播数据流交互方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该直播服务器10执行的直播数据流交互方法的详细步骤介绍如下。
64.步骤s110,获取待识别视频中的第一图像帧,通过单帧识别模型对所述第一图像帧进行表情特征参数识别,获得目标单帧识别结果。
65.请参照图3,在本实施例中,所述表情特征参数识别模型100可以包括单帧识别模型和偏移量预测模型。在步骤s110中,可以通过所述单帧识别模型对所述第一图像帧进行表情特征参数识别,以获得所述目标单帧识别结果。
66.可选地,所述单帧识别模型可以包括至少一个卷积单元及全连接单元。在步骤s110中,通过所述至少一个卷积单元对所述第一图像帧进行处理,获得中间处理结果,然后通过所述全连接单元对所述中间处理结果进行处理,获得所述目标单帧识别结果。其中,所述卷积单元可以包括卷积层、归一化层、激活函数、池化层等网络层结构,不同的卷积单元所具有的网络层结果可以不同;全连接单元可以包括池化层、压平层、全连接层等。
67.示例性地,所述单帧识别模型可以类似resnet

50的模型结构,其中部分卷积单元
可以包括卷积层、归一化层、relu激活函数层及最大池化层,部分卷积单元可以包括卷积层、归一化层及relu激活函数层,全连接单元可以包括平均池化层、压平层及全连接层。
68.所述目标单帧识别结果可以包括多个表征不同人脸关键部位的活动程度的数据,所述目标单帧识别结果可以为一个多维向量,该多维向量的每个数据项可以用于表征一个人脸关键部位的活动程度。例如,目标单帧识别结果可以表示为(r1,r2,...,r
n
),其中,r1到r
n
可以分别表征嘴部中心开合程度、左眼中心开合程度、右眼中心开合程度等多个人脸关键部位的活动程度。相应地,所述历史单帧识别结果和所述目标单帧识别结果具有相同的数据结构。
69.步骤s120,获取所述第一图像帧之前的多个第二图像帧的历史单帧识别结果,所述历史单帧识别结果包括对所述第二图像帧进行表情特征参数识别获得的表情特征参数
70.在本实施例中,所述第一图像帧可以为所述待识别视频中当前需要进行识别处理的图像帧,所述多个第二图像帧可以为所述待识别视频中在时序上位于所述第一图像帧之前的多个图像帧。可选地,在本实施例中,所述多个第二图像帧可以为所述第一图像帧之前连续的多个图像帧。步骤s120中所述的历史单帧识别结果也是由所述单帧识别模型对各所述第二图像帧进行识别获得的结果。
71.步骤s130,将所述目标单帧识别结果及多个所述历史单帧识别结果输入偏移量预测模型,获得与所述第一图像帧对应的识别偏移量。其中,所述识别偏移量表征通过多个所述历史单帧识别结果的变化趋势预测出的表情特征参数与所述目标单帧识别结果之间的差异。
72.经发明人研究发现,在连续的视频数据中,人脸关键部位的活动程度通常不会在相邻的几个帧中产生突变,即使是视频数据中快速变化的表情也是由多个图像帧中的渐变效果组成的,在没有识别错误的情况下所述第一图像帧的目标单帧识别结果应当符合多个第二图像帧的历史单帧识别结果的变化趋势。
73.因此,在本实施例中,根据多个第二图像帧的历史单帧识别结果的变化趋势和所述第一图像帧的目标单帧识别结果计算得出识别偏移量,该识别偏移量可以用于表征通过多个所述第二图像帧的历史单帧识别结果预测出的趋势和所述第一图像帧实际的目标单帧识别结果之间的差异。
74.其中,所述识别偏移量可以为一个多维向量,所述识别偏移量的每一维数据为与所述目标单帧识别结果中相应维度的维数据对应的调整值。
75.步骤s140,根据所述识别偏移量对所述目标单帧识别结果进行调整,获得调整后的表情特征参数。
76.可以理解的是,如果在针对所述第一图像帧的识别过程中出现错误,可能导致所述目标单帧识别结果中的某些数据项相较于多个所述第二图像帧的历史单帧识别结果出现大幅度突变,进而会导致在步骤s130中得出的所述识别偏移量对应数据项的绝对值较大。因此,根据所述识别偏移量对所述目标单帧识别结果进行调整,可以抵消所述目标单帧识别结果中出现突变的错误数据,从而使所述目标单帧识别结果更符合多个所述历史单帧识别结果的变化趋势。
77.基于上述设计,在本实施例中,根据多个历史单帧识别结果中的数据依赖关系和变化趋势确定出识别偏移量,从而可以纠正目标单帧识别结果中出现的数据突变错误,从
提高整个模型输出结果的准确定。并且偏移量预测模型是对历史单帧识别结果和目标单帧识别结果进行过处理,而不是直接对图像数据进行处理,从而保证了数据处理的效率,更适用于视频直播等对处理时效要求较高的场景。
78.在本实施例中,在获得所述调整后的表情特征参数之后,可以根据所述调整后的表情特征参数进行面部重建。具体地,可以将所述调整后的表情特征参数与预先设定的没有表情的人脸3d模型向结合,从而对所述人脸3d模型上的人脸关键部位进行位置调整,从而使所述人脸3d模型具有相应的表情姿态。
79.在一些可能的实现方式中,在步骤s130中可以基于所述偏移量预测模型中预先训练获得的第一模型参数、第二模型参数和第三模型参数,通过注意力机制根据所述目标单帧识别结果及多个所述历史单帧识别结果计算获得所述识别偏移量。
80.所述第一模型参数和所述第二模型参数用于计算所述目标单帧识别结果和多个所述历史单帧识别结果之间的关联度,所述第三模型参数用于计算多个所述历史单帧识别结果的变化趋势。
81.例如,所述第一模型参数可以用于结合所述目标单帧识别结果计算注意力机制中所需的q(query)向量,所述第二模型参数可以用于结合所述历史单帧识别结果计算注意力机制中所需的k(key)向量,所述第三模型参数可以用于结合所述历史单帧识别结果计算注意力机制中所需的v(value)向量。然后通过注意力机制根据q向量、k向量和v向量计算获得所述识别偏移量。
82.具体地,步骤s130可以包括以下子步骤。
83.步骤s131,根据所述目标单帧识别结果及所述偏移量预测模型的第一模型参数确定注意力函数的第一计算向量。在该步骤中,所述第一计算向量可以为自注意力机制计算中需要使用的q(query)向量。
84.步骤s132,根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第二模型参数确定注意力函数的第二计算向量。所述编码常量矩阵用于指示多个所述历史单帧识别结果的顺序。
85.在该步骤中,所述第二计算向量可以为自注意力机制计算中需要使用的k(key)向量。具体地,可以将由多个所述历史单帧识别结果组成的历史识别结果矩阵与所述编码常量矩阵相加,获得识别结果调整矩阵,并将所述识别结果调整矩阵与所述第二模型参数相乘,获得所述第二计算向量。步骤s133,根据多个所述历史单帧识别结果、预设的编码常量矩阵及所述偏移量预测模型的第三模型参数确定注意力函数的第三计算向量。
86.在该步骤中,所述第三计算向量可以为自注意力机制计算中需要使用的v(value)向量。所述第三计算向量可以和所述第二计算向量相同。具体地,可以由将多个所述历史单帧识别结果组成的历史识别结果矩阵与所述编码常量矩阵相加,获得识别结果调整矩阵,并将所述识别结果调整矩阵与所述第三模型参数相乘,获得所述第三计算向量。
87.步骤s134,通过自注意力函数根据所述第一计算向量、第二计算向量及第三计算向量,计算获得所述识别偏移量。
88.具体地,在本实施例中,记与所述目标单帧识别结果对应的向量为pred∈r
n
,n为向量维度。则所述第一计算向量q、第二计算向量k及第三计算向量w的计算方式如下:
89.q=pred
i
w
q
,k=(input
i
pos)w
k
,v=(input
i
pos)w
v
90.w
q
∈r
1*n
,w
k
∈r
n*m
,w
v
∈r
n*m
91.q∈r
1*n
,k∈r
n*m
,v∈r
n*m
92.其中,pred
i
为第i个第一图像帧的所述目标单帧识别结果,w
q
为所述偏移量预测模型的第一模型参数,input
i
为m个历史单帧识别结果组成的历史识别结果矩阵,pos为所述编码常量矩阵,input
i
pos为所述识别结果调整矩阵;s
k
为所述偏移量预测模型的第二模型参数,w
v
为所述偏移量预测模型的第二模型参数;pos为所述编码常量矩阵,
93.所述识别偏移量attention的计算方式如下:
[0094][0095]
其中,t为矩阵转置标识。
[0096]
在本实施例中,所述编码常量矩阵中,时序上靠近所述第一图像帧的第二图像帧对应的数据项的值大于时序上远离所述第一图像帧的第二图像帧对应的数据项的值。
[0097]
例如,所述第一图像帧为第i个图像帧,参与计算的第二图像帧一共5个,上述编码常量矩阵中第一行对应于所述第一图像帧之前的第5个第二图像帧(即第i

5帧),所述编码常量矩阵pos表达式可以如下,
[0098][0099]
该编码常量矩阵中最后一行对应于所述第一图像帧之前的第一个第二图像帧(即第i

1帧),该编码常量矩阵中各数据项的数值从最后一行向第一行依次增大。如此,在将所述编码常量矩阵与所述历史识别矩阵相加后,可以使距离所述第一图像帧更近的第二图像帧对应的数据更大,从而提高了距离所述第一图像帧更近的第二图像帧的输出结果的影响程度,使获得的所述识别结果调整矩阵中的数据项具有时序性。
[0100]
另外,本实施例提供的方法可以包括以下对所述单帧识别模型的训练步骤。
[0101]
步骤s201,获取训练视频数据中的第三图像帧,及与所述第三图像帧对应的表情特征参数标签。
[0102]
在本实施例中,所述训练视频数据中可以包括多个图像帧,每个图像帧可以预先标注有对应的表情特征参数标签。所述表情特征参数标签可以为一个多维向量,所述表情特征参数标签可以具有和所述目标单帧识别结果相同的数据结构。
[0103]
步骤s202,将所述第三图像帧输入待训练的单帧识别模型,获得所述单帧识别模型输出的表情特征参数预测结果。
[0104]
步骤s203,根据所述表情特征参数预测结果及所述表情特征参数标签对所述单帧识别模型的模型参数进行调整。
[0105]
在本实施例中,针对每个所述第三图像帧,可以计算表征所述表情特征参数预测结果及所述表情特征参数标签之间的数据差异的损失值,并以减小所述损失值为目的进行多次迭代,调整所述损失值调整所述单帧识别模型中各卷积单元和所述全连接单元的模型参数。在所述表情特征参数预测结果及所述表情特征参数标签之间的数据差异在预设范围内,或者数据差异不再减少,或迭代次数达到设定次数时,可以认为所述单帧识别模型训练
已完成。
[0106]
另外,本实施例提供的方法可以包括以下对所述偏移量预测模型的训练步骤。
[0107]
步骤s301,获取在所述训练视频数据中,位于所述第三图像帧之前的多个第四图像帧的历史单帧识别结果。
[0108]
步骤s302,将多个所述第四图像帧的历史单帧识别结果输入待训练的偏移量预测模型,获得所述偏移量预测模型输出的预测偏移量。
[0109]
步骤s303,根据所述第三图像帧的表情特征参数标签及表情特征参数预测结果计算获得实际偏移量。
[0110]
步骤s304,根据所述实际偏移量及所述预测偏移量对所述偏移量预测模型的模型参数进行调整。
[0111]
具体地,在本实施例中,可以将所述训练视频数据中的第i帧作为所述第三图像帧,将i

1到i

m帧作为所述第四图像帧。获得所述第三图像帧的表情特征参数预测结果pred
i
,以及m个所述第四图像帧的历史单帧识别结果input
i
={pred
i

m
,...,pred
i
‑1}。然后,计算所述实际偏移量delta
i
=exp
i

pred
i
。将第三图像帧的表情特征参数预测结果和m个所述第四图像帧的历史单帧识别结果输入待训练的偏移量预测模型后,获得所述预测偏移量。然后计算所述实际偏移量及所述预测偏移量之间的数据差异,在根据得出的数据差异调整所述偏移量预测模型中的所述第一模型参数w
q
、第二模型参数w
k
及第三模型参数w
v

[0112]
基于相同的发明构思,本实施例还提供一种图1所示的直播服务器10,请参照图4,图4所述直播服务器10的方框示意图。所述直播服务器10包括表情特征参数处理装置110、机器可读存储介质120及处理器130。
[0113]
所述机器可读存储介质120、处理器130相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述表情特征参数处理装置110包括多个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述直播服务器10的操作系统(operating system,os)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述表情特征参数处理装置110所包括的软件功能模块及计算机程序等。
[0114]
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read

only memory,prom),可擦除只读存储器(erasable programmable read

only memory,eprom),电可擦除只读存储器(electric erasable programmable read

only memory,eeprom)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
[0115]
所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器130可以是通用处理器130,包括中央处理器130(central processing unit,简称cpu)、网络处理器130(network processor,简称np)等;还可以是数字信号处理器130(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器130可以是微处理器130或者该处理器130也可以是任何常规的处理器130
等。
[0116]
请参照图5,本实施例还提供一种表情特征参数处理装置110,表情特征参数处理装置110包括多个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,表情特征参数处理装置110可以包括数据获取模块111、单帧识别模块112、偏移确定模块113及结果调整模块114。
[0117]
所述数据获取模块111用于获取待识别视频中的第一图像帧,及所述第一图像帧之前的多个第二图像帧的历史单帧识别结果;所述历史单帧识别结果包括对所述第二图像帧进行表情特征参数识别获得的表情特征参数;
[0118]
本实施例中,所述数据获取模块111可用于执行图2所示的步骤s110,关于所述数据获取模块111的具体描述可参对所述步骤s110的描述。
[0119]
所述单帧识别模块112用于通过单帧识别模型对所述第一图像帧进行表情特征参数识别,获得目标单帧识别结果;
[0120]
本实施例中,所述单帧识别模块112可用于执行图2所示的步骤s120,关于所述单帧识别模块112的具体描述可参对所述步骤s120的描述。
[0121]
所述偏移确定模块113用于将所述目标单帧识别结果及多个所述历史单帧识别结果输入基于自注意力机制的偏移量预测模型,获得与所述第一图像帧对应的识别偏移量;
[0122]
本实施例中,所述偏移确定模块113可用于执行图2所示的步骤s130,关于所述偏移确定模块113的具体描述可参对所述步骤s130的描述。
[0123]
所述结果调整模块114用于根据所述识别偏移量对所述目标单帧识别结果进行调整,获得调整后的表情特征参数。
[0124]
本实施例中,所述结果调整模块114可用于执行图2所示的步骤s140,关于所述结果调整模块114的具体描述可参对所述步骤s140的描述。
[0125]
综上所述,本技术提供一种表情特征参数处理方法、装置及电子设备,通过根据第一图像帧之前的多个第二图像的历史单帧识别结果,确定出识别偏移量以对第一图像帧的目标单帧识别结果进行调整。如此,可以根据历史单帧识别结果纠正当前的目标单帧识别结果,抵消目标单帧识别结果中可能存在的数据突变错误,使调整后的表情特征参数更符合历史单帧识别结果的变化趋势,并且计算量相对较小,处理效率更高。
[0126]
在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0127]
另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0128]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0129]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0130]
以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献