视频识别检测模型生成方法、装置及计算机设备与流程

2022-12-02 18:53:25 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，尤其涉及的是一种视频识别检测模型生成方法、装置及计算机设备。

背景技术：

2.人脸关键点检测(又称人脸对齐)是计算机视觉领域研究的活跃分支。人脸关键点检测是人脸识别和分析领域中的关键一步，它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。近些年来，深度学习方法由于其自动学习及持续学习能力，已被成功应用到了图像识别与分析、语音识别和自然语言处理等很多领域，且在这些方面都带来了很显著的改善。基于深度学习的视频识别检测网络在静态图片上实现了出色的性能。但是，基于深度学习的视频识别检测网络在应用于视频或连续图像时，由于预测图像抖动的影响，其视频识别检测精度和稳定性会大大降低。
3.因此，现有技术还有待改进和发展。

技术实现要素：

4.针对现有技术的上述缺陷，本发明实施例提供一种视频识别检测模型生成方法、装置及计算机设备，旨在解决现有技术中基于深度学习的视频识别检测网络在应用于视频或连续图像时，由于预测图像抖动的影响，其视频识别检测精度和稳定性会大大降低的问题。
5.本发明解决问题所采用的技术方案如下：
6.第一方面，本发明实施例提供一种视频识别检测模型生成方法，包括：
7.将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；
8.根据预测热力图和真实标签，确定抖动损失函数；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；
9.根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。
10.第二方面，本发明实施例还提供一种视频识别检测方法，包括：
11.获取待处理的帧图像序列；
12.将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图。
13.第三方面，本发明实施例提供了一种视频识别检测模型生成装置，包括：
14.预测热力图获取模块，用于将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；其中，帧图像序列是通过对训练数据中的帧图像进行
预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；
15.抖动损失函数确定模块，用于根据预测热力图和真实标签，确定抖动损失函数；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；
16.视频识别检测模型获取模块，用于根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。
17.第四方面，本发明实施例还提供一种视频识别检测装置，包括：
18.帧图像序列获取模块，用于获取待处理的帧图像序列；
19.目标热力图获取模块，用于将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图。
20.第五方面，本发明实施例提供了一种计算机设备，计算机设备包括存储器、处理器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任意一项的视频识别检测模型生成方法的步骤。
21.第六方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述中任意一项的视频识别检测模型生成方法的步骤。
22.本发明的有益效果：首先将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图，只需对第一网络模型花费很少的精力训练就可以大幅度提高热力图精度，其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；然后根据预测热力图和真实标签，确定抖动损失函数，得到的抖动损失函数为后续消除预测帧图像的抖动影响做准备；最后根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。通过本方法得到的视频识别检测模型，可以通过简单的训练提高识别检测的精度，通过抖动损失函数可以消除预测帧图像的抖动影响，使得视频识别检测任务的精度和稳定性得到提高。
附图说明
23.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
24.图1为本发明实施例提供的视频识别检测模型生成方法流程示意图。
25.图2为本发明实施例提供的第一网络结构图。
26.图3为本发明实施例提供的视频识别检测方法的流程示意图。
27.图4为本发明实施例提供的视频识别检测模型生成装置的功能模块示意图；
28.图5为本发明实施例提供的视频识别检测装置的功能模块示意图；
29.图6为本发明实施例提供的计算机设备的内部结构原理框图。
具体实施方式
30.本发明公开了视频识别检测模型生成方法和计算机设备，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
31.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
32.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
33.由于现有技术中，基于深度学习的视频识别检测网络在应用于视频或连续图像时，由于预测图像抖动的影响，其视频识别检测精度和稳定性会大大降低。
34.举例说明
35.静态图片识别技术已经非常成熟，但是对视频进行识别检测存在精度和稳定性不高的稳定，而基于视频的检测器容易受到时间跟踪器漂移的影响，如果时间跟踪器对当前帧跟踪错误，就会影响后续的视频帧识别检测，要解决这两个问题，需要消除预测帧图像的抖动影响，因此，本发明实施例提供了一种视频识别检测模型生成方法：先将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；只需对第一网络模型花费很少的精力训练就可以大幅度提高热力图精度，其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；然后根据预测热力图和真实标签，确定抖动损失函数，得到的抖动损失函数为后续消除预测帧图像的抖动影响做准备；最后根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型，该视频识别检测模型通过简单的训练提高识别检测的精度，通过抖动损失函数可以消除预测帧图像的抖动影响，使得视频识别检测任务的精度和稳定性得到提高。
36.示例性方法
37.本实施例提供视频识别检测模型生成方法，该方法可以应用于视频图像处理的计算机设备。具体如图1所示，方法包括：
38.步骤s100、将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；
39.具体地，要实现视频识别检测任务，需要对视频进行处理，而对于处理的视频而
言，视频是一系列的帧图像，因此在训练的过程中，对预设的第一网络模型进行训练时，需要输入视频流，也即帧图像序列。实际中，可以对原始的帧图像进行处理，以得到帧图像序列，处理方法可以是对原始的帧图像的像素进行移动，也可以基于深度学习的方法对帧图像进行处理。在本实施例中，通过对训练数据中的帧图像进行预处理得到。对于一个模型而言，都会对其进行训练，训练时会涉及训练数据，在本实施例中，训练数据包括帧图像和真实标签，真实标签指的是将一个已知的输入数据输入一个网络模型进行处理后，期望得到的期望目标，在本实施例中，真实标签表示帧图像对应的真实热力图。将帧图像序列输入至第一模型，模型是会有一个输出的，也即帧图像序列对应的预测热力图。
40.在本发明实施例的一种实现方式中，将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图之前，方法还包括如下步骤：
41.根据训练数据中的帧图像，得到帧图像像素和训练数据中的帧图像中的关键点像素；
42.将帧图像像素和关键点像素均按照预设的偏移量在水平方向或者垂直方向进行移动，得到训练数据中的帧图像对应的帧图像序列。
43.具体地，在将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图之前，当对视频中的每帧图像进行识别检测时，可以得到帧图像像素，也即每帧图像的像素信息，通过每帧图像识别出帧图像中的关键点，关键点也包含像素信息，也即可以得到关键点像素，最后可以将帧图像的像素和关键点像素均按照预设的偏移量在水平方向或者垂直方向进行移动，得到帧图像对应的帧图像序列。实际中，帧图像的像素在水平方向或者垂直方向移动的偏移量可以和关键点像素在在水平方向或者垂直方向移动的偏移量相同，也可以不同。帧图像对应的帧图像序列可以通过帧图像的像素和关键点像素在水平方向移动得到，也可以通过帧图像的像素和关键点像素在垂直方向移动得到，也可以通过帧图像的像素和关键点像素在水平方向和垂直方向同时移动得到。
44.在本发明实施例的一种实现方式中，第一网络模型包括预训练骨干网络和长短期记忆网络；将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图，包括：
45.步骤s101、将帧图像序列输入至预训练骨干网络进行处理，输出初始预测热力图；
46.具体地，如图2所示，预训练骨干网络可以由支持热图回归的任何兼容网络替换，例如hrnet和hourglass等。该预设的预训练骨干网络是训练好的网络，器作用是作为特征提取器提取帧图像的特征图。将帧图像序列i
t
输入至预设的预训练骨干网络，就可以得到不稳定的预测热力图o
t
，由于预设的预训练骨干网络是训练好的网络，不需要进行大量的训练，只需要对预设的预训练骨干网络进行微调，得到初始热力图o
t
，初始热力图o
t
是不稳定的，是为后面网络进一步提取热力图做准备的，可以大幅提高对帧图像的识别检测精度。
47.步骤s102、将初始预测热力图输入至长短期记忆网络进行处理，输出帧图像序列对应的预测热力图。
48.具体地，得到初始预测热力图o
t
后，将初始预测热力图o
t
输入至预设的卷积化的长短期记忆网络，得到预测热力图。卷积化的长短期记忆网络是将该网络中神经元一个将s型激活应用于其输入线性组合的单位，被存储单元所代替。每个存储单元是与一个输入门，一个输出门和一个跨越时间步骤无干扰送入自身的内部状态相关联，这样卷积化的长短期记
忆网络不仅可以得到帧图像的空间语义信息，还可以得到帧图像的时间语义信息。当预设的卷积化的长短期记忆网络训练好以后，将初始预测热力图o
t
输入该卷积化的长短期记忆网络，得到的预测热力图u
t
是稳定热力图。
49.得到预测热力图u
t
后，就可以执行如图1所示的如下步骤：步骤s200、根据预测热力图和真实标签，确定抖动损失函数；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；
50.具体地，由于现有的用于热图回归的损失函数需要计算预测值与真实值之间的像素级误差，该指标在静态图像上效果很好。然而，作为衡量单帧图像像素误差的损失函数不能充分地抑制预测帧图像的关键点在目标点附近抖动的负面影响，导致通过这种损失函数训练的基于视频识别检测模型的预测通常会出现明显的抖动。为此，本发明实施例提出了一种抖动损失函数，抖动损失函数用于消除相邻帧图像之间的抖动效应，抖动损失函数可以根据预测热力图和真实标签的差值关系计算得到。相应的，根据预测热力图和真实标签，确定抖动损失函数包括如下步骤：
51.s201、根据当前帧的预测热力图和真实标签，确定第一差值；
52.具体地，将当前帧的预测热力图u
t
减去当前帧的真实标签就可以得到当前帧的预测热力图和当前帧的真实标签的当前帧的预测帧图像差值，也即第一差值，例如：
53.s202、根据第一差值、预测热力图和真实标签，确定调制函数；
54.在本实施例中，步骤s202包括如下步骤：
55.根据前一帧的预测热力图和真实标签，确定第二差值；
56.根据第一差值和第二差值，确定相邻帧预测值误差；
57.根据当前帧的真实标签和前一帧的真实标签，确定相邻帧真实值偏差；
58.根据相邻帧预测值误差和相邻帧真实值偏差，确定调制函数。
59.具体地，将前一帧的预测热力图u
t-1
减去前一帧的真实标签就可以得到第二差值，例如：再将第一差值减去第二差值，得到相邻帧预测值误差，例如：e
t-e
t-1
，这样，当两个相邻帧的预测值之间的不一致大于某个阈值时，就会发生抖动现象。将当前帧的真实标签减去前一帧的真实标签得到相邻帧真实值偏差，例如：得到相邻帧真实值偏差，例如：最后，根据相邻帧预测值误差和相邻帧真实值偏差，得到调制函数，例如调制函数，调制函数的上限是权重阈值w，是一个较大且固定的权重阈值w，目的是增强抖动损失，以使得真实值偏差尽快收敛，权重阈值w可以设置为5，以避免梯度爆炸，调制函数分母包括正则化参数ξ以避免训练期间出现奇异值。
60.s203、根据第一差值，确定像素损失函数；
61.在本实施例中，步骤s203具体包括如下步骤：计算第一差值的平方，得到差值平方值；将差值平方值加上预设的抖动阈值，得到求和平方值；将差值平方值除以求和平方值，得到像素损失函数。
62.具体地，像素损失函数的选择是非常重要的。由于本发明的网络已
经预先假设一个训练好的预训练骨干网络，因此，预训练骨干网络需要微调而不是从头开始训练。第一网络着重于训练预设的卷积化的长短期记忆网络来解决视频帧图像的识别检测抖动问题，同时确定预训练骨干网络的权重。本发明不选择l2和平滑的l1损失函数，因为它们在原点附近的梯度很小。而wing和l1损失函数虽然减轻了小梯度问题，但它们在原点上引起不连续性，从而增加了预训练骨干网络的难度。awing损失函数是wing损失函数的一种改进，可以处理较小的误差，同时确保连续的坡度；但是，awing损失函数是为处理异常值而设计的，并不是处理抖动的，为此，本发明提出了抖动损失函数，为了得到抖动损失函数，先要得到像素损失函数。实际中，将第一差值进行平方，得到差值平方值；然后将差值平方至加上预设的抖动阈值θ，得到求和平方值；将差值平方值除以求和平方值，得到像素损失函数；例如，得到像素损失函数为，当增大到θ/2，像素损失函数梯度会达到极值，然后逐渐减小到零，这样使得优化器处理异常值具有相当强的鲁棒性，从而能很好的处理视频帧图像中有抖动的关键点引起的小误差。
63.s204、根据像素损失函数和调制函数，确定抖动损失函数。
64.在本实施例中，步骤s204包括如下步骤：计算像素损失函数与调制函数的乘积，得到抖动损失函数。
65.具体地，将像素损失函数乘以调制函数，就可以得到抖动损失函数，例如：，其中u
t
和分别是第t帧的预测值和真实值。抖动损失函数不仅要考虑每个帧的预测误差，还要考虑相邻帧的抖动效应。抖动损失线性依赖于经过c
t-1，t
标准化后的e
t-e
t-1
，同时也受到权重阈值w的约束。
66.得到抖动损失函数后，接下来可以执行如图1中如下步骤：步骤s300、根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。
67.在本实施例中，得到抖动损失函数后，就可以根据抖动损失函数来调整第一网络模型的参数，例如，当抖动损失函数很大时，说明网络模型离训练好的目标还有很大的距离，此时需要将第一网络模型的参数如权重调整到一个较大的值来尽快收敛抖动损失函数；当抖动损失函数很小时，说明网络模型离训练好的目标已经很近了，此时只需要将第一网络模型中的参数如权重进行微调就可以收敛抖动损失函数。抖动损失函数调整第一网络模型的参数的同时，要继续将帧图像序列输入至第一网络模型中，对其他的帧图像序列进行训练，以便第一网络模型得到帧图像序列完整的语义信息，从而得到已训练好的视频识别检测模型。当第一网络模型训练结束以后，预训练骨干网络和卷积化的长短期记忆网络同时也就训练好了。
68.在本实施例的一种实现方式中，初始热力图o
t
和预测热力图都是概率图，描述的是帧图像中关键点出现在图像中相应位置的概率，预测的关键点通常位于热力图的中心。现有技术中通过选择最大点(例如argmax方法，插值法)获得关键点，但是，argmax方法无法实现子像素精度，插值法可以很好的处理静态图像，但是在处理视频帧图像时会被随机噪声和运动模糊所遮盖，因为，插值法对于背景像素的小误差十分敏感，增加了估算热力图中心的难度。因此，本发明实施例提出了概率密度中心化(pdc)算法来计算初始热力图o
t
和预测热力图u
t
的中心，pdc算法使用热力图的全局信息来文档预测结果，此外，本发明滤除了
一些低于预设阈值的关键点的像素值，以消除背景像素因抖动产生的小误差干扰，并通过对热力图中每个像素的概率密度进行积分运算得到热力图的中心也即结果质心。
69.在本实施例的另一种实现方式中，在对预训练骨干网络进行微调的过程中，使用adam优化器，其初始学习率为1e-4
或1e-5
。
70.如图3中所示，本发明实施例提供一种视频识别检测方法，该方法包括：
71.a100、获取待处理的帧图像序列；
72.具体地，可以从网络或者数据中心采集帧图像序列，其中该帧图像序列也可以为视频流，其中，帧图像序列包括若干帧图像；
73.a200、将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图。
74.具体地，视频识别检测模型包括预训练骨干网络和卷积化的长短期记忆网络，将待处理的帧图像序列先输入至训练好的预训练骨干网络，得到不稳定的初始预测热力图，此时，因为对帧图像先提取了一次特征，能提高对后续热力图处理的质量，然后将该初始预测热力图输入至训练好的卷积化的长短期记忆网络，由于视频识别检测模型中的卷积化的长短期记忆网络能消除视频流中帧图像的抖动影响，故能得到稳定的热力图。
75.如图4中所示，本发明实施例提供了一种视频识别检测模型生成装置，包括预测热力图获取模块401，抖动损失函数确定模块402和视频识别检测模型获取模块403，其中：
76.预测热力图获取模块401，用于将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；
77.抖动损失函数确定模块402，用于根据预测热力图和真实标签，确定抖动损失函数；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；
78.视频识别检测模型获取模块403，用于根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。
79.在本实施例中，通过预测热力图获取模块401将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；只需对第一网络模型花费很少的精力训练就可以大幅度提高热力图精度，其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；然后通过抖动损失函数确定模块402根据预测热力图和真实标签，确定抖动损失函数；得到的抖动损失函数为后续消除预测帧图像的抖动影响做准备；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；最后通过视频识别检测模型获取模块403，根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。通过本方法得到的视频识别检测模型，可以通过简单的训练提高识别检测的精度，通过抖动损失函数可以消除预测帧图像的抖动影响，使得视频识别检测任务的精度和稳定性得到提高。
80.如图5中所示，本发明实施例提供一种视频识别检测装置，该装置包括帧图像序列获取模块501和目标热力图获取模块502，其中：
81.帧图像序列获取模块501，用于获取待处理的帧图像序列；
82.目标热力图获取模块502，用于将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图。
83.在本实施例中，通过帧图像序列获取模块501获取待处理的帧图像序列，此时，因为对帧图像先提取了一次特征，能提高对后续热力图处理的质量，通过目标热力图获取模块502将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图，由于视频识别检测模型中的卷积化的长短期记忆网络能消除视频流中帧图像的抖动影响，故通过已训练的视频识别检测模型对待处理的帧图像序列进行处理能得到稳定的热力图。
84.基于上述实施例，本发明还提供了一种计算机设备，其原理框图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频识别检测模型生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的温度传感器是预先在计算机设备内部设置，用于检测内部设备的运行温度。
85.本领域技术人员可以理解，图6中的原理图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
86.在一个实施例中，提供了一种计算机设备，计算机设备包括存储器、处理器以及存储于存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时进行以下操作的指令：
87.将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图；其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；
88.根据预测热力图和真实标签，确定抖动损失函数；其中，抖动损失函数用于消除相邻帧图像之间的抖动效应；
89.根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。
90.或
91.获取待处理的帧图像序列；
92.将待处理的帧图像序列输入至已训练的视频识别检测模型进行处理，输出目标热力图。
93.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、
电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
94.综上，本发明公开了一种视频识别检测模型生成方法、装置及计算机设备，方法包括：首先将帧图像序列输入至预设的第一网络模型进行处理，输出帧图像序列对应的预测热力图，只需对第一网络模型花费很少的精力训练就可以大幅度提高热力图精度，其中，帧图像序列是通过对训练数据中的帧图像进行预处理所得到的，训练数据还包括真实标签，真实标签表示帧图像对应的真实热力图；然后根据预测热力图和真实标签，确定抖动损失函数，得到的抖动损失函数为后续消除预测帧图像的抖动影响做准备；最后根据抖动损失函数调整预设的第一网络模型的参数，并继续执行将帧图像序列输入至预设的第一网络模型进行处理的步骤，直至满足预设的训练条件，得到已训练的视频识别检测模型。通过本方法得到的视频识别检测模型，可以通过简单的训练提高识别检测的精度，通过抖动损失函数可以消除预测帧图像的抖动影响，使得视频识别检测任务的精度和稳定性得到提高。
95.基于上述实施例，本发明公开了一种视频识别检测模型生成方法，应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

视频识别检测模型生成方法、装置及计算机设备与流程

相关文献

最热文献