视频帧优化模型的训练方法、装置和计算机设备与流程

2022-02-20 04:35:39 来源：中国专利 TAG：

1.本技术涉及计算机视觉技术领域，特别是涉及一种视频帧优化模型的训练方法、装置和计算机设备。

背景技术：

2.超分辨率重建技术常常在影像采集设备或者环境受限导致图像视频质量差、分辨率不高时使用。在计算机视觉领域，超分辨率重建技术主要被应用在图像上，相关技术中通过重建模型提升低分辨率的图像或者视频的分辨率。具体地，重建模型的训练过程可以是对输入的低分辨率视频帧进行去噪等预处理，然后对低分辨率视频帧进行特征提取，然后对特征做非线性映射，得到高分辨率特征图序列，最后将高分辨率特征图恢复为高分辨率视频/帧。
3.但是，上述训练过程中涉及到多种深度学习技术中的多种网络结构、损失函数、模型的训练以及验证过程，因此，相关技术中的重建模型的训练过程中需要的计算量较大，对于会议软件终端来说，算力要求过高，配置要求过高，难以实现。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种能够降低模型训练过程中的算力消耗以及提高模型训练的精度的视频帧优化模型的训练方法、装置和计算机设备。
5.一种视频帧优化模型的训练方法，所述方法包括：
6.获取训练数据，所述训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，所述第一分辨率小于所述第二分辨率；
7.针对所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的特征以及所述视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到所述视频帧对应的目标加权特征；
8.根据所述视频帧以及所述视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；
9.根据所述第二样本视频帧流以及所述各所述预测视频帧流，计算得到训练损失函数；
10.根据所述训练损失函数更新所述待训练的视频帧优化模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
11.在其中一个实施例中，所述根据所述视频帧以及所述视频帧对应的目标加权特征，确定第二分辨率的预测视频帧，包括：
12.对所述视频帧进行卷积计算，得到第二分辨率的初始预测视频帧；
13.对所述视频帧对应的目标加权特征进行卷积计算，得到所述视频帧的残差；
14.将所述残差与所述第二分辨率的初始预测视频帧进行叠加，得到所述第二分辨率
的预测视频帧。
15.在其中一个实施例中，所述特征提取模块包括n个特征提取子模块；
16.所述针对所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的特征以及所述视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到所述视频帧对应的目标加权特征，包括：
17.针对于所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的第一个特征图以及所述视频帧输入至第一个特征提取子模块，得到所述视频帧对应的第一个初始加权特征，所述视频帧的上一视频帧的第一个特征图是将所述上一视频帧输入至所述上一视频帧对应的第一个特征提取子模块后得到的；
18.将所述视频帧的第i-1个初始加权特征以及所述视频帧的上一视频帧的第i 个特征图输入至第i个特征提取子模块，得到所述视频帧对应的第i个初始加权特征，所述视频帧的上一视频帧的第i个特征图是将所述上一视频帧输入至所述上一视频帧对应的第i个特征提取子模块后得到的，所述i的初始取值为2；
19.将所述i的取值加1，并执行所述将所述视频帧的第i-1个初始加权特征以及所述视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块步骤，直到得到所述视频帧对应的第n个初始加权特征；
20.将所述视频帧对应的第n个初始加权特征作为所述视频帧的目标加权特征。
21.在其中一个实施例中，所述特征提取子模块包括特征提取单元与注意力机制单元；
22.所述将所述视频帧的第i-1个初始加权特征以及所述视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块，得到所述视频帧对应的第i个初始加权特征，包括：
23.将所述视频帧的第i-1个初始加权特征输入至第i个所述特征提取单元，得到所述视频帧对应的第i个特征图；
24.将所述视频帧对应的第i个特征图与所述上一视频帧的第i个特征图输入至所述注意力机制单元，得到所述视频帧的第i个初始特征权值；
25.将所述视频帧的第i个初始特征权值与所述视频帧对应的第i个特征图进行加权计算，得到所述视频帧对应的第i个初始加权特征。
26.在其中一个实施例中，所述将所述视频帧对应的第i个特征图与所述上一视频帧的第i个特征图输入至所述注意力机制单元，得到所述视频帧的第i个初始特征权值，包括：
27.将所述视频帧对应的第i个特征图与所述上一视频帧的第i个特征图相加，得到所述视频帧的第i个目标特征图；
28.对所述第i个目标特征图进行全局平均池化操作，得到所述视频帧的第i个目标特征向量；
29.对所述视频帧的第i个目标特征向量进行降维操作，得到所述视频帧的第i 个目标降维特征向量；
30.对所述视频帧的第i个目标降维特征向量进行升维卷积操作，得到所述视频帧的第i个目标升维特征向量；
31.根据预设权重确定函数，确定所述视频帧的第i个目标升维特征向量对应的第i个权重向量；
32.将所述第i个权重向量与所述第i个目标升维特征向量的乘积作为所述视频帧的第i个初始特征权值。
33.在其中一个实施例中，所述方法还包括：
34.将待重建的第一分辨率视频帧流输入至所述训练完成的视频帧优化模型，得到所述待重建的第一分辨率视频帧流对应的第二分辨率视频帧流。
35.在其中一个实施例中，在所述获取训练数据的步骤之前，所述方法还包括：获取第二分辨率样本视频帧流；
36.通过预设视频帧重建算法，将所述第二分辨率样本视频帧流重建为第一分辨率样本视频帧流。
37.一种视频帧优化模型的训练装置，所述装置包括：
38.训练数据获取模块，用于获取训练数据，所述训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，所述第一分辨率小于所述第二分辨率；
39.目标加权特征确定模块，用于针对所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的特征以及所述视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到所述视频帧对应的目标加权特征；
40.预测视频帧确定模块，用于根据所述视频帧以及所述视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；
41.训练损失函数确定模块，用于根据所述第二样本视频帧流以及所述各所述预测视频帧流，计算得到训练损失函数；
42.训练模块，用于根据所述训练损失函数更新所述待训练的视频帧优化模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
43.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
44.获取训练数据，所述训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，所述第一分辨率小于所述第二分辨率；
45.针对所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的特征以及所述视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到所述视频帧对应的目标加权特征；
46.根据所述视频帧以及所述视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；
47.根据所述第二样本视频帧流以及所述各所述预测视频帧流，计算得到训练损失函数；
48.根据所述训练损失函数更新所述待训练的视频帧优化模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
49.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
50.获取训练数据，所述训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，所述第一分辨率小于所述第二分辨率；
51.针对所述第一样本视频帧流中每一视频帧，将所述视频帧的上一视频帧的特征以及所述视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到所述视频帧对应的目标加权特征；
52.根据所述视频帧以及所述视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；
53.根据所述第二样本视频帧流以及所述各所述预测视频帧流，计算得到训练损失函数；
54.根据所述训练损失函数更新所述待训练的视频帧优化模型的网络参数，并返回执行所述获取训练数据的步骤，直到所述训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
55.上述视频帧优化模型的训练方法、装置、计算机设备和存储介质，通过针对训练数据中的第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的特征以及视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到视频帧对应的目标加权特征；根据视频帧以及视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；根据第二样本视频帧流以及各预测视频帧流，计算得到训练损失函数；根据训练损失函数更新待训练的视频帧优化模型的网络参数，并返回执行获取训练数据的步骤，直到训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型，本发明通过分别对低分辨率图像和高频残差执行亚像素卷积操作，并将它们作为输出相加，可以使训练完成的视频帧优化模型中的特征提取部分只学习高分辨率图像低分辨率图像之间的残差部分，又由于残差图像相对稀疏，许多像素值很小甚至为零，从而加快了训练速度，降低训练的算力消耗，还提高了模型训练的准确度。
附图说明
56.图1为一个实施例中视频帧优化模型的训练方法的流程示意图；
57.图2为一个实施例中确定高分辨率的预测视频帧步骤的流程示意图；
58.图3为一个实施例中计算目标加权特征步骤的流程示意图；
59.图4为一个实施例中计算第i个初始加权特征步骤的流程示意图；
60.图5为一个实施例中计算第i个初始加权权值步骤的流程示意图；
61.图6为一个实施例中注意力机制单元的示意图；
62.图7为一个实施例中计算获取训练数据步骤的流程示意图；
63.图8为另一个实施例中视频帧优化模型的训练过程示意图；
64.图9为一个实施例中视频帧优化模型的特征提取单元的示意图；
65.图10为一个实施例中视频帧优化模型的训练装置的结构框图；
66.图11为一个实施例中计算机设备的内部结构图。
具体实施方式
67.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对
本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
68.在影像采集设备版本较低，或者是采集环境受限制时，会导致采集到的图像视频质量差、分辨率不高，在这种情况下，可以通过超分辨率重建技术来提高质量较差的图像视频的分辨率。近年来，随着卷积神经网络被提出，超分辨率也经历了从传统算法到深度学习算法的过渡，精度、速度也有了很大的提升。在计算机视觉领域，超分辨率重建技术主要被应用在图像上，视频和实时的超分辨率重建技术相对来说较少，目前实现实时或视频超分辨率的方法除了硬件上的设计以外，软件上主要采用深度学习方法使用卷积神经网络提取特征实现超分，基于深度学习的超分辨率重建技术主要包括以下几个步骤：首先对输入的低分辨率视频/视频帧进行去噪等预处理，然后对低分辨率视频/视频帧进行特征提取，然后对特征做非线性映射，得到高分辨率特征图序列，最后将高分辨率特征图恢复为高分辨率视频/视频帧。其中涉及到各种深度学习中的网络结构、损失函数、模型的训练以及验证，上述过程中需要的计算量较大，对于会议软件终端来说，算力要求过高，配置要求过高，难以实现。
69.本公开实施例所提供的视频帧优化模型的训练方法，目的是在视频会议的场景中，通过本地设备保证分享屏幕或开启摄像头的高分辨率。相关技术中，实时视频会议的清晰度需要靠网络带宽的提升来实现，受如今技术水平的限制，增加相应的分辨率所要付出的时间成本和经济成本相对较大，因此本公开实施例基于深度学习算法，提供了一种基于注意力机制提取时域特征的超分辨率重建算法，可以实时提高视频/视频帧的分辨率。
70.在一个实施例中，如图1所示，提供了一种视频帧优化模型的训练方法，本实施例以该方法应用于训练设备进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括训练设备和服务器的系统，并通过训练设备和服务器的交互实现，上述训练设备可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中，该视频帧优化模型的训练方法包括以下步骤：
71.步骤101，获取训练数据，训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，第一分辨率小于第二分辨率。
72.其中，训练数据是训练模型的样本数据，第一分辨率可以是低分辨率，第二分辨率可以是高分辨率，第一样本视频帧流是低分辨率样本视频帧流，第二样本视频帧流是高分辨率样本视频帧流。例如，低分辨率可以是50
×
50，高分辨率可以是100
×
100。在实际应用场景中，视频分辨率的比例可以是16:9，这样，低分辨率可以是640*360，高分辨率可以是1280*720。
73.具体地，训练设备获取预设时间段内的高分辨率样本视频帧流，以及与该高分辨率样本视频帧流对应的低分辨率样本视频帧流。上述各样本视频帧流中包括多个时域上相邻的样本视频帧。例如，训练设备可以获取多段高分辨率视频流，根据预设采样算法以及预设采样频率，将多段高分辨率样本视频帧流下采样为低分辨率样本视频帧流，得到训练数据。训练数据中包括多个数据对，一对数据对中包括高分辨率样本视频帧流，以及对该高分辨率样本视频帧流下采样后，得到的低分辨率样本视频帧流。
74.步骤102，针对第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的特征以
及视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到视频帧对应的目标加权特征。
75.具体地，第一样本视频帧流中包括按时序排列的多个视频帧，针对于各第一样本视频帧流中按时序排列的第一个视频帧，训练设备将该第一个视频帧输入至待训练的视频帧优化模型中的特征提取模块。得到第一个视频帧的目标特征。针对于各段第一样本视频帧流中的除第一个视频帧外的每一个视频帧，训练设备会将该视频帧的上一视频帧的特征，以及该视频帧，一并输入至待训练的视频帧优化模型中的特征提取模块。该特征提取模型的输出即为该视频帧的目标加权特征。其中，目标加权特征是根据该视频帧的上一视频帧的特征，提取的该视频帧的特征。
76.步骤103，根据视频帧以及视频帧对应的目标加权特征，确定第二分辨率的预测视频帧流。
77.具体地，训练设备对该视频帧以及该视频帧对应的目标加权特征进行卷积计算，得到该视频帧对应的高分辨率的预设视频帧。
78.步骤104，根据第二样本视频帧流以及各预测视频帧流，计算得到训练损失函数。
79.具体地，针对第一样本视频帧流中每一视频帧，训练设备通过执行步骤102 至步骤103的过程，可以得到第一样本视频帧流的预测视频帧流，也就是得到视频帧优化模型输出的预测的高分辨率视频帧流。训练设备根据第二样本视频帧流以及输出的预设视频帧流，计算训练损失函数。
80.举例来说，由于特征提取模块中的激活函数可以是relu函数，因此，训练损失函数的初始化策略可以是msra初始化(也称为kaiming初始化，he初始化)作为初始化策略。也就是说，训练设备可以通过l1损失和adam优化器来训练网络，可以通过以下公式，计算l1损失：
[0081][0082]
其中，loss(x,y)是计算得到的l1损失，yi是第二样本视频帧流，f(xi)是对应的预测视频帧流。
[0083]
步骤105，根据训练损失函数更新待训练的视频帧优化模型的网络参数，并返回执行获取训练数据的步骤，直到训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
[0084]
其中，预设训练完成条件可以是损失值对应的损失函数已经收敛，也可以是训练数据的迭代次数已经达到目标次数等。例如，目标次数可以是100次、 300次等等，本发明实施例对目标次数并不做具体限定。
[0085]
具体地，训练设备根据损失值，计算待使用视频帧优化模型的新的网络参数，继而更新待训练的视频帧优化模型，得到更新后的视频帧优化模型。这样，训练设备将训练数据中的其他第一样本视频帧流以及对应的第二样本视频帧流，重新输入至更新后的视频帧优化模型中，重新执行上述实施例方法的步骤，直至计算出的损失值满足预设收敛条件，或者是训练数据的迭代次数已经到目标次数，得到训练完成的视频帧优化模型。
[0086]
上述视频帧优化模型的训练方法中，通过针对训练数据中的第一样本视频帧流中
每一视频帧，将视频帧的上一视频帧的特征以及视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到视频帧对应的目标加权特征；根据视频帧以及视频帧对应的目标加权特征，确定第二分辨率的预测视频帧；根据第二样本视频帧流以及各预测视频帧流，计算得到训练损失函数；根据训练损失函数更新待训练的视频帧优化模型的网络参数，并返回执行获取训练数据的步骤，直到训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型，本发明通过分别对低分辨率图像和高频残差执行亚像素卷积操作，并将它们作为输出相加，可以使训练完成的视频帧优化模型中的特征提取部分只学习高分辨率图像低分辨率图像之间的残差部分，又由于残差图像相对稀疏，许多像素值很小甚至为零，从而加快了训练速度，降低训练的算力消耗，还提高了模型训练的准确度。
[0087]
在一个实施例中，如图2所示，步骤103“根据视频帧以及视频帧对应的目标加权特征，确定第二分辨率的预测视频帧”的具体执行过程，包括：
[0088]
步骤201，对视频帧进行卷积计算，得到第二分辨率的初始预测视频帧。
[0089]
具体地，卷积计算包括第一次卷积计算以及第二次亚像素卷积计算。针对于第一样本视频帧流中每一视频帧，训练设备对该视频帧进行第一次的卷积计算以及第二次的亚像素卷积计算，得到第二分辨率的初始预测视频帧。也就是说，训练设备对该视频帧直接进行第一次卷积计算以及第二次亚像素卷积计算，可以得到分辨率直接放大的第二分辨率的初始预测视频帧。
[0090]
步骤202，对视频帧对应的目标加权特征进行卷积计算，得到视频帧的残差。
[0091]
具体地，通过上述实施例的方法，得到该视频帧对应的目标加权特征，实际上，目标加权特征即为计算得到的初始残差。这样，训练设备可以将该初始残差进行第一次的卷积计算以及第二次的亚像素卷积计算，也就是对该初始残差进行放大，得到放大后的残差，即为该视频帧的残差。
[0092]
步骤203，将残差与第二分辨率的初始预测视频帧进行叠加，得到第二分辨率的预测视频帧。
[0093]
具体地，训练设备将该视频帧的残差与该视频帧的初始预测视频帧进行叠加，可以得到该视频制作对应的目标预测视频帧，即第二分辨率的预测视频帧。
[0094]
本实施例中，通过一条先经过特征提取模块得到高频部分残差的特征图，再经过亚像素卷积得到放大后的残差，另一条则经过亚像素卷积直接将低分辨率视频帧放大为高分辨率大小的视频帧，最后将这两条线路的输出相加得到放大后的高分辨率视频帧，可以综合低频信息以及高频冗余，得到更加准确的高分辨率预测视频帧。
[0095]
在一个实施例中，为了进一步提高特征提取模块提取各视频帧的特征时的准确性，特征提取模块可以包括n个特征提取子模块。相应地，如图3所示，步骤102“针对第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的特征以及视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到视频帧对应的目标加权特征”的具体执行过程，包括：
[0096]
步骤301，针对于第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的第一个特征图以及视频帧输入至第一个特征提取子模块，得到视频帧对应的第一个初始加权特征，视频帧的上一视频帧的第一个特征图是将上一视频帧输入至上一视频帧对应的第一个特征提取子模块后得到的。
[0097]
具体地，第一样本视频帧流中包括按时序排列的多个视频帧，针对于各第一样本视频帧流中除按时序排列的第一个视频帧外的每一个视频帧，训练设备将该视频帧的相邻的上一视频帧，以及该视频帧一并输入至特征提取模块中包括的n个特征提取子模块中的第一个特征提取子模块，该第一个特征提取子模块的输出就是该视频帧的第一个初始加权特征。
[0098]
步骤302，将视频帧的第i-1个初始加权特征以及视频帧的上一视频帧的第 i个特征图输入至第i个特征提取子模块，得到视频帧对应的第i个初始加权特征，视频帧的上一视频帧的第i个特征图是将上一视频帧输入至上一视频帧对应的第i个特征提取子模块后得到的，所述i的初始取值为2；
[0099]
步骤303，将所述i的取值加1，并执行所述将所述视频帧的第i-1个初始加权特征以及所述视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块步骤，直到得到所述视频帧对应的第n个初始加权特征。
[0100]
步骤304，将视频帧对应的第n个初始加权特征作为视频帧的目标加权特征。
[0101]
在一个实施例中，特征提取子模块包括特征提取单元与注意力机制单元；相应地，如图4所示，步骤302“将视频帧的第i-1个初始加权特征以及视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块，得到视频帧对应的第i个初始加权特征”的具体执行过程，包括：
[0102]
步骤401，将视频帧的第i-1个初始加权特征输入至第i个特征提取单元，得到视频帧对应的第i个特征图。
[0103]
具体地，特征提取单元可以是block单元。针对于第一个特征提取子模块，训练设备将该视频帧输入至特征提取单元，该特征提取单元的输出是该视频帧的特征图。针对于特征提取模块中第i个特征提取子模块，输入是第i-1个特征提取子模块的输出，即第i-1个初始加权特征，输出即为该视频帧对应的第i个特征图，2≤i≤n。
[0104]
步骤402，将视频帧对应的第i个特征图与上一视频帧的第i个特征图输入至注意力机制单元，得到视频帧的第i个初始特征权值。
[0105]
具体地，训练设备将视频帧对应的第i个特征图与上一视频帧的第i个特征图一并输入至注意力机制单元，得到视频帧的第i个初始特征权值。
[0106]
步骤403，将视频帧的第i个初始特征权值与视频帧对应的第i个特征图进行加权计算，得到视频帧对应的第i个初始加权特征。
[0107]
本实施例中，通过将视频帧流按时序输入到待训练的模型中，低分辨率帧首先通过特征提取模块，当前时刻的高分辨率帧的特征通过注意力机制融合了上一时刻的视频帧的特征，并且由于上一时刻的视频帧的特征在上一时刻以前已经计算完成，而注意力机制计算量小，因此可以大大降低模型训练过程中的计算量。
[0108]
在一个实施例中，如图5所示，步骤402“将视频帧对应的第i个特征图与上一视频帧的第i个特征图输入至注意力机制单元，得到视频帧的第i个初始特征权值”的具体处理过程，包括：
[0109]
步骤501，将视频帧对应的第i个特征图与上一视频帧的第i个特征图相加，得到视频帧的第i个目标特征图。
[0110]
步骤502，对第i个目标特征图进行全局平均池化操作，得到视频帧的第i 个目标
特征向量。
[0111]
步骤503，对视频帧的第i个目标特征向量进行降维操作，得到视频帧的第 i个目标降维特征向量。
[0112]
步骤504，对视频帧的第i个目标降维特征向量进行升维卷积操作，得到视频帧的第i个目标升维特征向量。
[0113]
步骤505，根据预设权重确定函数，确定视频帧的第i个目标升维特征向量对应的第i个权重向量。
[0114]
步骤506，将第i个权重向量与第i个目标升维特征向量的乘积作为视频帧的第i个初始特征权值。
[0115]
具体地，以下结合一示意图6，详细描述注意力机制单元的执行过程：该视频帧对应的第i个特征图即为t时刻特征图，上一视频帧的第i个特征图即为t-1 时刻特征图。将t时刻特征图以及t-1时刻特征图进行叠加后，依次输入至全局平均池化层、下采样卷积层、relu层、上采样卷积层以及sigmoid门控层。具体执行过程可以包括：
[0116]
将t-1时刻特征图与t时刻特征图相加后进行如下操作：将t-1时刻特征图与t时刻特征图相加的结果(目标特征图)输入至压缩模块，该压缩模块包括全局平均池化层。经过全局平均池化层的操作，目标特征图的大小由w
×h×
c变为1
×1×
c(w、h分别为原特征图的宽和高，c为通道数)，将目标特征图压缩为一个向量，即得到目标特征向量。通过全局平均池化，训练设备可以将c个通道内的每一个通道所有的特征值相加再计算均值。
[0117]
令x＝[x1,
…
,xc,
…
,xc]，即大小为h
×
w、通道数为c的特征图，其公式如下所示：
[0118][0119]
其中zc表示通道统计信息的第c个元素的值，h
gp
(
·
)是全局平均池化函数，xc(i,j)是在c通道上(i,j)位置上的特征值。
[0120]
训练设备将计算得到的目标特征向量输入至激励模块，该激励模块包括下采样卷积层、relu层、上采样卷积层以及sigmoid门控层。训练设备通过进行下采样卷积-relu-上采样卷积-sigmoid的操作，以获取各个通道之间的相互依赖性。压缩模块输出的大小为1
×1×
c的向量经过对通道数进行r倍(例如，r＝16)降维操作，得到1
×1×
c/r大小的向量，即目标降维特征向量，然后经过非线性激活函数relu后，对该向量进行r倍升维卷积操作，得到大小为1
×1×
c的向量，即目标升维特征向量。最后，激励模块使用了sigmoid激活函数来实现门控机制。最终输出了一个每个元素取值在[0，1]的1
×1×
c的权重向量。训练设备可以通过下述公式计算该权重向量：
[0121]
s＝f(wuδ(wdz))
[0122]
其中，f(
·
)表示sigmoid门控，δ(
·
)表示非线性激活函数relu，wd是对通道进行r倍下采样卷积层的权重，wu为对通道进行r倍上采样卷积层的权重。
[0123]
激励模块使用了bottleneck的结构，即采用了缩放比率为r的降维再升维，用以减少参数量、减少训练难度。此外两个上采样卷积层和下采样卷积层之间增加了一个relu层作激活函数，用于增强维度变化过程中的非线性能力。
[0124]
训练设备实现通道注意力的过程为：将经过激励模块得到的权重向量sc与卷积层
特征图xc相乘，从而最终实现了通道注意力机制。最终的输出特征图可表示为：
[0125][0126]
本实施例中，通过引入注意力机制，为不同的通道的特征赋予不同的权重，利用全局信息并经过学习后，增强了有用的特征并且抑制了无用信息，也就是说，通过引入该视频帧的上一视频帧的特征图信息，可以为该视频帧强调有效信息，降低模型训练过程中的算力消耗，并保证模型训练的高精度。
[0127]
在一个实施例中，该视频帧优化模型的训练方法还包括：
[0128]
将待重建的第一分辨率视频帧流输入至训练完成的视频帧优化模型，得到待重建的第一分辨率视频帧流对应的第二分辨率视频帧流。
[0129]
在一个实施例中，如图7所示，在获取训练数据的步骤之前，该视频帧优化模型的训练方法还包括：
[0130]
步骤601，获取第二分辨率样本视频帧流。
[0131]
具体地，第二分辨率样本视频帧流可以是高分辨率的样本视频帧流。训练设备可以获取预设时间范围内的多段高分辨率视频流，通过预设采样算法，在各段高分辨率视频流取样目标数量个样本视频帧，得到多段高分辨率的样本视频帧流。
[0132]
步骤602，通过预设视频帧重建算法，将第二分辨率样本视频帧流重建为第一分辨率样本视频帧流。
[0133]
具体地，第一分辨率样本视频帧流可以是低分辨率的样本视频帧流。训练设备通过预设视频帧重建算法生成低分辨率的样本视频帧流的过程可以是：首先对多段高分辨率的样本视频帧流进行数据清洗，得到清洗后的多段高分辨率的样本视频帧流。然后通过matlab中的双三次下采样将高分辨率视频帧缩小2倍变为对应的低分辨率视频帧，得到2x视频帧超分辨率重建数据集，即得到多段第二分辨率样本视频帧流，以及对应的多段第一分辨率样本视频帧流。
[0134]
可选地，matlab中自带的双三次下采样函数是bicubic函数，该bicubic 函数可以将图片分辨率通过算法任意放大缩小，举例来说，训练设备可以将 100x100的高分辨率的样本视频帧流下采样为50x50的低分辨率的样本视频帧流。
[0135]
在一个实施例中，在获取训练数据的步骤之前，方法还包括：
[0136]
步骤701，获取第二分辨率样本视频帧流。
[0137]
步骤702，通过预设视频帧重建算法，将第二分辨率样本视频帧流重建为第一分辨率样本视频帧流。
[0138]
以下结合一示意图8，详细描述上述视频帧优化模型的训练方法进行模型训练的过程：第一样本视频帧流中可以包括多个时域上相邻的视频帧，如lrt-2 时刻的视频帧，lrt-1时刻的视频帧，lrt时刻的视频帧等等。针对于第一样本视频帧流中每一视频帧，该视频帧可以是lrt时刻的视频帧，那么该视频帧的上一视频帧即为lrt-1时刻的视频帧，该上一视频帧的上一视频帧即为lrt-2时刻的视频帧。
[0139]
待训练的视频帧优化模型中的特征提取模块中包括n个特征提取子模块，每个特征提取子模块中包括block单元(特征提取单元)与注意力机制单元。训练设备将lrt时刻的视频帧输入至特征提取模块中，实际上，是将lrt时刻的视频帧输入至第一个block单元中，得到该视频帧的特征图。训练设备将第一个 block单元输出的该视频帧的特征图分别输入
至该特征提取子模块中的注意力机制单元，以及该视频帧的下一视频帧对应的第一个特征提取子模块中的注意力机制单元。
[0140]
这样，针对于lrt时刻的视频帧，第一个特征提取子模块中的注意力机制单元的输入是该视频帧的特征图，与上一视频帧的第一个特征提取子模块中的 block单元输出的上一视频帧的特征图。针对于lrt时刻的视频帧，第一个特征提取子模块中的注意力机制单元的输出是根据该视频帧的特征图以及上一视频帧的特征图，计算得到该视频帧的第一个初始特征权值。第一个特征提取子模块的输出即为该视频帧的特征图与该视频帧的第一个初始特征权值，进行加权计算后，得到该视频帧的第一个初始加权特征。
[0141]
又由于特征提取模块中包括n个特征提取子模块，针对于第2个特征提取子模块，第2个特征提取子模块中包括block单元以及注意力机制单元，训练设备将第1个特征提取子模块输出的该视频帧的第1个初始特征权值输入至该 block，得到该视频帧的第2个特征图，将第2个特征图以及第1个特征提取子模块中的block单元输出的该视频帧的特征图，一并输入至上述注意力机制单元，得到该视频帧的第2个初始特征权值。训练设备对第2个初始特征权值以及该视频帧的第2个特征图进行加权计算，得到该视频帧的第2个初始加权特征。
[0142]
针对于第3个特征提取子模块至第n个特征提取子模块，其训练过程与第2 个特征提取子模块的训练过程类似，在此不再赘述。训练设备将第n个特征提取子模块输出的第n个初始加权特征作为视频帧的目标加权特征。
[0143]
这样，训练设备对该目标加权特征进行卷积计算，以及亚像素卷积计算，得到放大后的残差。训练设备对lrt时刻的视频帧直接进行卷积计算，以及亚像素卷积计算，得到放大后的预测视频帧。最后，训练设备将残差与第二分辨率的初始预测视频帧进行叠加，得到第二分辨率的预测视频帧。
[0144]
本实施例中所提供的视频帧优化模型的训练方法，通过利用了该视频帧的上一视频帧的信息帮助当前视频帧帧进行像素级的放大，且基本没有增加多余的计算量，同时给模型的训练网络增加了时域特征。本公开实施例的模型的特征提取部分只学习hr图像(高分辨率图像)与lr图像(低分辨率图像)之间的残差，分别对低分辨率图像和高频残差执行亚像素卷积操作，并将它们作为输出相加，这样在应用残差的想法之后，由于残差图像相对稀疏，因此许多值很小甚至为零，从而加快了训练速度。
[0145]
可选地，特征提取单元可以是由于本技术的场景为实时视频会议，必须考虑实时性，因此采用轻量级网络(shufflenetv2)的变型，如图9所示，特征提取模块中的block取名为shufflesr block，根据超分辨率的相关特性，去掉了一些操作。block单元为将已有的shufflenetv2网络中的block，针对超分辨率重建进行修改，去除了bn操作，bn即batch norm，会对图像的对比度拉伸，色彩的分布会被归一化，不适合用于超分辨率重建。
[0146]
block的具体执行过程可以是，将低分辨率的视频帧，或者是该视频帧对应的初始加权特征，输入至block。该block单元会对视频帧或者是视频帧的初始加权特征进行通道重排(channel split)，这样，再对重排的结果进行1
×
1卷积计算(conv)，3
×
3的深度卷积计算(dwconv)以及再次进行1
×
1卷积计算。这样，block单元可以对卷积计算的结果以及重排的结果进行连接(concat)，再进行通道洗牌操作(channel shuffl)，得到该视频帧的特征图。
[0147]
应该理解的是，虽然图1-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0148]
在一个实施例中，如图10所示，提供了一种视频帧优化模型的训练装置，该训练装置包括：
[0149]
训练数据获取模块701，用于获取训练数据，训练数据包括多段第一分辨率的第一样本视频帧流以及多段第二分辨率的第二样本视频帧流，第一分辨率小于第二分辨率。
[0150]
目标加权特征确定模块702，用于针对第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的特征以及视频帧，输入至待训练的视频帧优化模型中的特征提取模块，得到视频帧对应的目标加权特征。
[0151]
预测视频帧确定模块703，用于根据视频帧以及视频帧对应的目标加权特征，确定第二分辨率的预测视频帧。
[0152]
训练损失函数确定模块704，用于根据第二样本视频帧流以及各预测视频帧流，计算得到训练损失函数。
[0153]
训练模块705，用于根据训练损失函数更新待训练的视频帧优化模型的网络参数，并返回执行获取训练数据的步骤，直到训练损失函数满足预设训练完成条件，得到训练完成的视频帧优化模型。
[0154]
在其中一个实施例中，预测视频帧确定模块，包括：
[0155]
初始预测视频帧得到单元，用于对视频帧进行卷积计算，得到第二分辨率的初始预测视频帧；
[0156]
卷积计算单元，用于对视频帧对应的目标加权特征进行卷积计算，得到视频帧的残差；
[0157]
叠加单元，用于将残差与第二分辨率的初始预测视频帧进行叠加，得到第二分辨率的预测视频帧。
[0158]
在其中一个实施例中，特征提取模块包括n个特征提取子模块；
[0159]
目标加权特征确定模块，包括：
[0160]
初始训练单元，用于针对于第一样本视频帧流中每一视频帧，将视频帧的上一视频帧的第一个特征图以及视频帧输入至第一个特征提取子模块，得到视频帧对应的第一个初始加权特征，视频帧的上一视频帧的第一个特征图是将上一视频帧输入至上一视频帧对应的第一个特征提取子模块后得到的；
[0161]
循环训练单元，用于将视频帧的第i-1个初始加权特征以及视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块，得到视频帧对应的第i个初始加权特征，视频帧的上一视频帧的第i个特征图是将上一视频帧输入至上一视频帧对应的第i个特征提取子模块后得到的，所述i的初始取值为2；
[0162]
将所述i的取值加1，并执行所述将所述视频帧的第i-1个初始加权特征以及所述视频帧的上一视频帧的第i个特征图输入至第i个特征提取子模块步骤，直到得到所述视频
帧对应的第n个初始加权特征；
[0163]
目标加权特征确定单元，用于将视频帧对应的第n个初始加权特征作为视频帧的目标加权特征。
[0164]
在其中一个实施例中，特征提取子模块包括特征提取单元与注意力机制单元；循环训练单元，包括：
[0165]
特征图提取子单元，用于将视频帧的第i-1个初始加权特征输入至第i个特征提取单元，得到视频帧对应的第i个特征图；
[0166]
初始特征权值确定子单元，用于将视频帧对应的第i个特征图与上一视频帧的第i个特征图输入至注意力机制单元，得到视频帧的第i个初始特征权值；
[0167]
初始加权特征确定子单元，用于将视频帧的第i个初始特征权值与视频帧对应的第i个特征图进行加权计算，得到视频帧对应的第i个初始加权特征。
[0168]
在其中一个实施例中，初始特征权值确定子单元，具体用于：
[0169]
将视频帧对应的第i个特征图与上一视频帧的第i个特征图相加，得到视频帧的第i个目标特征图；
[0170]
对第i个目标特征图进行全局平均池化操作，得到视频帧的第i个目标特征向量；
[0171]
对视频帧的第i个目标特征向量进行降维操作，得到视频帧的第i个目标降维特征向量；
[0172]
对视频帧的第i个目标降维特征向量进行升维卷积操作，得到视频帧的第i 个目标升维特征向量；
[0173]
根据预设权重确定函数，确定视频帧的第i个目标升维特征向量对应的第i 个权重向量；
[0174]
将第i个权重向量与第i个目标升维特征向量的乘积作为视频帧的第i个初始特征权值。
[0175]
在其中一个实施例中，装置还包括：
[0176]
使用模块，用于将待重建的第一分辨率视频帧流输入至训练完成的视频帧优化模型，得到待重建的第一分辨率视频帧流对应的第二分辨率视频帧流。
[0177]
在其中一个实施例中，装置还包括：
[0178]
样本获取模块，用于获取第二分辨率样本视频帧流；
[0179]
重建模块，用于通过预设视频帧重建算法，将第二分辨率样本视频帧流重建为第一分辨率样本视频帧流。
[0180]
关于视频帧优化模型的训练装置的具体限定可以参见上文中对于视频帧优化模型的训练方法的限定，在此不再赘述。上述视频帧优化模型的训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0181]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该
内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储是视频帧的优化模型的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频帧优化模型的训练方法。
[0182]
本领域技术人员可以理解，图11中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0183]
在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0184]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0185]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory，rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random accessmemory，ram)或外部高速缓冲存储器。作为说明而非局限，ram可以是多种形式，比如静态随机存取存储器(static random access memory，sram)或动态随机存取存储器(dynamic random access memory，dram)等。
[0186]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0187]
以上实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：创意项目管理方法、装置、终端及存储介质与流程

视频帧优化模型的训练方法、装置和计算机设备与流程

相关文献

最热文献