视频处理方法、装置、计算机设备及计算机可读存储介质与流程

2022-02-22 08:30:45 来源：中国专利 TAG：

1.本发明涉及计算机领域，具体而言，涉及一种视频处理方法、装置、计算机设备及计算机可读存储介质。

背景技术：

2.现如今，深度学习技术被广泛应用到各个领域，为人们的生活、出行等提供了极大的方便。其中，视频重识别是一种重要技术，以车辆重识别为例，旨在在不同摄像头下匹配一个给定输入的车辆外观信息，以达到以图搜图的作用。通常来说，以图像作为输入易受到检测误差、误检等噪声干扰。为解决上述问题，相关技术中采用片段为输入，进行特征提取的过程。
3.相关技术中，针对神经网络车辆视频重识别问题的方法大致可以分为三类：1）基于rnn（recurrent neural network，循环神经网络）的方法。2）基于3d-cnn（convolutional neural networks，卷积神经网络）的方法。3）基于graph（数据结构）结构的方法。但是采用上述方案进行车辆重识别时，会出现计算复杂、使用场景受限、识别精度低等问题。
4.针对上述的问题，目前尚未提出有效的解决方案。

技术实现要素：

5.本发明实施例提供了一种视频处理方法、装置、计算机设备及计算机可读存储介质，以至少解决相关技术中进行视频识别时，出现的识别精度低的技术问题。
6.根据本发明实施例的一个方面，提供了一种视频处理方法，包括：获取视频中的多帧图像；分别提取所述多帧图像的图像特征；采用第一注意力层对所述多帧图像的图像特征进行处理，得到第一目标特征；基于所述多帧图像的图像特征，提取所述多帧图像分别对应的代表特征；采用第二注意力层对所述第一目标特征和所述多帧图像分别对应的代表特征进行处理，得到所述视频的描述特征。
7.可选地，所述采用第二注意力层对所述第一目标特征和所述多帧图像分别对应的代表特征进行处理，得到所述视频的描述特征包括：在所述第一目标特征中嵌入所述多帧图像的时序特征和空间特征，得到第二目标特征；采用所述第二注意力层对所述第二目标特征和所述多帧图像分别对应的代表特征进行处理，得到所述视频的描述特征。
8.可选地，在所述第一目标特征中嵌入所述多帧图像的时序特征和空间特征，得到第二目标特征之前，还包括：对所述视频的单帧图像划分区域，得到多个部分区域；分别对所述多个部分区域分别进行平均化池化，得到分别表征所述多个部分区域的区域特征；基于所述多个部分区域的区域特征，确定所述多帧图像的空间特征，以及基于所述视频的时间顺序确定所述多帧图像的时序特征。
9.可选地，在所述采用所述第二注意力层对所述第二目标特征和所述多帧图像分别对应的代表特征进行处理，得到所述视频的描述特征之前，还包括：分别提取所述多帧图像中的对应帧图像的关注特征，其中，所述关注特征为所述对应帧图像中重要性参数大于预
定阈值的特征；分别获取对应帧图像的关注特征的权重；将所述对应帧图像的关注特征的权重作用于所述关注特征，得到所述对应帧图像的代表特征。
10.可选地，在得到所述视频的描述特征之后，还包括：基于所述描述特征识别出所述视频中的目标对象；展示识别出的所述目标对象。
11.根据本发明实施例的一个方面，提供了一种视频处理方法，包括：接收车辆视频，从所述车辆视频中获取多帧图像；基于所述多帧图像得到所述车辆视频中车辆的描述特征，其中，所述描述特征采用第二注意力层对第一目标特征和所述多帧图像分别对应的代表特征进行处理得到，所述第一目标特征采用第一注意力层对所述多帧图像的图像特征进行处理得到，所述多帧图像分别对应的代表特征基于所述多帧图像的图像特征提取得到；将所述描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，所述匹配结果用于标识所述车辆视频中的车辆是否为所述目标车辆。
12.可选地，还包括：通过预定方式输出所述匹配结果，其中，所述预定方式包括以下至少之一：显示屏显示的方式，打印设备打印的方式，报警设备报警的方式。
13.根据本发明实施例的另一个方面，提供了一种视频处理方法，包括：接收人物视频，从所述人物视频中获取多帧图像；基于所述多帧图像得到所述人物视频中人物的描述特征，其中，所述描述特征采用第二注意力层对第一目标特征和所述多帧图像分别对应的代表特征进行处理得到，所述第一目标特征采用第一注意力层对所述多帧图像的图像特征进行处理得到，所述多帧图像分别对应的代表特征基于所述多帧图像的图像特征提取得到；将所述描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，所述匹配结果用于标识所述人物视频中的人物是否为所述目标人物。
14.根据本发明实施例的另一个方面，提供了一种视频处理装置，包括：第一获取模块，用于获取视频中的多帧图像；第一提取模块，用于分别提取所述多帧图像的图像特征；第一处理模块，用于采用第一注意力层对所述多帧图像的图像特征进行处理，得到第一目标特征；第二提取模块，用于基于所述多帧图像的图像特征，提取所述多帧图像分别对应的代表特征；第二处理模块，用于采用第二注意力层对所述第一目标特征和所述多帧图像分别对应的代表特征进行处理，得到所述视频的描述特征。
15.根据本发明实施例的另一个方面，提供了一种视频处理装置，包括：第一接收模块，用于接收车辆视频，从所述车辆视频中获取多帧图像；第三处理模块，用于基于所述多帧图像得到所述车辆视频中车辆的描述特征，其中，所述描述特征采用第二注意力层对第一目标特征和所述多帧图像分别对应的代表特征进行处理得到，所述第一目标特征采用第一注意力层对所述多帧图像的图像特征进行处理得到，所述多帧图像分别对应的代表特征基于所述多帧图像的图像特征提取得到；第四处理模块，用于将所述描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，所述匹配结果用于标识所述车辆视频中的车辆是否为所述目标车辆。
16.根据本发明实施例的另一个方面，提供了一种视频处理装置，包括：第二接收模块，用于接收人物视频，从所述人物视频中获取多帧图像；第五处理模块，用于基于所述多帧图像得到所述人物视频中人物的描述特征，其中，所述描述特征采用第二注意力层对第一目标特征和所述多帧图像分别对应的代表特征进行处理得到，所述第一目标特征采用第一注意力层对所述多帧图像的图像特征进行处理得到，所述多帧图像分别对应的代表特征
基于所述多帧图像的图像特征提取得到；第六处理模块，用于将所述描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，所述匹配结果用于标识所述人物视频中的人物是否为所述目标人物。
17.根据本发明实施例的另一个方面，提供了一种计算机设备，包括：存储器和处理器，所述存储器存储有计算机程序；所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行任意一项所述的视频处理方法。
18.根据本发明实施例的另一个方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行任一项所述的视频处理方法。
19.根据本发明实施例的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现任一项所述的视频处理方法。
20.在本发明实施例中，通过提取视频中多帧图像的图像特征，将得到的图像特征通过第一注意力层进行处理得到第一目标特征，并且基于图像特征提取出多帧图像分别对应的代表特征，采用第二注意力层对第一目标特征和代表特征进行处理，从而得到了视频的描述特征。因为视频的描述特征是通过第一目标特征与代表特征进行综合处理得到的，因此，得到的视频的描述特征更加准确、细致，进而解决了相关技术中进行视频识别时，出现的识别精度低的技术问题。
附图说明
21.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：图1示出了一种用于实现视频处理方法的计算机终端的硬件结构框图；图2是根据本发明实施例1的视频处理方法一的流程图；图3是根据本发明实施例1的视频处理方法二的流程图；图4是根据本发明实施例1的视频处理方法三的流程图；图5是根据本发明可选实施方式提供的车辆视频重识别方法的流程图；图6是根据本发明可选实施方式提供的车辆视频重识别方法中时空位置嵌入的示意图；图7是根据本发明可选实施方式提供的车辆视频重识别方法不同实现方式的示意图；图8是根据本发明实施例2提供的视频处理装置一的结构框图；图9是根据本发明实施例3提供的视频处理装置二的结构框图；图10是根据本发明实施例4提供的视频处理装置三的结构框图；图11是根据本发明实施例的一种终端的装置框图。
具体实施方式
22.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人
员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
23.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
24.首先，在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释：深度学习（deep learning）：深度学习是指多层神经网络上运用各种机器学习算法解决图像，文本等各种问题的算法集合。深度学习从大类上可以归入神经网络，不过在具体实现上有许多变化。深度学习的核心是特征学习，旨在通过分层网络获取分层次的特征信息，从而解决以往需要人工设计特征的重要难题。
25.人工神经网络（artificial neural networks）：人工神经网络是20世纪80 年代以来人工智能领域兴起的研究热点。它是从信息处理角度对人脑神经元网络进行抽象并建立起的一种运算模型，按不同的连接方式组成不同的网络。
26.车辆视频重识别（video-based vehicle re-identification）：车辆视频重识别是指以包含车辆的视频片段作为输入，通过机器学习等方法输出车辆高维特征向量。
27.实施例1根据本发明实施例，还提供了一种视频处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
28.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现视频处理方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备）可以包括一个或多个（图中采用102a、102b，
……
，102n来示出）处理器102（处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口（i/o接口）、通用串行总线（usb）端口（可以作为bus总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。
29.应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本技术实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。
30.存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的视频处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的视频处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
31.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（network interface controller，nic），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（radio frequency，rf）模块，其用于通过无线方式与互联网进行通讯。
32.显示器可以例如触摸屏式的液晶显示器（lcd），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。
33.在上述运行环境下，本技术提供了如图2所示的视频处理方法。图2是根据本发明实施例1的视频处理方法一的流程图，如图2所示，该方法包括如下步骤：步骤s202，获取视频中的多帧图像；步骤s204，分别提取多帧图像的图像特征；步骤s206，采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征；步骤s208，基于多帧图像的图像特征，提取多帧图像分别对应的代表特征；步骤s210，采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
34.通过上述步骤，通过提取视频中多帧图像的图像特征，将得到的图像特征通过第一注意力层进行处理得到第一目标特征，并且基于图像特征提取出多帧图像分别对应的代表特征，采用第二注意力层对第一目标特征和代表特征进行处理，从而得到了视频的描述特征。因为视频的描述特征是通过第一目标特征与代表特征进行综合处理得到的，由于代表特征在一定程度上能够分别体现多帧图像中更为细节的特征，因此，得到的视频的描述特征更加准确、细致，丰富，进而解决了相关技术中进行视频识别时，出现的识别精度低的技术问题。
35.作为一种可选的实施例，获取视频中的多帧图像。将视频分解为多帧图像，以便对图像进行处理。其中，视频可以包括多种类型的视频，可以是道路监测拍摄，高速测速拍摄，相机拍摄，等等所得的视频片段；也可以是影像视频，媒体流视频，等等视频。获取视频中的多帧图像后，还可以对获取的多帧图像进行预处理，例如，可以包括以下处理至少之一：调整图像色调，例如：亮度，对比度，等等；调整图像的大小，例如：将图像放大缩小，调整长宽高，等等；截取图像的不同位置，等等。而且，获取视频中的多帧图像，可以是基于不同的场景选择不同适用类型的图像，例如当获取视频中多帧图像的目的是得到视频中某一目标对象的描述特征时，可以仅选取目标对象出现的视频片段，获取有关目标对象视频的多帧图像，其中，目标对象可以为视频中出现的任意对象，保留对多帧图像进行预处理后的图像。
例如，在车辆监控的交通场景中，仅选取有车辆经过的监控片段，经过预处理，可以截取图像的不同位置进行保留，例如，保留车牌的多帧图像，保留车身的多帧图像。在车辆监控的交通场景中不仅可以应用于车牌的识别，也可以应用于车身的识别，或者其他不同设计的车相关的图像。因此在多类视频中的不同类型的多帧图像中，可以针对视频中的目标对象获取多帧图像，实现有关目标对象视频的识别与应用。可以有效地解决相关技术中进行视频识别时，出现的识别精度低的技术问题。该可选实施例没有目标对象限定要求，也没有目标对象的个数要求，有效地实现了该视频识别的通用性。
36.作为一种可选的实施例，分别提取多帧图像的图像特征。图像特征可以为多种，例如，特征向量，等等。不同类型的图像所具备的图像特征不应相同，对多帧图像进行针对性地提取，提取出多帧图像的图像特征。
37.作为一种可选的实施例，采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征。即采用第一注意力层对视频中获取得到的多帧图像的图像进行处理，得到关于视频的第一目标特征。举例说明，可以采用cnn网络获取到视频的全局特征，既可以输入视频片段中的多帧图像，用cnn神经网络模型提取出关于视频的全局特征。通过第一注意力层得到关于视频的全局特征，以便对视频的全局特征进行分析。
38.作为一种可选的实施例，基于多帧图像的图像特征，提取多帧图像分别对应的代表特征。即每帧图像能够对应一个代表特征。通过确定代表特征，能够更加关注到每帧图像的细节部分，进而更能够关注到视频的细节区域，使得视频识别结果更加细致。
39.作为一种可选的实施例，采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。其中，第二注意力层可以为dense attention层。通过利用第二注意力层将关于视频的第一目标特征与各帧图像的代表特征，即将全局特征与各帧图像的代表特征进行结合，得到更加细致、全面的视频的描述特征，使得描述特征能够表征出视频特性更为丰富的特征，为后续从视频中更为准确识别目标对象提供基础。
40.作为一种可选的实施例，在采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征，可以通过如下方式：在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征；采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。需要注意的是，本实施例中的第二目标特征时嵌入了多帧图像的时序特征和空间特征的，通过嵌入时序特征和空间特征，使得得到的第二目标特征具有时间和空间顺序。依据时间顺序与空间顺序进行处理，能够保证对图像处理的时空有效性。可以选择性的通过划分时间段与区域进行处理，可以根据实际应用的需要在同一区域同一时间段进行处理，使得对视频中的多帧图像的处理是与对应的时间和空间联系上的，提高了视频处理的精确性和准确性，能够更精确、有效、便捷的得到视频的描述特征。
41.作为一种可选的实施例，在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征之前，可以采用如下操作进行处理：对视频的单帧图像划分区域，得到多个部分区域。在对视频的单帧图像划分区域时，可以将图像均等的分成四份，即可以采用4分块作为空间时间位置嵌入步长，当然，可以将图像分为其他份数，即也可以采用其他个数的分块作为时间空间位置嵌入步长。分别对多个部分区域分别进行平均化池化，得到
分别表征多个部分区域的区域特征；基于多个部分区域的区域特征，确定多帧图像的空间特征，以及基于视频的时间顺序确定多帧图像的时序特征。通过对每帧图像的空间特征进行分区和汇集操作，使得基于多个部分区域的区域特征得到的空间特征与时序特征更加可靠。通过时空相互作用，有利于展现目标对象的规模变化（例如，摄像位置不变，目标对象运动，近大远小的变化），动作变化（例如，目标对象位于同一位置，蹲下，直立的不同体态）和错位问题（例如，摄像位置不变，目标对象运动的过程中存在被遮挡的现象），使得得到视频的描述特征更加具象。
42.作为一种可选的实施例，在采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征之前，还包括：分别提取多帧图像中的对应帧图像的关注特征，其中，关注特征为对应帧图像中重要性参数大于预定阈值的特征；分别获取对应帧图像的关注特征的权重；将对应帧图像的关注特征的权重作用于关注特征，得到对应帧图像的代表特征。即代表特征是将每帧中的关注特征与对应的权重进行作用得到的，将注意力转移到多帧图像的重要特征的部分，使得得到的代表牲能够真正表征各帧图像的重要部分，实现对各帧图像的准确识别。
43.作为一种可选的实施例，在得到视频的描述特征之后，还包括：基于描述特征识别出视频中的目标对象；展示识别出的目标对象。还可用于：对基于描述特征识别出视频中的目标对象进行定位；对基于描述特征识别出视频中的目标对象进行监测，等等。识别出的目标对象可以用于多种场景、用于多种用途，例如：目标对象的查询与挖掘，目标对象的搜索与对比，追踪目标对象，基于目标对象分析加强管理等等，例如，目标对象为车辆时，可以通过车辆的行驶状态加强治安管理方面等等。可以强化不同场景下的功能运用，可以更灵活，准确地实现多种用途。
44.通过上述处理，在基于视频的多帧图像识别出的对视频的全局进行描述的第一目标特征后，在分别对多帧图像中的各帧图像进行识别后得到的对应代表特征，将第一目标特征与各帧图像对应的代表特征进行结合，有效地避免了相关技术中，基于时序对视频中的各帧图像进行识别时导致对前面各帧遗忘的问题，采用上述结合的处理方式，使得对视频的识别能够将全局与细节进行结合，得到对视频进行识别时，更为全面，细节的丰富特征，进而为从视频中识别出目标对象提供基础。
45.图3是根据本发明实施例1的视频处理方法二的流程图，如图3所示，该方法包括如下步骤：步骤s302，接收车辆视频，从车辆视频中获取多帧图像；步骤s304，基于多帧图像得到车辆视频中车辆的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；步骤s306，将描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，匹配结果用于标识车辆视频中的车辆是否为目标车辆。
46.通过上述步骤，通过获取车辆视频的多帧图像，从而得到车辆视频中车辆的描述特征，进而能够将描述特征与目标车辆的车辆特征进行匹配，得到车辆视频中的车辆是否为目标车辆的匹配结果。其中，车辆的描述特征是基于多帧视频，采用第二注意力层对第一
目标特征和多帧图像分别对应的代表特征进行处理得到的，因此，得到的车辆视频中车辆的描述特征更加准确、细致，进而解决了相关技术中进行视频识别时，出现的识别精度低的技术问题，达到了识别视频中的车辆是否为要匹配的目标车辆的技术效果。
47.作为一种可选的实施例，识别车辆，即识别视频中的车辆是否为要匹配的目标车辆，识别所得的匹配结果可以通过预定方式输出匹配结果，其中，预定方式包括以下至少之一：显示屏显示的方式，打印设备打印的方式，报警设备报警的方式。基于实际应用的场景，选取对应的形式展示出匹配结果，使得匹配结果更容易被用户知悉，提升用户的体验感与应用的便捷度。
48.图4是根据本发明实施例1的视频处理方法三的流程图，如图4所示，该方法包括如下步骤：步骤s402，接收人物视频，从人物视频中获取多帧图像；步骤s404，基于多帧图像得到人物视频中人物的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；步骤s406，将描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，匹配结果用于标识人物视频中的人物是否为目标人物。
49.通过上述步骤，通过获取人物视频的多帧图像，从而得到人物视频中人物的描述特征，进而能够将描述特征与目标人物的人物特征进行匹配，得到人物视频中的人物是否为目标人物的匹配结果。其中，人物的描述特征是基于多帧视频，采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到的，因此，得到的人物视频中人物的描述特征更加准确、细致，进而解决了相关技术中进行视频识别时，出现的识别精度低的技术问题，达到了识别视频中的人物是否为要匹配的目标人物的技术效果。
50.基于上述实施例及可选实施例，提供一种可选实施方式，基于车辆重识别的场景，下面具体说明。
51.相关技术中，针对神经网络车辆视频重识别问题的方法大致可以分为三类：1）基于rnn的方法，即先用cnn对单帧进行特征提取后，用rnn建模时序下的车辆变化情况，最终输出一个描述特征。2）基于3d-cnn的方法，即扩展普通2d cnn到3d场景。3）基于graph结构的方法，即在用cnn对视频帧提取特征后，用graph对提取出来的特征进行建模，并输出最终特征。
52.但是采用上述方案进行车辆重识别时，会出现以下问题：1）该方法易受到rnn灾难性遗忘等问题，使得输出的特征仅关注最后输入的视频帧。2）该方法计算复杂度较高，使用场景受限。3）该方法使用graph是建立在最高层cnn特征基础之上的，因此缺乏对细节信息的关注。
53.鉴于此，在本发明可选实施方式中，提供一种基于密集交互学习的车辆视频重识别方法。下面对本发明可选实施方式进行详细说明。
54.图5是根据本发明可选实施方式提供的车辆视频重识别方法的流程图，如图5所示，输入视频片段分别用卷积神经网络块（cnn block，convolutional neural networks block）提取特征，后连接self-attention（自注意力机制）及本发明可选实施方式所提出的
dense attention（密集注意力机制）。
55.self-attention可以被描述成：，其中，q、k、v分别代表query(查询)、key（键）、value（值），均为长度为d的特征向量，在self-attention中，特征向量由如下公式得到：，其中，z是上一层输出的特征，w为可学习的参数。
56.本发明可选实施方式所提出的dense attention区别在于q、k、v的构建形式：attention区别在于q、k、v的构建形式：attention区别在于q、k、v的构建形式：其中，ppool表示横向pooling(平均池化)，进行pooling后，每个区域形成一个特征向量。
57.图6是根据本发明可选实施方式提供的车辆视频重识别方法中时空位置嵌入的示意图，如图6所示，包括时间位置嵌入与空间位置嵌入，即本发明可选实施方式在dense attention输入前，加入了本发明提出的时空位置嵌入（step-emb），其会生成随时空变化的嵌入叠加到每一层的输入中。
58.另外，图7是根据本发明可选实施方式提供的车辆视频重识别方法不同实现方式的示意图，如图7所示，本发明可选实施方式还提供了三种实现变体，以基于不同场景做出灵活的选择。
59.通过上述可选实施方式，可以达到以下有益效果：（1）与基于rnn的方法相比，本方案能取得显著的性能提升；（2）与基于3d cnn的方法相比，本方案几乎不需要额外增加计算复杂度；（3）与基于graph的方法相比，本方案的会关注到细节区域，性能更高，同时实现过程也较为简单；（4）能够建模高级特征之间的交互，并根据高级特征自动关注到不同尺度的特征上，最终形成一个多尺度、信息量更大的描述特征；（5）包含时空位置嵌入，其能够很好地显式指示网络输入视频片段内的相对位置，提升识别性能。
60.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。
61.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施
例的视频处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如rom/ram、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例的方法。
62.实施例2根据本发明实施例，还提供了一种用于实施上述视频处理方法的装置一，图8是根据本发明实施例2提供的视频处理装置一的结构框图，如图8所示，该装置包括：第一获取模块802，第一提取模块804，第一处理模块806，第二提取模块808和第二处理模块810，下面对该装置进行说明。
63.第一获取模块802，用于获取视频中的多帧图像；第一提取模块804，连接于上述第一获取模块802，用于分别提取多帧图像的图像特征；第一处理模块806，连接于上述第一提取模块804，用于采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征；第二提取模块808，连接于上述第一处理模块806，用于基于多帧图像的图像特征，提取多帧图像分别对应的代表特征；第二处理模块810，连接于上述第二提取模块808，用于采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
64.此处需要说明的是，上述第一获取模块802，第一提取模块804，第一处理模块806，第二提取模块808和第二处理模块810，对应于实施例1中的步骤s202至步骤s210，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
65.实施例3根据本发明实施例，还提供了一种用于实施上述视频处理方法的装置二，图9是根据本发明实施例3提供的视频处理装置二的结构框图，如图9所示，该装置包括：第一接收模块902，第三处理模块904和第四处理模块906，下面对该装置进行说明。
66.第一接收模块902，用于接收车辆视频，从车辆视频中获取多帧图像；第三处理模块904，连接于上述第一接收模块902，用于基于多帧图像得到车辆视频中车辆的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；第四处理模块906，连接于上述第三处理模块904，用于将描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，匹配结果用于标识车辆视频中的车辆是否为目标车辆。
67.此处需要说明的是，上述第一接收模块902，第三处理模块904和第四处理模块906，对应于实施例1中的步骤s302至步骤s306，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
68.实施例4根据本发明实施例，还提供了一种用于实施上述视频处理方法的装置三，图10是根据本发明实施例4提供的视频处理装置三的结构框图，如图10所示，该装置包括：第二接
收模块1002，第五处理模块1004和第六处理模块1006，下面对该装置进行说明。
69.第二接收模块1002，用于接收人物视频，从人物视频中获取多帧图像；第五处理模块1004，连接于上述第二接收模块1002，用于基于多帧图像得到人物视频中人物的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；第六处理模块1006，连接于上述第五处理模块1004，用于将描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，匹配结果用于标识人物视频中的人物是否为目标人物。
70.此处需要说明的是，上述第二接收模块1002，第五处理模块1004和第六处理模块1006，对应于实施例1中的步骤s402至步骤s404，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
71.实施例5本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。
72.可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
73.在本实施例中，上述计算机终端可以执行应用程序的视频处理方法中以下步骤的程序代码：获取视频中的多帧图像；分别提取多帧图像的图像特征；采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征；基于多帧图像的图像特征，提取多帧图像分别对应的代表特征；采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
74.其中，存储器可用于存储软件程序以及模块，如本发明实施例中的视频处理检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端a。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
75.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取视频中的多帧图像；分别提取多帧图像的图像特征；采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征；基于多帧图像的图像特征，提取多帧图像分别对应的代表特征；采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
76.可选的，上述处理器还可以执行如下步骤的程序代码：采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征包括：在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征；采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
77.可选的，上述处理器还可以执行如下步骤的程序代码：在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征之前，还包括：对视频的单帧图像划分区域，得到多个部分区域；分别对多个部分区域分别进行平均化池化，得到分别表征多个部分区域的区域特征；基于多个部分区域的区域特征，确定多帧图像的空间特征，以及基于视频的时间顺序确定多帧图像的时序特征。
78.可选地，在采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征之前，还包括：分别提取多帧图像中的对应帧图像的关注特征，其中，关注特征为对应帧图像中重要性参数大于预定阈值的特征；分别获取对应帧图像的关注特征的权重；将对应帧图像的关注特征的权重作用于关注特征，得到对应帧图像的代表特征。
79.可选的，上述处理器还可以执行如下步骤的程序代码：在得到视频的描述特征之后，还包括：基于描述特征识别出视频中的目标对象；展示识别出的目标对象。
80.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收车辆视频，从车辆视频中获取多帧图像；基于多帧图像得到车辆视频中车辆的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；将描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，匹配结果用于标识车辆视频中的车辆是否为目标车辆。
81.可选的，上述处理器还可以执行如下步骤的程序代码：还包括：通过预定方式输出匹配结果，其中，预定方式包括以下至少之一：显示屏显示的方式，打印设备打印的方式，报警设备报警的方式。
82.处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收人物视频，从人物视频中获取多帧图像；基于多帧图像得到人物视频中人物的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；将描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，匹配结果用于标识人物视频中的人物是否为目标人物。
83.采用本发明实施例，提供了一种视频处理的方案。通过获取车辆视频的多帧图像，从而得到了车辆视频中车辆的描述特征，进而能够将描述特征与目标车辆的车辆特征进行匹配，得到车辆视频中的车辆是否为目标车辆的匹配结果。其中，车辆的描述特征是基于多帧视频，采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到的，因此，得到的车辆视频中车辆的描述特征更加准确、细致，进而解决了相关技术中进行视频识别时，出现的识别精度低的技术问题。
84.本领域普通技术人员可以理解，图中所示的结构仅为示意，计算机终端也可以是智能手机（如android手机、ios手机等）、平板电脑、掌声电脑以及移动互联网设备（mobile internet devices，mid）、pad等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端11还可包括比图11中所示更多或者更少的组件（如网络接口、显示装置等），
或者具有与图11所示不同的配置。
85.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（read-only memory，rom）、随机存取器（random access memory，ram）、磁盘或光盘等。
86.实施例6本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的视频处理方法所执行的程序代码。
87.可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。
88.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取视频中的多帧图像；分别提取多帧图像的图像特征；采用第一注意力层对多帧图像的图像特征进行处理，得到第一目标特征；基于多帧图像的图像特征，提取多帧图像分别对应的代表特征；采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
89.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征包括：在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征；采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征。
90.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在第一目标特征中嵌入多帧图像的时序特征和空间特征，得到第二目标特征之前，还包括：对视频的单帧图像划分区域，得到多个部分区域；分别对多个部分区域分别进行平均化池化，得到分别表征多个部分区域的区域特征；基于多个部分区域的区域特征，确定多帧图像的空间特征，以及基于视频的时间顺序确定多帧图像的时序特征。
91.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在采用第二注意力层对第二目标特征和多帧图像分别对应的代表特征进行处理，得到视频的描述特征之前，还包括：分别提取多帧图像中的对应帧图像的关注特征，其中，关注特征为对应帧图像中重要性参数大于预定阈值的特征；分别获取对应帧图像的关注特征的权重；将对应帧图像的关注特征的权重作用于关注特征，得到对应帧图像的代表特征。
92.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在得到视频的描述特征之后，还包括：基于描述特征识别出视频中的目标对象；展示识别出的目标对象。
93.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收车辆视频，从车辆视频中获取多帧图像；基于多帧图像得到车辆视频中车辆的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；将描述特征与目标车辆的车辆特征进行匹配，得到匹配结果，其中，匹配结果用于标识车辆视频中的车辆是否为目标车辆。
94.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：还包括：通过预定方式输出匹配结果，其中，预定方式包括以下至少之一：显示屏显示的方式，打印设备打印的方式，报警设备报警的方式。
95.可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收人物视频，从人物视频中获取多帧图像；基于多帧图像得到人物视频中人物的描述特征，其中，描述特征采用第二注意力层对第一目标特征和多帧图像分别对应的代表特征进行处理得到，第一目标特征采用第一注意力层对多帧图像的图像特征进行处理得到，多帧图像分别对应的代表特征基于多帧图像的图像特征提取得到；将描述特征与目标人物的人物特征进行匹配，得到匹配结果，其中，匹配结果用于标识人物视频中的人物是否为目标人物。
96.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
97.在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
98.在本技术所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。
99.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
100.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
101.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
102.以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：室内设计构件清单的生成方法、装置、计算机设备及介质与流程

视频处理方法、装置、计算机设备及计算机可读存储介质与流程

相关文献

最热文献