一种行车视频多任务处理方法及系统与流程

2021-12-07 20:29:00 来源：中国专利 TAG：

1.本发明涉及视频处理的技术领域，尤其涉及一种行车视频多任务处理方法及系统。

背景技术：

2.基于视频的任务，如：视频描述、视频自动标签、视频自动切分存在已久，视频描述是针对已切分好的短视频，用一句或多句逻辑语言对视频中内容进行描述，比如三个人在操场打篮球；视频自动标签是对视频给出独立的多个词汇描述，比如室内、室外、车子、行人、雨天、晴天等；视频自动切分将一个长视频根据视频内容自动切分为多个小视频，比如美食或手工制作视频根据步骤可切分为多个独立的小视频。
3.近些年，自动驾驶行业算法几乎都基于机器学习体系，对训练场景和测试场景有较高要求，想要从自然场景中获取自定义的各种复杂场景不仅对采集员要求很高而且也很难找到符合要求的路段来采集视频，因此通过算法自动构建复合的视频场景对于算法的开发和测试至关重要，这其中会涉及到视频自动标签、自动切分及自动复合等技术。
4.当前传统的视频任务处理存在一些弊端，例如，传统的只基于图像信号的视频任务，使用3d cnn(三维卷积神经网络)来做，这在视频帧数明显增加的情况下，计算量呈指数增长的趋势，由于硬件环境的限制(比如gpu显存及计算单元数)，实际上只能做很短小的视频任务，由于关联的相邻视频帧很少，也会导致精度不高。同时，传统的视频任务很多要基于声音或文字信号同步图像信号来做，会使用语音识别技术及机器翻译技术，这在缺乏声音或文字输入时，算法失效。传统的视频任务还存在延时过高和精度不高的问题，导致无法同时执行多个视频任务。

技术实现要素：

5.本发明为解决当前视频任务精度不高，无法同时执行多项视频任务或存在延时过高、精度不高等问题的技术问题，提供一种行车视频多任务处理方法及系统。
6.为解决上述技术问题，本发明的技术方案如下：
7.本实施例提供一种行车视频多任务处理方法，所述方法包括：
8.对视频数据进行关键帧提取；
9.通过编码模块对每个关键帧进行分解，按照预定格式分解为多个区域块；
10.根据分割空间
‑
时间自注意力模式，对关键帧的各个区域块与同帧的其他区域块以及其他关键帧的对应分解位置上的区域块进行比对；
11.将比对数据经过多个解码模块进行多视频任务的处理，完成多任务输出。
12.进一步的，所述视频任务设置有三个，包括场景描述标签、自动tag标签和自动切分标签。
13.进一步的，根据分割空间
‑
时间自注意力模式，对关键帧的各个区域块与同帧的其他区域块以及其他关键帧的对应分解位置上的区域块进行比对包括：
14.将视频数据中的所有关键帧分解成一组不重叠的区域块；
15.将每个区域块与相同帧内的其他区域块以及其他关键帧中相同空间位置的区域块进行比较，得到比对结果。
16.进一步的，所述预定格式包括将关键帧分解不重叠的4*4的区域块。
17.进一步的，所述编码模块和解码模块采用transformer结构，所述编码模块用于来进行隐向量计算，所述解码模块用于进行任务输出。
18.进一步的，所述对视频数据进行关键帧提取具体包括对视频中进行关键帧提取，所述关键帧提取方法包括固定时间抽帧、固定帧数抽帧、帧差法、基于内容变化的其中任一种。
19.进一步的，所述场景描述标签为通过输出一段文字对视频内容进行描述；所述自动tag标签为针对每个关键帧自动标签属性；所述自动切分标签为根据动作内容，切分为多个小片段，需要切分的动作内容需预先定义。
20.进一步的，所述区域块和其他关键帧的区域块之间的对应关系为非整空间域，所对应的区域块为不同空间位置上的区域块。
21.进一步的，所述多个解码模块接收同一个编码模块输出的比对数据。
22.本发明还提供一种行车视频多任务处理系统，所述系统包括车载处理器，所述系统利用所述车载处理器，执行上述的行车视频多任务处理方法。
23.本发明通过多任务处理方法，其中三种任务共用一个编码模块，大大减少计算量，同时多任务框架由于任务之间的关联性强，还能带来精度上的提升，本方法在编码
‑
解码模式的自注意模块采用分割空间
‑
时间自注意力的方式，而非联合空间
‑
时间自注意力，这种计算方式可以计算量大大降低，同时分割空间
‑
时间自注意力的方式还会使网络参数空间稀疏化，有助于网络精度的提升，并能够有效提高视频任务的处理效率。
附图说明
24.图1为本发明实施例中行车视频多任务处理方法的结构流程图。
25.图2为本发明实施例区域块分割结构图。
26.图3为本发明实施例区域块比对示意图。。
27.图4为本发明实施例行车视频多任务处理方法训练框架流程图。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
29.本技术实施例的附图中相同或相似的标号对应相同或相似的部件；在本技术的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本技术和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制。
30.此外，若有“第一”、“第二”等术语仅用于描述目的，主要是用于区分不同的装置、
元件或组成部分(具体的种类和构造可能相同也可能不同)，并非用于表明或暗示所指示装置、元件或组成部分的相对重要性和数量，而不能理解为指示或者暗示相对重要性。
31.图1示出了本实施例中行车视频多任务处理方法的结构流程图。
32.如图1所示，本实施例提供一种行车视频多任务处理方法，该方法能够应用于车载处理单元中，对车载摄像头所采集到的视频数据进行描述、自动标签或自动切分。本方法与常规标签、切分等视频任务的区别在于，该方法能够在硬件相同的情况下，同时进行多项视频任务，从而提高视频处理效率。在实现方式上，本实施例中的通过三种任务共用一个encoder(编码模块)，大大减少计算量，同时多任务框架由于任务之间的关联性强，能够在视频处理方面带来精度上的提升。
33.具体的，本实施例的行车视频多任务处理方法基于车载处理器，则本方法可以利用车载处理器来进行视频处理，具体方法包括：
34.101、对视频数据进行关键帧提取；其中，关键帧的提取是为了配合视频处理硬件，常规的，关键帧的提取方法包括但不限于使用固定时间抽帧、固定帧数抽帧、帧差法、基于内容变化等方法。
35.当然，在某些应用场景中，此步骤也可省略，即对视频所有帧进行处理，这时每一帧都作为关键帧，由于硬件限制，系统能处理的图片序列长度有限，这会降低整体能处理的视频时长。该应用场景例如，在时间内容较短视频中，即可以将所有帧均作为关键帧进行处理。
36.102、通过编码模块对每个关键帧进行分解，按照预定格式分解为多个区域块；其中，区域块的分解方式根据车载处理的算力以及所需的车载任务精度进行合理设置。具体的，请参阅图2，在本实施例中，车载处理器对关键帧分解成4*4的区域块，即每帧一共有16个区域块。
37.在区域块的划分方面，每个区域块之间不相互重叠，且每个关键帧的划分方式相同，因此，每个关键帧相对应位置空间的区域块即为时间上的对应区域块。区域块的形状可以根据需求进行调整，例如，在本实施例中，区域块的形状为长方形。
38.103、根据分割空间
‑
时间自注意力模式，对关键帧的各个区域块与同帧的其他区域块以及其他关键帧的对应分解位置上的区域块进行比对。请参阅图3
‑
4，在区域块的比对方面，车载处理器通过区域块的比对来完成encoder(编码模块)和decoder(解码模块)的自注意力模式设计。
39.该对比方式采用分割空间
‑
时间自注意力，避免对所有patch(区域块)对进行详尽的比较。每个patch只与其他帧中相同空间位置的patch进行比较。如果视频包含t帧关键帧，则每个patch只进行t次时间上的比较。当使用空间注意力时，每个patch仅与同一帧内的patch进行比较。因此，如果n是每帧中的patch数，则分割空间
‑
时间注意力只对每个patch执行一共(t n)次比较，而不是联合空间
‑
时间注意力的方法所需的(t
×
n)次比较，该比对方式能够使车载处理的所需要计算量大大降低，该方式虽然比对次数减少，但并不会使其比对精度降低，因此，这种t n模式会高效而保持较高的精度，确保车载处理器能够同时进行多个视频任务的处理。
40.104、将比对数据经过多个解码模块进行多视频任务的处理，完成多任务输出；其中，解码模块预先设置有与对应视频任务相关的标签库。
41.优选的，在本实施例中，视频任务设置有三个，包括场景描述标签、自动tag标签和自动切分标签。其中，关键帧在经过encoder后，在decoder中拉出三条分支，分别进行三种任务输出，同时进行三个视频任务的处理。
42.具体的，本实施例中所实现的视频任务具体用途为：
43.(1)视频描述：输入视频，输出一段文字对视频内容进行描述；
44.(2)自动tag：输入视频，针对每个关键帧自动标签属性；
45.(3)自动切分：输入视频，根据动作内容，切分为多个小片段。
46.本实施例的好处在于，本方法通过多任务处理方法，其中三种任务共用一个编码模块，大大减少计算量，同时多任务框架由于任务之间的关联性强，还能带来精度上的提升，本方法在编码
‑
解码模式(encoder
‑
decoder模式)的自注意模块采用分割空间
‑
时间自注意力的方式，而非联合空间
‑
时间自注意力，这种计算方式可以计算量大大降低，同时分割空间
‑
时间自注意力的方式还会使网络参数空间稀疏化，有助于网络精度的提升，并能够有效提高视频任务的处理效率。
47.在一些实施例中，步骤103，根据分割空间
‑
时间自注意力模式，对关键帧的各个区域块与同帧的其他区域块以及其他关键帧的对应分解位置上的区域块进行比对具体包括：
48.将视频数据中的所有关键帧分解成一组不重叠的区域块；
49.将每个区域块与相同帧内的其他区域块以及其他关键帧中相同空间位置的区域块进行比较，得到比对结果。
50.这种比对方式可以使每个区域块能够与进行空间、时间上的比对，而非采用与所有区域块比对的方式，可以在保证精度的同时，降低其计算量，为多视频任务处理保证后足够的算力。
51.当然，上述比对方案仅作为优选之一，在另一些实施例中，区域块和其他关键帧的区域块之间的对应关系也可以为非整空间域，即区域块所采用的时间比对的区域块采用不同空间位置上的区域块或多个区域块。例如，区域块可以选用与其他帧相邻的几个区域块进行比对。
52.在一些实施例中，编码模块和解码模块采用transformer结构，编码模块用于来进行隐向量计算，解码模块用于进行任务输出。
53.在本实施例中，本方法所采用的解码模块接收同一个编码模块输出的比对数据，并同时加权的方式进行后续训练。
54.在具体的训练方面，本实施例具体选用三种视频任务共同进行的方式，为此，本实施例设计三种任务loss参数和加权loss参数。其中，场景描述的loss使用单个词的交叉熵loss之和；关键帧tag的loss使用单帧多标签分类交叉熵loss，这样支持单帧多种tag输出；自动切分的loss使用单帧非0即1的二分类交叉熵loss，而针对关键帧序列，loss为多个关键帧loss之和。另外，总的loss为以上三种loss的加权和，权重大小由实验前通过经验配置，初始均为1/3。本实施例车载处理器通过上述加权方式，能够使用加权loss训练网络，让模型能够收敛到很好的超参位置。
55.本实施例还提供一种行车视频多任务处理系统，其包括车载处理器，具体的，该系统利用车载处理器，以执行上述的行车视频多任务处理方法，从而达到增加测试网络精度，提高视频任务的处理效率。
56.显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种飞机发动机故障检测方法和系统与流程

一种行车视频多任务处理方法及系统与流程

相关文献

最热文献