一种视频分析方法及装置与流程

2022-07-20 16:50:25 来源：中国专利 TAG：

1.本公开涉及人工智能领域，尤其涉及视频分析技术领域。

背景技术：

2.近年来，以卷积神经网络为代表的深度学习方法在图像分析与物件识别方面取得了令人瞩目的成绩。对单帧图像的深度分析已经能够以较高的成功概率和稳定性，从图像中获取特定目标的信息，包括存在与否，所处位置以及状态变化等。这使得车辆识别、人脸识别等应用的大规模部署具备了相当的技术基础。但是，视频分析的深入程度与稳定性存在不足。

技术实现要素：

3.本公开提供了一种视频分析的方法、装置、设备以及存储介质。
4.根据本公开的第一方面，提供了一种视频分析方法。该方法包括：接收待分析视频，从待分析视频中获取视频帧序列；将所述视频帧序列输入第一神经网络模型；得到对应的第一分类结果；输出所述视频的关键帧或者关键片段；将所述视频的关键帧或者关键片段根据其第一分类结果进行存储；将第一神经网络模型得到的图像特征馈送到第二神经网络模型，对所存储的视频关键帧或者关键片段进行分析得到对应的第二分类结果；根据所述第一分类结果与所述第二分类结果，生成视频帧序列对应的分类结果。
5.根据本公开的第二方面，提供了一种视频分析装置。该装置包括：获取模块，用于接收待分析视频，从待分析视频中获取视频帧序列；第一分类模块，用于将所述视频帧序列输入第一神经网络模型；得到对应的第一分类结果；输出所述视频的关键帧或者关键片段；将所述视频的关键帧或者关键片段根据其第一分类结果进行存储；第二分类模块，用于将第一神经网络模型得到的图像特征馈送到第二神经网络模型，对所存储的视频关键帧或者关键片段进行分析得到对应的第二分类结果；输出模块，用于根据所述第一分类结果与所述第二分类结果，生成视频帧序列对应的分类结果。
6.根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。
7.根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面和/或第二发面的方法。
8.应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
9.结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相
似的附图标记表示相同或相似的元素，其中：
10.图1示出了能够在其中实现本公开的实施例的示例性运行环境的示意图；
11.图2示出了根据本公开的实施例的视频分析方法的流程图；
12.图3示出了根据本公开的实施例的视频分析装置的框图；
13.图4示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
14.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。
15.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
16.图1示出了可以应用本公开的视频分析方法或视频分析装置的实施例的示例性系统架构100。
17.如图1所示，系统架构100可以包括视频采集设备101、网络102和服务器103。网络102用以在视频采集设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。
18.视频采集设备101可以通过网络102与服务器103交互，以接收或发送视频等。视频采集设备101可以是硬件，也可以是软件。当视频采集设备101为硬件时，可以是各种带有摄像头的电子设备。当视频采集设备101为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。
19.服务器103可以提供各种服务。例如，服务器103可以获取从视频采集设备101采集到的视频中提取的视频帧序列，并对视频帧序列进行识别，以生成视频帧序列对应的识别结果。
20.需要说明的是，服务器103可以是硬件，也可以是软件。当服务器103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器103为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。
21.需要说明的是，本公开实施例所提供的方法一般由服务器103执行，相应地，识别装置一般设置于服务器103中。
22.应该理解，图1中的视频采集设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的视频采集设备、网络和服务器。
23.在一些实施例中，待分析视频也可以是预先采集后，由视频存储设备提供给服务器进行识别，以生成视频帧序列对应的识别结果。
24.图2示出了根据本公开实施例的视频分析方法200的流程图。
25.在框210，接收待分析视频；从待分析视频中获取视频帧序列；
26.在一些实施例中，也可以接收待分析图像，即所述视频仅包括一帧视频帧的特殊
情况。
27.在一些实施例中，所述视频帧序列由若干视频帧组成。视频帧序列包含的视频帧的数目可以任意设置。
28.根据实际的应用场景或应用需求，可以灵活采用各种方法从待分析视频中提取视频帧序列。例如，可以间隔式地抽取若干关键帧组成视频帧序列。
29.在框220，将所述视频帧序列输入第一神经网络模型；得到对应的第一分类结果；输出所述视频的关键帧或者关键片段并根据其第一分类结果进行存储；
30.在一些实施例中，所述第一神经网络模型可以包括关键帧/帧序列提取网络和分类网络。其中，关键帧/帧序列提取网络可以用于提取输入的视频帧序列所包括的关键帧或者帧序列，为后续深入分析提供数据基础，分类网络可以用于根据关键帧/帧序列提取网络输出的特征提取结果确定输入视频帧序列对应的类别的初步判别。根据实际的应用场景，可以由技术人员预先设置类别集，此时分类网络可以用于确定视频帧序列对应的、属于该类别集中的类别。
31.在一些实施例中，关键帧/帧序列提取网络可以是基于卷积神经网络的关键帧识别，对视频帧序列中每一帧提取深度卷积网络特征，生成特征向量；并利用svm分类器将特征向量分类；对于每一类，利用lda学习一个矩阵，最大化与其他类别的距离；根据预先训练的关键帧得分网络，计算每一帧的得分，选出得分最高的几帧，作为最终的提取结果。
32.所述第一神经网络模型可以基于现有的各种卷积神经网络(cnn，convolutional neural networks)或者注意力网络的网络结构进行构建，然后可以利用预设的训练样本和损失函数，利用机器学习的方法训练得到。
33.在一些实施例中，所述第一神经网络模型是一个轻量化的神经网络模型，用于对所述视频帧序列进行快速分类。所述第一分类结果为实体类别中的上位词。
34.在一些实施例中，所述第一神经网络模型通过特征提取、注意力生成、分类决策等手段来实现对于视频内容的简单分类。
35.在一些实施例中，所述第一分类结果为是否与当前分析任务有关、视频类型、视频中实体类型(如：人、动物)等。
36.在一些实施例中，对所述视频帧序列进行分类的同时，输出所述视频的关键帧或者关键片段；将所述视频的关键帧或者关键片段根据其第一分类结果进行存储。即，将同一类别的关键帧或者关键片段存储在存储介质的相邻存储空间上。对于与已有存储内容不同类的关键帧或者关键片段，根据其类别之间的距离(特征距离)，将类别之间的距离的新内容，采用随机哈希的方式进行存储，一方面保证不与已有存储内容发生冲突碰撞，一方面尽可能拉开与已有存储内容之间的物理存储空间距离，保持存储空间利用的稀疏性。也可以将不同类别的关键帧或者关键片段分别存储到预设的不同存储区域中。
37.通过上述步骤，视频的分类信息转换到了视频的存储位置上，这非常有利于后面的处理，也和人脑的工作机理相仿。以便由复杂度远高于第一神经网络的第二神经网络对存储在同一区域的视频关键帧或者关键片段进行深入分析，输出更加精细的类型判断或者其他决策结果。
38.在框230，将第一神经网络模型得到的图像特征馈送到第二神经网络模型，对所述视频关键帧或者关键片段进行分析得到对应的第二分类结果。
39.在一些实施例中，将所述视频关键帧或者关键片段与第一神经网络模型得到的初步分类结果馈送到第二神经网络模型，得到对应的第二分类结果。
40.在一些实施例中，从对应存储区域获取所述视频关键帧或者关键片段的过程中即可根据其存储区域获取对应的初步分类结果。
41.在一些实施例中，所述第二神经网络模型将第一神经网络模型得到的初步分类结果与关键帧或者关键片段进行组合，作为第二神经网络模型的输入；通过对所述输入的识别，得到对应的第二分类结果。
42.在一些实施例中，将第一神经网络模型得到的初步分类结果与关键帧或者关键片段进行组合，输入到第二神经网络包括：将第一神经网络模型得到的初步分类结果作为索引，调取第二神经网络中与该类型相对应的网络资源(包括卷积层、注意力机制等)，对所述关键帧或者关键片段进行进一步深入分析，进一步提取特征，并对特征进行分类判决，输出对所述视频帧序列的第二分类结果。
43.在一些实施例中，所述第二分析结果为实体类别中的下位词。
44.在一些实施例中，所述第二分类结果为视频中实体类型对应的特征，如第一分类结果为人，第二分类结果为性别、年龄、动作等。
45.在一些实施例中，所述第二神经网络模型是根据训练样本集中的视频帧序列以及对应的标注，如实体类型对应的特征，进行训练得到的。
46.在框240，根据所述第一分类结果与所述第二分类结果，生成视频帧序列对应的分类结果。
47.在一些实施例中，所述分类结果为实体类型以及实体类型对应的特征。例如，男性人员、中年人员等。
48.根据本公开的实施例，实现了以下技术效果：
49.为视频深度分析提供“空间换时间”的执行路径，从而解决了视频分析中执行效率与分析深度之间的矛盾，即首先对大量到达的信息进行时间花费较少的简单处理和存储，确保了信息分析的完整性和时效性；其次再对前期简单处理的结果进行时间花费较多但是更加深入的二次处理，确保了信息分析的深入性与系统性。
50.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。
51.以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。
52.图3示出了根据本公开的实施例的视频分析装置300的方框图。装置300可以被包括在图1的服务器103中或者被实现为服务器103。如图3所示，装置300包括：
53.获取模块310，用于接收待分析视频，从待分析视频中获取视频帧序列；
54.第一分类模块320，用于将所述视频帧序列输入第一神经网络模型；得到对应的第一分类结果；输出所述视频的关键帧或者关键片段；将所述视频的关键帧或者关键片段根据其第一分类结果进行存储；
55.第二分类模块330，用于将第一神经网络模型得到的图像特征馈送到第二神经网络模型，对所存储的视频关键帧或者关键片段进行分析得到对应的第二分类结果；
56.输出模块340，用于根据所述第一分类结果与所述第二分类结果，生成视频帧序列对应的分类结果。
57.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
58.本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。
59.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
60.图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
61.设备400包括计算单元401，其可以根据存储在只读存储器(rom)402中的计算机程序或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序，来执行各种适当的动作和处理。在ram 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405也连接至总线404。
62.设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
63.计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到ram 403并由计算单元401执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200。
64.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器
可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
65.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
66.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
67.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
68.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
69.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。
70.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
71.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于系统日志信息的智能入侵检测方法和系统

一种视频分析方法及装置与流程

相关文献

最热文献