基于深度学习的自动化视频摘要生成方法与流程

2022-07-06 08:33:31 来源：中国专利 TAG：

1.本发明涉及视频数据处理的技术领域，特别涉及基于深度学习的自动化视频摘要生成方法。

背景技术：

2.目前，在公共场所通常会设置摄像监控设备对场所进行实时影像采集，对对采集得到的监控影像进行识别分析，从而对监控影像中存在的异常的人员或情况进行甄别。现有技术基本是对监控影像进行人工筛选识别，这种方式需要依靠大量人员对监控影像进行逐帧的筛选识别，并且无法对监控影像本身关于识别结果的汇总整合，这不仅无法对监控影像进行全面和准确的筛选识别，也无法对监控影像进行深度加工处理，降低对监控影像识别处理的自动化和智能化程度。

技术实现要素：

3.针对现有技术存在的缺陷，本发明提供基于深度学习的自动化视频摘要生成方法，其对同一环境场合的不同方位区域进行同步拍摄，得到若干环境场合子视频；对环境场合子视频进行识别处理，得到关于环境场合子视频出现的不同对象的语义标签，继而在环境场合子视频的预设画面中形成视频内容摘要；最后按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频，这样可对不同摄像头拍摄的环境场合子视频进行同步识别分析，对环境场合子视频中的对象进行标定，并生成相匹配的视频内容摘要，从而对视频进行全面和准确的筛选识别，提高对视频识别处理的自动化和智能化程度。
4.本发明提供基于深度学习的自动化视频摘要生成方法，其包括如下步骤：
5.步骤s1，通过若干摄像头分别对同一环境场合的不同方位区域进行同步拍摄，从而采集得到若干环境场合子视频；根据所述环境场合子视频的拍摄方位，将所有环境场合子视频分组保存至区块链中；
6.步骤s2，根据来自视频处理终端的视频获取请求，从所述区块链中提取相应的环境场合子视频，并传送到所述视频处理终端；再对所述环境场合子视频进行识别处理，从而得到关于所述环境场合子视频出现的不同对象的语义标签；
7.步骤s3，根据所述语义标签，在所述环境场合子视频的预设画面中形成视频内容摘要；再对所述环境场合子视频进行数据压缩处理；
8.步骤s4，按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频。
9.进一步，在所述步骤s1中，通过若干摄像头分别对同一环境场合的不同方位区域进行同步拍摄，从而采集得到若干环境场合子视频具体包括：
10.将若干摄像头的摄像方向分别对准同一环境场合沿周向方向的不同方位区域，同时调整每个摄像头的拍摄视场角，使得所有摄像头的整体拍摄视场角能够完全覆盖所述环
境场合的整体周向方位区域；
11.再指示所有摄像头以相同焦距进行同步拍摄，从而采集得到若干环境场合子视频。
12.进一步，在所述步骤s1中，根据所述环境场合子视频的拍摄方位，将所有环境场合子视频分组保存至区块链中具体包括：
13.获取每个摄像头的拍摄方位信息，将所述拍摄方位信息作为视频索引信息添加至相应的环境场合子视频中；再将所有环境场合子视频分组保存至区块链中。
14.进一步，在所述步骤s2中，根据来自视频处理终端的视频获取请求，从所述区块链中提取相应的环境场合子视频，并传送到所述视频处理终端具体包括：
15.从来自视频处理终端的视频获取请求中提取相应的视频拍摄时间范围条件，再从所述区块链中提取得到与所述视频拍摄时间范围相匹配的环境场合子视频；再提取得到的所有环境场合子视频同步传送到所述视频处理终端。
16.进一步，在所述步骤s2中，对所述环境场合子视频进行识别处理，从而得到关于所述环境场合子视频出现的不同对象的语义标签具体包括：
17.按照所述环境场合子视频的视频流时间轴顺序，将所述环境场合子视频分解为若干环境场合图片帧；
18.对每个环境场合图片帧进行识别处理，从而得到所述环境场合图片帧初选的不同对象的身份属性信息和动作属性信息；
19.根据所述身份属性信息和所述动作属性信息，生成关于所述对象的身份属性语义标签和动作属性语义标签。
20.进一步，在所述步骤s3中，根据所述语义标签，在所述环境场合子视频的预设画面中形成视频内容摘要具体包括：
21.根据所述身份属性语义标签和所述动作属性语义标签，生成关于所述对象的身份状态和动作状态的文字摘要；
22.在所述对象出现的环境场合图片帧中选定预定的摘要添加画面区域，其中所述摘要添加画面区域与所述对象在所述环境场合图片帧中的出现画面区域不重叠；
23.将所述文字摘要添加到所述摘要添加画面区域后，将所述文字摘要进行自字体放大显示。
24.进一步，在所述步骤s3中，对所述环境场合子视频进行数据压缩处理具体包括：
25.按照所述环境场合子视频的视频流时间轴顺序，将所有环境场合图片帧依次重新组合后得到环境场合子视频，再对所述环境场合子视频进行保真压缩处理。
26.进一步，在所述步骤s3中，对所述环境场合子视频进行保真压缩处理具体包括：
27.步骤s301，利用下面公式(1)，根据所述环境场合子视频筛选出所述视频的保真压缩像素值，
[0028][0029]
在上述公式(1)中，l表示所述环境场合子视频的保真压缩像素值；la(i,j)表示所述环境场合子视频第a帧图像的第i行第j列像素点的像素值；m表示所述环境场合子视频的每一帧图像的每一行像素点个数；n表示所述环境场合子视频的每一帧图像的每一列像素
点个数；表示将i的值从1取值到n，将j的值从1取值到m得到括号内的最小值；g表示所述环境场合子视频的总帧数；表示将a的值从1取值到g得到括号内的最小值；；
[0030]
步骤s302，利用下面公式(2)，根据所述保真压缩像素值对所述环境场合子视频进行保真压缩处理，
[0031][0032]
在上述公式(2)中，表示对所述环境场合子视频进行保真压缩后的第a帧图像的像素数据(数据为像素矩阵形式)；表示将i的值从1取值到n，将j的值从1取值到m代入到括号内进行所有计算；
[0033]
步骤s303，利用下面公式(3)，根据压缩后的所述环境场合子视频数据判断所述压缩是否为有效压缩，并控制压缩后的数据是否需要进行还原，
[0034][0035]
在上述公式(3)中，y表示数据的还原控制值；h()表示求取括号内数据的数据量；
[0036]
若y＝1，表示进行保真压缩后的所述环境场合子视频需要进行还原；
[0037]
若y＝0，表示进行保真压缩后的所述环境场合子视频不需要进行还原。
[0038]
进一步，在所述步骤s4中，按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频具体包括：
[0039]
按照每个环境场合子视频的拍摄方位以及每个环境场合子视频的拍摄时间轴，将所有环境场合子视频进行画面无缝拼接，从而得到相应的环境全景场合视频。
[0040]
相比于现有技术，该基于深度学习的自动化视频摘要生成方法对同一环境场合的不同方位区域进行同步拍摄，得到若干环境场合子视频；对环境场合子视频进行识别处理，得到关于环境场合子视频出现的不同对象的语义标签，继而在环境场合子视频的预设画面中形成视频内容摘要；最后按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频，这样可对不同摄像头拍摄的环境场合子视频进行同步识别分析，对环境场合子视频中的对象进行标定，并生成相匹配的视频内容摘要，从而对视频进行全面和准确的筛选识别，提高对视频识别处理的自动化和智能化程度。
[0041]
本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0042]
下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。
附图说明
[0043]
为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本
发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0044]
图1为本发明提供的基于深度学习的自动化视频摘要生成方法的流程示意图。
具体实施方式
[0045]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0046]
参阅图1，为本发明实施例提供的基于深度学习的自动化视频摘要生成方法的流程示意图。该基于深度学习的自动化视频摘要生成方法包括如下步骤：
[0047]
步骤s1，通过若干摄像头分别对同一环境场合的不同方位区域进行同步拍摄，从而采集得到若干环境场合子视频；根据该环境场合子视频的拍摄方位，将所有环境场合子视频分组保存至区块链中；
[0048]
步骤s2，根据来自视频处理终端的视频获取请求，从该区块链中提取相应的环境场合子视频，并传送到该视频处理终端；再对该环境场合子视频进行识别处理，从而得到关于该环境场合子视频出现的不同对象的语义标签；
[0049]
步骤s3，根据该语义标签，在该环境场合子视频的预设画面中形成视频内容摘要；再对该环境场合子视频进行数据压缩处理；
[0050]
步骤s4，按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频。
[0051]
上述技术方案的有益效果为：该基于深度学习的自动化视频摘要生成方法对同一环境场合的不同方位区域进行同步拍摄，得到若干环境场合子视频；对环境场合子视频进行识别处理，得到关于环境场合子视频出现的不同对象的语义标签，继而在环境场合子视频的预设画面中形成视频内容摘要；最后按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频，这样可对不同摄像头拍摄的环境场合子视频进行同步识别分析，对环境场合子视频中的对象进行标定，并生成相匹配的视频内容摘要，从而对视频进行全面和准确的筛选识别，提高对视频识别处理的自动化和智能化程度。
[0052]
优选地，在该步骤s1中，通过若干摄像头分别对同一环境场合的不同方位区域进行同步拍摄，从而采集得到若干环境场合子视频具体包括：
[0053]
将若干摄像头的摄像方向分别对准同一环境场合沿周向方向的不同方位区域，同时调整每个摄像头的拍摄视场角，使得所有摄像头的整体拍摄视场角能够完全覆盖该环境场合的整体周向方位区域；
[0054]
再指示所有摄像头以相同焦距进行同步拍摄，从而采集得到若干环境场合子视频。
[0055]
上述技术方案的有益效果为：将若干摄像头设成分别对准同一环境场合沿着周向方向的不同方位区域，这样每个摄像头能够单独拍摄对应方位区域的视频，从而对环境场合进行无死角的全景拍摄以及提高对环境场合的视频拍摄实时性。此外指示所有摄像头以
相同焦距进行同步拍摄，这样可保证每个摄像头拍摄的环境场合子视频均具有相同的焦深范围，便于后续快速对不同环境场合子视频进行拼接整合。
[0056]
优选地，在该步骤s1中，根据该环境场合子视频的拍摄方位，将所有环境场合子视频分组保存至区块链中具体包括：
[0057]
获取每个摄像头的拍摄方位信息，将该拍摄方位信息作为视频索引信息添加至相应的环境场合子视频中；再将所有环境场合子视频分组保存至区块链中。
[0058]
上述技术方案的有益效果为：不同摄像头进行视频拍摄的拍摄方位并不相同，利用每个摄像头各自的拍摄方位信息作为视频索引信息添加至相应的环境场合子视频中，便于后续在区块链中快速准确查找到所需的环境场合子视频。
[0059]
优选地，在该步骤s2中，根据来自视频处理终端的视频获取请求，从该区块链中提取相应的环境场合子视频，并传送到该视频处理终端具体包括：
[0060]
从来自视频处理终端的视频获取请求中提取相应的视频拍摄时间范围条件，再从该区块链中提取得到与该视频拍摄时间范围相匹配的环境场合子视频；再提取得到的所有环境场合子视频同步传送到该视频处理终端。
[0061]
上述技术方案的有益效果为：在实际应用中，视频处理终端可为但不限于是具有图像处理功能的计算机。该视频处理终端向区块链发送视频获取请求，接着区块链根据视频获取请求中的视频拍摄时间范围条件，从而得到在相应时间范围内拍摄得到的环境场合子视频，便于对环境场合子视频进行分时段的识别处理。
[0062]
优选地，在该步骤s2中，对该环境场合子视频进行识别处理，从而得到关于该环境场合子视频出现的不同对象的语义标签具体包括：
[0063]
按照该环境场合子视频的视频流时间轴顺序，将该环境场合子视频分解为若干环境场合图片帧；
[0064]
对每个环境场合图片帧进行识别处理，从而得到该环境场合图片帧初选的不同对象的身份属性信息和动作属性信息；
[0065]
根据该身份属性信息和该动作属性信息，生成关于该对象的身份属性语义标签和动作属性语义标签。
[0066]
上述技术方案的有益效果为：按照环境场合子视频的视频流时间轴顺序，将环境场合子视频分解为若干环境场合图片帧，这样能够对环境场合子视频进行细化识别处理。具体而言，对每个环境场合图片帧存在的人物对象进行脸部识别和四肢动作识别，从而得到人物对象的身份属性信息和动作属性信息。随后根据身份属性信息和动作属性信息，生成语义文字形式的标签，这样能够对人物对象在环境场合的实时动态情况进行文字化的表征。
[0067]
优选地，在该步骤s3中，根据该语义标签，在该环境场合子视频的预设画面中形成视频内容摘要具体包括：
[0068]
根据该身份属性语义标签和该动作属性语义标签，生成关于该对象的身份状态和动作状态的文字摘要；
[0069]
在该对象出现的环境场合图片帧中选定预定的摘要添加画面区域，其中该摘要添加画面区域与该对象在该环境场合图片帧中的出现画面区域不重叠；
[0070]
将该文字摘要添加到该摘要添加画面区域后，将该文字摘要进行自字体放大显
示。
[0071]
上述技术方案的有益效果为：将该身份属性语义标签和该动作属性语义标签进行适应性的文字组合，得到关于该对象的身份状态和动作状态的文字摘要，这样通过阅读该文字摘要能够准确及时地了解人物对象的实时动态情况。随后在人物对象出现的环境场合图片帧中选定预定的摘要添加画面区域，以及将文字摘要添加到该摘要添加画面区域，这样在观看环境场合子视频过程中能够同时获得人物对象的实时动态情况，提高环境场合子视频的视觉观看性。
[0072]
优选地，在该步骤s3中，对该环境场合子视频进行数据压缩处理具体包括：
[0073]
按照该环境场合子视频的视频流时间轴顺序，将所有环境场合图片帧依次重新组合后得到环境场合子视频，再对该环境场合子视频进行保真压缩处理。
[0074]
上述技术方案的有益效果为：按照环境场合子视频的视频流时间轴顺序，将所有环境场合图片帧依次重新组合后得到环境场合子视频，这样环境场合子视频包含的每个图片帧均能够显示人物对象的实时动态情况。
[0075]
优选地，在该步骤s3中，对该环境场合子视频进行保真压缩处理具体包括：
[0076]
步骤s301，利用下面公式(1)，根据该环境场合子视频筛选出该视频的保真压缩像素值，
[0077][0078]
在上述公式(1)中，l表示该环境场合子视频的保真压缩像素值；la(i,j)表示该环境场合子视频第a帧图像的第i行第j列像素点的像素值；m表示该环境场合子视频的每一帧图像的每一行像素点个数；n表示该环境场合子视频的每一帧图像的每一列像素点个数；表示将i的值从1取值到n，将j的值从1取值到m得到括号内的最小值；g表示该环境场合子视频的总帧数；表示将a的值从1取值到g得到括号内的最小值；；
[0079]
步骤s302，利用下面公式(2)，根据该保真压缩像素值对该环境场合子视频进行保真压缩处理，
[0080][0081]
在上述公式(2)中，表示对该环境场合子视频进行保真压缩后的第a帧图像的像素数据(数据为像素矩阵形式)；表示将i的值从1取值到n，将j的值从1取值到m代入到括号内进行所有计算；
[0082]
步骤s303，利用下面公式(3)，根据压缩后的该环境场合子视频数据判断该压缩是否为有效压缩，并控制压缩后的数据是否需要进行还原，
[0083][0084]
在上述公式(3)中，y表示数据的还原控制值；h()表示求取括号内数据的数据量；
[0085]
若y＝1，表示进行保真压缩后的该环境场合子视频需要进行还原；
[0086]
若y＝0，表示进行保真压缩后的该环境场合子视频不需要进行还原。
[0087]
上述技术方案的有益效果为：利用上述公式(1)根据环境场合子视频筛选出视频的保真压缩像素值，进而在对视频进行保真压缩后还需要与视频的保真压缩像素值一并进行保存，方便后续的解压处理；然后利用上述公式(2)根据保真压缩像素值对环境场合子视频进行保真压缩处理，从而快速且高效的进行保真压缩处理，提高系统的运行效率；最后利用上述公式(3)根据压缩后的环境场合子视频数据判断压缩是否为有效压缩，并控制压缩后的数据是否需要进行还原，进而对于无效压缩进行还原，确保视频压缩的可靠性。
[0088]
优选地，在该步骤s4中，按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频具体包括：
[0089]
按照每个环境场合子视频的拍摄方位以及每个环境场合子视频的拍摄时间轴，将所有环境场合子视频进行画面无缝拼接，从而得到相应的环境全景场合视频。
[0090]
上述技术方案的有益效果为：按照每个环境场合子视频的拍摄方位以及每个环境场合子视频的拍摄时间轴，将所有环境场合子视频进行画面无缝拼接，这样得到的环境全景场合视频能够全面真实反映环境场合全局中人物对象的实时动态情况。
[0091]
从上述实施例的内容可知，该基于深度学习的自动化视频摘要生成方法对同一环境场合的不同方位区域进行同步拍摄，得到若干环境场合子视频；对环境场合子视频进行识别处理，得到关于环境场合子视频出现的不同对象的语义标签，继而在环境场合子视频的预设画面中形成视频内容摘要；最后按照每个环境场合子视频的拍摄方位，将所有环境场合子视频进行画面拼接，从而得到相应的环境全景场合视频，这样可对不同摄像头拍摄的环境场合子视频进行同步识别分析，对环境场合子视频中的对象进行标定，并生成相匹配的视频内容摘要，从而对视频进行全面和准确的筛选识别，提高对视频识别处理的自动化和智能化程度。
[0092]
显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：网络报文的压缩与解压方法、装置、设备及可读存储介质与流程

基于深度学习的自动化视频摘要生成方法与流程

相关文献

最热文献