一种基于作业现场的视频图像结构化方法及系统与流程

2022-07-31 07:04:10 来源：中国专利 TAG：

1.本发明涉及图像数据处理技术领域，尤其涉及一种基于作业现场的视频图像结构化方法及系统。

背景技术：

2.视频监控系统作为电力作业现场安全监控的重要组成部分，面临着深度应用的巨大挑战。当前亟待解决的问题是视频信息高效提取，各信息系统之间的标准数据交换及语义互操作。
3.但目前在视频数据利用上仍然采用人工的方式去浏览、排查，同时，还缺乏统一的结构化标准和规范，这导致难以高效且正确的解读视频信息。

技术实现要素：

4.本发明提供了一种基于作业现场的视频图像结构化方法及系统，用于解决解读视频信息的效率和准确性较低的技术问题。
5.有鉴于此，本发明第一方面提供了一种基于作业现场的视频图像结构化方法，包括以下步骤：
6.获取作业现场的监控视频，对所述监控视频进行解帧，得到视频帧序列；
7.采用直方图比较法计算所述视频帧序列的相邻两个视频帧的相似度，提取相似度小于预设阈值的视频帧作为关键帧，将所述关键帧加入到关键帧序列；
8.基于sift算法对所述关键帧序列中每个所述关键帧的视频图像的底层特征进行提取，得到每帧的所述关键帧对应的128维sift特征向量；
9.对所述128维sift特征向量进行归一化处理，从而得到归一化特征向量；
10.基于判别随机场模型对预先获取到的历史作业现场视频数据进行训练，以预先设定的语义类别标签作为输出量，从而构建分类器模型；
11.将所述归一化特征向量输入至所述分类器模型中，从而输出语义类别标签，得到所述归一化特征向量与所述语义类别标签之间的映射关系；
12.根据所述归一化特征向量与所述语义类别标签之间的映射关系对相应的所述关键帧进行标记视频标签，从而得到含有视频标签的监控视频。
13.优选地，所述采用直方图比较法计算所述视频帧序列的相邻两个视频帧的相似度，提取相似度小于预设阈值的视频帧作为关键帧，将所述关键帧加入到关键帧序列的步骤具体包括：
14.将所述视频帧序列中的第一帧视频作为当前帧视频加入到所述关键帧序列；
15.将所述当前帧视频以及与下一帧视频分割为若干个矩形块；
16.提取所述当前帧视频和所述下一帧视频中分别对应的每个矩形块的颜色直方图；
17.将所述当前帧视频和所述下一帧视频对应位置的颜色直方图进行相似性比较，得到相似性结果；
18.若相似性小于预设阈值时，则将所述下一帧视频作为当前帧视频加入到所述关键帧序列，转至所述将所述当前帧视频以及与其相邻的下一帧视频分割为若干个矩形块的步骤；若相似性不小于所述预设阈值时，则检测所述下一帧视频是否为所述关键帧序列的最后一帧，若所述下一帧视频不为所述关键帧序列的最后一帧，则转至所述将所述当前帧视频以及与其相邻的下一帧视频分割为若干个矩形块的步骤，直至所述下一帧视频为所述关键帧序列的最后一帧结束。
19.优选地，所述基于sift算法对所述关键帧序列中每个所述关键帧的视频图像的底层特征进行提取，得到每帧的所述关键帧对应的128维sift特征向量的步骤具体包括：
20.基于高斯卷积核建立高斯差分尺度空间为，
21.lg(x,y,k,σ)＝g(x,y,σ)
×
i(x,y)
22.式中，lg(x,y,k,σ)表示高斯差分尺度空间，(x,y)表示像素点的图像坐标，k表示相邻两尺度空间的差异性的常数因子，σ表示尺度空间因子，i(x,y)表示视频图像，g(x,y,σ)表示高斯卷积核；
23.通过对所述视频图像计算不同尺度下的高斯差分尺度空间，以构建图像金字塔，所述图像金字塔按照尺度划分为多组图像，每组有若干层图像，其中，当前组图像是通过对其上一组图像通过下釆样得到；
24.基于所述图像金字塔通过尺度不变性搜索同尺度空间内的所有极值点及其坐标位置；
25.以每个极值点为原点，在其周围的预设尺度区域内进行采样，利用直方图统计所述预设尺度区域内的像素的梯度方向，得到统计结果；
26.根据所述统计结果，将直方图的峰值方向作为相应的极值点的方向；
27.构建平面二维坐标系，所述平面二维坐标系的坐标轴为极值点的方向，根据所述极值点的坐标位置和尺度将所述极值点投影至所述平面二维坐标系上；
28.以所述极值点为中点建立16
×
16模块，并对每个模块内的像素点求其梯度直方图，将每个模块分成8个相同尺度的子块，对每一个子块求取一个16方向的梯度直方图，从而形成8个16方向的向量，得到128维sift特征向量。
29.优选地，本方法还包括：
30.对所述关键帧序列中的每个关键帧添加时间戳；
31.将所述关键帧及其对应的视频标签及对应的时间戳进行关联并生成索引，构建视频数据库。
32.第二方面，本发明还提供了一种基于作业现场的视频图像结构化系统，包括：
33.解帧模块，用于获取作业现场的监控视频，对所述监控视频进行解帧，得到视频帧序列；
34.关键帧模块，用于采用直方图比较法计算所述视频帧序列的相邻两个视频帧的相似度，提取相似度小于预设阈值的视频帧作为关键帧，将所述关键帧加入到关键帧序列；
35.特征提取模块，用于基于sift算法对所述关键帧序列中每个所述关键帧的视频图像的底层特征进行提取，得到每帧的所述关键帧对应的128维sift特征向量；
36.归一化模块，用于对所述128维sift特征向量进行归一化处理，从而得到归一化特征向量；
37.分类器模块，用于基于判别随机场模型对预先获取到的历史作业现场视频数据进行训练，以预先设定的语义类别标签作为输出量，从而构建分类器模型；
38.分类模块，用于将所述归一化特征向量输入至所述分类器模型中，从而输出语义类别标签，得到所述归一化特征向量与所述语义类别标签之间的映射关系；
39.标记模块，用于根据所述归一化特征向量与所述语义类别标签之间的映射关系对相应的所述关键帧进行标记视频标签，从而得到含有视频标签的监控视频。
40.优选地，所述关键帧模块具体包括：
41.当前帧提取模块，用于将所述视频帧序列中的第一帧视频作为当前帧视频加入到所述关键帧序列；
42.分割模块，用于将所述当前帧视频以及与下一帧视频分割为若干个矩形块；
43.直方图提取模块，用于提取所述当前帧视频和所述下一帧视频中分别对应的每个矩形块的颜色直方图；
44.相似性比较模块，用于将所述当前帧视频和所述下一帧视频对应位置的颜色直方图进行相似性比较，得到相似性结果；
45.判别模块，用于若相似性小于预设阈值时，则将所述下一帧视频作为当前帧视频加入到所述关键帧序列；还用于若相似性不小于所述预设阈值时，则检测所述下一帧视频是否为所述关键帧序列的最后一帧，若所述下一帧视频不为所述关键帧序列的最后一帧，则通知所述分割模块进行工作，直至所述下一帧视频为所述关键帧序列的最后一帧结束。
46.优选地，所述特征提取模块具体包括：
47.尺度空间构建模块，用于基于高斯卷积核建立高斯差分尺度空间为，
48.lg(x,y,k,σ)＝g(x,y,σ)
×
i(x,y)
49.式中，lg(x,y,k,σ)表示高斯差分尺度空间，(x,y)表示像素点的图像坐标，k表示相邻两尺度空间的差异性的常数因子，σ表示尺度空间因子，i(x,y)表示视频图像，g(x,y,σ)表示高斯卷积核；
50.金字塔构建模块，用于通过对所述视频图像计算不同尺度下的高斯差分尺度空间，以构建图像金字塔，所述图像金字塔按照尺度划分为多组图像，每组有若干层图像，其中，当前组图像是通过对其上一组图像通过下釆样得到；
51.极值点搜索模块，用于基于所述图像金字塔通过尺度不变性搜索同尺度空间内的所有极值点及其坐标位置；
52.梯度统计模块，用于以每个极值点为原点，在其周围的预设尺度区域内进行采样，利用直方图统计所述预设尺度区域内的像素的梯度方向，得到统计结果；
53.方向指定模块，用于根据所述统计结果，将直方图的峰值方向作为相应的极值点的方向；
54.投影模块，用于构建平面二维坐标系，所述平面二维坐标系的坐标轴为极值点的方向，根据所述极值点的坐标位置和尺度将所述极值点投影至所述平面二维坐标系上；
55.特征向量获取模块，用于以所述极值点为中点建立16
×
16模块，并对每个模块内的像素点求其梯度直方图，将每个模块分成8个相同尺度的子块，对每一个子块求取一个16方向的梯度直方图，从而形成8个16方向的向量，得到128维sift特征向量。
56.优选地，本系统还包括：
57.时间戳模块，用于对所述关键帧序列中的每个关键帧添加时间戳；
58.数据库模块，用于将所述关键帧及其对应的视频标签及对应的时间戳进行关联并生成索引，构建视频数据库。
59.第三方面，本发明还提供了一种电子设备，包括：
60.存储器，用于存放计算机程序；
61.处理器，用于执行存储器上所存放的程序时，实现上述的方法步骤。
62.第四方面，本发明还提供了一种存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法步骤。
63.从以上技术方案可以看出，本发明具有以下优点：
64.本发明通过对监控视频进行解帧，得到视频帧序列，采用直方图比较法在视频帧序列中提取关键帧，基于sift算法对每个关键帧的视频图像的提取对应的128维sift特征向量，并对128维sift特征向量进行归一化处理，通过构建分类器模型，将128维sift特征向量输入至分类器模型，输出对应的语义类别标签，将语义类别标签添加到相应的关键帧上，从而得到含有视频标签的监控视频，以建立视频数据的语义结构，提高了解读视频信息的效率和准确性。
附图说明
65.图1为本发明实施例提供的一种基于作业现场的视频图像结构化方法的流程图；
66.图2为本发明实施例提供的一种基于作业现场的视频图像结构化系统的结构示意图。
具体实施方式
67.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
68.为了便于理解，请参阅图1，本发明提供的一种基于作业现场的视频图像结构化方法，包括以下步骤：
69.100、获取作业现场的监控视频，对监控视频进行解帧，得到视频帧序列。
70.其中，监控视频进行解帧所得到的视频帧序列具有时序性。
71.200、采用直方图比较法计算视频帧序列的相邻两个视频帧的相似度，提取相似度小于预设阈值的视频帧作为关键帧，将关键帧加入到关键帧序列。
72.需要说明的是，本实施例采用直方图比较法来进行监控视频的关键帧提取，从而提取视频中具有代表性的帧来表达视频内容。
73.300、基于sift算法对关键帧序列中每个关键帧的视频图像的底层特征进行提取，得到每帧的关键帧对应的128维sift特征向量。
74.400、对128维sift特征向量进行归一化处理，从而得到归一化特征向量。
75.可以理解的是，将128维sift特征向量进行归一化处理，可以进一步去除光照对其的影响。
76.500、基于判别随机场模型对预先获取到的历史作业现场视频数据进行训练，以预先设定的语义类别标签作为输出量，从而构建分类器模型。
77.其中，历史作业现场视频数据可以预先获取到，而预先设定的语义类别标签是可以根据历史作业现场视频数据进行人工设定，在一个具体示例中，根据视频内容将语义类别标签设定为未戴安全帽、跨域物理围栏、人员倒地以及无异常情况。
78.600、将归一化特征向量输入至分类器模型中，从而输出语义类别标签，得到归一化特征向量与语义类别标签之间的映射关系。
79.700、根据归一化特征向量与语义类别标签之间的映射关系对相应的关键帧进行标记视频标签，从而得到含有视频标签的监控视频。
80.本实施例提供了一种基于作业现场的视频图像结构化方法，通过对监控视频进行解帧，得到视频帧序列，采用直方图比较法在视频帧序列中提取关键帧，基于sift算法对每个关键帧的视频图像的提取对应的128维sift特征向量，并对128维sift特征向量进行归一化处理，通过构建分类器模型，将128维sift特征向量输入至分类器模型，输出对应的语义类别标签，将语义类别标签添加到相应的关键帧上，从而得到含有视频标签的监控视频，以建立视频数据的语义结构，提高了解读视频信息的效率和准确性。
81.在一个具体实施例中，步骤200具体包括：
82.201、将视频帧序列中的第一帧视频作为当前帧视频加入到关键帧序列。
83.其中，关键帧序列在初始状态时为空。而第一帧视频为视频帧序列按照时序先后顺序的第一帧。
84.202、将当前帧视频以及与下一帧视频分割为若干个矩形块。
85.在本实施例中，分割为3*3个矩形块。
86.203、提取当前帧视频和下一帧视频中分别对应的每个矩形块的颜色直方图。
87.204、将当前帧视频和下一帧视频对应位置的颜色直方图进行相似性比较，得到相似性结果。
88.若相似性小于预设阈值时，则将下一帧视频作为当前帧视频加入到关键帧序列，转至步骤202；若相似性不小于预设阈值时，则检测下一帧视频是否为关键帧序列的最后一帧，若下一帧视频不为关键帧序列的最后一帧，则转至步骤202，直至下一帧视频为关键帧序列的最后一帧结束。
89.在一个具体实施例中，步骤300具体包括：
90.301、基于高斯卷积核建立高斯差分尺度空间为，
91.lg(x,y,k,σ)＝g(x,y,σ)
×
i(x,y)
92.式中，lg(x,y,k,σ)表示高斯差分尺度空间，(x,y)表示像素点的图像坐标，k表示相邻两尺度空间的差异性的常数因子，σ表示尺度空间因子，i(x,y)表示视频图像，g(x,y,σ)表示高斯卷积核；
93.其中，高斯卷积核采用现有技术中的表示方式。
94.302、通过对视频图像计算不同尺度下的高斯差分尺度空间，以构建图像金字塔，图像金字塔按照尺度划分为多组图像，每组有若干层图像，其中，当前组图像是通过对其上一组图像通过下釆样得到。
95.303、基于图像金字塔通过尺度不变性搜索同尺度空间内的所有极值点及其坐标
位置。
96.其中，极值点为具有尺度不变性的特征点。
97.304、以每个极值点为原点，在其周围的预设尺度区域内进行采样，利用直方图统计预设尺度区域内的像素的梯度方向，得到统计结果。
98.305、根据统计结果，将直方图的峰值方向作为相应的极值点的方向。
99.其中，通过尺度不变性求得极值点，还需要利用图像的局部特征为给每一个极值点分配一个基准方向，使描述子对图像旋转具有不变性。
100.306、构建平面二维坐标系，平面二维坐标系的坐标轴为极值点的方向，根据极值点的坐标位置和尺度将极值点投影至平面二维坐标系上。
101.307、以极值点为中点建立16
×
16模块，并对每个模块内的像素点求其梯度直方图，将每个模块分成8个相同尺度的子块，对每一个子块求取一个16方向的梯度直方图，从而形成8个16方向的向量，得到128维sift特征向量。
102.在一个具体实施例中，本方法还包括：
103.800、对关键帧序列中的每个关键帧添加时间戳；
104.需要说明的是，其时间戳是基于关键帧的实际获取时间进行添加。
105.900、将关键帧及其对应的视频标签及对应的时间戳进行关联并生成索引，构建视频数据库。
106.通过建立索引，使得每个索引对应有时间戳及其对应的关键帧、视频标签和视频内容，从而以便于通过视频标签可以找到相应的视频内容。
107.以上为本发明提供的一种基于作业现场的视频图像结构化方法的实施例的详细描述，以下为本发明提供的一种基于作业现场的视频图像结构化系统的实施例的详细描述。
108.为了方便理解，请参阅图2，本发明提供的一种基于作业现场的视频图像结构化系统，包括：
109.解帧模块10，用于获取作业现场的监控视频，对监控视频进行解帧，得到视频帧序列；
110.关键帧模块20，用于采用直方图比较法计算视频帧序列的相邻两个视频帧的相似度，提取相似度小于预设阈值的视频帧作为关键帧，将关键帧加入到关键帧序列；
111.特征提取模块30，用于基于sift算法对关键帧序列中每个关键帧的视频图像的底层特征进行提取，得到每帧的关键帧对应的128维sift特征向量；
112.归一化模块40，用于对128维sift特征向量进行归一化处理，从而得到归一化特征向量；
113.分类器模块50，用于基于判别随机场模型对预先获取到的历史作业现场视频数据进行训练，以预先设定的语义类别标签作为输出量，从而构建分类器模型；
114.分类模块60，用于将归一化特征向量输入至分类器模型中，从而输出语义类别标签，得到归一化特征向量与语义类别标签之间的映射关系；
115.标记模块70，用于根据归一化特征向量与语义类别标签之间的映射关系对相应的关键帧进行标记视频标签，从而得到含有视频标签的监控视频。
116.在一个具体实施例中，关键帧模块具体包括：
117.当前帧提取模块，用于将视频帧序列中的第一帧视频作为当前帧视频加入到关键帧序列；
118.分割模块，用于将当前帧视频以及与下一帧视频分割为若干个矩形块；
119.直方图提取模块，用于提取当前帧视频和下一帧视频中分别对应的每个矩形块的颜色直方图；
120.相似性比较模块，用于将当前帧视频和下一帧视频对应位置的颜色直方图进行相似性比较，得到相似性结果；
121.判别模块，用于若相似性小于预设阈值时，则将下一帧视频作为当前帧视频加入到关键帧序列；还用于若相似性不小于预设阈值时，则检测下一帧视频是否为关键帧序列的最后一帧，若下一帧视频不为关键帧序列的最后一帧，则通知分割模块进行工作，直至下一帧视频为关键帧序列的最后一帧结束。
122.在一个具体实施例中，特征提取模块具体包括：
123.尺度空间构建模块，用于基于高斯卷积核建立高斯差分尺度空间为，
124.lg(x,y,k,σ)＝g(x,y,σ)
×
i(x,y)
125.式中，lg(x,y,k,σ)表示高斯差分尺度空间，(x,y)表示像素点的图像坐标，k表示相邻两尺度空间的差异性的常数因子，σ表示尺度空间因子，i(x,y)表示视频图像，g(x,y,σ)表示高斯卷积核；
126.金字塔构建模块，用于通过对视频图像计算不同尺度下的高斯差分尺度空间，以构建图像金字塔，图像金字塔按照尺度划分为多组图像，每组有若干层图像，其中，当前组图像是通过对其上一组图像通过下釆样得到；
127.极值点搜索模块，用于基于图像金字塔通过尺度不变性搜索同尺度空间内的所有极值点及其坐标位置；
128.梯度统计模块，用于以每个极值点为原点，在其周围的预设尺度区域内进行采样，利用直方图统计预设尺度区域内的像素的梯度方向，得到统计结果；
129.方向指定模块，用于根据统计结果，将直方图的峰值方向作为相应的极值点的方向；
130.投影模块，用于构建平面二维坐标系，平面二维坐标系的坐标轴为极值点的方向，根据极值点的坐标位置和尺度将极值点投影至平面二维坐标系上；
131.特征向量获取模块，用于以极值点为中点建立16
×
16模块，并对每个模块内的像素点求其梯度直方图，将每个模块分成8个相同尺度的子块，对每一个子块求取一个16方向的梯度直方图，从而形成8个16方向的向量，得到128维sift特征向量。
132.本实施例提供了一种基于作业现场的视频图像结构化系统，通过对监控视频进行解帧，得到视频帧序列，采用直方图比较法在视频帧序列中提取关键帧，基于sift算法对每个关键帧的视频图像的提取对应的128维sift特征向量，并对128维sift特征向量进行归一化处理，通过构建分类器模型，将128维sift特征向量输入至分类器模型，输出对应的语义类别标签，将语义类别标签添加到相应的关键帧上，从而得到含有视频标签的监控视频，以建立视频数据的语义结构，提高了解读视频信息的效率和准确性。
133.在一个具体实施例中，本系统还包括：
134.时间戳模块，用于对关键帧序列中的每个关键帧添加时间戳；
135.数据库模块，用于将关键帧及其对应的视频标签及对应的时间戳进行关联并生成索引，构建视频数据库。
136.本发明还提供了一种电子设备，包括：
137.存储器，用于存放计算机程序；
138.处理器，用于执行存储器上所存放的程序时，实现上述实施例中的方法步骤。
139.本发明还提供了一种存储介质，存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的方法步骤。
140.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
141.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
142.作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
143.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
144.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(英文全称：read-only memory，英文缩写：rom)、随机存取存储器(英文全称：random access memory，英文缩写：ram)、磁碟或者光盘等各种可以存储程序代码的介质。
145.以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：文本结构的表征方法、装置、计算机设备及存储介质与流程

一种基于作业现场的视频图像结构化方法及系统与流程

相关文献

最热文献