一种视频关键点的动态捕捉方法及装置

2022-05-11 11:54:28 来源：中国专利 TAG：

1.本发明涉及移动目标检测技术领域，尤其涉及一种基于背景差分法和最小二乘法的视频关键点的动态捕捉方法及装置。

背景技术：

2.随着时代的发展和进步，特别是信息化时代的到来，视频监控基本已经应用在了各个领域，例如：交通信息监控、公共安全监控、重点公共场所监控以及安防等领域。
3.目前，监控摄像机应用广泛，但大部分监控摄像机都不能自动完成监视工作，仅起到记录过程的作用。具体的监控任务，仍是由人工而非机器来完成。当视频监控工作由人工来进行时，工作压力大，对工作人员的专注程度及特殊情况事件的处理能力要求高。而相关研究表明，即便是注意力很集中的工作人员，持续不断地紧盯屏幕超过一定时间后，专注程度也会逐渐下降，最终到无法满足监控工作的要求，这对监控视频技术提出了新的挑战。
4.智能监控系统能识别不同的目标，例如：输油管道的动态变化对过往船只造成潜在危险，对于输油管道的运动检测变得十分必要。因此，相关学者和研究人员一致认为，监控视频由人工走向智能化是视频监控领域的发展趋势。智能监控系统使用智能机器代替人工，将一些监控工作交给智能系统，减少工作人员，同时提高效率，这是智能监控系统的优点。而智能视频监控系统的主要工作内容是移动目标的检测，以及目标跟踪等。能否很好的检测出监控视频中的移动目标是评价智能监控系统好坏的重要标准之一。同时目标跟踪需要在目标检测的基础上进行。目标检测的好坏一定程度上会影响目标跟踪的结果。此外，复杂背景下的跟踪、多目标的实时跟踪以及跟踪中目标被遮挡问题等，目前仍然存在很多技术难点，需要研究人员继续深入研究。

技术实现要素：

5.本发明提供了一种视频关键点的动态捕捉方法及装置，旨在利用背景差分法和最小二乘法，针对海上输油管道动态运动的实施背景，实现对输油管道的关键点运动轨迹动态预测，拟合输油管道的运动状态，实现对输油管道工作运行状态的实时监测，详见下文描述：
6.第一方面，一种视频关键点的动态捕捉方法，所述方法包括以下步骤：
7.对预处理后图像中的背景进行建模，对没有运动目标的图像进行预处理后获得图像的灰度值，并按区间进行统计，获取初始背景图像灰度值的分布区间；
8.当有运动的目标出现后，利用前期的背景图像，通过减法运算获取背景差图，区分出运动前景和背景，实现图像分割；
9.基于图像分割结果，在原有关键点的匹配过程中增加一种多尺度区域卷积神经网络，用以提升视频前一帧与后一帧中关键点匹配精度；
10.使用最小二乘法拟合出关键点的运动轨迹，实现视频中关键点的动态捕捉。
11.其中，所述预处理依次包括：对原始视频进行分帧处理、对分帧处理后的图像进行
颜色建模；对建模的图像进行滤波处理；最后对滤波处理后的图像进行对比度调整，获取到预处理后的图像。
12.进一步地，所述对原始视频进行分帧处理具体为：
13.获取视频总体时间，每隔预设时间间隔抽取一个关键帧，代表预设时间间隔内的运动状态；将得到的若干帧图像重新组合为一段视频，并在软件窗口加以展示。
14.其中，所述每隔预设时间间隔抽取一个关键帧，代表预设时间间隔内的运动状态；将得到的若干帧图像重新组合为一段视频具体为：
15.利用视觉计算库函数对目标视频分帧，每隔特定的时间间隔选取一帧，最终得到多个视频关键帧；
16.利用视觉计算库函数对提取出的视频关键帧，采取拼接操作保存为与原视频相同格式的采样视频。
17.进一步地，所述对初始背景灰度值的分布区间中的图像进行前景检测，获取背景差图，区分出运动前景和背景，实现图像分割具体为：
18.利用特征点的坐标位置距离去判断不同帧的图像中两个特征点是否为同一特征点；
19.当距离小于设定阈值时，判定两个特征点为不同帧的图像中同一位置的特征点，在背景特征点中，查找其与当前帧的图像中欧式距离最近的前两个特征点，如果欧氏距离最近的比欧氏距离次近的比值少于预先设定的阈值，则匹配成功；
20.将匹配成功的特征点作为背景特征点，剩下的特征点为运动目标的特征点，根据它们与特征点的中心之间的距离进行剔除；
21.根据剩余特征点的位置坐标信息，通过特征点坐标位置中横坐标和纵坐标的最大值和最小值，将目标固定在其出现的候选目标区域。
22.其中，所述使用最小二乘法拟合出关键点的运动轨迹具体为：
23.将每一帧的关键点及拟合方程显示在各帧图像上，在显示三维空间曲线的过程中，基于两条拟合曲线，密集选取两条曲线上的轴坐标对应的关键点满足：
[0024][0025]
得到一组三维拟合实验数据(x1，y1，z1)，(x2，y2，z2)，(x3，y3，z3)，...，(xq，yq，zq)，建立三维坐标点显示空间，将实验数据点映射到三维空间下，得到对应的三维空间曲线；
[0026]
将每一帧图像得到的三维空间曲线以图像格式保存，同时在窗口以视频形式显示轨迹变化。
[0027]
第二方面、一种视频关键点的动态捕捉装置，所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0028]
第三方面、一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤。
[0029]
本发明提供的技术方案的有益效果包括如下方面：
[0030]
1、本发明有效实现了高分辨率视频的预处理：本发明可以高效读取并显示管道轨
迹监测视频；由于初始视频分辨率，帧率，画质较高，占据大量内存空间，为图像预处理及软件显示带来挑战，故首先对原始视频采取“分帧”操作；对所有关键视频片段进行处理，并采取拼接操作，保存为与原视频相同格式的采样视频，利用视觉计算库函数读取保存的采样视频，在窗口中加以展示；
[0031]
2、本发明有效实现了对视频中关键点进行选取及坐标记录：关键点的选取通过鼠标点击的方式，在软件后台记录鼠标点击处的位置坐标，一方面以标记点的方式标记在视频的第一帧图像处，另一方面在后台记录位置坐标，以便之后的拟合操作；
[0032]
3、本发明有效实现了视频片段中图像的视觉处理：首先要确定图像所采用的颜色模型，颜色模型就是用一组数值来描述颜色的数学模型，由于对目标检测与跟踪过程中极少用到此类颜色特征，因此在对图像或视频进行处理的过程中，通常为了减少计算量，对图像进行灰度化处理，对图像进行滤波处理，除去视频的每帧图像中可能存在的噪声点，在实验中，采用高斯滤波与中值滤波相结合的方式，提升图像预处理质量；对图像对比度进行调整，将原始图的直方图变换为均匀分布的形式，这样就增加了像素灰度值的动态范围，从而达到增强图像整体对比度的效果；
[0033]
4、本发明有效实现了视频中关键点运动轨迹预测及拟合：对于关键点运动轨迹的预测，由于视频中背景较为复杂，影响轨迹预测效果，首先采取背景差分法，确定运动轨迹的大致范围；对于关键点运动轨迹拟合，使用最小二乘法，根据“使偏差平方和最小”的原则选取拟合曲线；最后，将每一帧图像得到的三维空间曲线以图像格式保存到后台，同时在窗口以视频形式显示轨迹变化。
附图说明
[0034]
图1为基于背景差分法和最小二乘法的视频关键点的动态捕捉方法的流程图；
[0035]
图2为基于多尺度区域卷积神经网络提升视频前一帧与后一帧中关键点匹配精度算法的网络结构图；
[0036]
图3为一种视频关键点的动态捕捉装置的结构示意图。
具体实施方式
[0037]
为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。
[0038]
为了解决以上问题，本发明实施例首先进行读取并显示拍摄视频。由于初始视频分辨率，帧率，画质较高，占据大量内存空间，为图像预处理及软件显示带来挑战。
[0039]
实施例1
[0040]
本发明实施例提供了一种视频关键点的动态捕捉方法，参见图1和图2，该方法包括以下步骤：
[0041]
101：对图像进行灰度处理和滤波处理等处理器操作，获取预处理后图像；
[0042]
102：对预处理后图像中的背景进行建模，对没有运动目标进入预处理后图像的灰度值按区间进行统计，进而得到一个具有统计意义的初始背景灰度值的分布区间；
[0043]
基于初始背景灰度值的分布区间可以进行后续的直方图均衡化。
[0044]
103：对步骤102处理后的图像进行前景检测，即将处理后的图像与背景做差，获取
背景差图，区分出运动前景和背景，实现图像分割；
[0045]
基于图像分割的结果实现后续对前后帧关键点的预测。
[0046]
104：对原有关键点的匹配过程增加一种多尺度区域卷积神经网络，用以提升视频前一帧与后一帧中关键点匹配精度；
[0047]
105：最后使用最小二乘法拟合出关键点的运动轨迹，从而实现视频中关键点的动态捕捉。
[0048]
综上所述，本发明实施例通过背景差分法很好的检测到了关键点，并通过小二乘法拟合出关键点的运动轨迹，从而实现了视频中关键点的动态捕捉。
[0049]
实施例2
[0050]
下面结合具体的实例对实施例1中的预处理部分即步骤101进行进一步地介绍，详见下文描述。
[0051]
一、原始视频分帧
[0052]
针对图像预处理问题，首先对原始视频采取“分帧”操作。假定获取到的视频总体时间为t，每隔时间t
′
抽取一个关键帧，代表t时间内的运动状态。抽取关键帧后，将得到的n＝t/t
′
帧图像重新组合为一段视频，并在软件窗口加以展示，该过程可以具体描述为以下几个步骤：
[0053]
1)手动获取目标视频及数据格式；
[0054]
2)利用视觉计算库函数对目标视频分帧，每隔特定的时间间隔选取一帧，最终得到多个视频关键帧；
[0055]
其中，视觉计算库函数为opencv公开的计算库内置函数，本发明实施例在此不做赘述。
[0056]
3)利用视觉计算库函数对提取出的视频关键帧，采取拼接操作保存为与原视频相同格式的采样视频；
[0057]
4)利用视觉计算库函数读取保存的采样视频，窗口中加以展示。
[0058]
接下来是对图像进行内容分析。图像分析中，图像质量的好坏直接影响识别算法的设计与效果的精度，因此在图像分析(特征提取、分割、匹配和识别等)前，需要进行预处理。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像识别的可靠性。
[0059]
因此，在得到视频各个关键帧的图像之后，软件后台会对各帧图像进行预处理，以保证后续轨迹预测和曲线拟合的有效性。接下来，视频图像预处理的过程包括如下几个部分：对图像进行颜色建模分析，即利用rgb模型对像素点进行量化，并利用相关转换关系进行图像灰度处理；对灰度处理后的图像进行滤波处理，消除图像处理过程中不同噪声的影响；对再次处理后的图像进行对比度调整，得到对比度更高的图像，提升后续图像处理及目标跟踪的有效性和可靠性。针对以上问题，下面将具体介绍。
[0060]
二、图像颜色建模
[0061]
颜色是通过眼、脑和生活经验所产生的对光的视觉感受，肉眼所见到的光线，是由波长范围很窄的电磁波产生的，不同波长的电磁波表现为不同的颜色，对色彩的辨认是肉眼受到电磁波辐射能刺激后所引起的视觉神经感觉。只需要选定三原色，并且对三原色进行量化，那就可以将人的颜色知觉量化为数字信号了。三色加法模型中，如果某一种颜色
(c)，和另外一种三色混合色，给人的感觉相同时，这三种颜色的份量就称为该颜色(c)的三色刺激值。自然界中任何颜色都可以由红绿蓝三种颜色的光以不同比例叠加来表现，rgb颜色空间以此为基础进行构建。rgb颜色空间由单位长度的立方体来表示，最常见的黑绿青蓝紫红黄白颜色分居立方体的八个顶点，立体空间中相对的颜色分别为对方的互补色，各参数的取值范围均在[0,255]，参数值为三基色系数值进行归一化后的结果。摄像头等图像或视频收集装置采集到的图像一般按照rgb(red、green、blue)颜色格式进行存储。
[0062]
对图像中的颜色进行建模分析，首先要确定图像所采用的颜色模型。颜色模型就是描述用一组数值来描述颜色的数学模型。采用最常见的rgb模型，就是用rgb三个数值来描述颜色。图像中各像素点均由rgb三颜色通道组成，即一个像素点的信息由三个分量来表示，对应存储其rgb三通道的颜色分量，占据较大存储空间。同时，在处理图像时也需要对三分量分别进行处理，计算量较大。由于对目标检测与跟踪过程中极少用到此类颜色特征，因此在对图像或视频进行处理的过程中，通常为了减少计算量，对图像进行灰度化处理，灰度化过程遵循公式：
[0063]
y＝0.299
×
r 0.587
×
g 0.114
×
b(1)
[0064]
其中，y为灰度图像当前像素的灰度值。灰度化之后的灰度图像是一种单色图像，对应于黑到白之间的256种灰度级别，灰度图像的像素点的数值由0(黑)到255(白)的亮度值表示。
[0065]
三、图像滤波处理
[0066]
对于图像视频采集系统，传输媒介和存储设备的关系，数字图像在记录、传输和存储阶段都易受到不同噪声的影响，这些噪声往往以孤立的像素点或块的形式存在，对图像的处理造成极强的干扰，而这些干扰会对图像的像素点的真实数值造成很大影响，降低图像质量，对图像的识别和特征提取等后续工作造成影响，因此图像处理的第一要务是对图像进行滤波操作，除去视频的每帧图像中可能存在的噪声点。低通滤波器可以对噪声进行消除，高通滤波器可以对轮廓等边缘信息进行提取，带通滤波器可以通过特定频段的波，因此滤波操作对于图像中噪声的滤除有很好的效果。滤波操作主要分为线性滤波和非线性滤波两类。
[0067]
高斯噪声是一种常见的噪声，其幅度服从高斯分布，且功率谱密度服从均匀分布，一阶矩为常数、二阶矩，在时间上不相关。高斯滤波是常见的线性平滑滤波器，对于高斯噪声有很好的滤除效果。对于高斯滤波来说，最重要的是滤波器模板。高斯函数在定义域上保持有非负状态，理论上来讲，需要无限大的卷积核，通过观察其分布特征，一般选择均值周围3以内的值作为卷积核，此外的值不予考虑。选取中心像素点的位置为模板中心，并对相邻的8个像素点的值进行坐标化处理，并将各点对应的坐标表示带入二维高斯函数中，得到各模板系数：
[0068][0069]
其中，i，j为中心点坐标，σ2为方差。
[0070]
计算得到的结果会以小数和整数两种形式存在，其中小数可以直接作为模板系数使用，而计算得的整数值则需要通过与所有和的倒数相乘，完成归一化后置于模板的系数位置。在高斯模板系数确定后，相应的高斯模板得到确定，再将高斯模板与需要滤波的图像
进行二维卷积运算，则可以得到除掉噪声之后的滤波图像。
[0071]
线性滤波器对于非加性的高斯噪声抑制性能较差，同时在滤波的过程中容易对图像的边缘信息进行模糊处理(均值滤波尤其明显)，导致边缘细节的丢失。中值滤波则通过非常简单的方式解决了边缘模糊的情况。图像的任一像素点都存在邻域，中值滤波器以当前像素点为中心，与该像素点邻域的像素进行对比，用灰度值的中值代替当前点的像素值。当邻域像素点个数为偶数时，比较的像素点个数为奇数，选取中间值作为当前像素点滤波后的像素值；若为奇数，则以同样的方法，取排序位于中间的两个像素的平均值作为当前像素点在滤波后图像的像素值。利用中值滤波可以消除特异点对后续图像处理的影响。中值滤波后，当前像素点的值与邻域内差值非常大的值无关，对于椒盐噪声有很好的去除效果，可以有效抑制扫描噪声，同时不会导致边缘信息丢失产生的模糊问题，可以很好的保留图像的边缘轮廓。在实验中，采用高斯滤波与中值滤波相结合的方式，提升图像预处理质量。
[0072]
四、图像对比度调整
[0073]
直方图均衡化是图像处理领域中利用图像直方图对对比度进行调整的方法。这种方法通常用来增加许多图像的全局对比度，尤其是当图像的有用数据的对比度相当接近的时候。通过这种方法，亮度可以更好地在直方图上分布。这样就可以用于增强局部的对比度而不影响整体的对比度，直方图均衡化利用有效地扩展常用的亮度的方式来实现这种功能。在统计学中，直方图是一种对数据分布情况的图形表示，是一种二维统计图表，它的两个坐标分别是统计样本和该样本对应的某个属性的度量。把直方图上每个属性的计数除以所有属性的计数之和，就得到了归一化直方图。归一化直方图的所有属性的计数之和为1，也就是说，每个属性对应计数都是0到1之间的百分比。
[0074]
对比度是画面黑与白的比值，也就是从黑到白的渐变层次。比值越大，从黑到白的渐变层次就越多，从而色彩表现越丰富。对比度对视觉效果的影响非常关键，一般来说对比度越大，图像越清晰醒目，色彩也越鲜明艳丽。高对比度对于图像的清晰度、细节表现、灰度层次表现都有很大帮助。
[0075]
图像对比度调整的基本思想：将原始图的直方图变换为均匀分布的形式，这样就增加了像素灰度值的动态范围，从而达到增强图像整体对比度的效果。使用的方法是灰度级变换：
[0076]
s＝t(r)0≤r≤1(3)
[0077]
其中，t(r)满足下列两个条件：
[0078]
(1)t(r)在区间0≤r≤1中为单值且单调递增；
[0079]
(2)当0≤r≤1时，0≤t(r)≤1。
[0080]
条件(1)保证原图各灰度级在变换后仍保持从黑到白(或从白到黑)的排列次序；
[0081]
条件(2)保证变换前后灰度值动态范围一致。
[0082]
其中，pr(r)是r的概率密度函数，ps(s)是s的概率密度函数，pr(r)和t(r)已知，则有：
[0083][0084]
已知一种重要的变换函数：
[0085]
[0086]
关于上限的定积分的导数就是该上限的积分值(莱布尼兹准则)：
[0087][0088][0089]
对于离散值：rk是第k灰度，k＝0，1，2，3，...l-1，nk是图像中灰度级为rk的像素个数，n是图像中像素的总数。
[0090]
已知变换函数的离散形式为：
[0091][0092]
k＝0，1，2，3，...l-1(9)
[0093]
其中，sk即为直方图均衡化结果。
[0094]
通过将输入图像中灰度级为rk的像素映射到输出图像中灰度级为sk的对应像素得到。对比度对于动态视频显示效果影响要更大一些，由于动态图像中明暗转换比较快，对比度越高，人的眼睛越容易分辨出这样的转换过程。
[0095]
因此，利用直方图均衡化操作，可以得到对比度更高的图像，提升后续图像处理及目标跟踪的有效性和可靠性。
[0096]
实施例3
[0097]
下面结合具体的实例对实施例1中的图像背景建模即步骤102进行进一步地介绍，详见下文描述。
[0098]
由于视频中背景较为复杂，影响轨迹预测效果，首先采取背景差分法，确定运动轨迹的大致范围。背景差分法是一种很常用的移动目标检测算法。主要用于在背景不发生变化的情况下提取前景。它的原理是将当前帧和背景做差分运算，然后设定合适的阈值，通过阈值进行二值化。背景差分法的第一步，即为获取背景图像，对背景进行建模。然后将当前帧的图像与背景做差分运算，然后设定合适的阈值，进行二值化。在背景干扰较小的情况下，得到的前景即为移动目标。在背景很稳定的情况下，如果差值的大小都小于设定的阈值，说明当前帧的图像全为背景，而没有移动目标。反之如果有一部分区域的差值大于阈值，则说明当前帧的图像中有移动目标，并且可以通过设定的阈值进行二值化，可以很好的区分出移动目标和背景，进而方便提取出运动轨迹范围。
[0099]
背景差分法包含如下几个关键内容：图像预处理，主要是对图像进行灰度处理和滤波处理等；背景简单建模，对没有运动目标进入图像的灰度值按区间进行统计，进而得到一个具有统计意义的初始背景灰度值的大致分布区间，这样做也可以减小一些环境变化带来的随机干扰、摄像机抖动等外界因素。
[0100]
实施例4
[0101]
下面结合具体的实例对实施例1中的获取背景差图，并进行图像分割即步骤103进行进一步地介绍，详见下文描述。
[0102]
前景检测，当前最新的图像与背景做差，获取背景差图，然后设定阈值，通过和阈值比较对背景进行二值化，最终区分运动出前景和背景，实现图像分割。
[0103]
d(x，y)＝|i(x，y)-b(x，y)|(10)
[0104]
其中，i为背景帧的图像，b为当前帧的图像，d(x，y)为当前帧和背景帧的差分后的
结果。利用视频序列中的差分结果，可确定大致的运动轨迹范围，消除复杂背景对实验效果的影响。
[0105]
以第一个视角下的视频图像为例，通过手动选取得到的关键点坐标分别为(x1，y1)，(x2，y2)，(x3，y3)，...(xm，ym)，对应位置区域内可提取特征算子。对于部分环境变化引起的背景变化的情况，特征点有一定的不变性，例如：亮度变化及噪声等。同时特征点包含丰富的信息，例如：位置信息、灰度信息和方向信息。在实际操作过程中，利用特征点的坐标位置距离去判断不同帧的图像中两个特征点是否为同一特征点，定义为两个特征点的距离：
[0106][0107]
其中，(xi，yi)，(xj，yj)为不同帧的图像中的特征点坐标信息。当距离小于设定阈值时，判定两个特征点为不同帧的图像中同一位置的特征点。在背景特征点中，查找其与当前帧的图像中欧式距离最近的前两个特征点，如果欧氏距离最近的比欧氏距离次近的比值少于预先设定的阈值，则认为匹配成功，这样可以减少特征点错误匹配的情况。当前帧的图像中与背景特征点匹配成功的特征点，则为背景特征点。这样剩下的特征点就是运动目标的特征点，根据它们与特征点的中心之间的距离，剔除它们。最后根据剩余特征点的位置坐标信息，通过特征点坐标位置中横坐标和纵坐标的最大值和最小值，将目标固定在该区域内。
[0108]
实施例5
[0109]
下面结合具体的实例对实施例1中的轨迹关键点精确匹配即步骤104进行进一步地介绍，详见下文描述。
[0110]
为提升轨迹关键点的预测准确性和有效性，消除复杂条件下图像背景的影响，对原有关键点的匹配过程增加一种多尺度区域卷积神经网络，用以提升视频前一帧与后一帧中关键点匹配精度。其主网络结构是基于vgg模型进行图像的特征提取，子网络结构采用特征融合及上下文信息检测相结合的方法。
[0111]
多尺度区域卷积神经网络结构如图2所示，首先输入关键点所在目标区域图像，经过conv1、conv2层采用前馈分层结构，依次输入到下一层卷积层；在conv3、conv4、conv5层中选取最后一层，通过反卷积层和归一化层连接，将各层特征融合成多尺度特征图。接着，基于rpn算法从融合的特征图中生成区域建议。最后，在一个感兴趣(roi)池化层中从每个对象建议和其建议的上下文区域中提取一个固定大小的特征向量，随后用以前一帧与后一帧区域图像的特征匹配。研究过程中，通过对特征向量的拼接和压缩来设计融合特征图，并将其输入到后续的全连接层中进行分类回归和边框回归。
[0112]
一、多尺度特征融合
[0113]
首先，假设vgg模型中各卷积层的特征表示为c＝{ci|i＝1，2，...，5}，不同卷积层的输出通道依次为64，128，256，512，512；每个卷积层中使用的内核、步长和填充的大小层数分别为3
×
3、1和1；各层反卷积特征表示为d＝{di|i＝1，2，...，5}，融合特征表示为f
map{i＝1，2，...，5}
。
[0114]
通过多尺度反卷积运算对更深卷积层(conv4_3，conv5_3)的输出进行上采样。值得注意的是，这种反卷积操作与原来的上采样操作不同；它提供了一组参数，通过这些参数
可以学习深层特征的非线性上采样。反卷积层的输出值定义为d＝{di|i＝1，2，...，5}，其中di定义为：
[0115]di
＝deconv(ci，oi，ki，si，mi)(12)
[0116]
式中：函数deconv()指定反卷积操作；参数ci，oi，ki和mi分别指输出通道、内核、步长和填充的大小。
[0117]
接下来，将不同层的特征c3，d4，d5组合成联合特征，其定义如下：
[0118][0119]
式中：表示连接操作；d4＝decony(c4，256，4，2，1)；d5＝decony(c5，256，8，4，2)。
[0120]
不同卷积层的特征值具有不同的尺度，浅层的特征值一般大于深层的特征值。不同卷积层的特征值直接连接它们很容易导致更小的值被更大的价值主导。因此，l2归一化是连接操作之前的一个关键步骤，该方法能有效地将不同卷积层的特征值保持在同一尺度上。针对每个像素的向量x＝(x1，x2，
…
，xd)，在连接特征中，l2归一化定义为：
[0121][0122]
式中：指定归一化向量；||x||2指定l2对x进行归一化；d表示通道数。
[0123]
最后，为了压缩连接特征内的信道数量，使用逐点卷积来操作cf
{i＝3，4，5}
。最终融合的特征图可以表示为f
map{i＝3，4，5}
，其定义如下：
[0124]fmap{i＝3，4，5}
＝conv(cf
{i＝3，4，5}
，o，k，m)(15)
[0125]
式中：conv()为指定卷积运算函数；o＝256；k＝s＝1；m＝0。
[0126]
二、多尺度上下文信息算法
[0127]
采用上下文对象建议区域的方法来提升特征匹配精度。用p表示一个对象建议，其中：
[0128]
p＝(p
x
，py，pw，ph)(16)
[0129]
式中：(p
x
，py)表示指定中心；(pw，ph)表示它的宽和高。上下文区域，从融合特征裁剪出来的f
map{i＝3，4，5}
存在两个尺度：同时可以表示为：
[0130][0131]
方法中每个区域上文区域中心坐标与给定的对象建议坐标p相同。将p和上下文区域坐标输入到感兴趣(roi)池化层中，该层输出特征向量为fi，此过程可以表示为：
[0132][0133]
式中，pool()为roi池化层函数。每个特征表示都有固定的大小为7
×7×
256。另外，由于fi中三种特征表示的尺度不同，采用了l2归一化方法。然后将这三个特征表示向量连接到k中，定义为：
[0134]
k＝concat
{i＝0，1，2}
(l2(fi))(19)
[0135]
式中，concat()为指定沿着通道轴的连接操作函数，使用1
×
1的卷积来压缩连接特征的通道数；k从7
×7×3×
256压缩到7
×7×
256。最后融合的特征可以定义为：
[0136]
f＝conv(k，o，k，s，m)＝conv(concat
{i＝0，1，2}
(l2(fi))，o，k，s，m)(20)
[0137]
式中：o＝7
×7×
256；k＝s＝1；m＝0。
[0138]
此外，在利用上下文信息增强图像特征信息时，由于复杂的背景环境，在上一帧与下一帧图像关键区域匹配时总有无效的背景噪声，因此算法中利用逐点卷积，获取上下文信息的权值，提供一组参数，从而有效地避免背景噪声的干扰。融合的特征输入两个全连接层(f
c6
，f
c7
)中，经过全连接层输出融合特征向量以及边框回归(boundingboxregression)对候选位置进行调整。
[0139]
经过以上的处理步骤，前一帧与后一帧图像中关键点的匹配关系即可得到，后台随后将每一帧中每个关键点的位置坐标保存。
[0140]
实施例6
[0141]
下面结合具体的实例对实施例1中的关键点的运动轨迹拟合即步骤105进行进一步地介绍，详见下文描述。
[0142]
假设得到了第一视角下的一组实验数据(x1，y1)，(x2，y2)，(x3，y3)，...(xm，ym)，进行曲线拟合的目的在于寻求得到函数y＝f(x)的一个近似表达式y＝p(x)。为了减小拟合误差，一般采用曲线拟合的方式进行数据处理。
[0143]
通常根据“使偏差平方和最小”的原则选取拟合曲线y＝p(x)，这种方法称为最小二乘法。用最小二乘法解决实际问题有两个步骤：第一、根据所给数据点的变化趋势确定p(x)所具有的形式；第二、按最小二乘法求得最小二乘解。经常采用最小二乘曲线拟合y＝p(x)具有多项式形式：
[0144]
p(x)＝a0 a1x a2x2 ... anxn(n＜m)(21)
[0145]
上式是关于x的n次多项式。根据最小二乘法的定义，就是要通过给定的数据集(xi，yi)，i＝1，2，3，...，m，确定系数aj使得各个点上的偏差δi的平方和达到最小。因此，将m对数据代入pn(x)的表达式，就得到了一个具有n 1未知数aj的m方程：
[0146][0147]
记
[0148]
构建正规方程组为c
t
cα＝c
t
γ，它是关于n 1未知数aj(j＝0，1，2，...，n)的线性方程组。只要它的系数行列式|c
t
c|≠0，就可求得方程组的唯一的一组最优近似解，使得取得极小值，从而求得最小二乘拟合多项式。由于互异，故矩阵c的n 1列向量线性无关，从而r(c)＝n 1，表明c
t
c非奇异，因此方程组的解是存在且唯一的。
[0149]
求解最小二乘拟合多项式系数，即求得正规方程的解：则最小二乘拟合多项式为由此确定了二维拟合方程。
[0150]
第二个视角下，经过相同的运算，可得到类似的最小二乘拟合多项式
[0151]
在得到拟合方程后，后台将每一帧的关键点及拟合方程显示在各帧图像上。在显示三维空间曲线的过程中，基于两条拟合曲线，密集选取两条曲线上的轴坐标对应的关键点(x1，y1，z1)，(x2，y2，z2)，(x3，y3，z3)，...，(xq，yq，zq)，满足：
[0152][0153]
得到一组三维拟合实验数据(x1，y1，z1)，(x2，y2，z2)，(x3，y3，z3)，...，(xq，yq，zq)。建立三维坐标点显示空间，将实验数据点映射到三维空间下，即可得到对应的三维空间曲线。
[0154]
最后，将每一帧图像得到的三维空间曲线以图像格式保存到后台，同时在窗口以视频形式显示轨迹变化。
[0155]
实施例7
[0156]
一种视频关键点的动态捕捉装置，参见图3，该装置包括：处理器1和存储器2，存储器2中存储有程序指令，处理器1调用存储器2中存储的程序指令以使装置执行实施例1中的以下方法步骤：
[0157]
处理后图像中的背景进行建模，对没有运动目标的图像进行预处理后获得图像的灰度值，并按区间进行统计，获取初始背景图像灰度值的分布区间；
[0158]
当有运动的目标出现后，利用前期的背景图像，通过减法运算获取背景差图，区分出运动前景和背景，实现图像分割；
[0159]
基于图像分割结果，在原有关键点的匹配过程中增加一种多尺度区域卷积神经网络，用以提升视频前一帧与后一帧中关键点匹配精度；
[0160]
使用最小二乘法拟合出关键点的运动轨迹，实现视频中关键点的动态捕捉。
[0161]
其中，预处理依次包括：对原始视频进行分帧处理、对分帧处理后的图像进行颜色建模；对建模的图像进行滤波处理；最后对滤波处理后的图像进行对比度调整，获取到预处理后的图像。
[0162]
进一步地，对原始视频进行分帧处理具体为：
[0163]
获取视频总体时间，每隔预设时间间隔抽取一个关键帧，代表预设时间间隔内的运动状态；将得到的若干帧图像重新组合为一段视频，并在软件窗口加以展示。
[0164]
其中，每隔预设时间间隔抽取一个关键帧，代表预设时间间隔内的运动状态；将得到的若干帧图像重新组合为一段视频具体为：
[0165]
利用视觉计算库函数对目标视频分帧，每隔特定的时间间隔选取一帧，最终得到多个视频关键帧；
[0166]
利用视觉计算库函数对提取出的视频关键帧，采取拼接操作保存为与原视频相同格式的采样视频。
[0167]
进一步地，对初始背景灰度值的分布区间中的图像进行前景检测，获取背景差图，区分出运动前景和背景，实现图像分割具体为：
[0168]
利用特征点的坐标位置距离去判断不同帧的图像中两个特征点是否为同一特征点；
[0169]
当距离小于设定阈值时，判定两个特征点为不同帧的图像中同一位置的特征点，
在背景特征点中，查找其与当前帧的图像中欧式距离最近的前两个特征点，如果欧氏距离最近的比欧氏距离次近的比值少于预先设定的阈值，则匹配成功，
[0170]
将匹配成功的特征点作为背景特征点，剩下的特征点为运动目标的特征点，根据它们与特征点的中心之间的距离进行剔除；
[0171]
根据剩余特征点的位置坐标信息，通过特征点坐标位置中横坐标和纵坐标的最大值和最小值，将目标固定在其出现的候选目标区域。
[0172]
其中，使用最小二乘法拟合出关键点的运动轨迹具体为：
[0173]
将每一帧的关键点及拟合方程显示在各帧图像上，在显示三维空间曲线的过程中，基于两条拟合曲线，密集选取两条曲线上的轴坐标对应的关键点满足：
[0174][0175]
得到一组三维拟合实验数据(x1，y1，z1)，(x2，y2，z2)，(x3，y3，z3)，...，(xq，yq，zq)，建立三维坐标点显示空间，将实验数据点映射到三维空间下，得到对应的三维空间曲线；
[0176]
将每一帧图像得到的三维空间曲线以图像格式保存，同时在窗口以视频形式显示轨迹变化。
[0177]
这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。
[0178]
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。
[0179]
存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。
[0180]
实施例8
[0181]
基于同一发明构思，本发明实施例还提供了一种计算机可读存储介质，存储介质包括存储的程序，在程序运行时控制存储介质所在的设备执行上述实施例中的方法步骤。
[0182]
该计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘等。
[0183]
这里需要指出的是，以上实施例中的可读存储介质描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。
[0184]
在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例的流程或功能。
[0185]
计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质或者半导体介质等。
[0186]
本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。
[0187]
本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0188]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种视频关键点的动态捕捉方法及装置

相关文献

最热文献