一种视频检索方法和系统与流程

2022-03-19 14:21:07 来源：中国专利 TAG：

1.本发明属于视频处理技术和信息检索领域，涉及一种视频检索方法。

背景技术：

2.传统视频检索方法主要就是“人海战术”，效率十分低下。
3.为了查找监控视频中的嫌疑目标，相关工作人员不得不花费大量的时间和精力去浏览大量的监控录像，这种靠人工查看的方法不但时间代价大，而且经常由于疲劳等人为因素出现差错，处理效率极其低下。
4.随着深度学习的兴起，卷积神经网络(convolutional neural network，cnn)被证明了在视觉表征方面有着巨大的优势，cnn的深层特征更贴近人们理解层面来解释图像内容。
5.如果在监控视频录像时通过深层的卷积神经网络比如resnet，对视频的每一帧图片进行深层特征向量提取，然后将这些特征向量数据利用大数据存储技术进行存储。在对目标图片进行检索时运用高效的向量搜索引擎，这样不仅可以节省大量的人工成本，而且还能保证检索结果的准确性和时效性。

技术实现要素：

6.本发明提供一种视频检索系统和方法，用于解决海量视频数据检索的准确性较差和检索耗时长的问题。
7.本发明采用一种高效地以图搜视频的视频检索方法，该方法基于resnet深度神经网络提取待检索图片的深层特征向量，将提取到的特征向量数据运用milvus向量搜索引擎从分布式的大数据存储系统中快速地检索出相似向量的结果集，基于该结果集进行分析处理，最终得到与带检索图片内容高度相似的视频文件。
8.具体按以下进行：一种视频检索方法，按以下进行：采集视频文件，上传存入大数据分布式文件系统中，并记录存储路径或id；逐帧切分视频文件，并将帧数据形成帧快照图片；提取帧快照图片的深度特征，得到特征向量集；调用milvus向量搜索引擎将所述提取的特征向量集与原视频文件id的对应关系，通过insert接口存入hbase数据库中；将目标图片缩放，输入到resnet50网络中进行深度特征提取，形成一条特征向量数据；对所述特征向量数据进行向量相似度检索，检索结果集包括与所述目标图片特征向量相似程度较高的帧向量id及其对应视频文件id；将检索结果集按与目标图片相似度百分比，由高到低排列，选取相似度百分比最高的视频文件id，通过所述视频文件id迅速定位到存储于大数据分布式文件系统中的视频
文件，并将视频文件反馈给用户。
9.进一步地，利用视频流处理算子将视频文件按逐帧进行切分。
10.进一步地，提取帧快照图片的深度特征按以下进行：将每一帧快照图片缩放成224*224的3通道图像输入的形状输入到resnet50网络中进行深度特征提取形成特征向量集。
11.进一步地，通过调用milvus向量搜索引擎的insert接口将所述提取的特征向量集与原视频文件id的对应关系存入hbase数据库中。
12.进一步地，将所述目标图片缩放成224*224*3的形状输入到resnet50网络中进行深度特征提取，形成一条特征向量数据；将所述特征向量数据传入milvus向量搜索引擎的search接口，通过该接口进行向量相似度检索。
13.本发明还涉及一种视频检索系统，包括采集单元、处理单元和存储单元；存储单元包括大数据分布式文件系统和hbase数据库；采集单元采集视频文件和目标图片；将视频文件上传存入大数据分布式文件系统中，并记录存储路径或id；处理单元逐帧切分视频文件，并将帧数据形成帧快照图片；提取帧快照图片的深度特征，得到特征向量集；调用milvus向量搜索引擎将所述提取的特征向量集与原视频文件id的对应关系，通过insert接口存入hbase数据库中；将目标图片缩放，输入到resnet50网络中进行深度特征提取，形成一条特征向量数据；对所述特征向量数据进行向量相似度检索，检索结果集包括与所述目标图片特征向量相似程度较高的的帧向量id及其对应视频文件id；将检索结果集按与目标图片相似度百分比，由高到低排列，选取相似度百分比最高的视频文件id，通过所述视频文件id迅速定位到存储于大数据分布式文件系统中的视频文件，并将视频文件反馈给用户。
14.进一步地，提取帧快照图片的深度特征按以下进行：将每一帧快照图片缩放成224*224的3通道图像输入的形状输入到resnet50网络中进行深度特征提取形成特征向量集。
15.进一步地，将所述目标图片缩放成224*224*3的形状输入到resnet50网络中进行深度特征提取，形成一条特征向量数据；将所述特征向量数据传入milvus向量搜索引擎的search接口，通过该接口进行向量相似度检索。
16.本发明还涉及一种电子设备，包括存储器、处理器以及在存储器上，并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
17.本发明还涉及一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如上述方法的步骤。
18.与现有技术相比，本发明的有益效果具体如下：现有技术中，改进前为了查找监控视频中的嫌疑目标，相关工作人员不得不花费
大量的时间和精力去浏览大量的监控录像，这种靠人工查看的方法不但时间代价大，而且经常由于疲劳等人为因素出现差错，处理效率极其低下。运用本发明的方法后，通过向检索系统输入一张含有嫌疑目标的图片，将在最快20秒内返回包含目标图片相似特征的视频文件，大大提高了检索效率，降低了人工成本，带来巨大的经济效益。
附图说明
19.图1是本发明的视频检索系统的总体流程图；图2是本发明涉及的resnet50深度卷积神经网络结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
21.除非另外定义，本技术实施例中使用的技术术语或者科学术语应当为所属领域内具有一般技能的人士所理解的通常意义。本实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。“上”、“下”、“左”、“右”、“横”以及“竖”等仅用于相对于附图中的部件的方位而言的，这些方向性术语是相对的概念，它们用于相对于的描述和澄清，其可以根据附图中的部件所放置的方位的变化而相应地发生变化。
22.如图1所示，本实施例的视频检索方法，按以下进行：第一步：导入视频数据集：1.1）将由视频采集设备采集到的视频文件上传存入大数据分布式文件系统（hdfs）中，并将存储路径或id进行记录。
23.1.2）利用视频流处理算子提供的技术将视频文件按逐帧进行切分，并将帧数据形成快照；采用cnn中层数达到50层resnet50深度神经网络作为特征提取网络。
24.图2是resnet50的网络结构示意图。resnet又名残差神经网络，指的是在传统卷积神经网络中加入残差学习（residual learning）的思想，解决了深层网络中梯度弥散和精度下降（训练集）的问题，使网络能够越来越深，既保证了精度，又控制了速度。resnet50网络由49个卷积层和1个全连接层构成，本实施例使用的resnet50网络是在imagenet上经过参数最优化调配过的具有超高稳定性的深度神经网络模型，能够提取到更深层的图像特征。
25.resnet50提取特征向量过程如下：将每一帧快照图片缩放成224*224的3通道图像输入到resnet50网络，首先将由一个7*7的卷积核负责进行特征的抽取，且卷积核的步长为2，所以会使得图像的长宽降低为原先的1/2。随后，再经过一个maxpool层，进一步降低图像的分辨率；在接下来的48个卷积
层中使用重复残差块提取特征，基本原理是对输入的特征图，使其通道数扩展为原来的一倍，而长宽都缩减为原先到的1/2。具体而言，每一个阶段都会由一个下采样块和两个残差块构成。其中，下采样会设置最初的卷积步长为2，通过这样的方式进行对特征图的下采样，使得长宽得到缩减。而在残差块中，通过对卷积相关参数的设置，可以控制使得残差块的输入和输出的特征图尺寸一致，从而进行相加处理，避免深层网络的梯度消失和退化问题。然后经过一个池化层做均值池化后就提取到图片的重要特征，最后经过fc(全连接层)的计算将局部特征重新通过权值矩阵组装成完整的图向量。将每一帧图片的特征向量汇集而成特征向量集。
26.1.3）将提取的特征向量集与原视频文件id的对应关系，通过调用milvus向量搜索引擎的insert接口存入hbase数据库中。
27.本实施例中，hbase是一种构建在hdfs之上的分布式、面向列的存储系统。在需要实时读写、随机访问超大规模数据集时，其提供了强大的功能支持。
28.第二步：通过目标图片检索相似的视频文件：2.1) 将所述目标图片缩放成224*224*3的形状输入到resnet50网络中进行深度特征提取，形成一条特征向量数据。
29.2.2) 将所述特征向量数据传入milvus向量搜索引擎的search接口，通过该接口进行向量相似度检索，检索结果集包含与所述目标图片特征向量相似程度较高的的帧向量id及其对应视频文件id。
30.milvus是一个开源的向量相似度搜索引擎，它集成了成熟的向量搜索技术如faiss和sptag，同时针对faiss ivf索引进行了深度优化，实现了中央处理器(cpu)与多图形处理器(gpu)的融合计算，大幅提高了向量搜索性能，可以在秒内完成十亿级的向量搜索；2.3) 将检索结果集按与目标图片相似度百分比，由高到低进行排列的，因此从结果集中选取相似度百分比最高的视频文件id，通过所述视频文件id能够迅速定位到存储于hdfs中的视频文件，并将视频文件反馈给用户。
31.可选的，本技术实施例还提供一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如上述所示实施例的方法。
32.可选的，本技术实施例还提供一种运行指令的芯片，所述芯片用于执行上述所示实施例的方法。
33.本技术实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现上述实施例的方法。
34.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在可读存储介质中，或者从一个可读存储介质向另一个可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无
线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
35.以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：屈光信息测量方法、装置及计算机可读存储介质与流程

一种视频检索方法和系统与流程

相关文献

最热文献