一种基于视频中动态手势控制的会议演示系统

2022-06-02 16:16:43 来源：中国专利 TAG：

1.本发明属于计算机应用技术领域，涉及办公教学会议演示控制系统，特别涉及一种基于视频中动态手势控制的会议演示系统。

背景技术：

2.随着计算机技术和设备的普及，当前在办公、教学会议场景中常采用投影设备作为演示。而与投影设备同步操作的工具大部分还是鼠标、键盘或者翻页笔。办公教学场景中都注重表演者与参与者的互动，这些设备具有一定的局限性。例如鼠标键盘设备，当表演者走下讲台与参与者进行互动交流时，遇到需要放映、翻页的情况时，不得不停止与参与者的互动，重新返回讲台进行会议系统的放映翻页，破坏了会议交流的流畅性。又如遥控设备，当表演者到参与者当中互动时需要握手或者签字，手上的遥控设备就打断了交流。上述的这些问题都给实际生活工作带来了很多不便。

技术实现要素：

3.为了解决在会议演示过程中，只能通过键盘、鼠标或翻页笔等类似控制装置对演示文稿进行控制，无法实现方便快捷且无需外接设备的控制操作的技术问题，本发明的目的在于，提供一种非接触式的基于视频中动态手势控制的会议演示系统，表演者无需被距离和设备所约束，自由流畅地实现会议系统的打开、放映翻页等等操作。
4.为了实现上述任务，本发明采取如下的技术解决方案：
5.一种基于视频中手势控制的会议演示系统，其特征在于，由依次连接的实时视频采集模块、连续手势分割模块、视频重去冗余模块、手势识别模块和会议演示系统响应模块组成，其中：
6.实时视频采集模块，用于采用摄像头实时获取当前的视频流；
7.连续手势分割模块，用于对视频流中连续的手势进行拆分处理，将多个连续的手势分割为一个个的独立手势片段，并将独立手势视频片段发送给视频重去冗余模块；
8.视频重去冗余模块，用于对单一手势视频片段进行去冗余区处理，通过粗去冗和进一步的细去冗两个单元对视频片段中的有效信息进行筛选，将精简后的独立手势视频片段发送给手势识别模块；
9.手势识别模块，用于对接收到的独立的单一手势视频进行识别，先利用提前构建的录制数据集对手势识别模型进行训练，进一步采用手部特征模型对检测到的手部视频进行预测分类，最后将手势识别模型的预测结果发送给会议演示系统响应模块；
10.会议演示系统响应模块，用于将接收到的手势类型的预测结果转化为控制指令，再将接收到的控制指令发送给处理器，完成对会议演示系统的的打开、放映、翻页。
11.根据本发明，所述连续手势分割模块通过设计手部判别器算法对演示区是否持续暴露出手部进行判断，根据手部的暴露程度将多个连续的手势分割为一个个的独立手势片段，并将独立手势视频片段发送给视频重去冗余模块。
12.进一步的，所述视频重去冗余模块通过粗去冗和细去冗两个单元对视频片段中的有效信息进行筛选；其中：
13.粗去冗单元，用于将视频中起始部分和结束部分中无关手势的片段进行筛选删除；
14.细去冗单元，进一步为了加速手势识别模块的速度，设计细去冗将视频中相似帧进行筛选，精简视频信息。
15.具体地，所述手势识别模块具体包括录制数据集单元、手势识别模型训练单元和手势类别预测单元，其中：
16.手势识别模型单元，用于对构建的手势数据集进行训练，学习不同类别手势的特征信息，并将其保存为手势特征模型；
17.手势类别预测单元，用于对手部的运动视频进行手势类别预测；
18.录制数据集单元，由采集、录制、整理所得，是在正常室内光照下，以白墙为背景的环境中对18位演示者进行数据录制，每一位演示者距离摄像头1m远，演示者以坐姿状态对点击、抓取、平移三种手势动作进行演示。
19.所述手势为单手动作，以左手或右手进行操作。
20.所述实时视频采集模块中的摄像头选用普通摄像头。
21.本发明的基于视频中动态手势控制的会议演示系统，可以广泛应用在办公、教学等环境中，摆脱了键盘、鼠标和翻页笔的束缚，克服了空间上的局限性，能够实时对系统进行控制，增强了会议演示的互动性，同时提高了演示的流畅性。
附图说明
22.图1为本发明的基于视频中手势控制的会议演示系统总体结构示意图。
23.图2为基于滑动检测的连续手势分割模块的流程图。
24.图3为连续手势分割模块中滑窗分割算法的示意图。
25.图4为视频流中的连续帧相似度对比图。
26.图5为手势识别算法的训练模型性能测试图。
27.下面结合附图和实施例对本发明做进一步详细的阐述。
具体实施方式
28.需要说明的是，本实施例给出的基于视频中动态手势控制的会议演示系统，是基于pc端构建的，以便于pc端对整个会议系统的控制；另一方面，该系统是针对视频中动态手势控制的会议系统，而不是针对图像中静态手势控制的会议系统，并且，手势识别模型单元中采用三维卷积神经网络直接对手势动态视频进行训练，更贴近现实生活中的真实场景，利于应用推广。实时视频采集模块中的摄像头是普通摄像头，以便系统的广泛应用。
29.在设计中，连续手势分割模块是针对实际生活中的视频流场景设计提出的。在之前的演示系统中一般面对的都是手势图片，也就是说可以看作是一个个独立的手势，即每个图片中只有一个手势需要分析和识别。相比针对独立手势视频进行识别的情况，在真实人机交互场景下进行手势识别所面临的首要问题就是需要对连续获取的手势视频流进行手势的分离和提取。在该模块中，还设计了基于滑窗检测的连续手势分割方法，以此来实现
对摄像头获取的视频流的连续手势进行分割。同时，考虑到实际应用场景往往对算法的实时性有着较大的需求，因此在实现连续手势分割的同时，还采用多线程的算法框架。
30.进一步的，设计过程中，将视频重去冗余模块由粗去冗和细去冗两个单元组成。首先粗去冗单元，设计自适应性的帧间相似度判断算法，对视频片段中起始部分和结束部分的无关手势信息进行自适应筛选删除；接着细去冗单元，进一步为了加速手势识别模块的速度，采用均匀比例采样算法进行细去冗，精简视频信息。
31.录制数据集是由申请人自己采集、录制、整理所得。该数据集在正常室内光照下，以白墙为背景的环境中对18位演示者进行数据录制。每一位演示者和摄像头距离1m，表演者以坐姿状态对点击、抓取、平移三种手势动作进行演示。
32.为了扩大数据量，每位参与者对每一个手势重复执行5次，每个手势共90个视频样本，总计270个手势视频。该数据集一共3类(点击、抓取、平移)，其中200个视频作为训练集，70个视频作为测试集。
33.所述的控制手势以及详细信息如下所示：
[0034][0035][0036]
所述手势仅为单手动作，但左手和右手均可以进行操作。
[0037]
如图1所示，本实施例给出一种基于视频中动态手势控制的会议演示系统，包括：实时视频采集模块、连续手势分割模块、视频重去冗余模块、手势识别模块和会议演示系统响应模块五个模块。
[0038]
其中，实时视频采集模块，主要用于采用摄像头实时获取当前的视频流；
[0039]
连续手势分割模块，主要用于对视频流中连续的手势进行拆分处理，将多个连续的手势分割为独立的单一手势，并将独立手势视频发送给视频重去冗余模块；
[0040]
本实施例中，连续手势分割模块通过设计手部判别器算法对演示区是否持续暴露出手部进行判断，根据手部的暴露程度将多个连续的手势分割为一个个的独立手势片段。
[0041]
视频重去冗余模块，主要用于对单一手势视频片段进行去冗余区处理；通过粗去冗和进一步的细去冗两个单元对视频片段中的有效信息进行筛选，将精简后的独立手势视频片段发送给手势识别模块；其中：
[0042]
粗去冗单元，用于将视频中起始部分和结束部分中无关手势的片段进行筛选删除；
[0043]
细去冗单元，进一步为了加速手势识别模块的速度，设计细去冗将视频中相似帧进行筛选，精简视频信息。
[0044]
手势识别模块，主要包括手部视频的获取、动态手势视频的模型训练和加载模型进行预测；会议演示系统响应模块将手势信号转化为会议系统的控制指令，通过调用相应
的指令函数实现会议演示系统的打开、放映和翻页控制。
[0045]
具体地，所述手势识别模块具体包括录制数据集单元、手势识别模型单元和手势类别预测单元，其中：
[0046]
手势识别模型单元，用于对构建的手势数据集进行训练，学习不同类别手势的特征信息，并将其保存为手势特征模型；
[0047]
手势类别预测单元，用于对手部的运动视频进行手势类别预测；
[0048]
录制数据集单元，由采集、录制、整理所得，是在正常室内光照下，以白墙为背景的环境中对18位演示者进行数据录制，每一位演示者距离摄像头1m远，演示者以坐姿状态对点击、抓取、平移三种手势动作进行演示。
[0049]
会议演示系统响应模块，用于将接收到的手势类型的预测结果转化为控制指令，再将接收到的控制指令发送给处理器，完成对会议演示系统的的打开、放映、翻页。
[0050]
请继续参阅图1，本实施例的基于视频中动态手势控制的会议演示系统，按照以下步骤进行操作：
[0051]
步骤1：打开摄像头，表演者进行连续的手势动作，摄像头采集实时的视频流。
[0052]
步骤2：将实时采集的多个连续手势动态视频分割为一个个的独立手势视频；
[0053]
本实施例中，设计了基于滑窗检测的连续手势分割方法，以此来实现对摄像头获取的视频流的连续手势进行分割。如图2所示，本实施例中，设计了基于滑窗分割的多线程处理方法，以此来实现对摄像头获取的视频流的分割采样。整个过程通过两个线程的合作实现，通过这样的方法，可以避免由于手势识别过程造成的时延累积，进一步提升整体的处理效率，保证人机交互系统的实时性。
[0054]
线程1主要负责视频的捕获。首先维持一个长度为n的滑动检测窗口，该窗口每隔t秒进行一次检测，如果检测到连续n帧均出现手部，则判定接下来的100帧均为有效的手势动作信息。同时，为了保证识别的鲁棒性，需要维持一个长度为100帧的采样队列，将滑动窗口中的视频帧序列纳入其中(首次会读入长度为100的帧序列)。线程1每完成一次读入，即会给线程2发送激活信号(在此，100帧的采样序列是根据实验统计表演一个独立手势所需要的时间和视频帧数所确定的采样阈值)。
[0055]
线程2主要负责数据处理以及手势的预测。在采样队列队满之后，就会对其中的视频帧序列送入视频重去冗模块。
[0056]
如图3所示，图中表示线程1的具体采样细节。对于实时的视频流，设置了滑窗检测单元，如果检测到连续10帧手部均出现，则判定接下来的100帧均为有效的手势信息，则进入视频重去冗模块阶段。如果未检测到连续的10帧均出现手部，则认为并未开始手势动作，则丢弃重新进行下一轮的滑窗检测。每一次连续10帧检测到手部，该模块都会对后续的100帧连续片段进行下一个模块。通过这种基于滑窗检测的分割方法，实现了独立手势的划分。
[0057]
步骤3：对独立的手势视频片段进行重去冗处理，其中包括粗去冗和细去冗两个单元对视频片段中的有效信息进行筛选。
[0058]
进一步的，粗去冗单元用于将视频中起始部分和结束部分中无关手势的片段进行筛选删除；独立的手势视频片段数据统一为100帧，但通过对单个手势视频分析，发现视频存在信息冗余，手势动作集中在视频的中间部分，视频的前端和尾端基本不包含有用的手势信息。因此通过对视频片段的统计分析，如图4所示，整个视频数据共100帧，单个手势动
作表演需要2s(60帧)左右。视频中，视频前10帧左右，表演者处于等待状态，并未开始执行动作。视频结尾10帧左右，表演者手势演示基本结束。通过帧间相似度的判别，设置自适应的帧采样阈值对视频帧进行筛选，选择中间的60帧，从而减少信息冗余。
[0059]
进一步的，为了加速手势识别模块的速度，设计基于等间隔的均匀采样的细去冗将视频中相似帧进行筛选，精简视频信息。在视频中每隔m帧保留一帧，删掉其余的m-1帧。即可获得标准帧数的视频，m通过下式得到：
[0060][0061]
其中，标准帧数为s，total为原始视频的实际帧数。
[0062]
对于帧数低于标准的视频，计算标准帧数与实际帧数之间的比率：
[0063][0064]
然后，对于视频中的每一帧，将其复制ratio次，插值在该帧的位置之后。此时的视频帧数与标准帧数的差值为：
[0065]
dif＝s-total*ratio
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0066]
若dif》0，则需在原始的total帧中，随机挑选dif帧进行一次复制，依次放置在随机帧的位置之后。至此，帧数小于标准的视频完成扩帧/补全操作。
[0067]
步骤4：将根据录制数据集构建的手势识别模型送入三维神经网络中进行训练，迭代20次得到对应的网络模型。对i3d进行了20代的训练，训练手势识别模型时，将训练程序设置为每代保存一次已训练的手势识别模型。训练手势识别模型的学习率采用指数衰减,其计算公式为：
[0068]
ln＝lo×
γ
epoch
。
[0069]
其中，ln表示新一轮更新的学习率，lo表示更新前的学习率，γ为参数。设置γ为0.1，经过指数衰减，学习率最终收敛于0.001。采用指数衰减模型加速了网络的收敛，使网络更好的收敛从而得到最优解。
[0070]
经过发明人不断的试验，确定将batch_size设置为8，提高显存利用率，进而提高大矩阵乘法的并行化效率，减少训练所需的迭代次数，对相同数据量的训练速度进一步加快。
[0071]
在训练过程中，为了从整体上看出模型的效果，首先，每个epoch将测试数据进行测试，并找出准确率较高的训练代数(如图5所示)，进一步分析比较找出数值上最优的模型。最后以训练第12代模型作为最优模型。
[0072]
进一步的，i3d模型和双流网络、3dres-18、i3d和yolov3 res-18，先分别按相同代数训练，再通过测试相同的测试数据获取各个模型的准确率和识别时间比较模型的性能，对性能的评价包括对手势的识别能力、识别速度、模型的鲁棒性。
[0073]
四种模型的检测精度和速度对比
[0074] 双流网络3dres-18yolov3 res-18i3dacc0.850.690.950.92fps/ms146129210130
[0075]
在本阶段，使用双流网络需要提前从rgb视频数据提取光流数据，这意味着采用双
流网络模型实现的手势识别模型无法实现实时，采用3dres-18对视频数据进行训练，结果发现识别精度较低，可提升的空间较大。对yolov3 res-18进行训练，结果显示该模型在准确度方面达到良好的效果，但手势检测耗时过长，无法做到较好的实时相应。对i3d进行训练，结果显示i3d模型在识别速度和准确度都达到良好的效果，各模型的测试集准确率和识别时间如表5.1所示。经过各方面的比较，本实施例中采用i3d作为基础模型继续深入的训练和结果优化。
[0076]
步骤5：加载手势识别模型对手部的运动视频进行预测分类；
[0077]
步骤6：将获得的手势类型转化为会议系统的功能控制函数，通过手势控制会议系统进行打开、放映或者翻页操作。
[0078]
通过基于手势识别的ppt控制系统无需表演者操作外界设备，只需通过pc端的普通摄像头获取手势动态视频，便可获得对应的控制指令，提高了演示的便捷性和流畅性。
[0079]
应当理解，以上的实施例是本发明较优的例子，本发明不限于上述实施例，本领域的普通技术人员，在不脱离本发明的技术方案的情况下，还可以做出技术特征的增加或替换，因此，这些增加或替换产生的技术方案也应属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种应用于语义分割的软加权多阶段网络模型

一种基于视频中动态手势控制的会议演示系统

相关文献

最热文献