用于在实况视频中的最佳概览帧之间进行过渡的基于插值的相机运动的制作方法

2022-02-20 12:34:16 来源：中国专利 TAG：

1.本公开一般而言涉及视频传输。特别地，广角镜头允许它使用检测人的位置并基于这个信息确定将图像的哪一部分输出为视频的专门的硬件和软件看到大空间。

背景技术：

2.实时视频通信系统和新兴的视频会议领域正面临着固有的挑战，因为它们试图模拟远程用户在另一个物理空间中存在的体验。这是因为与具有当前最先进分辨率的市售单镜头相机相比，人眼能够将其高分辨率中央凹固定在感兴趣的物体上，因此在其视场范围内仍然具有极大的优势。此外，视频会议系统在实践中受到大多数用户可用的网络带宽的限制。因此，视频会议在使用大多数平板电脑、电话和膝上型计算机中的窄视场相机的单个人对人视频聊天之外的应用有限也就不足为奇了。
3.商业视频会议系统中的自动和手动摇摄-倾斜-缩放(ptz)相机试图通过光学和机械方式将视场固定在场景中感兴趣的选定部分，从而克服单镜头相机分辨率的限制。这部分缓解了分辨率限制，但有几个缺点。例如，在给定时间只可能进行一次机械固定；因此，可能无法令人满意地服务具有不同兴趣的多个远程用户。此外，缩放镜头和机械摇摄-倾斜机构增加了相机系统的成本，并对整个系统的可靠性提出了新的挑战。即，与手动系统相比，自动ptz系统对机械部件提出了更高的要求，手动系统通常在其整个生命周期中维持较少的移动周期。与固定式相机相比，用于高质量视频编码的带宽需求也显著增加。类似地，现有系统中的某种数字ptz存在如上面所讨论的许多缺点，包括例如无法由远端的多个用户控制以及对视频编码的更高位速率要求。
4.现有技术包括各种视频会议产品，这些产品基于波束赋形麦克风三角测量或面部检测来选择最佳概览帧，然后简单地切换到那个取景(framing，或称为成帧)。这种方法导致帧剪切并具有双重缺点，即，由于不连续的运动而分散查看者的注意力，以及用于电话会议的视频编解码器的问题，大多数用于电话会议的视频编解码器依赖帧之间的相似性来减少带宽并在远端创建流畅、无伪影的视频播放。先前的解决方案还包括使用马达来更改相机摇摄倾斜和缩放的相机，而这种解决方案不使用马达并使用软件完成所有工作。
5.在一些实施方式中，人的检测和取景是在设备外完成的，或者在基于主机的软件上，或者在云中，最终导致重新取景命令被传递到相机设备。由于主机-设备命令通道的带宽、时延和可靠性，那种方法有效地限制了动画和平滑过渡的能力。
6.ep3287947a1教导了使用视频会议系统的单个相机在视频会议中自动取景参与者的系统和方法。一种方法包括从具有第一视频设置集合的第一场景过渡到主要视频流中的第二场景，其中检测概览视频流内的人或人的位置的改变要求根据检测到的改变的不同取景。但是，由于没有教导使用中间视频设置内插视频帧，因此会出现突然的摇摄/倾斜/缩放改变。
7.因此，需要一种解决方案，使用软件跨包括摇摄、倾斜和缩放的参数平滑地过渡对
人的取景的任何调整，该方案在更改视频流中的人的取景时避免突然的摇摄/倾斜/缩放改变，因为这会干扰进行视频通话的体验。使用嵌入式相机设备上实时视频中视频流参数的平滑改变，由此产生的帧应当是可以由广角固定镜头相机捕获的所有参与者的特写。
8.因此，需要将用于平滑数值之间的过渡的插值技术应用于多种相机设置以实现平滑过渡。

技术实现要素：

9.鉴于上述，本公开的目的是克服或至少减轻现有技术视频会议系统的缺点。特别地，本技术公开了一种从具有第一视频设置集合的第一场景过渡到主要视频流中的第二场景的方法，其中主要视频流表示对在由包括广角图像传感器和视频处理设备的高分辨率视频相机捕获的概览视频流表示的概览视频图像内检测到的人进行取景的子视频图像，包括以下步骤：借助于由卷积神经网络支持的机器学习来检测概览视频图像内的人和人的位置，当检测到概览视频流中的人或人的位置的改变时，要求根据检测到的改变进行不同的取景，然后根据概览视频流中的人或人的位置的改变计算用于第二场景的调整取景的第二设置集合，基于第一设置集合和第二设置集合来选择预定义的过渡方案的集合中的一个以用于过渡，根据所选择的过渡方案在主要视频流中从第一场景到第二场景用中间视频设置内插视频帧，其中预定义的过渡方案的集合是控制作为时间的函数的中间视频设置的不同的参数方程。还公开了一种被调整以执行对应方法的处理设备。
10.这些进一步的方面提供了与上面概述的第一方面相同的效果和优点。
附图说明
11.图1示出了根据本专利申请的一个实施例的组件的概览。
12.图2示出了对人取景和重新取景的示例。
13.图3示出了根据本技术的一个实施例的如何内插帧的示例。
14.图4是根据本技术的一个实施例的缩放的示例。
15.图5是根据本专利申请的一个实施例的系统概览。
具体实施方式
16.根据本文公开的本发明的实施例，消除或至少减轻了根据现有技术的解决方案的上面提到的缺点。
17.在根据本发明的各种实施例中，具有足够宽的视场镜头以捕获例如会议室的整个空间的视频相机配备有机器学习技术，该技术使相机能够理解相机视场内哪里有人，并利用适合此目的的算法以高效的方式通过灵活的图像管道将视频字幕过渡成在视频中包括检测到的人的位置。算法的输出将指示图像管道从主要流的当前视图过渡到主要流的新的期望视图。
18.相机在较小的会议室中通常可以具有大约150度的视场，而在较大的会议室中具有大约90度的视场。相机包括具有适当视场的光学镜头和允许相机放大视频而不会损失感知分辨率的大分辨率图像传感器。
19.如图1中所示，视频处理单元允许相机处理来自传感器的视频数据，包括将视频数
据拆分成两个流的能力，一个流总是被缩小(在此称为“概览流”)，第二个流提供被用作视频电话会议中的主要视频流的增强和缩放的视频流(在此称为“主要流”)。我们的相机通过它的广角镜头和高分辨率传感器使用专门的硬件和软件检测人所在的位置，并基于这个信息确定将图像的哪一部分输出为视频。
20.相机还包括硬件加速的可编程卷积神经网络(在此称为cnn)。cnn在使用机器学习设计的模型上操作，该模型允许硬件使用概览流检测相机视场中的人。cnn查看概览流并检测在相机的视场中检测到人的位置。使用cnn和机器学习在概览流中检测人的优点在于，可以训练在cnn上运行的模型不偏向于性别、年龄和种族等参数。cnn模型还将能够理解检测人和从不同角度(如，从后面)查看的人的局部视图。这允许稳健的体验。cnn硬件能够每秒多次运行这些检测，从而允许相机在适当的时间对相机视场中的改变做出反应。
21.一旦确立了相机视场中的人数及其位置，相机就会使用这个信息运行被设计为确定要应用于主要流的适当和期望视图的算法。该算法包括描述在相机视场中检测到的人的所有侧面的填充的参数。它还包括描述相机应当对改变做出反应的频率的参数。
22.其视觉结果在图2中图示。通过检测人的位置，相机基于正在发生的事情以不同的速度调整视场以获得最佳体验。例如，如果有新的人(图2.1)，那么相机视距会放大，如果有一个人(图2.2)，那么相机会对那个人取景，如果有两个人(图2.3)，那么相机对这两个人取景，而如果人移动(图2.4)，那么相机也会更新取景。
23.算法的输出将指示图像管道从主要流的当前视图过渡到主要流的新的期望视图。这种过渡是高帧速率过渡，它遵循在先前视图到新的期望视图之间提供期望的流畅体验的曲线。
24.这种广角镜头、可编程图像管道和硬件加速卷积神经网络相结合的结果是一种体验，其中相机以自然流畅的方式适应人进出会议室以及人在会议室中走动，而无需相机上必须有任何移动零件。
25.在一些实施例中，上面提到的过渡允许平滑所有可改变的相机参数。相机可以运行任务列表组件，该组件调度与输出视频帧速率同步的过渡。任务列表和调度程序提供了在时间间隔内运行多个同时进程的可能性。设备本地的线程运行调度程序，其从列表中挑选平滑任务以满足实时要求。基于贝塞尔曲线、样条和线性插值的不同平滑策略在运行时被调度。能够自动检测人并基于他们的位置对他们取景的相机使用这个模块在人在相机视场中移动时平滑地改变帧，以及其它功能。
26.在本发明的另外的实施例中，所有设置(诸如例如摇摄、倾斜和缩放)被定义并存储为相机设备上的不同数字。用于从一个设置集合过渡到另一个设置集合的方案与输出视频帧速率同步运行。这个方案需要足够轻量级，以在相机设备上以标称每秒30帧的速度处理两帧之间剩余的少量cpu运行时间中运行，并且足够灵活以支持由单个数字、向量以及数字矩阵组成的设置，理想情况下是能够同时过渡不同维度、量值和持续时间的许多不同设置。
27.在实现这种方案的一些实施例中，过渡被划分成步骤并且设计可以一次一个步骤地执行过渡的调度程序。当执行过渡步骤时，该方案必须找出这个步骤相对于过渡目标所在的位置，选择适当的平滑函数，计算适当的插值参数，然后激活更新要被平滑的相机设置的客户端定义的函数。
28.基于相机是视距缩小还是视距放大，并且取决于缩放的差异有多大，从一帧到另一帧的过渡时间的长度可以变化。这样做是为了创建更自然的会议体验。变化的示例可以包括：
29.1.当人在当前相机视场之外并且要进行视距放大的过渡时，过渡的时间应当短，以便用户快速反应。
30.2.当要对取景进行小的调整时，过渡应当花更长的时间。这样做是为了不因突然的小改变而干扰会议体验。
31.3.当视距缩小时要对取景进行大的调整时，相机过渡花甚至更长的时间，同样为了不使体验变得突然。
32.此外，帧之间的插值技术可以由作为时间的函数的参数方程支持，控制参数(如摇摄、倾斜、缩放)以及其它图像参数(如白平衡和过渡中内插的帧的颜色)以定义缓和的帧之间的过渡。我们可以指定自定义的加速度设置，而不是以每个时间帧的固定数量的像素从一个帧移动到另一个帧，从而允许我们缓入和缓出对新帧的改变，从而使体验感觉更自然。参数方程应当基于识别出的过渡情况(例如，上面公开的三种情况之一)进行选择，从而产生最自然的会议体验。
33.在一些实施例中，参数方程是贝塞尔曲线。贝塞尔曲线是用于计算机图形学和相关领域的参数曲线，并且通常用于对可以无限缩放的平滑曲线进行建模。例如，在动画和用户界面设计领域，使用贝塞尔曲线是因为它们提供令人满意的缓动，实现相对简单，并提供四个有据可查的关键参数，无需深入研究实现细节即可理解和调节这些参数。
34.在一些实施例中，贝塞尔曲线被用于从起点到目标点迭代评估三次贝塞尔函数的相对简单的实施方式，具有四个控制点。它允许点或者是单维值、n维向量或者任意矩阵，这些矩阵通过用相同的函数和参数评估每个数值而逐步内插。要注意的一个细节是过渡为相机设置添加了另一个维度；这样即使是单值点也变成沿着时间轴的过渡曲线，任何n维向量都会扩展到n 1维，因为人们可以将时间视为另一个维度。
35.平滑应当提供尽可能简单且灵活的接口，并选择只有一种方法的简单接口。这种方法允许处理器中的软件组件(例如，位于相机中的)将其自身添加到过渡任务列表。为此，软件组件必须提供要在其间过渡的起始值和目标值、指定平滑应当多长时间或多慢的过渡时间、或者可替代地过渡应当具有的平均或最大速度、需要中间过渡值并在过渡的每一步更新给定的相机设置的setter函数、用于setter函数的可选对象上下文以防它需要跨步骤存储或引用某些东西，以及在过渡到达它的结束时调用的可选回调函数。例如，这个回调可以被用于排队另一个过渡，或通知系统的另一个部分资源已被释放。
36.软件组件还可以可选地为这个过渡设置贝塞尔曲线参数，但是如果软件组件未提供这些参数值，我们会提供默认参数值。例如，这可以被用于为具有更高置信度的重新取景创建更快的加速和更慢的减速。
37.当任务列表上有一个或多个过渡时，调度程序在每一帧上运行并迭代这个任务列表，用当前时间更新每个任务。时间被用于精确计算过渡中每个步骤需要处于的位置。可替代地，可以使用步长分数或过渡持续时间跨越的帧数，但是这种方法的缺点是，如果视频流遇到帧丢失(frame drop)或抖动，那么这会导致过渡运动断断续续或以其它方式看起来不连续，而如果计算到过渡结束的时间，任何帧滞后或丢失将通过更新当前步骤的运动以进
一步沿着贝塞尔曲线而得到自动补偿。
38.当前时间还被用于检查是否已达到或超过过渡的结束，在这种情况下，相机设置被更新为目标值，并从任务列表中删除这个过渡任务，从而释放宝贵的资源以供在未来的过渡中使用。
39.任务也可以被实时更新，例如，当我们正在朝着检测到的人脸移动摇摄和倾斜时，当新的检测显示帧应当跨越房间相对两侧的两个人时，如果该帧正在跟踪在静止相机前持续移动的一个人，或者相机正在相对于其被摄体移动。在更新过渡任务的情况下，我们可以放弃旧贝塞尔曲线的减速阶段和新曲线的加速阶段，以实现更流畅的用户体验。我们还可以计算过渡的当前速度并将其与新曲线的初始条件相匹配，对于软件组件而言，所有这些都是透明的，该软件组件仍然只关心将自身添加到过渡任务列表中，而不管它是否已经在那里存在。
40.图3是根据本技术的一个实施例的过渡示例的图示。在从概览流中检测到人的新情况之后，确定新的取景(b)。因此，应当在初始取景(a)和新取景(b)之间进行过渡。基于识别出的过渡情况(例如，上面公开的三种情况之一)选择具有某些参数的贝塞尔曲线，从而产生最自然的会议体验。相应地执行过渡，根据这个选择在初始帧(a)和新帧(b)之间内插帧。如3.2和3.3中所指示，每个内插帧与所选择的贝塞尔曲线上的一个点对应，从而至少确定那个帧的摇摄、缩放和倾斜。不是以每个时间帧的固定像素数从一帧移动到另一帧，而是可以指定自定义设置，例如加速度，从而允许我们能够缓入和缓出对新帧的改变，以使体验感觉更自然。
41.图4是根据本技术的一些实施例的放大的示例。算法的输出将指示图像管道从主要流的当前视图过渡到主要流的新的期望视图。
42.如本文所使用的，术语“第一”、“第二”、“第三”等可以仅用于将特征、装置、元件、单元等彼此区分开，除非从上下文中明显另有所指。
43.如本文所使用的，表述“在一些实施例中”已被用于指示所描述的实施例的特征可以与本文公开的任何其它实施例组合。
44.虽然已经描述了各个方面的实施例，但是其许多不同的更改、修改等对于本领域技术人员来说将变得显而易见。因此，所描述的实施例不旨在限制本公开的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于节点优先级的动态TDMA时隙分配方法与流程

用于在实况视频中的最佳概览帧之间进行过渡的基于插值的相机运动的制作方法

相关文献

最热文献