电子相机中的动态自然相机过渡的系统和方法与流程

2022-06-12 03:55:55 来源：中国专利 TAG：

电子相机中的动态自然相机过渡的系统和方法

背景技术：

1.通常，视频会议中的相机捕获适合所有参与者的视图。不幸的是，远端参与者可能失去视频中的大部分价值，因为在远端显示的近端参与者的尺寸可能太小。在某些情况下，远端参与者看不到近端参与者的面部表情，并且可能难以确定谁实际上在发言。这些问题给视频会议带来了尴尬的感觉，并且使参与者难以进行富有成效的会谈。
2.为了处理不良框选，参与者必须干预并执行一系列操作来摇摄、倾斜和缩放相机以捕获更好的视图。如所预期的，使用遥控器手动引导相机可能是麻烦的。有时，参与者只是不用费心调整相机的视图，而只需使用默认的广角镜头。当然，当参与者确实手动的方式对相机的视图进行框选时，如果参与者在视频会议期间改变方位或在随后的视频会议中使用不同的座位布置，则必须重复该程序。
3.具有麦克风阵列的语音跟踪相机可以帮助在视频会议期间朝向正在发言的参与者引导相机。尽管这些类型的相机非常有用，但它们可能会遇到一些问题。例如，当发言者转身离开麦克风时，语音跟踪相机可能会失去对发言者的跟踪。在非常混响的环境中，语音跟踪相机可能指向反射点而不是实际声音源。当发言者转身远离相机或当发言者坐在桌子的一端时，可能产生典型的反射。如果反射足够麻烦，则语音跟踪相机可能被导引为指向墙壁、桌子或其他表面，而不是实际发言者。
4.如美国专利第8,248,448号中公开的一种解决方案(其通过引用并入本文)是使用两个不同的相机，一个用于广角镜头，并且一个用于发言者镜头。发言者视图基于语音跟踪来瞄准，而广角镜头保持固定。在发言者之间过渡发言者视图相机时使用广角镜头。当发言者视图相机已重新定位到新发言者时，将使用发言者视图相机图像。这种广视图/发言者视图布置允许在不干扰运动的情况下改变正在查看的发言者，但它确实需要使用两个相机。
5.由于这些原因，期望在视频会议期间能够基于会谈环境、参与者的布置和正在实际发言的人来动态地定制参与者的视图。本公开的主题旨在克服或至少减少上述问题中的一个或多个问题的影响。

技术实现要素：

6.在根据本发明的实施例中，令人愉悦地完成场景改变并且无需用户输入或控制。基于发言者的数量和发言者的改变，无论是针对不同的个人还是同一发言者的移动，基于发言者的位置以及基于当前场景和预期场景的重叠，决定是执行平滑过渡还是进行切换。已经确定，关于切换与平滑过渡的决定优选地基于预期新场景的中心与当前场景的边界的位置，如果中心在边界之外则使用切换，并且如果在边界内则使用平滑过渡。如果要执行平滑过渡，则执行缓动函数(优选地，缓入缓出函数)以改变场景。还确定了平滑过渡的优选值是假设以每秒30帧操作在80帧上执行过渡，尽管60-100帧的值也适合提供令人愉悦的观看体验。
附图说明
7.图1图示了根据本发明的包含若干人和视频会议端点的会议室。
8.图2是图1的视频会议端点的第一框图。
9.图3是图1的视频会议端点的第二框图。
10.图4是图1的视频会议端点的第三图，其图示了由视频会议端点执行的各种功能。
11.图5图示了视频会议中的完整场景和裁剪场景。
12.图6图示了视频会议中的裁剪场景相对于完整场景的尺寸标注。
13.图7图示了根据本发明的在过渡场景中使用的各种缓动函数。
14.图8a图示了根据本发明的两个裁剪场景之间的第一关系。
15.图8b图示了根据本发明的两个裁剪场景之间的第二关系。
16.图9图示了根据本发明的两个裁剪场景之间的尺寸标注。
17.图10是根据本发明的视频会议端点的视图的流程图。
具体实施方式
18.在图1的平面视图中，视频会议端点10的一种布置使用具有麦克风阵列60a-b和与其集成的相机50的视频会议设备80。麦克风盒28可以放置在桌子90上，尽管可以使用其他类型的麦克风，诸如天花板麦克风、个体桌子麦克风等。麦克风盒28通信地连接到视频会议设备80并捕获视频会议的音频。就其本身而言，视频会议设备80可以被并入显示器和/或视频会议单元(未示出)中或安装在其上。五个个人92a-92e围绕桌子90就座。
19.如图2所示，图1中的视频会议装置或端点10通过网络12与一个或多个远程端点14通信。在一些常见部件中，端点10具有带有音频编码解码器22的音频模块20并且具有带有视频编码解码器32的视频模块30。这些模块20/30可操作地联接到控制模块40和网络模块70。
20.在视频会议期间，相机50捕获视频并将捕获的视频提供给视频模块30和视频编码解码器32进行处理。优选地，相机50是电子摇摄-倾斜-缩放(eptz)相机。此外，麦克风盒28中的一个或多个麦克风捕获音频并将该音频提供给音频模块20和音频编码解码器22进行处理。端点10主要将利用麦克风盒28和天花板安装的麦克风等捕获的音频用于会议音频。
21.单独地，具有正交布置的麦克风62的麦克风阵列60a-b也捕获音频并将该音频提供给音频模块20进行处理。优选地，麦克风阵列60a-b包括竖直和水平布置的麦克风62，用于在视频会议期间确定音频源的位置。因此，端点10主要将来自这些阵列60a-b的音频用于相机跟踪目的并且不用于会议音频，尽管它们的音频可以用于会议。
22.在捕获音频和视频之后，端点10使用任何常见编码标准对其进行编码，诸如mpeg-1、mpeg-2、mpeg-4、h.261、h.263、h.264和h.265。然后，网络模块70使用任何适当的协议经由网络12将经编码的音频和视频输出到远程端点14。类似地，网络模块70经由网络12从远程端点14接收会议音频和视频，并将这些发送到它们的相应编码解码器22/32进行处理。最后，扬声器26输出会议音频，并且显示器34输出会议视频。这些模块和其他部件中的许多可以以本领域公知的常规方式操作，因此这里不提供进一步的细节。
23.图3是端点10的以硬件为中心的框图。示例性视频会议设备80包括处理单元502(诸如dsp或中央处理器单元(cpu)或其组合)以执行期望音频和视频操作。具有易失性和非
易失性部分两者的存储器504包括执行连接到处理单元502的期望模块506(诸如音频模块20、视频模块30和控制模块40，以及各种其他音频和视频模块)的程序。网络接口508(诸如以太网接口)连接到处理单元502以允许与远端通信。输入/输出(i/o)接口510连接到处理单元502以执行任何需要的i/o操作。a/d转换器块512连接到处理单元502和麦克风514。麦克风514包括麦克风盒28和一个或多个定向麦克风60a、60b。相机50连接到处理单元502以提供近端视频。hdmi接口518连接到处理单元502和显示器34以提供视频和音频输出，显示器34包括扬声器26。可以理解，这是视频会议设备的非常简化的示意图，并且许多其他设计是可能的。
24.通过对上述视频会议端点和部件的理解，现在讨论转向所公开的端点10的操作。首先，图4示出了由所公开的端点10用来进行视频会议的控制方案150。如前所述，控制方案150在视频会议期间使用视频处理160和音频处理170两者来控制相机50的操作。视频处理160和音频处理170可以个体完成或组合在一起以增强端点10的操作。虽然在下面简要描述，但稍后更详细地讨论音频和视频处理160和170的各种技术中的若干种。控制方案150、视频处理160和音频处理170优选地是存储在模块506中并在处理单元502上执行的程序。
25.简而言之，视频处理160可以使用距相机50的焦距来确定到参与者的距离，并且可以基于颜色、运动和面部辨识来使用基于视频的技术以跟踪参与者。如图所示，视频处理160因此可以使用运动检测、肤色检测、面部检测和其他算法来处理视频并控制相机50的操作。在视频处理160中也可以使用在视频会议期间获得的记录信息的历史数据。
26.就其本身而言，音频处理170使用利用麦克风阵列60a-b的言语跟踪。为了改善跟踪准确度，音频处理170可以使用本领域已知的多个滤波操作。例如，音频处理170优选地在执行言语跟踪时执行回声消除，使得不会就好像来自端点的扬声器是主要发言者一样拾取来自端点的扬声器的联接声音。音频处理170还使用过滤来从语音跟踪中消除非语音音频并忽略可能来自反射的更响亮的音频。
27.音频处理170可以使用来自附加音频提示的处理，诸如使用桌面麦克风元件或盒(28；图1)。例如，音频处理170可以执行语音辨识以识别发言者的语音并且可以确定视频会议期间的言语中的对话模式。在另一示例中，音频处理170可以从分开的麦克风盒(28)获得源的方向(即，摇摄)并且将其与通过麦克风阵列60a-b获得的位置信息组合。因为麦克风盒(28)可以具有定位在不同方向的若干麦克风，所以可以确定音频源相对于那些方向的方位。
28.当参与者最初发言时，麦克风盒(28)可以获得参与者相对于麦克风盒(28)的方向。这可以在映射表等中映射到利用阵列(60a-b)获得的参与者的位置。在稍后的某个时间，只有麦克风盒(28)可以检测当前发言者，使得只获得其方向信息。然而，基于映射表，端点10可以定位当前发言者的位置(摇摄、倾斜、缩放坐标)，从而使用映射信息利用相机50来对发言者进行框选。
29.应当理解，以上是对视频会议设备80和端点10的一个实施例的描述，并且麦克风、相机、处理器等的其他配置可以用于提供发言者位置确定和各种视图。
30.现在参考图5和图6，图示了优选eptz相机50的视图。现代电子相机的分辨率已经足够高，即使是场景的裁剪部分也提供足够的分辨率来提供愉悦的视频会议。完整相机视图602可以包含多达3840x2160像素(称为4k)。裁剪场景604然后可以容易地具有1920x1080
像素(称为hd)。裁剪场景604视场(fov)具有高度h和宽度w以及中心xc、yc。裁剪场景604的左上角具有坐标值x0，y0，参考完整相机视图602的左上角的0,0。右下角则具有坐标值x1，y1。
31.在图5中，个体92c是发言者，因此裁剪场景604被框选在个体92c上。如果个体92c停止发言或不同的个体开始发言，则裁剪场景604改变位置或使用完整相机视图602。然而，视图如何改变可能对视频会议具有影响。以高速移动裁剪视图大距离会迷失方向。类似地，在靠近的裁剪视图之间进行切换也会迷失方向。此外，众所周知，过于频繁地改变视图也会迷失方向。根据本发明的实施例利用规则来确定如何在相机视图之间移动，诸如完整相机视图到裁剪视图、裁剪视图到完整相机视图以及两个裁剪视图位置之间。规则以最低的迷失方向程度提供了愉悦的体验。本公开中感兴趣的规则是与视图移动和视图切换有关的规则，改变视图规则与先前的规则类似。
32.首先解决移动，当考虑两个场景(场景a和场景b)之间的过渡时，eptz过渡是通过为过渡的每个帧指定不同的裁剪场景或视图来创建的。每个后续框的变量随时间变化特定量以执行受控过渡。有效运动的速度和加速度由每帧应用多少改变来定义。
33.用于在特定时间t内将变量v从值a过渡为值b的一种方法是标准化(t)的值范围并应用插值函数。此函数的标准化输出可以应用于过渡的每个实例的值(vi)的范围。所选插值函数(f(t))将定义感知到的运动随变量(v)改变的特性。
34.在eptz相机运动的情况下，如果将该技术同时应用于用于描述两个相机场景(a、b)的中心点(x、y)和尺寸(w、h)变量，则通过过渡的感知到的运动效果将相当于规定的插值函数。
35.通常在图形动画中使用的运动效果在应用于视频输出时用于模拟自然相机移动。在根据本发明的实施例中，动态地应用该函数，使得端点在运行时选择适当的运动类型并像人类操作员那样改变特性。加速度、减速度和速度成为所选函数和过渡持续时间的固有特性，而不是复杂的输入参数。
36.参考图7，最简单的函数是线性函数f(t)＝t，但是线性函数在场景之间过渡伴随突然开始/停止以及甚至速度，并且因此对体验而言不是令人愉悦的。
37.存在将产生具有独特加速度和减速度的不同类型的运动的无尽的多项式和三角方程。这些可以统称为“缓动函数”。在图7中图示了各种缓动函数。
38.计算运动效果的参数的主要决定是决定过渡应该花费多少时间来完成。太快则眼花缭乱，并且太慢则乏味。时间确定迭代完成过渡效果的“步骤”的数量。由于这适用于相机视频流，因此优选方法是将值基于相机的帧速率(fps或每秒帧数)。例如，如果帧速率为30fps的相机期望2秒的过渡，则步骤的数量(s)为60。一旦确定步骤的总数量，缓动函数就应用于四个变量x、y、h和w，同时确定要用于通过过渡的每个帧的边界框。
39.下面的示例采取60帧来应用从场景a到场景b的ease_inf(t)＝t3过渡。场景在表1中定义。
40.表1
41.场景a场景b中心点：(xa,ya)中心点：(xb,yb)宽度：wa宽度：wb高度：ha高度：hb42.以下伪代码示例执行关键计算：
[0043][0044]
一旦确定了时间参数s并且选择了缓动函数，应用于四个关键变量(x、y、w、h)的简短计算就产生期望结果。在每个迭代(视频帧)中，更新的裁剪参数被提供给gpu或视频缓冲进程，以正确比例缩放视频输出。在帧的所选数量的时间内，创建适当的过渡视频效果。
[0045]
基于对视频会议设置中的过渡的观察，已经确定使用诸如f(t)＝3t
2-2t3或f(t)＝6t
5-15t4 10t的缓入缓出函数的80帧(以每秒30帧(30fps))提供令人愉悦的过渡。从60到100的其他帧计数提供令人愉悦的过渡，但80帧是最优选的。当帧计数超过100帧时，过渡开始被认为太慢。如果低于60，则过渡可能不会被视为过渡，而是被视为切换。此外，帧的数量可以基于场景之间的距离而改变，但保持帧的恒定数为移动提供动态感。如果正在使用每秒60帧(60fps)，则该值简单地加倍。如上所述，各种其他函数可以用于过渡，尽管具有突然启动或停止的函数通常被认为是不期望的。可以对系数和多项式进行许多改变，以提供其他速度曲线，这些速度曲线提供令人愉悦的缓入和缓出。
[0046]
解决移动与切换的选择，在某些情况下，将相机视图立即从场景a改变到场景b可能更合适。在决定如何决定何时执行平滑过渡或执行直接切换时，采取以下一些考虑因素：
[0047]
平滑过渡将花费太长时间吗？
[0048]
平滑过渡将行进得太远吗？
[0049]
平滑过渡导致头晕或迷失方向吗？
[0050]
直接切换导致迷失方向吗？
[0051]
已经确定，随着两个场景(a和b)之间的交叉或重叠的增加，直接切换变得更加迷失方向并且优选平滑过渡。随着交叉的缩小和重叠的消失，平滑过渡变得更加迷失方向并且优选直接切换。
[0052]
已经确定，为了平衡相机过渡的舒适水平，应用简单的计算来决定是在两个场景之间平滑移动还是直接切换。
[0053]
针对当前场景(场景a)的宽度和高度评估场景a和b的中心点被用作初始计算以确定执行切换或移动操作的阈值。
[0054]
如果场景b的中心点位于场景a之外，则选择直接切换；否则应用平滑过渡。在图8a和图8b中示出了差异。在图8a中，裁剪区域以作为发言者的个体92c为中心并且包括边缘处的个体92b和92d。个人92d成为发言者，因此裁剪区域需要移动到方位b，其中在中心示出个人92d。因为场景b的中心在场景a边界内，所以使用缓入缓出函数的平滑过渡用于过渡。在图8b中，个人92a是发言者，并且然后个人92e成为发言者。由于场景b完全在场景a之外，因此使用从场景a到场景b的直接切换。
[0055]
图9图示了变量，并且决定由以下伪代码确定：
[0056][0057]
w和h的偏移(wo、ho)用于修改重叠容差。如果两者都使用零，则允许的有效最大重叠基本上是当前视场的面积的1/4。当偏移值接近场景b的w、h值(wb、hb)时，新场景必须完全位于当前场景之外才能触发直接切换过渡。
[0058]
abs(x
a-xb)》(wa/2) wo||abs(y
a-yb)》(ha/2) ho[0059]
计算该容差的另一种方法是计算两个场景的交叉的区域并且使该决定基于与该值直接相关的值。由于这两种方法产生等效的结果，因此通常优选更简单的计算和条件。
[0060]
现在参考图10，示出了图示确定特定视图的操作的流程图。该流程图图示了与音频模块20和视频模块30协作的控制模块40或与视频处理160和音频处理170协作的控制方案150的操作。在步骤1002中，从相机捕获视频。在步骤1004中，监测接收到的音频。在步骤1006，确定在近端是否没有发言者。如果没有发言者，则在步骤1008中缩放和摇摄视图以提供相机的完整视图。操作返回到步骤1002。
[0061]
如果在步骤1006中存在发言者，则在步骤1010中确定是否只存在一个发言者。如果是，则在步骤1016中确定发言者的方位。在步骤1012中确定是否其为不同的发言者或者发言者已经移动。如果不是，则在步骤1014输出当前视图。如果是新发言者，则在步骤1018中，如上所述进行平滑过渡或切换之间的决定。如果确定切换是合适的，则在步骤1020中进行切换以提供新视图并且操作返回到步骤1002。如果是平滑过渡，则在步骤1022中选择缓动函数并将其投入操作以进行过渡到新发言者或位置。操作返回步骤1002。
[0062]
如果在步骤1010中确定不是只有一个发言者，则在步骤1024中确定是否存在两个发言者。如果是，则在步骤1026中确定两个发言者的方位。在步骤1027中确定是否存在不同的发言者或发言者已经移动。如果没有不同的发言者并且没有人移动，则在步骤1029中选择当前视图。如果发言者不同或已经移动，则在步骤1028中确定两个发言者是否靠近在一
起。确定靠近在一起有许多因素。一些因素包括避免在分屏视图中的分屏的任一侧具有相同或重叠的背景，避免让用户的伸出的手臂似乎需要侵入分屏的另一侧，以及让发言者分开超过屏幕视场的一半。如果它们不靠近在一起，则在步骤1030中使用对分屏视图的切换来显示两个发言者，包括如果两个发言者彼此面对，则添加观看空间，而不是仅仅邻接两个裁剪发言者视图。许多因素用于确定添加的观看空间的量。在一个示例中，发言者与屏幕的左右三分之一对齐，留下屏幕宽度的50％到67％作为间距，尽管发言者尺寸和其他调整可能改变实际数量。操作返回到步骤1002。如果两个发言者靠近，则在步骤1032中利用缓动来缩放和摇摄视图以捕获两个发言者，其中相机位于中心。
[0063]
如果在步骤1024中不仅存在两个发言者，则在步骤1035中确定发言者的方位。在步骤1035，确定是否存在不同的发言者或发言者之一已经移动。如果是，则在步骤1036中利用缓动来缩放和摇摄视图以捕获近端处的所有发言者。如果没有不同的发言者或没有人移动，则在步骤1038中选择当前视图并且操作返回到步骤1002。
[0064]
为简单起见，上述操作只是视图改变逻辑，并且所有都假定视图的改变仅在特定视图的适当等待时间段之后进行，并且发言者正在谈论达足以进行视图改变的时间段。
[0065]
虽然描述集中在进行各种确定和过渡的端点上，但也可以在正在开发视图以提供各种端点的多点控制单元(mcu)中进行确定。mcu接收完整相机视图，并且然后以类似的方式开发各种视图，特别是如果会议正在以发言者视图模式操作，而且还以持续存在模式操作。
[0066]
因此，可以令人愉悦地完成场景改变(尤其是使用eptz相机)并且无需用户输入或控制。基于发言者的数量和发言者的改变，无论是针对不同的个人还是同一发言者的移动，基于发言者的位置以及当前场景和预期场景的重叠，决定是执行平滑过渡还是进行切换。已经确定，关于切换还是平滑过渡的决定优选地基于预期新场景的中心还是当前场景的边界的位置，如果中心在边界之外则使用切换，并且如果在内部则使用平滑过渡。如果要执行平滑过渡，则执行缓动函数(优选地，缓入缓出函数)以改变场景。还确定了：假设30fs操作，平滑过渡的优选值是在80帧上执行过渡，但60-100帧的值也适合提供令人愉悦的观看体验。
[0067]
在不脱离所附权利要求的范围的情况下，可以对所图示的操作方法的细节进行各种改变。例如，说明性流程图步骤或过程步骤可以以不同于这里公开的顺序执行所识别的步骤。替代地，一些实施例可以将本文描述的活动组合为分开的步骤。类似地，可以省略所描述的步骤中的一个或多个，这取决于实施该方法的具体操作环境。
[0068]
此外，可以由可编程控制设备执行根据流程图或过程步骤的动作，该可编程控制设备执行被组织成非暂时性可编程存储设备上的一个或多个程序模块的指令。可编程控制设备可以是单个计算机处理器、专用处理器(例如，数字信号处理器，“dsp”)、通过通信链路联接的多个处理器或定制设计的状态机。定制设计的状态机可以体现在硬件设备中，诸如集成电路，包括但不限于专用集成电路(“asic”)或现场可编程门阵列(“fpga”)。适用于有形地体现程序指令的非暂时性可编程存储设备(有时称为计算机可读介质)包括但不限于：磁盘(固定、软盘和可移除)和磁带；光介质，诸如cd-rom和数字视频光盘(“dvd”)；和半导体存储器设备，诸如电可编程只读存储器(“eprom”)、电可擦除可编程只读存储器(“eeprom”)、可编程门阵列和闪存设备。
[0069]
优选和其他实施例的前述描述不旨在限制或约束申请人构思的发明概念的范围或适用性。作为公开本文所包含的发明概念的交换，申请人期望所附权利要求提供的所有专利权。因此，所附权利要求旨在包括以使其进入所附权利要求或其等同物的范围内的完全程度的所有修改和变更。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

电子相机中的动态自然相机过渡的系统和方法与流程

相关文献

最热文献