一种用于模拟三维图像序列的方法和系统与流程

2021-11-24 20:42:00 来源：中国专利 TAG：

一种用于模拟三维图像序列的方法和系统
1.介绍
2.本发明涉及从2
‑
d图像帧序列模拟3
‑
d图像序列，并且更具体地，但是不排他地，涉及用于数字广告中的3
‑
d图像序列。
3.人类视觉系统(hvs)依靠二维图像来解释三维视野。通过利用具有hvs的机制，我们创建了与hvs相当的图像/场景。
4.在观看3d图像序列时，眼睛必须会聚的点与它们必须聚焦的距离之间的不匹配会有负面影响。虽然3d图像已被证明在数字广告、医学成像和许多其他应用中很受欢迎和有用，但仍有一个众所周知的问题。
5.在自然观看中，图像以不同的双眼视差到达眼睛，因此当观看者从视觉场景中的一点看向另一点时，他们必须调整眼睛的聚散度。视线相交的距离就是聚散度距离。未能会聚在该距离处会导致重影。观看者还为场景的固定部分适当地调整(即，调节)每只眼睛中晶状体的焦度。眼睛必须聚焦的距离是调节距离。未能调节到该距离会导致图像模糊。聚散度和调节反应在大脑中是耦合的：具体地，聚散度的变化驱动调节的变化，并且调节的变化驱动聚散度的变化。这种耦合在自然观看中是有利的，因为聚散度距离和调节距离几乎总是相同的。
6.在3d图像序列中，图像具有不同的双眼视差，从而像在自然观看中发生的那样刺激聚散度的变化。但是调节距离在显示距离处保持固定，因此聚散度和调节距离之间的自然相关性被破坏，导致所谓的聚散度
‑
调节冲突。该冲突引发了几个问题。首先，不同的视差和焦点信息导致感知深度失真。其次，观看者在同时融合和聚焦图像序列中的关键对象时会遇到困难。最后，试图分别调整聚散度和调节会导致观看者的视觉不适和疲劳。

背景技术：

7.深度感知基于多个线索，其中双眼视差和运动视差通常比图像线索提供更精确的深度信息。双眼视差和运动视差为深度感知提供了两个独立的定量线索。双眼视差是指3d空间中一个点的两个视网膜图像投影之间的位置差异。如图1a和图1b中所示，当在图像场景110中观看物体102时获得的稳健的深度感知表明，大脑可以仅从双眼视差线索计算深度。在双眼视觉中，两眼视界112是空间中与注视点114具有相同视差的点的轨迹。位于穿过注视点114的水平线上的物体产生单个图像，而距该线合理距离的物体会产生两个图像116、118。
8.通过使用从稍微不同的角度获得的同一物体102的两个图像116、118，有可能高精度地三角测量到物体102的距离。每只眼睛观看由左眼104和右眼106看到的物体102的稍微不同的角度。这是由于眼睛的水平分离视差而发生的。如果物体远离，则落在两个视网膜上的图像110的视差108将变小。如果物体靠近或接近，则视差将变大。
9.运动视差120指的是由观察者104的平移造成的(在不同深度的物体之间的)相对图像运动。与双眼和图像深度线索分离，运动视差120还可以提供精确的深度感知，前提是它伴随着指定眼睛相对于视觉场景110的方向变化的辅助信号。如图所示，随着眼睛方向
104改变，物体102相对于背景的表面相对运动给出了关于其相对距离的提示。如果物体102远离，则物体102看起来是静止的。如果物体102靠近或接近，则物体102好像移动得更快。
10.为了近距离观看物体102并将两个视网膜上的图像融合成一个物体，两只眼睛104、106的视轴会聚在物体102上。改变眼睛晶状体的焦距以将聚焦图像放置在视网膜的中央凹上的肌肉动作被称为调节。肌肉动作和相邻深度的聚焦缺失都为大脑提供了可以用于感知深度的额外信息。图像清晰度是模糊的深度线索。然而，通过改变聚焦平面(看得比物体102更近和/或更远)，模糊就被解决。
11.图2a和2b分别示出了眼睛200的解剖结构以及视杆细胞和视锥细胞分布的图示。中央凹202负责敏锐的中央视觉(也被称为中央凹视觉)，这在视觉细节至关重要的地方是必要的。中央凹202是视网膜内表面204中的凹陷，大约1.5mm宽，并且完全由专门用于最大视敏度的视锥细胞204组成。视杆细胞206是接收灰度信息的低强度受体，并且对周边视觉很重要，而视锥细胞204是接收彩色视觉信息的高强度受体。参考图2b将更清楚地理解中央凹202的重要性，图2b示出了视锥细胞204和视杆细胞206在眼睛200中的分布。如图所示，提供最高视敏度的视锥细胞204的大部分位于围绕中央凹202中心的1.5
°
角内。
12.图3示出了典型的视野300。如图所示，中央凹202只能看到视野302的中心1.5
°
，其中优选视野304位于中央凹202中心的
±
15
°
内。因此，将物体聚焦于中心凹上取决于物体102的线性尺寸、视角和视距。近距离观看的大物体102将会有落在中央凹视觉之外的大视角，而远距离观看的小物体102将会有落在中央凹视觉之内的小视角。落在中央凹视觉内的物体102将会以高视敏度产生在脑海中。然而，在自然的观看条件下，观看者并非只是被动地感知。相反，他们通过在不同视距的物体之间移动其眼注视和焦点来动态扫描视觉场景110。在这样做时，调节和聚散度的眼球运动过程(左眼104和右眼106的视线之间的角度)必须同步移动，以将新物体置于每个视网膜中心的清晰的焦点上。因此，自然条件反射式地把调节和聚散联系起来，这样一个过程的变化会自然驱动另一个过程的相应变化。
13.传统的立体显示器迫使观看者尝试解耦这些过程，因为虽然他们必须动态地改变聚散角以观看不同立体距离处的物体，但是他们必须保持调节在固定距离处，否则整个显示器将会失去焦点。在观看此类显示器时，这种解耦会产生眼睛疲劳并影响图像质量。
14.本发明的目的是克服或减轻这些已知问题。

技术实现要素：

15.根据本发明的第一方面，有一种从2
‑
d图像帧序列模拟3
‑
d图像序列的方法，该方法包括：从多个不同的观测点捕获场景的多个2
‑
d图像帧，其中，在序列中的每个图像帧内识别第一近端平面和第二远端平面，并且其中，每个观测点为每个图像帧保持基本相同的第一近端图像平面；确定序列中每个图像帧内的第一近端和第二远端平面的深度估计；基于每个图像帧的第二远端平面的深度估计，对齐序列中每个图像帧的第一近端平面并移动序列中每个后续图像帧的第二远端平面，以产生对应于每个2
‑
d图像帧的修改图像帧；以及依次显示修改图像帧。
16.本发明改变显示场景中不同平面处物体的焦点，以匹配聚散度和立体视网膜视差需求，从而更好地模拟自然观看条件。通过调整场景中关键物体的焦点以匹配它们的立体视网膜视差，视觉调节和聚散度的线索达到一致。正如在自然视觉中一样，观看者通过变换
调节来将不同的物体聚焦。随着调节和聚散度之间的不匹配减少，可以更好地模拟自然观看条件并且减少眼睛疲劳。
17.优选地，该方法还包括为序列中的每个图像帧确定三个或更多个平面。
18.此外，优选这些平面具有不同的深度估计。
19.此外，优选每个相应平面基于相应平面的深度估计与所述第一近端平面之间的差来移动。
20.优选地，将每个修改图像帧的第一近端平面对齐，使得第一近端平面位于相同的像素空间。
21.还优选地，第一平面包括关键对象点。
22.优选地，这些平面包括至少一个前景平面。
23.此外，优选这些平面包括至少一个背景平面。
24.优选地，顺序观测点位于一条直线上。
25.优选地，顺序观测点位于一条曲线上。
26.还优选地，顺序观测点隔开50
‑
80mm之间的距离。
27.此外，优选顺序观测点隔开64mm的距离。
28.根据本发明的第二方面，有一种用于从2
‑
d图像帧序列模拟3
‑
d图像序列的系统，包括：图像捕获装置，用于从多个不同的顺序观测点捕获场景的多个2
‑
d图像帧，其中，在序列中的每个图像帧内识别第一近端平面和第二远端平面；位移装置，用于将图像捕获装置位移到顺序观测点，以为每个图像帧保持基本相同的第一近端图像平面；用于确定序列中每个图像帧内的第一近端平面和第二远端平面的深度估计的装置；为了产生对应于每个2
‑
d图像帧的修改图像帧，用于基于每个图像帧的第二远端平面的深度估计对齐序列中每个后续图像帧的第一近端平面的装置和用于基于每个图像帧的第二远端平面的深度估计移动序列中每个后续图像帧的第二远端平面的装置；以及显示装置，用于依次显示修改图像帧。
29.优选地，该系统包括用于为序列中的每个图像帧确定三个或更多个平面的装置。
30.此外，优选的是，这些平面具有不同的深度估计，并且其中，每个相应平面基于相应平面的深度估计与第一近端平面之间的差来移动。
31.还优选地，该系统包括用于对齐每个修改图像帧的第一近端平面以使第一近端平面位于显示装置的相同像素空间处的装置。
32.优选地，第一近端平面包括关键对象点。
33.还优选地，多个平面包括至少一个前景平面和至少一个背景平面。
34.优选地，位移装置沿直线路径将图像捕获装置位移到顺序观测点。
35.还优选地，位移装置沿直线路径将图像捕获装置位移到顺序观测点。
36.还优选地，顺序观测点隔开50
‑
80mm之间的距离。
37.此外，优选顺序观测点隔开64mm的距离。
38.根据本发明的第二方面，存在存储指令的非暂时性计算机可读存储介质，该指令在由处理器执行时使得处理器执行根据本发明的第二方面的方法。
附图说明
39.现在将仅通过示例的方式，参考附图描述本发明的具体实施例，其中：
40.图1a示出了基于观察者相对于显示器的方向变化的图像的2d渲染；
41.图1b示出了由于左眼和右眼的水平分离视差而产生的具有双眼视差的图像的2d渲染；
42.图2a是眼球结构的横截面视图；
43.图2b是视杆细胞和视锥细胞的密度与中央凹位置的关系图；
44.图3是观察者视野的俯视图；
45.图4a是示出根据本发明的双眼间距离和相机装置的直线图像捕获距离之间的关系的视图；
46.图4b是示出根据本发明的双眼间距离和相机装置的曲线图像捕获距离之间的关系的视图；
47.图5a是图4b的相机装置的透视图；
48.图5b是图4b的相机装置的侧视图；
49.图6是根据本发明将获取的一系列立体图像转换为3
‑
d dif图像序列的过程步骤的流程图；以及
50.图7是示出根据本发明的两个连续图像帧之间的点的几何位移的图。
具体实施方式
51.如上所述，立体图像的深度感的变化取决于相机和关键对象之间的距离，其被称为图像捕获距离。深度感也受聚散角和影响双眼视差的相机捕获每个连续图像时的双眼间距离的控制。
52.双眼视差是由于左右眼的平均间距(其范围约为50
‑
80mm，平均值约为64mm)而产生的一种立体感知因素。当双眼视差相对较大时，观察者会感觉到与关键对象的距离相对较近。当双眼视差相对较小时，观察者会感觉到与关键对象的距离相对较大。聚散角是指当眼睛聚焦于关键对象时，以关键对象为顶点的左眼和右眼之间的角度。随着聚散角的增加(随着双眼向内旋转)，观察者感知到的关键对象的距离相对较小。随着聚散角的减小(随着双眼向外旋转)，观察者感知到的关键对象的距离相对较大。
53.为了最佳效果，连续图像的捕获之间的双眼间距离被固定，以匹配左眼和右眼的平均间距，从而保持恒定的双眼视差。此外，选择到关键对象的距离，使得捕获的关键对象的图像的大小被调整为落在观察者的中央凹视觉范围内，以产生关键对象的高视敏度，并保持等于或小于15
°
的优选视角的聚散角。
54.图像捕获系统的类型是根据关键对象的大小和距离来选择的。对于小于1.5m的图像捕获距离，使用曲线立体图像捕获系统。对于大于1.5m的图像捕获距离，使用直线立体图像捕获系统。
55.图4a示出了用于捕获立体图像(例如，3d序列的2d帧)的直线立体图像捕获系统400。如图所示，直线立体图像捕获系统400具有可移动地耦合到直线轨道404的相机装置402。相机装置402包括用于以精确定义的增量步长沿直线轨道404移动相机装置402的步进电机(未示出)。相机装置402还具有被定向以捕获关键对象408的立体图像的相机406和用
于控制相机406以及步进电机的方向的控制模块(未示出)。
56.在使用中，关键对象408被放置在距相机406 1.5m或更大的图像捕获距离处。当相机406以由双眼间距离410确定的预定间隔捕获立体图像时，控制模块控制相机406的方向和相机装置402沿直线轨道404的移动。理想情况下，图像捕获距离是恒定的。
57.如果图像捕获距离由于相机406和关键对象408之间的距离的变化或相机406的焦距的变化(即，放大或缩小)而变化，如果每个连续立体图像的捕获之间的双眼间距离410保持恒定，则聚散角将相应地变化。这会导致聚散角的变化，从而驱动调节的变化。然而，调节距离仍然固定在显示距离处，因此聚散度和调节距离之间的自然相关性被破坏，导致所谓的聚散度
‑
调节冲突，其导致眼睛疲劳和图像质量低下。为了避免这种情况，可以改变每个连续图像之间的双眼间距离410，以适应导致聚散角大于15
°
的优选视角的图像捕获距离的变化。例如，随着图像捕获距离减小，聚散角增大，并且连续图像之间的双眼间距离410相应地减小。类似地，随着图像捕获距离增大，聚散角减小，并且连续图像之间的双眼间距离410相应地增大。
58.图4b示出了用于捕获立体图像的曲线图像捕获系统420。如图所示，曲线图像捕获系统420具有可围绕固定点在圆形路径412中移动的相机装置402(以下参考图5a和图5b更详细地描述)。在曲线图像捕获系统420中，关键对象408被定位在固定点处或附近。相机装置402包括用于以与双眼间距离相对应的精确定义的增量步长沿着圆形路径412移动相机装置402的步进电机(未示出)。相机装置402还具有被定向以捕获关键对象408的立体图像的相机406和用于控制相机408以及步进电机的方向的控制模块(未示出)。
59.在使用中，关键对象408被定位在固定点附近，离相机406的图像捕获距离为1.5m或更小。当相机406以由双眼间距离确定的预定间隔捕获立体图像时，控制模块控制相机406的方向和相机装置402沿圆形路径412的移动。理想情况下，相机406的焦距固定在关键对象408上。然而，由于相机406的焦距的改变(即，放大或缩小)导致聚散角的变化，因此双眼间距离可能改变。为了避免这种情况，可以改变每个连续图像之间的双眼间距离，以适应导致聚散角大于15
°
的优选视角的焦距的变化。例如，随着焦距的减小，聚散角增大，并且连续图像之间的双眼间距离相应地减小。类似地，随着焦距的增大，聚散角减小，并且连续图像之间的双眼间距离相应地增大。
60.现在参考图5a和图5b，示出了用于曲线图像捕获系统420的相机装置500。相机装置500具有用于安装相机(未示出)的矩形相机台502、相机台502围绕其移动的枢轴基座504，以及从相机台502下方径向向内延伸至枢轴基座504的一对半径杆506。半径调节块508安装在相机台502下方，并将每个半径杆506的第一端510耦合到相机台502。每个半径杆506在与第一端510相对的第二端512处安装在枢轴基座504上并可围绕枢轴基座504旋转。
61.步进电机514在第一端522处安装在半径调节块508下方。驱动轴516从步进电机514径向向外延伸，并耦合到驱动轮518。步进电机514以精确定义的增量步长控制驱动轮518的旋转。相机台502由第二轮520支撑，第二轮520在与第一端相对的第二端524处安装在半径调节块508下方。
62.在使用中，半径调节块508调整半径杆506从相机台502径向向内延伸的长度，从而调整相机台502和枢轴基座504之间的距离，并因此调整图像捕获距离。半径调节块508调整半径杆506的长度，以将关键对象408放置在相机402的焦距处。
63.控制模块使步进电机514以对应于双眼间距离的精确定义的增量步长来旋转相机装置500的驱动轮518。相机装置随时停止，并且由相机402捕获立体图像。重复此过程，直到捕获到所需数量的立体图像。然后根据图6的框图处理立体图像。
64.图6示出了由计算机系统(未示出)执行的将获取的立体图像转换为3
‑
d图像序列的过程步骤。在第一步602中，计算机系统被配置为通过图像采集应用接收由相机402捕获的多个立体图像。图像采集应用将每个立体图像转换为数字源图像，例如jpeg、gif、tif格式。理想情况下，每个数字源图像包括许多可见物体、对象或其中的点，例如前景、最近点、背景、最远点和关键对象408。前景点和背景点分别是距离观看者最近的点和最远的点。景深是在目标场(描述从前景到背景的距离)中创建的深度或距离。主轴是垂直于穿过关键对象408点的场景的线，而视差是关键对象408点相对于主轴的位移。在数字合成中，位移始终保持为离主轴的整数个像素。
65.在第二步604中，计算机系统在每个源图像中识别关键对象408。每个源图像中识别出的关键对象408对应于相同的关键对象408。计算机系统可以基于源图像的深度图来识别关键对象408。类似地，计算机系统可以使用源图像的深度图来识别前景、最近点和背景、最远点。在第三步606中，计算机系统变换每个源图像，以在与先前源图像相同的像素空间中对齐识别的关键对象408。每个源图像的水平和垂直对齐需要三维图像格式(dif)变换。dif变换是一种几何位移，它不会改变在源图像中的每个点处获取的信息，但可以看作是源图像中的每个点在笛卡尔空间中的位移(如图7所示)。作为全光函数，dif变换由以下等式表示：
[0066][0067]
其中
[0068]
在数字图像源的情况下，几何位移对应于包含全光信息的像素的几何位移，则dif变换变为：
[0069]
(pixel)
x,y
＝(pixel)
x,y
δ
x,y
[0070]
计算机系统还可以使用dif变换对背景和/或前景应用几何位移。背景和前景可以根据各自的深度相对于由源图像的深度图识别的关键对象408的深度进行几何位移。控制背景和前景相对于关键对象408的几何位移控制关键对象408的运动视差。如上所述，关键对象408相对于背景或前景的表面相对运动向观察者提供了关于其相对距离的提示。通过这种方式，运动视差被控制以聚焦显示场景中不同深度的对象，以匹配聚散度和立体视网膜视差需求，从而更好地模拟自然观看条件。通过调整场景中关键对象408的焦点以匹配其立体视网膜视差，视觉调节和聚散度的线索达到一致。
[0071]
在应用dif变换之后，源图像在步骤608处被编译成一组序列。该序列遵循与获取源图像相同的顺序，并且在步骤610处添加反向逆序列以创建无缝回文循环。在步骤612处，时间间隔被分配给序列中的每个帧。帧之间的时间间隔可在步骤614处被调整，以提供平滑运动和最佳的3
‑
d观看。然后，在步骤616处将所得3
‑
d图像序列作为dif序列输出，其中该序列可以在显示设备(例如，通过视差屏障、屏障屏幕、覆盖物、波导或其他观看技术，能够以像素格式投影信息的观看屏幕，无论该屏幕是应用在智能手机、pda、监视器、tv、平板电脑还是其他具有立体观看功能的观看设备上)或打印机(例如，用户打印机、售货亭、专用打印
机或其他硬拷贝设备)上被观看，进而在诸如透镜状的或其他物理观看材料上打印多维数字主图像。
[0072]
本说明仅用于说明目的，并且不应以任何方式被解释为缩小本公开的范围。因此，本领域技术人员将理解，在不脱离本公开的完整和公平范围的情况下，可以对本公开的实施例进行各种修改。例如，图像采集应用可以接收另一格式(包括用于医学成像的dicom格式)的源图像。
[0073]
本发明的实施例还涉及用于执行本文中的操作的装置。这种计算机程序存储在非瞬态计算机可读介质中。机器可读介质包括用于以机器(例如计算机)可读的形式存储信息的任何机制。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“rom”)、随机存取存储器(“ram”)、磁盘存储介质、光存储介质、闪存设备)。
[0074]
附图中描述的过程和方法可以由包括硬件(例如电路、专用逻辑等)、软件(例如体现在非瞬态计算机可读介质上)或两者的组合的处理逻辑来执行。尽管上述过程和方法是按照一些顺序操作来描述的，但是应当理解，所描述的一些操作可以以不同的顺序被执行。此外，一些操作可以顺序执行，而不是并行执行。
[0075]
本发明的实施例没有参考任何特定编程语言进行描述。应当理解，可以使用各种编程语言来实现如本文所述的本发明的实施例教学。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种用于模拟三维图像序列的方法和系统与流程

相关文献

最热文献