全息替身：用于低带宽和高质量远程视觉通信的系统和方法与流程

2023-10-09 12:26:36 来源：中国专利 TAG：

全息替身：用于低带宽和高质量远程视觉通信的系统和方法

背景技术：

1.视频会议技术能够用于促进在彼此远离的用户之间的视听通信。例如，第一设备可以捕获第一用户的音频和视频，并且将所述音频和视频数据传输到第二设备以用于呈现给远程定位的第二用户，从而促进在第一用户与第二用户之间的近实时的通信。类似地，第二设备可以捕获第二用户的音频和视频，并且将所述音频和视频数据传输到第一设备。
2.视频会议广泛用于各种上下文，并且以保留非语言信号和线索(例如，面部表情)的方式提供远程通信，这些非语言信号和线索在缺乏视觉组件的通信技术中丢失(例如，电话通信)。然而，现有的视频会议技术都与一些缺点相关联。
3.例如，用于促进用户之间的远程视觉通信的现有系统常常利用高带宽以便仅提供平均或者差的视频或图像帧质量。尽管许多视频会议技术试图压缩图像帧以减少带宽使用，但是这样的技术常常会产生压缩伪影，其会对用户体验产生负面影响。例如，更大的压缩比可能导致在经压缩的图像帧中存在更多的伪影。
4.此外，参与视频会议的用户常常希望在优选条件下被其他参与者感知到。例如，参与视频会议的用户可能希望由相机从特定视角(例如，相机与用户的眼睛水平对齐的正面视角)捕获，从而其他参与者根据特定视角感知所述用户。优选条件的其他示例可以涉及相机与被捕获用户的距离、照明条件、用户着装、用户个人卫生和/或仪容状况和/或其他。
5.在许多情况下，针对视频会议的优选条件难以维护或者不切实际。例如，用户常常从不同的位置、在不同的上下文中和利用不同的设备参与视频会议。例如，用户可以接收视频呼叫(例如，来自管理人)，而用户没有为这样的呼叫适当地穿着或打扮，或者当用户不在针对这样的呼叫的理想位置时。此外，在一些情况下，当用户处于私人位置时，用户接收视频呼叫，并且用户可能希望避免在视频呼叫中向其他用户广播私人位置的细节。
6.在一些情况下，操作移动电子设备(例如，智能电话)的用户可能能够通过保持他们的设备远离他们的身体来实现理想的正面相机视角，但是长时间段保持这样的定位可能令人厌烦，并且可能对用户的移动和/或围绕用户的移动造成障碍。此外，试图保持这样的位置的用户可能导致相机的无意抖动或移动，这可能导致运动模糊和/或其他不希望的效果。
7.考虑到与保持这样的正面相机视角相关联的困难，用户常常恢复到从放松位置利用他们的手更靠近他们的身体并且在他们的头部以下的高度处握持移动电子设备。这样的定位使得设备的相机从向上看向用户的面部的视角捕获用户的面部。然而，这样的向上的视角常常被认为是不讨人喜欢的，因为其会提供用户鼻孔和用户突出的颈部特征的不希望的视图(例如，当用户将他们的头向下朝向相机和设备时)。
8.此外，如上所述，用户常常从各种位置和/或在位置之间行进时参与视频会议。因此，用户在参与视频会议时常常遇到到无线网络的有限的或变化的连接，这会负面地影响所传输的图像帧的质量或者会完全排除参与视频会议(例如，仅恢复到音频)。
9.当超过两个用户参与视频会议时，与视频会议相关联的任何困难(诸如上文所描述的困难)都可能加剧。
10.此外，一些视频会议平台被配置为以阵列方式显示从其他参与者接收的图像帧，使得用户能够同时地查看多于一个其他参与者用户。一些平台还以程式化的布置来呈现图像帧，诸如利用被放置在观众中的其他参与者的表示来模拟观众座位。然而，由于不同的设备可以从不同的视角和深度捕获参与用户，所以多个其他参与用户的同时呈现可能会在其他参与的相邻布置的呈现之间产生差异。例如，其他参与用户的相邻“就座”呈现可能看起来好像其他参与者处于不同的深度，即使人们期望彼此相邻“就座”的其他参与者出现在大约相同的深度。
11.因此，至少出于前述原因，存在对用于促进远程视觉通信的经改进的系统和方法的持续需要和愿望。
12.在本文中所要求保护的主题并不限于解决任何缺点或者仅在诸如上文所描述的环境中操作的实施例。相反，提供该背景仅仅是为了例示说明一个示例性技术领域，在其中可以实践在本文中所描述的一些实施例。

技术实现要素：

13.所公开的实施例针对促进低带宽远程视觉通信的系统、方法和设备。
14.一些实施例包括用于促进基于实时成像的低带宽远程视觉通信的系统。所述系统包括一个或多个处理器以及一个或多个硬件存储设备，所述硬件存储设备存储能由所述一个或多个处理器运行以配置所述系统执行各种动作的指令。
15.所述系统被配置为接收来自用户的输入，以发起生成用户的全息替身(holodouble)的过程。全息替身包括用户的真实感三维(3d)模拟表示。所述系统也被配置为从用户相对于相机的多个视角获得在由相机捕获的环境内的用户的图像数据，并且解构所述图像数据以获得稀疏数据集，所述稀疏数据集识别与用户的图像数据相关联的一个或多个属性。
16.在一些情况下，所述系统也被配置为使用全息替身训练模型基于所述稀疏数据集和所获得的图像数据来生成和训练用户的全息替身。在一些情况下，当获得用于生成和训练全息替身的图像数据时，能够基于用户的新图像数据，从与用户相关联的多个不同视角来渲染所述全息替身，以及从用户相对于在后续图像处理中捕获用户的新图像数据的一个或多个相机的一个或多个不同视角来渲染所述全息替身，所述多个不同视角包括用户相对于相机的多个视角。
17.所述全息替身训练模型包括机器学习的模型或机器学习模型，所述机器学习的模型或机器学习模型已经针对人类的图像数据和与人类的图像数据相关联的属性的对应稀疏数据被训练，以从不同视角生成和渲染人类的模拟。
18.在一些情况下，所述系统也被配置为在捕获用户的新图像数据的同时并发地向用户渲染全息替身的表示；接收来自用户的包括对全息替身的批准的输入；以及通过保存所述全息替身以供后续使用来完成对所述全息替身的训练。所述后续使用包括一个或多个远程视觉通信会话，其中，用户在一个或多个第二设备上被视觉模拟为与在第一设备处的一个或多个远程视觉通信会话期间捕获的用户的图像相对应并且并发的全息替身。
19.实施例也包括对应的系统，其在远程视觉通信会话期间基于用户的所获得的实时成像来选择、利用、修改和/或显示用户的对应全息替身表示，并且在远程视觉通信会话期
间(而不发送实时成像)向渲染用户的全息替身表示的(一个或多个)远程目的地设备模拟所述用户。
20.在一些情况下，以与在视觉通信会话期间由相机捕获的用户的图像中表示的用户的对应上下文或视角不同的用户的上下文或视角中的至少一个，在显示设备上渲染所述全息替身。
21.提供本概要是为了以简化的形式引入概念的选择，这些概念在下文的详细描述中进一步描述。本概要不是为了识别所要求保护的主题的关键特征或基本特征，也并不旨在用于辅助确定所要求保护的主题的范围。
22.额外的特征和优点将在下文的描述中阐述，并且部分地从描述中将是显而易见的，或者可以通过本文的教导的实践来学习。本发明的特征和优点可以通过所附权利要求中特别指出的仪器和组合来实现和获得。本发明的特征将从下文的描述和所附的权利要求中变得更加明显，或者可以通过下文阐述的本发明的实践来了解。
附图说明
23.为了描述能够获得上述和其他优点和特征的方式，将参考在附图中图示出的特定实施例来渲染对上文所描述的简要描述的主题的更具体描述。可以理解的是，这些附图仅描绘了典型的实施例，因此不应当被认为限制范围，将通过使用附图以额外的具体性和细节来描述和解释实施例，其中：
24.图1图示了可以包括或者用于实现一个或多个所公开的实施例的示例性系统的示例性组件；
25.图2a图示了捕获数据以用于生成用户的全息替身的概念表示；
26.图2b图示了从图2a捕获的用户的图像数据的示例；
27.图3a图示了用户操作移动电子设备的示例；
28.图3b图示了图3a的移动电子设备的示例，所述移动电子设备显示图3a的用户的所捕获的图像并且显示所述用户的全息替身；
29.图4a-4e图示了使用全息替身来促进远程视觉通信的概念性表示；
30.图5图示了示例性图；以及
31.图6-8图示了描绘与基于实时成像促进低带宽远程视觉通信相关联的动作的示例性流程图。
具体实施方式
32.所公开的实施例总体至少涉及用于促进低带宽(和高质量)远程视觉通信的系统和方法。
33.技术益处、改进和实际应用的示例
34.鉴于本公开，本领域技术人员将认识到，所公开的实施例中的至少一些实施例可以被实现以提供与视觉组件的经改进的远程通信。下文的部分概述了由所公开的实施例提供的一些示例性改进和/或实际应用。然而，将意识到，以下仅仅是示例，并且在本文中所描述的实施例绝不限于在本文中所讨论的示例性改进。
35.在一些实现方式中，如在本文中所描述的，使用一个或多个全息替身来促进远程
通信允许用户以低带宽需求进行视觉通信。在一个说明性示例中，促进在两个用户之间以30fps进行视频和语音通信的常规视频会议平台可以利用大约3-6mbps的带宽。相比之下，使用在本文中所公开的技术促进远程视觉和语音通信的系统可以利用比常规平台小两个或三个数量级(例如，3-6kbps)的带宽量。因此，本公开的实施例可以允许用户从仅有低带宽可用的环境参与远程视频通信体验。
36.此外，因为本公开的实现方式可以至少部分地避免传输在一个设备处捕获的经压缩的图像以用于在另一设备上呈现，因此本公开的实现方式可以避免会降低用户体验的压缩伪影。
37.另外，在一些实例中，本公开的实现方式允许用户在远程通信期间呈现其自身的视觉表示，所述视觉表示将所述用户描绘为好像所述用户是在优选成像条件下被捕获的，即使在所捕获的用户当前不是在优选成像条件下被捕获的情况下也是如此。
38.通过说明性示例，可以使用在优选成像条件下捕获所述用户的数据来训练全息替身(例如，从优选的正面视角捕获用户的面部和/或当用户正在穿着优选服装时)。稍后从用户设备，用户可以触发使用全息替身用于与远程设备进行视频会议，即使当用户设备当前没有在优选的成像条件下捕获用户时(例如，用户设备可以从不讨好的角度捕获用户的面部，或者用户可能穿着不合适的服装)。为了促进以后参与视频会议，用户设备可以使用用户设备的一个或多个传感器(例如，图像传感器、惯性测量单元(imu)、麦克风等)来捕获用户的传感器数据。所述传感器数据可以用于使用全息替身在远程设备处提供用户的重构视图。用户的重构视图可以描绘用户，就好像用户在优选成像条件下被捕获，即使用户当前不是在优选成像条件下被捕获的。
39.继续以上示例，可以有利地生成用户的重构视图，而不传输在用户设备处捕获的图像以用于在远程设备处显示。例如，可以基于传感器数据来确定经过滤的或稀疏数据，并且可以使用经过滤的或稀疏数据来生成参数，以使得全息替身在远程设备处以真实感方式来模拟所述用户。
40.此外，因为可以使用从传感器数据获得的稀疏数据而不是通过发送传感器数据本身(例如，图像帧)以用于在远程设备处显示来促进视觉通信，因此根据本公开的利用全息替身用于远程通信可以改善远程通信期间相机抖动或者其他不稳定移动的影响。
41.此外，其他参与用户的表示可以以一致的方式被呈现给观看用户。例如，在将其他参与用户作为观众的一部分被呈现给观看用户的情况下，可以以一致的深度来描绘其他参与用户的相邻布置的表示。
42.在刚刚描述了所公开的实施例的各种高级特征和益处中的一些之后，现在将注意图1至图7。这些图图示了与所公开的实施例相关的各种概念表示、架构、方法和支持图示。同样地，关于“可配置为”执行特定功能的被引用的系统，将意识到，这样的引用也应当被解释为覆盖完全被配置为执行所引用的功能的对应系统，以及主动执行所引用功能的系统。
43.示例性系统
44.现在关注图1，其图示了可以包括或者用于实现一个或多个所公开的实施例的示例性系统100。在一些实例中，系统100被实现为一个或多个通用或专用计算系统，其可以采取各种形式(例如，单个设备或者相互通信的多个设备)。
45.图1图示了系统100的各种示例性组件。例如，图1图示了其中所述系统包括(一个
或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)输入/输出系统116(i/o系统116)以及(一个或多个)通信系统118的实现方式。图1也图示了所述系统可以包括或者用于实现各种模型，包括全息替身训练模型112和全息替身渲染模型114中的一个或多个。尽管图1图示了包括特定组件的系统100，但是鉴于本公开，人们将意识到，系统100可以包括任意数量的额外或替代组件。
46.如在本文中所使用的，术语“可执行模块”、“可执行组件”、“组件”、“模块”、“模型”或“引擎”能够指代可以配置计算机系统100以执行特定动作的硬件组件或软件对象、例程或方法的任意组合。例如，在本文中所描述的不同组件、模型、模块、引擎、设备和/或服务可以利用在计算机系统100上执行的一个或多个对象或处理器(例如，作为单独的线程)来实现。尽管图1描绘了独立的模型112和114，但是人们将理解，模型的特性至少在某种程度上是任意的。在至少一个实现方式中，图1的各种模型112和114可以以不同于所示的配置进行组合、划分或排除。例如，在本文中参考任意特定模型112或114所描述的功能中的任意功能可以利用处理单元、软件对象、模块、指令、计算中心(例如，在计算系统100远程的计算中心)等的任意数量和/或组合来执行。如在本文中所使用的，个体的模型112和114是为了清楚和解释而提供的，而不是为了限制。
47.(一个或多个)处理器102可以包括一个或多个集合的电子电路，其包括任意数量的逻辑单元、寄存器和/或控制单元，以促进计算机可读指令(例如，形成计算机程序的指令)的执行。这样的计算机可读指令可以与在本文中所描述的任何参考数据(例如，图像数据、传感器数据、稀疏数据、参数数据、全息替身或者其他相关的全息替身数据)一起存储在存储装置104内。
48.存储装置104可以包括物理系统存储器(例如，一个或多个硬件存储设备)，并且可以是易失性、非易失性或者其某种组合。此外，存储装置104可以包括本地存储装置、远程存储装置(例如，被存储在一个或多个远程系统120中和/或经由(一个或多个)通信系统118或其他方式可访问)，或者其某种组合。下文将提供与处理器(例如，(一个或多个)处理器102)和计算机存储介质(例如，存储装置104)有关的额外细节。
49.在一些实现方式中，在本文中所描述的(一个或多个)处理器102和/或模型112和114可以包括或者可配置为执行软件和/或硬件组件的任意组合，所述软件和/或硬件组件可操作用于促进使用被集成到参考模块中和/或包括参考模块的机器学习模型或者其他基于人工智能的结构/架构进行处理。
50.作为示例，(一个或多个)处理器102和/或模型112和114可以包括和/或利用硬件组件或计算机可执行指令以操作用于执行功能块和/或处理层，所述功能块和/或处理层被配置为以下非限制性示例的形式：单层神经网络、前馈神经网络、径向基函数网络、深度前馈网络、递归神经网络、长短期记忆(lstm)网络、选通递归单元、自编码器神经网络、变分自编码器、去噪自编码器、稀疏自编码器、markov链、hopfield神经网络、boltzmann机器网络、受限boltzmann机器网络、深度置信网络、深度卷积网络(或卷积神经网络)、解卷积神经网络、深度卷积逆图形网络、生成对抗网络、液体状态机、极限学习机、回声状态网络、深度残差网络，kohonen网络、支持向量机、神经图灵机、nerf(神经辐射场)模型、预测图像渲染模型和/或其他类似模型。
51.如将更详细描述的，(一个或多个)处理器102和/或模型112和114可以被配置为执
行被存储在存储装置104内的指令106，以执行与促进远程视觉通信相关联的特定动作。例如，这样的动作可以与训练用户的全息替身(例如，经由(一个或多个)处理器102和/或全息替身训练模型112)或者使用稀疏数据或参数来配置全息替身以模拟用户(例如，经由(一个或多个)处理器102和/或全息替身渲染模型114)相关联。
52.另外，(一个或多个)处理器102和/或模型112和114可以被配置为执行与训练或配置模型112和114以执行在本文中所描述的任意功能相关联的动作。能由(一个或多个)处理器102和/或模型112和114执行的动作可以至少部分地依赖于各种类型的数据108。例如，在本文中所描述的模型112和114中的任意模型都可以使用各种类型的训练数据(例如，将面部标志、音频数据、渲染参数和/或运动数据映射到基准真值面部外观的数据)和使用各种类型的训练技术(例如，完全监督、弱监督和/或无监督)来训练以创建或渲染全息替身。
53.此外，在一些实例中，至少一些数据108包括经由(一个或多个)传感器110获得的传感器数据(例如，图像数据、音频数据、运动数据等)，或者基于传感器数据(例如，全息替身渲染参数)获得的其他数据。(一个或多个)传感器110可以包括用于捕获或测量表示可感知现象的数据的任意设备。作为非限制性示例，(一个或多个)传感器110可以包括一个或多个图像传感器、麦克风、温度计、气压计、磁强计、加速度计、陀螺仪和/或其他。
54.在一些实例中，能使用(一个或多个)处理器102和/或模型112和114执行的动作可以至少部分地依赖于(一个或多个)通信系统116，以用于从(一个或多个)远程系统120接收数据，所述远程系统120可以包括例如一个或多个单独的系统或计算设备、传感器和/或其他。(一个或多个)通信系统118可以包括软件或硬件组件的任意组合，其可操作用于促进系统上组件/设备之间和/或与系统外组件/设备之间的通信。例如，(一个或多个)通信系统118可以包括端口、总线或者用于与其他设备/组件通信的其他物理连接装置。另外地或替代地，(一个或多个)通信系统118可以包括可操作用于通过(一个或多个)任意合适的通信信道与外部系统和/或设备进行无线通信的系统/组件，例如，通过非限制性示例，蓝牙、超宽带、wlan、wi-fi、红外通信和/或其他。例如，本公开的实现方式可以使用云计算来实践。
55.如所示的，图1也图示了系统100可以包括(一个或多个)i/o系统116或者与(一个或多个)i/o系统116通信。i/o系统116可以包括任意类型的输入或输出设备，诸如，作为非限制性示例，触摸屏、鼠标、键盘、控制器和/或其他，但是并非限制。
56.用于促进远程视觉通信的示例性技术
57.现在注意图2a，图示了获得用于生成用户206的全息替身204的数据202的概念表示。具体地，图2a图示了用户设备208，其包括用于捕获用户206的图像(例如，以视频信号的图像帧的形式)的相机210。在至少一些方面中，用户设备对应于上文所描述的系统100(例如，用户设备208可以包括任意数量的额外设备/系统或者与其通信)，并且相机210可以包括系统100的传感器110。尽管图2a描绘了膝上型计算机形式的用户设备208，但是考虑到本公开，人们将意识到，用户设备208可以采取任意合适的形式，诸如台式计算机、移动电子设备(例如，智能电话、平板等)、头戴式显示器(例如，虚拟或增强现实hmd)和/或其他。
58.在一些实例中，用户设备208接收输入以发起生成用户的全息替身204的过程。如在本文中所使用的，“全息替身”指代能够经由输入数据或参数来控制以模拟用户的用户的真实感三维(3d)表示或合成。例如，在输入数据或参数描述用户面部的状态(例如，嘴形状、鼻子位置、眼睛是睁着还是闭着等)的情况下，所述输入数据或参数可以用于配置全息替身
以描绘在所述输入数据或参数中表示的面部状态。如在本文中将更详细描述的，全息替身可以有利地用于促进在用户之间的视觉远程通信，而不在用户之间传输所捕获的图像数据(例如，由此允许低带宽远程视觉通信)。
59.图2a示出了指向用户206的面部212的相机210，以从在图2a中由虚线214所描绘的特定视角捕获用户206的面部212。例如，相机210被定位在离用户的面部212的特定距离处(由虚线214所示的)，并且根据特定角度a朝向用户的面部向上定向。尽管图2a仅明确地示出了用户设备208上的相机210，但是应当注意，用户设备208可以包括用于捕获与用户相关联的数据的任意数量的额外或替代传感器，诸如用于捕获与用户相关联的音频数据的麦克风和/或用于捕获与用户相关联的运动数据的惯性测量单元(imu)。
60.图2a示出了仅出于说明目的可以被视为优选成像条件的示例。例如，相机210可以被设置成从用户206认为对于用于商业目的的视频会议所希望的视角和距离捕获用户的整个面部。诸如用户着装和/或环境照明的其他方面可以有助于在图2a中所示的示例性成像条件的分类作为优选。
61.根据在图2a中所示的优选成像条件，用户设备208经由相机210捕获图像数据216。在一些实例中，图像数据216包括捕获用户206的面部212的视频信号的图像帧。例如，图2b图示了由用户设备208的相机210所捕获的示例性图像帧218。图像帧218捕获用户206和围绕用户220的环境。图2b的图像帧218示出了具有相对于在图2a中所示的不同面部表情和定位的用户206，并且图2a图示了被布置在用户206的头部上方的各种方向指示符222。以这种方式，图2a和图2b图示了用户可以在捕获图像数据216期间改变面部表情和/或头部定位，允许图像数据216包括来自多个相对视角的用户206的表示。
62.如将在本文中更详细描述的，图像数据216可以用于在优选成像条件下创建用户206的全息替身204，使得在不同成像条件下捕获用户的数据可以与全息替身204结合使用，以根据优选成像条件来描绘所述用户。
63.图2b也图示出了，在一些实例中，用户设备208可配置为呈现用户控件224以供用户(例如，用户206)选择。例如，在一些实例中，用户设备208经由控件224接收用户输入，以用于发起生成用户206的全息替身204的过程。例如，可以在视觉通信应用ui的界面内呈现控件。
64.所述用户输入可以触发对图像数据216的捕获以用于生成全息替身204。例如，用户设备208可以开始捕获用户206的图像数据216(和/或其他数据)，作为引导过程的一部分，其中，在对图像数据216的捕获期间，提示用户206假设特定头部运动或位置和/或面部表情(例如，通过被指示读取特定的词语集合)。
65.尽管在图2b中控件224在概念上被表示为单个按钮，但是控件224可以采取任何形式并且包括任意数量的元素。
66.在一些情况下，被动地捕获图像数据216中的至少一些。例如，可以根据在用户设备208上执行的一个或多个图像捕获操作来捕获图像数据216，以用于独立于生成全息替身204的目的(例如，在包括将图像帧传输给其他设备的常规技术下参与视频会议)。就此而言，用户设备208可以经由控件224接收用户输入，以用于将所述系统配置为使用被动获得的图像数据216来生成全息替身204。
67.用于创建全息替身204的各种类型和/或量的图像数据216在本公开的范围之内。
例如，在一些实例中，可以基于用户的单幅图片来生成全息替身204，而在其他实例中，使用用户206的多个图像帧来生成全息替身204。在一些实现方式中，系统(例如，用户设备208)被配置为基于已经捕获足够的图像数据216来成功地生成用户206的全息替身204(例如，足够的图像数据216以3d和以真实感方式合成用户206)的确定来停止收集图像数据216。在一些实例中，用户设备208在已经捕获了足够的图像数据216时提供通知。
68.图2a图示了从数据202延伸到全息替身训练模型112的箭头226。全息替身训练模型112被配置为至少基于图像数据216来生成全息替身204。在一些实现方式中，全息替身训练模型112是机器学习(或者机器学习的)模型，其已经使用从一个或多个第一集合的视角捕获的人类的图像数据进行训练，以从不同或额外的视角生成人类的2d或3d模拟(例如，通过生成人类的捕获部分的体积表示，诸如经由神经辐射场成像和/或其他视图合成技术)。
69.就此而言，由全息替身训练模型112所生成的全息替身204可以被视为被捕获的用户206的至少一部分的体积表示，其使得能够从多个视角(例如，包括在生成全息替身204期间所使用的视角以及不同的或额外的视角)提供用户206的合成视图(例如，用户面部和/或头部的视图)。例如，全息替身204可以被参数化以接收输入值(例如，位置、视图方向和/或其他)，并且提供rgb和/或体密度值以用于合成视图的体渲染。
70.在一些实现方式中，全息替身训练模型112使用用于训练全息替身204的额外或替代输入，以基于输入参数和/或输入数据来提供用户206的合成的真实感视图。例如，在图2a中的数据202被图示为包括稀疏数据228、经变换的全息替身参数230、音频数据232和运动数据234。
71.稀疏数据228包括从图像数据216提取或者基于图像数据216而确定的数据。稀疏数据228可以识别或者描述在图像数据216内表示的用户206的一个或多个属性。例如，稀疏数据228可以包括用户206的面部标志。下文将参考图4b提供关于稀疏数据228的额外细节。
72.经变换的全息替身参数230包括基于稀疏数据228而确定的分量，并且包括能用于配置全息替身204以合成用户206的数字集合或者其他值。经变换的全息替身参数230可以包括描述环境照明、面部细节(例如，用户是否和/或如何微笑、皱眉、张嘴)、头部定位、视角和/或用于使用全息替身204形成用户206的重构的其他信息的数字。下文将参考图4b提供关于稀疏数据228的额外细节。
73.在一些实现方式中，经变换的全息替身参数230包括不是基于稀疏数据228而确定的分量，或者(替代地)补充稀疏数据228的分量。例如，可以基于音频数据232和/或运动数据234(另外地或者作为图像数据216的替代方案)来推断或确定经变换的全息替身参数230。
74.作为示例，在对全息替身204的训练期间，用户设备208可以在用户206说话时获得音频数据232和/或在用户206说话时获得运动数据234(例如，在用户设备被实现为头戴式显示器(hmd)的情况下，hmd的imu可以捕获头部运动数据)。音频数据232和/或运动数据234可以被用作训练输入，并且图像数据216、稀疏数据228、经变换的全息替身参数230和/或全息替身合成视图输出可以被用作基准真值，以经由训练来配置全息替身204，从而使用音频数据232和/或运动数据234作为输入来合成用户206。例如，可以从音频数据232和/或运动数据234推断经变换的全息替身参数230，并且经变换的全息替身参数230可以被用于使得全息替身204可视地模拟用户的语音(例如，通过基于音频信号推断嘴巴形状，通过基于imu
数据推断头部位置等)。在用户206的用于提供稀疏数据228或者经变换的全息替身参数230的图像数据216不可用或不期望(例如，鉴于捕获条件或者出于其他原因)的情况下在视频会议会话期间，这种功能可能是有用的。
75.尽管为了说明目的，参考图2a和图2b所讨论的示例任意地聚焦于在本文中所称的“优选”成像条件，但是考虑到本公开，人们将意识到，用户可以在各种成像条件下和/或为了各种目的创建一个或多个全息替身。例如，用户可以在第一成像上下文(例如，捕获视角、环境、穿着、打扮或者其他条件)内创建用于在第一远程通信上下文中(例如，当与特定人交谈或关于特定主题交谈时)使用的第一全息替身，并且用户可以在第二成像上下文内创建用于在第二远程通信上下文中(例如，当与不同人交谈或者关于不同主题交谈时)使用的第二全息替身。
76.图2a和图2b与捕获用于生成用户206的全息替身204的图像数据216相关联。如上文所描述的，数据202可以用于训练全息替身204，并且在完成全息替身204的训练之后，可以向用户206提供全息替身204的预览，以允许用户206接受全息替身204以用于远程视觉通信会话。这通常被称为登记/创建(一个或多个)全息替身的交互式登记过程，所述全息替身被确定为用户可接受的，以用于在视觉通信中用户的后续模拟。
77.图3a图示了图2a和图2b中的用户206，但是在随后的时间点。例如，图3a描绘了在全息替身204的训练已经完成之后用户206操作移动电子设备302。在一些情况下，在完成对全息替身204的训练之后，向用户206提供通知，即他们的全息替身204准备好进行检查。用户206可以提供用户输入(例如，经由如在图3b中所示的控件304)，以用于发起全息替身204的预览。
78.为了提供全息替身204的预览，移动电子设备302可以开始捕获用户206的图像帧。图3b图示了移动电子设备302显示所捕获的用户206的图像帧306的示例。从图3a和图3b中可以明显看出，用户206正在穿着的服装不同于在图2a和图2b中用户206上所描绘的服装，以用于对全息替身204的训练。例如，在图3a和图3b中在用户206上所描绘的服装可以被视为便装，而在图2a和图2b中在用户206上所描绘的服装可以被视为职业装。此外，图3a和图3b描绘了用户206具有相对于图2a和图2b不同的发型。此外，图3a示出了移动电子设备302的相机从相对于在图2a中所示的视角(由虚线214所指示)的不同视角(由虚线308所指示)朝向用户206的面部。例如，在图3a中的移动电子设备302的相机与图2a中的用户设备208的相机210位于与用户206的面部不同的距离处，并且移动电子设备302的相机根据大于在图2a中所描绘的角度a的角度b朝向用户面部向上定向。这些差异在图3b的用户206的图像帧306中是明显的，与图2b的用户206的图像帧218相比，图3b的用户206的图像帧306从更近的视角和不同的角度示出了用户。
79.因此，图3a呈现了相对于参考图2a和图2b所描述的用于生成全息替身204的“优选”成像条件用于捕获用户206的不同成像条件。尽管图3a的成像条件不同，但是如在图3a中所呈现的所捕获的用户206的图像帧可以被用作使用全息替身204以真实感方式和从图2a和图2b的优选成像条件模拟用户206的基础。
80.在一个示例中，再次参考图3b，基于图像帧306获得稀疏数据(例如，面部标志)。所述稀疏数据被用作用于生成全息替身参数(例如，面部细节/形状/位置)的函数的输入，并且所述全息替身参数被用作用于配置全息替身204以模拟在图像帧306中所捕获的用户206
的面部特征的输入，但是来自在捕获用于生成全息替身204的图像数据216时存在的优选成像条件(如参考图2a所描述的)。
81.例如，图3b图示了用户206的全息替身表示310，其模拟如在图像帧306中所捕获的用户206的面部特征。全息替身表示310模拟在图像帧306内捕获的用户206的嘴、眼睛、眉毛和鼻子的布置和形状。此外，全息替身表示310模拟用户面部的这些特征，就好像其是在为生成全息替身204而存在的成像条件下捕获的一样。例如，全息替身表示310从与捕获用户206的图像帧306的移动电子设备302的相机的观看视角相比较的另外的并且不同角度的观看视角来模拟用户206。
82.全息替身表示310也描绘了具有在生成全息替身期间存在的优选成像条件下存在的相同发型和服装的用户206，即使图像帧306捕获具有不同发型和服装的用户206。
83.图3b示出了移动电子设备302在捕获和/或显示用户的图像帧(例如，图像帧306)的同时显示全息替身表示310的渲染。因此，用户206可以观察其自己的全息替身表示310，以及其如何模拟在视频馈送中所捕获的他们的面部特征和表情。在一些实现方式中，提供用户提示(例如，经由控件304)，其允许用户接受或拒绝用户的全息替身表示310(例如，在图3b中由决策框312所表示的)。如果检测到批准全息替身的输入(例如，经由控件304)，则全息替身204的训练可以通过保存全息替身204以用于随后以低带宽方式在远程视觉通信会话中模拟远程设备处的用户来完成(在图3b中由框314所描绘的)。
84.相反，如果检测到(例如，经由控件304)指示全息替身表示310未能提供用户的满意模拟的输入，则可以进一步训练全息替身(在图3b中由框316所描绘的)。例如，响应于拒绝全息替身表示310的这样的输入，可以获得所述用户的额外图像数据(例如，在优选成像条件下)，以进一步训练全息替身以改善其使用在不同条件下捕获的数据提供用户的真实感模拟的准确度。
85.尽管图3a和图3b图示了移动电子设备302的使用，移动电子设备302不同于捕获图像数据216以用于初始训练全息替身204的用户设备208，但是考虑到本发明，人们将意识到，在这两种情况下可以使用相同的设备，并且可以根据本公开使用所示的那些类型以外的其他类型的设备(例如，台式计算机、平板计算机、hmd和/或其他，而没有限制)。
86.图4a-4e图示了使用如上文所描述的已经训练的全息替身204来促进远程视觉通信的概念表示。具体地，图4a-4e图示了在用户206与观看用户402之间发起的远程视觉通信会话400。可以响应于来自这两个用户的用户输入来发起远程视觉通信会话400，以建立和/或参与远程视觉通信会话400。在图4a-4e中所示的示例中，用户206的移动电子设备302包括相机，并且观看用户402的移动电子设备404至少包括用于显示与远程视觉通信会话400相关联的图像(例如，用户206的表示)的显示器。与在本文中所描述的其他设备一样，观看用户402的移动电子设备404可以采取任意合适的形式。
87.在一些实例中，促进远程视觉通信会话400的一个或多个系统检测指示应当使用全息替身来模拟远程视觉通信系统中的一个或多个参与者的输入(在图4a中由决策框406所指示的)。在一些实例中，用于指示应当使用一个或多个全息替身的输入包括检测用于导致使用全息替身来模拟用户的用户选择408(而不是直接传输图像数据用于在其他设备上观看)。在一些实例中，用于指示应当使用一个或多个全息替身的输入包括检测触发条件410的存在。触发条件可以包括检测图像帧不可用或者不受欢迎(例如，考虑到不利的成像
条件，诸如微光或者相机抖动)或者检测带宽可用性低或变化。在一些实例中，触发条件410包括检测到用户定义的偏好或设置指示全息替身的使用(例如，基于参与用户、历史使用等)。触发条件410可以基于在与捕获的用户相关联的图像数据内检测到的用户属性。例如，基于确定用户处于凌乱状态(例如，未刮胡子或者穿着非正式)，系统可以自动地触发使用全息替身来模拟用户以用于在其他参与设备上显示。
88.响应于确定应当使用全息替身来描绘用户206以用于在观看用户402的移动电子设备404上呈现，可以选择特定全息替身(例如，全息替身204)以促进对用户206的描绘(在图4a中由框412所指示的)。如上文所指示的，用户可以在不同的上下文中和/或出于不同的目的定义多个全息替身。因此，用于在远程视觉通信会话400中描绘用户206的特定全息替身可以从为用户206定义的多个全息替身中选择。在一些实例中，特定全息替身由用户206经由来自用户206的用户输入而明确地选择或选取(例如，在发起远程视觉通信会话400之后或者作为用于发起远程视觉通信会话400的配置设置)。在一些情况下，在没有来自用户206的明确指令的情况下自动地选择特定全息替身(例如，基于用户206对全息替身的历史使用，基于从新捕获的用户图像数据确定的用户状态等)。
89.作为概览，图4a也示出了响应于确定使用全息替身(例如，根据决策框406)而可以由用户206的移动电子设备302的相机捕获的图像帧413的示例。图4a也示出了可以被选择用于远程视觉通信会话400(例如，根据框412)中的全息替身204的示例性描述415。图4a也图示了可以基于从图像帧413生成的数据合成的用户206的示例性全息替身表示424。如从图4a可见的，全息替身表示424从不同于与图像帧413相关联的观看视角和上下文的观看视角和上下文(例如，用户服装、仪容状况等)内提供了用户206的视图。如下文将更详细描述的，用户206的图像帧413可以提供用于使得全息替身204模拟观看用户402的移动电子设备404处的全息替身表示424的基础，即使当图像帧413没有被传输到观看用户402的移动电子设备404时也是如此。
90.图4b图示了，在远程视觉通信会话400期间确定使用全息替身来描绘用户206之后，系统获取用户206的图像数据414。在图4a-4e中所示的示例中，经由用户206的移动电子设备302的相机获取图像数据414。基于确定全息替身将被用于表示远程视觉通信会话400的用户206，系统可以避免将图像数据414传输到观看用户402的移动电子设备404以用于显示给观看用户402(在图4b中由虚线416所指示的，在虚线416上放置有“x”符号417)。在一些实现方式中，替代传输图像数据414，所述系统将稀疏数据418、经变换的全息替身参数422和/或其他分量传输到观看用户402的移动电子设备404(或者传输到另一系统/设备以用于处理)，以生成用户206的全息替身表示424，以供观看用户402观看。
91.图4b也图示了可以基于图像数据414获得的稀疏数据418。稀疏数据418识别用户的一个或多个属性，并且可以通过解构用户206的图像数据414来获得。例如，在一些实现方式中，稀疏数据418包括面部标志420，其可以包括从与人脸的关键部分相关联的图像数据414中提取的特征。例如，图4b图示了与用户206的眼睛、鼻子、嘴巴、眉毛和面部轮廓的关键部分相关联的面部标志420(被表示为点)。
92.所述系统可以自动地识别为用户获得的标志或图像锚点(例如，面部标志420)的阈值量，对应于用于预测图像建模的阈值要求。要从图像识别/获得的图像标志的该阈值可以小于总图像数据的1.0％，或者小于总图像数据的0.01％，或者甚至小于图像数据的
0.001％。在一些实例中，所述系统基于所检测到的环境(例如，照明)和/或图像质量条件来确定要获得的稀疏数据418的类型和量。例如，(一个或多个)标志/标志数据的量可以基于所检测到的图像质量，从而对于较高质量/分辨率的捕获图像或者以较好的照明/对比度捕获的图像需要较少的标志数据，并且对于较低质量/分辨率的捕获图像或者以相对较差的照明/对比度捕获的图像需要更多的标志数据。
93.在确定要获得的稀疏数据的类型和量后，所述系统获得所需的稀疏数据。对于所获得的每个图像/帧，诸如对于包含多个帧的视频，可以逐帧地获得稀疏数据。替代地，所述稀疏数据可以针对小于每个帧以及针对预定的图像帧集而获得。用于获得所述稀疏数据的频率相对于视频帧速率可以是固定的和/或基于检测到的环境属性和/或用户在环境内的移动而动态地可变的。
94.图4b也图示了经变换的全息替身参数422，其可以至少部分地基于稀疏数据418来获得。例如，经变换的全息替身参数422可以通过变换或处理稀疏数据418(例如，面部标志420)来生成，以形成能用作输入的一组或多组数字，以用于使得全息替身204被渲染以合成用户206的当前面部特征(例如，如由面部标志420所捕获的以及如在图像数据414中所表示的)。就此而言，经变换的全息替身参数422可以量化或者表示用于重构用户206的全息替身表示的各种类型的信息，诸如面部表情、头部姿势、面部元素状态(例如，眼睛是睁着还是闭着、嘴巴形状等)、相机/观看方向性或视角、面部标志的位置和/或方向数据和/或其他。
95.尽管图4a-4e集中于基于从图像数据414提取的稀疏数据418获得的经变换的全息替身参数422，但是经变换的全息替身参数422在一些情况下可以基于其他数据来确定，诸如音频数据和/或运动数据(例如，在捕获用户206的图像数据不可用或不期望的情况下)，如上文所描述的。
96.图4c图示了，在一些实现方式中，将经变换的全息替身参数422作为输入提供给全息替身渲染模型114。在一些实例中，全息替身渲染模型在全息替身渲染参数(和/或图像数据或者从图像数据中提取的稀疏数据)上训练，以从多个视角(例如，从不同于或额外于用于捕获用于提供参数输入的图像数据的相机视角的视角)渲染人类的照片真实感2d或3d表示。例如，在一些实例中，全息替身渲染模型114包括参数化向量值函数或者与参数化向量值函数通信。
97.也如在图4c中所图示的，提供经变换的全息替身参数422作为全息替身渲染模型114的输入来生成用户的全息替身表示424的渲染，所述用户的全息替身表示424重构或模拟用户206的当前面部特征(例如，概念上由面部标志420所表示的)，就好像其是在训练用于远程视觉通信会话400的特定全息替身(例如，全息替身204)时存在的成像条件下捕获的一样。例如，全息替身表示424可以提供用户206的视角，所述视角不同于由用户的移动电子设备302所捕获的用户206的图像数据414表示的用户的视角。
98.尽管在至少一些方面中，本示例聚焦于被用作全息替身渲染模型114的输入以用于生成全息替身表示424的经变换的全息替身渲染参数，但是全息替身渲染模型114可以被配置为使用稀疏数据418作为输入以生成全息替身表示424和/或甚至其他类型的数据(imu和/或音频数据)。
99.尽管在至少一些方面，本示例集中于利用基于所捕获的图像数据的稀疏数据或参数来控制全息替身以提供用户的真实感表示，但是能够仅使用音频数据和/或运动数据来
控制全息替身(例如，在图像数据不可用或不期望的情况下)。例如，在没有用户的图像数据的情况下，可以从用户的音频数据和/或运动数据推断或计算经变换的全息替身参数(例如，使用机器学习模型)，以便配置全息替身来模拟用户。
100.图4d图示了用于渲染和/或显示全息替身表示424的指令可以被提供给观看用户402的移动电子设备404，以允许观看用户402感知来自用户206的视觉通信作为远程视觉通信会话400的一部分(在图4d中由箭头426所指示的)，并且可以基于新的图像数据、新的稀疏数据和/或新的经变换的全息参数来连续地更新全息替身表示424。如上文所指示的，一个或多个系统可以有利地避免向观看用户402的移动电子设备404提供图像数据414，以减少远程视觉通信会话400的带宽需求。在一些情况下，观看用户402的移动电子设备404被配置为当全息替身表示424被用于描绘用户206时向观看用户402提供通知，以通知观看用户402正在呈现的用户206的描绘可能不反映用户206的实际的、当前的真实世界外观。在其他情况下，移动电子设备不被配置为提供这样的通知。
101.在一些情况下，可以提供用于将一个或多个风格化过滤器或额外修改(例如，通过添加或修改面部特征或者其他分量)应用到全息替身表示424的指令，使得观看用户402感知风格化版本的全息替身表示424。
102.鉴于本公开，将意识到，与促进远程视觉通信会话400相关联的各种功能或动作可以由各种实现方式中的各种实体来执行。例如，图4e图示了从图像数据414、稀疏数据418、经变换的全息替身参数、全息替身渲染模型114和全息替身表示424延伸到云450的虚线箭头432。云450可以包括用于从用户206和观看用户402的移动电子设备302、404接收信息和/或向其传输信息的通信信道(如在图4e中由在移动电子设备302、404与云450之间延伸的虚线428所指示的)。考虑到虚线428，人们将意识到，信息可以直接从移动电子设备302传输到移动电子设备404和/或反之亦然，而无需首先经过云450(例如，经由蓝牙通信、超宽带等)。
103.云450可以额外地或替代地包括一个或多个服务器430，以用于执行在本文中所描述的任何处理。这样的处理可以额外地或替代地在移动电子设备302、404中的一个或多个移动电子设备处执行。例如，在一些实例中，从图像数据414中提取稀疏数据418的动作由捕获图像数据414的相同设备(例如，用户206的移动电子设备302)来执行。在其他实例中，图像数据414被传输到(例如，如在图4e中所示的云450的)服务器430和/或用于提取稀疏数据418的(一个或多个)其他远程设备。
104.此外，在一些实例中，由捕获图像数据414和/或从图像数据414中提取稀疏数据418的相同设备(例如，用户206的移动电子设备302)执行基于稀疏数据418生成经变换的全息替身参数422的动作。在其他实例中，由服务器430和/或(一个或多个)其他远程设备执行基于稀疏数据418生成经变换的全息替身参数422的动作。
105.在一些实例中，服务器430和/或(一个或多个)其他远程设备接收图像数据414，解构图像数据414以获得稀疏数据418，以及使用稀疏数据418来生成经变换的全息替身参数422。在其他实例中，服务器430或(一个或多个)其他远程设备在不接收图像数据414的情况下接收稀疏数据418，并且使用所接收到的稀疏数据418生成经变换的全息替身参数422。
106.在其他实例中，由不捕获图像数据414的用户设备(例如，观看用户402的移动电子设备404)执行基于稀疏数据418生成经变换的全息双参数422的动作。在一些实例中，移动电子设备404可以接收经变换的全息替身参数422，而不接收稀疏数据418。
107.使用经变换的全息替身参数422(或者稀疏数据418或者不包括图像数据414的其他接收到的数据)作为对全息替身渲染模型114的输入的动作可以在捕获图像数据414的用户设备(例如，移动电子设备302)、将显示全息替身表示424并且不捕获图像数据414的用户设备(例如，移动电子设备404)和/或服务器430或者(一个或多个)其他远程设备处执行。例如，在一些实例中，云系统渲染全息替身表示424，并且基于全息替身表示424提供图像，以用于在观看用户402的移动电子设备404上显示。
108.图4e示出了，在一些实现方式中，用于渲染和/或显示全息替身表示424的指令被额外地提供给用户206的移动电子设备302(在图4e中由虚线箭头432和虚线428所指示的)。在一些实例中，用户206的移动电子设备302将全息替身表示424与图像数据414的表示同时地显示(例如，以允许用户206看到在远程视觉通信会话400期间观看用户402如何感知他们)。类似地，新获得/更新的图像数据可以与新更新的全息替身表示同时显示以供用户206观看。
109.图5以图形方式描绘了如在本文中所描述的在使用全息替身用于远程视觉通信与常规视频会议技术(例如，将现场视频和音频馈送从一个设备传输到另一设备)之间的差异。从图5中可以明显看出，当前的解决方案与高带宽消耗相关联，并且不提供对应的高质量。相比之下，本公开的用于促进使用全息替身的远程视觉通信的技术可以提供更高质量的视觉通信(例如，具有减少的错误和/或伪影)和更少的带宽消耗(例如，与当前视频会议解决方案相比，带宽减少两或三个数量级)。
110.在一些实例中，参与视频会议的用户会经历可用带宽的损失。不是允许视频会议体验的视觉组件响应于带宽损失而结束，而是本公开的系统可以自动地开始利用全息替身来促进视频会议的视觉组件。在一些实例中，一个或多个用户将缺乏充分训练的全息替身来向视频会议贡献视觉组件。在这样的情况下，所述系统可以恢复到利用用户的风格化表示(而不是如在本文中所描述的个性化全息替身)以允许没有充分训练的全息替身的用户继续可视地参与视频会议。例如，用户的风格化表示可以由艺术家来设计，并且可以由用户显式地选择，或者可以基于与用户面部的相似性自动地选择。可以类似地使用稀疏数据和/或全息替身渲染参数来控制用户的风格化表示，而不传输图像数据以供在观看设备上显示。
111.尽管本公开至少在一些方面集中于实现用于二维(2d)接口和显示器(例如，智能电话、膝上型计算机、平板计算机)上的全息替身，但是鉴于本公开，人们将意识到，在本文中所描述的技术可以被应用在3d接口和显示器中。例如，用户的全息替身表示可以包括用户的3d表示，其可以以3d格式(例如，在虚拟现实或增强现实上下文中)被渲染并且显示给用户。类似地，尽管本公开在至少一些方面集中于全息替身，所述全息替身集中于提供用户面部的真实感表示，但是全息替身可以提供用户身体的(一个或多个)任意部分(例如，用户的整个身体)的真实感表示。
112.用于促进远程视觉通信的(一种或多种)示例性方法
113.下文的讨论现在涉及可以由所公开的系统执行的多种方法和方法动作。尽管以特定顺序讨论该方法动作并且在流程图中说明为以特定顺序发生，但除非特别说明，或者因为一个动作依赖于在该动作被执行之前完成的另一动作而需要特定顺序，否则不需要特定顺序。可以理解，本公开的某些实施例可以省略在在本文中所描述的一个或多个动作。
114.图6、图7和图8分别图示了描绘与低带宽远程视觉通信相关联的动作的示例性流程图600、700和800。对流程图中所表示的各种动作的讨论包括对参考图1更详细描述的各种硬件组件的引用。
115.流程图600的动作602包括接收来自用户的输入以发起生成用户的全息替身的过程。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作602。所述全息替身包括用户的真实感三维(3d)模拟表示。
116.流程图600的动作604包括获得由相机从用户相对于相机的多个视角捕获的环境内的用户的图像数据。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作604。在一些实现方式中，在一个或多个图像捕获操作期间被动地获得用于训练全息替身模型的至少一些图像数据，所述一个或多个图像捕获操作是为了与获得用于训练全息替身模型的稀疏数据集无关的目的而执行的。
117.流程图600的动作606包括解构图像数据以获得稀疏数据集。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身训练模型112、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作606。在一些实例中，稀疏数据集识别与用户的图像数据相关联的一个或多个属性。例如，在一些实现方式中，所述稀疏数据包括面部标志。
118.流程图600的动作608包括使用稀疏数据集作为对函数的输入，以用于生成能用作对全息替身渲染模型的输入的经变换的全息替身参数集。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身训练模型112、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作608。所述全息替身渲染模型是对图像数据和对应的参数进行训练的，以渲染人类的真实感表示。经变换的全息替身参数集包括基于所述稀疏数据集的经变换的值。在一些实现方式中，经变换的全息替身参数集量化或者表示一个或多个面部表情、头部姿势或者面部元素状态。在一些实现方式中，所述经变换的全息替身参数集量化或者表示在与在由相机对用户进行图像捕获期间存在的相机相对于用户的视角相关联的方向性、或者与用于相对于当渲染用户的全息替身时所使用的转置相机位置而渲染用户的期望视角相关联的方向性。此外，在一些实现方式中，经变换的全息替身参数集量化或表示图像数据中用户的一个或多个面部标志的位置数据。
119.流程图600的动作610包括使用全息替身训练模型来基于稀疏数据集和所获得的图像数据来生成和训练用户的全息替身。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身训练模型112、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作610。在一些实现方式中，当获得用于生成和训练全息替身的图像数据时，能够基于用户的新图像数据，从与用户相关联的多个不同视角来渲染所述全息替身，以及从用户相对于在后续图像处理中捕获用户新图像数据的一个或多个相机的一个或多个不同视角来渲染所述全息替身，所述多个不同视角包括用户相对于相机的多个视角。所述全息替身训练模型包括机器学习的模型或机器学习模型，所述机器学习的模型或机器学习模型已经针对人类的图像数据和与人类的图像
数据相关联的属性的对应稀疏数据被训练，以从不同视角生成和渲染人类的模拟。
120.流程图600的动作612包括在捕获用户的新图像数据的同时并发地向用户渲染全息替身的表示。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身训练模型112、全息替身渲染模型114、(一个或多个)i/o系统116、通信系统118和/或其他组件的系统100来执行动作612。
121.流程图600的动作614包括接收来自用户的包括对全息替身的批准的输入。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作614。
122.流程图600的动作616包括通过保存全息替身以供后续使用来完成对所述全息替身的训练。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身训练模型112、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作616。所述后续使用可以包括一个或多个远程视觉通信会话，其中，用户在一个或多个第二设备处被视觉地模拟为与在第一设备处的一个或多个远程视觉通信会话期间所捕获的用户的图像相对应并且并发的全息替身。
123.在一些实现方式中，可以执行上文参考流程图600所描述的一个或多个动作以生成针对多个用户上下文的多个全息替身。
124.图7的流程图700的动作702包括接收用于在包括相机的第一计算系统与包括用于渲染与视觉通信会话相关联的图像的显示器的第二计算系统之间发起远程视觉通信会话的输入。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作702。所述输入可以包括在第一计算系统和/或第二计算系统处提供的用户输入。
125.流程图700的动作704包括检测指示在视觉通信会话期间由相机所捕获的用户的图像数据不应当被传输到第二计算系统以用于在第二计算系统的显示器上渲染的输入。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作704。在一些实例中，所述输入也指示应当在第二计算系统的显示器上渲染与用户相关联的全息替身以模拟所述用户，而不是在第一计算系统处显示和使用由相机所捕获的用户的图像数据。
126.此外，在一些实现方式中，所述全息替身是与不同用户上下文相关联的多个全息替身之一。在一些实例中，在所述视觉通信会话期间，从多个全息替身中自动地选择全息替身以用于模拟所述用户，而无需在视觉通信会话期间从用户接收用于选择全息替身的明确指令。在一些实例中，响应于用户输入选择全息替身以用于在视觉通信会话期间使用而选择全息替身。所述用户输入可以在发起视觉通信会话之后接收，或者作为用于发起视觉通信会话的配置设置接收。
127.流程图700的动作706包括：替代将由第一计算系统的相机所捕获的用户的图像数据传输到第二计算系统，而是基于用户的图像数据来获得稀疏数据集或者经变换的全息替身参数集。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作706。所述稀疏数据集识别用户的一个或多个属性，并且
是通过解构由相机所捕获的用户的图像数据而获得的。从对所述稀疏数据集的变换或处理来生成经变换的全息替身参数集，以使得经变换的全息替身参数能用作全息替身渲染模型的输入，所述全息替身渲染模型被配置为选择和渲染用户的全息替身，所述全息替身以与由第一计算系统的相机所捕获的图像数据呈现用户不同的上下文或视角在用户的真实感三维(3d)表示中模拟用户。全息替身先前已被用户批准使用，并且先前已由全息替身训练模型创建，所述全息替身训练模型包括机器学习的模型或机器学习模型，所述机器学习的模型或机器学习模型使用用户的先前图像数据来创建全息替身，并且针对人类的图像数据被训练，以在与人类的图像数据相关联的一个或多个上下文和视角中生成和渲染对人类的模拟。
128.流程图700的动作708包括提供用于在显示器处渲染用户的全息替身或另一模拟来模拟用户的指令。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作708。在一些实例中，在显示器处渲染用户的全息替身或另一模拟来模拟用户的指令被配置为基于稀疏数据集或经变换的全息替身参数集，在避免向第二计算系统提供由第一计算系统处的相机捕获的图像数据的同时，来模拟用户。在一些实例中，所述指令使得第二计算系统在第二计算系统的显示器处以模拟用户的方式渲染全息替身，同时通过相机捕获用户的图像数据，但是用户的视角不同于由相机所捕获的用户的图像数据所表示的用户视角。
129.流程图700的动作710包括向具有显示器的第二计算系统以及向第一计算系统两者提供用于渲染全息替身以模拟用户的指令，并且从而所述指令使得第一计算系统在视觉通信会话期间在第一计算系统的显示器处与用户的图像数据的表示并发地渲染全息替身，。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作710。在一些实现方式中，所述指令使得第二计算系统在第二计算系统的显示器处以模拟用户的方式渲染全息替身，同时通过相机捕获用户的图像数据，但是用户的视角不同于由相机捕获的用户的图像数据所表示的用户视角。
130.流程图700的动作712包括当全息替身被显示在第二计算系统的显示器处时，提供用于对全息替身的渲染应用一个或多个过滤器或者额外修改的指令。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作712。
131.流程图700的动作714包括：响应于未能识别与所述用户相关联的经充分训练的全息替身，通过在显示器处显示与稀疏数据相对应的用户的风格化表示，将所述稀疏数据连同用于模拟所述用户的指令一起提供给第二计算系统。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作714。
132.与流程图700相关联的各种动作可以由各种实体来执行。例如，在一些实例中，执行流程图700的动作中的一个或多个动作的所述系统包括远离第一计算系统和第二计算系统定位的服务器。在一些实例中，执行流程图700的动作中的一个或多个动作的所述系统包
括第一计算系统。
133.在一些实例中，执行流程图700的动作中的一个或多个动作的所述系统包括：从第一计算系统获得稀疏数据集，并且使用所述稀疏数据集来生成经变换的全息替身参数。在一些实例中，执行流程图700的动作中的一个或多个动作的所述系统接收先前由第一计算系统从稀疏数据变换的经变换的全息替身参数。
134.图8的流程图800的动作802包括参与与远程计算系统的远程视觉通信会话，所述远程计算系统具有在视觉通信会话期间捕获用户图像的相机。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作802。
135.流程图800的动作804包括接收基于用户的图像的稀疏数据集或者经变换的全息替身参数集。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作804。在一些实例中，所述稀疏数据集识别用户的一个或多个属性，并且是通过解构在视觉通信会话期间由远程计算系统的相机所捕获的用户的图像而获得的。在一些实现方式中，从对稀疏数据集的变换或处理来生成经变换的全息替身参数集，以使得经变换的全息替身参数能够用作被配置为选择和渲染用户的全息替身的全息替身渲染模型的输入，所述用户的全息替身以与在视觉通信会话期间由第一计算系统的相机捕获的图像呈现用户不同的上下文或视角在用户的真实感三维(3d)表示中模拟用户。所述全息替身先前已被用户批准使用，并且先前已由全息替身训练模型创建，所述全息替身训练模型包括机器学习的模型或机器学习模型，所述机器学习的模型或机器学习模型使用用户的先前图像数据来创建全息替身，并且针对人类的图像数据被训练，以在与人类的图像数据相关联的一个或多个上下文和视角中生成和渲染对人类的模拟。在一些实现方式中，执行动作804的系统获得稀疏数据集，并且使用稀疏数据集生成经变换的全息替身参数。在一些实现方式中，执行动作804的系统接收经变换的全息替身参数，而不接收稀疏数据集。
136.流程图800的动作806包括访问全息替身渲染模型并且渲染用户的全息替身以与在视觉通信会话期间捕获的用户的图像同时并且对应地在视觉通信会话期间模拟用户。在一些实例中，由利用(一个或多个)处理器102、存储装置104、(一个或多个)传感器110、全息替身渲染模型114、(一个或多个)i/o系统116、(一个或多个)通信系统118和/或其他组件的系统100来执行动作806。在一些实现方式中，以与在视觉通信会话期间由相机所捕获的用户的图像中表示的用户的对应上下文或视角不同的用户的上下文或视角中的至少一个，在显示设备上渲染全息替身。在一些实例中，所述全息替身从特定视角模拟用户，所述特定视角不同于在视觉通信会话期间由相机所捕获的用户的图像所表示的视角。在一些实现方式中，所述系统在视觉通信会话期间渲染用户的全息替身，同时避免接收在视觉通信会话期间由相机所捕获的用户的图像。此外，在一些实例中，可以在视觉通信会话期间在显示器处呈现全息替身是对用户的模拟的通知，而在其他情况下，避免在显示器处呈现全息替身是对用户的模拟的通知。
137.所公开的实施例可以包括或利用包括计算机硬件的专用或通用计算机，如下文更详细讨论的。所公开的实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这种计算机可读介质可以是可由通用或专用计算机系统
访问的任何可用介质。存储数据形式的计算机可执行指令的计算机可读介质是一个或多个“物理计算机存储介质”或“硬件存储设备”。仅承载计算机可执行指令而不存储计算机可执行指令的计算机可读介质是“传输介质”。因此，通过示例而非限制，当前实施例可以包括至少两种明显不同的计算机可读介质：计算机存储介质和传输介质。
138.计算机存储介质(又名“硬件存储设备”)是计算机可读硬件存储设备，例如ram、rom、eeprom、cd-rom、基于ram、闪存、相变存储器(“pcm”)或其他类型存储器的固态驱动器(ssd)或其他光盘存储设备、磁盘存储或其他磁存储设备，或可用于以计算机可执行指令、数据或数据结构的形式在硬件中存储所需程序代码单元并且能够由通用或专用计算机访问的任何其他介质。
[0139]“网络”被定义为能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一个或多个数据链路。当信息通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)传输或提供到计算机时，计算机正确地将该连接视为传输介质。传输介质可以包括网络和/或数据链路，其可用于以计算机可执行指令或数据结构的形式承载程序代码，并且可由通用或专用计算机访问。以上的组合也包含于计算机可读介质的范围内。
[0140]
此外，在到达各种计算机系统组件时，计算机可执行指令或数据结构形式的程序代码单元可以自动地从传输计算机可读介质转移到物理计算机可读存储介质(反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以缓冲在网络接口模块(例如，“nic”)内的ram中，然后最终转移到计算机系统ram和/或到计算机系统处易失性较低的计算机可读物理存储介质。因此，计算机可读物理存储介质可以包含于还(或甚至主要)利用传输介质的计算机系统组件中。
[0141]
计算机可执行指令包括，例如，使通用计算机、专用计算机或专用处理设备执行某一功能或一组功能的指令和数据。计算机可执行指令可以是例如二进制文件、诸如汇编语言的中间格式指令，或者甚至是源代码。尽管已经用特定于结构特征和/或方法动作的语言描述了主题，但应当理解，在所附权利要求中定义的主题不一定限于上述描述的特征或动作。相反，所描述的特征和动作被公开为实现权利要求的示例性形式。
[0142]
公开的实施例可以包括或利用云计算。云模型可以由各种特性(例如，按需自助服务、广泛的网络接入、资源池化、快速弹性、测量服务等)、服务模型(例如，软件即服务(“saas”)、平台即服务(“paas”)、基础设施即服务(“iaas”)和部署模型(例如，私有云、社区云、公有云、混合云等)组成。
[0143]
本领域技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实施，包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器或可编程消费者电子设备、网络pc、小型计算机、大型计算机、移动电话、pda、寻呼机、路由器、交换机、可穿戴设备等。本发明还可以在分布式系统环境中实施，其中通过网络(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)链接的多个计算机系统(例如，本地和远程系统)执行任务。在分布式系统环境中，程序模块可以位于本地和/或远程存储器存储设备中。
[0144]
替代地或另外地，在本文中所描述的功能可以至少部分地由一个或多个硬件逻辑组件来执行。例如，但不限于，可使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(fpga)、程序专用集成电路(asic)、应用专用标准产品(assp)、片上系统(soc)、复杂可编程
逻辑器件(cpld)、中央处理单元(cpu)、图形处理单元(gpu)和/或其他。
[0145]
如在本文中所使用的，术语“可执行模块”、“可执行组件”、“组件”、“模块”或“引擎”可指硬件处理单元或可在一个或多个计算机系统上执行的软件对象、例程或方法。在本文中所描述的不同组件、模块、引擎和服务可以被实现为在一个或多个计算机系统上执行的对象或处理器(例如，作为单独的线程)。
[0146]
人们还可以理解，本文公开的任何特征或操作如何与本文公开的其他特征和操作的任何一个或组合相结合。另外，任何一个图中的内容或特征可以结合任何其他图中使用的任何内容或特征组合或与其一起使用。就此而言，在任何一个图中公开的内容不是相互排斥的，而是可以与来自任何其他图的内容组合。
[0147]
本发明可以在不背离其精神或特征的情况下以其他特定形式体现。所描述的实施例在所有方面仅被认为是说明性的而不是限制性的。因此，本发明的范围由所附的权利要求而不是由前面的描述来指示。在权利要求的等同意义和范围内的所有变更都应包括在其范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：全息替身：用于低带宽和高质量远程视觉通信的系统和方法与流程

全息替身：用于低带宽和高质量远程视觉通信的系统和方法与流程

最热文献