将复合视频流中的视频流与元数据组合的制作方法

2022-06-09 01:44:40 来源：中国专利 TAG：

1.本发明涉及一种用于将视频流组合成复合视频流的组合器系统和计算机实施的方法。本发明进一步涉及一种用于接收和解码视频流的接收器设备和计算机实施的方法。本发明进一步涉及一种计算机可读介质，该计算机可读介质包括用于使处理器系统执行计算机实施的方法的计算机可读指令。本发明进一步涉及一种计算机可读介质，该计算机可读介质包括元数据以供接收器设备使用。

背景技术：

2.如视频内容和音频内容等媒体内容通常以数字形式传递给用户。如果媒体内容具有时间性，并且具体地与指示媒体内容如何随时间播放的时间线相关联，则这种数字形式通常被称为媒体流。
3.在许多应用中，可以存在多个客户端设备，每个客户端设备经由电信网络将视频传输到另一个客户端设备，该另一个客户端设备进而可以经由电信网络接收相应视频。例如，在基于视频的多用户通信中，客户端设备既可以通过将用户的实况视频记录作为视频流传输到其他客户端设备来充当发射器设备，也可以通过接收其他客户端设备的视频流来充当接收器设备。接收到的视频流然后可以由客户端设备例如同时在视频马赛克中或者作为所谓的视频化身在基于计算机图形的环境中解码和显示。此外，通常将其他视频作为这种多用户通信（例如，当用户一起观看电影时，或者当一个用户与其他用户共享视频时）的一部分来传递。另一个示例是安全应用，其中多个安全相机各自经由电信网络将相应视频传输到接收器设备，该接收器设备例如同时在视频马赛克中接收视频、对视频进行解码并且在显示器上显示视频。
4.接收器设备接收多个发射器设备的视频流的视频流式传输的问题在于，接收器设备同时接收和解码多个视频流可能具有挑战性。例如，如低端智能电话等低端接收器设备可能仅具有仅允许对一个视频流进行硬件解码的一个硬件解码器。其他流可能是软件解码的，这通常在计算上（远远）更密集。在存在多于两个视频流（例如，在会议呼叫中，对于其他参与者中的每一个都存在一个视频流）的情况下，此问题可能会加剧。
5.这个问题可以通过以下方式来解决：将多个视频流组合成复合视频流来解决，并且具体地使用所谓的基于瓦片的视频编码技术[1]，其中，单独视频流作为一个或多个可独立解码的视频流被包括在复合视频流中。视频流因此可以在复合视频流中被表示为一个瓦片（tile）或一组瓦片。这种
‘
瓦片’在这里和别处也可以被称为
‘
空间片段’，复合视频流在这里和别处也可以被称为
‘
组合的视频流’，并且复合视频流中的表示视频流的（多个）瓦片可以被称为复合视频流的
‘
子流’。相反，如果将这种单个复合视频流传输到接收器设备，则可以极大地促进接收器设备进行视频解码，因为单个复合视频流可以由单个硬件或软件解码器实例解码。
[0006]
例如，[2]描述了一种多点控制单元（mcu），其可以分解和重组视频会议应用中的视频流，以便为每个客户端创建自定义视频流，该自定义视频流仅包括将由该客户端渲染
以充分利用可用带宽的人员。它描述了在高效视频编码（hevc）中如何修改编码器以实现符合hevc的重组操作，以及编码器如何在比特流中的高语法级别上工作。因此，组合视频流可能不需要熵编码或解码。
[0007]
不利的是，[2]向接收器设备提供复合视频流，其中视频流的组成是固定的，并且其中接收器设备除了知道单独视频流表示视频流之外，关于这些视频流其他一无所知。例如，不知道哪个视频流表示哪个特定参与者。因此，[2]可能不适合将复合视频流传递到视频流的组成动态地变化的接收器设备。可能需要这种组成的动态变化。
[0008]
例如，可以考虑使用复合视频流来向接收器设备传递不同类型的视频，这可能在一个时刻包括youtube和视频会议参与者的视频，在另一时刻包括两个视频会议参与者的视频，而在又一个时刻包括另一视频会议参与者的视频和接收器设备的用户的所谓
‘
自视图’。因此可能需要调整对相应视频的渲染。例如，youtube视频可能会以全屏或大格式播放，而自视图可能会在较小的覆盖窗口中显示。另一示例是在多任务环境中，youtube视频可以通过youtube应用播放，而视频会议参与者的视频可以通过分开的视频会议应用播放。
[0009]
参考文献[1]k.misra等(2013).anoverviewoftilesinhevc[hevc中的瓦片概述].ieeejournalofselectedtopicsinsignalprocessing[ieee信号处理精选主题期刊],第7卷,第6期,第969-977页.[2]feldmann,c.,bulla,c.,&cellarius,b.(2013年4月).efficientstream-reassemblingforvideoconferencingapplicationsusingtilesinhevc[使用hevc中的瓦片对视频会议应用进行高效流重组].proc.ofinternationalconferencesonadvancesinmultimedia(mmedia)[国际多媒体（mmedia）进展会议的会议记录],第130-135页。

技术实现要素：

[0010]
虽然可以静态地定义、例如在mcu与接收器设备或在接收器设备上运行的应用之间静态地定义例如哪个特定参与者的哪个特定视频流被包括在复合视频流的哪个特定部分中，例如，在左手侧或右手侧处，但这在动态地生成复合视频流时没有提供足够的灵活性。
[0011]
有利的是，在考虑到子流的组成可能动态地变化（例如，一个或多个子流的分辨率和/或形状发生变化、向复合视频流中添加子流和/或从中删除子流）的同时，能够以不同的方式处理复合视频流的不同子流，例如，通过不同应用的进程。
[0012]
根据本发明的第一方面，可以提供一种用于将多个视频流组合成复合视频流的组合器系统。该组合器系统可以包括：-网络接口子系统，该网络接口子系统用于至少接收包括第一媒体源的第一视频的第一视频流和包括第二媒体源的第二视频的第二视频流；-处理器子系统，该处理器子系统可以被配置成：-在压缩域中，组合该第一视频流和该第二视频流以获得复合视频流，其中，该复合视频流是空间分段的复合视频流，并且其中，所述组合包括将每个相应视频流作为一个或多个可独立解码的空间片段包括在该空间分段的复合视频流中；-生成组成元数据，该组成元数据描述该复合视频流中的这些空间片段的组成；-生成标识元数据，该标识元数据包括该第一视频流的第一标识符和该第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识该复合视频流中的这些相应视频流；-经由该网络接口子系统，将该复合视频流流式传输到该接收器设备，并将该组成元数据和该标识元数据提供给该接收器设备。
[0013]
根据本发明的进一步方面，可以提供一种用于将多个视频流组合成复合视频流的计算机实施的方法。该方法可以包括：-至少接收包括第一媒体源的第一视频的第一视频流和包括第二媒体源的第二视频的第二视频流；-在压缩域中，组合该第一视频流和该第二视频流以获得复合视频流，其中，该复合视频流是空间分段的复合视频流，并且其中，所述组合包括将每个相应视频流作为一个或多个可独立解码的空间片段包括在该空间分段的复合视频流中；-生成组成元数据，该组成元数据描述该复合视频流中的这些空间片段的组成；-生成标识元数据，该标识元数据包括该第一视频流的第一标识符和该第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识该复合视频流中的这些相应视频流；-将该复合视频流流式传输到接收器设备，并将该组成元数据和该标识元数据提供给该接收器设备。
[0014]
根据本发明的进一步方面，可以提供一种用于接收和处理第一媒体源的第一视频和第二媒体源的第二视频的接收器设备。该接收器设备可以包括：-网络接口，该网络接口用于接收：-复合视频流，其中，该复合视频流是至少包括第一视频流和第二视频流的空间分段的复合视频流，其中，每个视频流作为一个或多个可独立解码的空间片段被包含在该复合视频流中，其中，该第一视频流包括该第一媒体源的第一视频，并且该第二视频流包括该第二媒体源的第二视频；-组成元数据，该组成元数据描述该复合视频流中的这些空间片段的组成；以及-标识元数据，该标识元数据包括该第一视频流的第一标识符和该第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识该复合视频流中的这些相应视频流；-处理器子系统，该处理器子系统可以被配置成针对该复合视频流的这些空间片段中的至少一个：-基于该组成元数据和该复合视频流的解码来获得相应视频流的解码视频数据；-基于该相应视频流的相应标识符来标识用于处理该解码视频数据的进程；-将该相应视频流的解码视频数据提供给该进程。
[0015]
根据本发明的进一步方面，可以提供一种用于接收和处理第一媒体源的第一视频和第二媒体源的第二视频的计算机实施的方法。该方法可以包括：-接收复合视频流，其中，该复合视频流是至少包括第一视频流和第二视频流的空间分段的复合视频流，其中，每个视频流作为一个或多个可独立解码的空间片段被包括
在该复合视频流中，其中，该第一视频流包括该第一媒体源的第一视频，并且该第二视频流包括该第二媒体源的第二视频；-接收组成元数据，该组成元数据描述该复合视频流中的这些空间片段的组成；-接收标识元数据，该标识元数据包括该第一视频流的第一标识符和该第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识该复合视频流中的这些相应视频流；-针对该复合视频流的这些空间片段中的至少一个：-基于该组成元数据和该复合视频流的解码来获得相应视频流的解码视频数据；-基于该相应视频流的相应标识符来标识用于处理该解码视频数据的进程；-将该相应视频流的解码视频数据提供给该进程。
[0016]
上述措施可以在接收器设备寻求至少接收第一媒体源的第一视频和第二视频源的第二视频的上下文中使用。以下参考如下的示例，其中这种视频可以从两个或更多个发射器设备传输相应视频并且接收器设备经由如5g或更新一代电信网络或互联网等电信网络接收这些相应视频中获得。每个设备可以经由接入网连接到该电信网络，如在5g的情况下采用无线电接入网，或者在互联网的情况下采用dsl或基于光纤的接入网。该电信网络在一些情况下也可以被认为是
‘
核心网络’，客户端设备经由相应接入网连接到该
‘
核心网络’。然而，一般而言，这种视频也可以从其他类型的媒体源获得，包括单个媒体源，而媒体源可以包括媒体服务器、媒体转码器、流缓存、流缓冲器等，或者一般而言，这种视频可以是内容传递网络的一个或多个节点。
[0017]
代替将相应视频直接流式传输到接收器设备，可以将视频流流式传输到组合器系统，该组合器系统在一些示例中可以是电信网络的边缘节点。例如，这种边缘节点可以由5g或更新一代电信网络的边缘节点或边缘节点系统、或者例如位于该电信网络与接入网之间的边缘处的任何其他类型的边缘计算系统来体现。这种边缘节点本身是已知的，对于经由特定接入网连接到电信网络的特定客户端设备的合适的边缘节点的标识也是如此。在其他示例中，该组合器系统可以是位于电信网络的非边缘部分中的另一种类型的网络节点，或者可以是接收器设备的一部分。
[0018]
在一些示例中，该发射器设备可以例如使用内置或连接的相机通过视频捕获来获得视频。例如，该发射器设备可以是安全相机，或具有内置相机的智能电话，或具有连接的网络摄像头的pc。替代性地，该发射器设备可以不捕获视频，而是存储或缓冲视频（例如，在数据存储装置中），或者对视频进行转码。
[0019]
该组合器系统可以直接从相应的发射器设备接收视频流，但也可以间接地、例如经由流缓存或流缓冲器接收视频流。在接收到视频流之后，该组合器系统可以将视频流组合成复合视频流。这里，术语
‘
复合’可以指视频流作为空间组成的一部分被包括在所得到的组合的视频流中。具体地，复合视频流可以是空间分段的复合视频流。这种如空间片段的编码本身是已知的，例如，从[1]已知，其中空间片段被称为
‘
瓦片’。这种瓦片可以将视频帧细分为逻辑上分开的且通常为矩形的部分，这些部分可以在解码给定帧时进行独立解码，但是这些空间片段也可以作为整体一起进行解码。瓦片的编码可能不允许跨帧中的瓦片边界进行空间预测，或者可能不允许跨瓦片边界的熵编码依赖性。如此，瓦片可以相对于编码和解码过程是独立的，因为预测和滤波可以不跨瓦片边界。以下可互换地指代
‘
瓦片’和
‘
空
间片段’。
[0020]
第一视频流和第二视频流的组合可以涉及：如果第一视频流或第二视频流尚未作为瓦片被接收，则将相应视频流（重新）编码为一起表示基于瓦片的视频流的一个或多个瓦片。然而，如果相应视频流已经作为基于瓦片的视频流被接收，则这种（重新）编码可能不是必要的。注意，如果必须执行解码和编码，则组合可以替代性地在未压缩域中进行，例如，在解码之后和编码之前进行。然后，可以在压缩域中组合瓦片本身，例如，无需解码、生成空间组成和重新编码空间组成的视频数据。这种在压缩域中进行的组合本身是已知的，例如从[3]（参见本节末尾的
‘
其他参考文献’）已知，并且可以包括生成新的比特流，该比特流包括所有瓦片的比特流数据和对应的标头信息，同时重写适当的部分，例如，重写视频参数集、序列参数集、图像参数集、条带片段标头等。例如，还如sanchez等人的第iii.b节所描述的，可以禁用环路滤波，参数集值可以跨输入视频是一致的，优选地不存在一致性裁剪窗口，用于预测单元的子样本向量选择应当优选地被限制为接近输入的边缘，等等。在组合之后，两个视频流可以作为并排放置或从上到下放置或以另一种空间布置放置的瓦片被包括在复合视频流中。如果存在更多视频流要组合，则可以将视频流的各种其他空间组成制作为例如n
ꢀ×ꢀ
m个视频流的2d阵列，例如，3
ꢀ×ꢀ
2即6个视频流的2d阵列。注意，相应视频流还可以包括多个瓦片并且还可以作为多个瓦片被包括在复合视频流中。这种复合视频流则可以由单个解码器实例解码。
[0021]
此外，可以生成可以描述复合视频流中的空间片段的空间组成的组成元数据。这种组成元数据本身可以是已知的，并且可以例如采用所谓的空间关系描述（srd）的形式，例如，如[4]中所描述的。有效地，组成元数据可以描述瓦片之间的空间关系，例如，这些瓦片是并排复合还是以2d阵列或矩阵复合，并且组成元数据可以使得解码器能够从复合视频流中解码所选空间片段。组成元数据还可以使得解码器能够在解码之后将解码的复合视频分割成空间片段。
[0022]
此外，可以生成标识元数据。与可以仅描述空间片段的组成的组成元数据不同，标识元数据可以包含相应视频流的标识符，这些标识符可以唯一地标识复合视频流中的相应视频流。换言之，标识元数据可以使得接收器设备能够通过能够动态地确定复合视频流的子流的标识来区分复合视频流中的视频流。虽然组成元数据可以简单地指代几个视频流，例如，通过如
‘1’
、
‘2’
、
‘3’
、
‘4’
等通用数字标识符，但这可能会使视频流彼此无法区分开，而视频流的标识符可以使接收器设备唯一地将视频流彼此区分开。因此，接收器设备可以基于标识元数据来确定在一个时刻具有标识符
‘
a’的视频流位于2
ꢀ×ꢀ
2子流阵列中的位置（1，1）处，并且在另一时刻，例如在随后的流式传输会话中，具有标识符
‘
a’的视频流位于2
ꢀ×ꢀ
2子流阵列中的另一位置（2，1）处。
[0023]
组成元数据和标识元数据可以被提供给接收器设备，例如，在利用接收器设备进行流式传输会话开始时提供或例如响应于视频流的变化而周期性地提供。然后，接收器设备可以解码相应的空间片段，这通常可以涉及：解码所有的复合视频流以获得包含所有空间片段的视频数据的解码视频帧，并基于组成元数据将解码视频帧分割成相应空间片段的更小的单独视频帧。因此术语
‘
基于组成元数据和复合视频流的解码来获得相应视频流的解码视频数据’可以包括解码复合视频流并基于组成元数据来分割或分离解码视频数据。注意，解码可能并不总是需要涉及解码如最初接收到的所有复合视频流，但在某些情况下，
解码可能包括基于组成元数据仅解码最初接收到的复合视频流的空间片段中的一个空间片段或其子集。例如，在解码之前，可以基于组成元数据通过从复合视频流中移除子流来修改复合视频流，以获得可能仅包含空间片段中的一个空间片段或其子集的修改复合视频流，该修改复合视频流然后可以由接收器设备进行解码。
[0024]
在获得解码视频数据之后，解码视频数据可以被传送到在接收器设备上运行的进程，该进程可以进一步处理解码视频数据，例如，通过处理和/或渲染解码视频数据。可以基于可以从标识元数据获得的相应视频流的标识符来标识该进程。
[0025]
上述措施可以具有这样的效果，即通过唯一地标识复合视频流中的相应视频流的标识符来使接收器设备了解各个视频流。这种标识符可以用于例如指示哪个视频流表示电信会话的哪个特定参与者。与静态地定义复合视频流内的视频流的标识相比，动态地提供标识元数据可以提供更大的灵活性。具体地，可以动态地生成复合视频流以包含由接收器设备请求的特定视频流，而不必在组合器系统与接收器设备之间静态地定义哪些视频流被放置在复合视频流中的什么位置。基于标识元数据，接收器设备可以能够标识每个视频流并相应地对其进行处理。例如，如果复合视频流包含youtube视频和视频会议应用的参与者的视频，则接收器设备可以将youtube视频的解码视频传送到youtube应用的进程，而参与者的解码视频可以被传送给视频会议应用的进程。该设置可以允许将复合视频解码为一个视频，该解码可以使用用于解码的如硬件解码器或gpu等专用硬件，同时将各种视频流传递到其相应的应用或进程。
[0026]
因此可能不需要静态地定义复合视频流内的视频流的标识。这可以允许使用复合视频流来将多个视频流传递到单一管理域之外的接收器设备，否则将需要启用这种静态定义。
[0027]
在实施例中，该处理器子系统可以被配置成将标识元数据链接到组成元数据，以便将第一标识符和第二标识符链接到复合视频流中的相应空间片段。标识符可以显式地链接到组成元数据，例如，通过被包含在定义组成的同一数据结构中，例如，通过定义m
×
n的子流阵列，其中，该阵列中的每个条目包含相应的标识符。虽然可能不需要这种显式链接，例如，如果标识符与组成之间的关系是静态定义的，则这种链接可以提供额外的灵活性，因为可能不需要这种静态定义。
[0028]
在实施例中，该处理器子系统可以被配置成将标识元数据包括在组成元数据和/或复合视频流中。通过将标识元数据包括在组成元数据和/或复合视频流中，可能不需要提供将标识元数据与相应的元数据或流相关联的附加机制。
[0029]
在实施例中，该处理器子系统可以被配置成将该组成元数据和/或该标识元数据包括作为以下各项的至少一项或包括在以下各项的至少一项中：-包括作为会话管理期间在信令中交换的属性；-包括作为经由数据通道与该接收器设备交换的元数据；-包括在元数据流中；和/或-包括在该复合视频流的标头中。
[0030]
以上可以是向接收器设备提供组成元数据和/或标识元数据的有利方式。
[0031]
在实施例中，该第一标识符和/或该第二标识符可以包括以下各项中的至少一项：-相应视频流的源的标识符；-相应视频流的目的地的标识符；-相应视频流的内容的标识符；以及-已生成或打算处理该相应视频流的应用的标识符。
[0032]
上述标识符中的每一个可以指示相应视频流的标识并且可以允许接收器设备选择用于处理相应视频流的解码视频数据的进程。这里，源和目的地可以是网络源和网络目的地，但也可以更广泛地标识视频流的源或目的地，例如，通过引用记录视频流的事件或引用视频流所针对的应用。例如，可以标识相应视频流是从特定的内容传递网络获得的，例如，是从
‘
netflix’或
‘
youtube’获得的，或者可以标识视频流应该被传送到接收器设备上的
‘
默认视频播放器’。
[0033]
在实施例中，该处理器子系统可以被配置成经由该网络接口子系统从以下各项中的至少一项接收该第一标识符和该第二标识符中的至少一个：-发射器设备，该发射器设备将该相应视频流流式传输到该组合器系统；以及-该接收器设备，该接收器设备作为该接收器设备的流请求的一部分。
[0034]
特定视频流的标识符可以从发射器设备接收，例如以标识该视频流的标识元数据的形式从发射器设备接收，但也可以从接收器设备接收。即，流请求可以指示这种标识符，因为其可以包含视频流的url或其他类型的资源定位符，该资源定位符本身可以表示视频流的源标识符。通过在复合视频流的标识元数据中包括标识符，接收器设备可以能够将所请求的视频流与所传递的复合视频流的子流之一相关联，并且从而例如使用特定进程相应地对子流进行处理。
[0035]
在实施例中，该处理器子系统可以被配置成基于接收器设备对相应视频流的流请求而经由网络接口子系统向发射器设备请求第一视频流和第二视频流中的至少一个。该组合器系统本身可以代表接收器设备向发射器设备请求相应的视频流，即，通过基于接收器设备的流请求而发出这种请求。这样，可以为该组合器系统提供视频流的标识符，或者来自接收器设备的流请求或者来自发射器设备传输的视频流或者来自这两者的组合。因此，该组合器系统可能不需要单独请求这种标识符。
[0036]
在实施例中，该流请求可以接收自以下各项中的至少一项：-会话管理系统，该会话管理系统从该接收器设备接收该流请求并将该流请求转发到该组合器系统；以及-该接收器设备。
[0037]
在实施例中，该组合器系统可以由电信网络的边缘节点或边缘节点系统来体现。
[0038]
在实施例中，该进程是以下各项中的至少一项：应用的进程或子进程，其中，该应用在该接收器设备上运行或可由该接收器设备执行。可以被选择用于处理不同视频流的解码视频数据的进程可以属于不同的应用或相同的应用。
[0039]
根据本发明的进一步方面，可以提供一种计算机可读介质，该计算机可读介质包括可以表示计算机程序的暂态或非暂态数据，该计算机程序包括用于使处理器系统执行所述计算机实施的方法中的一种方法的指令。
[0040]
根据本发明的进一步方面，可以提供一种计算机可读介质。该计算机可读介质可以包括可以表示用于复合视频流的标识元数据的暂态或非暂态数据，其中，该复合视频流可以是至少包括第一视频流和第二视频流的空间分段的复合视频流，其中，每个视频流作
为一个或多个可独立解码的空间片段被包括在该复合视频流中，其中，该标识元数据可以包括该第一视频流的第一标识符和该第二视频流的第二标识符，其中，该第一标识符和该第二标识符可以唯一地标识该复合视频流中的这些相应视频流。
[0041]
本领域技术人员应当理解，可以以任何认为有用的方式组合上文提及的本发明的实施例、实施方式和/或方面中的两个或更多个。
[0042]
本领域技术人员可以基于本说明书执行任何计算机实施的方法、系统、设备、网络节点和/或计算机可读介质的修改和变化，这些修改和变化与针对所述实体中的另一个实体描述的修改和变化相对应。
[0043]
其他参考文献[3]sanchez,y.等lowcomplexitycloud-video-mixingusinghevc[使用hevc的低复杂度云视频混合].inieee11thconsumercommunicationsandnetworkingconference[ieee第11届消费者通信和网络会议],2014.[4]niamut,o.a.,thomas,e.,d'acunto,l.,concolato,c.,denoual,f.,&lim,s.y.(2016年5月).mpegdashsrd:spatialrelationshipdescription[空间关系描述].inproceedingsofthe7thinternationalconferenceonmultimediasystems[第七届国际多媒体系统会议的会议记录](第5页)。
附图说明
[0044]
参考下文所描述的实施例，本发明的这些方面和其他方面是显而易见的并且将被阐明。在附图中：图1示出了各自经由电信网络传输相应视频的多个发射器设备和经由该电信网络接收这些相应视频的接收器设备，其中所述设备经由相应接入网连接到该电信网络；图2示出了各自捕获视频并以瓦片式方式对该视频进行编码以获得相应的基于瓦片的视频流的多个发射器设备、以及在压缩域中组合基于瓦片的视频流以获得组合的基于瓦片的视频流的电信网络中的组合器、以及接收组合的基于瓦片的视频流并对其进行解码的接收器设备；图3示出了组合器处理接收到的视频流、需要对视频流进行解码和处理后的重新编码；图4示出了多个发射器设备各自将捕获的视频传输到电信网络的相应边缘节点，该相应边缘节点使用瓦片式视频流式传输编解码器对视频进行处理和编码以获得基于瓦片的视频流，并且组合器组合基于瓦片的视频流以获得传输到接收器设备的复合视频流；图5提供了图4的实施例的不同示意图；图6展示了将视频流组合为并排瓦片式视频流并生成包含相应视频流的标识符的元数据，该元数据可以被提供给接收器设备，该接收器设备然后可以分割视频流并基于从元数据获得的相应视频流的标识符将解码视频数据传送到相应的目的地；图7示出了图6图示的更详细示例，示出了接收器设备、组合器及两个发射器设备之间的消息流；图8示出了消息交换，其中接收器设备可以在从发射器设备到接收器设备的流式传输路径中插入边缘节点；
图9示出了另外的消息交换，其中接收器设备可以请求边缘节点将视频流组合成组合流；图10示出了体现例如组合器系统的处理器系统；图11示出了体现例如接收器设备的处理器系统；图12示出了用于组合视频流的方法；图13示出了用于接收和处理视频的方法；图14示出了包括非暂态数据的计算机可读介质；图15示出了示例性数据处理系统。
[0045]
应当注意，在不同的附图中具有相同附图标记的项具有相同的结构特征和相同的功能，或是相同的信号。在已经解释了这种项的功能和/或结构的情况下，在具体实施方式中不再重复解释。
[0046]
附图标记和缩写词清单以下附图标记和缩写词清单被提供用于简化附图解释，并且不应该被解释为对权利要求的限制。a，b
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
视频流，可独立解码的空间片段a’，b
’ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
解码视频数据ida，idbꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
视频流a的标识符，视频流b的标识符enx
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
边缘节点xmcu
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
多点控制单元uex
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
用户设备xyt
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
youtube10-13
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接入网20
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
电信网络30-32
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
视频流40-42
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
瓦片式视频流50-51
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
组合器60
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
复合视频流100
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
捕获110
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
编码120
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
解码130
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理140
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
瓦片/编码150
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
组合160
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
解码170
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分割/渲染200，201
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
视频流210，211
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
具有标识元数据的视频流220
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
复合视频流230
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
标识元数据
240
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
复合视频流的解码视频数据250，251
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
单独视频流的解码视频数据3-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流a3-2
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流a3-3
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流a3-4
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
指令3-5
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流a3-6
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流a3-7
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流a3-8
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流b3-9
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流b3-10
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
请求流b3-11
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
指令3-12
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流b3-13
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流a、b3-14
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流b300，302
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
视频流源310
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络节点，边缘节点312
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
会话管理器314
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流组合器320
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接收器设备322
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
流管理器324
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
解码器326
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
分割器330
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
应用1332
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
应用2400
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
配置为组合器的处理器系统420
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络接口422
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络通信数据440
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器子系统460
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
数据存储装置500
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
配置为接收器设备的处理器系统520
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络接口522
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络通信数据540
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器子系统560
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
显示输出562
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
显示数据580
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
显示器600
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
用于组合视频流的方法
610
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接收视频流620
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
在压缩域中将视频流组合为复合视频流的可独立解码的空间片段630
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
生成描述组成的组成元数据640
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
生成包括唯一地标识复合视频流中的视频流的标识符的标识元数据650
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
将复合视频流流式传输到接收器设备660
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
将组成元数据和标识元数据提供给接收器设备700
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
用于接收和处理视频的方法710
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接收包括作为可独立解码的空间片段的视频流的复合视频流720
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接收描述组成的组成元数据730
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
接收包括唯一地标识复合视频流中的视频流的标识符的标识元数据740
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
基于组成元数据和复合视频流的解码来获得视频流的解码视频数据750
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
基于视频流的标识符来标识用于处理解码视频数据的进程760
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
将解码视频数据提供给标识的进程800
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
计算机可读介质810
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
非暂态数据1000
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
示例性数据处理系统1002
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
处理器1004
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
存储器元件1006
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
系统总线1008
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
本地存储器1010
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
大容量存储设备1012
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
输入设备1014
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
输出设备1016
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
网络适配器1018
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
应用。
具体实施方式
[0047]
以下一些实施例是在视频会议（诸如vr中的视频会议）的上下文内描述的，其中许多用户使用hmd和相机参与电话会议，并且其中每个用户的接收器设备接收其他用户的视频流。然而，以下实施例中描述的技术也可以用于任何其他上下文，其中接收器设备经由电信网络接收若干视频流，这些视频流可以例如由相应的发射器设备传输。具体的非vr类型的示例是其中接收多个安全相机的视频流的安全应用或者其中使用多个相机来捕获事件的不同视点的实况事件注册。
[0048]
进一步注意，在下文中，对
‘
视频流’的任何提及可以是指适合于例如使用已知流式传输技术来流式传输的视频的数据表示。此外，对
‘
视频’的提及可以包括视频流，但还可以包括不适合于（尚未适合于）流式传输或者至少常规上不旨在用于流式传输的视频的数
据表示。在这些图中，视频（流）可以由单个视频帧示意性地表示。
[0049]
参考图6至图15描述了各种实施例，而参考图1至图5描述了可以使用这些实施例的示例性技术上下文。尽管明确地或至少隐含地描述了实施例和技术上下文的许多组合，但是实施例和技术上下文的其他组合对于技术人员将是显而易见的。
[0050]
图1示出了多个发射器设备ue1-ue3，每个发射器设备经由电信网络20以流式传输方式（在别处也简称为
‘
流式传输’）传输相应视频。这种流式传输在图1中由箭头30-32指示，并且可以包括任何已知的流式传输技术，如使用rtp流式传输、udp流式传输、dash流式传输等。图1进一步示出了经由电信网络20接收相应视频30-32的接收器设备ue4。设备ue1-ue4中的每一个被示为经由相应接入网10-13连接到电信网络20。在图1的示例中，电信网络20可以是5g或更新一代电信网络，设备（此处为
‘
用户设备’（ue））经由相应无线电接入网10-13连接到该电信网络。在其他示例中，电信网络20可以是互联网，并且接入网10-13可以是dsl或基于光纤的接入网。还存在电信网络和接入网的各种其他示例。
[0051]
尽管在图1中未示出，但是在一些实施例中，每个发射器设备也可以是接收器设备，并且反之亦然，因为每个设备可以接收其他设备的视频，并且将其自身视频传输给其他设备。例如，在视频会议中可能就是这种情况。在其他实施例中，仅其中一些发射器设备也可以是接收器设备和/或反之亦然。在其他实施例中，发射器设备可以传输视频而不接收视频，而接收器设备可以接收视频而不传输视频。在其他实施例中，若干视频流或所有视频流可以由同一发射器设备发射。接收器设备和/或发射器设备可以是终端用户设备，但也可以是网络中的服务器和/或网络实体，例如，网络节点。
[0052]
接收器设备接收多个发射器设备的视频流的视频流式传输的问题在于，接收器设备同时接收和解码多个视频流可能具有挑战性。例如，如低端智能电话等低端接收器设备可能仅具有仅允许对一个视频流进行硬件解码的一个硬件解码器。其他流可能是软件解码的，这通常在计算上（远远）更复杂。在存在多于两个视频流（例如，在会议呼叫中，对于其他参与者中的每一个都存在一个视频流）的情况下，此问题可能会加剧。
[0053]
图2示出了这种视频流如何被实体组合，该实体在这里和别处都称为
‘
组合器系统’或简称为
‘
组合器’。具体地，图2示出了多个发射器设备ue1-ue3，每个发射器设备对视频进行捕获100并且以瓦片式方式对所捕获的视频进行编码110以获得相应的基于瓦片的视频流。此处，术语
‘
以瓦片式方式进行编码’可以指以适合于在更大的瓦片配置中用作瓦片的方式对视频进行编码。这种基于瓦片的视频编码本身是已知的，例如，从hevc瓦片式流式传输[1]中已知，并且如在别处所指示的，瓦片可以表示可独立解码的空间片段。这种瓦片可以允许电信网络中或别处的组合器50在压缩域中对基于瓦片的视频流进行组合150以获得组合的基于瓦片的视频流。组合的基于瓦片的视频流然后可以由组合器50传输到接收器设备ue4，该接收器设备可以接收组合的基于瓦片的视频流并对其进行解码160，之后可以渲染170视频。这种渲染在这里和别处也被称为
‘
分割/渲染’，指的是视频可以再次被分割成各个部分，然后再通过其各自的渲染器进行渲染。渲染本身是可选的，如替代性地且例如，可以存储或记录每个单独的流。
[0054]
组合器50例如可以是基于云的服务器，或者通常可以是任何适当配置的网络节点，或为此目的一起使用的物理节点的组合，通常称为
‘
云’。这种网络节点的示例包括但不限于多点控制单元（mcu）和视频会议桥，并且在基于vr的电话会议的情况下，包括vr桥，其
中服务器的类型取决于技术和应用特定的上下文。
[0055]
通过组合器50提供单个组合的基于瓦片的视频流，通过仅对一个组合的基于瓦片的视频流而不是若干（非瓦片式）视频流进行解码，可以减少接收器设备ue4上的计算负荷。此外，通过在压缩域中执行组合150，在一些示例中可以减少组合器50上的计算负荷，例如，在要组合的若干或全部视频流被直接从发射器设备ue1-ue3接收作为基于瓦片的视频流的情况下。因此，可能不需要组合器50对每个接收到的视频流进行解码并且然后以瓦片式方式对其进行编码。然而，应当理解，在一些示例中，组合器50本身可以执行基于瓦片的编码，然后在压缩域中组合所得到的基于瓦片的视频流。
[0056]
图3示出了上述的示例。即，在该示例中，视频可能需要在由接收器设备渲染之前进行处理。这种处理可能是计算密集型的并且可能例如涉及所谓的头戴式显示器（hmd）去除、前景/背景分割、对象检测、对象注释、对象插入、对象变换、对象替换、3d重构等，并且通常可以是基于计算机视觉的处理。虽然可以在相应的发射器设备或接收器设备上执行这种处理，但是由这种处理造成的计算负荷对于单个设备来说可能太大了。这对接收器设备来说尤其如此，因为其可能必须同时处理若干这种视频。
[0057]
然而，这种处理可能被
‘
卸载’到另一个实体，例如，基于云的服务器，并且尤其是组合器。图3中示出了后者，其中组合器51被示出为对每个视频进行处理130并将处理后的视频进行组合150。然而，由于组合器51通常位于距离设备ue1-ue4一定距离处，例如，当由基于云的服务器实施时，往返设备ue1-ue4的带宽可能是有限的，这可能需要应用例如具有前向和后向时间依赖性的时空压缩。结果，每个发射器设备ue1-ue3可能必须在视频传输到组合器51之前对视频进行编码110，该组合器51可能必须对每个接收到的视频进行解码120、对每个解码的视频进行处理130、以基于瓦片的方式对每个处理后的视频进行编码140、并且然后在压缩域中对得到的瓦片进行组合150以获得可以流式传输到接收器设备ue4的组合的基于瓦片的视频流，该接收器设备然后如图2的情况可以对组合的基于瓦片的视频流进行解码160并且然后对解码的视频进行渲染170。应当理解，由发射器设备ue1-ue3进行的编码110可以是基于瓦片的编码，在这种情况下，由组合器51进行的解码120可以是基于瓦片的解码。然而，在一些示例中，编码110可以是非基于瓦片的编码，例如，使用非基于瓦片的视频编码的编解码器。
[0058]
图3流式传输架构的一个缺点可能是从捕获到渲染的端到端时延可能太大，这可能至少部分地是由于需要对发射器设备与接收器设备之间的每个视频进行解码并且然后再次进行编码所导致的，因为每个编码/解码步骤都可能会引入相当大的延迟。在本技术人的共同未决申请ep 19186699.5中，描述了一种技术，该技术实现了较低的端到端时延，同时仍然允许从发射器设备卸载视频处理，关于如hmd去除等计算密集型处理，该技术通过引用并入本文。图4和图5简要描述了这种技术。
[0059]
图4示出了示例，其中多个发射器设备ue1-ue3各自将捕获的视频传输到电信网络20的相应边缘节点en1-en3，该相应边缘节点使用瓦片式视频流式传输编解码器对视频进行处理和编码以获得相应的基于瓦片的视频流40-42，并且其中组合器50组合基于瓦片的视频流以获得可以被传输到接收器设备ue4的复合视频流60。在该实施例中，所谓的边缘节点用于处理视频。这种边缘节点存在于各种网络类型和架构中，并且通常可以位于电信网络20到相应接入节点10-12的边缘，发射器设备ue1-ue3经由这些相应接入节点连接到电信
网络20。
[0060]
例如，这种边缘节点在边缘计算领域是已知的，在该领域中，云计算资源可以靠近电信网络的边缘放置。这种放置可以具有不同的好处。例如，这种放置可以允许相应设备与云计算资源之间的低时延连接。另一个示例是，这种放置可以从电信网络的核心卸载流量。使用边缘计算进行视频处理本身是已知的，例如通过实况tv制作场景已知，在该场景中，视频处理从停车场中的tv卡车移动到边缘计算平台。在这种示例中，原始视频镜头可以被发送到边缘计算平台，在该边缘计算平台处，原始视频在作为tv就绪视频流被流式传输之前被处理。
[0061]
图4的示例可以将视频的处理卸载到电信网络，并且具体地卸载到电信网络的边缘节点en1-en3。为了将视频从发射器设备发送到边缘节点，可以使用低延迟视频传输技术，因为到边缘节点的连接通常具有低延迟和高带宽，并且因此具有低抖动（指的是分组之间的延迟变化）。这也可以避免在边缘节点处需要大的缓冲，否则，如果抖动很高，则可能需要大的缓冲，并且这可能会引入附加时延。由边缘节点执行的视频处理也可以不需要这种缓冲，因为这种视频处理通常可能涉及当视频帧到达边缘节点时处理视频帧，例如，可能不需要在边缘播放必须是连续/平滑的视频帧。
[0062]
因此，从发射器设备到边缘节点的视频传输可以以更高的带宽为代价来实现更低的延迟，例如通过发送未压缩形式视频，或者使用仅使用空间依赖性的无损压缩或有损压缩或仅使用前向时间帧间依赖性的时空压缩。这种压缩技术本身是已知的。通常，视频编码技术和相关联的视频流式传输编解码器可以是低延迟或超低延迟视频编码技术或编解码器。相比之下，例如由于使用前向和后向时间帧间依赖性，由基于瓦片的视频流式传输编解码器引入的延迟可能（远远）更高。由相应视频编码技术引入的延迟差异可以例如为至少1 : 2、1 : 5或1 : 10（分别为由发射器设备和边缘节点的编码和解码引起的时延对由边缘节点和接收器设备的编码和解码引起的时延）。通常，
‘
常规’实时视频传输将具有200到300 ms至多500 ms数量级的时延，其中该时延可能由取决于帧速率的捕获时延、由于编码中的时间依赖性引起的编码时延、网络中的传输和排队时延、接收器设备中的缓冲、以及解码和显示时延等构成。对于低延迟流式传输，通常与
‘
常规’视频流式传输的主要区别在于编码和接收端缓冲的最小化，在该编码中，以更高的带宽（即，更少的压缩）为代价避免了编码期间的未来依赖性。在接收端播放的情况下，不能完全避免缓冲，因为缓冲器运行不足可能中断平滑播放。因此，低延迟或超低延迟视频流可以具有约100 ms或甚至更低的端到端时延。
[0063]
图5提供了指示从捕获到渲染的各种功能的位置的图4的实施例的不同示意图。即，每个发射器设备ue1-ue3被示出为执行捕获100，之后捕获的视频被直接发送到相应边缘节点en1-en3。注意，例如由于发射器设备之间的位置差异，这种边缘节点可以是不同的边缘节点，但是也可以包括若干发射器设备之间相同的（例如，
‘
共享的’）边缘节点。
‘
直接传输’可以涉及上述缺乏压缩，或使用低延迟或超低延迟视频编码技术。由于这引起相对较小的时延，因此未示出相应发射器设备ue1-ue3与相应边缘节点en1-en3之间的编码和解码。然后，每个边缘节点en1-en3可以处理130相应视频，并且使用基于瓦片的视频流式传输编解码器对经处理的视频进行编码140，之后，基于瓦片的视频流可以被发送到组合器系统50，该组合器系统在压缩域中对基于瓦片的视频流的瓦片进行组合150从而获得组合的基于瓦片的视频流以传输到接收器设备ue4，该接收器设备然后可以对视频进行解码160和渲
染170。
[0064]
以下措施解决了以下问题：可以期望的是，在考虑到子流的组成可能动态地变化（例如，一个或多个子流的分辨率和/或形状发生变化、添加子流和/或删除子流）的同时，能够以不同的方式处理复合视频流的不同子流，例如，通过不同应用的进程或子进程。为了实现这种灵活性，可以生成包括每个相应子流的标识符的元数据。该元数据可以通过对已经存在于信令中（例如，在流请求或对其的回复中）或已经存在于传入视频流元数据中的标识数据（其一部分）进行复制、或者通过重新使用如设备名称或传送地址等现有信息来生成。标识元数据的典型示例是，例如，视频会议中用于用户视频的原始地址，例如sip地址或h.323地址或e.164电话号码，或者是用于媒体内容的内容url或内容地址，例如rtsp url、mpd url、youtube url、多播地址。然后可以以信号形式向接收器设备通知该元数据，例如已链接到描述空间片段的低级组成的组成元数据。这种组成元数据的示例是所谓的空间关系描述（srd）[4]。
[0065]
常规地，可以静态地定义复合视频流中的子流的组成。这种静态定义的组成可能是限制性的。例如，组成可以明确地或隐含地定义空间分辨率。如果组成是静态的，则空间分辨率也可能是静态的。这可能不允许动态的分辨率变化，例如，对于主导扬声器的检测，其中主导扬声器的子流可能被赋予比其他参与者的子流更高的分辨率。类似地，这可能不允许降低子流的空间分辨率，例如，当子流例如在虚拟现实环境中但远距离地以3d显示时。远距离显示的示例是视频化身，其子流在虚拟现实环境中显示为远离当前观看者或者离开当前观看者，并且如果动态的分辨率变化将被支持，则这将允许降低空间分辨率。这种静态组成也可能限于在单一管理域中使用，因为可能需要就使用哪个组成达成单个决定。
[0066]
根据要求保护的措施，可以生成元数据，并且在某些情况下可以将元数据添加到复合视频流中，该元数据可以标识特定子流，例如关于子流的源是什么（例如，来自哪个视频会议参与者）或该子流是什么类型的视频（例如，youtube视频）或子流的预期目的地是什么（例如，特定应用）等。即使组成发生变化，这仍然可以允许接收器设备标识特定的子流并相应地对该子流进行处理，例如，通过将解码视频数据传送到特定应用的进程。
[0067]
图6展示了将视频流组合为并排瓦片式视频流并生成包含相应视频流的标识符的元数据，该元数据可以被提供给接收器设备，该接收器设备然后可以分割视频流并基于从元数据获得的相应视频流的标识符将解码视频数据传送到相应的目的地。
[0068]
即，示出了视频流a 200和视频流b 201可以例如从相应的发射器设备（图6中未示出）被流式传输。对于视频流a、b中的每一个，可以获得相应的标识符，即ida和idb。每个标识符可以采用如本说明书中别处所描述的形式，并且在该示例中可以被包括在相应的视频流a、b中，从而产生包括相应标识符的视频流a 210和视频流b 211。然后可以将这两个视频流a、b组合成复合视频流。在图6的示例中，这两个视频流可以在复合视频流220中并排组成，因为视频流a可以示出在复合视频流220的左侧（l），而视频流b可以示出在复合视频流220的右手（r）侧。在生成复合视频流的实体处，例如，组合器（图6中未示出），可以生成可以标识相应视频流的标识元数据。可以基于先前接收到的标识符来生成该标识元数据。如图6所示，标识元数据也可以被链接到相应子流，即，通过指示左侧视频流包含由ida标识的视频并且右侧视频流包含由idb标识的视频。实际上，元数据可以表示组成元数据和标识元数据的组合，该组成元数据指示复合视频流由左侧子流和右侧子流组成，该标识元数据指示左
侧子流对应于ida并且右侧子流对应于idb。元数据230可以被提供给接收器设备，该接收器设备也可以接收复合视频流220并对其进行解码160，从而产生包含视频流a的解码视频数据a’和视频流b的解码视频数据b’的解码视频数据240。解码视频数据a’、b’然后可以被分割成相应的部分250、251，这些部分可以基于元数据230被传送到不同的目的地。例如，不同的目的地可以表示不同应用或不同服务的进程、或者同一应用或同一服务的不同进程或不同子进程、或者一个流在本地播放而一个流被转发（例如，
‘
投射’）到另一设备等。
[0069]
图7示出了图6图示的更详细示例，示出了接收器设备、组合器系统及两个发射器设备之间的消息流。该进程的至少一部分可能发生在流式传输会话设置期间。
[0070]
3-1应用1（
‘
app1’）330可以请求视频流a，例如，通过将该请求发送到在ue320上运行的流管理器322。
[0071]
3-2流管理器322可以将此请求转发到可以能够将若干视频流组合成复合视频流的网络节点310，即，组合器系统。即使这是要建立的第一视频流，流管理器322也可能已经指示ue320支持瓦片以支持将多个流组合成复合视频流。
[0072]
3-3网络节点310上的会话管理器312可以向源1300请求视频流a，并且
……
3-4
……
可以指示流组合器314使用基于瓦片的编码标准来将传入视频流发送到ue320。
[0073]
3-5源1300可以将视频流a发送到网络节点310。
[0074]
3-6网络节点310可以使用基于瓦片的编码标准来将视频流a转发到ue320。
[0075]
3-7解码器324可以对视频流a进行解码，并且流管理器322可以布置分割器326将视频流a的解码视频数据转发到应用1330。
[0076]
3-8接下来，应用2332可以请求视频流b。
[0077]
3-9流管理器322可以将此请求转发到同一网络节点310。
[0078]
3-10网络节点310上的会话管理器312可以向源2302请求视频流b，并且
……
3-11
……
可以指示流组合器314使用基于瓦片的编码标准来将传入流b与传入流a进行组合。
[0079]
3-12源2302可以将视频流b发送到网络节点310。
[0080]
3-13流组合器314现在可以将视频流a和b组合成单个复合视频流a、b，并将该单个复合视频流发送到ue320。
[0081]
3-14流管理器322现在可以布置分割器326将解码视频数据分割成两个分开的部分，并且因此可以将视频流b的解码视频数据发送到应用2332。
[0082]
因此图7的流管理器322可以是用于管理复合流的系统的一部分。每个应用可能完全没有意识到组合的流式传输，但是可以将流管理器322视为用于请求流的代理，因为知道流管理器322可以传递已经解码的流。流管理器322或用于管理复合流的类似功能可以例如是操作系统（os）的一部分，类似于例如由操作系统提供以供不同应用使用的网络堆栈。
[0083]
图8和图9涉及以下内容。单个实体（例如，诸如视频会议服务器等应用服务器）可以控制如发射器设备、接收器设备和组合器系统等实体，其中后者在下文中由边缘节点体现，以控制流式传输路由逻辑，该流式传输路由逻辑指的是定义哪些流将被传输到哪里的逻辑。该路由逻辑也可以是分散式的，例如，使每个客户端设备将视频流传输到其他客户端设备，并使每个客户端设备在流路径中
‘
插入其边缘’，无论是在传出方向还是传入方向上。
这里，术语
‘
插入其边缘’可以指客户端设备使一个或多个边缘节点被插入到传出或传入视频流的流路径中，该一个或多个边缘节点可以位于具有接入网的电信网络的边缘处，客户端设备经由该接入网连接到电信网络。这里，
‘
插入到流路径中’可以指相应视频流经由（多个）边缘节点被传输或接收。然后可以使用（多个）边缘节点来生成若干视频流的组成，以便生成如别处所述的复合视频流。（多个）边缘节点在生成复合视频流时还可以生成如别处所述的元数据，例如，组成元数据和标识元数据。
[0084]
图8示出了涉及这种分散式路由的消息交换。这里，示出了sip invite（邀请）消息及其ok响应，而为了便于图示，没有示出ack。括号之间进一步示出的是为视频流指定的传送地址，如下所示：stream_to_entity [underscore] stream_from_entity，即，ue1_en1表示从en1到ue1的流的地址。此信令流是基于ietf rfc 4117的，这是关于在流路径中包括代码转换器（即，媒体处理实体）的标准。
[0085]
在此示例中，ue1可能希望向ue2发送视频流，同时希望由边缘节点1（边缘1，在下文中为en1）处理该视频流，例如以执行如hmd去除等基于计算机视觉的处理。ue2可能希望接收此视频流，但可能希望使边缘节点2（边缘2，在下文中为en2）在将视频流传递到ue2之前对该视频流进行处理，例如，通过将多个传入（瓦片式）流组合成单个可解码的复合视频流。出于同样的原因，从ue2到ue1的返回流通过en2和en1。通过消息（1），ue1可以联系en1以向en1发信号通知将返回流发送到哪里，并接收en1希望经由其接收视频流的传送地址。具体地，en1可以同时返回从ue1传出的视频流的传送地址和传入到ue1的视频流的传送地址。注意，后一传送地址被示出为被编码为en1_ue2，即使在en1可能不知道是ue2将发送此传入流时也是如此；图8中的这种编码仅是为了附图的可读性，因为地址仅是一个地址。通过消息（2），ue1可以邀请ue2，使用要被用于从ue2到ue1的流的en1的传送地址。作为响应，通过消息（3），ue2可以邀请en2，发信号通知en2必须使用以将传出流发送到ue1（因此到达en1）的en1_ue2地址以及指示ue2希望在哪里接收传入流的ue2_en2地址。作为响应，ue2可以从en2接收要使用的传送地址。最后，通过消息（4），ue2可以响应来自ue1的invite，发信号通知到ue2的流应该被发送到的en2的传送地址。
[0086]
应当理解，这种和类似类型的信令流可以允许发送实体和接收实体两者在流流动中包括边缘（节点或边缘节点的系统）以用于视频流的处理或组合。
[0087]
此外，通过在会话描述协议（sdp）描述或复合视频流的标头或其子流的标头中包括标识元数据，例如作为流的内容、源或目的地的描述，各种子流可以（例如，通过图8的示例中的en2）被组合在复合流中，同时仍然允许接收器设备（例如，图8的示例中的ue2）将子流彼此区分开。这种接收器设备的部件可以被称为所谓的流解复用器，并且可以由例如应用或服务的进程或子进程执行从而
‘
消耗’这两个流，或者可以是分开的功能，其然后可以将相应视频流的解码视频数据转发到所选进程或子进程。
[0088]
例如，这可以允许将传入视频呼叫与在线视频的流式传输相结合。然后接收器设备可以在两个视频的相应窗口中渲染这两个视频。另一示例是，这可以允许将来自群组电话会议的多个传入视频呼叫流组合成单个复合视频流，同时仍然允许接收器设备将每个参与者放置在特定位置，例如，以被用在大型多显示器会议设置中或vr会议中。
[0089]
组成元数据可以例如定义多个新的信令属性，例如，这些属性可以在sdp中定义：-在sdp中，属性可以指示请求以瓦片式格式传递流，例如以使得流可直接插入到
复合流中，该复合流可以与指示的分辨率结合（例如，使用rfc6236）。例如，可以定义新的媒体类型，例如，称为h265_tile，该新的媒体类型然后可以在
‘
编码名称’下的rtpmap属性中使用：a=rtpmap:《payloadtype》《encodingname》/《clockrate》[/《encodingparameters》]-在sdp中，属性可以指示流是什么，例如，来自哪个源或应用、或者内容是什么。该属性可以表示如别处所述的标识元数据。在会话级别上，sip可以利用用户名描述流的发起者。然而，在媒体级别上，尚不存在这种属性，并且因此可以如下所述进行定义。可以针对每个单独的瓦片给出这种描述。瓦片通常以从左到右、从上到下的方式定义，或者可以通过如这些瓦片在srd[4]中的那样给出其左上角坐标来定义。因此，该属性可以是媒体级属性，该媒体级属性可以按照与瓦片的顺序相对应的顺序多次添加：a=tile:《type》《source》[/《sourceparameters》][/《coordinates》]利用例如以下限定：o《type》可以是内容类型，例如，
‘
呼叫’、
‘
视频’、
‘
安全’o《source》可以是应用定义的部分。这可以例如包含参与者的源地址，或定义源平台，例如
‘
youtube’，并且可选地包含视频标识符（例如，v=y5jico2bkec）o《coordinates》可以是可选的，并且可以例如具有[x-坐标]x[y-坐标]的格式图9示出了涉及分散式路由的消息交换，其中可以使用如上所指示的sdp。这里，步骤（1’）、（2’）和（3’）可以类似于图8的步骤。然而，不同之处可能在于从ue2到ue1的视频流不是瓦片式的，而是正常的非瓦片式视频流，并且因此可能不必穿过en2。在步骤（4’）中，可以设置用于youtube视频的视频连接。在这种情况下，youtube（yt）可能已经遵循瓦片式格式；这可以是由youtube提供的格式之一（用于支持本发明），使得接收器ue2可以选择该格式并在步骤（6’）中以信号形式通知所选格式。步骤（5’）可能涉及以下内容：ue1和yt可能没有意识到彼此，而ue2可能期望接收两个媒体流作为复合视频流。在步骤（5’）中，ue2可以在添加媒体元素的同时通过对现有会话的重新invite（邀请）来以信号形式向en2通知该期望。这可能意味着在信令级别上，在yt与ue2之间可能存在一个会话并且在ue1与ue2之间可能存在另一个会话，而在媒体级别上，yt与ue2之间的媒体可能如先前参考图8所述的那样与呼叫会话结合。实际地，在步骤（5’）中，代替与en2建立新的媒体会话，而是ue2可以为现有的媒体会话发送重新invite以请求插入附加瓦片。注意，在此示例中，两个瓦片都可以在sdp中进行描述，即作为同一媒体描述的一部分。因此，请求瓦片的顺序可以表示en2将瓦片插入到复合视频流中的顺序。替代性地，如果en2以不同的顺序插入瓦片，则en2可以以信号形式向接收器设备通知该不同的顺序，例如在ok响应中，例如，使用如上所述的《coordinates》。注意，上述消息交换可能发生在流式传输会话设置时，但也可能表示对现有会话的修改。例如，在图9的示例中，最初可能存在从ue1流式传输到ue2的视频流。一旦ue2开始youtube流式传输，可以向ue1发送带有呼叫切换的重新invite消息，以将传入的视频流从ue1转移到en2，在此请求中包括切换到瓦片式流式传输格式的请求。与图8类似，此重新invite可以从ue2到en2的invite开始，以指示ue2_en2地址，并在从en2到ue2的ok中接收en2_ue1地址，以及此后才向ue1发送重新invite，从而以信号形式通知en2_ue1地址。在切换之后，可以以与所示的用于图9的示例相同的方式请求youtube视频。
[0090]
通常，本说明书中描述的技术不限于如基于视频的vr等基于视频的通信用例，而是可以应用于若干视频流可以被流式传输到接收器设备的任何用例。
[0091]
作为基于瓦片的流式传输编解码器，可以使用任何已知和未来的基于瓦片的视频流式传输编解码器（如在hevc和vp9中），包括但不限于基于正在h.266/vvc中开发的瓦片式机制的编解码器，该瓦片式机制期望包含先进的多配置瓦片，因为某些瓦片可以以比其他瓦片更高的帧速率或者以其他解码器设置、或以不同的形状进行流式传输，从而允许将低延迟和高质量瓦片组合在单个vvc帧中。如果自视图被编码为要与其他瓦片组合的瓦片，则这种技术可以用于进一步减少自视图的时延。
[0092]
本说明书中描述的技术可以用于使用不同的组合器或相同的组合器来生成多个不同的组合的基于瓦片的流，例如，两个组合流，每个组合流包含四个发射器设备的视频。例如，如果接收器设备的解码限制不需要单个视频流，而是对每个单独视频流的空间分辨率或比特率施加限制，并且在其他方面单个组合的基于瓦片的视频流可能超过该限制，则这些多个不同的组合的基于瓦片的流可以被发送到不同的接收器设备，而且还可以被发送到相同的接收器设备。
[0093]
多个发射器设备可以连接到同一边缘节点。在这种情况下，边缘节点可以立即将相应视频组合在基于瓦片的视频流中，该基于瓦片的视频流随后可以与其他基于瓦片的视频流组合，例如，由另外的组合器或边缘节点沿着传输链进一步组合。
[0094]
组合器在组合流时还可以将一个或多个视频流转换（例如，转码、转多路复用、重新分组、重新封装等）为不同的流式传输格式。如果其中一个流是用来通信的，则可能优选地是保持低延迟，例如，通过使用rtp。替代性地，例如，如果没有视频流是用来通信的，则可以使用如mpeg dash等自适应流式传输技术。通常，组合器可以将rtp流转换为基于dash的流，并使用dash对得到的组合流进行流式传输。组合器还可以将基于dash的流转换为rtp流，并使用rtp对得到的组合流进行流式传输。
[0095]
通常，标识元数据和组成元数据中的每一个（例如，作为内容/源标识符和瓦片标识符的组合）可以被插入到流标头本身中，而不是在sdp中交换。每种类型的元数据也可以在分开的元数据流中以信号形式发送，例如，如在mpeg more中定义的。代替组合器由网络节点体现，组合器可以是接收器设备的一部分，例如，作为与流式传输客户端进程或服务（例如，dash客户端进程或服务）分开的进程或服务来运行。在这种示例中，网络接口子系统可以包括用于与流式传输客户端进程或服务进行内部通信的内部通信接口，比如基于api的通信接口或内部总线。
[0096]
通常，流管理器（例如，如参考图7所讨论的）和解码器/分割器可以是操作系统（os）的一部分，而不是应用的一部分。这种流式传输方式可能更类似于网络堆栈，其中传入分组的处理是在os中完成的，并且结果可能被发送到所选进程（例如，应用），例如，使用如在别处描述的目的地标识符（例如，端口号，产生应用可以连接到的套接字）。通常，可能存在不同的场景，即，如何将边缘作为组合器包括在端到端传递流水线中。例如，边缘可以作为代理被包括，该代理可以代表客户端请求/设置流，如图7所示。另一示例是ue可以在传递流水线中动态地插入组合器，如图8和图9所示。又一示例是使组合器干预流式传输，例如，通过参与信令（例如，作为透明代理）或通过使用分组检查。如果组合器检测到多个视频流正在被流式传输到ue，则该组合器可以进行干预，要么通过调整信令，要么通过明确向ue发
送指令，这些指令使ue请求该组合器使用信令来组合流，比如例如图9中所示。
[0097]
图10示出了体现如本说明书中别处描述的实体的处理器系统400，如组合器（系统）、边缘节点、网络节点、发射器设备、接收器设备或通常的ue。处理器系统400被示出为包括用于经由网络数据通信422发送和接收数据的网络接口420。网络接口420可以是任何合适类型的网络接口，例如基于wi-fi、蓝牙、zigbee、4g或5g移动通信的这种无线网络接口，或者例如基于以太网或光纤的有线网络接口。例如，网络接口420可以是局域网（lan）网络接口，或到如互联网等广域网（wan）的接口。具体地，如果处理器系统400体现ue，则网络接口420可以是接入网的网络接口并且可以是与特定类型的接入网相对应的网络接口类型。
[0098]
网络接口420可以表示如别处所述的网络接口子系统的示例。在其他示例中，网络接口子系统可以包括两个或更多个这种网络接口420。例如，如果处理器子系统400是组合器系统，例如，采用边缘节点的形式，则处理器子系统400可以包括用于从组合器系统的上游接收视频流的第一网络接口以及用于将复合视频流向下游传输到接收器设备的第二网络接口。每个网络接口可以是如针对网络接口420所描述的类型，并且通常可以是相同类型或不同类型的网络接口。
[0099]
处理器系统400进一步被示出为包括处理器子系统440，该处理器子系统可以例如通过硬件设计或软件被配置成执行本说明书中别处描述的操作，只要涉及相应实体（组合器（系统）、边缘节点、网络节点、发射器设备、接收器设备、ue）的所描述的功能。例如，处理器子系统440不但可以由单个中央处理单元（cpu）来体现，而且还可以由这种cpu和/或其他类型的处理单元（例如，图形处理单元（gpu）、硬件编码器和硬件解码器）的组合或系统来体现。处理器系统400进一步被示出为包括如内部存储器、硬盘、固态驱动器或其阵列等数据存储装置460，该数据存储装置可以用于存储或缓冲如（多个）视频流的接收到的部分和/或经解码的或经处理的视频数据部分等数据。
[0100]
处理器系统400可以由（单个）设备或装置来体现。例如，处理器系统400在表示发射器设备或接收器设备或另一种类型的ue时，可以是智能电话、个人计算机、膝上型计算机、平板设备、游戏控制台、机顶盒、电视、监视器、投影仪、智能手表、智能眼镜、媒体播放器、媒体记录器、头戴式显示设备等。处理器系统400作为接收器设备还可以由非ue类型的接收器设备来体现，比如网络节点或网络节点系统，表示例如联网的录像机或网络视频分析仪。处理器系统400还可以由这种设备或装置的分布式系统来体现。在其他示例中，例如在处理器系统400表示组合器（系统）、边缘节点或网络节点的示例中，处理器系统400可以由服务器或由分布式服务器系统来体现，或者通常由一个或多个网络元件来体现。
[0101]
通常，图10的处理器系统400可以体现为设备或装置，或者在设备或装置中体现。设备或装置可以包括一个或多个（微）处理器，该一个或多个（微）处理器可以表示处理器系统400的处理器子系统440，并且可以执行适当的软件。实施处理器子系统440的功能的软件可能已经被下载和/或存储在对应的一个或多个存储器中，例如，如ram等易失性存储器或如闪存等非易失性存储器。替代性地，处理器子系统440可以以可编程逻辑的形式在设备或装置中实施，例如，作为现场可编程门阵列（fpga）。通常，处理器系统400的每个单元可以以硬件电路的形式实施。如果处理器系统400是分布式系统，则处理器子系统440也可以是分布式子系统，如分布式（微）处理器子系统。
[0102]
图11示出了体现接收器设备的处理器系统500，该接收器设备也可以是组合的接
收器-发射器设备。与图10的处理器系统400的情况一样，图11的处理器系统500被示出为包括用于网络数据通信522的网络接口520，该网络接口可以是与参考图10描述的网络接口420相同类型的网络接口。此外，与图10的处理器系统400的情况一样，图11的处理器系统500被示出为包括处理器子系统540，该处理器子系统可以是与参考图10描述的处理器子系统440相同类型的处理器子系统。然而，在图11的示例中，处理器系统500进一步被示出为包括用于将显示数据562输出到显示器580的显示输出560，如hmd。尽管图11示出显示器580是外部显示器，但是在一些实施例中，处理器系统500可以包括显示器580或者可以集成到该显示器中。使用显示输出560，处理器系统500可以显示如任何接收到的组合的基于瓦片的视频流等视频。为了生成显示数据562，处理器子系统540可以包括一个或多个cpu和一个或多个gpu。例如，（多个）gpu可以执行实际的渲染，而（多个）cpu可以执行渲染的更高级别的编排。
[0103]
图12示出了用于将多个视频流组合成复合视频流的计算机实施的方法600。方法600被示出为包括如下步骤：至少接收610包括第一媒体源的第一视频的第一视频流和包括第二媒体源的第二视频的第二视频流。方法600进一步被示出为包括如下步骤：在压缩域中，组合620第一视频流和第二视频流以获得复合视频流，其中，该复合视频流是空间分段的复合视频流，并且其中，所述组合包括将每个相应视频流作为一个或多个可独立解码的空间片段包括在空间分段的复合视频流中。方法600进一步被示出为包括如下步骤：生成630描述复合视频流中的空间片段的组成的组成元数据。方法600进一步被示出为包括如下步骤：生成640标识元数据，该标识元数据包括第一视频流的第一标识符和第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识复合视频流中的这些相应视频流。方法600进一步被示出为包括如下步骤：将复合视频流流式传输650到接收器设备，并且将组成元数据和标识元数据提供660给接收器设备。
[0104]
图13示出了用于接收和处理第一媒体源的第一视频和第二媒体源的第二视频的计算机实施的方法700。方法700被示出为包括如下步骤：接收710复合视频流，如本说明书中别处所述。方法700进一步被示出为包括如下步骤：接收720描述复合视频流中的空间片段的组成的组成元数据。方法700进一步被示出为包括如下步骤：接收730标识元数据，该标识元数据包括第一视频流的第一标识符和第二视频流的第二标识符，其中，该第一标识符和该第二标识符唯一地标识复合视频流中的这些相应视频流。方法700进一步被示出为针对复合视频流的空间片段中的至少一个包括如下步骤：基于组成元数据和复合视频流的解码获得740相应视频流的解码视频数据；基于相应视频流的相应标识符来标识750用于处理解码视频数据的进程；以及将相应视频流的解码视频数据提供760到该进程。步骤740-760可以针对空间片段中的每一个执行，也可以针对空间片段中的一个或其子集执行，除了如下情况：可以将复合视频流解码一次以获得所有空间片段的解码视频数据，而不是针对每个单独片段再次进行解码。
[0105]
应当理解，通常，图12的计算机实施的方法600的步骤和/或图13的计算机实施的方法700的步骤可以以任何合适的顺序来执行，例如，连续地、同时地或其组合，在适用的情况下取决于例如输入/输出关系需要的特定顺序。例如，可以同时或时间重叠地执行步骤630和640。另一示例是可以同时或时间重叠地执行步骤710、720和730。
[0106]
注意，在本说明书中描述的任何方法，例如，在任何权利要求中描述的任何方法，
可以在计算机上实施为计算机实施的方法、专用硬件、或两者的组合。用于计算机的指令（例如，可执行代码）可以例如以一系列机器可读物理标记810的形式和/或作为一系列具有不同电（例如，磁或光）性质或值的元件的形式存储在例如图14所示的计算机可读介质800上。可执行代码可以以暂态或非暂态的方式存储。计算机可读介质的示例包括存储器设备、光存储设备、集成电路、服务器、在线软件等。图14通过示例的方式示出了光学存储设备800。
[0107]
在图14的计算机可读介质800的替代性实施例中，计算机可读介质800可以包括表示如本说明书中描述的标识元数据的暂态或非暂态数据810。
[0108]
图15是展示可以在本说明书中描述的实施例中使用的示例性数据处理系统1000的框图。这种数据处理系统包括本说明书中描述的数据处理实体，包括但不限于任何发射器设备、边缘节点、组合器、组合器系统、接收器设备、客户端设备、用户设备（ue）等。
[0109]
数据处理系统1000可以包括通过系统总线1006耦合到存储器元件1004的至少一个处理器1002。如此，数据处理系统可以在存储器元件1004内存储程序代码。此外，处理器1002可以执行经由系统总线1006从存储器元件1004访问的程序代码。在一方面，数据处理系统可以被实施为适合于存储和/或执行程序代码的计算机。然而，应当理解，数据处理系统1000可以以包括能够执行本说明书中描述的功能的处理器和存储器的任何系统的形式实施。
[0110]
存储器元件1004可以包括一个或多个物理存储器设备，比如例如本地存储器1008和一个或多个大容量存储设备1010。本地存储器可以指在程序代码的实际执行期间通常使用的随机存取存储器或其他（多个）非持久性存储器设备。大容量存储设备可以被实施为硬盘驱动器、固态硬盘或其他持久性数据存储设备。数据处理系统1000还可以包括一个或多个高速缓存存储器（未示出），这些高速缓存存储器提供至少一些程序代码的临时存储，以便减少在执行期间以其他方式从大容量存储设备1010检索程序代码的次数。
[0111]
被描绘为输入设备1012和输出设备1014的输入/输出（i/o）设备可以可选地耦合至数据处理系统。输入设备的示例可以包括但不限于，例如，麦克风、键盘、比如鼠标等定点设备、游戏控制器、蓝牙控制器、vr控制器和基于手势的输入设备等。输出设备的示例可以包括但不限于，例如，监视器或显示器、扬声器等。输入设备和/或输出设备可以直接或通过中间i/o控制器耦合至数据处理系统。网络适配器1016还可以耦合至数据处理系统，以使其能够通过中间私有或公共网络耦合至其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络向所述数据传输的数据的数据接收器和用于向所述系统、设备和/或网络传输数据的数据发射器。调制解调器、电缆调制解调器和以太网卡是可以与数据处理系统1000一起使用的不同类型的网络适配器的示例。
[0112]
如图15所示，存储器元件1004可以存储应用1018。应当理解，数据处理系统1000可以进一步执行能够促进应用执行的操作系统（未示出）。以可执行程序代码的形式实施的应用可以由数据处理系统1000（例如，由处理器1002）执行。响应于执行应用，数据处理系统可以被配置成执行将在本文进一步详细描述的一个或多个操作。
[0113]
例如，数据处理系统1000可以表示发射器设备或接收器设备。在这种情况下，应用1018可以表示当被执行时配置数据处理系统1000来执行参考所述设备中的任一个所描述
的功能的应用。在另一个示例中，数据处理系统1000可以表示边缘节点。在这种情况下，应用1018可以表示当被执行时配置数据处理系统1000来执行参考边缘节点所描述的功能的应用。在另一个示例中，数据处理系统1000可以表示组合器。在这种情况下，应用1018可以表示当被执行时配置数据处理系统1000来执行参考组合器所描述的功能的应用。
[0114]
根据本说明书的摘要，可以提供一种组合器系统，用于在压缩域中通过将相应视频流作为可独立解码的空间片段包括在复合视频流中来将不同媒体源的视频流组合在复合视频流中。该组合器系统可以生成描述复合视频流中的空间片段的组成的组成元数据和包括相应视频流的标识符的标识元数据。接收器系统可以基于组成元数据和复合视频流的解码来获得相应视频流的解码视频数据，并基于标识元数据来标识用于处理解码视频数据的进程。因此，空间片段的组成可以动态地改变，同时仍然允许接收器设备正确地处理空间片段。
[0115]
在权利要求中，置于括号间的任何附图标记不应被解释为限制权利要求。动词“包括（comprise）”及其词形变化的使用不排除权利要求中所述的元件或步骤之外的元件或步骤的存在。在元件列表或元件组之前的比如“至少一个”等表达表示从列表或组中选择所有元件或任何元件子集。例如，表达“a、b和c中的至少一个”应理解为仅包括a、仅包括b、仅包括c、包括a和b两者、包括a和c两者、包括b和c两者或包括全部a、b和c。元件前面的冠词“一个（a）”或“一种（an）”不排除存在多个这种元件。本发明可以通过包括若干不同元件的硬件以及通过适当编程的计算机来实施。在列举了若干装置的设备权利要求中，这些装置中的若干装置可以由同一个硬件项具体化。在相互不同的从属权利要求中陈述某些措施这一事实，并不表示不能有利地使用这些措施的组合。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：用于流合并的可配置NAL和切片码点机制的制作方法

将复合视频流中的视频流与元数据组合的制作方法

相关文献

最热文献