用于增强图形渲染真实感的设备和方法与流程

2022-02-22 02:13:16 来源：中国专利 TAG：

用于增强图形渲染真实感的设备和方法
发明领域
1.本发明一般涉及图形处理器领域。更特别地，本发明涉及用于增强图形应用的真实感（photorealism）的设备和方法，所述图形应用诸如体积视频应用、云游戏应用、计算机游戏和虚拟现实（vr）应用。

背景技术：

2.经由实时渲染引擎（如计算机游戏中使用的实时渲染引擎）渲染的图像缺乏真实照片的真实感外观。离线渲染方法模拟图像形成的物理现象。理论上，可以用精确模拟完美地再现照片。离线渲染方法要求几何形状、材料、照明条件等的物理精确的模型。对这些有用的东西进行建模是费力的，并且模拟在计算上要求高。
3.实时渲染引擎近似物理现象，使得可以以高帧率渲染图像。实时渲染技术产生较不逼真的图像，因为对于逼真外观至关重要的效果仅能被近似。
4.条件图像合成经由卷积神经网络（cnn）从语义标签图（semantic label map）产生逼真图像。条件图像合成忽略了与场景有关的结构信息（例如，几何形状、光照、材料），这通常导致与原始场景不一致的不足的真实度、幻觉的对象和渲染。最终用作输入的真实情况语义标签图对于真实世界照片的产生是昂贵的。
5.域自适应/样式转移方法将一组图像（例如，真实照片）的样式应用于另一组图像（例如，合成图像）。域自适应/样式转换方法遭受与条件图像合成方法相同的缺点。
6.视频到视频合成通过加强经转换的图像的时间一致性来扩展条件图像合成。视频到视频合成也继承了条件图像合成的问题。虽然在训练期间加强时间一致性在一定程度上减轻了几何伪影，但是训练仍然要求配对的真实情况。
附图说明
7.从结合以下附图的以下详细描述中可以获得对本发明的更好理解，其中：图1是具有处理器的计算机系统的实施例的框图，该处理器具有一个或多个处理器核和图形处理器；图2a-d示出了由本发明的实施例提供的计算系统和图形处理器；图3a-c示出了附加图形处理器和计算加速器架构的框图；图4是用于图形处理器的图形处理引擎的实施例的框图；图5a-b示出了包括处理元件阵列的线程执行逻辑；图6是包括处理元件阵列的线程执行逻辑的框图；图7示出了根据实施例的图形处理器执行单元指令格式；图8是图形处理器的另一实施例的框图，所述图形处理器包括图形流水线、媒体流水线、显示引擎、线程执行逻辑和渲染输出流水线；图9a是示出根据实施例的图形处理器命令格式的框图；图9b是示出根据实施例的图形处理器命令序列的框图；
图10示出了根据实施例的数据处理系统的示例性图形软件架构；图11a示出了根据实施例的可以用于制造集成电路以执行操作的示例性ip核开发系统；图11b-d示出了包括小芯片和中介层衬底的示例性封装布置；图12示出了根据实施例的可以使用一个或多个ip核来制作的示例性片上系统集成电路；图13示出了可以使用一个或多个ip核来制作的片上系统集成电路的示例性图形处理器；图14示出了可以使用一个或多个ip核来制作的片上系统集成电路的附加示例性图形处理器；图15a示出了图形处理流水线的一个实施例；图15b示出了多遍次渲染（multi-pass rendering）的一个实施例；图16示出了包括机器学习后处理器的本发明的一个实施例；图17示出了使用g缓冲器作为对级联精细化网络的辅助输入的一个实施例；图18示出了在级联精细化网络中使用的精细化块的一个实施例；以及图19示出了根据本发明一个实施例的方法。
具体实施方式
8.在以下描述中，出于解释的目的，阐述众多具体细节以便提供对下面描述的本发明的实施例的透彻理解。然而，本领域的技术人员将明白，可以在没有这些具体细节中的一些具体细节的情况下实践本发明的实施例。在其他实例中，以框图形式示出公知的结构和装置，以避免混淆本发明的实施例的根本原理。
9.示例性图形处理器架构和数据类型系统概述图1是根据实施例的处理系统100的框图。系统100可以用于单处理器台式电脑系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统中。在一个实施例中，系统100是并入片上系统（soc）集成电路内的处理平台，所述片上系统（soc）集成电路供在移动、手持式或嵌入式装置中（诸如在带有到局域网或广域网的有线或无线连接性的物联网（iot）装置内）使用。
10.在一个实施例中，系统100能够包括以下各项、与以下各项耦合或者被集成在以下各项内：基于服务器的游戏平台；游戏控制台，包括游戏和媒体控制台；移动游戏控制台、手持式游戏控制台或在线游戏控制台。在一些实施例中，系统100是以下各项的一部分：移动电话、智能电话、平板计算装置或移动互联网连接的装置，诸如带有低内部存储容量的膝上型电脑。处理系统100还能够包括以下各项、与以下各项耦合或者被集成在以下各项内：可穿戴装置，诸如智能手表可穿戴装置；智能眼镜或服装，其用增强现实（ar）或虚拟现实（vr）特征来被增强以提供视觉、音频或触觉输出以补充现实世界视觉、音频或触觉体验或者以其他方式提供文本、音频、图形、视频、全息图像或视频、或者触觉反馈；其他增强现实（ar）装置；或者其他虚拟现实（vr）装置。在一些实施例中，处理系统100包括电视或机顶盒装置，或者是电视或机顶盒装置的一部分。在一个实施例中，系统100能够包括以下各项、与以下
各项耦合或者被集成在以下各项内：自动驾驶交通工具，诸如公共汽车、牵引车拖车、汽车、摩托车或电动自行车、飞机或滑翔机（或其任何组合）。自动驾驶交通工具可以使用系统100来处理在交通工具周围感测到的环境。
11.在一些实施例中，一个或多个处理器102各自包括一个或多个处理器核107以处理指令，所述指令在被执行时，执行用于系统或用户软件的操作。在一些实施例中，一个或多个处理器核107中的至少一个处理器核被配置成处理特定指令集109。在一些实施例中，指令集109可以促进复杂指令集计算（cisc）、精简指令集计算（risc）或经由超长指令字（vliw）的计算。一个或多个处理器核107可以处理不同指令集109，所述指令集109可以包括用来促进对其他指令集的仿真的指令。处理器核107还可以包括其他处理装置，诸如数字信号处理器（dsp）。
12.在一些实施例中，处理器102包括高速缓冲存储器104。取决于架构，处理器102能够具有单个内部高速缓存或多个等级的内部高速缓存。在一些实施例中，在处理器102的各种组件之间共享高速缓冲存储器。在一些实施例中，处理器102还使用外部高速缓存（例如，3级（l3）高速缓存或末级高速缓存（llc））（未示出），其可以在使用已知高速缓存一致性技术的处理器核107之间被共享。寄存器堆106能够另外被包括在处理器102中，并且可以包括用于存储不同类型的数据的不同类型的寄存器（例如，整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器）。一些寄存器可以是通用寄存器，而其他寄存器可以特定于处理器102的设计。
13.在一些实施例中，一个或多个处理器102与一个或多个接口总线110耦合，以在处理器102与在系统100中的其他组件之间传送通信信号，诸如地址、数据或控制信号。接口总线110在一个实施例中能够是处理器总线，诸如某一版本的直接媒体接口（dmi）总线。然而，处理器总线不限于dmi总线，并且可以包括一个或多个外设组件互连总线（例如，pci、pci express）、存储器总线或其他类型的接口总线。在一个实施例中，（一个或多个）处理器102包括集成存储器控制器116和平台控制器集线器130。存储器控制器116促进在存储器装置与系统100的其他组件之间的通信，而平台控制器集线器（pch）130经由本地i/o总线提供到i/o装置的连接。
14.存储器装置120能够是动态随机存取存储器（dram）装置、静态随机存取存储器（sram）装置、闪速存储器装置、相变存储器装置或具有适合性能以充当进程存储器的某一其他存储器装置。在一个实施例中，存储器装置120能够作为用于系统100的系统存储器进行操作，以存储数据122和指令121以便在一个或多个处理器102执行应用或进程时使用。存储器控制器116还与可选的外部图形处理器118耦合，所述外部图形处理器118可以与处理器102中的一个或多个图形处理器108进行通信以执行图形和媒体操作。在一些实施例中，可以由加速器112协助图形、媒体和/或计算操作，所述加速器112是能够被配置成执行专门的一组图形、媒体或计算操作的协处理器。例如，在一个实施例中，加速器112是用来优化机器学习或计算操作的矩阵乘法加速器。在一个实施例中，加速器112是光线追踪加速器，其能够被用来与图形处理器108协同执行光线追踪操作。在一个实施例中，可以使用外部加速器119来替代加速器112或与加速器112协同。
15.在一些实施例中，显示装置111能够连接到（一个或多个）处理器102。显示装置111能够是如在移动电子装置或膝上型装置中的内部显示装置或者经由显示接口（例如，
displayport等）附连的外部显示装置中的一个或多个。在一个实施例中，显示装置111能够是头戴式显示器（hmd），诸如供在虚拟现实（vr）应用或增强现实（ar）应用中使用的立体显示装置。
16.在一些实施例中，平台控制器集线器130使得外设能经由高速i/o总线连接到存储器装置120和处理器102。i/o外设包括但不限于音频控制器146、网络控制器134、固件接口128、无线收发器126、触摸传感器125、数据存储装置124（例如，非易失性存储器、易失性存储器、硬盘驱动器、闪速存储器、nand、3d nand、3d xpoint等）。数据存储装置124能够经由存储接口（例如，sata）或经由诸如外设组件互连总线（例如，pci、pci express）的外设总线进行连接。触摸传感器125能够包括触摸屏传感器、压力传感器或指纹传感器。无线收发器126能够是wi-fi收发器、蓝牙收发器或诸如3g、4g、5g或长期演进（lte）收发器之类的移动网络收发器。固件接口128使得能够与系统固件通信，并且能够是例如统一可扩展固件接口（uefi）。网络控制器134可实现到有线网络的网络连接。在一些实施例中，高性能网络控制器（未示出）与接口总线110耦合。音频控制器146在一个实施例中是多通道高清晰度音频控制器。在一个实施例中，系统100包括用于将传统（例如，个人系统2（ps/2））装置耦合到系统的可选的传统i/o控制器140。平台控制器集线器130还能够连接到一个或多个通用串行总线（usb）控制器142连接输入装置，诸如键盘和鼠标143组合、拍摄装置（camera）144或其他usb输入装置。
17.将领会的是，示出的系统100是示例性的并且不是限制性的，因为以不同方式配置的其他类型的数据处理系统也可以被使用。例如，存储器控制器116和平台控制器集线器130的实例可以被集成到分立的外部图形处理器中，诸如外部图形处理器118。在一个实施例中，平台控制器集线器130和/或存储器控制器116可以在一个或多个处理器102的外部。例如，系统100能够包括外部存储器控制器116和平台控制器集线器130，其可以被配置为与（一个或多个）处理器102通信的系统芯片组内的存储器控制器集线器和外设控制器集线器。
18.例如，能够使用电路板（“滑板（sled）”），在所述滑板上放置诸如cpu、存储器和其他组件之类的组件，其被设计用于增加的热性能。在一些实施例中，诸如处理器的处理组件位于滑板的顶侧上，而诸如dimm的近存储器位于滑板的底侧上。作为通过此设计提供的增强的空气流动的结果，组件可以以比在典型系统中更高的频率和功率水平进行操作，由此增加性能。此外，滑板被配置成与机架中的功率和数据通信缆线盲配对，从而增强它们被快速移除、升级、重新安装和/或替换的能力。类似地，位于滑板上的各个组件（诸如处理器、加速器、存储器和数据存储驱动器）被配置成由于它们与彼此增加的间距而容易被升级。在说明性实施例中，组件另外包括硬件证明特征以证实其确实性（authenticity）。
19.数据中心能够利用单个网络架构（“组构（fabric）”），所述单个网络架构支持包括以太网和全路径（omni-path）的多个其他网络架构。滑板能够经由光纤被耦合到交换机，所述光纤提供比典型双绞线缆线（例如，类别5、类别5e、类别6等）更高的带宽和更低的时延。由于高带宽、低时延互连和网络架构，数据中心可以使用在物理上解聚的池资源（诸如存储器、加速器（例如，gpu、图形加速器、fpga、asic、神经网络和/或人工智能加速器等）以及数据存储驱动器），并且在按需基础上将它们提供到计算资源（例如，处理器），使得计算资源能访问池化资源（pooled resource），如同池化资源是本地的一样。
20.功率供应器或功率源能够提供电压和/或电流到本文中描述的系统100或者任何组件或系统。在一个示例中，功率供应器包括用来插入到墙上插座的ac到dc（交流电到直流电）适配器。此类ac电力能够是可再生能（例如，太阳能）功率源。在一个示例中，功率源包括dc功率源，诸如外部ac到dc转换器。在一个示例中，功率源或功率供应器包括无线充电硬件以经由接近充电场进行充电。在一个示例中，功率源能够包括内部电池、交流电供应器、基于运动的功率供应器、太阳能供应器或燃料电池源。
21.图2a-2d示出了由本文中描述的实施例提供的计算系统和图形处理器。与本文中任何其他附图的元件具有相同参考标号（或名称）的图2a-2d的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。
22.图2a是具有一个或多个处理器核202a-202n、集成存储器控制器214和集成图形处理器208的处理器200的实施例的框图。处理器200能够包括另外的核，所述另外的核多达并且包括由虚线框表示的另外的核202n。处理器核202a-202n中的每个处理器核包括一个或多个内部高速缓存单元204a-204n。在一些实施例中，每个处理器核还可以访问一个或多个共享高速缓存单元206。内部高速缓存单元204a-204n和共享高速缓存单元206表示处理器200内的高速缓冲存储器层级。高速缓冲存储器层级可以包括在每个处理器核内的至少一级的指令和数据高速缓存，以及一级或多级的共享中间级高速缓存，诸如2级（l2）、3级（l3）、4级（l4）或其他级的高速缓存，其中在外部存储器前的最高级的高速缓存被分类为llc。在一些实施例中，高速缓存一致性逻辑维持各种高速缓存单元206与204a-204n之间的一致性。
23.在一些实施例中，处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核210。一个或多个总线控制器单元216管理一组外设总线，诸如一个或多个pci或pci express总线。系统代理核210提供用于各种处理器组件的管理功能性。在一些实施例中，系统代理核210包括一个或多个集成存储器控制器214以管理对各种外部存储器装置（未示出）的访问。
24.在一些实施例中，处理器核202a-202n中的一个或多个处理器核包括对同时多线程的支持。在此类实施例中，系统代理核210包括用于在多线程的处理期间协调和操作核202a-202n的组件。系统代理核210可以另外包括功率控制单元（pcu），所述功率控制单元（pcu）包括用来调节处理器核202a-202n和图形处理器208的功率状态的逻辑和组件。
25.在一些实施例中，处理器200另外包括用来执行图形处理操作的图形处理器208。在一些实施例中，图形处理器208与一组共享高速缓存单元206和包括一个或多个集成存储器控制器214的系统代理核210耦合。在一些实施例中，系统代理核210还包括显示控制器211以将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中，显示控制器211还可以是经由至少一个互连与图形处理器耦合的单独模块，或者可以被集成在图形处理器208内。
26.在一些实施例中，基于环的互连单元212被用来耦合处理器200的内部组件。然而，可以使用备选互连单元，诸如点对点互连、交换互连或其他技术，包括本领域中公知的技术。在一些实施例中，图形处理器208经由i/o链路213与环形互连212耦合。
27.示例性i/o链路213表示多个种类的i/o互连中的至少一个，包括促进在各种处理器组件与诸如edram模块的高性能嵌入式存储器模块218之间的通信的封装上i/o互连。在
一些实施例中，处理器核202a-202n中的每个处理器核和图形处理器208能够使用嵌入式存储器模块218作为共享末级高速缓存。
28.在一些实施例中，处理器核202a-202n是执行相同指令集架构的同质核。在另一实施例中，处理器核202a-202n在指令集架构（isa）方面是异质的，其中处理器核202a-202n中的一个或多个处理器核执行第一指令集，而其他核中的至少一个核执行第一指令集的子集或不同指令集。在一个实施例中，处理器核202a-202n在微架构方面是异质的，其中具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。在一个实施例中，处理器核202a-202n在计算能力方面是异质的。另外，处理器200能够在一个或多个芯片上被实现，或者被实现为除其他组件外还具有示出的组件的soc集成电路。
29.图2b是根据本文中描述的一些实施例的图形处理器核219的硬件逻辑的框图。与本文中任何其他附图的元件具有相同参考标号（或名称）的图2b的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。有时被称为核切片（core slice）的图形处理器核219能够是模块化图形处理器内的一个或多个图形核。图形处理器核219是一个图形核切片的示例，并且如本文中所述的图形处理器可以基于目标功率和性能包络而包括多个图形核切片。每个图形处理器核219能够包括与也称为子切片的多个子核221a-221f耦合的固定功能块230，所述多个子核221a-221f包括通用和固定功能逻辑的模块化块。
30.在一些实施例中，固定功能块230包括几何/固定功能流水线231，所述几何/固定功能流水线231能够例如在更低性能/或更低功率图形处理器实现中由图形处理器核219中的所有子核共享。在各种实施例中，几何/固定功能流水线231包括3d固定功能流水线（例如，下文所述的如图3和图4中的3d流水线312）、视频前端单元、线程派生器（thread spawner）和线程分派器（thread dispatcher）以及管理统一返回缓冲器（unified return buffer）（例如，如下文所述的在图4中的统一返回缓冲器418）的统一返回缓冲器管理器。
31.在一个实施例中，固定功能块230还包括图形soc接口232、图形微控制器233和媒体流水线234。图形soc接口232提供图形处理器核219与片上系统集成电路内的其他处理器核之间的接口。图形微控制器233是可编程子处理器，其可配置成管理图形处理器核219的各种功能，包括线程分派、调度和抢占（pre-emption）。媒体流水线234（例如，图3和图4的媒体流水线316）包括用来促进多媒体数据（包括图像和视频数据）的解码、编码、预处理和/或后处理的逻辑。媒体流水线234经由对子核221a-221f内的计算或采样逻辑的请求来实现媒体操作。
32.在一个实施例中，soc接口232使得图形处理器核219能够与通用应用处理器核（例如，cpu）和/或soc内的其他组件（包括存储器层级元件，诸如共享末级高速缓冲存储器、系统ram和/或嵌入式片上或封装上dram）进行通信。soc接口232还可实现与soc内的固定功能器件（诸如拍摄装置成像流水线）的通信，并且实现全局存储器原子的使用和/或实现全局存储器原子，可以在图形处理器核219与soc内的cpu之间共享所述全局存储器原子。soc接口232还可实现用于图形处理器核219的功率管理控制，并且实现图形核219的时钟域与soc内的其他时钟域之间的接口。在一个实施例中，soc接口232使得能够接收来自命令流转化器（command streamer）和全局线程分派器的命令缓冲器，所述命令缓冲器被配置成向图形处理器内的一个或多个图形核中的每个图形核提供命令和指令。命令和指令能够在要执行
媒体操作时被分派到媒体流水线234，或者在要执行图形处理操作时被分派到几何和固定功能流水线（例如，几何和固定功能流水线231、几何和固定功能流水线237）。
33.图形微控制器233能够被配置成执行用于图形处理器核219的各种调度和管理任务。在一个实施例中，图形微控制器233能够在子核221a-221f内的执行单元（eu）阵列222a-222f、224a-224f内的各种图形并行引擎上执行图形和/或计算工作负载调度。在此调度模型中，在包括图形处理器核219的soc的cpu核上执行的主机软件能够提交工作负载给多个图形处理器门铃（graphic processor doorbell）之一，这调取在适当图形引擎上的调度操作。调度操作包括确定接下来要运行哪个工作负载，向命令流转化器提交工作负载，对在引擎上运行的现有工作负载进行抢占，监测工作负载的进展，以及在工作负载完成时通知主机软件。在一个实施例中，图形微控制器233还能够促进图形处理器核219的低功率或空闲状态，从而为图形处理器核219提供独立于操作系统和/或系统上的图形驱动器软件跨低功率状态转变来对图形处理器核219内的寄存器进行保存和恢复的能力。
34.图形处理器核219可以具有多于或少于示出的子核221a-221f，多达n个模块化子核。对于每组n个子核，图形处理器核219还能够包括共享功能逻辑235、共享和/或高速缓冲存储器236、几何/固定功能流水线237以及用来加速各种图形和计算处理操作的另外的固定功能逻辑238。共享功能逻辑235能够包括与图4的共享功能逻辑420关联的逻辑单元（例如，采样器、数学和/或线程间通信逻辑），所述逻辑单元能够由图形处理器核219内的每n个子核共享。共享和/或高速缓冲存储器236能够是用于图形处理器核219内的一组n个子核221a-221f的末级高速缓存，并且还能够充当可由多个子核访问的共享存储器。几何/固定功能流水线237能够代替固定功能块230内的几何/固定功能流水线231而被包括，并且能够包括相同或类似的逻辑单元。
35.在一个实施例中，图形处理器核219包括另外的固定功能逻辑238，其能够包括供图形处理器核219使用的各种固定功能加速逻辑。在一个实施例中，另外的固定功能逻辑238包括供在仅位置着色中使用的另外的几何流水线。在仅位置着色中，存在两个几何流水线：几何/固定功能流水线238、231内的完全几何流水线；以及剔除流水线（cull pipeline），其是可以被包括在另外的固定功能逻辑238内的另外的几何流水线。在一个实施例中，剔除流水线是完全几何流水线的裁减版本。完全流水线和剔除流水线能够执行相同应用的不同实例，每个实例具有单独的上下文。仅位置着色能够隐藏被丢弃三角形的长剔除运行，使得在一些实例中能更早完成着色。例如，并且在一个实施例中，另外的固定功能逻辑238内的剔除流水线逻辑能够执行与主应用并行的位置着色器，并且一般比完全流水线更快生成关键结果，因为剔除流水线仅获取并且着色顶点的位置属性而不向帧缓冲器执行像素的光栅化（rasterization）和渲染。剔除流水线能够使用生成的关键结果来计算用于所有三角形的可见性信息，而不考虑那些三角形是否被剔除。完全流水线（其在此实例中可以被称为重放流水线）能够消耗可见性信息以跳过被剔除的三角形，以仅对最终被传递到光栅化级的可见三角形进行着色。
36.在一个实施例中，另外的固定功能逻辑238还能够包括诸如固定功能矩阵乘法逻辑的机器学习加速逻辑，以用于包括针对机器学习训练或推理的优化的实现。
37.在每个图形子核221a-221f内包括一组执行资源，其可以用于响应于图形流水线、媒体流水线或着色器程序的请求而执行图形、媒体和计算操作。图形子核221a-221f包括多
个eu阵列222a-222f、224a-224f、线程分派和线程间通信（td/ic）逻辑223a-223f、3d（例如，纹理）采样器225a-225f、媒体采样器206a-206f、着色器处理器227a-227f及共享本地存储器（slm）228a-228f。eu阵列222a-222f、224a-224f各自包括多个执行单元，所述多个执行单元是能够为图形、媒体或计算操作（包括图形、媒体或计算着色器程序）服务而执行浮点和整数/定点逻辑运算的通用图形处理单元。td/ic逻辑223a-223f执行用于子核内的执行单元的本地线程分派和线程控制操作，并且促进在子核的执行单元上执行的线程之间的通信。3d采样器225a-225f能够将纹理或其他3d图形有关数据读取到存储器中。3d采样器能够基于配置的样本状态和与给定纹理关联的纹理格式来以不同方式读取纹理数据。媒体采样器206a-206f能够基于与媒体数据关联的类型和格式来执行类似的读取操作。在一个实施例中，每个图形子核221a-221f能够交替包括统一3d和媒体采样器。在子核221a-221f中的每个子核内的执行单元上执行的线程能够利用每个子核内的共享本地存储器228a-228f，以使得在线程群组内执行的线程能使用片上存储器的公共池来执行。
38.图2c示出了包括布置成多核群组240a-240n的图形处理资源的专用集合的图形处理单元（gpu）239。尽管提供了仅单个多核群组240a的细节，但将领会的是，其他多核群组240b-240n可以被配备有图形处理资源的相同或类似集合。
39.如所示出的，多核群组240a可以包括图形核243的集合、张量核244的集合和光线追踪核245的集合。调度器/分派器241调度和分派图形线程以便在各种核243、244、245上执行。寄存器堆242的集合存储由核243、244、245在执行图形线程时使用的操作数值。这些寄存器可以包括例如用于存储整数值的整数寄存器、用于存储浮点值的浮点寄存器、用于存储打包数据元素（整数和/或浮点数据元素）的向量寄存器及用于存储张量/矩阵值的贴片寄存器（tile register）。在一个实施例中，贴片寄存器被实现为向量寄存器的组合集合。
40.一个或多个组合的1级（l1）高速缓存和共享存储器单元247在每个多核群组240a内本地存储图形数据，诸如纹理数据、顶点数据、像素数据、光线数据、包围体数据等。一个或多个纹理单元247还能够被用来执行纹理操作，诸如纹理映射和采样。由多核群组240a-240n的全部或其子集共享的2级（l2）高速缓存253存储用于多个并发图形线程的图形数据和/或指令。如所示出的，l2高速缓存253可以跨多个多核群组240a-240n被共享。一个或多个存储器控制器248将gpu 239耦合到存储器249，所述存储器249可以是系统存储器（例如，dram）和/或专用图形存储器（例如，gddr6存储器）。
41.输入/输出（i/o）电路250将gpu 239耦合到一个或多个i/o装置252，诸如数字信号处理器（dsp）、网络控制器或用户输入装置。片上互连可以用来将i/o装置252耦合到gpu 239和存储器249。i/o电路250的一个或多个i/o存储器管理单元（iommu）251将i/o装置252直接耦合到系统存储器249。在一个实施例中，iommu 251管理页表的多个集合以将虚拟地址映射到系统存储器249中的物理地址。在此实施例中，i/o装置252、（一个或多个）cpu 246和（一个或多个）gpu 239可以共享相同虚拟地址空间。
42.在一个实现中，iommu 251支持虚拟化。在此情况下，它可以管理页表的第一集合以将客户/图形虚拟地址映射到客户/图形物理地址，并且管理页表的第二集合以将客户/图形物理地址映射到系统/主机物理地址（例如，在系统存储器249内）。页表的第一和第二集合中的每个集合的基址可以被存储在控制寄存器中并且在上下文切换时被换出（例如，使得为新上下文提供对页表的相关集合的访问）。尽管在图2c中未被示出，但核243、244、
245和/或多核群组240a-240n中的每个可以包括转换后备缓冲器（tlb）以对客户虚拟到客户物理转换、客户物理到主机物理转换以及客户虚拟到主机物理转换进行高速缓存。
43.在一个实施例中，cpu 246、gpu 239和i/o装置252被集成在单个半导体芯片和/或芯片封装上。示出的存储器249可以被集成在相同芯片上，或者可以经由芯片外（off-chip）接口被耦合到存储器控制器248。在一个实现中，存储器249包括gddr6存储器，所述gddr6存储器共享与其他物理系统级存储器相同的虚拟地址空间，虽然本发明的根本原理不限于此特定实现。
44.在一个实施例中，张量核244包括特别设计成执行矩阵运算的多个执行单元，所述矩阵运算是用来执行深度学习操作的基本计算操作。例如，同时矩阵乘法运算可以被用于神经网络训练和推理。张量核244可以使用各种操作数精度来执行矩阵处理，所述各种操作数精度包括单精度浮点（例如，32位）、半精度浮点（例如，16位）、整数字（16位）、字节（8位）和半字节（4位）。在一个实施例中，神经网络实现提取每个经渲染的场景的特征，潜在地组合来自多个帧的细节以构造高质量的最终图像。
45.在深度学习实现中，可以调度并行矩阵乘法工作以用于在张量核244上执行。神经网络的训练特别要求大量矩阵点积运算。为处理n x n x n矩阵相乘的内积公式，张量核244可以包括至少n个点积处理元件。在矩阵相乘开始前，一个完整矩阵被加载到贴片寄存器，并且在n个循环的每个循环，第二矩阵的至少一列被加载。在每个循环，存在被处理的n个点积。
46.取决于特定实现，可以以不同精度存储矩阵元素，所述不同精度包括16位字、8位字节（例如，int8）和4位半字节（例如，int4）。可以为张量核244指定不同精度模式以确保最高效的精度被用于不同工作负载（例如，诸如能够容许量化到字节和半字节的推理工作负载）。
47.在一个实施例中，光线追踪核245对于实时光线追踪和非实时光线追踪实现二者加速光线追踪操作。特别地，光线追踪核245包括光线遍历/交叉电路，以用于使用包围体层级（bvh）来执行光线遍历并且标识封围在bvh体之内的图元与光线之间的交叉。光线追踪核245还可以包括用于执行深度测试和剔除（例如，使用z缓冲器或类似布置）的电路。在一个实现中，光线追踪核245与本文中描述的图像去噪技术协同来执行遍历和交叉操作，其至少一部分可以在张量核244上执行。例如，在一个实施例中，张量核244实现深度学习神经网络以执行由光线追踪核245生成的帧的去噪。然而，（一个或多个）cpu 246、图形核243和/或光线追踪核245还可以实现去噪和/或深度学习算法的全部或一部分。
48.另外，如上所述，可以采用用来去噪的分布式方法，其中gpu 239在通过网络或高速互连耦合到其他计算装置的计算装置中。在该实施例中，互连的计算装置共享神经网络学习/训练数据来改进整个系统学习对不同类型的图像帧和/或不同的图形应用执行去噪所用的速度。
49.在一个实施例中，光线追踪核245处理所有bvh遍历和光线-图元交叉，从而使图形核243免于以每光线的数千个指令而过载。在一个实施例中，每个光线追踪核245包括用于执行包围盒测试（例如，以用于遍历操作）的专用电路的第一集合和用于执行光线-三角形交叉测试（例如，对已遍历的光线进行交叉）的专用电路的第二集合。因此，在一个实施例中，多核群组240a能够仅仅启动光线探头，并且光线追踪核245独立执行光线遍历和交叉并
且将命中数据（例如，命中、无命中、多个命中等）返回到线程上下文。在光线追踪核245执行遍历和交叉操作的同时，其他核243、244被释放以执行其他图形或计算工作。
50.在一个实施例中，每个光线追踪核245包括用来执行bvh测试操作的遍历单元和执行光线-图元交叉测试的交叉单元。交叉单元生成“命中”、“无命中”或“多个命中”响应，并且交叉单元将该响应提供到适当的线程。在遍历和交叉操作期间，其他核（例如，图形核243和张量核244）的执行资源被释放以执行其他形式的图形工作。
51.在下面描述的一个特定实施例中，使用了混合光栅化/光线追踪方法，其中在图形核243与光线追踪核245之间分布工作。
52.在一个实施例中，光线追踪核245（和/或其他核243、244）包括对诸如microsoft的directx光线追踪（dxr）之类的光线追踪指令集的硬件支持，所述dxr包括dispatchrays命令以及光线生成、最接近命中、任意命中和未命中着色器，这些使得能够对每个对象指派纹理和着色器的独特集合。可以由光线追踪核245、图形核243和张量核244支持的另一光线追踪平台是vulkan 1.1.85。然而，注意本发明的根本原理不限于任何特定光线追踪isa。
53.一般而言，各种核245、244、243可以支持光线追踪指令集，所述光线追踪指令集包括用于光线生成、最接近命中、任意命中、光线-图元交叉、每图元和层级包围盒构造、未命中、访问及异常（exception）的指令/功能。更具体地说，一个实施例包括用来执行以下功能的光线追踪指令：光线生成
ꢀ–ꢀ
可以对每个像素、样本或其他用户定义的工作指派执行光线生成指令。
54.最接近命中
ꢀ–ꢀ
可以执行最接近命中指令来用场景内的图元来定位光线的最接近交叉点。
55.任意命中
ꢀ–ꢀ
任意命中指令标识场景内的图元与光线之间的多个交叉，潜在地标识新的最接近交叉点。
56.交叉
ꢀ–ꢀ
交叉指令执行光线-图元交叉测试并且输出结果。
57.每图元包围盒构造
ꢀ–ꢀ
此指令围绕给定图元或图元的群组构建包围盒（例如，在构建新的bvh或其他加速数据结构时）。
58.未命中
ꢀ–ꢀ
指示光线未命中场景或场景的指定区域内的所有几何形状。
59.访问
ꢀ–ꢀ
指示光线将遍历的子体（children volume）。
60.异常
ꢀ–ꢀ
包括各种类型的异常处理程序（exception handler）（例如，针对各种错误条件而被调取）。
61.图2d是根据本文中描述的实施例的能够被配置为图形处理器和/或计算加速器的通用图形处理单元（gpgpu）270的框图。gpgpu 270能够经由一个或多个系统和/或存储器总线与主机处理器（例如，一个或多个cpu 246）和存储器271、272互连。在一个实施例中，存储器271是可以与一个或多个cpu 246共享的系统存储器，而存储器272是专用于gpgpu 270的装置存储器。在一个实施例中，装置存储器272和gpgpu 270内的组件可被映射到一个或多个cpu 246可访问的存储器地址中。可经由存储器控制器268来促进对存储器271和272的访问。在一个实施例中，存储器控制器268包括内部直接存储器存取（dma）控制器269，或者能够包括逻辑以执行在其他情况下将由dma控制器执行的操作。
62.gpgpu 270包括多个高速缓冲存储器，包括l2高速缓存253、l1高速缓存254、指令
高速缓存255和共享存储器256，该共享存储器256的至少一部分也可被分区为高速缓冲存储器。gpgpu 270还包括多个计算单元260a-260n。每个计算单元260a-260n包括向量寄存器261、标量寄存器262、向量逻辑单元263和标量逻辑单元264的集合。计算单元260a-260n还能够包括本地共享存储器265和程序计数器266。计算单元260a-260n能够与常量高速缓存267耦合，该常量高速缓存267能够被用来存储常量数据，所述常量数据是在gpgpu 270上执行的内核或着色器程序的运行期间将不改变的数据。在一个实施例中，常量高速缓存267是标量数据高速缓存，并且高速缓存的（cached）数据能够被直接获取到标量寄存器262中。
63.在操作期间，一个或多个cpu 246能够将命令写入已被映射到可访问地址空间中的gpgpu 270中的寄存器或存储器中。命令处理器257能够从寄存器或存储器读取命令，并且确定在gpgpu 270内将如何处理那些命令。线程分派器258然后能够被用来将线程分派到计算单元260a-260n以执行那些命令。每个计算单元260a-260n能够独立于其他计算单元执行线程。另外，每个计算单元260a-260n能够被独立配置用于有条件的计算，并且能够有条件地输出计算的结果到存储器。在提交的命令完成时，命令处理器257能够中断一个或多个cpu 246。
64.图3a-3c示出了由本文中描述的实施例提供的另外的图形处理器和计算加速器架构的框图。与本文中任何其他附图的元件具有相同参考标号（或名称）的图3a-3c的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。
65.图3a是图形处理器300的框图，该图形处理器300可以是分立的图形处理单元，或者可以是与多个处理核集成的图形处理器，或诸如但不限于存储器装置或网络接口的其他半导体装置。在一些实施例中，图形处理器经由到图形处理器上的寄存器的存储器映射i/o接口并且利用放置在处理器存储器中的命令进行通信。在一些实施例中，图形处理器300包括用来访问存储器的存储器接口314。存储器接口314能够是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存和/或到系统存储器的接口。
66.在一些实施例中，图形处理器300还包括用来将显示输出数据驱动到显示装置318的显示控制器302。显示控制器302包括用于一个或多个覆盖平面的硬件，以用于显示和组合多个层的视频或用户接口元件。显示装置318能够是内部或外部显示装置。在一个实施例中，显示装置318是头戴式显示装置，诸如虚拟现实（vr）显示装置或增强现实（ar）显示装置。在一些实施例中，图形处理器300包括视频编解码器引擎306以将媒体编码成一种或多种媒体编码格式、从一种或多种媒体编码格式解码媒体或在一种或多种媒体编码格式之间将媒体转码，所述媒体编码格式包括但不限于运动图像专家组（mpeg）格式（诸如mpeg-2）、高级视频编码（avc）格式（诸如h.264/mpeg-4 avc）、h.265/hevc、开放媒体联盟（aomedia）vp8、vp9、以及电影与电视工程师协会（smpte）421m/vc-1和联合图像专家组（jpeg）格式（诸如jpeg和运动jpeg（mjpeg）格式）。
67.在一些实施例中，图形处理器300包括用来执行二维（2d）光栅化器操作（包括例如位边界块传输）的块图像传输（blit）引擎304。然而，在一个实施例中，使用图形处理引擎（gpe）310的一个或多个组件来执行2d图形操作。在一些实施例中，gpe 310是用于执行包括三维（3d）图形操作和媒体操作的图形操作的计算引擎。
68.在一些实施例中，gpe 310包括用于执行3d操作的3d流水线312，所述3d操作诸如使用作用于3d图元形状（例如，矩形、三角形等）的处理功能来渲染三维图像和场景。3d流水
线312包括可编程和固定功能元件，所述可编程和固定功能元件在元件内执行各种任务和/或将执行线程派生（spawn）到3d/媒体子系统315。虽然3d流水线312能够被用来执行媒体操作，但gpe 310的实施例还包括特别用来执行媒体操作（诸如视频后处理和图像增强）的媒体流水线316。
69.在一些实施例中，媒体流水线316包括固定功能或可编程逻辑单元以代替或者代表视频编解码器引擎306来执行一个或多个专用媒体操作，诸如视频解码加速、视频去交织和视频编码加速。在一些实施例中，媒体流水线316另外包括线程派生单元以派生用于在3d/媒体子系统315上执行的线程。派生的线程在3d/媒体子系统315中包括的一个或多个图形执行单元上执行用于媒体操作的计算。
70.在一些实施例中，3d/媒体子系统315包括用于执行由3d流水线312和媒体流水线316派生的线程的逻辑。在一个实施例中，流水线将线程执行请求发送到3d/媒体子系统315，所述3d/媒体子系统315包括线程分派逻辑，以用于将各种请求仲裁（arbitrate）并分派到可用线程执行资源。执行资源包括用来处理3d和媒体线程的图形执行单元的阵列。在一些实施例中，3d/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中，子系统还包括共享存储器，所述共享存储器包括寄存器和可寻址存储器，以在线程之间共享数据和存储输出数据。
71.图3b示出了根据本文中描述的实施例的具有拼贴（tiled）架构的图形处理器320。在一个实施例中，图形处理器320包括图形处理引擎集群322，所述图形处理引擎集群322在图形引擎贴片310a-310d内具有图3a的图形处理引擎310的多个实例。每个图形引擎贴片310a-310d能够经由一组贴片互连323a-323f而互连267-。每个图形引擎贴片310a-310d还能够经由存储器互连325a-325d而连接到存储器模块或存储器装置326a-326d。存储器装置326a-326d能够使用任何图形存储器技术。例如，存储器装置326a-326d可以是图形双倍数据率（gddr）存储器。存储器装置326a-326d在一个实施例中是高带宽存储器（hbm）模块，其能够与其相应图形引擎贴片310a-310d一起在管芯上。在一个实施例中，存储器装置326a-326d是堆叠存储器装置，其能够被堆叠在其相应图形引擎贴片310a-310d的顶部上。在一个实施例中，如图11b-11d中进一步详细描述的，每个图形引擎贴片310a-310d和关联存储器326a-326d驻留在单独的小芯片（chiplet）上，所述小芯片被接合到基础管芯或基础衬底。
72.图形处理引擎集群322能够与片上或封装上组构互连324连接。组构互连324可实现在图形引擎贴片310a-310d与诸如视频编解码器306和一个或多个复制引擎304的组件之间的通信。复制引擎304能够被用来将数据移出以下各项、将数据移入以下各项以及在以下各项之间移动数据：存储器装置326a-326d和在图形处理器320外的存储器（例如，系统存储器）。组构互连324还能够被用来互连图形引擎贴片310a-310d。图形处理器320可以可选地包括用来实现与外部显示装置318的连接的显示控制器302。图形处理器还可以被配置为图形或计算加速器。在加速器配置中，可省略显示控制器302和显示装置318。
73.图形处理器320能够经由主机接口328连接到主机系统。主机接口328可实现在图形处理器320、系统存储器和/或其他系统组件之间的通信。主机接口328能够例如是pci express总线或另一类型的主机系统接口。
74.图3c示出了根据本文中描述的实施例的计算加速器330。计算加速器330能够包括与图3b的图形处理器320的架构类似性并且被优化用于计算加速。计算引擎集群332能够包
括一组计算引擎贴片340a-340d，其包括被优化用于并行或基于向量的通用计算操作的执行逻辑。在一些实施例中，计算引擎贴片340a-340d不包括固定功能图形处理逻辑，虽然在一个实施例中，计算引擎贴片340a-340d中的一个或多个计算引擎贴片能够包括用来执行媒体加速的逻辑。计算引擎贴片340a-340d能够经由存储器互连325a-325d连接到存储器326a-326d。存储器326a-326d和存储器互连325a-325d可以是与在图形处理器320中类似的技术，或者能够是不同的。图形计算引擎贴片340a-340d还能够经由一组贴片互连323a-323f而互连，并且可以与组构互连324连接和/或通过组构互连324而互连。在一个实施例中，计算加速器330包括能够被配置为装置范围高速缓存的大的l3高速缓存336。计算加速器330还能够以与图3b的图形处理器320类似的方式经由主机接口328连接到主机处理器和存储器。
75.图形处理引擎图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中，图形处理引擎（gpe）410是图3a中示出的gpe 310的某一版本，并且还可以表示图3b的图形引擎贴片310a-310d。与本文中任何其他附图的元件具有相同参考标号（或名称）的图4的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。例如，示出了图3a的3d流水线312和媒体流水线316。媒体流水线316在gpe 410的一些实施例中是可选的，并且可以未被显式地包括在gpe 410内。例如，并且在至少一个实施例中，单独的媒体和/或图像处理器被耦合到gpe 410。
76.在一些实施例中，gpe 410与提供命令流到3d流水线312和/或媒体流水线316的命令流转化器403耦合，或者包括该命令流转化器403。在一些实施例中，命令流转化器403与存储器耦合，所述存储器能够是系统存储器，或内部高速缓冲存储器和共享高速缓冲存储器中的一个或多个。在一些实施例中，命令流转化器403接收来自存储器的命令，并且将命令发送到3d流水线312和/或媒体流水线316。命令是从环形缓冲器获取的指示，所述环形缓冲器存储用于3d流水线312和媒体流水线316的命令。在一个实施例中，环形缓冲器能够另外包括存储批量的多个命令的批量命令缓冲器。用于3d流水线312的命令还能够包括对在存储器中存储的数据的引用，所述数据诸如但不限于用于3d流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3d流水线312和媒体流水线316通过经由相应流水线内的逻辑执行操作或者通过将一个或多个执行线程分派到图形核阵列414来处理命令和数据。在一个实施例中，图形核阵列414包括图形核（例如，（一个或多个）图形核415a、（一个或多个）图形核415b）的一个或多个块，每个块包括一个或多个图形核。每个图形核包括：一组图形执行资源，其包括用来执行图形和计算操作的通用和图形特定执行逻辑；以及固定功能纹理处理和/或机器学习和人工智能加速逻辑。
77.在各种实施例中，3d流水线312能够包括用来通过处理指令和分派执行线程到图形核阵列414来处理一个或多个着色器程序（诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序）的固定功能和可编程逻辑。图形核阵列414提供执行资源的统一块以供在处理这些着色器程序中使用。图形核阵列414的（一个或多个）图形核415a-415b内的多用途执行逻辑（例如，执行单元）包括对各种3d api着色器语言的支持，并且能够执行与多个着色器关联的多个同时执行线程。
78.在一些实施例中，图形核阵列414包括用来执行媒体功能（诸如视频和/或图像处
理）的执行逻辑。在一个实施例中，执行单元包括通用逻辑，该通用逻辑可编程以除图形处理操作外还执行并行通用计算操作。该通用逻辑能够与在图1的（一个或多个）处理器核107或如在图2a中的核202a-202n内的通用逻辑并行或结合地执行处理操作。
79.由在图形核阵列414上执行的线程生成的输出数据能够将数据输出到统一返回缓冲器（urb）418中的存储器。urb 418能够存储用于多个线程的数据。在一些实施例中，urb 418可以被用来在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中，urb 418可以另外被用于在图形核阵列上的线程与在共享功能逻辑420内的固定功能逻辑之间的同步。
80.在一些实施例中，图形核阵列414是可缩放的，使得该阵列包括可变数量的图形核，这些图形核各自基于gpe 410的目标功率和性能水平而具有可变数量的执行单元。在一个实施例中，执行资源是动态可缩放的，使得可以按需要来启用或禁用执行资源。
81.图形核阵列414与共享功能逻辑420耦合，该共享功能逻辑420包括在图形核阵列中的图形核之间共享的多个资源。在共享功能逻辑420内的共享功能是硬件逻辑单元，所述硬件逻辑单元提供专用补充功能性到图形核阵列414。在各种实施例中，共享功能逻辑420包括但不限于采样器421、数学422和线程间通信（itc）423逻辑。另外，一些实施例在共享功能逻辑420内实现一个或多个高速缓存425。
82.至少在其中对给定专用功能的需求不足以包含在图形核阵列414内的情况下，实现共享功能。该专用功能的单个实例化而是被实现为共享功能逻辑420中的独立实体，并且在图形核阵列414内的执行资源之间共享。在图形核阵列414内共享并且被包括在图形核阵列414内的功能的精确集合跨实施例而变化。在一些实施例中，由图形核阵列414广泛使用的共享功能逻辑420内的特定共享功能可以被包括在图形核阵列414内的共享功能逻辑416内。在各种实施例中，图形核阵列414内的共享功能逻辑416能够包括共享功能逻辑420内的一些或全部逻辑。在一个实施例中，可以在图形核阵列414的共享功能逻辑416内重复共享功能逻辑420内的全部逻辑元件。在一个实施例中，排除了共享功能逻辑420以有利于图形核阵列414内的共享功能逻辑416。
83.执行单元图5a-5b示出了根据本文中描述的实施例的包括图形处理器核中采用的处理元件的阵列的线程执行逻辑500。与本文中任何其他附图的元件具有相同参考标号（或名称）的图5a-5b的元件能够以本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。图5a-5b示出了线程执行逻辑500的概述，该线程执行逻辑500可以代表用图2b的每个子核221a-221f示出的硬件逻辑。图5a代表通用图形处理器内的执行单元，而图5b代表可在计算加速器内使用的执行单元。
84.如在图5a中所示出的，在一些实施例中，线程执行逻辑500包括着色器处理器502、线程分派器504、指令高速缓存506、包括多个执行单元508a-508n的可缩放执行单元阵列、采样器510、共享本地存储器511、数据高速缓存512和数据端口514。在一个实施例中，可缩放执行单元阵列能够通过基于工作负载的计算要求来启用或禁用一个或多个执行单元（例如，执行单元508a、508b、508c、508d直到508n-1和508n中的任何执行单元）来动态地进行缩放。在一个实施例中，被包括的组件经由链接到组件中的每个组件的互连组构而互连。在一些实施例中，线程执行逻辑500包括通过指令高速缓存506、数据端口514、采样器510和执行
单元508a-508n中的一个或多个到存储器（诸如系统存储器或高速缓冲存储器）的一个或多个连接。在一些实施例中，每个执行单元（例如，508a）是独立可编程通用计算单元，其能执行多个同时硬件线程，同时为每个线程并行处理多个数据元素。在各种实施例中，执行单元508a-508n的阵列是可缩放的，以包括任何数量的各个执行单元。
85.在一些实施例中，执行单元508a-508n主要被用来执行着色器程序。着色器处理器502能够处理各种着色器程序，并且经由线程分派器504分派与着色器程序关联的执行线程。在一个实施例中，线程分派器包括用来对来自图形和媒体流水线的线程发起请求进行仲裁并且在执行单元508a-508n中的一个或多个执行单元上实例化所请求的线程的逻辑。例如，几何流水线能够分派顶点、曲面细分（tessellation）或几何着色器到线程执行逻辑以用于处理。在一些实施例中，线程分派器504还能够处理来自执行的着色器程序的运行时间线程派生请求。
86.在一些实施例中，执行单元508a-508n支持指令集，所述指令集包括对许多标准3d图形着色器指令的本机支持，使得来自图形库（例如direct 3d和opengl）的着色器程序以最小的转换来执行。执行单元支持顶点和几何处理（例如顶点程序、几何程序、顶点着色器）、像素处理（例如像素着色器、片段着色器）和通用处理（例如计算和媒体着色器）。执行单元508a-508n中的每个执行单元能进行多发布（multi-issue）单指令多数据（simd）执行，并且多线程操作在面临更高时延存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程具有专用高带宽寄存器堆和关联的独立线程状态。执行是对能够进行整数、单精度和双精度浮点运算、simd分支能力、逻辑运算、超越运算和其他杂项运算的流水线的每时钟多发布。在等待来自存储器或共享功能之一的数据时，执行单元508a-508n内的依赖性逻辑使等待的线程休眠，直到所请求的数据已返回为止。当等待的线程正在休眠时，硬件资源可以专用于处理其他线程。例如，在与顶点着色器操作关联的延迟期间，执行单元能够执行用于像素着色器、片段着色器或另一类型的着色器程序（包括不同顶点着色器）的操作。各种实施例能够适用于通过作为使用simd的备选方案或者附加于使用simd来使用单指令多线程（simt）来使用执行。对simd核或操作的引用也能够适用于simt或者适用于与simt组合的simd。
87.执行单元508a-508n中的每个执行单元对数据元素的阵列进行操作。数据元素的数量是“执行大小”或用于指令的通道的数量。执行通道是用于指令内的数据元素访问、屏蔽（masking）和流控制的执行的逻辑单元。通道的数量可以独立于用于特定图形处理器的物理算术逻辑单元（alu）或浮点单元（fpu）的数量。在一些实施例中，执行单元508a-508n支持整数和浮点数据类型。
88.执行单元指令集包括simd指令。各种数据元素能够作为打包数据类型存储在寄存器中，并且执行单元将基于元素的数据大小来处理各种元素。例如，在对256位宽向量进行操作时，向量的256位被存储在寄存器中，并且执行单元对作为四个单独的54位打包数据元素（四字（qw）大小数据元素）、八个单独的32位打包数据元素（双字（dw）大小数据元素）、十六个单独的16位打包数据元素（字（w）大小数据元素）或三十二个单独的8位数据元素（字节（b）大小数据元素）的向量进行操作。然而，不同向量宽度和寄存器大小是可能的。
89.在一个实施例中，一个或多个执行单元能够被组合成具有线程控制逻辑（507a-507n）的融合执行单元509a-509n，该线程控制逻辑（507a-507n）对于融合eu是公共的。多个
eu能够融合成eu群组。融合eu群组中的每个eu能够配置成执行单独的simd硬件线程。融合eu群组中eu的数量能够根据实施例而变化。另外，能够每eu执行各种simd宽度，包括但不限于simd8、simd16和simd32。每个融合图形执行单元509a-509n包括至少两个执行单元。例如，融合执行单元509a包括第一eu 508a、第二eu 508b及线程控制逻辑507a，该线程控制逻辑507a对于第一eu 508a和第二eu 508b是公共的。线程控制逻辑507a控制在融合图形执行单元509a上执行的线程，允许融合执行单元509a-509n内的每个eu使用公共指令指针寄存器来执行。
90.线程执行逻辑500中包括一个或多个内部指令高速缓存（例如，506）以对用于执行单元的线程指令进行高速缓存。在一些实施例中，包括一个或多个数据高速缓存（例如，512）以在线程执行期间对线程数据进行高速缓存。在执行逻辑500上执行的线程还能够在共享本地存储器511中存储显式管理的数据。在一些实施例中，包括采样器510以提供用于3d操作的纹理采样和用于媒体操作的媒体采样。在一些实施例中，采样器510包括专用纹理或媒体采样功能性，以在向执行单元提供采样数据前在采样进程期间处理纹理或媒体数据。
91.在执行期间，图形和媒体流水线经由线程派生和分派逻辑向线程执行逻辑500发送线程发起请求。一旦几何对象的群组已被处理并且光栅化成像素数据，着色器处理器502内的像素处理器逻辑（例如，像素着色器逻辑、片段着色器逻辑等）便被调取来进一步计算输出信息，并且使结果被写入到输出表面（例如颜色缓冲器、深度缓冲器、模板缓冲器等）。在一些实施例中，像素着色器或片段着色器计算要跨光栅化对象内插的各种顶点属性的值。在一些实施例中，着色器处理器502内的像素处理器逻辑然后执行应用编程接口（api）供应的像素或片段着色器程序。为执行着色器程序，着色器处理器502经由线程分派器504向执行单元（例如，508a）分派线程。在一些实施例中，着色器处理器502使用采样器510中的纹理采样逻辑来访问存储在存储器中的纹理映射中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据，或者从进一步处理中丢弃一个或多个像素。
92.在一些实施例中，数据端口514提供存储器访问机制，以便线程执行逻辑500将经处理的数据输出至存储器以用于在图形处理器输出流水线上进一步处理。在一些实施例中，数据端口514包括或者耦合到一个或多个高速缓冲存储器（例如，数据高速缓存512）来对数据进行高速缓存以用于经由数据端口的存储器访问。
93.在一个实施例中，执行逻辑500还能够包括光线追踪器505，所述光线追踪器505能够提供光线追踪加速功能性。光线追踪器505能够支持包括用于光线生成的指令/功能的光线追踪指令集。该光线追踪指令集能够与图2c中的光线追踪核245所支持的光线追踪指令集类似或不同。
94.图5b示出了根据实施例的执行单元508的示例性内部细节。图形执行单元508能够包括指令获取单元537、通用寄存器堆阵列（grf）524、架构寄存器堆阵列（arf）526、线程仲裁器522、发送单元530、分支单元532、一组simd浮点单元（fpu）534以及在一个实施例中包括一组专用整数simd alu 535。grf 524和arf 526包括与可以在图形执行单元508中活动的每个同时硬件线程关联的一组通用寄存器堆和架构寄存器堆。在一个实施例中，在arf 526中维持每线程架构状态，而在线程执行期间使用的数据被存储在grf 524中。每个线程
的执行状态（包括用于每个线程的指令指针）能够被保持在arf 526中的线程特定寄存器中。
95.在一个实施例中，图形执行单元508具有是同时多线程（smt）和细粒度交错多线程（imt）的组合的架构。该架构具有模块化配置，其能够在设计时基于每执行单元的寄存器数量和同时线程的目标数量来被微调，其中执行单元资源跨用来执行多个同时线程的逻辑而被划分。可以由图形执行单元508执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。
96.在一个实施例中，图形执行单元508能够共同发布多个指令，所述多个指令各自可以是不同的指令。图形执行单元线程508的线程仲裁器522能够将指令分派给发送单元530、分支单元532或（一个或多个）simd fpu 534中的一个以用于执行。每个执行线程能够访问grf 524内的128个通用寄存器，其中每个寄存器能够存储32个字节，其可作为32位数据元素的simd 8元素向量访问。在一个实施例中，每个执行单元线程可以访问grf 524内的4千字节，虽然实施例不限于此，并且在其他实施例中可以提供更多或更少的寄存器资源。在一个实施例中，图形执行单元508被分区成能够独立执行计算操作的七个硬件线程，尽管每执行单元的线程的数量也可根据实施例而变化。例如，在一个实施例中支持多达16个硬件线程。在其中七个线程可以访问4千字节的实施例中，grf 524能够存储总共28千字节。在16个线程可以访问4千字节的情况下，grf 524能够存储总共64千字节。灵活的寻址模式能够允许对寄存器一起被寻址以有效地构建更宽的寄存器或者表示跨步矩形块数据结构（strided rectangular block data structure）。
97.在一个实施例中，经由通过消息传递发送单元530执行的“发送”指令来分派存储器操作、采样器操作和其他较长时延系统通信。在一个实施例中，将分支指令分派给专用分支单元532以促进simd发散和最终收敛。
98.在一个实施例中，图形执行单元508包括一个或多个simd浮点单元（（一个或多个）fpu）534以执行浮点运算。在一个实施例中，（一个或多个）fpu 534还支持整数计算。在一个实施例中，（一个或多个）fpu 534能够simd执行多达数量为m的32位浮点（或整数）运算，或者simd执行多达2m个16位整数或16位浮点运算。在一个实施例中，（一个或多个）fpu中的至少一个fpu提供扩展的数学能力以支持高吞吐量超越数学功能和双精度54位浮点。在一些实施例中，还存在一组8位整数simd alu 535，并且该组8位整数simd alu 535可以被特别地优化以执行与机器学习计算关联的运算。
99.在一个实施例中，图形执行单元508的多个实例的阵列能够在图形子核分组（例如，子切片）中被实例化。为了可缩放性，产品架构师能够选择每子核分组的执行单元的确切数量。在一个实施例中，执行单元508能够跨多个执行通道执行指令。在另外的实施例中，在图形执行单元508上执行的每个线程是在不同的通道上执行的。
100.图6示出了根据实施例的另外的执行单元600。执行单元600可以是供例如在如图3c中的计算引擎贴片340a-340d中使用的计算优化的执行单元，但未被限制为这样。执行单元600的变体还可以用于如图3b中的图形引擎贴片310a-310d中。在一个实施例中，执行单元600包括线程控制单元601、线程状态单元602、指令获取/预获取单元603和指令解码单元604。执行单元600另外包括寄存器堆606，所述寄存器堆606存储能够被指派到执行单元内的硬件线程的寄存器。执行单元600另外包括发送单元607和分支单元608。在一个实施例
中，发送单元607和分支单元608能够与图5b的图形执行单元508的发送单元530和分支单元532类似地操作。
101.执行单元600还包括计算单元610，所述计算单元610包括多个不同类型的功能单元。在一个实施例中，计算单元610包括alu单元611，所述alu单元611包括算术逻辑单元的阵列。alu单元611能够被配置成执行64位、32位和16位整数和浮点运算。整数和浮点运算可同时被执行。计算单元610还能够包括脉动阵列612和数学单元613。脉动阵列612包括能够用来以脉动方式执行向量或其他数据并行操作的数据处理单元的宽度w和深度d的网络。在一个实施例中，脉动阵列612能够被配置成执行矩阵运算，诸如矩阵点积运算。在一个实施例中，脉动阵列612支持16位浮点运算及8位和4位整数运算。在一个实施例中，脉动阵列612能够被配置成加速机器学习操作。在此类实施例中，脉动阵列612能够被配置有对bfloat 16位浮点格式的支持。在一个实施例中，能够包括数学单元613来以高效和比alu单元611更低功率的方式执行数学运算的特定子集。数学单元613能够包括可以在由其他实施例提供的图形处理引擎的共享功能逻辑中找到的数学逻辑的变体（例如，图4的共享功能逻辑420的数学逻辑422）。在一个实施例中，数学单元613能够被配置成执行32位和64位浮点运算。
102.线程控制单元601包括用来控制在执行单元内线程的执行的逻辑。线程控制单元601能够包括用来开始、停止和抢占执行单元600内线程的执行的线程仲裁逻辑。线程状态单元602能够用来为被指派在执行单元600上执行的线程存储线程状态。在执行单元600内存储线程状态使得能够在那些线程变为阻塞或空闲时快速抢占线程。指令获取/预获取单元603能够从更高等级执行逻辑的指令高速缓存（例如，如图5a中的指令高速缓存506）中获取指令。指令获取/预获取单元603还能够基于当前执行的线程的分析来发布对要被加载到指令高速缓存中的指令的预获取请求。指令解码单元604能够被用来解码要由计算单元执行的指令。在一个实施例中，指令解码单元604能够被用作次级解码器以将复杂指令解码成组成微操作（constituent micro-operation）。
103.执行单元600另外包括能够由在执行单元600上执行的硬件线程使用的寄存器堆606。能够跨用来执行在执行单元600的计算单元610内的多个同时线程的逻辑来划分寄存器堆606中的寄存器。可以由图形执行单元600执行的逻辑线程的数量不限于硬件线程的数量，并且多个逻辑线程能够被指派到每个硬件线程。寄存器堆606的大小能够基于支持的硬件线程的数量跨实施例而变化。在一个实施例中，寄存器重命名可用来动态分配寄存器到硬件线程。
104.图7是示出根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中，图形处理器执行单元支持具有采用多种格式的指令的指令集。实线框示出了一般被包括在执行单元指令中的组成部分，而虚线包括可选的或者仅被包括在指令的子集中的组成部分。在一些实施例中，描述和示出的指令格式700是宏指令，因为它们是供应给执行单元的指令，而与一旦指令被处理则由指令解码产生的微操作相反。
105.在一些实施例中，图形处理器执行单元本机地支持采用128位指令格式710的指令。基于所选择的指令、指令选项和操作数的数量，64位紧凑指令格式730可用于一些指令。本机128位指令格式710提供对所有指令选项的访问，而在64位格式730中一些选项和操作被限制。采用64位格式730的可用的本机指令随实施例而变化。在一些实施例中，使用索引字段713中的一组索引值来部分地压缩指令。执行单元硬件基于索引值来引用一组压缩表，
并且使用压缩表输出来重构采用128位指令格式710的本机指令。能够使用指令的其他大小和格式。
106.对于每种格式，指令操作码712定义执行单元要执行的操作。执行单元跨每个操作数的多个数据元素并行执行每个指令。例如，响应于相加指令，执行单元跨表示纹理元素或图片元素的每个颜色通道来执行同时相加运算。默认情况下，执行单元跨操作数的所有数据通道来执行每个指令。在一些实施例中，指令控制字段714实现对诸如通道选择（例如，断定（predication））和数据通道次序（例如，搅混（swizzle））之类的某些执行选项的控制。对于采用128位指令格式710的指令，执行大小字段716限制将被并行执行的数据通道的数量。在一些实施例中，执行大小字段716不可用于在64位紧凑指令格式730中使用。
107.一些执行单元指令具有多达三个操作数，这三个操作数包括两个源操作数、src0 720、src1 722和一个目的地718。在一些实施例中，执行单元支持双目的地指令，其中目的地之一是隐含的。数据操纵指令能够具有第三源操作数（例如src2 724），其中指令操作码712确定源操作数的数量。指令的最后源操作数能够是利用指令传递的立即（例如，硬编码的）值。
108.在一些实施例中，128位指令格式710包括访问/地址模式字段726，该访问/地址模式字段726指定例如使用直接寄存器寻址模式还是间接寄存器寻址模式。在使用直接寄存器寻址模式时，由指令中的位来直接提供一个或多个操作数的寄存器地址。
109.在一些实施例中，128位指令格式710包括访问/地址模式字段726，该访问/地址模式字段726指定指令的地址模式和/或访问模式。在一个实施例中，访问模式被用来定义指令的数据访问对齐。一些实施例支持包括16字节对齐的访问模式和1字节对齐的访问模式的访问模式，其中访问模式的字节对齐确定指令操作数的访问对齐。例如，当处于第一模式中时，指令可将字节对齐的寻址用于源操作数和目的地操作数，并且当处于第二模式中时，指令可将16字节对齐的寻址用于所有源操作数和目的地操作数。
110.在一个实施例中，访问/地址模式字段726的地址模式部分确定指令将使用直接寻址还是间接寻址。在使用直接寄存器寻址模式时，指令中的位直接提供一个或多个操作数的寄存器地址。在使用间接寄存器寻址模式时，可以基于指令中的地址寄存器值和地址立即字段来计算一个或多个操作数的寄存器地址。
111.在一些实施例中，基于操作码712位字段对指令进行分组，以简化操作码解码740。对于8位操作码，4、5和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例。在一些实施例中，移动和逻辑操作码群组742包括数据移动和逻辑指令（例如，移动（mov）、比较（cmp））。在一些实施例中，移动和逻辑群组742共享五个最高有效位（msb），其中移动（mov）指令采用0000xxxxb的形式，并且逻辑指令采用0001xxxxb的形式。流控制指令群组744（例如调用、跳（jmp））包括采用0010xxxxb（例如，0x20）形式的指令。杂项指令群组746包括指令的混合，包括采用0011xxxxb（例如0x30）形式的同步指令（例如等待、发送）。并行数学指令群组748包括采用0100xxxxb（例如0x40）形式的逐组成部分的算术指令（例如，加、乘（mul））。并行数学群组748跨数据通道并行执行算术运算。向量数学群组750包括采用0101xxxxb（例如，0x50）形式的算术指令（例如，dp4）。向量数学群组对向量操作数执行诸如点积计算的算术。示出的操作码解码740在一个实施例中能够用来确定执行单元的哪个部分将被用来执行解码的指令。例如，一些指令可被指定为将由脉动阵列执行的脉动指令。诸
如光线追踪指令（未示出）的其他指令能够被路由到执行逻辑的切片或分区内的光线追踪核或光线追踪逻辑。
112.图形流水线图8是图形处理器800的另一实施例的框图。与本文中任何其他附图的元件具有相同参考标号（或名称）的图8的元件能够以与本文中其他地方所描述的方式类似的任何方式操作或起作用，但不限于这样。
113.在一些实施例中，图形处理器800包括几何流水线820、媒体流水线830、显示引擎840、线程执行逻辑850和渲染输出流水线870。在一些实施例中，图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。通过对一个或多个控制寄存器（未示出）的寄存器写入或者经由经过环形互连802发布至图形处理器800的命令来控制图形处理器。在一些实施例中，环形互连802将图形处理器800耦合到其他处理组件，诸如其他图形处理器或通用处理器。来自环形互连802的命令由命令流转化器803解译，该命令流转化器803将指令供应至几何流水线820或媒体流水线830的各个组件。
114.在一些实施例中，命令流转化器803指导顶点获取器805的操作，该顶点获取器805从存储器读取顶点数据并执行由命令流转化器803提供的顶点处理命令。在一些实施例中，顶点获取器805将顶点数据提供给顶点着色器807，该顶点着色器807对每个顶点执行坐标空间变换和照明操作。在一些实施例中，顶点获取器805和顶点着色器807通过经由线程分派器831向执行单元852a-852b分派执行线程来执行顶点处理指令。
115.在一些实施例中，执行单元852a-852b是具有用于执行图形和媒体操作的指令集的向量处理器的阵列。在一些实施例中，执行单元852a-852b具有附连的l1高速缓存851，所述l1高速缓存851特定于每个阵列，或者在阵列之间共享。高速缓存能够被配置为数据高速缓存、指令高速缓存或被分区以在不同分区中包含数据和指令的单个高速缓存。
116.在一些实施例中，几何流水线820包括曲面细分组件以执行3d对象的硬件加速的曲面细分。在一些实施例中，可编程外壳着色器（programmable hull shader）811配置曲面细分操作。可编程域着色器817提供曲面细分输出的后端评估。曲面细分器813在外壳着色器811的指导下进行操作，并且包含专用逻辑以基于作为到几何流水线820的输入而提供的粗略几何模型来生成一组详细的几何对象。在一些实施例中，如果未使用曲面细分，则能够绕过曲面细分组件（例如，外壳着色器811、曲面细分器813和域着色器817）。
117.在一些实施例中，完整几何对象能够由几何着色器819经由分派给执行单元852a-852b的一个或多个线程来处理，或者能够直接行进至裁剪器（clipper）829。在一些实施例中，几何着色器对整个几何对象进行操作，而不是如在图形流水线的先前级中那样对顶点或顶点的补片（patch）进行操作。如果曲面细分被禁用，则几何着色器819接收来自顶点着色器807的输入。在一些实施例中，几何着色器819可由几何着色器程序编程以在曲面细分单元被禁用时执行几何曲面细分。
118.在光栅化前，裁剪器829处理顶点数据。裁剪器829可以是具有裁剪和几何着色器功能的可编程裁剪器或固定功能裁剪器。在一些实施例中，渲染输出流水线870中的光栅化器和深度测试组件873分派像素着色器以将几何对象转换成每像素表示。在一些实施例中，像素着色器逻辑被包括在线程执行逻辑850中。在一些实施例中，应用能够绕过光栅化器和深度测试组件873，并且经由流输出单元823访问未光栅化的顶点数据。
119.图形处理器800具有允许数据和消息在处理器的主要组件之间传递的互连总线、互连组构或某种其他互连机构。在一些实施例中，执行单元852a-852b和关联的逻辑单元（例如，l1高速缓存851、采样器854、纹理高速缓存858等）经由数据端口856互连，以执行存储器访问并且与处理器的渲染输出流水线组件进行通信。在一些实施例中，采样器854、高速缓存851、858和执行单元852a-852b各自具有单独的存储器访问路径。在一个实施例中，纹理高速缓存858还能够被配置为采样器高速缓存。
120.在一些实施例中，渲染输出流水线870包含光栅化器和深度测试组件873，其将基于顶点的对象转换成关联的基于像素的表示。在一些实施例中，光栅化器逻辑包括用来执行固定功能三角形和线光栅化的窗口化器（windower）/掩蔽器单元。关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作组件877对数据执行基于像素的操作，尽管在一些实例中，与2d操作关联的像素操作（例如，带有混合（blending）的位块图像传输）由2d引擎841执行，或者在显示时由显示控制器843使用覆盖显示平面代替。在一些实施例中，共享l3高速缓存875对于全部图形组件是可用的，从而允许在不使用主系统存储器的情况下共享数据。
121.在一些实施例中，图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中，视频前端834接收来自命令流转化器803的流水线命令。在一些实施例中，媒体流水线830包括单独的命令流转化器。在一些实施例中，视频前端834在将命令发送至媒体引擎837之前处理媒体命令。在一些实施例中，媒体引擎837包括线程派生功能性来派生线程，以便经由线程分派器831分派到线程执行逻辑850。
122.在一些实施例中，图形处理器800包括显示引擎840。在一些实施例中，显示引擎840在处理器800的外部，并且经由环形互连802或某一其他互连总线或组构与图形处理器耦合。在一些实施例中，显示引擎840包括2d引擎841和显示控制器843。在一些实施例中，显示引擎840包含能独立于3d流水线操作的专用逻辑。在一些实施例中，显示控制器843与显示装置（未示出）耦合，该显示装置可以是系统集成的显示装置（如在膝上型计算机中），或者可以是经由显示装置连接器附连的外部显示装置。
123.在一些实施例中，几何流水线820和媒体流水线830可配置成基于多个图形和媒体编程接口来执行操作，并且不特定于任何一个应用编程接口（api）。在一些实施例中，用于图形处理器的驱动器软件将特定于特定图形或媒体库的api调用转换成能够由图形处理器处理的命令。在一些实施例中，为全部来自khronos group的开放图形库（opengl）、开放计算语言（opencl）和/或vulkan图形和计算api提供支持。在一些实施例中，还可以为来自微软公司的direct3d库提供支持。在一些实施例中，可支持这些库的组合。还可以为开源计算机视觉库（opencv）提供支持。如果能够进行从未来api的流水线到图形处理器的流水线的映射，则具有可兼容3d流水线的未来api也将被支持。
124.图形流水线编程图9a是示出根据一些实施例的图形处理器命令格式900的框图。图9b是示出根据实施例的图形处理器命令序列910的框图。图9a中的实线框示出了一般被包括在图形命令中的组成部分，而虚线包括可选的或者仅被包括在图形命令的子集中的组成部分。图9a的示例性图形处理器命令格式900包括用来标识命令的客户端902、命令操作代码（操作码）904和数据906的数据字段。一些命令中还包括子操作码905和命令大小908。
125.在一些实施例中，客户端902指定处理命令数据的图形装置的客户端单元。在一些实施例中，图形处理器命令解析器检查每个命令的客户端字段以调节命令的进一步处理，并且将命令数据路由到适当的客户端单元。在一些实施例中，图形处理器客户端单元包括存储器接口单元、渲染单元、2d单元、3d单元和媒体单元。每个客户端单元具有处理命令的对应处理流水线。一旦客户端单元接收到命令，客户端单元便读取操作码904和子操作码905（如果子操作码905存在的话），以确定要执行的操作。客户端单元使用数据字段906中的信息来执行命令。对于一些命令，预期显式命令大小908来指定命令的大小。在一些实施例中，命令解析器基于命令操作码来自动确定命令中的至少一些命令的大小。在一些实施例中，经由双字的倍数来对齐命令。能够使用其他命令格式。
126.图9b中的流程图示出了示例性图形处理器命令序列910。在一些实施例中，以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来设置、执行和终止一组图形操作。仅出于示例的目的示出并描述了样本命令序列，因为实施例不限于这些特定命令或此命令序列。另外，命令可作为命令序列中的批量的命令被发布，使得图形处理器将至少部分并发地处理命令的序列。
127.在一些实施例中，图形处理器命令序列910可以以流水线转储清除命令（pipeline flush command）912开始，以促使任何活动的图形流水线完成该流水线的当前未决命令。在一些实施例中，3d流水线922和媒体流水线924没有并发地操作。执行流水线转储清除以促使活动的图形流水线完成任何未决命令。响应于流水线转储清除，用于图形处理器的命令解析器将暂停命令处理，直至活动的绘图引擎完成未决操作并且相关的读取高速缓存失效。可选地，能够将渲染高速缓存中标记为“脏”的任何数据转储清除到存储器。在一些实施例中，流水线转储清除命令912能够被用于流水线同步，或者在将图形处理器置于低功率状态前被使用。
128.在一些实施例中，在命令序列要求图形处理器在流水线之间显式地切换时，使用流水线选择命令913。在一些实施例中，除非上下文将为两个流水线发布命令，否则在发布流水线命令前，在执行上下文内仅要求一次流水线选择命令913。在一些实施例中，紧接在经由流水线选择命令913的流水线切换之前，要求流水线转储清除命令912。
129.在一些实施例中，流水线控制命令914配置图形流水线以用于操作，并且被用来对3d流水线922和媒体流水线924进行编程。在一些实施例中，流水线控制命令914为活动的流水线配置流水线状态。在一个实施例中，流水线控制命令914被用于流水线同步，并且在处理一批命令前从活动的流水线内的一个或多个高速缓冲存储器中清除数据。
130.在一些实施例中，返回缓冲器状态命令916被用来为相应流水线配置一组返回缓冲器以写入数据。一些流水线操作要求分配、选择或配置一个或多个返回缓冲器，在处理期间这些操作将中间数据写入到所述一个或多个返回缓冲器中。在一些实施例中，图形处理器还使用一个或多个返回缓冲器来存储输出数据并且执行跨线程通信。在一些实施例中，返回缓冲器状态916包括选择要用于一组流水线操作的返回缓冲器的大小和数量。
131.命令序列中的剩余命令基于用于操作的活动流水线而不同。基于流水线确定920，将命令序列定制到以3d流水线状态930开始的3d流水线922或者在媒体流水线状态940开始的媒体流水线924。
132.用来配置3d流水线状态930的命令包括3d状态设置命令，其用于在处理3d图元命
令之前要配置的顶点缓冲器状态、顶点元素状态、恒定颜色状态、深度缓冲器状态以及其他状态变量。至少部分基于使用中的特定3d api来确定这些命令的值。在一些实施例中，如果将不使用某些流水线元件，则3d流水线状态930命令还能够选择性地禁用或绕过那些元件。
133.在一些实施例中，3d图元932命令被用来提交要由3d流水线处理的3d图元。经由3d图元932命令传递到图形处理器的命令和关联参数被转发到图形流水线中的顶点获取功能。顶点获取功能使用3d图元932命令数据来生成顶点数据结构。顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中，3d图元932命令被用来经由顶点着色器对3d图元执行顶点操作。为处理顶点着色器，3d流水线922将着色器执行线程分派到图形处理器执行单元。
134.在一些实施例中，经由执行934命令或事件来触发3d流水线922。在一些实施例中，寄存器写入触发命令执行。在一些实施例中，经由命令序列中的“go”或“kick”命令来触发执行。在一个实施例中，使用用来转储清除通过图形流水线的命令序列的流水线同步命令来触发命令执行。3d流水线将执行用于3d图元的几何处理。一旦操作完成，所得到的几何对象便被光栅化，并且像素引擎对所得到的像素进行上色。对于那些操作，还可以包括用来控制像素着色和像素后端操作的另外的命令。
135.在一些实施例中，在执行媒体操作时，图形处理器命令序列910沿着媒体流水线924路径。一般而言，用于媒体流水线924的编程的特定使用和方式取决于要执行的媒体或计算操作。可以在媒体解码期间将特定媒体解码操作卸载到媒体流水线。在一些实施例中，还能够绕过媒体流水线，并且能够使用由一个或多个通用处理核提供的资源来全部或部分地执行媒体解码。在一个实施例中，媒体流水线还包括用于通用图形处理器单元（gpgpu）操作的元件，其中图形处理器被用于使用计算着色器程序来执行simd向量运算，所述计算着色器程序与图形图元的渲染不是明确相关的。
136.在一些实施例中，以与3d流水线922类似的方式对媒体流水线924进行配置。将用来配置媒体流水线状态940的一组命令分派或放置到在媒体对象命令942之前的命令队列中。在一些实施例中，用于媒体流水线状态940的命令包括用来配置媒体流水线元件的数据，所述媒体流水线元件将被用来处理媒体对象。这包括用来配置媒体流水线内的视频解码和视频编码逻辑的数据，诸如编码和解码格式。在一些实施例中，用于媒体流水线状态940的命令还支持使用到包含一批状态设置的“间接”状态元素的一个或多个指针。
137.在一些实施例中，媒体对象命令942将指针供应到媒体对象以便由媒体流水线处理。媒体对象包括存储器缓冲器，所述存储器缓冲器包含要处理的视频数据。在一些实施例中，在发布媒体对象命令942之前，所有媒体流水线状态必须是有效的。一旦配置了流水线状态，并且将媒体对象命令942排队，便经由执行命令944或等效执行事件（例如，寄存器写入）来触发媒体流水线924。然后可以通过由3d流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中，以与媒体操作类似的方式配置和执行gpgpu操作。
138.图形软件架构图10示出了根据一些实施例的用于数据处理系统1000的示例性图形软件架构。在一些实施例中，软件架构包括3d图形应用1010、操作系统1020和至少一个处理器1030。在一些实施例中，处理器1030包括图形处理器1032和一个或多个通用处理器核1034。图形应用
1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
139.在一些实施例中，3d图形应用1010包含一个或多个着色器程序，该一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用高级着色器语言，诸如direct3d的高级着色器语言（hlsl）或opengl着色器语言（glsl）等等。应用还包括采用适合由通用处理器核1034执行的机器语言的可执行指令1014。应用还包括由顶点数据定义的图形对象1016。
140.在一些实施例中，操作系统1020是来自微软公司的microsoft
®ꢀ
windows
®
操作系统、专有的类unix操作系统或使用linux内核的变体的开源类unix操作系统。操作系统1020能够支持图形api 1022，诸如direct3d api、opengl api或vulkan api。当direct3d api在使用中时，操作系统1020使用前端着色器编译器1024来将采用hlsl的任何着色器指令1012编译成更低级着色器语言。编译可以是即时（jit）编译或者应用能够执行着色器预编译。在一些实施例中，在3d图形应用1010的编译期间将高级着色器编译成低级着色器。在一些实施例中，以中间形式（诸如由vulkan api使用的标准可移植中间表示（spir）的版本）提供着色器指令1012。
141.在一些实施例中，用户模式图形驱动器1026包含用来将着色器指令1012转换成硬件特定表示的后端着色器编译器1027。当opengl api在使用中时，将采用glsl高级语言的着色器指令1012传递到用户模式图形驱动器1026以用于编译。在一些实施例中，用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中，内核模式图形驱动器1029与图形处理器1032进行通信以分派命令和指令。
142.ip核实现至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码来实现，该代表性代码表示和/或定义诸如处理器的集成电路内的逻辑。例如，机器可读介质可以包括表示处理器内的各种逻辑的指令。在由机器读取时，指令可以促使机器制作逻辑以执行本文中描述的技术。称为“ip核”的此类表示是用于集成电路的逻辑的可重复使用单元，其可以作为对集成电路的结构进行描述的硬件模型而被存储在有形机器可读介质上。可以将硬件模型供应至各种客户或制造设施，所述客户或制造设施将硬件模型加载在制造集成电路的制作机器上。可制作集成电路，使得电路执行与本文中描述的实施例中的任何实施例关联地描述的操作。
143.图11a是示出根据实施例的可被用来制造集成电路以执行操作的ip核开发系统1100的框图。ip核开发系统1100可以被用来生成能够被并入到更大的设计中或被用来构造整个集成电路（例如，soc集成电路）的模块化、可重复使用设计。设计设施1130能够生成采用高级编程语言（例如，c/c ）的ip核设计的软件仿真1110。软件仿真1110能够被用于使用仿真模型1112来设计、测试和验证ip核的行为。仿真模型1112可以包括功能、行为和/或时序仿真。然后能够从仿真模型1112创建或合成寄存器传输级（rtl）设计1115。rtl设计1115是对硬件寄存器之间的数字信号流进行建模的集成电路的行为的抽象，包括使用建模的数字信号执行的相关联逻辑。除rtl设计1115外，还可以创建、设计或合成处于逻辑级或晶体管级的较低级设计。因此，初始设计和仿真的特定细节可以不同。
144.可以由设计设施将rtl设计1115或等效物进一步合成为硬件模型1120，该硬件模
型1120可以采用硬件描述语言（hdl）或物理设计数据的某种其他表示。可以进一步对hdl进行仿真或测试以验证ip核设计。能够使用非易失性存储器1140（例如，硬盘、闪速存储器或任何非易失性存储介质）来存储ip核设计以用于递送到第三方制作设施1165。备选地，可以通过有线连接1150或无线连接1160（例如经由因特网）来传送ip核设计。制作设施1165然后可以制作至少部分基于ip核设计的集成电路。制作的集成电路能够被配置成执行根据本文中描述的至少一个实施例的操作。
145.图11b示出了根据本文中描述的一些实施例的集成电路封装组装件1170的截面侧视图。集成电路封装组装件1170示出了如本文中描述的一个或多个处理器或加速器装置的实现。封装组装件1170包括连接到衬底1180的多个硬件逻辑单元1172、1174。逻辑1172、1174可以至少部分地在可配置逻辑或固定功能性逻辑硬件中实现，并且能够包括本文中描述的（一个或多个）处理器核、（一个或多个）图形处理器或其他加速器装置中的任何装置的一个或多个部分。逻辑1172、1174的每个单元能够在半导体管芯内实现，并且经由互连结构1173与衬底1180耦合。互连结构1173可以被配置成在逻辑1172、1174与衬底1180之间路由电信号，并且能够包括互连，诸如但不限于凸块或柱。在一些实施例中，互连结构1173可以被配置成路由电信号，诸如，例如与逻辑1172、1174的操作关联的输入/输出（i/o）信号和/或功率或接地信号。在一些实施例中，衬底1180是环氧基层压衬底。在其他实施例中，衬底1180可以包括其他适合类型的衬底。封装组装件1170能够经由封装互连1183被连接到其他电装置。封装互连1183可以被耦合到衬底1180的表面，以将电信号路由到其他电装置，诸如母板、其他芯片组或多芯片模块。
146.在一些实施例中，逻辑单元1172、1174与桥1182电耦合，该桥1182被配置成在逻辑1172、1174之间路由电信号。桥1182可以是为电信号提供路由的密集互连结构。桥1182可以包括由玻璃或合适的半导体材料构成的桥衬底。能够在桥衬底上形成电路由特征，以在逻辑1172、1174之间提供芯片到芯片连接。
147.虽然示出了两个逻辑单元1172、1174和桥1182，但是本文中描述的实施例可以包括在一个或多个管芯上的更多或更少逻辑单元。由于当逻辑被包括在单个管芯上时可以排除桥1182，因此可以通过零个或多于零个桥来连接一个或多个管芯。备选的是，能够通过一个或多个桥来连接多个管芯或逻辑单元。另外，在其他可能配置（包括三维配置）中能够将多个逻辑单元、管芯和桥连接在一起。
148.图11c示出了包括连接到衬底1180（例如，基础管芯）的多个硬件逻辑小芯片单元的封装组装件1190。如本文中所述的图形处理单元、并行处理器和/或计算加速器能够由单独制造的多样化的硅小芯片构成。在此上下文中，小芯片是至少部分封装的集成电路，其包括能够与其他小芯片一起组装到更大封装中的不同的逻辑单元。带有不同ip核逻辑的小芯片的多样化集合能够被组装到单个装置中。另外，能够使用有源中介层技术将小芯片集成到基础管芯或基础小芯片中。本文中描述的概念实现在gpu内的不同形式的ip之间的互连和通信。能够使用不同工艺技术来制造并且在制造期间构成ip核，这避免了将多个ip（特别是在带有若干特点（flavors）ip的大的soc上）汇聚到相同制造工艺的复杂性。使得能够使用多个工艺技术改进了推向市场的时间，并且提供了创建多个产品sku的有成本效益的方式。另外，解聚的ip更易于被独立地功率门控，在给定工作负载上不在使用中的组件能够被断电，从而降低总体功率消耗。
149.硬件逻辑小芯片能够包括专用硬件逻辑小芯片1172、逻辑或i/o小芯片1174和/或存储器小芯片1175。硬件逻辑小芯片1172和逻辑或i/o小芯片1174可以至少部分地在可配置逻辑或固定功能性逻辑硬件中实现，并且能够包括（一个或多个）处理器核、（一个或多个）图形处理器、并行处理器或本文中描述的其他加速器装置中的任何一项的一个或多个部分。存储器小芯片1175能够是dram（例如，gddr、hbm）存储器或高速缓冲（sram）存储器。
150.每个小芯片能够被制作为单独的半导体管芯，并且经由互连结构1173与衬底1180耦合。互连结构1173可被配置成在各种小芯片与衬底1180内的逻辑之间路由电信号。互连结构1173能够包括互连，诸如但不限于凸块或柱。在一些实施例中，互连结构1173可以被配置成路由电信号，诸如，例如与逻辑、i/o和存储器小芯片的操作关联的输入/输出（i/o）信号和/或功率或接地信号。
151.在一些实施例中，衬底1180是环氧基层压衬底。在其他实施例中，衬底1180可以包括其他适合类型的衬底。封装组装件1190能够经由封装互连1183连接到其他电装置。封装互连1183可以被耦合到衬底1180的表面，以将电信号路由到其他电装置，诸如母板、其他芯片组或多芯片模块。
152.在一些实施例中，逻辑或i/o小芯片1174和存储器小芯片1175能够经由桥1187电耦合，该桥1187被配置成在逻辑或i/o小芯片1174与存储器小芯片1175之间路由电信号。桥1187可以是为电信号提供路由的密集互连结构。桥1187可以包括由玻璃或合适的半导体材料构成的桥衬底。能够在桥衬底上形成电路由特征，以在逻辑或i/o小芯片1174与存储器小芯片1175之间提供芯片到芯片连接。桥1187还可以被称为硅桥或互连桥。例如，在一些实施例中，桥1187是嵌入式多管芯互连桥（emib）。在一些实施例中，桥1187可以只是从一个小芯片到另一小芯片的直接连接。
153.衬底1180能够包括用于i/o 1191、高速缓冲存储器1192和其他硬件逻辑1193的硬件组件。组构1185能够被嵌入在衬底1180中以实现在各种逻辑小芯片与衬底1180内的逻辑1191、1193之间的通信。在一个实施例中，i/o 1191、组构1185、高速缓存、桥和其他硬件逻辑1193能够被集成到基础管芯中，该基础管芯层叠在衬底1180的顶部上。
154.在各种实施例中，封装组装件1190能够包括由组构1185或一个或多个桥1187互连的更少或更多数量的组件和小芯片。封装组装件1190内的小芯片可被布置在3d或2.5d布置中。一般而言，桥结构1187可以被用来促进在例如逻辑或i/o小芯片与存储器小芯片之间的点到点互连。组构1185能够被用来将各种逻辑和/或i/o小芯片（例如，小芯片1172、1174、1191、1193）与其他逻辑和/或i/o小芯片互连。在一个实施例中，衬底内的高速缓冲存储器1192能够充当用于封装组装件1190的全局高速缓存、分布式全局高速缓存的一部分或者充当用于组构1185的专用高速缓存。
155.图11d示出了根据实施例的包括可互换小芯片1195的封装组装件1194。可互换小芯片1195能够被组装到一个或多个基础小芯片1196、1198上的标准化槽中。基础小芯片1196、1198能够经由桥互连1197耦合，该桥互连1197互连能够类似于本文中描述的其他桥互连，并且可以例如是emib。存储器小芯片还能够经由桥互连而连接到逻辑或i/o小芯片。i/o和逻辑小芯片能够经由互连组构进行通信。基础小芯片能够各自支持采用标准化格式的一个或多个槽以用于逻辑或i/o或存储器/高速缓存之一。
156.在一个实施例中，能够将sram和功率递送电路制作到基础小芯片1196、1198中的
1320a-1320b为图形处理器1310（包括为顶点处理器1305和/或（一个或多个）片段处理器1315a-1315n）提供虚拟地址到物理地址映射，这些处理器除了在一个或多个高速缓存1325a-1325b中存储的顶点或图像/纹理数据之外还可以引用在存储器中存储的顶点或图像/纹理数据。在一个实施例中，一个或多个mmu 1320a-1320b可以与系统内的其他mmu同步，所述其他mmu包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220关联的一个或多个mmu，使得每个处理器1205-1220能够参与到共享或统一虚拟存储器系统中。根据实施例，一个或多个电路互连1330a-1330b使得图形处理器1310能够经由soc的内部总线或者经由直接连接来与soc内的其他ip核通过接口交互。
162.如图14所示出的，图形处理器1340包括图13的图形处理器1310的一个或多个mmu 1320a-1320b、（一个或多个）高速缓存1325a-1325b和（一个或多个）电路互连1330a-1330b。图形处理器1340包括提供统一着色器核架构的一个或多个着色器核1355a-1355n（例如，1355a、1355b、1355c、1355d、1355e、1355f直到1355n-1和1355n），在该统一着色器核架构中单个核或单个类型的核能够执行全部类型的可编程着色器代码，包括用来实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。存在的着色器核的确切数量能够在实施例和实现之间变化。另外，图形处理器1340包括：核间任务管理器1345，该核间任务管理器1345充当用来将执行线程分派给一个或多个着色器核1355a-1355n的线程分派器；以及用来为基于贴片的渲染加速拼贴操作（tiling operation）的拼贴单元1358，在该基于贴片的渲染中，用于场景的渲染操作在图像空间中被细分，例如以利用场景内的局部空间相干性或优化内部高速缓存的使用。
163.用于增强图形渲染真实感的设备和方法本发明的实施例使用机器学习来增强图形流水线的图像渲染。虽然下面描述的一些实施例集中于在传统的渲染流水线（例如，光栅化流水线）中使用机器学习，但是本发明的基本原理可以在各种其他渲染流水线（例如，光线追踪流水线）上实现。另外，虽然在一个实现中将卷积神经网络（cnn）用于机器学习，但是也可以使用各种其它类型的机器学习。在一些实施例中，图形渲染应用是体积视频或云游戏实现。然而，注意，本文描述的技术可以用于在任何类型的应用上执行真实感渲染。
164.在一个实施例中，使用cnn来执行图像后处理，所述cnn利用关于渲染引擎已知的虚拟场景的知识（例如，几何形状、材料、光照）和呈现给网络的真实世界视频镜头。cnn增强了由渲染引擎渲染的图像的真实感。注意，这些技术不要求在图形渲染应用中遇到的虚拟场景与真实世界镜头之间的直接对应。
165.图15a示出了实现纹素（texel）着色的常规图形流水线1500。为了简洁，可能不在这里讨论或重复先前讨论的细节中的许多细节。输入汇编器（ia）1501从存储器读取索引和顶点数据，并将其馈送到顶点着色器（vs）1503。顶点着色器1503执行对每个顶点的着色操作，诸如将虚拟空间中的每个顶点的三维（3d）位置改变为裁剪空间中的三维同构位置，其在透视分割之后定义其在屏幕上出现的二维（2d）坐标并且生成采用图元（例如，三角形）形式的结果。
166.下一级包括外壳着色器（hs）1505、域着色器1507和几何着色器1509，其中的一些可以被使用并且其中的一些（或全部）可以被省略，如虚线所指示的。外壳着色器1505接受输入补片，并且产生一个或多个输出补片，所述一个或多个输出补片然后被用于产生适当
类型的拼贴的、规范化的域，诸如四边形或三角形，而针对这些域执行域着色器1507以计算域中的任何给定点的实际顶点位置，输出顶点位置。
167.几何着色器（gs）1509取得输入（诸如图元、顶点位置等），产生对应的输出（诸如更多图元等）。在一个实施例中，几何着色器1509取得输入顶点并产生输出顶点，使得对于单个输入顶点，可以产生若干输出顶点，使得它们可以用于生成几何形状。
168.如所示出的，像素着色器（ps）1511接着对各个像素或像素的贴片执行像素着色操作。在一个实施例中，像素着色器1511对过程纹理（pt）1519发布“评估”请求1521，诸如评估纹素着色请求。发布线程可以继续其执行，将着色的像素传递到输出合并器（om）1513以执行诸如透明度混合（alpha blending）的操作并将像素写回到渲染目标1515（例如，后台缓冲器（backbuffer））。任何未着色的纹素被标记为“着色的”，并且调度与ts 1515相关联的一个或多个线程来评估它们的着色，并将结果（例如，颜色）写入过程纹理1519内的存储器。
169.许多实时渲染架构将渲染过程分解成多个遍次（pass）。例如，延迟着色和延迟照明方法通过将中间渲染结果高速缓存在图像大小的g缓冲器中来将可见性和着色计算解耦。尽管g缓冲器一般不包含显式语义信息，但是它们与语义对象一致。由于它们捕捉几何形状和材料属性，所以使用它们作为辅助输入允许网络调节对场景的几何形状、材料和光照的合成到真实转换，有效地学习将图像逼真地着色。
170.图15b示出了用于延迟着色的方法1530，其中创建g缓冲器。特别地，在框1533，通过评估所有可见的、不透明的几何形状并记录照明/着色计算所必需的属性来生成g缓冲器。作为示例而非限制，这些包括位置、法线、纹理坐标和其他用户定义的属性。
171.为了加速照明计算，在框1535，许多应用计算通常采用每贴片光列表的形式的照明加速数据，该每贴片光列表指示对于像素的每个贴片，哪些光源能够对那些像素的着色做出贡献。这被表示为“光列表”，但是也预期了其他格式。
172.在框1537，执行着色遍次，其消耗g缓冲器数据和光列表来计算每个像素处的着色/照明。在一些情况下，例如，对于每个着色器和/或光源类型的类别，该遍次被分成多个子遍次。要求透明几何形状的应用通常使用混合来在着色的图像的顶部上绘制这样的元素。最后，在框1539，一个或多个附加全屏遍次可计算其它无关的效果，诸如雾、散焦模糊等。
173.图16示出了根据本发明一个实施例的包括机器学习后处理器1630的图形处理流水线1600的一个实施例。所示出的图形流水线1600包括输入汇编器1601、顶点着色器1602、几何着色器1603、光栅化器1604和像素着色器1605，其执行如先前所描述的操作（例如，参见图15a和相关联的文本）。
174.在一个实施例中，提供关于几何结构（表面法线、深度）、材料（着色器id、反照率、镜面强度、光泽度、透明性）和照明（近似辐照度和发射、天空、泛光（bloom））的信息的g缓冲器被机器学习后处理器1630提取和使用。该集合可以进一步用视图和每像素的反射向量来扩充。
175.因此，在一个实施例中，通过流水线1600的初始遍次更新g缓冲器1650的多个渲染目标1651-1657，其被实现为存储与当前图像相关的特定类型的数据的单独的缓冲器，所述特定类型的数据包括但不限于位置值1651、颜色值1652、法线值1653、深度值1654、透明度值（alpha value）1655、视图定向数据1656以及镜面强度1657。然而，应当注意，其它类型的
渲染目标可被包括在g缓冲器1650中，同时仍符合本发明的基本原理（例如，辐照度、天空、泛光、反照率、镜面反射等）。在通过流水线1600的随后遍次中，使用g缓冲器值1651-1657生成渲染的图像1620。
176.如所提到的，机器学习后处理器1630的一个实施例包括卷积神经网络（cnn），其对来自g缓冲器1650和渲染流水线1600的输出1620的中间渲染伪影进行操作，以生成经转换的图像1660。与仅使用渲染的图像1620（如图像到图像或视频到视频转换方法的情况）或语义标签映射（如条件图像或视频合成方法）相比，g缓冲器1650向卷积神经网络提供与几何形状、材料和光照有关的解缠结信息，所述卷积神经网络使用该信息来高效地增强图像。解缠绕是重要的，因为底层图形渲染应用可以以不同真实度水平对属性进行近似。例如，所采用的3d形状可能已经足够详细，但是由于有限的渲染方法，材料可能缺乏真实度。
177.如图17中所示出的，卷积神经网络1730的一个实施例包括多个精细化级1701-1704，其对来自图形流水线的逐渐更精细的图像1721a-c、1620和对应的g缓冲器数据（图17中的0-n级）执行图像精细化。第一精细化块1701使用来自g缓冲器1650（在0级）的粗略中间渲染数据和渲染的图像1721a的对应下采样表示，以生成粗略中间转换1740a，其由下一精细化块1702进一步精细化。序列1702-1704中的每个后续精细化块使用来自先前级的结果1740a-c结合来自图形流水线的逐渐更详细的图像1721b-c、1620和对应g缓冲器数据（1级、2级、
…
n级）。最终精细化级1704用来自先前精细化块的结果1740d结合流水线渲染的图像1620和最终g缓冲器数据（n级）来生成最终的经转换的图像1660。虽然为了简单起见，图17中仅示出四个精细化级1701-1704，但可使用较大或较小数量的精细化级。
178.鉴别器1725基于真实图像1710来评估最终的经转换的图像1660以标识差异。此外，感知损失评估器1725确定渲染的图像1620与经转换的图像1660之间的感知损失。
179.为了在指定的尺度上进行精细化，一个实施例使用超分辨率技术，生成每个尺度的残余图像，如lai, w.等，deep laplacian pyramid networks for fast and accurate super-resolution，cvpr（2017）中所描述的。此外，在块内采用密集连接的卷积层，如wang, x.等，esrgan: enhanced super-resolution generative adversarial networks，eccvw（2018）中所描述的。
180.具体来说，在一个实施例中，从最小尺度（例如，最终图像大小的1/64）开始，将下采样的图像（例如，1721a）、g缓冲器（0级）和零初始化的残余图像1700馈送到第一精细化块1701中。在以不同尺度操作的后续精细化块1702至1704之间对特征和残余图像进行上采样。图像1721a-1721c、1620和g缓冲器（0-n级）由密集连接的卷积层1808处理，如图18中所示出的，从每个块中的最后一层，将特征向下投影到3通道残余图像1805，其被添加到来自先前精细化块的残余图像1801。精细化块1701-1704中的卷积（除了对残余图像的投影）可以接着是实例规范化（instance normalization）和泄漏整流线性单元（relu）层。
181.总之，每个精细化块1701-1704学习使用由g缓冲器1650提供的关于场景的结构信息来产生残余图像1740a-d。每个精细化块（诸如图18中所示的示例）学习捕获结构和外观信息（几何形状、材料、光照）的g缓冲器的嵌入，并且与剩余的网络参数一起联合被学习。每个精细化块1701-1704以不同尺度操作，并且以该尺度产生残余图像。所有残余图像被融合并应用于由常规渲染流水线渲染的图像1620。
182.返回图17，在一个实施例中，条件鉴别器1725评估经转换的图像1660的真实度，将
其与真实图像1710进行比较。例如，条件鉴别器1725可以并入高级语义信息以更好地评估经转换的图像1660的真实度。
183.感知损失评估器1726约束对图像1660的修改。例如，在一个实施例中，感知损失评估器1726确保增强的图像（例如，经转换的图像1660）在结构上类似于输入图像（例如，渲染的图像1620）。这在一个实现中通过在预训练的视觉几何网络（vgg）网络的层的子集处提取特征（在原始和经修改的图像两者上评估的）并最小化特征向量之间的绝对或平方距离来实现。然而，注意，条件鉴别器1725和感知损失评估器1726不是遵循本发明的基本原理所要求的。
184.注意，在一个实施例中，鉴别器1725和感知损失评估器1726仅用于训练机器学习后处理器1630，这可以离线发生。在运行时，本文中描述的增强技术（即，使用由cnn执行的推断），既不要求鉴别器1725也不要求感知损失评估器1726。
185.图19示出了根据本发明一个实施例的方法，该方法可以在本文中描述的处理器和系统架构上实现，但不限于任何特定的架构。
186.在1901处，执行利用本文中描述的技术的图形应用。该方法可以用任何类型的图形应用来实现，所述图形应用包括但不限于，体积视频、云游戏、计算机游戏或虚拟现实游戏/应用。在1902处，在通过图形流水线的第一遍次（或多个遍次）中生成中间渲染数据，并将其存储在g缓冲器或用于存储中间渲染数据的其它图形缓冲器结构中。
187.在1903处，向神经网络的初始精细化级提供来自图形流水线的下采样的图像、与几何结构、材料和照明有关的来自g缓冲器的对应数据，以及零初始化的残余图像以生成残余图像。
188.在1904，向神经网络的下一精细化级提供比先前下采样的图像更高分辨率的下采样的图像、与几何结构、材料和照明有关的对应g缓冲器数据以及来自先前精细化级的残余图像，以生成下一残余图像（或者如果下一精细化级是最后一个精细化级，则生成最终的经转换的图像）。对于下一精细化级重复操作1904，直到在1905确定到达的最后一个精细化级。
189.如关于图17所提及的，最后一个精细化级1704基于来自图形流水线的经渲染的图像1620、对应的g缓冲器数据及最终残余图像1740d来生成经转换的图像1660。在1906，显示经转换的图像，并将其用于训练神经网络以用于后续迭代。例如，在图17中，经由鉴别器1725和感知损失评估器1726来完成训练。
190.在诸如娱乐（体积视频、云游戏、电影制作、虚拟环境）的广泛应用集合中以及为了训练关于合成数据的/模拟中的计算机视觉算法，期望快速真实感渲染。来自基于学习的方法的较高质量镜头可以提高娱乐产品对客户的价值、降低生产成本（因为可以自动学习费力或计算要求高的效果）并且提高计算机视觉算法的性能（当用作训练数据时）。
191.本发明的实施例增强了渲染的图像的真实感，对于在真实数据集中具有清晰对应的对象和场景实现了最强且最一致的结果。这些实施例将机器学习方法与常规实时渲染流水线组合以实现协同结果。例如通过实时光线追踪方法的集成对这些流水线的进一步改进可以用于进一步改进这些技术的真实度。因此，虽然本文中描述的实施例集中在光栅化流水线上，但是本发明的基本原理可以在光线追踪流水线或其它类型的图形流水线中实现。
192.在上述实施例中，术语“引擎”或“模块”或“逻辑”可以指以下各项、是以下各项的
一部分，或者包括以下各项：执行一个或多个软件或固件程序的专用集成电路（asic）、电子电路、处理器（共享、专用或群组）和/或存储器（共享、专用或群组）、组合逻辑电路和/或提供所描述的功能性的其它合适组件。在实施例中，引擎、模块或逻辑可以以固件、硬件、软件或固件、硬件和软件的任何组合来实现。
193.本发明的实施例可以包括上面已经描述的各种步骤。这些步骤可以体现在机器可执行指令中，所述机器可执行指令可以用于使通用或专用处理器执行步骤。备选地，这些步骤可以由包含用于执行步骤的硬连线逻辑的特定硬件组件来执行，或者由编程的计算机组件和定制硬件组件的任何组合来执行。
194.示例以下是本发明不同实施例的示例实现。
195.示例1. 一种图形处理器，包括：图形处理流水线，所述图形处理流水线包括用于渲染图形图像的多个图形处理级；本地存储设备，所述本地存储设备用于存储中间渲染数据以生成所述图形图像；以及机器学习硬件逻辑，所述机器学习硬件逻辑用于使用所述中间渲染数据的至少部分对所述图形图像执行精细化操作以生成经转换的图像。
196.示例2. 如示例1所述的图形处理器，其中所述机器学习硬件逻辑包括用于执行所述精细化操作的机器学习网络，所述机器学习网络包括用于生成对应的多个中间残余图像的串联连接的多个中间精细化级，精细化级使用来自所述图形处理流水线的连续较精细分辨率中间图像、来自所述本地存储设备的对应中间渲染数据以及来自先前中间精细化级的中间残余图像来生成下一中间残余图像。
197.示例3. 如示例2所述的图形处理器，其中第一中间精细化级要使用最小分辨率的来自所述图形流水线的图像、来自所述本地存储设备的对应中间渲染数据和零初始化的残余图像。
198.示例4. 如示例3所述的图形处理器，其中最终精细化级要结合由先前中间精细化级生成的最终中间残余图像来对所述图形图像和所述中间渲染数据的所述部分执行所述精细化操作。
199.示例5. 如示例4所述的图形处理器，其中每个中间精细化级基于反馈结合源于来自所述本地存储设备的所述中间渲染数据的结构信息来学习产生对应的中间残余图像。
200.示例6. 如示例1所述的图形处理器，其中在通过所述图形流水线的第一遍次中生成所述中间渲染数据，并且其中在通过所述图形流水线的后续遍次中使用所述中间渲染数据来生成所述图形图像。
201.示例7. 如示例6所述的图形处理器，其中所述中间渲染数据包括g缓冲器数据。
202.示例8. 如示例7所述的图形处理器，其中所述g缓冲器数据包括与所述图形图像的几何形状、材料和/或光照有关的数据。
203.示例9. 一种方法，包括：在包括多个图形处理级的图形处理流水线上渲染图形图像；将中间渲染数据存储在本地存储设备中以生成所述图形图像；以及使用所述中间渲染数据的至少部分对所述图形图像执行包括精细化操作的机器学习操作以生成经转换的图像。
204.示例10. 如示例9所述的方法，其中在机器学习网络上执行所述机器学习操作，所述方法还包括：串联执行多个中间精细化操作以生成对应的多个中间残余图像，精细化操
作使用来自所述图形处理流水线的连续较精细分辨率中间图像、来自所述本地存储设备的对应中间渲染数据以及来自先前中间精细化操作的中间残余图像来生成下一中间残余图像。
205.示例11. 如示例10所述的方法，其中第一中间精细化操作要使用最小分辨率的来自所述图形流水线的图像、来自所述本地存储设备的对应中间渲染数据和零初始化的残余图像。
206.示例12. 如示例11所述的方法，其中所述精细化操作包括使用所述中间渲染数据的所述部分结合由先前中间精细化操作生成的最终中间剩余图像的对所述图形图像的最终精细化操作。
207.示例13. 如示例12所述的方法，其中每个中间精细化操作由精细化级执行，所述精细化级基于反馈结合源于来自所述本地存储设备的所述中间渲染数据的结构信息来学习产生对应的中间残余图像。
208.示例14. 如示例9所述的方法，其中在通过所述图形流水线的第一遍次中生成所述中间渲染数据，并且其中在通过所述图形流水线的后续遍次中使用所述中间渲染数据来生成所述图形图像。
209.示例15. 如示例14所述的方法，其中所述中间渲染数据包括g缓冲器数据。
210.示例16. 如示例15所述的方法，其中所述g缓冲器数据包括与所述图形图像的几何形状、材料和/或光照有关的数据。
211.示例17. 一种机器可读介质，在所述机器可读介质上存储有程序代码，所述程序代码当由机器执行时使所述机器执行以下操作：在包括多个图形处理级的图形处理流水线上渲染图形图像；将中间渲染数据存储在本地存储设备中以生成所述图形图像；以及使用所述中间渲染数据的至少部分对所述图形图像执行包括精细化操作的机器学习操作以生成经转换的图像。
212.示例18. 如示例17所述的机器可读介质，其中在机器学习网络上执行所述机器学习操作，所述机器可读介质还包括：串联执行多个中间精细化操作以生成对应的多个中间残余图像，精细化操作使用来自所述图形处理流水线的连续较精细分辨率中间图像、来自所述本地存储设备的对应中间渲染数据以及来自先前中间精细化操作的中间残余图像来生成下一中间残余图像。
213.示例19. 如示例18所述的机器可读介质，其中第一中间精细化操作要使用最小分辨率的来自所述图形流水线的图像、来自所述本地存储设备的对应中间渲染数据和零初始化的残余图像。
214.示例20. 如示例11所述的机器可读介质，其中所述精细化操作包括使用所述中间渲染数据的所述部分结合由先前中间精细化操作生成的最终中间剩余图像的对所述图形图像的最终精细化操作。
215.示例21. 如示例20所述的机器可读介质，其中每个中间精细化操作由精细化级执行，所述精细化级基于反馈结合源于来自所述本地存储设备的所述中间渲染数据的结构信息来学习产生对应的中间残余图像。
216.示例22. 如示例17所述的机器可读介质，其中在通过所述图形流水线的第一遍次中生成所述中间渲染数据，并且其中在通过所述图形流水线的后续遍次中使用所述中间渲
染数据来生成所述图形图像。
217.示例23. 如示例22所述的机器可读介质，其中所述中间渲染数据包括g缓冲器数据。
218.示例24. 如示例23所述的机器可读介质，其中所述g缓冲器数据包括与所述图形图像的几何形状、材料和/或光照有关的数据。
219.如本文中所述，指令可以涉及硬件的特定配置（诸如配置成执行某些操作或具有预确定的功能性的专用集成电路（asic）），或在非暂态计算机可读介质中体现的存储器中存储的软件指令。因此，使用在一个或多个电子装置（例如，终端站、网络元件等）上存储和执行的代码和数据，能够实现附图中示出的技术。此类电子装置使用计算机机器可读介质（诸如非暂态计算机机器可读存储介质（例如，磁盘；光盘；随机存取存储器；只读存储器；闪速存储器装置；相变存储器）和暂态计算机机器可读通信介质（例如，电信号、光信号、声信号或其他形式的传播信号——诸如载波、红外信号、数字信号等））来存储并传递（在内部和/或通过网络与其他电子装置）代码和数据。
220.另外，此类电子装置通常包括一组一个或多个处理器，所述一组一个或多个处理器耦合到一个或多个其他组件，诸如一个或多个存储装置（非暂态机器可读存储介质）、用户输入/输出装置（例如，键盘、触摸屏和/或显示器）和网络连接。该组处理器与其他组件的耦合通常通过一个或多个总线和桥接器（也称为总线控制器）。存储装置和携带网络业务的信号分别表示一个或多个机器可读存储介质和机器可读通信介质。因此，给定电子装置的存储装置通常存储代码和/或数据以便在该电子装置的该组一个或多个处理器上执行。当然，本发明的实施例的一个或多个部分可以使用软件、固件和/或硬件的不同组合来实现。在此详细描述通篇，为了解释的目的，阐述了许多特定的细节以便提供本发明的详尽理解。然而，本领域的技术人员将明白，可以在没有这些特定细节中的一些特定细节的情况下实践本发明。在某些实例中，没有以详尽细节描述公知的结构和功能，以便避免混淆本发明的主题。因此，应根据随附的权利要求来判断本发明的范围和精神。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种暂堵转向裂缝的预测方法及装置与流程

用于增强图形渲染真实感的设备和方法与流程

相关文献

最热文献