一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

物体交接的机器学习控制的制作方法

2022-02-22 07:47:00 来源:中国专利 TAG:
物体交接的机器学习控制
背景技术
::1.任务的机器人自动化是一个重要的发展领域。然而,有些任务涉及与人类操作员的协作。诸如个人护理任务、物体交接(handover)或机器人与手动任务之间的接合操作之类的任务通常涉及机器人与人之间的交互。协作任务空间中的一个问题是人类操作员和机器人之间的物体交换。作为执行任务的一部分,可以从机器人到人类和/或从人类到机器人进行交换。当从人手拿取物体时,如果机器人选择的抓握在能够可靠地抓握物体的同时会干扰人手,则交换可能会遇到困难。故障可能导致物体掉落,在某些情况下,还会伤害人类操作员。因此,开发允许机器人从人类操作员处接收物体的可靠交接技术是协作任务空间内的一个重要问题。附图说明2.将参考附图描述各种技术,其中:3.图1示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的手掌向下捏抓;4.图2示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的向下抓握;5.图3示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的手掌向上捏抓;6.图4示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的水平捏抓;7.图5示出了根据实施例的用于在机器人和人手之间执行交接的框架的示例;8.图6示出了根据实施例的可用于提示从机器人转移物体的人手姿态的示例;9.图7示出了根据实施例的可用于抓握物体的手部姿态的示例;10.图8a示出了根据实施例的机器人手爪的示例;11.图8b示出了根据实施例的具有四个手指的机器人手爪的示例;12.图9示出了根据实施例的机器人-人交互的示例;13.图10示出了根据实施例的描述人-机器人交互系统的性能的数据;14.图11示出了根据实施例的可用于向机器人呈现物体的手部姿态的示例;15.图12示出了根据实施例的作为由计算机系统执行的结果在机器人和人手之间执行物体的转移的过程的示例;16.图13a示出了根据至少一个实施例的推理和/或训练逻辑;17.图13b示出了根据至少一个实施例的推理和/或训练逻辑;18.图14示出了根据至少一个实施例的神经网络的训练和部署;19.图15示出了根据至少一个实施例的示例数据中心系统;20.图16a示出了根据至少一个实施例的自主车辆的示例;21.图16b示出了根据至少一个实施例的图16a的自主车辆的相机位置和视野的示例;22.图16c是根据至少一个实施例的示出图16a的自主车辆的示例系统架构的框图;23.图16d是根据至少一个实施例的示出用于一个或更多个基于云的服务器与图16a的自主车辆之间进行通信的系统的图;24.图17是根据至少一个实施例的示出计算机系统的框图;25.图18是根据至少一个实施例的示出计算机系统的框图;26.图19示出了根据至少一个实施例的计算机系统;27.图20示出了根据至少一个实施例的计算机系统;28.图21a示出了根据至少一个实施例的计算机系统;29.图21b示出了根据至少一个实施例的计算机系统;30.图21c示出了根据至少一个实施例的计算机系统;31.图21d示出了根据至少一个实施例的计算机系统;32.图21e和图21f示出了根据至少一个实施例的共享编程模型;33.图22示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器。34.图23a和图23b示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器。35.图24a和图24b示出了根据至少一个实施例的附加的示例性图形处理器逻辑;36.图25示出了根据至少一个实施例的计算机系统;37.图26a示出了根据至少一个实施例的并行处理器;38.图26b示出了根据至少一个实施例的分区单元;39.图26c示出了根据至少一个实施例的处理集群;40.图26d示出了根据至少一个实施例的图形多处理器;41.图27示出了根据至少一个实施例的多图形处理单元(gpu)系统;42.图28示出了根据至少一个实施例的图形处理器;43.图29是根据至少一个实施例的示出用于处理器的处理器微架构的框图;44.图30示出了根据至少一个实施例的深度学习应用程序处理器;45.图31是根据至少一个实施例的示出了示例神经形态处理器的框图;46.图32示出了根据一个或更多个实施例的图形处理器的至少部分;47.图33示出了根据一个或更多个实施例的图形处理器的至少部分;48.图34示出了根据一个或更多个实施例的图形处理器的至少部分;49.图35是根据至少一个实施例的图形处理器的图形处理引擎的框图;50.图36是根据至少一个实施例的图形处理器核心的至少部分的框图;51.图37a和图37b示出了根据至少一个实施例的线程执行逻辑,其包括图形处理器核心的处理元件的阵列。52.图38示出了根据至少一个实施例的并行处理单元(“ppu”);53.图39示出了根据至少一个实施例的通用处理集群(“gpc”);54.图40示出了根据至少一个实施例的并行处理单元(“ppu”)的存储器分区单元;55.图41示出了根据至少一个实施例的流式多处理器。具体实施方式56.本文档描述了一种基于视觉的系统,该系统允许机器人接收人手中呈现的物体。在一个示例中,人类抓握(grasp)一物体并将其呈现在深度相机监控的视野中。深度相机拍摄手抓握物体的3d图像并将其提供给系统。系统从图像生成点云,并将与人手相关联的点云部分和与物体相关联的点云部分分离。使用该信息,系统能够确定人手的姿态和物体的姿态。系统生成机器人可以执行的一组抓握来抓握物体,然后从该组抓握中选择不干扰人手的一抓握。在一种实现方式中,人类的抓握被分类为各种类型的手部姿态以帮助系统选择合适的机器人抓握来获得物体。在另一个实现中,给定用地面实况手部和物体姿态注释的人-物体交接数据集,训练一深度网络,其将深度相机观察到的彩色点云作为输入,从物体分割出人手并提出良好的抓握以及对机器人的控制,使得它可以在不捏住人的手指的同时接收来自人手的物体。在各种实施例中,本文描述的技术可以应用于将物体从一个机器人交给另一个机器人或从动物交给机器人的系统,或者在某些示例中,当从人手以外的附肢(appendage)获取物体时(例如摘下帽子)。57.人与机器人之间的物体转移是机器人与人类协作的重要能力。机器人到人的交接和人到机器人的交接都可能很困难。本文描述的一些技术描述了一种人到机器人交接的方法,其中机器人在中途与人相遇,通过对人对物体的抓握进行分类并相应地快速规划轨迹以根据他们的意图从人的手中取走物体。至少一个实施例收集人类抓握数据集,该数据集涵盖具有各种手部形状和姿态的握住物体的典型方式,并且在该数据集上学习深度模型以将手抓握分类为这些类别之一。至少一个实施例提供了一种规划和执行方法,其根据检测到的抓握和手部位置从人手取走物体,并在交接中断时根据需要重新规划。通过系统评估,本文档表明各种实施例相对于两个基线产生了改进的交接。58.向人类提供和从人类获取物体是协作机器人跨从制造到家庭物理协助的应用的基本能力。一些技术专注于将物体从机器人转移到人类,假设人类可以将物体放在机器人的抓手中进行反向操作。在人类需要关注手头的任务(例如进行手术)或人类由于损伤而行动不便和手臂运动受限的情况下,这种方法有时不可行。因此,至少一个实施例提供了更多的反应性交接,其可以适应人类将物体呈现给机器人并在中途与他们相遇以拿走物体的方式。59.在至少一个实施例中,使人-机器人交接作出反应的挑战之一是对物体和人的可靠且连续的感知。至少一个实施例通过利用计算机视觉的方法来估计人手姿态以及6d物体姿态。可以使用各种技术,包括分别估计手的姿态和物体的姿态的技术。至少一些实施例在手与物体交互时估计手和物体姿态。60.在至少一个实施例中,本文描述的技术通过将其表述(formulate)为手抓握分类问题来解决人到机器人交接的感知问题。在一个示例中,这些技术将人类可以握住小物体的方式离散为若干类别,并收集数据集以学习深度模型,该深度模型将给定的手握住物体分类为这些抓握类别之一。交接任务被建模为一鲁棒的逻辑-动态系统,它生成运动计划,该运动计划在给定人类抓握分类下避免抓手和人手之间的接触。至少一个实施例与两种基线方法进行比较,一种不推断人手姿态,而另一种依赖独立的手和物体姿态估计。至少一个实施例证明我们的方法在两个基线上具有更高的成功率和时间效率。用户研究(n=9)呈现了天真的用户在关注机器人和专注于次要任务时的有效性。61.至少一个实施例提供了一种基于视觉的可靠算法,该算法可以生成抓握以避免人到机器人交接或机器人到机器人交接任务的碰撞,例如,机器人如何从人类或另一个机器人取走物体。至少一个实施例基于人手如何握住物体来调整机器人抓握物体的方式。结果是,至少一个实施例对于不接触人手更可靠。62.人-机器人交接是人-机器人协作中的一重要主题,涉及从协作制造到家庭协助的众多应用领域。至少一个实施例专注于机器人到人的交接,其中机器人从开始物体在手中并将其转移给人类。一项挑战是选择机器人动作的参数以优化流畅的交接。这包括物体姿态的选择和机器人对物体的抓握,考虑到用户的舒适度、基于主观反馈的偏好、物体移交后的功能可供性(affordance)和预期用途、人类的运动约束、人类的社会角色,以及物体在交接前被抓握时的配置。至少一个实施例强调到达交接姿态的轨迹参数、探索接近角、与交接姿态对比的轨迹的起始姿态、运动平滑度、物体释放时间、估计的人类手腕姿态、交接阶段的相对时间,以及人类的人体工程学偏好。虽然一些实施例专注于交接参数的离线计算,但至少一个实施例涉及人的感知以启用反应性交接。63.本文描述的技术专注于人类的感知,以实现反应性交接并利用人类手部姿态估计技术。人手的姿态估计可以通过二维rgb单目图像或3d深度相机信息来完成。一般来说,与仅依赖二维rgb图像的技术相比,3d深度相机提供了额外的信息,其允许更精确地估计手部姿态。64.本文描述的技术实现了用于基于鲁棒逻辑-动态系统执行任务的系统、自动地为机器人创建反应性任务计划的方法。在至少一个实施例中,想法是不断地识别当前的逻辑状态并反应性地重新规划以处理逻辑状态的不确定性和变化,这是一种对于处理部分可观察环境有用的方法。在一些示例中,可以以类似于行为树的方式来考虑任务模型,这是一种用于表示对人-机器人协作有用的复杂任务的方法。65.至少一个实施例通过对人类抓握姿态进行分类来部分地解决这个问题。在至少一个实施例中,人类抓握姿态被离散为七个类别,这可能无法涵盖人手抓握物体的所有方式。66.在至少一个实施例中,生成用地面实况手姿态和物体姿态注释的人-物体交接的数据集。该数据集用于训练深度网络,该深度网络将由rgb深度相机获得的彩色点云作为输入,以将人手与物体进行分割,并为机器人建议抓握和控制方案,以便机器人可以接收来自人手的物体,同时不捏或触摸人的手指。67.本文描述的技术的一个优点是,该模型可能够生成机器人抓握,该抓握可以从人手/另一个机器人接收物体,同时通过学习手-物体操作数据集而不捏人手(或另一个机器人的抓手)。一些示例提供了基于rgb-d相机的低成本解决方案,与许多可穿戴传感器相比,rgb-d相机既便宜又轻便。各种实施例能够实现可靠的交接,这在构建更复杂的机器人系统时很重要。例如,本文描述的技术可以适用于能够与人类密切合作的老人护理机器人或烹饪机器人。68.在各种实施例中,本文描述的技术提供:(1)针对作为分类问题提出的交接的手-物体交互推理,经由覆盖广泛范围的手形状和姿态的数据集;(2)自适应规划机器人抓握以从人类获取物体的系统,使机器人能够流畅且自然地响应人类;以及(3)实验结果证明了对基线方法的改进,以及用户研究用天真用户验证了我们的方法。69.人类以不同的方式交出物体。他们可以在手掌上呈现物体,也可以以不同的取向捏抓(pinchgrasp)和呈现物体。本文描述的技术可以确定人类正在使用哪种抓握并相应地进行调整,从而实现反应性人-机器人交接。70.图1示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的手掌向下捏抓。机器人100被定位以从人手104拿取物体102。在至少一个实施例中,深度相机拍摄人手104抓握物体102的图像,从图像生成点云,并将点云提供到经训练的神经网络。神经网络为连接到机器人100的机器人手爪(roboticgripper)106生成适当的抓握,使得机器人手爪106能够抓握物体102而不会干扰人手104。71.图2示出了根据实施例的人-机器人交互姿态的示例,其中人执行物体的向下抓握。机器人200被定位为从人手204拿取物体202。在至少一个实施例中,深度相机拍摄人手204抓握物体202的图像,从图像生成点云,并将点云提供给经训练的神经网络。神经网络为连接到机器人200的机器人手爪206生成适当的抓握,使得机器人手爪206能够抓握物体202而不会干扰人手204。72.图3示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的手掌向上捏抓。机器人300被定位为从人手304拿取物体302。在至少一个实施例中,深度相机拍摄人手304抓握物体302的图像,从该图像生成点云,并将该点云提供给经训练的神经网络。神经网络为连接到机器人300的机器人手爪306生成适当的抓握,使得机器人手爪306能够抓握物体302而不会干扰人手304。73.图4示出了根据实施例的人-机器人交互姿态的示例,其中人执行对物体的水平捏抓。机器人400被定位为从人手404拿取物体402。在至少一个实施例中,深度相机拍摄人手404抓握物体402的图像,从图像生成点云,并将点云提供给经训练的神经网络。神经网络为连接到机器人400的机器人手爪406生成适当的抓握,使得机器人手爪406能够抓握物体402而不会干扰人手404。74.在至少一个实施例中,当机器人从人手拿取物体时,根据人手抓握物体的方式来调整机器人的运动。通常,这可以防止机器人以不直观(nonintuitive)的方式作出行为,或者以干扰甚至有害接触人类手指的方式作出行为。在至少一个实施例中,交接框架通过获取以azurebodytracking软件开发工具包(“sdk”)检测到的以人手为中心的点云,然后基于物体如何被人手抓握来估计手的抓握类别,来解决这个问题。在至少一个实施例中,然后自适应地规划机器人抓握。75.图5示出了根据实施例的用于在机器人和人手之间执行交接的框架的示例。在一个示例中,框架获得显示手握住物体的rgbd图像502。使用该rgbd图像,生成手和物体的点云504。在至少一个实施例中,该框架采用以手部检测为中心的点云,然后使用模型506将其分类为七种抓握类型之一,这些抓握类型涵盖了人类用户倾向于抓握物体的各种方式。任务模型然后自适应地规划508机器人抓握。76.图6示出了根据实施例的可用于提示从机器人转移物体的人手姿态的示例。例如,第一手部姿态602可以被指定为表示人类准备好接收物体的姿态,并且第二手部姿态604可以被指定为指示人类还没有准备好从机器人接收物体的姿态。77.至少一个实施例定义了一组离散的人类抓握,其描述了人手抓握物体以完成交接任务的方式。至少一个实施例将人-机器人交接任务的常见人类抓握离散为七类,诸如图7所示。例如,如果手正抓握着一个物块(block),那么手的姿态可以分类为张开手掌、捏底部、捏顶部、捏侧面或拿起(lifting)。在另一个示例中,如果手没有抓着任何东西,则它可能正在等待机器人交出物体,或者只是不做任何特定的事情(其他)。78.图7示出了根据实施例的可用于抓握物体的手部姿态的示例。第一手部姿态704示出了物体被握在张开的手掌中。第二手部姿态704示出了物体在底部捏住位置被握住。第三手部姿态706示出了物体以拿起姿态被握住。第四手部姿态708示出了物体在顶部捏住位置被握住。第五手部姿态710示出了物体在从侧面被捏住时被握住。人类在向机器人呈现物体时可以使用这些和其他手部姿态。在一些实现方式中,可以使用手部姿态的分类,诸如图7中所示的手部姿态类别。在其他实现方式中,手部姿态可以是自由形式的,其可以包括图7中未示出的各种类型的手部姿态。在这样的示例中,系统可以使用点云或手的骨骼姿态来构建针对机器人的合适姿态,以从人手上取走物体。79.图8a示出了根据实施例的机器人手爪的示例。在一个示例中,机器人手爪802包括可以闭合和分离的一组钳口(jaw)804。一些示例可以包括在钳口804的表面上的触觉传感器,从而系统可以获得力的测量。在一些示例中,抓手802包括腕关节,其可以在系统的控制下铰接和定位该组钳口804。80.图8b示出了可以在实施例中使用的具有四个手指的机器人手爪806的示例。机器人手爪806包括近似模仿人手的第一手指808、第二手指810、第三手指812和相对手指814。机器人手爪806可以根据本文描述和示出的各种实施例使用。例如,机器人手爪806可用于以不干扰人手的方式取走人手握住的物体。此外,也可以使用具有更多或更少手指的其他类型的机器人手爪。在一个示例中,机器人手爪可以具有2、3、4、5或更多个手指,并且每个手指可以具有摩擦表面以帮助抓握物体。在一个示例中,机器人手爪的手指可以具有通过指示与物体的接触来辅助系统的触觉传感器。在一个示例中,抓手可以包括磁性元件以帮助从人手中取走含铁物体。在另一个示例中,抓手可以包括真空拾取元件,以捕获物体。81.在一个示例中,为了学习对人类抓握进行分类的模型,一实施例通过使用azurekinectrgbd相机创建了一数据集,该数据集涵盖了具有各种手形和手部姿态的八个主体(subject)。例如,在一个实现方式中,向主体示出手抓握的示例图像,并且主体执行的类似姿态被记录二十到六十秒。图像序列被标记为相应的人类抓握类别。在记录过程中,主体可以将自己的身体和手移动到不同的位置,以使摄像机的视角多样化。每个主体的左手和右手都被记录下来。在一个示例中,数据集由151,551张图像组成。82.至少一个实施例不是在深度图像上使用convnets学习深度特征,而是在点云上采用pointnet 进行人类抓握分类。在至少一个实施例中,骨干网络由用于学习点特征的四个集合抽象层和具有批归一化、relu和dropout(丢弃)的三层感知器组成,用于全局特征学习和人类抓握分类。给定在手周围裁剪的点云,网络将其分类为定义的抓握类别之一,其可用于进一步的机器人抓握规划。83.至少一个实施例将每种人类抓握类型与规范的机器人抓握方向相关联,以便在人到机器人的交接期间最小化人的努力。如图3所示,坐标表示相机帧中的规范机器人抓握帧。其动机是减少机器人抓住人手的机会,同时保持其运动和轨迹尽可能自然和平滑。84.任务模型的至少一个实施例基于鲁棒逻辑-动态系统。这将任务表示为具有某些属性的反应地执行操作符o的列表。每个操作符都是一元组o={lp,lr,le,π},其中lp是一组进入o的逻辑前提条件,lr是在o的执行进行时必须保持的一组运行条件,le是将为真的一组逻辑效果。运算符还与策略π相关联,该策略生成实现效果le的必要控制。在至少一个实施例中,策略和谓词(predicate)是从数据中学习的,但在其他实施例中,它们是手动指定的。给定计划,至少一个实施例选择满足前提条件的最高优先级运算符,以10hz检查条件,以便可以快速地对改变进行响应。85.图9示出了根据实施例的机器人-人类交互的示例。图9给出了最终任务计划中不同步骤的概览。在至少一个实施例中,系统必须适应不同的可能抓握,反应性地选择正确的方式接近人类用户并从他们那里拿走物体。在一个示例中,在获得人类想要如何呈现物块的稳定估计之前,它会保持在“原位(home)”位置并等待。86.在各种实施例中,从人到机器人的移交在四个阶段中完成,其中机器人等待人以适当的姿态902呈现物体,然后制定计划来定位机器人手爪以便可以抓住物体904,抓住物体906,然后在一些示例中,放下物体908。87.一些实现不是仅仅使用反应性的本地规划,而是基于大量可能的抓握来规划和做出智能决策,以便找到对人类用户来说自然的抓握。下表显示了任务计划的一个实施例,按优先级降序排列。在下表中,显示了用于任务执行和反应性执行的运算符和相应的前提条件lp。运算符按优先级降序列出;如果所有前提条件都为真,则无论先前执行的运算符是什么,本文描述的技术都会执行关联的运算符。[0088][0089]等待人类。至少一个实施例计算确定机器人应该如何与手交互的若干谓词:稳定(stable)、手在桌上(hand_over_table)、手有物体(hand_has_obj)和太靠近手(too_close_to_hand)。hand_over_table谓词对应于这些观察是否在上面描述的表的指定体内,如果手没有移动并且手已经被观察至少5个时间步长(0.5秒),则stable()为真。针对阈值λ,这是至少部分地基于具有位置x和时间t的速度定义的:[0090]stable()=||xt-1–xt||2《λ[0091]。如果这些条件不为真,机器人将在原位等待。[0092]避开人类。在至少一个实施例中,如果针对任何一只手的too_close_to_hand()为真,并且机器人不在对应于特定抓握的近区中,则机器人将尝试避开手并且将移回原位位置。如果末端执行器和手之间的欧几里得距离小于20cm,则至少一个实施例将too_close_to_hand()定义为真。[0093]找到可行的目标。为了确保机器人的运动是安全的,而不是纯粹的反应性策略,本文描述的技术规划了整个轨迹以供执行。如果是stable()、hand_over_table()和hand_has_obj(),那么机器人将尝试使用上述规范的抓握姿态从手上拿走物体。[0094]在至少一个实施例中,为了找到有效轨迹ξ,机器人首先找到有效抓握姿态,因此系统添加有目标(has_goal)和目标是有效的(is_goal_valid)。如果其中任何一个为假,系统就会搜索合理的目标姿态。[0095]在至少一个实施例中,规划器创建目标姿态候选者和相关联的对峙(standoff)位置的列表。在一个示例中,有十个选项,绕图3中的y轴旋转θ_y∈{-π/4,-π/8,0,π/8,π/4},绕z轴旋转θ_z∈{o,π}。在至少一个实施例中,抓握位置和对峙位置都必须是无碰撞的并且具有有效的ik解决方案,以便被视为可行的目标选项。各种示例还添加了约束,即机器人在确定状态是否有效时不应遮挡其对物体的视野。[0096]找到计划。在至少一个实施例中,如果规划器有目标选项的列表,那么它将根据它们与当前关节配置的距离对它们进行排序,并尝试使用rrt-连接[58]找到到对峙位置的运动计划。如果系统可以同时找到抓握姿态和运动计划,机器人就会执行一子策略来遵循这个运动计划。[0097]然而,人类可能会移动他们的手或改变他们握住物体的方式。如果目标具有关联的运动计划并且物体尚未移动到首次观察到它的某个阈值内,则该目标被认为是有效的(根据is_goal_valid谓词)。如果物体移动过度,机器人就会停下来,任务模型会转换回找到新的抓握。[0098]抓握物体。在至少一个实施例中,一旦完成了运动计划,机器人应该处于对峙姿态并具有相关联的目标姿态—物体在人手中的预期位置。这两个姿态定义了近区—圆锥体,机器人可以在其中移动以接近物体。一旦抓手关闭,如果机器人处于其目标姿态,则has_obj谓词被设置为真。抓握操作者可能会遮挡物体,因此这仅在阻塞、开环(open-loop)动作时执行。[0099]打开抓手。在至少一个实施例中,如果has_obj(有物体)为真,表明机器人相信它正拿着一物体,在物体移动或姿态估计不正确的情况下,这种感知可能是不正确的。一些示例添加了一gripper_fully_closed(抓手完全关闭)谓词,表示抓手一直关闭。如果两个条件都为真,has_obj设置为假,机器人将恢复到不同的状态。[0100]移动到放下和放下物体。在至少一个实施例中,放下位置是单个关节空间位置;机器人会找到安全、无碰撞的运动计划。如果它在放下位置,系统将指导机器人打开抓手并将物体放在桌子上。[0101]我们对整个系统的一个示例在图7所示的一系列不同的手部位置和抓握上进行了系统测试,包括上述分类模型和任务模型。一个实施例使用安装在不同位置的相同桌子上的两个不同的frankapanda机器人。一个人类用户将四个彩色物块交给机器人,一次一个。在系统评估期间,测试了三种用于确定使用哪种抓握姿态从人类身上获取物体的方法中的每一种:[0102]简单基线:等待,直到它看到人手中的物块并使用固定的抓握方向将其从手上拿走。人手是通过microsoftazure身体跟踪器检测到的。[0103]手部姿态估计:系统的基于状态估计的版本,其中来自azure身体跟踪器的人手姿态用于推理抓握方向。[0104]所提出的系统的实施例:所提出的系统,如上所述基于深度信息对人类抓握进行分类。[0105]变体执行相同的任务模型,如上所述。提供这三个测试用例的顺序是随机的。用户用右手向机器人呈现物块。[0106]系统性能通过在试验期间计算的一组指标进行评估。这些是在用户执行任务时自动计算和记录的。[0107]规划成功率:follow_plan(遵循计划)运算符能够成功执行将机器人带到其对峙姿态的次数,并衡量人类和系统两者的确定性。[0108]抓握成功率:机器人从人类成功取走物体的频率,与其尝试抓握的总次数之比。[0109]动作执行时间:跟踪执行单个规划的轨迹、抓握物块并将其放在桌子上所花费的时间。如果机器人必须走更长的路径才能从人类手中抓取物块,则该值更高。[0110]总执行时间:执行所有规划的路径所花费的时间量,包括由于人类移动或由于抓握方式改变而重新规划的时间。[0111]试验持续时间:从第一次检测到人手到试验完成的时间。[0112]图10示出了系统评估期间各种指标的结果。与其他两种基线方法相比,本文描述的技术不断提高成功率,并减少总执行时间和试验持续时间,证明了该方法的有效性和可靠性。在第一图表1002中,示出了人手抓握分类的准确性。在第二图表1004中,说明了我们的手部状态分类和posecnn之间的物体漏检率的比较。在许多情况下,手会遮挡物体,这意味着很难获得准确的姿态估计。[0113]一个例外是动作执行时间,其中简单基线有时更快,因为简单基线不像其他基线那样适应性地规划;它不会试图尝试不寻常的抓握。这意味着从成功的方法到丢弃物体的时间平均而言有时可能会显著缩短。[0114]人类抓握分类的评估:一个实施例在验证集上评估手抓握分类模型,该验证集是在训练过程期间采用看不见的主体收集的。第一图表1002中报告了分类准确率,这表明我们的模型对看不见的主体具有良好的泛化能力。[0115]此外,还进行了一项实验来评估检测率,即手中是否有物体,以了解交接系统对遮挡的鲁棒性。我们的手抓握分类模型(有/没有物体)的检测率与另一种物体检测方法的检测率进行了比较。结果报告在第二图表1004中。本文描述的人类抓握模型的一个实施例实现了更高的检测率并且与替代方案相比更稳健,尤其是在发生严重遮挡时(例如,对于捏侧面87.5%比6.8%,对于拿起为94.4%比11.9%)。[0116]进行了一项用户研究,以验证该系统是否允许流畅的人-机器人协作。招募了9名用户,年龄在20至36岁之间。其中2名女性,7名男性。平均年龄为30.44±4.74岁。该研究包括三轮:[0117]自由形式:给用户四个物块,并指示用户站在桌子前,一次一个将物块交给机器人。他们被告知机器人只有在他们的手静止时才会拿物块,但他们可以以任何他们喜欢的方式握住物块。[0118]注意:呈现了图3中所示的五种人类抓握:捏顶部、捏底部、捏侧面、拿起和张开手掌。参与者被要求再次交接四个物块。他们被鼓励尝试预定义的手抓握方式,但他们也可以使用任何其他方式。[0119]分心:在存在分心的情况下测试用户表现。[0120]我们的量化指标的交接性能结果如下表所示。规划成功率指示系统需要重新规划其方法的频率,而抓握成功率则表示为系统成功拿走物体的次数。[0121][0122]除了上述指标外,在用户研究期间还计算了以下统计数据:(a)机器人手爪接触人类手指的次数,(b)用户改变他们正在使用的抓握的次数,以及(c)他们改变手的位置的次数。每次试验后,参与者都被要求描述他们在将物块交给机器人时遇到的任何问题。在完成所有三个试验后,参与者被要求填写李克特量表问卷(likertscalequestionnaire)并解释他们的回答。[0123]有一系列的回应,但用户表示他们能流畅地与机器人协作并相信它会做正确的事情,尽管他们在被要求提供反馈时指出了几个常见问题。他们还相信机器人知道他们的动作。[0124]用户数据的量化指标如上表所示。当用户分心时,接近和抓握不太成功,但时间相似。用户在音乐视频中平均计数了12:88±3:48的面孔,而正确的数字是13。这意味着他们中的许多人对交接系统有一定程度的信心,并且非常关注视频。[0125]在一个实施例中,本文描述的人类抓握的分类覆盖了典型用户抓握的77%。至少一个实施例可以处理大部分看不见的人类抓握;它们往往会导致更高的不确定性,有时会导致机器人退避和重新规划。这些看不见的抓握中的一些在图11中示出。图11示出了未出现在我们的训练数据集中的异常抓握示例,并且是我们的系统表现出更高不确定性的抓握类型的示例,其导致交接性能稍差。[0126]在最后的分心测试期间,与前两轮相比,用户不得不更频繁地重新定位或改变他们的抓握方式。一些人抱怨他们的手指被夹住或看到机器人未能抓住物体。一个特别是“选择使用手掌朝上的手部姿态”以最大程度地降低失败的风险;另一个“必须每10秒左右看看机器人。”[0127]下表提供了用户研究的定量结果。即使用户分心并且不得不专注于不同的场景,他们也能够快速地完成任务。[0128][0129][0130]至少在一个示例中,系统更清晰,指示机器人想要移动到哪些块以及它想要如何到达那里。[0131]一般来说,在测试期间,用户会很快注意到机器人试图以一种不显眼的方式抓住物块。他们有时也会注意到机器人抓取和接近过程中的轻微不准确,但通常会自行调整。在第二轮实验之后,当向他们示出如何抓握物体时,该系统更可靠,更易于使用。[0132]本文档描述了通过对不同类型的抓握进行分类来实现人-机器人交接的系统的实施例。其他实施例通过训练神经网络从人手握住物体的点云产生抓握,使规划系统更加灵活并支持一般抓握类型。这些技术的变体可以应用于许多其他类型的人-机器人协作,例如医疗操作、制造和个人护理工作。[0133]图12示出了根据实施例的作为由计算机系统执行的结果在机器人和人手之间执行物体的转移的过程的示例。至少一个实施例可以使用计算机系统、处理器、gpu或机器学习网络来实现,例如图13-41中所示的那些,并在相关说明中进行了描述。使用从存储指令的计算机可读存储器读取可执行指令的处理器来实现至少一个实施例,所述指令作为由计算机系统的一个或更多个处理器执行的结果,使计算机系统执行下述操作。[0134]在至少一个实施例中,在框1202处,使用深度相机获得手握住物体的图像。在各种示例中,深度相机可以是双目rgb相机,诸如三维x射线、超声、cat扫描或磁共振成像图像(“mri”)之类的医学成像设备。在一些示例中,例如那些涉及自动驾驶汽车的示例,图像可以是使用雷达成像设备或激光成像设备(“lidar”)生成的图像。在至少一个实施例中,在框1204,系统从图像生成点云。点云提供了表示物体和手的三维点集。在一个示例中,点云是来自rgb深度相机的彩色点云。[0135]在至少一个示例中,在框1206处,系统处理点云并识别点云的表示握住物体的手的第一部分。在框1208,系统识别点云的表示物体的第二部分。使用点云的适当部分,在框1210,在至少一个示例中,从点云的第二部分确定物体的姿态,并从点云的第一部分确定1212手的姿态。在一个示例中,手的姿态包括识别手的骨骼结构,其包括手的手指的关节和节段(segment)长度。[0136]在至少一个实施例中,在框1214,系统为机器人手爪生成一组抓握姿态,其将允许抓手抓握物体。这可以使用表示物体的点云的部分和/或在框1210处确定的物体姿态信息来实现。在至少一个实施例中,物体姿态信息包括物体在空间中的大小、形状和方向。物体的方向可以包括垂直和水平旋转和倾斜。这组抓握姿态可以包括许多会干扰人手的姿态,但是如果手不存在,仍然是优选的。[0137]因此,在框1216,系统识别来自该组抓握姿态但不干扰手的特定抓握。干扰手意味着用机器人手爪接触手或捏手或手的一部分。在至少一个实施例中,系统选择满足用于物体的足够安全标准同时最大化与手的手指的距离的抓握。在识别出不接触手的适当抓握之后,在框1218,系统指示机器人执行识别出的抓握以从人手上取走物体。[0138]推理和训练逻辑[0139]图13a示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑1315。下面结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。[0140]在至少一个实施例中,推理和/或训练逻辑1315可以包括但不限于代码和/或数据存储1301,用于存储前向和/或输出权重和/或输入/输出数据,和/或在一个或更多个实施例的方面中配置被训练为和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑1315可以包括或耦合到用于存储图形代码或其他软件以控制时序和/或顺序的代码和/或数据存储1301,其中权重和/或其他参数信息被加载以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(alu))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器alu中。在至少一个实施例中,代码和/或数据存储1301存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储1301的任何部分都可以包括在其他片上或片外数据存储内,包括处理器的l1、l2或l3高速缓存或系统存储器。[0141]在至少一个实施例中,代码和/或数据存储1301的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,代码和/或数据存储1301可以是高速缓存存储器、动态随机可寻址存储器(“dram”)、静态随机可寻址存储器(“sram”)、非易失性存储器(例如闪存)或其他存储。在至少一个实施例中,对代码和/或数据存储1301是在处理器的内部还是外部的选择,例如,或者由dram、sram、闪存或某种其他存储类型组成,可以取决于存储片上或片外的可用存储空间,正在执行训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据的批大小或这些因素的某种组合。[0142]在至少一个实施例中,推理和/或训练逻辑1315可以包括但不限于代码和/或数据存储1305,用于存储与在一个或更多个实施例的方面中被训练为和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据。在至少一个实施例中,在使用一个或更多个实施例的方面训练和/或推理期间,代码和/或数据存储1305存储在输入/输出数据和/或权重参数的反向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,训练逻辑1315可以包括或耦合到用于存储图代码或其他软件以控制时序和/或顺序的代码和/或数据存储1305,其中权重和/或其他参数信息被加载以配置逻辑,该逻辑包括整数和/或浮点单元(统称为算术逻辑单元(alu))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器alu中。在至少一个实施例中,代码和/或数据存储1305的任何部分都可以与其他片上或片外数据存储一起包括,包括处理器的l1、l2或l3高速缓存或系统存储器。在至少一个实施例中,代码和/或数据存储1305的任何部分都可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,代码和/或数据存储1305可以是高速缓存存储器、dram、sram、非易失性存储器(例如闪存)或其他存储。在至少一个实施例中,代码和/或数据存储1305是在处理器的内部还是外部的选择,例如,或是由dram、sram、闪存还是其他某种存储类型组成,可以取决于可用存储是片上还是片外的,正在执行的训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据的批大小或这些因素的某种组合。[0143]在至少一个实施例中,代码和/或数据存储1301以及代码和/或数据存储1305可以是分开的存储结构。在至少一个实施例中,代码和/或数据存储1301以及代码和/或数据存储1305可以是相同的存储结构。在至少一个实施例中,代码和/或数据存储1301以及代码和/或数据存储1305可以部分地是相同的存储结构,部分地是分离的存储结构。在至少一个实施例中,代码和/或数据存储1301以及代码和/或数据存储1305的任何部分都可以与其他片上或片外数据存储一起被包括,包括处理器的l1、l2或l3高速缓存或系统存储器。[0144]在至少一个实施例中,推理和/或训练逻辑1315可以包括但不限于一个或更多个算术逻辑单元(“alu”)1310(包括整数和/或浮点单元),用于至少部分地基于训练和/或推理代码(例如,图代码)或由其指示来执行逻辑和/或数学运算,其结果可能会产生存储在激活存储1320中的激活(例如,来自神经网络内部的层或神经元的输出值),其是存储在代码和/或数据存储1301和/或代码和/或数据存储1305中的输入/输出和/或权重参数数据的函数。在至少一个实施例中,激活响应于执行指令或其他代码,由alu1310执行的线性代数和/或基于矩阵的数学生成在激活存储1320中存储的激活,其中存储在代码和/或数据存储1305中和/或代码和/或数据存储1301中的权重值用作具有其他值的操作数,例如偏置值、梯度信息、动量值或其他参数或超参数,可以将任何或所有这些存储在代码和/或数据存储1305或代码和/或数据存储1301或其他片上或片外存储中。[0145]在至少一个实施例中,一个或更多个处理器或其他硬件逻辑设备或电路中包括一个或更多个alu1310,而在另一实施例中,一个或更多个alu1310可以在处理器或其他硬件逻辑设备或使用它们(例如协处理器)的电路外。在至少一个实施例中,可以将一个或更多个alu1310包括在处理器的执行单元之内,或者以其他方式包括在由处理器的执行单元可访问的alu组中,该处理器的执行单元可以在同一处理器内或者分布在不同类型的不同处理器之间(例如,中央处理单元、图形处理单元、固定功能单元等)。在至少一个实施例中,代码和/或数据存储1301、代码和/或数据存储1305以及激活存储1320可以在相同的处理器或其他硬件逻辑设备或电路上,而在另一实施例中,它们可以在不同的处理器或其他硬件逻辑设备或电路中,或在相同和不同处理器或其他硬件逻辑设备或电路的某种组合中。在至少一个实施例中,激活存储1320的任何部分可以与其他片上或片外数据存储包括在一起,包括处理器的l1、l2或l3高速缓存或系统存储器。此外,推理和/或训练代码可以与处理器或其他硬件逻辑或电路可访问的其他代码一起存储,并可以使用处理器的提取、解码、调度、执行、退出和/或其他逻辑电路来提取和/或处理。[0146]在至少一个实施例中,激活存储1320可以是高速缓存存储器、dram、sram、非易失性存储器(例如,闪存)或其他存储。在至少一个实施例中,激活存储1320可以完全地或部分地在一个或更多个处理器或其他逻辑电路内部或外部。在至少一个实施例中,可以取决于片上或片外可用的存储,进行训练和/或推理功能的延迟要求,在推理和/或训练神经网络中使用的数据的批大小或这些因素的某种组合,选择激活存储1320是处理器的内部还是外部,例如,或者包含dram、sram、闪存或其他存储类型。在至少一个实施例中,图13a中所示的推理和/或训练逻辑1315可以与专用集成电路(“asic”)结合使用,例如来自google的处理单元、来自graphcoretm的推理处理单元(ipu)或来自intelcorp的(例如“lakecrest”)处理器。在至少一个实施例中,图13a所示的推理和/或训练逻辑1315可与中央处理单元(“cpu”)硬件,图形处理单元(“gpu”)硬件或其他硬件(例如现场可编程门阵列(“fpga”))结合使用。[0147]图13b示出了根据至少一个实施例的推理和/或训练逻辑1315。在至少一个实施例中,推理和/或训练逻辑1315可以包括但不限于硬件逻辑,其中计算资源被专用或以其他方式唯一地连同对应于神经网络内的一层或更多层神经元的权重值或其他信息一起使用。在至少一个实施例中,图13b中所示的推理和/或训练逻辑1315可以与专用集成电路(asic)结合使用,例如来自google的处理单元,来自graphcoretm的推理处理单元(ipu)或来自intel公司的(例如“lakecrest”)处理器。在至少一个实施例中,图13b中所示的推理和/或训练逻辑1315可以与中央处理单元(cpu)硬件、图形处理单元(gpu)硬件或其他硬件(例如现场可编程门阵列(fpga))结合使用。在至少一个实施例中,推理和/或训练逻辑1315包括但不限于代码和/或数据存储1301以及代码和/或数据存储1305,其可以用于存储代码(例如,图代码)、权重值和/或其他信息,包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图13b中所示的至少一个实施例中,代码和/或数据存储1301以及代码和/或数据存储1305中的每一个都分别与专用计算资源(例如计算硬件1302和计算硬件1306)相关联。在至少一个实施例中,计算硬件1302和计算硬件1306中的每一个包括一个或更多个alu,这些alu仅分别对存储在代码和/或数据存储1301和代码和/或数据存储1305中的信息执行数学函数(例如线性代数函数),执行函数的结果被存储在激活存储1320中。[0148]在至少一个实施例中,代码和/或数据存储1301和1305以及相应的计算硬件1302和1306中的每一个分别对应于神经网络的不同层,使得从代码和/或数据存储1301和计算硬件1302的一个“存储/计算对1301/1302”得到的激活提供作为代码和/或数据存储1305和计算硬件1306的下一个“存储/计算对1305/1306”的输入,以便反映神经网络的概念组织。在至少一个实施例中,每个存储/计算对1301/1302和1305/1306可以对应于一个以上的神经网络层。在至少一个实施例中,在推理和/或训练逻辑1315中可以包括在存储计算对1301/1302和1305/1306之后或与之并行的附加存储/计算对(未示出)。[0149]神经网络训练和部署[0150]图14示出了根据至少一个实施例的深度神经网络的训练和部署。在至少一个实施例中,使用训练数据集1402来训练未经训练的神经网络1406。在至少一个实施例中,训练框架1404是pytorch框架,而在其他实施例中,训练框架1404是tensorflow,boost,caffe,microsoftcognitivetoolkit/cntk,mxnet,chainer,keras,deeplearning4j或其他训练框架。在至少一个实施例中,训练框架1404训练未经训练的神经网络1406,并使它能够使用本文所述的处理资源来训练,以生成经训练的神经网络1408。在至少一个实施例中,权重可以被随机选择或通过使用深度信念网络预训练。在至少一个实施例中,可以以有监督、部分有监督或无监督的方式执行训练。[0151]在至少一个实施例中,使用有监督学习来训练未经训练的神经网络1406,其中训练数据集1402包括与用于输入的期望输出配对的输入,或者其中训练数据集1402包括具有已知输出的输入和神经网络1406是手动分级的输出。在至少一个实施例中,以有监督的方式来训练未经训练的神经网络1406,并且处理来自训练数据集1402的输入,并将结果输出与一组期望或想要的输出进行比较。在至少一个实施例中,然后通过未经训练的神经网络1406将误差传播回去。在至少一个实施例中,训练框架1404调整控制未经训练的神经网络1406的权重。在至少一个实施例中,训练框架1404包括用于监视未经训练的神经网络1406向模型(例如,经训练的神经网络1408)收敛的程度的工具,适于基于输入数据(例如新数据集1412)生成正确答案(例如结果1414)的模型。在至少一个实施例中,训练框架1404反复训练未经训练的神经网络1406,同时调整权重以使用损失函数和调整算法(例如随机梯度下降)来改善未经训练的神经网络1406的输出。在至少一个实施例中,训练框架1404训练未经训练的神经网络1406,直到未经训练的神经网络1406达到期望的精度为止。在至少一个实施例中,然后可以部署经训练的神经网络1408以实现任何数量的机器学习操作。[0152]在至少一个实施例中,使用无监督学习来训练未经训练的神经网络1406,其中未经训练的神经网络1406尝试使用未标记的数据来训练自己。在至少一个实施例中,无监督学习训练数据集1402将包括输入数据,而没有任何关联的输出数据或“地面实况”数据。在至少一个实施例中,未经训练的神经网络1406可以学习训练数据集1402内的分组,并且可以确定各个输入如何与未经训练的数据集1402相关。在至少一个实施例中,可以使用无监督训练来生成自组织图,其为一种类型的经训练的神经网络1408能够执行对减少新数据1412的维度有用的操作。在至少一个实施例中,无监督训练也可以用于执行异常检测,这允许识别新数据集1412中偏离新数据集1412的正常模式的数据点。[0153]在至少一个实施例中,可以使用半监督学习,这是一种技术,其中在训练数据集1402中包括标记数据和未标记数据的混合。在至少一个实施例中,训练框架1404可以用于例如通过转移的学习技术来执行递增学习。在至少一个实施例中,递增学习使得经训练的神经网络1408能够适应新数据1412,而不会忘记在初始训练期间注入到网络内的知识。[0154]数据中心[0155]图15示出了可以使用至少一个实施例的示例数据中心1500。在至少一个实施例中,数据中心1500包括数据中心基础设施层1510、框架层1520、软件层1530和应用层1540。[0156]在至少一个实施例中,如图15所示,数据中心基础设施层1510可以包括资源协调器1512、分组计算资源1514和节点计算资源(“节点c.r.”)1516(1)-1516(n),其中“n”表示正整数。在至少一个实施例中,节点c.r.1516(1)-1516(n)可以包括但不限于任何数量的中央处理单元(“cpu”)或其他处理器(包括加速器、现场可编程门阵列(fpga)、图形处理器等),存储器设备(例如动态只读存储器),存储设备(例如,固态硬盘或磁盘驱动器),网络输入/输出(“nwi/o”)设备,网络交换机,虚拟机(“vm”),电源模块和冷却模块等。在至少一个实施例中,节点c.r.1516(1)-1516(n)中的一个或更多个节点c.r.可以是具有一个或更多个上述计算资源的服务器。[0157]在至少一个实施例中,分组计算资源1514可以包括容纳在一个或更多个机架内的节点c.r.的单独分组(未示出),或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。分组的计算资源1514内的节点c.r.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中,可以将包括cpu或处理器的几个节点c.r.分组在一个或更多个机架内,以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中,一个或更多个机架还可以包括任何数量的电源模块、冷却模块和网络交换机,以任意组合。[0158]在至少一个实施例中,资源协调器1512可以配置或以其他方式控制一个或更多个节点c.r.1516(1)-1516(n)和/或分组的计算资源1514。在至少一个实施例中,资源协调器1512可以包括用于数据中心1500的软件设计基础结构(“sdi”)管理实体。在至少一个实施例中,资源协调器可以包括硬件、软件或其某种组合。[0159]在至少一个实施例中,如图15所示,框架层1520包括作业调度器1532、配置管理器1534、资源管理器1536和分布式文件系统1538。在至少一个实施例中,框架层1520可以包括支持软件层1530的软件1532和/或应用层1540的一个或更多个应用程序1542的框架。在至少一个实施例中,软件1532或应用程序1542可以分别包括基于web的服务软件或应用程序,例如由amazonwebservices,googlecloud和microsoftazure提供的服务或应用程序。在至少一个实施例中,框架层1520可以是但不限于一种免费和开放源软件网络应用程序框架,例如可以利用分布式文件系统1538来进行大范围数据处理(例如“大数据”)的apachesparktm(以下称为“spark”)。在至少一个实施例中,作业调度器1532可以包括spark驱动器,以促进对数据中心1500的各个层所支持的工作负载进行调度。在至少一个实施例中,配置管理器1534可以能够配置不同的层,例如软件层1530和包括spark和用于支持大规模数据处理的分布式文件系统1538的框架层1520。在至少一个实施例中,资源管理器1536能够管理映射到或分配用于支持分布式文件系统1538和作业调度器1532的集群或分组计算资源。在至少一个实施例中,集群或分组计算资源可以包括数据中心基础设施层1510上的分组计算资源1514。在至少一个实施例中,资源管理器1536可以与资源协调器1512协调以管理这些映射的或分配的计算资源。[0160]在至少一个实施例中,包括在软件层1530中的软件1532可以包括由节点c.r.1516(1)-1516(n)的至少一部分,分组的计算资源1514和/或框架层1520的分布式文件系统1538使用的软件。一种或更多种类型的软件可以包括但不限于internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。[0161]在至少一个实施例中,应用程序层1540中包括的一个或更多个应用程序1542可以包括由节点c.r.1516(1)-1516(n)的至少一部分、分组计算资源1514和/或框架层1520的分布式文件系统1538使用的一种或更多种类型的应用程序。一种或更多种类型的应用程序可以包括但不限于任何数量的基因组学应用程序、认知计算和机器学习应用程序,包括训练或推理软件,机器学习框架软件(例如pytorch、tensorflow、caffe等)或其他与一个或更多个实施例结合使用的机器学习应用程序。[0162]在至少一个实施例中,配置管理器1534、资源管理器1536和资源协调器1512中的任何一个可以基于以任何技术上可行的方式获取的任何数量和类型的数据来实现任何数量和类型的自我修改动作。在至少一个实施例中,自我修改动作可以减轻数据中心1500的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。[0163]在至少一个实施例中,数据中心1500可以包括工具、服务、软件或其他资源,以根据本文所述的一个或更多个实施例来训练一个或更多个机器学习模型或者使用一个或更多个机器学习模型来预测或推理信息。例如,在至少一个实施例中,可以通过使用上文关于数据中心1500描述的软件和计算资源,根据神经网络架构通过计算权重参数来训练机器学习模型。在至少一个实施例中,通过使用通过本文所述的一种或更多种训练技术计算出的权重参数,可以使用上面与关于数据中心1500所描述的资源,使用对应于一个或更多个神经网络的经训练的机器学习模型来推理或预测信息。[0164]在至少一个实施例中,数据中心可以使用cpu、专用集成电路(asic)、gpu、fpga或其他硬件来使用上述资源来执行训练和/或推理。此外,上述的一个或更多个软件和/或硬件资源可以配置成一种服务,以允许用户训练或执行信息推理,例如图像识别、语音识别或其他人工智能服务。[0165]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图15中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或体系架构,或者本文所述的神经网络用例计算的权重参数推理或预测操作。[0166]上述技术可用于例如实现用于执行人-机器人对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练成生成对如上所述的人手握住的对象的抓握。[0167]自主车辆[0168]图16a示出了根据至少一个实施例的自动驾驶车辆1600的示例。在至少一个实施例中,自动驾驶车辆1600(在本文中可替代地称为“车辆1600”)可以是但不限于客运车辆,例如汽车、卡车、公共汽车和/或可容纳一个或更多个乘客的另一种类型的车辆。在至少一个实施例中,车辆1600可以是用于拖运货物的半牵引车-拖车。在至少一个实施例中,车辆1600可以是飞机、机器人车辆或其他类型的车辆。[0169]可以根据由美国运输部下属的国家公路交通安全管理局(“nhtsa”)和汽车工程师学会(“sae”)“与用于道路机动车辆的驾驶自动化系统有关的术语(taxonomyanddefinitionsfortermsrelatedtodrivingautomationsystemsforon-roadmotorvehicles)”(例如,于2018年6月15日发布的标准号j3016-201806,于2016年9月30日发布的标准号j3016-201609,以及该版本的以前和将来的版本此标准)定义的自动化级别来描述自动驾驶汽车。在一个或更多个实施例中,车辆1600可能能够根据自动驾驶级别的级别1至级别5中的一个或更多个来进行功能。例如,在至少一个实施例中,根据实施例,车辆1600可能能够进行条件自动化(级别3)、高度自动化(级别4)和/或全自动(级别5)。[0170]人-机器人交互系统的各种实施例可以被集成到车辆中以辅助诸如包裹递送和仓库自动化之类的任务。例如,一个实施例可用于从人处接收包裹以进行递送,或为客户接收实物现金支付。[0171]在至少一个实施例中,车辆1600可以包括但不限于组件,诸如底盘、车身、车轮(例如2、4、6、8、18等)、轮胎、车轴和车辆的其他组件。在至少一个实施例中,车辆1600可以包括但不限于推进系统1650,例如内燃机、混合动力装置、全电动发动机和/或另一种推进系统类型。在至少一个实施例中,推进系统1650可以连接至车辆1600的传动系,其可以包括但不限于变速器,以使得能够对车辆1600进行推进。在至少一个实施例中,可以响应于从油门/加速器1652接收信号以控制推进系统1650。[0172]在至少一个实施例中,当推进系统1650正在运行时(例如,当车辆行驶时),转向系统1654(其可以包括但不限于方向盘)用于使车辆1600转向(例如,沿着期望的路径或路线)。在至少一个实施例中,转向系统1654可以从转向致动器1656接收信号。方向盘对于全自动化(级别5)功能可以是可选的。在至少一个实施例中,制动传感器系统1646可以用于响应于从制动致动器1648和/或制动传感器接收到的信号来操作车辆制动器。[0173]在至少一个实施例中,控制器1636可以包括但不限于一个或更多个片上系统(“soc”)(图16a中未示出)和/或图形处理单元(“gpu”)向车辆1600的一个或更多个组件和/或系统提供信号(例如,表示命令)。例如,在至少一个实施例中,控制器1636可以发送信号以通过制动致动器1648操作车辆制动,通过转向致动器1656操作转向系统1654,通过一个或更多个油门(throttle)/加速器1652操作推进系统1650。一个或更多个控制器1636可以包括一个或更多个机载(例如,集成)计算设备(例如,超级计算机),其处理传感器信号并输出操作命令(例如,表示命令的信号)以实现自动驾驶和/或协助驾驶员驾驶车辆1600。在至少一个实施例中,一个或更多个控制器1636可以包括用于自动驾驶功能的第一控制器1636,用于功能安全功能的第二控制器1636,用于人工智能功能(例如计算机视觉)的第三控制器1636,用于信息娱乐功能的第四控制器1636,用于紧急情况下的冗余的第五控制器1636和/或其他控制器。在至少一个实施例中,单个控制器1636可以处理上述功能中的两个或更多个,两个或更多控制器1636可以处理单个功能和/或其任何组合。[0174]在至少一个实施例中,一个或更多个控制器1636响应于从一个或更多个传感器(例如,传感器输入)接收到的传感器数据,提供用于控制车辆1600的一个或更多个组件和/或系统的信号。在至少一个实施例中,传感器数据可以从传感器接收,传感器类型例如但不限于一个或更多个全球导航卫星系统(“gnss”)传感器1658(例如,一个或更多个全球定位系统传感器)、一个或更多个radar传感器1660、一个或更多个超声波传感器1662、一个或更多个lidar传感器1664、一个或更多个惯性测量单元(imu)传感器1666(例如,一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁罗盘、一个或更多个磁力计等)、一个或更多个麦克风1696、一个或更多个立体声相机1668、一个或更多个广角相机1670(例如鱼眼相机)、一个或更多个红外相机1672、一个或更多个环绕相机1674(例如,360度相机)、远程相机(图16a中未示出)、中程相机(图16a中未示出)、一个或更多个速度传感器1644(例如,用于测量车辆1600的速度)、一个或更多个振动传感器1642、一个或更多个转向传感器1640、一个或更多个制动传感器(例如,作为制动传感器系统1646的一部分)和/或其他传感器类型接收。[0175]在至少一个实施例中,一个或更多个控制器1636可以从车辆1600的仪表板1632接收输入(例如,由输入数据表示)并通过人机接口(“hmi”)显示器1634、声音信号器、扬声器和/或车辆1600的其他组件提供输出(例如,由输出数据、显示数据等表示)。在至少一个实施例中,输出可包括信息,诸如车速、速度、时间、地图数据(例如,高清晰度地图(图16a中未显示)、位置数据(例如,车辆1600的位置,例如在地图上)、方向、其他车辆的位置(例如,占用光栅)、关于对象的信息以及由一个或更多个控制器1636感知到的对象的状态等。例如,在至少一个实施例中,hmi显示器1634可以显示关于一个或更多个对象的存在的信息(例如,路牌、警告标志、交通信号灯变更等)和/或有关驾驶操作车辆已经、正在或将要制造的信息(例如,现在改变车道、在两英里内驶出34b出口等)。[0176]在至少一个实施例中,车辆1600进一步包括网络接口1624,其可以使用一个或更多个无线天线1626和/或一个或更多个调制解调器通过一个或更多个网络进行通信。例如,在至少一个实施例中,网络接口1624可能能够通过长期演进(“lte”)、宽带码分多址(“wcdma”)、通用移动电信系统(“umts”)、全球移动通信系统(“gsm”)、imt-cdma多载波(“cdma2000”)等进行通信。在至少一个实施例中,一个或更多个无线天线1626还可以使用一个或更多个局域网(例如bluetooth、bluetoothlowenergy(le)、z-wave、zigbee等)和/或一个或更多个低功耗广域网(以下简称“lpwan”)(例如lorawan、sigfox等),使环境中的对象(例如,车辆、移动设备)之间进行通信。[0177]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图16a中用于至少部分地基于使用神经网络训练操作\神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。[0178]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0179]图16b示出了根据至少一个实施例的图16a的自动驾驶车辆1600的相机位置和视野的示例。在至少一个实施例中,相机和各自的视野是一个示例实施例,并且不旨在进行限制。例如,在至少一个实施例中,可以包括附加的和/或替代的相机和/或相机可以位于车辆1600上的不同位置。[0180]在至少一个实施例中,用于相机的相机类型可以包括但不限于可以适于与车辆1600的组件和/或系统一起使用的数字相机。一个或更多个相机可以以汽车安全完整性等级(“asil”)b和/或其他asil进行操作。在至少一个实施例中,根据实施例,相机类型可以具有任何图像捕获速率,例如60帧每秒(fps)、1220fps、240fps等。在至少一个实施例中,相机可以能够使用滚动快门、全局快门、另一种类型的快门或其组合。在至少一个实施例中,滤色器阵列可以包括红色透明透明(“rccc”)滤色器阵列、红色透明透明蓝色(“rccb”)滤色器阵列、红色蓝色绿色透明(“rbgc”)滤色器阵列、foveonx3滤色器阵列、拜耳(bayer)传感器(“rggb”)滤色器阵列、单色传感器滤色器阵列和/或其他类型的滤色器阵列。在至少一个实施例中,可以使用透明像素相机,例如具有rccc、rccb和/或rbgc滤色器阵列的相机,以努力提高光敏性。[0181]在至少一个实施例中,一个或更多个相机可以用于执行先进驾驶员辅助系统(“adas”)功能(例如,作为冗余或故障安全设计的一部分)。例如,在至少一个实施例中,可以安装多功能单声道相机以提供包括车道偏离警告、交通标志辅助和智能大灯控制的功能。在至少一个实施例中,一个或更多个相机(例如,所有相机)可以同时记录并提供图像数据(例如,视频)。[0182]在至少一个实施例中,可以将一个或更多个相机安装在安装组件中,例如定制设计的(三维(“3d”)打印的)组件,以便切出杂散光和来自在汽车内的反光(例如,仪表板的反射在挡风玻璃镜中反光),其可能会干扰相机的图像数据捕获能力。关于后视镜安装组件,在至少一个实施例中,后视镜组件可以是3d打印定制的,使得相机安装板匹配后视镜的形状。在至少一个实施例中,一个或更多个相机可以被集成到后视镜中。在至少一个实施例中,对于侧视相机,一个或更多个相机也可以集成在舱室的每个角落的四个支柱内。[0183]在至少一个实施例中,具有包括车辆1600前面的环境的部分的视野的相机(例如,前向相机)可以用于环视,以及在一个或更多个控制器1636和/或控制soc的帮助下帮助识别向前的路径和障碍物,从而提供对于生成占用网格和/或确定优选的车辆路径至关重要的信息。在至少一个实施例中,前向相机可以用于执行许多与lidar相同的adas功能,包括但不限于紧急制动、行人检测和避免碰撞。在至少一个实施例中,前向相机也可以用于adas功能和系统,包括但不限于车道偏离警告(“ldw”)、自动巡航控制(“acc”)和/或其他功能(例如交通标志识别)。[0184]在至少一个实施例中,各种相机可以用于前向配置,包括例如包括cmos(“互补金属氧化物半导体”)彩色成像器的单目相机平台。在至少一个实施例中,广角相机1670可以用于感知从外围进入的对象(例如,行人、过马路或自行车)。尽管在图16b中仅示出了一个广角相机1670,但是,在其他实施例中,车辆1600上可以有任何数量(包括零)的广角相机1670。在至少一个实施例中,任何数量的远程相机1698(例如,远程立体相机对)可用于基于深度的对象检测,尤其是对于尚未训练神经网络的对象。在至少一个实施例中,远程相机1698也可以用于对象检测和分类以及基本对象跟踪。[0185]在至少一个实施例中,任何数量的立体声相机1668也可以包括在前向配置中。在至少一个实施例中,一个或更多个立体声相机1668可以包括集成控制单元,该集成控制单元包括可缩放处理单元,该可缩放处理单元可以提供可编程逻辑(“fpga”)和具有单个芯片上集成的控制器局域网(“can”)或以太网接口的多核心微处理器。在至少一个实施例中,这样的单元可以用于生成车辆1600的环境的3d地图,包括对图像中所有点的距离估计。在至少一个实施例中,一个或更多个立体相机1668可以包括但不限于紧凑型立体视觉传感器,其可以包括但不限于两个相机镜头(左右分别一个)和一个图像处理芯片,其可以测量从车辆1600到目标对象的距离并使用所生成的信息(例如,元数据)来激活自主紧急制动和车道偏离警告功能。在至少一个实施例中,除了本文所述的那些之外,还可以使用其他类型的立体相机1668。[0186]在至少一个实施例中,具有包括车辆1600侧面的环境的一部分的视野的相机(例如,侧视相机)可以用于环绕查看,从而提供用于创建和更新占据网格的信息,以及产生侧面碰撞警告。例如,在至少一个实施例中,环绕相机1674(例如,如图16b所示的四个环绕相机1674)可以定位在车辆1600上。一个或更多个环绕相机1674可以包括但不限于,任意数量和组合的广角相机1670、一个或更多个鱼目镜头、一个或更多个360度相机和/或类似相机。例如,在至少一个实施例中,四个鱼目镜头相机可以位于车辆1600的前、后和侧面。在至少一个实施例中,车辆1600可以使用三个环绕相机1674(例如,左、右和后面),并且可以利用一个或更多个其他相机(例如,前向相机)作为第四个环视相机。[0187]在至少一个实施例中,具有包括车辆1600后方的环境的各部分的视野的相机(例如,后视相机)可以用于停车辅助、环视、后方碰撞警告、以及创建和更新占用网格。在至少一个实施例中,可以使用各种各样的相机,包括但不限于还适合作为一个或更多个前向相机的相机(例如,远程相机1698和/或一个或更多个中程相机1676、一个或更多个立体相机1668、一个或更多个红外相机1672等),如本文所述。[0188]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。结合图13a和/或图13b,在本文中提供了关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图16b的系统中使用,用于至少部分地基于使用神经网络训练操作计算出的权重参数、神经网络函数和/或架构、或本文所述的神经网络用例来推理或预测操作。[0189]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0190]图16c示出了根据至少一个实施例的图16a的自动驾驶车辆1600的示例系统架构的框图。在至少一个实施例中,图16c中的车辆1600的一个或更多个组件、一个或更多个特征和一个或更多个系统中的每一个都示出为经由总线1602连接。在至少一个实施例中,总线1602可包括但不限于can数据接口(在本文中可替代地称为“can总线”)。在至少一个实施例中,can可以是车辆1600内部的网络,用于帮助控制车辆1600的各种特征和功能,例如制动器的致动、加速、制动、转向、雨刷等。在一个实施例中,总线1602可以配置成具有数十个甚至数百个节点,每个节点具有其自己的唯一识别符(例如,canid)。在至少一个实施例中,可以读取总线1602以找到方向盘角度、地面速度、发动机每分钟转动次数(“rpm”)、按钮位置和/或其他车辆状态指示器。在至少一个实施例中,总线1602可以是符合asilb的can总线。[0191]在至少一个实施例中,除了can之外或来自can,可使用flexray和/或以太网(ethernet)。在至少一个实施例中,可以有任意数量的成型总线1602,其可以包括但不限于零或更多的can总线,零或更多的flexray总线,零或更多的以太网总线,和/或零或更多的使用其他协议的其他类型的总线。在至少一个实施例中,两个或更多个总线1602可以用于执行不同的功能,和/或可以用于冗余。例如,第一总线1602可以用于碰撞避免功能,并且第二总线1602可以用于致动控制。在至少一个实施例中,每个总线1602可以与车辆1600的任何组件通信,并且两个或更多个总线1602可以与相同的组件通信。在至少一个实施例中,任何数量的片上系统(“soc”)1604中的每一个,一个或更多个控制器1636中的每一个和/或车辆内的每个计算机都可以访问相同的输入数据(例如,来自车辆1600的传感器的输入),并且可以连接到公共总线,例如can总线。[0192]在至少一个实施例中,车辆1600可以包括一个或更多个控制器1636,诸如本文关于图16a所描述的那些。控制器1636可以用于多种功能。在至少一个实施例中,控制器1636可以耦合到车辆1600的各种其他组件和系统中的任何一个,并且可以用于控制车辆1600、车辆1600的人工智能、车辆1600的信息娱乐等。[0193]在至少一个实施例中,车辆1600可以包括任何数量的soc1604。soc1604中的每一个可以包括但不限于中央处理单元(“一个或更多个cpu”)1606、图形处理单元(“一个或更多个gpu”)1608、一个或更多个处理器1610、一个或更多个高速缓存1612、一个或更多个加速器1614、一个或更多个数据存储1616和/或其他未显示的组件和特征。在至少一个实施例中,一个或更多个soc1604可以用于在各种平台和系统中控制车辆1600。例如,在至少一个实施例中,一个或更多个soc1604可以与高清晰度(“hd”)地图1622在系统(例如,车辆1600的系统)中组合,该高清晰度地图1622可以经由网络接口1624从一个或更多个服务器(图16c中未示出)获得地图刷新和/或更新。[0194]在至少一个实施例中,一个或更多个cpu1606可以包括cpu集群或cpu复合体(在本文中可替代地称为“ccplex”)。在至少一个实施例中,一个或更多个cpu1606可以包括多个核心和/或二级(“l2”)高速缓存。例如,在至少一个实施例中,一个或更多个cpu1606可以在相互耦合的多处理器配置中包括八个核心。在至少一个实施例中,一个或更多cpu1606可以包括四个双核心集群,其中每个集群具有专用的l2高速缓存(例如,2mbl2高速缓存)。在至少一个实施例中,一个或更多cpu1606(例如,ccplex)可以配置成支持同时的集群操作,使得一个或更多cpu1606的集群的任何组合在任何给定的时间都可以是活跃的。[0195]在至少一个实施例中,一个或更多个cpu1606可以实现电源管理功能,这些功能包括但不限于以下特征中的一个或更多个:空闲时可以自动对各个硬件模块进行时钟门控以节省动态功率;当该核心由于执行等待中断(“wfi”)/事件等待(“wfe”)指令而未主动执行指令时,可以对每个核心时钟进行门控;每个核心都可以独立供电;当所有核心都被时钟门控或功率门控时,每个核心集群可以被独立地时钟门控;以及/或当所有核心都被功率门控时,每个核心集群可以被独立地功率门控。在至少一个实施例中,一个或更多cpu1606可以进一步实现用于管理功率状态的增强算法,其中指定了允许的功率状态和预期的唤醒时间,并且硬件/微码确定了针对核心、集群和ccplex输入的最佳功率状态。在至少一个实施例中,处理核心可以在软件中支持简化的功率状态输入序列,其中工作被分担给微码。[0196]在至少一个实施例中,一个或更多个gpu1608可以包括集成的gpu(在本文中或者称为“igpu”)。在至少一个实施例中,一个或更多个gpu1608可以是可编程的,并且对于并行工作负载可以是有效的。在至少一个实施例中,一个或更多个gpu1608可以使用增强的张量指令集。在一个实施例中,一个或更多个gpu1608可以包括一个或更多个流式微处理器,其中每个流式微处理器可以包括一级(“l1”)高速缓存(例如,具有至少96kb的存储容量的l1高速缓存),以及两个或更多个流式微处理器可以共享l2高速缓存(例如,具有512kb存储容量的l2高速缓存)。在至少一个实施例中,一个或更多个gpu1608可以包括至少八个流式微处理器。在至少一个实施例中,一个或更多个gpu1608可以使用计算应用程序编程接口(api)。在至少一个实施例中,一个或更多gpu1608可以使用一个或更多个并行计算平台和/或编程模型(例如,nvidia的cuda)。[0197]在至少一个实施例中,一个或更多个gpu1608可以经功耗优化以在汽车和嵌入式用例中获得最佳性能。例如,在一个实施例中,可以在鳍式场效应晶体管(“finfet”)上制造一个或更多个gpu1608。在至少一个实施例中,每个流式微处理器可以包含多个划分为多个块的混合精度处理核心,。例如但不限于,可以将64个pf32核心和32个pf64核心划分为四个处理块。在至少一个实施例中,可以为每个处理块分配16个fp32核心、8个fp64核心、16个int32核心、两个用于深度学习矩阵算术的混合精度nvidia张量核心、零级(“l0”)指令缓存、线程束调度器、分派单元和/或64kb寄存器文件。在至少一个实施例中,流式微处理器可以包括独立的并行整数和浮点数据路径来提供混合了计算和寻址运算的工作量的有效执行。在至少一个实施例中,流式微处理器可以包括独立的线程调度能力,以实现更细粒度的同步和并行线程之间的协作。在至少一个实施例中,流式微处理器可以包括组合的l1数据高速缓存和共享存储器单元,以便在简化编程的同时提高性能。[0198]在至少一个实施例中,一个或更多个gpu1608可以包括高带宽存储器(“hbm”)和/或16gbhbm2存储器子系统,以在一些示例中提供约900gb/秒的峰值存储带宽。在至少一个实施例中,除了或替代于hbm存储器,可以使用同步图形随机存取存储器(“sgram”),例如图形双倍数据速率类型的五同步随机存取存储器(“gddr5”)。[0199]在至少一个实施例中,一个或更多个gpu1608可以包括统一存储器技术。在至少一个实施例中,地址转换服务(“ats”)支持可以用于允许一个或更多个gpu1608直接访问一个或更多个cpu1606页表。在至少一个实施例中,当一个或更多个gpu1608中的gpu的一个存储器管理单元(“mmu”)经历未命中时,可以将地址转换请求发送到一个或更多个cpu1606。作为响应,在至少一个实施例中,一个或更多个cpu1606可以在其页面表中查找地址的虚拟-物理的映射并将转换传送回一个或更多个gpu1608。在至少一个实施例中,统一存储器技术可以允许单个统一虚拟地址空间用于一个或更多个cpu1606和一个或更多个gpu1608两者的存储器,从而简化了一个或更多个gpu1608的编程以及将应用程序移植到一个或更多个gpu1608。[0200]在至少一个实施例中,一个或更多个gpu1608可以包括任意数量的访问计数器,其可以跟踪一个或更多个gpu1608对其他处理器的存储器的访问频率。在至少一个实施例中,一个或更多个访问计数器可以帮助确保将存储器页移动到最频繁访问页面的处理器的物理存储器中,从而提高处理器之间共享的存储器范围的效率。[0201]在至少一个实施例中,一个或更多个soc1604可以包括任何数量的高速缓存1612,包括本文所述的那些。例如,在至少一个实施例中,一个或更多个高速缓存1612可以包括可用于一个或更多个cpu1606和一个或更多个gpu1608(例如,连接到cpu1606和gpu1608两者)的三级(“l3”)高速缓存。在至少一个实施例中,一个或更多个高速缓存1612可以包括回写式高速缓存,该回写式高速缓存可以例如通过使用高速缓存相干协议(例如,mei、mesi、msi等)来跟踪线的状态。在至少一个实施例中,尽管可以使用较小的高速缓存大小,根据实施例,l3高速缓存可以包括4mb或更多。[0202]在至少一个实施例中,一个或更多个soc1604可以包括一个或更多个加速器1614(例如,硬件加速器、软件加速器或其组合)。在至少一个实施例中,一个或更多个soc1604可以包括硬件加速集群,其可以包括优化的硬件加速器和/或大的片上存储器。在至少一个实施例中,大的片上存储器(例如4mb的sram)可以使硬件加速集群能够加速神经网络和其他计算。在至少一个实施例中,硬件加速集群可以用于补充一个或更多个gpu1608并且卸载一个或更多个gpu1608的一些任务(例如,释放一个或更多个gpu1608的更多周期以执行其他任务)。在至少一个实施例中,一个或更多个加速器1614可以用于足够稳定以经得起加速检验的目标工作负载(例如,感知、卷积神经网络(“cnn”)、递归神经网络(“rnn”)等)。在至少一个实施例中,cnn可以包括基于区域或区域卷积神经网络(“rcnn”)和快速rcnn(例如,如用于对象检测)或其他类型的cnn。[0203]在至少一个实施例中,一个或更多个加速器1614(例如,硬件加速集群)可以包括深度学习加速器(“dla”)。一个或更多个dla可以包括但不限于一个或更多个tensor处理单元(“tpu”),其可以配置成每秒提供额外的10万亿次操作用于深度学习应用程序和推理。在至少一个实施例中,tpu可以是配置成并被优化用于执行图像处理功能(例如,用于cnn、rcnn等)的加速器。在至少一个实施例中,可以针对神经网络类型和浮点运算以及推理的特定集合进一步优化一个或更多个dla。一个或更多个dla的设计可以提供比典型的通用gpu更高的每毫米性能,并且通常大大超过cpu的性能。在至少一个实施例中,一个或更多个tpu可执行若干功能,包括支持例如int8、int16和fp16数据类型以用于特征和权重的单实例卷积功能以及后处理器功能的。在至少一个实施例中,一个或更多个dla可以针对各种功能中的任何功能,在处理或未处理的数据上快速且有效地执行神经网络,尤其是cnn,包括例如但不限于:用于使用来自相机传感器的数据进行对象识别和检测的cnn;用于使用来自相机传感器的数据进行距离估算的cnn;用于使用来自麦克风1696的数据进行紧急车辆检测以及识别和检测的cnn;用于使用来自相机传感器的数据进行人脸识别和车主识别的cnn;以及/或用于安全和/或安全相关事件的cnn。[0204]在至少一个实施例中,dla可以执行一个或更多个gpu1608的任何功能,并且通过使用推理加速器,例如,设计者可以将一个或更多个dla或一个或更多个gpu1608作为目标用于任何功能。例如,在至少一个实施例中,设计者可以将cnn的处理和浮点运算集中在一个或更多个dla上,并将其他功能留给一个或更多个gpu1608和/或一个或更多个其他加速器1614。[0205]在至少一个实施例中,一个或更多个加速器1614(例如,硬件加速集群)可以包括可编程视觉加速器(“pva”),其在本文中可以可替代地称为计算机视觉加速器。在至少一个实施例中,一个或更多个pva可以设计和配置为加速用于高级驾驶员辅助系统(“adas”)1638、自动驾驶、增强现实(“ar”)应用程序和/或虚拟现实(“vr”)应用程序的计算机视觉算法。在至少一个实施例中,一个或更多个pva可以在性能和灵活性之间取得平衡。例如,在至少一个实施例中,一个或更多个pva中的每一个可以包括例如但不限于任何数量的精简指令集计算机(“risc”)核心、直接存储器访问(“dma”)和/或任意数量的向量处理器。[0206]在至少一个实施例中,risc核心可以与图像传感器(例如,本文描述的任意相机的图像传感器)、图像信号处理器等交互。在至少一个实施例中,每个risc核心可以包括任意数量的存储器。在至少一个实施例中,根据实施例,risc核心可以使用多种协议中的任意一种。在至少一个实施例中,risc核心可以执行实时操作系统(“rtos”)。在至少一个实施例中,可以使用一个或更多个集成电路设备、专用集成电路(“asic”)和/或存储设备来实现risc核心。例如,在至少一个实施例中,risc核心可以包括指令高速缓存和/或紧密耦合的ram。[0207]在至少一个实施例中,dma可以使pva的组件能够独立于一个或更多个cpu1606访问系统存储器。在至少一个实施例中,dma可以支持用于向pva提供优化的任何数量的特征,包括但不限于,支持多维寻址和/或循环寻址。在至少一个实施例中,dma可以支持多达六个或更多个寻址的维度,其可以包括但不限于块宽度、块高度、块深度、水平块步进、垂直块步进和/或深度步进。[0208]在至少一个实施例中,向量处理器可以是可编程处理器,其可以设计为有效且灵活地执行用于计算机视觉算法并提供信号处理能力的编程。在至少一个实施例中,pva可以包括pva核心和两个向量处理子系统分区。在至少一个实施例中,pva核心可以包括处理器子系统、dma引擎(例如,两个dma引擎)和/或其他外围设备。在至少一个实施例中,向量处理子系统可以用作pva的主要处理引擎,并且可以包括向量处理单元(“vpu”)、指令高速缓存和/或向量存储器(例如“vmem”)。在至少一个实施例中,vpu核心可以包括数字信号处理器,例如,单指令多数据(“simd”)、超长指令字(“vliw”)数字信号处理器。在至少一个实施例中,simd和vliw的组合可以提高吞吐量和速度。[0209]在至少一个实施例中,每个向量处理器可以包括指令高速缓存并且可以耦合到专用存储器。结果,在至少一个实施例中,每个向量处理器可以配置为独立于其他向量处理器执行。在至少一个实施例中,特定pva中包括的向量处理器可以配置为采用数据并行性。例如,在至少一个实施例中,单个pva中包括的多个向量处理器可以执行相同的计算机视觉算法,除了在图像的不同区域上之外。在至少一个实施例中,包括在特定pva中的向量处理器可以在一个图像上同时执行不同的计算机视觉算法,或者甚至在序列图像或部分图像上执行不同的算法。在至少一个实施例中,除其他外,在硬件加速集群中可以包括任何数量的pva,并且在每个pva中可以包括任何数量的向量处理器。在至少一个实施例中,pva可以包括附加的纠错码(“ecc”)存储器,以增强整体系统安全性。[0210]在至少一个实施例中,一个或更多个加速器1614(例如,硬件加速集群)可以包括片上计算机视觉网络和静态随机存取存储器(“sram”),用于为一个或更多个加速器1614提供高带宽,低延迟sram。在至少一个实施例中,片上存储器可以包括至少4mbsram,其包括例如但不限于八个现场可配置的内存块,pva和dla均可以对其进行访问。在至少一个实施例中,每对存储块可以包括高级外围总线(“apb”)接口、配置电路、控制器和多路复用器。在至少一个实施例中,可以使用任何类型的存储器。在至少一个实施例中,pva和dla可以经由为pva和dla提供对存储器的高速访问的主干网来访问存储器。在至少一个实施例中,主干网可以包括片上计算机视觉网络,其将pva和dla互连到存储器(例如,使用apb)。[0211]在至少一个实施例中,片上计算机视觉网络可以包括接口,该接口在传输任何控制信号/地址/数据之前确定pva和dla均提供就绪和有效信号。在至少一个实施例中,接口可以提供用于发送控制信号/地址/数据的单独的相位和单独的信道,以及用于连续数据传输的突发型通信。在至少一个实施例中,尽管可以使用其他标准和协议,但是接口可以符合国际标准化组织(“iso”)26262或国际电工委员会(“iec”)61508标准。[0212]在至少一个实施例中,一个或更多个soc1604可以包括实时视线追踪硬件加速器。在至少一个实施例中,实时视线追踪硬件加速器可以用于快速且有效地确定对象的位置和范围(例如,在世界模型内),以生成实时可视化模拟,以用于radar信号解释,用于声音传播合成和/或分析,用于sonar系统的模拟,用于一般的波传播模拟,与用于定位和/或其他功能的lidar数据进行比较,和/或用于其他用途。[0213]在至少一个实施例中,一个或更多个加速器1614(例如,硬件加速集群)具有用于自动驾驶的广泛用途。在至少一个实施例中,pva可以是可编程视觉加速器,其可以用于adas和自动驾驶汽车中的关键处理阶段。在至少一个实施例中,在低功耗和低延迟下pva的能力与需要可预测的处理的算法域良好匹配。换句话说,pva在半密集或密集的常规计算中表现出色,即使在小型数据集上也是如此,这些数据集需要具有低延迟和低功耗的可预测的运行时间。在至少一个实施例中,自主车辆(诸如车辆1600),pva被设计为运行经典的计算机视觉算法,因为它们在对象检测和整数数学运算方面是有效的。[0214]例如,根据技术的至少一个实施例,pva被用于执行计算机立体视觉。在至少一个实施例中,可以在一些示例中使用基于半全局匹配的算法,尽管这并不意味着限制性。在至少一个实施例中,用于3-5级自动驾驶的应用程序在运行中使用动态的估计/立体匹配(例如,从运动中恢复结构、行人识别、车道检测等)。在至少一个实施例中,pva可以对来自两个单目相机的输入执行计算机立体视觉功能。[0215]在至少一个实施例中,pva可以用于执行密集的光流。例如,在至少一个实施例中,pva可以处理原始radar数据(例如,使用4d快速傅立叶变换)以提供处理后的radar数据。在至少一个实施例中,例如,通过处理原始飞行时间数据以提供处理后的飞行时间数据,将pva用于飞行时间深度处理。[0216]在至少一个实施例中,dla可用于运行任何类型的网络以增强控制和驾驶安全性,包括例如但不限于神经网络,其输出用于每个对象检测的置信度。在至少一个实施例中,可以将置信度表示或解释为概率,或者表示为提供每个检测相对于其他检测的相对“权重”。在至少一个实施例中,置信度使系统能够做出进一步的决定,即关于哪些检测应当被认为是真正的阳性检测而不是假阳性检测。例如,在至少一个实施例中,系统可以为置信度设置阈值,并且仅将超过阈值的检测视为真阳性检测。在使用自动紧急制动(“aeb”)系统的实施例中,假阳性检测将导致车辆自动执行紧急制动,这显然是不希望的。在至少一个实施例中,高度自信的检测可以被认为是aeb的触发。在至少一个实施例中,dla可以运行用于回归置信度值的神经网络。在至少一个实施例中,神经网络可以将参数的至少一些子集作为其输入,例如包围盒尺寸,获得的地平面估计(例如,从另一子系统),与从神经网络和/或其他传感器(例如,一个或更多个lidar传感器1664或一个或更多个radar传感器1660)等获得的对象的车辆1600方向、距离、3d位置估计相关的一个或更多个imu传感器1666的输出。[0217]在至少一个实施例中,一个或更多个soc1604可以包括一个或更多个数据存储1616(例如,存储器)。在至少一个实施例中,一个或更多个数据存储1616可以是一个或更多个soc1604的片上存储器,其可以存储要在一个或更多个gpu1608和/或dla上执行的神经网络。在至少一个实施例中,一个或更多个数据存储1616可以具有足够大的容量以存储神经网络的多个实例以用于冗余和安全。在至少一个实施例中,一个或更多个数据存储1616可以包括l2或l3高速缓存。[0218]在至少一个实施例中,一个或更多个soc1604可以包括任何数量的处理器1610(例如,嵌入式处理器)。一个或更多个处理器1610可以包括启动和电源管理处理器,该启动和电源管理处理器可以是专用处理器和子系统,以处理启动电源和管理功能以及相关的安全实施。在至少一个实施例中,启动和电源管理处理器可以是一个或更多个soc1604启动序列的一部分,并且可以提供运行时电源管理服务。在至少一个实施例中,启动功率和管理处理器可以提供时钟和电压编程,辅助系统低功率状态转换,一个或更多个soc1604热和温度传感器管理和/或一个或更多个soc1604功率状态管理。在至少一个实施例中,每个温度传感器可以实现为其输出频率与温度成比例的环形振荡器,并且一个或更多个soc1604可以使用环形振荡器来检测一个或更多个cpu1606,一个或更多个gpu1608和/或一个或更多个加速器1614的温度。在至少一个实施例中,如果确定温度超过阈值,则启动和电源管理处理器可以进入温度故障例程,并将一个或更多个soc1604置于较低功耗状态和/或将车辆1600置于司机的安全停车图案(例如,使车辆1600安全停车)。[0219]在至少一个实施例中,一个或更多个处理器1610可以进一步包括一组嵌入式处理器,其可以用作音频处理引擎。在至少一个实施例中,音频处理引擎可以是音频子系统,其能够通过多个接口以及广泛且灵活范围的音频i/o接口为硬件提供对多通道音频的完全硬件支持。在至少一个实施例中,音频处理引擎是专用处理器核心,其具有带专用ram的数字信号处理器。[0220]在至少一个实施例中,一个或更多个处理器1610可以进一步包括始终在线的处理器引擎,该引擎可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。在至少一个实施例中,始终在线的处理器引擎上的处理器可以包括但不限于处理器核心、紧密耦合的ram、支持外围设备(例如,定时器和中断控制器)、各种i/o控制器外围设备以及路由逻辑。[0221]在至少一个实施例中,一个或更多个处理器1610可以进一步包括安全集群引擎,该安全集群引擎包括但不限于用于处理汽车应用程序的安全管理的专用处理器子系统。在至少一个实施例中,安全集群引擎可以包括但不限于两个或更多个处理器核心、紧密耦合的ram、支持外围设备(例如,定时器、中断控制器等)和/或路由逻辑。在安全模式下,在至少一个实施例中,两个或更多个核心可以以锁步模式操作,并且可以用作具有用以检测其操作之间的任何差异的比较逻辑的单个核心。在至少一个实施例中,一个或更多个处理器1610可以进一步包括实时相机引擎,该实时相机引擎可以包括但不限于用于处理实时相机管理的专用处理器子系统。在至少一个实施例中,一个或更多个处理器1610可以进一步包括高动态范围信号处理器,该高动态范围信号处理器可以包括但不限于图像信号处理器,该图像信号处理器是作为相机处理管线的一部分的硬件引擎。[0222]在至少一个实施例中,一个或更多个处理器1610可以包括视频图像合成器,该视频图像合成器可以是处理块(例如,在微处理器上实现),该处理块实现视频回放应用程序产生最终的视频所需要的视频后处理功能,以产生用于播放器窗口的最终图像。在至少一个实施例中,视频图像合成器可以在一个或更多个广角相机1670、一个或更多个环绕相机1674和/或一个或更多个舱内监控相机传感器上执行透镜畸变校正。在至少一个实施例中,优选地,由在soc1604的另一实例上运行的神经网络来监控舱室内监控相机传感器,该神经网络被配置为识别舱室事件并相应地做出响应。在至少一个实施例中,舱室内系统可以执行但不限于唇读以激活蜂窝服务和拨打电话、指示电子邮件、改变车辆的目的地、激活或改变车辆的信息娱乐系统和设置、或者提供语音激活的网上冲浪。在至少一个实施例中,当车辆以自主模式运行时,某些功能对于驾驶员是可用的,否则将其禁用。[0223]在至少一个实施例中,视频图像合成器可以包括用于同时空间和时间降噪的增强的时间降噪。例如,在至少一个实施例中,在运动发生在视频中的情况下,降噪适当地对空间信息加权,从而减小由相邻帧提供的信息的权重。在至少一个实施例中,在图像或图像的一部分不包括运动的情况下,由视频图像合成器执行的时间降噪可以使用来自先前图像的信息来降低当前图像中的噪声。[0224]在至少一个实施例中,视频图像合成器还可以配置为对输入的立体透镜帧执行立体校正。在至少一个实施例中,当使用操作系统桌面时,视频图像合成器还可以用于用户接口合成,并且不需要一个或更多个gpu1608来连续渲染新表面。在至少一个实施例中,当对一个或更多个gpu1608供电并使其活跃地进行3d渲染时,视频图像合成器可以被用于卸载一个或更多个gpu1608以改善性能和响应性。[0225]在至少一个实施例中,soc1604中的一个或更多个soc可以进一步包括用于从相机接收视频和输入的移动工业处理器接口(“mipi”)相机串行接口、高速接口和/或可用于相机和相关像素输入功能的视频输入块。在至少一个实施例中,一个或更多个soc1604可以进一步包括输入/输出控制器,该输入/输出控制器可以由软件控制并且可以被用于接收未提交给特定角色的i/o信号。[0226]在至少一个实施例中,soc1604中的一个或更多个soc可以进一步包括广泛的外围接口,以使得能够与外围设备、音频编码器/解码器(“编解码器”),电源管理和/或其他设备通信。一个或更多个soc1604可用于处理来自(例如,通过千兆位多媒体串行链路和以太网连接)相机、传感器(例如,一个或更多个lidar传感器1664,一个或更多个radar传感器1660等,其可以通过以太网连接)的数据,来自总线1602的数据(例如,车辆1600的速度、方向盘位置等),来自一个或更多个gnss传感器1658的数据(例如,通过以太网或can总线连接)等。在至少一个实施例中,soc1604中的一个或更多个soc可以进一步包括专用高性能海量存储控制器,其可以包括它们自己的dma引擎,并且可以用于使一个或更多个cpu1606摆脱常规数据管理任务。[0227]在至少一个实施例中,一个或更多个soc1604可以是具有灵活架构的端到端平台,其跨越自动化级别3-5级,从而提供利用并有效使用计算机视觉和adas技术来实现多样性和冗余的综合的功能安全架构,其提供了可提供灵活、可靠的驾驶软件堆栈以及深度学习工具的平台。在至少一个实施例中,一个或更多个soc1604可以比常规系统更快、更可靠,并且甚至在能量效率和空间效率上也更高。例如,在至少一个实施例中,一个或更多个加速器1614当与一个或更多个cpu1606、一个或更多个gpu1608以及一个或更多个数据存储装置1616结合时,可以提供用于3-5级自动驾驶车辆的快速、有效的平台。[0228]在至少一个实施例中,计算机视觉算法可以在cpu上执行,cpu可以使用高级编程语言(例如c编程语言)配置为在多种视觉数据上执行多种处理算法。然而,在至少一个实施例中,cpu通常不能满足许多计算机视觉应用程序的性能要求,例如与执行时间和功耗有关的性能要求。在至少一个实施例中,许多cpu不能实时执行复杂的对象检测算法,该算法被用于车载adas应用程序和实际3-5级自动驾驶车辆中。[0229]本文所述的实施例允许同时和/或序列地执行多个神经网络,并且允许将结果结合在一起以实现3-5级自动驾驶功能。例如,在至少一个实施例中,在dla或离散gpu(例如,一个或更多个gpu1620)上执行的cnn可包括文本和单词识别,从而允许超级计算机读取和理解交通标志,包括神经网络尚未被专门训练的标志。在至少一个实施例中,dla还可包括神经网络,该神经网络能够识别、解释并提供符号的语义理解,并将该语义理解传递给在cpucomplex上运行的路径规划模块。[0230]在至少一个实施例中,对于3、4或5级的驱动,可以同时运行多个神经网络。例如,在至少一个实施例中,由“警告标志声明:闪烁的灯指示结冰状况(caution:flashinglightsindicateicyconditions)”连通电灯一起组成的警告标志可以由多个神经网络独立地或共同地解释。在至少一个实施例中,可以通过第一部署的神经网络(例如,已经训练的神经网络)将该标志本身识别为交通标志,可以通过第二部署的神经网络来解释文本“闪烁的灯指示结冰状况(flashinglightsindicateicyconditions)”,其通知车辆的路径规划软件(最好在cpucomplex上执行):当检测到闪烁的灯光时,就会存在结冰状况。在至少一个实施例中,可以通过在多个帧上操作第三部署的神经网络来识别闪烁的灯,向车辆的路径规划软件通知存在(或不存在)闪烁的灯。在至少一个实施例中,所有三个神经网络可以同时运行,例如在dla内和/或在一个或更多个gpu1608上。[0231]在至少一个实施例中,用于面部识别和车辆所有者识别的cnn可以使用来自相机传感器的数据来识别授权驾驶员和/或车辆1600的所有者的存在。在至少一个实施例中,当所有者接近驾驶员门并打开灯时,常开传感器处理器引擎可用于解锁车辆,并且,在安全模式下,当所有者离开该车辆时,可用于禁用该车辆。以此方式,一个或更多个soc1604提供防止盗窃和/或劫车的保障。[0232]在至少一个实施例中,用于紧急车辆检测和识别的cnn可以使用来自麦克风1696的数据来检测和识别紧急车辆警报器。在至少一个实施例中,一个或更多个soc1604使用cnn来对环境和城市声音进行分类,以及对视觉数据进行分类。在至少一个实施例中,训练在dla上运行的cnn以识别紧急车辆的相对接近速度(例如,通过使用多普勒效应)。在至少一个实施例中,还可以训练cnn来识别针对车辆正在运行的区域的紧急车辆,如一个或更多个gnss传感器1658所识别。在至少一个实施例中,当在欧洲运行时,cnn将寻求检测欧洲警报器,而在美国时,cnn将寻求仅识别北美警报器。在至少一个实施例中,一旦检测到紧急车辆,就可以在一个或更多个超声波传感器1662的辅助下使用控制程序来执行紧急车辆安全例程、减速车辆、将车辆驶至路边、停车、和/或使车辆闲置,直到紧急车辆通过。[0233]在至少一个实施例中,车辆1600可以包括一个或更多个cpu1618(例如,一个或更多个离散cpu或一个或更多个dcpu),其可以经由高速互连(例如pcie)耦合到一个或更多个soc1604。在至少一个实施例中,一个或更多个cpu1618可以包括x86处理器,例如一个或更多个cpu1618可用于执行各种功能中的任何功能,例如包括在adas传感器和一个或更多个soc1604之间潜在的仲裁不一致的结果,和/或一个或更多个监控控制器1636的状态和健康和/或片上信息系统(“信息soc”)1630。[0234]在至少一个实施例中,车辆1600可以包括一个或更多个gpu1620(例如,一个或更多个离散gpu或一个或更多个dgpu),其可以经由高速互连(例如nvidia的nvlink)耦合到一个或更多个soc1604。在至少一个实施例中,一个或更多个gpu1620可以提供附加的人工智能功能,例如通过执行冗余和/或不同的神经网络,并且可以至少部分地基于来自车辆1600的传感器的输入(例如,传感器数据)来用于训练和/或更新神经网络。[0235]在至少一个实施例中,车辆1600可以进一步包括网络接口1624,其可以包括但不限于一个或更多个无线天线1626(例如,用于不同通信协议的一个或更多个无线天线,诸如蜂窝天线、蓝牙天线等)。在至少一个实施例中,网络接口1624可以用于使能通过互联网与云(例如,与服务器和/或其他网络设备),与其他车辆,和/或与计算设备(例如乘客的客户端设备)的无线连接。在至少一个实施例中,为了与其他车辆通信,可以在车辆1600和其他车辆之间建立直接链路和/或可以建立间接链路(例如,通过网络和互联网)。在至少一个实施例中,可以使用车辆到车辆的通信链路来提供直接链路。车辆到车辆的通信链路可以向车辆1600提供关于车辆1600附近的车辆的信息(例如,车辆1600前面、侧面和/或后面的车辆)。在至少一个实施例中,该前述功能可以是车辆1600的协作自适应巡航控制功能的一部分。[0236]在至少一个实施例中,网络接口1624可以包括soc,其提供调制和解调功能并使一个或更多个控制器1636能够通过无线网络进行通信。在至少一个实施例中,网络接口1624可以包括射频前端,用于从基带到射频的上转换以及从射频到基带的下转换。在至少一个实施例中,可以以任何技术上可行的方式执行频率转换。例如,可以通过公知的过程和/或使用超外差过程来执行频率转换。在至少一个实施例中,射频前端功能可以由单独的芯片提供。在至少一个实施例中,网络接口可以包括用于通过lte、wcdma、umts、gsm、cdma2000、蓝牙、蓝牙le、wi-fi、z-wave、zigbee、lorawan和/或其他无线协议进行通信的无线功能。[0237]在至少一个实施例中,车辆1600可以进一步包括一个或更多个数据存储1628,其可以包括但不限于片外(例如,一个或更多个soc1604)存储。在至少一个实施例中,一个或更多个数据存储1628可以包括但不限于一个或更多个存储元件,包括ram、sram、动态随机存取存储器(“dram”)、视频随机存取存储器(“vram”)、闪存、硬盘和/或其他组件和/或可以存储至少一位数据的设备。[0238]在至少一个实施例中,车辆1600可以进一步包括一个或更多个gnss传感器1658(例如,gps和/或辅助gps传感器),以辅助地图绘制、感知、占用光栅生成和/或路径规划功能。在至少一个实施例中,可以使用任何数量的gnss传感器1658,包括例如但不限于使用具有以太网的usb连接器连接到串行接口(例如rs-232)桥的gps。[0239]在至少一个实施例中,车辆1600可以进一步包括一个或更多个radar传感器1660。一个或更多个radar传感器1660可以由车辆1600用于远程车辆检测,即使在黑暗和/或恶劣天气条件下。在至少一个实施例中,radar功能安全等级可以是asilb。一个或更多个radar传感器1660可以使用can和/或总线1602(例如,以传输由一个或更多个radar传感器1660生成的数据)来进行控制和访问对象跟踪数据,在某些示例中可以访问以太网以访问原始数据。在至少一个实施例中,可以使用各种各样的radar传感器类型。例如但不限于,radar传感器1660中的一个或更多个传感器可适合于前、后和侧面radar使用。在至少一个实施例中,一个或更多个radar传感器1660是脉冲多普勒radar传感器。[0240]在至少一个实施例中,一个或更多个radar传感器1660可以包括不同的配置,例如具有窄视野的远程、具有宽事业的近程、近程侧面覆盖等。在至少一个实施例中,远程radar可以用于自适应巡航控制功能。在至少一个实施例中,远程radar系统可以提供通过两次或更多次独立扫描(例如在250m范围内)实现的宽广的视野。在至少一个实施例中,一个或更多个radar传感器1660可以帮助在静态对象和运动对象之间区分,并且可以被adas系统1638用于紧急制动辅助和向前碰撞警告。包括在远程radar系统中的一个或更多个传感器1660可以包括但不限于具有多个(例如六个或更多个)固定radar天线以及高速can和flexray接口的单基地多模式radar。在至少一个实施例中,具有六个天线、中央四个天线可以创建聚焦的波束图,该波束图设计为以较高的速度记录车辆1600的周围环境,而相邻车道的交通干扰最小。在至少一个实施例中,其他两个天线可以扩大视野,从而可以快速检测进入或离开车辆1600的车道的车辆。[0241]在至少一个实施例中,作为示例,中程radar系统可包括例如高达160m(前)或80m(后)的范围,以及高达42度(前)或150度(后)的视野。在至少一个实施例中,短程radar系统可以包括但不限于设计成安装在后保险杠的两端的任意数量的radar传感器1660。当安装在后保险杠的两端时,在至少一个实施例中,radar传感器系统可以产生两个光束,该两个光束不断地监测车辆后方和附近的盲点。在至少一个实施例中,短程radar系统可以在adas系统1638中用于盲点检测和/或车道改变辅助。[0242]在至少一个实施例中,车辆1600可以进一步包括一个或更多个超声传感器1662。可以定位在车辆1600的前、后和/或侧面位置的一个或更多个超声传感器1662可以用于停车辅助和/或创建和更新占用光栅。在至少一个实施例中,可以使用各种各样的超声传感器1662,并且可以将不同的超声传感器1662用于不同的检测范围(例如2.5m、4m)。在至少一个实施例中,超声传感器1662可以在asilb的功能安全等级下操作。[0243]在至少一个实施例中,车辆1600可以包括一个或更多个lidar传感器1664。一个或更多个lidar传感器1664可以用于对象和行人检测、紧急制动、避免碰撞和/或其他功能。在至少一个实施例中,一个或更多个lidar传感器1664可以处在功能安全等级asilb。在至少一个实施例中,车辆1600可以包括可以使用以太网的多个(例如,两个、四个、六个等)lidar传感器1664(例如,将数据提供给千兆以太网交换机)。[0244]在至少一个实施例中,一个或更多个lidar传感器1664可能能够提供针对360度视野的对象及其距离的列表。在至少一个实施例中,市售的一个或更多个lidar传感器1664例如可以具有大约100m的广告范围,具有2cm-3cm的精度,并且支持100mbps的以太网连接。在至少一个实施例中,可以使用一个或更多个非突出的lidar传感器。在这样的实施例中,一个或更多个lidar传感器1664可以被实现为可以嵌入到车辆1600的前、后、侧面和/或拐角位置中的小型设备。在至少一个实施例中,一个或更多个lidar传感器1664,在这样的实施例中,即使对于低反射率的对象,也可以提供高达120度的水平视野和35度的垂直视野,并且具有200m的范围。在至少一个实施例中,可将前向一个或更多个lidar传感器1664配置为用于45度至135度之间的水平视野。[0245]在至少一个实施例中,也可以使用lidar技术(诸如3d闪光lidar)。3d闪光lidar使用激光闪光作为传输源,以照亮车辆1600周围大约200m。在至少一个实施例中,闪光lidar单元包括但不限于接收器,该接收器记录激光脉冲传播时间和每个像素上的反射光,该像素又对应于从车辆1600到对象的范围。在至少一个实施例中,闪光lidar可以允许利用每个激光闪光来生成周围环境的高度准确且无失真的图像。在至少一个实施例中,可以部署四个闪光lidar传感器,在车辆1600的每一侧部署一个传感器。在至少一个实施例中,3d闪光lidar系统包括但不限于除了风扇(例如非扫描lidar设备)以外没有移动部件的固态3d视线阵列lidar相机。在至少一个实施例中,闪光lidar设备可以每帧使用5纳秒的i类(人眼安全)激光脉冲,并且可以捕获3d测距点云和共同登记的强度数据形式的反射激光。[0246]在至少一个实施例中,车辆还可包括一个或更多个imu传感器1666。在至少一个实施例中,一个或更多个imu传感器1666可位于车辆1600的后轴中心。在至少一个实施例中,一个或更多个imu传感器1666可以包括,例如但不限于,一个或更多个加速度计、一个或更多个磁力计、一个或更多个陀螺仪、一个或更多个磁罗盘、和/或其他传感器类型。在至少一个实施例中,例如在六轴应用程序中,一个或更多个imu传感器1666可以包括但不限于加速度计和陀螺仪。在至少一个实施例中,例如在九轴应用程序中,一个或更多个imu传感器1666可以包括但不限于加速度计、陀螺仪和磁力计。[0247]在至少一个实施例中,一个或更多个imu传感器1666可以实现为结合了微机电系统(“mems”)惯性传感器,高灵敏度gps接收器和先进的卡尔曼滤波算法的微型高性能gps辅助惯性导航系统(“gps/ins”),以提供位置、速度和姿态的估算;在至少一个实施例中,一个或更多个imu传感器1666可使车辆1600估算航向而无需来自磁传感器通过直接观测和关联从gps到一个或更多个imu传感器1666的速度变化来实现的输入。在至少一个实施例中,一个或更多个imu传感器1666和一个或更多个gnss传感器1658可以组合在单个集成单元中。[0248]在至少一个实施例中,车辆1600可以包括放置在车辆1600内和/或周围的一个或更多个麦克风1696。在至少一个实施例中,此外,一个或更多个麦克风1696可以用于紧急车辆检测和识别。[0249]在至少一个实施例中,车辆1600可以进一步包括任何数量的相机类型,包括一个或更多个立体相机1668、一个或更多个广角相机1670、一个或更多个红外相机1672、一个或更多个环绕相机1674、一个或更多个远程相机1698、一个或更多个中程相机1676和/或其他相机类型。在至少一个实施例中,相机可用于捕获车辆1600的整个外围周围的图像数据。在至少一个实施例中,所使用的相机的类型取决于车辆1600。在至少一个实施例中,相机类型的任何组合可以是用于在车辆1600周围提供必要覆盖范围。在至少一个实施例中,相机的数量可以根据实施例而不同。例如,在至少一个实施例中,车辆1600可以包括六个相机、七个相机、十个相机、十二个相机或其他数量的相机。在至少一个实施例中,相机可以作为示例但不限于支持千兆位多媒体串行链路(“gmsl”)和/或千兆位以太网。在至少一个实施例中,本文先前参照图16a和图16b可以更详细地描述了每个相机。[0250]在至少一个实施例中,车辆1600可以进一步包括一个或更多个振动传感器1642。一个或更多个振动传感器1642可以测量车辆1600的部件(例如,轴)的振动。例如,在至少一个实施例中,振动的变化可以指示路面的变化。在至少一个实施例中,当使用两个或更多个振动传感器1642时,振动之间的差异可以用于确定路面的摩擦或打滑(例如,当在动力驱动轴和自由旋转轴之间存在振动差异时)。[0251]在至少一个实施例中,车辆1600可以包括adas系统1638。adas系统1638可以包括但不限于soc。在至少一个实施例中,adas系统1638可以包括但不限于任何数量的自主/自适应/自动巡航控制(“acc”)系统、协作自适应巡航控制(“cacc”)系统、前撞警告(“fcw”)系统、自动紧急制动(“aeb”)系统、车道偏离警告(“ldw”)系统、车道保持辅助(“lka”)系统、盲区警告(“bsw”)系统、后方交叉交通警告(“rctw”)系统、碰撞警告(“cw”)系统、车道对中(“lc”)系统和/或其他系统、特征和/或功能及其组合。[0252]在至少一个实施例中,acc系统可以使用一个或更多个radar传感器1660、一个或更多个lidar传感器1664和/或任何数量的相机。在至少一个实施例中,acc系统可以包括纵向acc系统和/或横向acc系统。在至少一个实施例中,纵向acc系统监控并控制到紧紧地在车辆1600的前方的车辆的距离,并自动调节车辆1600的速度以保持与前方车辆的安全距离。在至少一个实施例中,横向acc系统执行距离保持,并在需要时建议车辆1600改变车道。在至少一个实施例中,横向acc与其他adas应用程序有关,例如lc和cw。[0253]在至少一个实施例中,cacc系统使用来自其他车辆的信息,该信息可以经由网络接口1624和/或一个或更多个无线天线1626从其他车辆接收经由无线链路或者间接经由网络连接(例如,经由互联网)接收。在至少一个实施例中,直接链路可以由车辆到车辆(“v2v”)的通信链路提供,而间接链路可以由基础设施到车辆(“i2v”)的通信链路提供。通常,v2v通信概念提供关于紧接在前的车辆(例如,紧接在车辆1600之前并与之在同一车道上的车辆)的信息,而i2v通信概念提供关于更前方交通的信息。在至少一个实施例中,cacc系统可以包括i2v和v2v信息源之一或两者。在至少一个实施例中,在给定车辆1600之前的车辆的信息的情况下,cacc系统可以更可靠,并且具有改善交通流的平滑度并减少道路拥堵的潜力。[0254]在至少一个实施例中,fcw系统被设计成向驾驶员警报危险,以便该驾驶员可以采取纠正措施。在至少一个实施例中,fcw系统使用前向相机和/或一个或更多个radar传感器1660(其耦合至专用处理器、dsp、fpga和/或asic),其电耦合至提供驾驶员反馈,例如显示器、扬声器和/或振动组件。在至少一个实施例中,fcw系统可以提供警告,例如以声音、视觉警告、振动和/或快速制动脉冲的形式。[0255]在至少一个实施例中,aeb系统检测与另一车辆或其他对象的即将发生的向前碰撞,并且如果驾驶员在指定的时间或距离参数内未采取纠正措施,则可以自动施加制动。在至少一个实施例中,aeb系统可以使用耦合到专用处理器、dsp、fpga和/或asic的一个或更多个前向相机和/或一个或更多个radar传感器1660。在至少一个实施例中,当aeb系统检测到危险时,aeb系统通常首先警告驾驶员采取纠正措施以避免碰撞,并且,如果该驾驶员没有采取纠正措施,则该aeb系统可以自动施加制动器以试图防止或至少减轻预测碰撞的影响。在至少一个实施例中,aeb系统可以包括诸如动态制动支持和/或即将发生碰撞的制动的技术。[0256]在至少一个实施例中,当车辆1600越过车道标记时,ldw系统提供视觉、听觉和/或触觉警告,例如方向盘或座椅振动,以警告驾驶员。在至少一个实施例中,当驾驶员诸如通过激活转向信号灯指示有意的车道偏离时,ldw系统不激活。在至少一个实施例中,ldw系统可以使用耦合到专用处理器、dsp、fpga和/或asic的面向正面的相机,其被电耦合到驾驶员反馈,诸如显示器、扬声器和/或振动组件。在至少一个实施例中,lka系统是ldw系统的一种变型。如果车辆1600开始离开车道,则lka系统提供转向输入或制动以校正车辆1600。[0257]在至少一个实施例中,bsw系统检测并警告汽车盲区中的车辆驾驶员。在至少一个实施例中,bsw系统可以提供视觉、听觉和/或触觉警报,以指示合并或改变车道是不安全的。在至少一个实施例中,当驾驶员使用转向灯时,bsw系统可以提供附加警告。在至少一个实施例中,bsw系统可以使用耦合到专用处理器、dsp、fpga和/或asic的一个或更多个面向后侧的相机和/或一个或更多个radar传感器1660,其电耦合到驾驶员反馈,诸如显示器、扬声器和/或振动组件。[0258]在至少一个实施例中,当在车辆1600倒车时在后相机范围之外检测到对象时,rctw系统可以提供视觉、听觉和/或触觉通知。在至少一个实施例中,rctw系统包括aeb系统,以确保应用程序车辆制动器以避免碰撞。在至少一个实施例中,rctw系统可以使用一个或更多个面向后方的radar传感器1660,其耦合到专用处理器、dsp、fpga和/或asic,其被电耦合以提供诸如显示器、扬声器和/或振动组件之类的驾驶员反馈。[0259]在至少一个实施例中,常规的adas系统可能易于产生误报结果,这可能使驾驶员烦恼和分散注意力,但通常不是灾难性的,因为常规的adas系统会警告驾驶员并允许该驾驶员决定安全状况是否真正存在并采取相应动作。在至少一个实施例中,在结果冲突的情况下,车辆1600本身决定是否听从主计算机或副计算机(例如,第一控制器1636或第二控制器1636)的结果。例如,在至少一个实施例中,adas系统1638可以是用于将感知信息提供给备份计算机合理性模块的备用和/或辅助计算机。在至少一个实施例中,备用计算机合理性监控器可以在硬件组件上运行冗余的各种软件,以检测感知和动态驾驶任务中的故障。在至少一个实施例中,可以将来自adas系统1638的输出提供给监控mcu。在至少一个实施例中,如果来自主计算机和辅助计算机的输出冲突,则监督mcu决定如何协调冲突以确保安全操作。[0260]在至少一个实施例中,主计算机可以配置为向监督mcu提供置信度分数,以指示该主计算机对所选结果的置信度。在至少一个实施例中,如果该置信度得分超过阈值,则该监督mcu可以遵循该主计算机的指示,而不管该辅助计算机是否提供冲突或不一致的结果。在至少一个实施例中,在置信度得分不满足阈值的情况下,并且在主计算机和辅助计算机指示不同的结果(例如,冲突)的情况下,监督mcu可以在计算机之间仲裁以确定适当的结果。[0261]在至少一个实施例中,监督mcu可以配置为运行神经网络,该神经网络被训练和配置为至少部分地基于来自主计算机和辅助计算机的输出来确定该辅助计算机提供错误警报的条件。在至少一个实施例中,监督mcu中的神经网络可以学习何时可以信任辅助计算机的输出,以及何时不能信任。例如,在至少一个实施例中,当该辅助计算机是基于radar的fcw系统时,该监督mcu中的神经网络可以学习fcw系统何时识别实际上不是危险的金属对象,例如会触发警报的排水格栅或井盖。在至少一个实施例中,当辅助计算机是基于相机的ldw系统时,当存在骑自行车的人或行人并且实际上车道偏离是最安全的操作时,监督mcu中的神经网络可以学会覆盖ldw。在至少一个实施例中,监督mcu可以包括适合于运行具有相关联的存储器的神经网络的dla或gpu中的至少一个。在至少一个实施例中,监督mcu可以包括和/或被包括为一个或更多个soc1604的组件。[0262]在至少一个实施例中,adas系统1638可以包括使用传统的计算机视觉规则执行adas功能的辅助计算机。在至少一个实施例中,该辅助计算机可以使用经典计算机视觉规则(如果-则),并且监督mcu中的神经网络的存在可以提高可靠性、安全性和性能。例如,在至少一个实施例中,多样化的实现方式和有意的非同一性使得整个系统更加容错,尤其是对于由软件(或软件-硬件接口)功能引起的故障。例如,在至少一个实施例中,如果在主计算机上运行的软件中存在软件漏洞或错误,并且在辅助计算机上运行的不相同的软件代码提供了相同的总体结果,则监督mcu可以更有把握地认为总体结果是正确,并且该主计算机上的软件或硬件中的漏洞不会导致重大错误。[0263]在至少一个实施例中,可以将adas系统1638的输出输入到主计算机的感知模块和/或主计算机的动态驾驶任务模块中。例如,在至少一个实施例中,如果adas系统1638由于正前方的对象而指示向前碰撞警告,则感知块可以在识别对象时使用该信息。在至少一个实施例中,如本文所述,辅助计算机可以具有其自己的神经网络,该神经网络经过训练从而降低了误报的风险。[0264]在至少一个实施例中,车辆1600可以进一步包括信息娱乐soc1630(例如,车载信息娱乐系统(ivi))。尽管被示出和描述为soc,但是在至少一个实施例中,信息娱乐系统soc1630可以不是soc,并且可以包括但不限于两个或更多个分立组件。在至少一个实施例中,信息娱乐soc1630可以包括但不限于硬件和软件的组合,其可以用于提供音频(例如,音乐、个人数字助理、导航指令、新闻、广播等)、视频(例如,电视、电影、流媒体等)、电话(例如,免提通话)、网络连接(例如,lte、wifi等)和/或信息服务(例如,导航系统、后停车辅助、无线电数据系统、与车辆相关的信息,例如燃油水平、总覆盖距离、制动燃油水平、油位、车门打开/关闭、空气滤清器信息等)到车辆1600。例如,信息娱乐soc1630可以包括收音机、磁盘播放器、导航系统、视频播放器、usb和蓝牙连接、汽车、车载娱乐系统、wifi、方向盘音频控制、免提语音控制、抬头显示器(“hud”)、hmi显示器1634、远程信息处理设备、控制面板(例如,用于控制各种组件、特征和/或系统和/或与之交互)和/或其他组件。在至少一个实施例中,信息娱乐soc1630可以进一步用于向车辆的用户提供信息(例如,视觉和/或听觉的),诸如来自adas系统1638的信息、自动驾驶信息(诸如计划的车辆操纵)、轨迹、周围环境信息(例如,交叉路口信息、车辆信息、道路信息等)和/或其他信息。[0265]在至少一个实施例中,信息娱乐soc1630可以包括任何数量和类型的gpu功能。在至少一个实施例中,信息娱乐soc1630可以通过总线1602(例如,can总线、以太网等)与车辆1600的其他设备、系统和/或组件通信。在至少一个实施例中,信息娱乐soc1630可以是耦合到监控mcu,使得信息娱乐系统的gpu可以在主控制器1636(例如,车辆1600的主计算机和/或备用计算机)发生故障的情况下执行一些自动驾驶功能。在至少一个实施例中,信息娱乐soc1630可以使车辆1600进入司机到安全停止模式,如本文所述。[0266]在至少一个实施例中,车辆1600可以进一步包括仪表板1632(例如,数字仪表板、电子仪表板、数字仪表操纵板等)。仪表板1632可以包括但不限于控制器和/或超级计算机(例如,离散控制器或超级计算机)。在至少一个实施例中,仪表板1632可以包括但不限于一组仪表的任何数量和组合,例如车速表、燃料水平、油压、转速表、里程表、转弯指示器、换档位置指示器、一个或更多个安全带警告灯、一个或更多个驻车制动警告灯、一个或更多个发动机故障灯、辅助约束系统(例如安全气囊)信息、照明控件、安全系统控件、导航信息等。在某些示例中,信息可能是在信息娱乐soc1630和仪表板1632之间显示和/或共享。在至少一个实施例中,仪表板1632可以被包括作为信息娱乐soc1630的一部分,反之亦然。[0267]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图16c中用于至少部分地基于使用神经网络训练操作/神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。[0268]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0269]图16d是根据至少一个实施例的在基于云的服务器与图16a的自动驾驶车辆1600之间进行通信的系统1676的图。在至少一个实施例中,系统1676可以包括但不限于一个或更多个服务器1678、一个或更多个网络1690以及任何数量和类型的车辆,包括车辆1600。在至少一个实施例中,一个或更多个服务器1678可以包括但不限于,多个gpu1684(a)-1684(h)(在本文中统称为gpu1684)、pcie交换机1682(a)-1682(d)(在本文中统称为pcie交换机1682),和/或cpu1680(a)-1680(b)(在本文中统称为cpu1680)。gpu1684、cpu1680和pcie交换机1682可以与高速连接线互连,例如但不限于,由nvidia开发的nvlink接口1688和/或pcie连接1686。在至少一个实施例中,gpu1684通过nvlink和/或nvswitchsoc连接,gpu1684和pcie交换机1682通过pcie互连连接。在至少一个实施例中,尽管示出了八个gpu1684、两个cpu1680和四个pcie交换机1682,但这并不旨在进行限制。在至少一个实施例中,一个或更多个服务器1678中的每一个可以包括但不限于任意数量的gpu1684、cpu1680和/或pcie交换机1682的任何组合。例如,在至少一个实施例中,一个或更多个服务器1678可各自包括八个、十六个、三十二个和/或更多个gpu1684。[0270]在至少一个实施例中,一个或更多个服务器1678可以通过一个或更多个网络1690并从车辆接收表示图像的图像数据,该图像示出了意外的或改变的道路状况,例如最近开始的道路工程。在至少一个实施例中,一个或更多个服务器1678可以通过一个或更多个网络1690并且向车辆传输神经网络1692、经更新的等神经网络1692,和/或地图信息1694,包括但不限于关于交通和道路状况的信息。在至少一个实施例中,对地图信息1694的更新可以包括但不限于对hd地图1622的更新,例如关于建筑工地、坑洼、便道、洪水和/或其他障碍物的信息。在至少一个实施例中,神经网络1692、经更新的等神经网络1692和/或地图信息1694可能是由从环境中的任何数量的车辆接收的数据中表示的新训练和/或经验产生的,和/或至少基于在数据中心执行的训练(例如,使用一个或更多个服务器1678和/或其他服务器)。[0271]在至少一个实施例中,一个或更多个服务器1678可以用于至少部分地基于训练数据来训练机器学习模型(例如,神经网络)。在至少一个实施例中,训练数据可以由车辆产生,和/或可以在模拟中产生(例如,使用游戏引擎)。在至少一个实施例中,标记任何数量的训练数据(例如,在相关的神经网络受益于监督学习的情况下)和/或经历其他预处理。在至少一个实施例中,没有对任何数量的训练数据进行标记和/或预处理(例如,在相关联的神经网络不需要监督学习的情况下)。在至少一个实施例中,一旦机器学习模型被训练,机器学习模型就可以被车辆使用(例如,通过一个或更多个网络1690传输到车辆,和/或机器学习模型可以被一个或更多个服务器1678使用以远程监控车辆。[0272]在至少一个实施例中,一个或更多个服务器1678可以从车辆接收数据并且将数据应用程序于最新的实时神经网络以用于实时智能推理。在至少一个实施例中,一个或更多个服务器1678可以包括由一个或更多个gpu1684供电的深度学习超级计算机和/或专用ai计算机,例如由nvidia开发的dgx和dgxstation机器。然而,在至少一个实施例中,一个或更多个服务器1678可以包括使用cpu供电的数据中心的深度学习基础设施。[0273]在至少一个实施例中,一个或更多个服务器1678的深度学习基础结构可能能够进行快速、实时的推理,并且可以使用该能力来评估和验证车辆1600中处理器、软件和/或相关硬件的健康。例如,在至少一个实施例中,深度学习基础设施可以从车辆1600接收周期性更新,例如车辆1600在该图像序列中所定位的图像序列和/或对象(例如,通过计算机视觉和/或其他机器学习对象分类技术)。在至少一个实施例中,深度学习基础设施可以运行其自己的神经网络以识别对象并将它们与车辆1600所识别的对象进行比较,并且,如果结果不匹配和深度学习基础设施断定车辆1600中的ai正在发生故障,则一个或更多个服务器1678可以将信号发送到车辆1600,以指示车辆1600的故障安全计算机采取控制、通知乘客并完成安全停车操作。[0274]在至少一个实施例中,一个或更多个服务器1678可以包括一个或更多个gpu1684和一个或更多个可编程推理加速器(例如nvidia的tensorrt3)。在至少一个实施例中,gpu驱动的服务器和推理加速的组合可以使实时响应成为可能。在至少一个实施例中,例如在性能不太关键的情况下,可以将由cpu、fpga和其他处理器驱动的服务器用于推理。[0275]在至少一个实施例中,硬件结构1315用于执行一个或更多个实施例。本文结合图13a和/或图13b提供关于硬件结构1315的细节。[0276]计算机系统[0277]图17是示出根据至少一个实施例示例性计算机系统的框图,该示例性计算机系统可以是具有互连的设备和组件的系统,片上系统(soc)或它们的某种形成有处理器的组合,该处理器可以包括执行单元以执行指令。在至少一个实施例中,根据本公开,例如本文所述的实施例,计算机系统1700可以包括但不限于组件,例如处理器1702,其执行单元包括逻辑以执行用于过程数据的算法。在至少一个实施例中,计算机系统1700可以包括处理器,例如可从加利福尼亚圣塔克拉拉的英特尔公司(intelcorporationofsantaclara,california)获得的处理器家族、xeontm、xscaletm和/或strongarmtm,coretm或nervanatm微处理器,尽管也可以使用其他系统(包括具有其他微处理器的pc、工程工作站、机顶盒等)。在至少一个实施例中,计算机系统1700可以执行可从华盛顿州雷蒙德市的微软公司(microsoftcorporationofredmond,wash.)获得的windows操作系统版本,尽管其他操作系统(例如unix和linux)、嵌入式软件和/或图形用户界面也可以使用。[0278]实施例可以用在其他设备中,例如手持设备和嵌入式应用程序。手持设备的一些示例包括蜂窝电话、互联网协议(internetprotocol)设备、数码相机、个人数字助理(“pda”)和手持pc。在至少一个实施例中,嵌入式应用程序可以包括微控制器、数字信号处理器(“dsp”)、片上系统、网络计算机(“netpc”)、机顶盒、网络集线器、广域网(“wan”)交换机,或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。[0279]在至少一个实施例中,计算机系统1700可包括但不限于处理器1702,该处理器1702可包括但不限于一个或更多个执行单元1708,以根据本文描述的技术执行机器学习模型训练和/或推理。在至少一个实施例中,系统1700是单处理器台式机或服务器系统,但是在另一实施例中,系统1700可以是多处理器系统。在至少一个实施例中,处理器1702可以包括但不限于复杂指令集计算机(“cisc”)微处理器、精简指令集计算(“risc”)微处理器、超长指令字(“vliw”)微处理器、实现指令集组合的处理器,或任何其他处理器设备,例如数字信号处理器。在至少一个实施例中,处理器1702可以耦合到处理器总线1710,该处理器总线1710可以在处理器1702与计算机系统1700中的其他组件之间传输数据信号。[0280]在至少一个实施例中,处理器1702可以包括但不限于1级(“l1”)内部高速缓存存储器(“cache”)1704。在至少一个实施例中,处理器1702可以具有单个内部高速缓存或多级内部缓存。在至少一个实施例中,高速缓存存储器可以驻留在处理器1702的外部。根据特定的实现和需求,其他实施例也可以包括内部和外部高速缓存的组合。在至少一个实施例中,寄存器文件1706可以在各种寄存器中存储不同类型的数据,包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。[0281]在至少一个实施例中,包括但不限于执行整数和浮点运算的逻辑的执行单元1708,其也位于处理器1702中。处理器1702还可以包括微码(“ucode”)只读存储器(“rom”),用于存储某些宏指令的微代码。在至少一个实施例中,执行单元1708可以包括用于处理封装指令集1709的逻辑。在至少一个实施例中,通过将封装指令集1709包括在通用处理器1702的指令集中,以及要执行指令的相关电路,可以使用通用处理器1702中的封装数据来执行许多多媒体应用程序使用的操作。在一个或更多个实施例中,可以通过使用处理器的数据总线的全宽度来在封装的数据上执行操作来加速和更有效地执行许多多媒体应用程序,这可能不需要在该处理器的数据总线上传输较小的数据单元来一次执行一个数据元素的一个或更多个操作。[0282]在至少一个实施例中,执行单元1708也可以用在微控制器、嵌入式处理器、图形设备、dsp和其他类型的逻辑电路中。在至少一个实施例中,计算机系统1700可以包括但不限于存储器1720。在至少一个实施例中,存储器1720可以被实现为动态随机存取存储器(“dram”)设备、静态随机存取存储器(“sram”)设备、闪存设备或其他存储器设备。存储器1720可以存储由处理器1702可以执行的由数据信号表示的指令1719和/或数据1721。[0283]在至少一个实施例中,系统逻辑芯片可以耦合到处理器总线1710和存储器1720。在至少一个实施例中,系统逻辑芯片可以包括但不限于存储器控制器集线器(“mch”)1716,并且处理器1702可以经由处理器总线1710与mch1716通信。在至少一个实施例中,mch1716可以提供到存储器1720的高带宽存储器路径1718以用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中,mch1716可以在处理器1702、存储器1720和计算机系统1700中的其他组件之间启动数据信号,并且在处理器总线1710、存储器1720和系统i/o1722之间桥接数据信号。在至少一个实施例中,系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中,mch1716可以通过高带宽存储器路径1718耦合到存储器1720,并且图形/视频卡1712可以通过加速图形端口(acceleratedgraphicsport)(“agp”)互连1714耦合到mch1716。[0284]在至少一个实施例中,计算机系统1700可以使用系统i/o1722,其是将mch1716耦合到i/o控制器集线器(“ich”)1730的专有集线器接口总线。在至少一个实施例中,ich1730可以通过本地i/o总线提供与某些i/o设备的直接连接。在至少一个实施例中,本地i/o总线可以包括但不限于用于将外围设备连接到存储器1720、芯片组和处理器1702的高速i/o总线。示例可以包括但不限于音频控制器1729、固件集线器(“flashbios”)1728、无线收发器1726、数据存储1724、包含用户输入和键盘接口的传统i/o控制器1723、串行扩展端口1727(例如通用串行总线(usb))和网络控制器1734。数据存储1724可以包括硬盘驱动器、软盘驱动器、cd-rom设备、闪存设备或其他大容量存储设备。[0285]在至少一个实施例中,图17示出了包括互连的硬件设备或“芯片”的系统,而在其他实施例中,图17可以示出示例性片上系统(soc)。在至少一个实施例中,图17中示出的设备可以与专有互连、标准化互连(例如,pcie)或其某种组合互连。在至少一个实施例中,系统1700的一个或更多个组件使用计算快速链路(cxl)互连来互连。[0286]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图17的系统中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。[0287]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0288]图18是示出根据至少一个实施例的用于利用处理器1810的电子设备1800的框图。在至少一个实施例中,电子设备1800可以是,例如但不限于,笔记本电脑、塔式服务器、机架服务器、刀片服务器、膝上型计算机、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。[0289]在至少一个实施例中,系统1800可以包括但不限于通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备的处理器1810。在至少一个实施例中,处理器1810使用总线或接口耦合,诸如i2c总线、系统管理总线(“smbus”)、低引脚数(lpc)总线、串行外围接口(“spi”)、高清音频(“hda”)总线、串行高级技术附件(“sata”)总线、通用串行总线(“usb”)(1、2、3版)或通用异步接收器/发送器(“uart”)总线。在至少一个实施例中,图18示出了系统,该系统包括互连的硬件设备或“芯片”,而在其他实施例中,图18可以示出示例性片上系统(soc)。在至少一个实施例中,图18中所示的设备可以与专有互连线、标准化互连(例如,pcie)或其某种组合互连。在至少一个实施例中,图18的一个或更多个组件使用计算快速链路(cxl)互连线来互连。[0290]在至少一个实施例中,图18可以包括显示器1824、触摸屏1825、触摸板1830、近场通信单元(“nfc”)1845、传感器集线器1840、热传感器1846、快速芯片组(“ec”)1835、可信平台模块(“tpm”)1838、bios/固件/闪存(“bios,fwflash”)1822、dsp1860、驱动器1820(例如固态磁盘(“ssd”)或硬盘驱动器(“hdd”))、无线局域网单元(“wlan”)1850、蓝牙单元1852、无线广域网单元(“wwan”)1856、全球定位系统(gps)1855、相机(“usb3.0相机”)1854(例如usb3.0相机)和/或以例如lpddr3标准实现的低功耗双倍数据速率(“lpddr”)存储器单元(“lpddr3”)1815。这些组件可以各自以任何合适的方式实现。[0291]在至少一个实施例中,其他组件可以通过本文所述的组件通信地耦合到处理器1810。在至少一个实施例中,加速度计1841、环境光传感器(“als”)1842、罗盘1843和陀螺仪1844可以可通信地耦合到传感器集线器1840。在至少一个实施例中,热传感器1839、风扇1837、键盘1836和触摸板1830可以通信地耦合到ec1835。在至少一个实施例中,扬声器1863、耳机1864和麦克风(“mic”)1865可以通信地耦合到音频单元(“音频编解码器和d类放大器”)1862,其又可以通信地耦合到dsp1860。在至少一个实施例中,音频单元1862可以包括例如但不限于音频编码器/解码器(“编解码器”)和d类放大器。在至少一个实施例中,sim卡(“sim”)1857可以通信地耦合到wwan单元1856。在至少一个实施例中,组件(诸如wlan单元1850和蓝牙单元1852以及wwan单元1856)可以被实现为下一代形式因素(ngff)。[0292]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图18中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。[0293]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0294]图19示出了根据至少一个实施例的计算机系统1900。在至少一个实施例中,计算机系统1900配置为实现贯穿本公开描述的各种过程和方法。[0295]在至少一个实施例中,计算机系统1900包括但不限于至少一个中央处理单元(“cpu”)1902,该中央处理单元(“cpu”)1902连接到使用任何合适协议实现的通信总线1910,诸如pci(“外围设备互联”)、外围组件互连express(“pci-express”)、agp(“加速图形端口”)、超传输或任何其他总线或点对点通信协议。在至少一个实施例中,计算机系统1900包括但不限于主存储器1904和控制逻辑(例如,实现为硬件、软件或其组合),并且数据可以采取随机存取存储器(“ram”)的形式存储在主存储器1904中。在至少一个实施例中,网络接口子系统(“网络接口”)1922提供到其他计算设备和网络的接口,用于从来自计算机系统1900的其他系统接收数据以及将数据传输到来自计算机系统1900的其他系统。[0296]在至少一个实施例中,计算机系统1900在至少一个实施例中包括但不限于输入设备1908、并行处理系统1912和显示设备1906,它们可以使用常规的阴极视线管(“crt”)、液晶显示器(“lcd”)、发光二极管(“led”)、等离子显示器或其他合适的显示技术实现。在至少一个实施例中,从输入设备1908(诸如键盘、鼠标、触摸板、麦克风等)接收用户输入。在至少一个实施例中,前述模块中的每一个可以位于单个半导体平台上以形成处理系统。[0297]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图19中使用,以至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来进行推理或预测操作。[0298]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0299]图20示出了根据至少一个实施例的计算机系统2000。在至少一个实施例中,计算机系统2000包括但不限于计算机2010和usb盘2020。在至少一个实施例中,计算机2010可以包括但不限于任何数量和类型的处理器(未示出)和存储器(未示出)。在至少一个实施例中,计算机2010包括但不限于服务器、云实例、膝上型计算机和台式计算机。[0300]在至少一个实施例中,usb盘2020包括但不限于处理单元2030、usb接口2040和usb接口逻辑2050。在至少一个实施例中,处理单元2030可以是任何指令执行系统、装置或能够执行指令的设备。在至少一个实施例中,处理单元2030可以包括但不限于任何数量和类型的处理核心(未示出)。在至少一个实施例中,处理核心2030包括专用集成电路(“asic”),该专用集成电路被优化为执行与机器学习相关联的任何数量和类型的操作。例如,在至少一个实施例中,处理核心2030是张量处理单元(“tpc”),其被优化以执行机器学习推理操作。在至少一个实施例中,处理核心2030是视觉处理单元(“vpu”),其被优化以执行机器视觉和机器学习推理操作。[0301]在至少一个实施例中,usb接口2040可以是任何类型的usb连接器或usb插座。例如,在至少一个实施例中,usb接口2040是用于数据和电源的usb3.0type-c插座。在至少一个实施例中,usb接口2040是usb3.0type-a连接器。在至少一个实施例中,usb接口逻辑2050可以包括使处理单元2030能够经由usb连接器2040与设备(例如计算机2010)相连接的任何数量和类型的逻辑。[0302]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在系统图20中使用,至少部分地基于使用神经网络训练操作计算出的权重参数、神经网络函数和/或架构或本文所述的神经网络用例来推理或预测操作。[0303]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0304]图21a示出了示例性架构,其中多个gpu2110-2113通过高速链路2140-2143(例如,总线/点对点互连等)通信地耦合到多个多核心处理器2105-2106。在一个实施例中,高速链路2140-2143支持4gb/s、30gb/s、80gb/s或更高的通信吞吐量。可以使用各种互连协议,包括但不限于pcie4.0或5.0以及nvlink2.0。[0305]此外,在一个实施例中,两个或更多个gpu2110-2113通过高速链路2129-2130互连,该高速链路可以使用与用于高速链路2140-2143的协议/链路相同或不同的协议/链路来实现。类似地,两个或更多个多核心处理器2105-2106可以通过高速链路2128连接,该高速链路可以是以20gb/s、30gb/s、120gb/s或更高的速度运行的对称多处理器(smp)总线。可替代地,可以使用系统的协议/链路(例如,通过公共互连结构)来完成图21a中所示的各种系统组件之间的所有通信。[0306]在一个实施例中,每个多核心处理器2105-2106分别经由存储器互连2126-2127通信地耦合到处理器存储器2101-2102,并且每个gpu2110-2113分别通过gpu存储器互连2150-2153通信地耦合到gpu存储器2120-2123。在至少一个实施例中,存储器互连2126-2127和2150-2153可以利用相似或不同的存储器访问技术。作为示例而非限制,处理器存储器2101-2102和gpu存储器2120-2123可以是易失性存储器,诸如动态随机存取存储器(dram)(包括堆叠的dram)、图形ddrsdram(gddr)(例如gddr5、gddr6),或高带宽存储器(hbm),和/或可以是非易失性存储器,例如3dxpoint或nano-ram。在一个实施例中,处理器存储器2101-2102的某些部分可以是易失性存储器,而另一部分可以是非易失性存储器(例如,使用两级存储器(2lm)层次结构)。[0307]如本文所述,尽管各种处理器2105-2106和gpu2110-2113可以分别物理地耦合到特定存储器2101-2102、2120-2123,可以实现统一存储器架构,其中相同虚拟系统地址空间(也称为“有效地址”空间)分布在各个物理存储器之间。例如,处理器存储器2101-2102可以各自包含64gb的系统存储器地址空间,并且在该示例中,gpu存储器2120-2123可以各自包含32gb的系统存储器地址空间,导致总计256gb的可寻址存储器大小。[0308]图21b示出了根据一个示例性实施例的用于多核心处理器2107和图形加速模块2146之间互连的附加细节。在至少一个实施例中,图形加速模块2146可以包括集成在线路卡上的一个或更多个gpu芯片,该线路卡经由高速链路2140(耦合到处理器2107。替代地,图形加速模块2146可以集成在与处理器2107相同的封装或芯片上。[0309]在至少一个实施例中,示出的处理器2107包括多个核心2160a-2160d,每个核心都具有转换后备缓冲区2161a-2161d和一个或更多个高速缓存2162a-2162d。在至少一个实施例中,核心2160a-2160d可以包括未示出的各种其他组件,用于执行指令和处理数据。高速缓存2162a-2162d可以包括级别1(l1)和级别2(l2)高速缓存。此外,一个或更多个共享高速缓存2156可以被包括在高速缓存2162a-2162d中,并且由各组核心2160a-2160d共享。例如,处理器2107的一个实施例包括24个核心,每个核心具有其自己的l1高速缓存,十二个共享的l2高速缓存,和十二个共享的l3高速缓存。在该实施例中,两个相邻核心共享一个或更多个l2和l3高速缓存。处理器2107和图形加速模块2146与系统存储器2114连接,该系统存储器2114可以包括图21a中的处理器存储器2101-2102。[0310]通过一致性总线2164经由核心间通信为存储在各个高速缓存2162a-2162d、2156和系统存储器2114中的数据和指令维护一致性。在至少一个实施例中,例如,每个高速缓存可以具有与其相关联的高速缓存一致性逻辑/电路,以响应于检测到对特定高速缓存行的读取或写入通过一致性总线2164进行通信。在一个实施例中,通过一致性总线2164实现高速缓存监听协议,以监听(snoop)高速缓存访问。[0311]在至少一个实施例中,代理电路2125将图形加速模块2146通信地耦合到一致性总线2164,从而允许图形加速模块2146作为核心2160a-2160d的对等方参与高速缓存一致性协议。特别地,接口2135通过高速链路2140(例如,pcie总线、nvlink等)提供到代理电路2125的连接,并且接口2137将图形加速模块2146连接到链路2140。[0312]在一个实施例中,加速器集成电路2136表示图形加速模块2146的多个图形处理引擎2131,2132,n提供高速缓存管理、存储器访问、上下文管理和中断管理服务。在至少一个实施例中,图形处理引擎2131,2132,n可各自包括单独的图形处理单元(gpu)。可选地,图形处理引擎2131,2132,n包括gpu内的不同类型的图形处理引擎,诸如图形执行单元、媒体处理引擎(例如,视频编码器/解码器)、采样器和blit引擎。在至少一个实施例中,图形加速模块2146可以是具有多个图形处理引擎2131-2132,n的gpu,或者图形处理引擎2131-2132,n可以是集成在通用封装、线路卡或芯片上的各个gpu。[0313]在一个实施例中,加速器集成电路2136包括存储器管理单元(mmu)2139,用于执行各种存储器管理功能,例如虚拟到物理存储器转换(也称为有效到真实存储器转换),还包括用于访问系统存储器2114的存储器访问协议。mmu2139还可包括转换后备缓冲区(“tlb”)(未示出),用于高速缓存虚拟/有效到物理/真实地址转换。在一个实施例中,高速缓存2138存储命令和数据,用于图形处理引擎2131-2132,n有效地访问。在一个实施例中,将存储在高速缓存2138和图形存储器2133-2134,m中的数据与核心高速缓存2162a-2162d、2156和系统存储器2114保持一致。如前所述,可以经由表示高速缓存2138和图形存储器2133-213,m的代理电路2125来完成该任务(例如,将与处理器高速缓存2162a-2162d、2156上的高速缓存行的修改/访问有关的更新发送到高速缓存2138,并从高速缓存2138接收更新)。[0314]一组寄存器2145存储由图形处理引擎2131-2132,n执行的线程的上下文数据,并且上下文管理电路2148管理线程上下文。例如,上下文管理电路2148可以执行保存和恢复操作,以在上下文切换期间保存和恢复各个线程的上下文(例如,其中保存第一线程并且存储第二线程,以便可以由图形处理引擎执行第二线程)。例如,上下文管理电路2148在上下文切换时,可以将当前寄存器值存储到存储器中的(例如,由上下文指针标识的)指定区域。然后,当返回上下文时可以恢复寄存器值。在一个实施例中,中断管理电路2147接收并处理从系统设备接收的中断。[0315]在一个实现方式中,mmu2139将来自图形处理引擎2131的虚拟/有效地址转换为系统存储器2114中的真实/物理地址。在至少一个实施例中,加速器集成电路2136支持多个(例如,4、8、16)图形加速器模块2146和/或其他加速器设备。图形加速器模块2146可以专用于在处理器2107上执行的单个应用程序,或者可以在多个应用程序之间共享。在一个实施例中,呈现了虚拟化的图形执行环境,其中图形处理引擎2131-2132,n的资源与多个应用程序或虚拟机(vm)共享。在至少一个实施例中,可以基于处理要求和与vm和/或应用程序相关联的优先级,将资源细分为“切片”,其被分配给不同的vm和/或应用程序。[0316]在至少一个实施例中,加速器集成电路2136作为图形加速模块2146的系统的桥来执行,并提供地址转换和系统存储器高速缓存服务。另外,加速器集成电路2136可以为主机处理器提供虚拟化设施,以管理图形处理引擎2131-2132的虚拟化、中断和存储器管理。[0317]由于图形处理引擎2131-2132,n的硬件资源被明确地映射到主机处理器2107看到的真实地址空间,因此任何主机处理器都可以使用有效地址值直接寻址这些资源。加速器集成电路2136的一个功能是物理分离图形处理引擎2131-2132,n,使得它们在系统看来为独立的单元。[0318]在至少一个实施例中,一个或更多个图形存储器2133-2134,m分别耦合到每个图形处理引擎2131-2132,n。图形存储器2133-2134,m存储指令和数据,所述指令和数据由每个图形处理引擎2131-2132,n处理。图形存储器2133-2134,m可以是易失性存储器,例如dram(包括堆叠的dra2133-2134,m、gddr存储器(例如,gddr5,gddr6)或hbm,和/或可以是非易失性存储器,例如3dxpoint或nano-ram。[0319]在一个实施例中,为了减少链路2140上的数据流量,使用偏置技术以确保存储在图形存储器2133-2134,m中的数据是图形处理引擎2131-2132,n最常使用的,并且最好核心2160a-2160d不使用(至少不经常使用)的数据。类似地,偏置机制试图将核心(并且优选地不是图形处理引擎2131-2132,n)需要的数据保持在核心的高速缓存2162a-2162d、2156和系统存储器2114中。[0320]图21c示出了另一个示例性实施例,其中加速器集成电路2136被集成在处理器2107内。在该实施例中,图形处理引擎2131-2132,n经由接口2137和接口2135(同样可以是任何形式的总线或接口协议)通过高速链路2140直接与加速器集成电路2136通信。加速器集成电路2136可以执行与关于图21b描述的操作相同的操作。但是由于它紧密靠近一致性总线2164和高速缓存2162a-2162d、2156,可能具有更高的吞吐量。一个实施例支持不同的编程模型,包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(具有虚拟化),所述编程模型可以包括由加速器集成电路2136控制的编程模型和由图形加速模块2146控制的编程模型。[0321]在至少一个实施例中,图形处理引擎2131-2132,n专用于单个操作系统下的单个应用程序或进程。在至少一个实施例中,单个应用程序可以将其他应用程序请求汇聚(funnel)到图形处理引擎2131-2132,n,从而在vm/分区内提供虚拟化。[0322]在至少一个实施例中,图形处理引擎2131-2132,n可以被多个vm/应用程序分区共享。在至少一个实施例中,共享模型可以使用系统管理程序来虚拟化图形处理引擎2131-2132,n,以允许每个操作系统进行访问。在至少一个实施例中,对于没有管理程序的单分区系统,操作系统拥有图形处理引擎2131-2132,n。在至少一个实施例中,操作系统可以虚拟化图形处理引擎2131-2132,n,以提供对每个进程或应用程序的访问。[0323]在至少一个实施例中,图形加速模块2146或个体图形处理引擎2131-2132,n使用进程句柄来选择进程元素。在一个实施例中,进程元素被存储在系统存储器2114中,并且可使用本文所述的有效地址到真实地址转换技术来寻址。在至少一个实施例中,进程句柄可以是特定于实现方式的值,其在向图形处理引擎2131-2132,n注册其上下文时提供给主机进程(即,调用系统软件以将进程元素添加到进程元素链接列表)。在至少一个实施例中,进程句柄的较低16位可以是进程元素在进程元素链接列表中的偏移量。[0324]图21d示出了示例性加速器集成切片2190。如本文所使用的,“切片”包括加速器集成电路2136的处理资源的指定部分。应用程序是系统存储器2114中的有效地址空间2182,其存储进程元素2183。在至少一个实施例中,响应于来自在处理器2107上执行的应用程序2180的gpu调用2181,存储进程元素2183。在至少一个实施例中,进程元素2183包含相应的应用程序2180的进程状态。在一个实施例中,包含在进程元素2183中的工作描述符(wd)2184可以是由应用程序请求的单个作业,或者可以包含指向作业队列的指针。在至少一个实施例中,wd2184是指向应用程序的地址空间2182中的作业请求队列的指针。[0325]图形加速模块2146和/或各个图形处理引擎2131-2132,n可以由系统中所有进程或进程子集共享。在至少一个实施例中,可以包括用于设置进程状态并将wd2184发送到图形加速模块2146以在虚拟化环境中开始作业的基础设施。[0326]在至少一个实施例中,专用进程编程模型是特定于实现方式的。在该模型中,单个进程拥有图形加速模块2146或个体图形处理引擎2131。由于图形加速模块2146由单个进程拥有,管理程序初始化用于所拥有的分区的加速器集成电路,当指派了图形加速模块2146时,操作系统初始化用于所拥有的进程的加速器集成电路2136。[0327]在操作中,加速器集成切片2190中的wd获取单元2191获取下一个wd2184,其包括要由图形加速模块2146的一个或更多个图形处理引擎完成的工作的指示。在至少一个实施例中,来自wd2184的数据可以存储在寄存器2145中,并由mmu2139、中断管理电路2147和/或上下文管理电路2148使用,如图所示。例如,mmu2139的一个实施例包括用于访问os虚拟地址空间2185内的段/页表2186的段/页漫游电路。在至少一个实施例中,中断管理电路2147可以处理从图形加速模块2146接收的中断事件2192。在至少一个实施例中,当执行图形操作时,由图形处理引擎2131-2132,n生成的有效地址2193被mmu2139转换为真实地址。[0328]在一个实施例中,为每个图形处理引擎2131-2132,n和/或图形加速模块2146复制寄存器2145的相同集合,并且所述寄存器2145可以由管理程序或操作系统初始化。在至少一个实施例中,这些复制的寄存器中的每一个可以被包括在加速器集成切片2190中。可以由管理程序初始化的示例性寄存器在表1中示出。[0329]表1–管理程序初始化寄存器[0330][0331][0332]可由操作系统初始化的示例性寄存器如表2所示。[0333]表2–操作系统初始化寄存器[0334]1进程和线程标识2有效地址(ea)上下文保存/恢复指针3虚拟地址(va)加速器利用率记录指针4虚拟地址(va)存储段表指针5权限屏蔽6工作描述符[0335]在一个实施例中,每个wd2184特定于特定的图形加速模块2146和/或图形处理引擎2131-2132,n。在至少一个实施例中,它包含图形处理引擎2131-2132,n完成工作所需的所有信息,或者它可以是指向存储器位置的指针,在该存储器位置应用程序已经设置了要完成的工作的命令队列。[0336]图21e示出了共享模型的一个示例性实施例的附加细节。该实施例包括管理程序真实地址空间2198,其中存储了进程元素列表2199。可经由管理程序2196来访问管理程序实地址空间2198,所述管理程序2196虚拟化用于操作系统2195的图形加速模块引擎。[0337]在至少一个实施例中,共享编程模型允许来自系统中全部分区或分区子集的全部进程或进程子集使用图形加速模块2146。存在两种编程模型,其中图形加速模块2146由多个进程和分区共享,即,时间切片共享和图形定向共享。[0338]在该模型中,系统管理程序2196拥有图形加速模块2146,并使其功能可用于所有操作系统2195。在至少一个实施例中,对于图形加速模块2146通过系统管理程序2196支持虚拟化,图形加速模块2146可以遵守以下项:(1)应用程序的作业请求必须是自主的(即,不需要在作业之间保持状态),或者图形加速模块2146必须提供上下文保存和恢复机制,(2)图形加速模块2146保证应用程序的作业请求在指定的时间量内完成,包括任何转换错误,或者图形加速模块2146提供了抢占作业处理的能力,并且(3)在有向共享编程模型中进行操作时,必须确保图形加速模块2146进程之间的公平性。[0339]在一个实施例中,需要应用程序2180使用图形加速模块类型、工作描述符(wd)、权限屏蔽寄存器(amr)值和上下文保存/恢复区域指针(csrp)进行操作系统2195系统调用。在至少一个实施例中,图形加速模块类型描述了用于系统调用的目标加速函数。在至少一个实施例中,图形加速模块类型可以是系统特定的值。在至少一个实施例中,wd是专门为图形加速模块2146格式化的,并且可以采用图形加速模块2146命令、指向用户定义的结构的有效地址指针、指向命令队列的有效地址指针的形式,或描述要由图形加速模块2146完成的工作的任何其他数据结构。在至少一个实施例中,amr值是用于当前进程的amr状态。在至少一个实施例中,传递给操作系统的值与设置amr的应用程序类似。如果加速器集成电路2136和图形加速模块2146的实现不支持用户权限屏蔽覆写寄存器(uamor),则在管理程序调用中传递amr之前,操作系统可以将当前uamor值应用于amr值。管理程序2196可以在将amr放入进程元素2183中之前选择性地应用当前权限屏蔽覆写寄存器(amor)值。在至少一个实施例中,csrp是寄存器2145中的一个,所述寄存器包含应用程序的地址空间2182中的区域的有效地址,供图形加速模块2146保存和恢复上下文状态。如果不需要在作业之间保存状态或者当作业被抢占时,则该指针是可选的。在至少一个实施例中,上下文保存/恢复区域可以是固定的系统存储器。[0340]在接收到系统调用时,操作系统2195可以验证应用程序2180已经注册并且被授予使用图形加速模块2146的权限。然后,在操作系统2195使用表3中所示的信息来调用管理程序2196。[0341]表3–操作系统到管理程序的调用参数[0342][0343][0344]在接收到管理程序调用时,管理程序2196验证操作系统2195已注册并被授予使用图形加速模块2146的权限。然后,管理程序2196将进程元素2183放入相应的图形加速模块2146类型的进程元素链接列表中。进程元素可以包括表4中所示的信息。[0345]表4–进程元素信息[0346]1工作描述符(wd)2权限屏蔽寄存器(amr)值(可能被屏蔽)3有效地址(ea)上下文保存/恢复区域指针(csrp)4进程id(pid)和可选线程id(tid)5虚拟地址(va)加速器利用率记录指针(aurp)6存储段表指针的虚拟地址(sstp)7逻辑中断服务号(lisn)8从管理程序调用参数派生的中断向量表9状态寄存器(sr)值10逻辑分区id(lpid)11真实地址(ra)管理程序加速器利用率记录指针12存储描述符寄存器(sdr)[0347]在至少一个实施例中,管理程序初始化多个加速器集成切片2190寄存器2145。[0348]如图21f所示,在至少一个实施例中,使用统一存储器,所述统一存储器可经由用于访问物理处理器存储器2101-2102和gpu存储器2120-2123的公共虚拟存储器地址空间来寻址。在该实现方式中,在gpu2110-2113上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器2101-2102,反之亦然,从而简化了可编程性。在至少一个实施例中,虚拟/有效地址空间的第一部分被分配给处理器存储器2101,第二部分被分配给第二处理器存储器2102,第三部分被分配给gpu存储器2120,以此类推。在至少一个实施例中,整个虚拟/有效存储器空间(有时称为有效地址空间)由此分布在处理器存储器2101-2102和gpu存储器2120-2123的每一个中,从而允许任何处理器或gpu采用映射到任何物理存储器的虚拟地址访问该存储器。[0349]在一个实施例中,一个或更多个mmu2139a-2139e内的偏置/一致性管理电路2194a-2194e确保一个或更多个主机处理器(例如,2105)与gpu2110-2113的高速缓存之间的高速缓存一致性,并实现指示应在其中存储某些类型的数据的物理存储器的偏置技术。虽然在图21f中示出了偏置/一致性管理电路2194a-2194e的多个实例,但可以在一个或更多个主机处理器2105的mmu内和/或在加速器集成电路2136内实现偏置/一致性电路。[0350]一个实施例允许将gpu附接(gpu-attached)存储器2120-2123映射为系统存储器的一部分,并使用共享虚拟存储器(svm)技术进行访问,但不会遭受与完整系统高速缓存一致性相关的性能缺陷。在至少一个实施例中,将gpu附接存储器2120-2123作为系统存储器来访问而无需繁重的高速缓存一致性开销的能力为gpu卸载提供了有利的操作环境。该布置允许主机处理器2105的软件设置操作数并访问计算结果,而没有传统的i/odma数据拷贝的开销。在至少一个实施例中,这样的传统拷贝包括驱动程序调用、中断和存储器映射i/o(mmio)访问,相对于简单的存储器访问而言,这些访问效率均较低。在至少一个实施例中,在没有高速缓存一致性开销的情况下访问gpu附接存储器2120-2123的能力对于卸载的计算的执行时间可能是关键的。例如,在具有大量流式写入存储器流量的情况下,高速缓存一致性开销可以显著降低gpu2110-2113所看到的有效写入带宽。在至少一个实施例中,操作数设置的效率、结果访问的效率和gpu计算的效率可能会在确定gpu卸载的有效性方面发挥作用。[0351]在至少一个实施例中,gpu偏置和主机处理器偏置的选择由偏置跟踪器数据结构驱动。在至少一个实施例中,例如,可以使用偏置表,所述偏置表可以是页面粒度结构(即,以存储器页面的粒度来控制),该页面粒度结构包括每个gpu附接存储器页面1或2位。在至少一个实施例中,在gpu2110-2113中具有或不具有偏置高速缓存(例如,用于高速缓存偏置表的频繁/最近使用的条目)的情况下,可以在一个或更多个gpu附接存储器2120-2123的被盗存储器范围中实现偏置表。替代地,可以在gpu内维护整个偏置表。[0352]在至少一个实施例中,在实际访问gpu存储器之前,访问与对gpu附接存储器2120-2123的每次访问相关联的偏置表条目,从而引起以下操作。首先,来自gpu2110-2113的在gpu偏置中找到其页面的本地请求被直接转发到对应的gpu存储器2120-2123。来自gpu的在主机偏置中找到其页面的本地请求被转发至处理器2105(例如,通过本文所述的高速链路)。在一个实施例中,来自处理器2105的在主机处理器偏置中找到所请求页面的请求完成了与正常存储器读取类似的请求。替代地,可以将指向gpu偏置页面的请求转发到gpu2110-2113。在至少一个实施例中,如果gpu当前不使用页面,则gpu可随后将页面迁移到主机处理器偏置。在至少一个实施例中,页面的偏置状态可以通过基于软件的机制、基于硬件辅助的软件的机制、或者在有限的情况下通过纯粹基于硬件的机制来改变。[0353]一种用于改变偏置状态的机制采用api调用(例如opencl),所述api调用随后调用gpu的设备驱动程序,所述设备驱动程序随后发送消息(或使命令描述符入队)到gpu,引导gpu改变偏置状态,并在某些迁移中在主机中执行高速缓存刷新操作。在至少一个实施例中,高速缓存刷新操作用于从主机处理器2105偏置到gpu偏置的迁移,但是不用于相反的迁移。[0354]在一个实施例中,高速缓存一致性是通过暂时渲染主机处理器2105无法高速缓存的gpu偏置页面来维护的。在至少一个实施例中,为了访问这些页面,处理器2105可以请求来自gpu2110的访问,gpu2110可以或可以不立即授予访问权限。因此,在至少一个实施例中,为了减少处理器2105和gpu2110之间的通信,确保gpu偏置页面是gpu所需的页面而不是主机处理器2105所需的页面是有益的,反之亦然。[0355]一个或更多个硬件结构1315用于执行一个或更多个实施例。在本文中可以结合图13a和/或图13b提供关于一个或更多个硬件结构1315的细节。[0356]图22示出了根据本文所述的各个实施例的示例性集成电路和相关联的图形处理器,其可以使用一个或更多个ip核心来制造。除了图示之外,在至少一个实施例中可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。[0357]图22是示出根据至少一个实施例的可使用一个或更多个ip核心制造的芯片集成电路2200上的示例性系统的框图。在至少一个实施例中,集成电路2200包括一个或更多个应用程序处理器2205(例如,cpu)、至少一个图形处理器2210,并且可以另外包括图像处理器2215和/或视频处理器2220,其中任意一个可能是模块化ip核心。在至少一个实施例中,集成电路2200包括外围或总线逻辑,其包括usb控制器2225、uart控制器2230、spi/sdio控制器2235和i2s/i2c控制器2240。在至少一个实施例中,集成电路2200可以包括显示设备2245耦合到高清多媒体接口(hdmi)控制器2250和移动工业处理器接口(mipi)显示接口2255中的一个或更多个。在至少一个实施例中,存储可以由闪存子系统2260提供,包括闪存和闪存控制器。在至少一个实施例中,可以经由存储器控制器2265提供存储器接口以用于访问sdram或sram存储器设备。在至少一个实施例中,一些集成电路还包括嵌入式安全引擎2270。[0358]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在集成电路2200中用于至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文描述的神经网络用例计算的权重参数来推理或预测操作。[0359]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0360]图23a-23b示出了根据本文所述的各个实施例的示例性集成电路和相关联的图形处理器,其可以使用一个或更多个ip核心来制造。除了图示之外,在至少一个实施例中可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。[0361]图23a-23b是示出根据本文描述的实施例的在soc内使用的示例性图形处理器的框图。图23a示出了根据至少一个实施例的芯片集成电路上系统的示例性图形处理器2310,其可以使用一个或更多个ip核心来制造。图23b示出了根据至少一个实施例的芯片集成电路上系统的附加示例性图形处理器2340,其可以使用一个或更多个ip核心来制造。在至少一个实施例中,图23a的图形处理器2310是低功耗图形处理器核心。在至少一个实施例中,图23b的图形处理器2340是更高性能的图形处理器核心。在至少一个实施例中,每个图形处理器2310、2340可以是图22的图形处理器2210的变体。[0362]在至少一个实施例中,图形处理器2310包括顶点处理器2305和一个或更多个片段处理器2315a-2315n(例如2315a、2315b、2315c、2315d至2315n-1和2315n)。在至少一个实施例中,图形处理器2310可以经由单独的逻辑来执行不同的着色器程序,使得顶点处理器2305被优化以执行针对顶点着色器程序的操作,而一个或更多个片段处理器2315a-2315n执行片段(例如,像素)着色操作用于片段或像素或着色器程序。在至少一个实施例中,顶点处理器2305执行3d图形管线的顶点处理阶段并生成图元和顶点数据。在至少一个实施例中,一个或更多个片段处理器2315a-2315n使用由顶点处理器2305生成的图元和顶点数据来生成在显示设备上显示的帧缓冲区。在至少一个实施例中,一个或更多个片段处理器2315a-2315n被优化以执行如在openglapi中所提供的片段着色器程序,其可以用于执行与在direct3dapi中所提供的像素着色器程序类似的操作。[0363]在至少一个实施例中,图形处理器2310附加地包括一个或更多个存储器管理单元(mmu)2320a-2320b、一个或更多个高速缓存2325a-2325b和一个或更多个电路互连2330a-2330b。在至少一个实施例中,一个或更多个mmu2320a-2320b提供用于图形处理器2310的虚拟到物理地址的映射,包括用于顶点处理器2305和/或片段处理器2315a-2315n,其可以引用存储在存储器中的顶点或图像/纹理数据,除了存储在一个或更多个高速缓存2325a-2325b中的顶点或图像/纹理数据之外。在至少一个实施例中,一个或更多个mmu2320a-2320b可以与系统内的其他mmu同步,包括与图22的一个或更多个应用程序处理器2205、图像处理器2215和/或视频处理器2220相关联的一个或更多个mmu,使得每个处理器2205-2220可以参与共享或统一的虚拟存储器系统。在至少一个实施例中,一个或更多个电路互连2330a-2330b使图形处理器2310能够经由soc的内部总线或经由直接连接与soc内的其他ip核心相连接。[0364]在至少一个实施例中,图形处理器2340包括图23a的图形处理器2310的一个或更多个mmu2320a-2320b、高速缓存2325a-2325b和电路互连2330a-2330b。在至少一个实施例中,图形处理器2340包括一个或更多个着色器核心2355a-2355n(例如,2355a、2355b、2355c、2355d、2355e、2355f到2355n-1和2355n),其提供了统一的着色器核心架构,其中单个核心或类型或核心可以执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。在至少一个实施例中,多个着色器核心可以变化。在至少一个实施例中,图形处理器2340包括核心间任务管理器2345,其充当线程分派器以将执行线程分派给一个或更多个着色器核心2355a-2355n和分块单元2358,以加速基于图块渲染的分块操作,其中在图像空间中细分了场景的渲染操作,例如,以利用场景内的局部空间一致性或优化内部缓存的使用。[0365]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在集成电路图23a和/或图23b中用于至少部分地基于使用神经网络训练操作、神经网络函数或架构,或本文所述的神经网络用例计算的权重参数来进行推理或预测操作。[0366]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0367]图24a-24b示出了根据本文描述的实施例的附加示例性图形处理器逻辑。在至少一个实施例中,图24a示出了可以包括在图22的图形处理器2210内的图形核心2400,并且在至少一个实施例中,其可以是如图23b所示的统一着色器核心2355a-2355n。图24b示出了在至少一个实施例中的适用于在多芯片模块上部署的高度并行的通用图形处理单元(“gpgpu”)2430。[0368]在至少一个实施例中,图形核心2400包括共享指令高速缓存2402、纹理单元2418和高速缓存/共享存储器2420,它们对于图形核心2400内的执行资源是通用的。在至少一个实施例中,图形核心2400可包括多个切片2401a-2401n或每个核心的分区,并且图形处理器可包括图形核心2400的多个实例。在至少一个实施例中,切片2401a-2401n可包括支持逻辑,所述逻辑包括本地指令高速缓存2404a-2404n、线程调度器2406a-2406n、线程分派器2408a-2408n和一组寄存器2410a-2410n。在至少一个实施例中,切片2401a-2401n可以包括一组附加功能单元(afu2412a-2412n)、浮点单元(fpu2414a-2414n)、整数算术逻辑单元(alu2416a-2416n)、地址计算单元(acu2413a-2413n)、双精度浮点单元(dpfpu2415a-2415n)和矩阵处理单元(mpu2417a-2417n)。[0369]在至少一个实施例中,fpu2414a-2414n可以执行单精度(32位)和半精度(16位)浮点运算,而dpfpu2415a-2415n则执行双精度(64位)浮点运算点操作。在至少一个实施例中,alu2416a-2416n可以以8位、16位和32位精度执行可变精度整数运算,并且可以配置为混合精度运算。在至少一个实施例中,mpu2417a-2417n还可被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。在至少一个实施例中,mpu2417-2417n可以执行各种矩阵运算以加速机器学习应用程序框架,包括使得能够支持加速的通用矩阵到矩阵乘法(gemm)。在至少一个实施例中,afu2412a-2412n可以执行浮点数或整数单元不支持的附加逻辑运算,包括三角运算(例如,正弦,余弦等)。[0370]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图形核心2400中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。[0371]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0372]图24b示出了在至少一个实施例中的通用处理单元(gpgpu)2430,其可以被配置为使得高度并行的计算操作能够由一组图形处理单元来执行。在至少一个实施例中,gpgpu2430可以直接链接到gpgpu2430的其他实例,以创建多gpu集群以提高用于深度神经网络的训练速度。在至少一个实施例中,gpgpu2430包括主机接口2432,以实现与主机处理器的连接。在至少一个实施例中,主机接口2432是pciexpress接口。在至少一个实施例中,主机接口2432可以是厂商专用的通信接口或通信结构。在至少一个实施例中,gpgpu2430接收主机处理器的命令,并使用全局调度器2434,以将与那些命令相关联的执行线程分配给一组计算集群2436a-2436h。在至少一个实施例中,计算群集2436a-2436h共享高速缓存存储器2438。在至少一个实施例中,高速缓存存储器2438可以用作计算群集2436a-2436h内的高速缓存存储器的更高级别的高速缓存。[0373]在至少一个实施例中,gpgpu2430包括存储器2444a-2444b,所述存储器2444a-2444b经由一组存储器控制器2442a-2442b与计算集群2436a-2436h耦合。在至少一个实施例中,存储器2444a-2444b可以包括各种类型的存储器设备,包括动态随机存取存储器(dram)或图形随机存取存储器,例如同步图形随机存取存储器(sgram),其包括图形双倍数据速率(gddr)存储器。[0374]在至少一个实施例中,计算集群2436a-2436h每个都包括一组图形核心,例如图24a的图形核心2400,所述图形核心可以包括多种类型的整数和浮点逻辑单元,所述逻辑单元可以在计算机各种精度范围上执行计算操作,包括适用于机器学习计算的精度。例如,在至少一个实施例中,每个计算集群2436a-2436h中的浮点单元的至少一个子集可以被配置为执行16位或32位浮点运算,而浮点单元的不同子集可以配置为执行64位浮点运算。[0375]在至少一个实施例中,gpgpu2430的多个实例可以被配置为用作计算集群。在至少一个实施例中,计算集群2436a-2436h用于同步和数据交换的通信在实施例之间变化。在至少一个实施例中,gpgpu2430的多个实例通过主机接口2432进行通信。在至少一个实施例中,gpgpu2430包括i/o集线器2439,所述集线器将gpgpu2430与gpu链路2440耦合,使得能够直接连接到gpgpu2430的其他实例。在至少一个实施例中,gpu链路2440耦合到专用gpu到gpu桥,所述桥使得gpgp2430的多个实例之间能够通信和同步。在至少一个实施例中,gpu链路2440与高速互连耦合,以向其他gpgpu或并行处理器发送和接收数据。在至少一个实施例中,gpgpu2430的多个实例位于单独的数据处理系统中,并通过可通过主机接口2432访问的网络设备进行通信。在至少一个实施例中,gpu链路2440可被配置为使得能够连接到主机除主机接口2432之外或作为其替代的处理器。[0376]在至少一个实施例中,gpgpu2430可以被配置为训练神经网络。在至少一个实施例中,可以在推理平台内使用gpgpu2430。在至少一个实施例中,在其中使用gpgpu2430进行推理的情况下,相对于使用gpgpu2430训练神经网络时,gpgpu2430可以包括更少的计算集群2436a-2436h。在至少一个实施例中,与存储器2444a-2444b相关联的存储器技术可以在推理和训练配置之间有所不同,其中更高带宽的存储器技术专用于训练配置。在至少一个实施例中,gpgpu2430的推理配置可以支持推理特定指令。例如,在至少一个实施例中,推理配置可以提供对一个或更多个8位整数点积指令的支持,该指令可以在部署的神经网络的推理操作期间使用。[0377]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在gpgpu2430中使用,用于至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。[0378]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0379]图25示出了根据至少一个实施例的计算机系统2500的框图。在至少一个实施例中,计算机系统2500包括具有一个或更多个处理器2502的处理子系统2501和系统存储器2504,所述系统存储器2504经由可包括存储器集线器2505的互连路径通信。在至少一个实施例中,存储器集线器2505可以是芯片组部件内的单独部件,或者可以集成在一个或更多个处理器2502内。在至少一个实施例中,存储器集线器2505通过通信链路2506与i/o子系统2511耦合。在一个实施例中,i/o子系统2511包括i/o集线器2507,所述i/o集线器可以使计算机系统2500能够接收来自一个或更多个输入设备2508的输入。在至少一个实施例中,i/o集线器2507可以使显示控制器向一个或更多个显示设备2510a提供输出,所述显示控制器可以包括在一个或更多个处理器2502中。在至少一个实施例中,与i/o集线器2507耦合的一个或更多个显示设备2510a可以包括本地,内部或嵌入式显示设备。[0380]在至少一个实施例中,处理子系统2501包括经由总线或其他通信链路2513耦合到存储器集线器2505的一个或更多个并行处理器2512中。在至少一个实施例中,通信链路2513可以是任何一种许多基于标准的通信链路技术或协议,例如但不限于pciexpress,或者可以是特定于供应商的通信接口或通信结构。在至少一个实施例中,一个或更多个并行处理器2512形成计算集中的并行或矢量处理系统,所述系统可以包括大量处理核心和/或处理集群,例如多集成核心(mic)处理器。在至少一个实施例中,一个或更多个并行处理器2512形成图形处理子系统,所述图形处理子系统可以将像素输出到经由i/o集线器2507耦合的一个或更多个显示设备2510a之一。在至少一个实施例中,一个或更多个并行处理器2512还可以包括显示控制器和显示接口(未示出),以使得能够直接连接到一个或更多个显示设备2510b。[0381]在至少一个实施例中,系统存储单元2514可以连接到i/o集线器2507,以提供用于计算机系统2500的存储机制。在至少一个实施例中,i/o交换机2516可以用于提供一个接口机制,以实现i/o集线器2507与其他组件之间的连接,例如可以集成到平台中的网络适配器2518和/或无线网络适配器2519,以及可以通过一个或更多个附加设备2520添加的各种其他设备。在至少一个实施例中,网络适配器2518可以是以太网适配器或另一有线网络适配器。在至少一个实施例中,无线网络适配器2519可以包括wi-fi、蓝牙、近场通信(nfc)中的一个或更多个,或包括一个或更多个无线电设备的其他网络设备。[0382]在至少一个实施例中,计算机系统2500可以包括未明确示出的其他组件,所述其他组件包括usb或其他端口连接、光学存储驱动器、视频捕获设备等,所述其他组件也可以连接到i/o集线器2507。在至少一个实施例中,可以使用任何合适的协议(例如基于pci(外围组件互连)的协议(例如pci-express)或其他总线或点对点通信接口和/或协议)来实现互连图25中各个组件的通信路径,例如nv-link高速互连或互连协议。[0383]在至少一个实施例中,一个或更多个并行处理器2512包括为图形和视频处理而优化的电路,所述电路包括例如视频输出电路,并构成图形处理单元(gpu)。在至少一个实施例中,一个或更多个并行处理器2512包括为通用处理而优化的电路。在至少一个实施例中,计算机系统2500的组件可以与单个集成电路上的一个或更多个其他系统元件集成。例如,在至少一个实施例中,一个或更多个并行处理器2512、存储器集线器2505、处理器2502和i/o集线器2507,可以被集成到片上系统(soc)集成电路中。在至少一个实施例中,计算机系统2500的组件可以被集成到单个封装中,以形成系统级封装(sip)配置。在至少一个实施例中,计算机系统2500的组件的至少一部分可以被集成到多芯片模块(mcm)中,所述多芯片模块可以与其他多芯片模块互连到模块化计算机系统中。[0384]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图25的系统2500中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。[0385]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0386]处理器[0387]图26a示出了根据至少一个实施例的并行处理器2600。在至少一个实施例中,并行处理器2600的各种组件可以使用一个或更多个集成电路设备来实现,例如可编程处理器、专用集成电路(asic)或现场可编程门阵列(fpga)。在至少一个实施例中,所示的并行处理器2600是根据示例性实施例的图25所示的一个或更多个并行处理器2512的变体。[0388]在至少一个实施例中,并行处理器2600包括并行处理单元2602。在至少一个实施例中,并行处理单元2602包括i/o单元2604,其使得能够与其他设备进行通信,包括并行处理单元2602的其他实例。在至少一个实施例中,i/o单元2604可以直接连接到其他设备。在至少一个实施例中,i/o单元2604通过使用集线器或交换机接口(例如,存储器集线器2505)与其他设备连接。在至少一个实施例中,存储器集线器2505与i/o单元2604之间的连接形成通信链路2513。在至少一个实施例中,i/o单元2604与主机接口2606和存储器交叉开关2616连接,其中主机接口2606接收用于执行处理操作的命令,而存储器交叉开关2616接收用于执行存储器操作的命令。[0389]在至少一个实施例中,当主机接口2606经由i/o单元2604接收命令缓冲区时,主机接口2606可以引导工作操作以执行那些命令到前端2608。在至少一个实施例中,前端2608与调度器2610耦合,调度器2610配置成将命令或其他工作项分配给处理集群阵列2612。在至少一个实施例中,调度器2610确保在将任务分配给处理集群阵列2612之前,处理集群阵列2612被正确地配置并且处于有效状态。在至少一个实施例中,调度器2610通过在微控制器上执行的固件逻辑来实现。在至少一个实施例中,微控制器实现的调度器2610可配置成以粗粒度和细粒度执行复杂的调度和工作分配操作,从而实现对在处理阵列2612上执行的线程的快速抢占和上下文切换。在至少一个实施例中,主机软件可以证明用于通过多个图形处理门铃(doorbell)之一在处理阵列2612上进行调度的工作负载。在至少一个实施例中,工作负载然后可以由包括调度器2610的微控制器内的调度器2610逻辑在处理阵列2612上自动分配。[0390]在至少一个实施例中,处理集群阵列2612可以包括多达“n”个处理集群(例如,集群2614a、集群2614b到集群2614n)。在至少一个实施例中,处理集群阵列2612的每个集群2614a-2614n可以执行大量并发线程。在至少一个实施例中,调度器2610可以使用各种调度和/或工作分配算法将工作分配给处理集群阵列2612的集群2614a-2614n,其可以根据每种程序或计算类型产生的工作负载而变化。在至少一个实施例中,调度可以由调度器2610动态地处理,或者可以在配置为由处理集群阵列2612执行的程序逻辑的编译期间部分地由编译器逻辑来辅助。在至少一个实施例中,可将处理集群阵列2612的不同的集群2614a-2614n分配用于处理不同类型的程序或用于执行不同类型的计算。[0391]在至少一个实施例中,处理集群阵列2612可以配置成执行各种类型的并行处理操作。在至少一个实施例中,处理集群阵列2612配置成执行通用并行计算操作。例如,在至少一个实施例中,处理集群阵列2612可以包括执行处理任务的逻辑,该处理任务包括对视频和/或音频数据的过滤,执行建模操作,包括物理操作以及执行数据转换。[0392]在至少一个实施例中,处理集群阵列2612配置成执行并行图形处理操作。在至少一个实施例中,处理集群阵列2612可以包括附加逻辑以支持这种图形处理操作的执行,包括但不限于执行纹理操作的纹理采样逻辑,以及镶嵌逻辑和其他顶点处理逻辑。在至少一个实施例中,处理集群阵列2612可以配置成执行与图形处理有关的着色器程序,例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。在至少一个实施例中,并行处理单元2602可以经由i/o单元2604从系统存储器传送数据以进行处理。在至少一个实施例中,在处理期间,可以在处理期间将传送的数据存储到片上存储器(例如,并行处理器存储器2622),然后将其写回到系统存储器。[0393]在至少一个实施例中,当并行处理单元2602用于执行图形处理时,调度器2610可以配置成将处理工作负载划分为近似相等大小的任务,以更好地将图形处理操作分配给处理集群阵列2612的多个集群2614a-2614n。在至少一个实施例中,处理集群阵列2612的部分可以配置成执行不同类型的处理。例如,在至少一个实施例中,第一部分可以配置成执行顶点着色和拓扑生成,第二部分可以配置成执行镶嵌和几何着色,并且第三部分可以配置成执行像素着色或其他屏幕空间操作,以生成用于显示的渲染图像。在至少一个实施例中,可以将由集群2614a-2614n中的一个或更多个产生的中间数据存储在缓冲区中,以允许在集群2614a-2614n之间传输中间数据以进行进一步处理。[0394]在至少一个实施例中,处理集群阵列2612可以经由调度器2610接收要执行的处理任务,该调度器2610从前端2608接收定义处理任务的命令。在至少一个实施例中,处理任务可以包括要被处理的数据的索引,例如,表面(补丁)数据、原始数据、顶点数据和/或像素数据,以及状态参数和定义如何处理数据的命令(例如,要执行什么程序)。在至少一个实施例中,调度器2610可以配置成获取与任务相对应的索引,或者可以从前端2608接收索引。在至少一个实施例中,前端2608可以配置成确保在启动由传入命令缓冲区(例如,批缓冲区(batch-buffer)、推送缓冲区等)指定的工作负载之前,处理集群阵列2612配置成有效状态。[0395]在至少一个实施例中,并行处理单元2602的一个或更多个实例中的每一个可以与并行处理器存储器2622耦合。在至少一个实施例中,可以经由存储器交叉开关2616访问并行处理器存储器2622,所述存储器交叉开关2616可以接收来自处理集群阵列2612以及i/o单元2604的存储器请求。在至少一个实施例中,存储器交叉开关2616可以经由存储器接口2618访问并行处理器存储器2622。在至少一个实施例中,存储器接口2618可以包括多个分区单元(例如,分区单元2620a、分区单元2620b到分区单元2620n),其可各自耦合至并行处理器存储器2622的一部分(例如,存储器单元)。在至少一个实施例中,多个分区单元2620a-2620n为配置为等于存储器单元的数量,使得第一分区单元2620a具有对应的第一存储器单元2624a,第二分区单元2620b具有对应的存储器单元2624b,第n分区单元2620n具有对应的第n存储器单元2624n。在至少一个实施例中,分区单元2620a-2620n的数量可以不等于存储器单元的数量。[0396]在至少一个实施例中,存储器单元2624a-2624n可以包括各种类型的存储器设备,包括动态随机存取存储器(dram)或图形随机存取存储器,例如同步图形随机存取存储器(sgram),包括图形双倍数据速率(gddr)存储器。在至少一个实施例中,存储器单元2624a-2624n还可包括3d堆叠存储器,包括但不限于高带宽存储器(hbm)。在至少一个实施例中,可以跨存储器单元2624a-2624n来存储诸如帧缓冲区或纹理映射的渲染目标,从而允许分区单元2620a-2620n并行地写入每个渲染目标的部分,以有效地使用并行处理器存储器2622的可用带宽。在至少一个实施例中,可以排除并行处理器存储器2622的本地实例,以有利于利用系统存储器与本地高速缓存存储器结合的统一存储器设计。[0397]在至少一个实施例中,处理集群阵列2612的集群2614a-2614n中的任何一个都可以处理将被写入并行处理器存储器2622内的任何存储器单元2624a-2624n中的数据。在至少一个实施例中,存储器交叉开关2616可以配置为将每个集群2614a-2614n的输出传输到任何分区单元2620a-2620n或另一个集群2614a-2614n,集群2614a-2614n可以对输出执行其他处理操作。在至少一个实施例中,每个集群2614a-2614n可以通过存储器交叉开关2616与存储器接口2618通信,以从各种外部存储设备读取或写入各种外部存储设备。在至少一个实施例中,存储器交叉开关2616具有到存储器接口2618的连接以与i/o单元2604通信,以及到并行处理器存储器2622的本地实例的连接,从而使不同处理集群2614a-2614n内的处理单元与系统存储器或不是并行处理单元2602本地的其他存储器进行通信。在至少一个实施例中,存储器交叉开关2616可以使用虚拟通道来分离集群2614a-2614n和分区单元2620a-2620n之间的业务流。[0398]在至少一个实施例中,可以在单个插入卡上提供并行处理单元2602的多个实例,或者可以将多个插入卡互连。在至少一个实施例中,并行处理单元2602的不同实例可以配置成相互操作,即使不同实例具有不同数量的处理核心,不同数量的本地并行处理器存储器和/或其他配置差异。例如,在至少一个实施例中,并行处理单元2602的一些实例可以包括相对于其他实例而言更高精度的浮点单元。在至少一个实施例中,结合并行处理单元2602或并行处理器2600的一个或更多个实例的系统可以以各种配置和形式因素来实现,包括但不限于台式机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏机和/或嵌入式系统。[0399]图26b是根据至少一个实施例的分区单元2620的框图。在至少一个实施例中,分区单元2620是图26a的分区单元2620a-2620n之一的实例。在至少一个实施例中,分区单元2620包括l2高速缓存2621、帧缓冲区接口2625和rop2626(光栅操作单元)。l2高速缓存2621是读/写高速缓存,其配置成执行从存储器交叉开关2616和rop2626接收的加载和存储操作。在至少一个实施例中,l2高速缓存2621将读取未命中和紧急回写请求输出到帧缓冲区接口2625以进行处理。在至少一个实施例中,还可以经由帧缓冲区接口2625将更新发送到帧缓冲区以进行处理。在至少一个实施例中,帧缓冲区接口2625与并行处理器存储器中的存储器单元(诸如图26a的存储器单元2624a-2624n(例如,在并行处理器存储器2622内))之一相互作用。[0400]在至少一个实施例中,rop2626是一种处理单元,其执行光栅操作,诸如模版、z测试、混合等。在至少一个实施例中,rop2626然后输出存储在图形存储器中的处理后的图形数据。在至少一个实施例中,rop2626包括压缩逻辑以压缩被写入存储器的深度或颜色数据并解压缩从存储器读取的深度或颜色数据。在至少一个实施例中,压缩逻辑可以是利用多种压缩算法中的一种或更多种的无损压缩逻辑。在至少一个实施例中,rop2626执行的压缩的类型可以基于要压缩的数据的统计特性而变化。例如,在至少一个实施例中,基于每图块基础上的深度和颜色数据执行增量颜色压缩。[0401]在至少一个实施例中,rop2626包括在每个处理集群内(例如,图26a的集群2614a-2614n),而不是在分区单元2620内。在至少一个实施例中,通过存储器交叉开关2616而不是像素片段数据传输对像素数据的读取和写入请求。在至少一个实施例中,经处理的图形数据可以在显示设备上(诸如图25的一个或更多个显示设备2510之一)显示,由处理器2502路由以供进一步处理,或者由图26a的并行处理器2600内的处理实体之一路由以供进一步处理。[0402]图26c是根据至少一个实施例的并行处理单元内的处理集群2614的框图。在至少一个实施例中,处理集群是图26a的处理集群2614a-2614n之一的实例。在至少一个实施例中,处理集群2614可以配置成并行执行许多线程,其中“线程”是指在特定的一组输入数据上执行的特定程序的实例。在至少一个实施例中,单指令多数据(simd)指令发布技术用于支持大量线程的并行执行而无需提供多个独立的指令单元。在至少一个实施例中,使用单指令多线程(simt)技术来支持并行执行大量一般同步的线程,这使用了公共指令单元,该公共指令单元配置成向每个处理集群内的一组处理引擎发出指令。[0403]在至少一个实施例中,可以通过将处理任务分配给simt并行处理器的管线管理器2632来控制处理集群2614的操作。在至少一个实施例中,管线管理器2632从图26a的调度器2610接收指令,通过图形多处理器2634和/或纹理单元2636管理这些指令的执行。在至少一个实施例中,图形多处理器2634是simt并行处理器的示例性实例。然而,在至少一个实施例中,处理集群2614内可以包括不同架构的各种类型的simt并行处理器。在至少一个实施例中,在处理集群2614内可以包括图形多处理器2634的一个或更多个实例。在至少一个实施例中,图形多处理器2634可以处理数据,并且数据交叉开关2640可以用于将处理后的数据分发到多个可能的目的(包括其他着色器单元)地之一。在至少一个实施例中,管线管理器2632可以通过指定要经由数据交叉开关2640分配的处理后的数据的目的地来促进处理后的数据的分配。[0404]在至少一个实施例中,处理集群2614内的每个图形多处理器2634可以包括相同的一组功能执行逻辑(例如,算术逻辑单元、加载存储单元等)。在至少一个实施例中,可以以管线方式配置功能执行逻辑,其中可以在先前的指令完成之前发出新的指令。在至少一个实施例中,功能执行逻辑支持多种操作,包括整数和浮点算术、比较操作、布尔运算、移位和各种代数函数的计算。在至少一个实施例中,可以利用相同的功能单元硬件来执行不同的操作,并且可以存在功能单元的任何组合。[0405]在至少一个实施例中,传送到处理集群2614的指令构成线程。在至少一个实施例中,跨一组并行处理引擎执行的一组线程是线程组。在至少一个实施例中,线程组在不同的输入数据上执行程序。在至少一个实施例中,线程组内的每个线程可被分配给图形多处理器2634内的不同处理引擎。在至少一个实施例中,线程组可包括比图形多处理器2634内的多个处理引擎更少的线程。在至少一个实施例中,当线程组包括的线程数少于处理引擎的数量时,一个或更多个处理引擎在正在处理该线程组的循环期间可能是空闲的。在至少一个实施例中,线程组还可以包括比图形多处理器2634内的多个处理引擎更多的线程。在至少一个实施例中,当线程组包括比图形多处理器2634内的处理引擎的数量更多的线程时,可以在连续的时钟周期内执行处理。在至少一个实施例中,可以在图形多处理器2634上同时执行多个线程组。[0406]在至少一个实施例中,图形多处理器2634包括内部高速缓存存储器,以执行加载和存储操作。在至少一个实施例中,图形多处理器2634可以放弃内部高速缓存并使用处理集群2614内的高速缓存存储器(例如,l1高速缓存2648)。在至少一个实施例中,每个图形多处理器2634还可以访问分区单元(例如,图26a的分区单元2620a-2620n)内的l2高速缓存,这些分区单元在所有处理集群2614之间共享并且可以用于在线程之间传输数据。在至少一个实施例中,图形多处理器2634还可以访问片外全局存储器,其可以包括本地并行处理器存储器和/或系统存储器中的一个或更多个。在至少一个实施例中,并行处理单元2602外部的任何存储器都可以用作全局存储器。在至少一个实施例中,处理集群2614包括图形多处理器2634的多个实例,它们可以共享可以存储在l1高速缓存2648中的公共指令和数据。[0407]在至少一个实施例中,每个处理集群2614可以包括配置成将虚拟地址映射为物理地址的存储器管理单元(“mmu”)2645。在至少一个实施例中,mmu2645的一个或更多个实例可以驻留在图26a的存储器接口2618内。在至少一个实施例中,mmu2645包括一组页表条目(pte),其用于将虚拟地址映射到图块(更多谈及分块)的物理地址以及可选地映射到高速缓存行索引。在至少一个实施例中,mmu2645可以包括地址转换后备缓冲区(tlb)或可以驻留在图形多处理器2634或l1高速缓存或处理集群2614内的高速缓存。在至少一个实施例中,处理物理地址以分配表面数据访问局部性,以便在分区单元之间进行有效的请求交替。在至少一个实施例中,高速缓存行索引可以用于确定对高速缓存线的请求是命中还是未命中。[0408]在至少一个实施例中,可以配置处理集群2614,使得每个图形多处理器2634耦合到纹理单元2636,以执行纹理映射操作,所述操作确定纹理样本位置、读取纹理数据以及过滤纹理数据。在至少一个实施例中,根据需要从内部纹理l1高速缓存(未示出)或从图形多处理器2634内的l1高速缓存中读取纹理数据,并从l2高速缓存、本地并行处理器存储器或系统存储器中获取纹理数据。在至少一个实施例中,每个图形多处理器2634将处理后的任务输出到数据交叉开关2640,以将处理后的任务提供给另一处理集群2614以进行进一步处理或将处理后的任务存储在l2高速缓存、本地并行处理器存储器、或经由存储器交叉开关2616的系统存储器中。在至少一个实施例中,prerop2642(光栅前操作单元)配置成从图形多处理器2634接收数据,将数据引导至rop单元,该rop单元可以与本文所述的分区单元(例如,图26a的分区单元2620a-2620n)一起定位。在至少一个实施例中,prerop2642单元可以执行用于颜色混合的优化、组织像素颜色数据以及执行地址转换。[0409]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图形处理集群2614中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络函数和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。[0410]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0411]图26d示出了根据至少一个实施例的图形多处理器2634。在至少一个实施例中,图形多处理器2634与处理集群2614的管线管理器2632耦合。在至少一个实施例中,图形多处理器2634具有执行管线,该执行管线包括但不限于指令高速缓存2652、指令单元2654、地址映射单元2656、寄存器文件2658、一个或更多个通用图形处理单元(gpgpu)核心2662和一个或更多个加载/存储单元2666。在至少一个实施例中,gpgpu核心2662和加载/存储单元2666与高速缓存存储器2672和共享存储器2670通过存储器和高速缓存互连2668耦合。[0412]在至少一个实施例中,指令高速缓存2652从管线管理器2632接收要执行的指令流。在至少一个实施例中,将指令高速缓存在指令高速缓存2652中并将其分派以供指令单元2654执行。在一个实施例中,指令单元2654可以分派指令作为线程组(例如,线程束),将线程组的每个线程分配给gpgpu核心2662内的不同执行单元。在至少一个实施例中,指令可以通过在统一地址空间内指定地址来访问任何本地、共享或全局地址空间。在至少一个实施例中,地址映射单元2656可以用于将统一地址空间中的地址转换成可以由加载/存储单元2666访问的不同的存储器地址。[0413]在至少一个实施例中,寄存器文件2658为图形多处理器2634的功能单元提供了一组寄存器。在至少一个实施例中,寄存器文件2658为连接到图形多处理器2634的功能单元(例如,gpgpu核心2662、加载/存储单元2666)的数据路径的操作数提供了临时存储。在至少一个实施例中,在每个功能单元之间划分寄存器文件2658,使得为每个功能单元分配寄存器文件2658的专用部分。在至少一个实施例中,寄存器文件2658在图形多处理器2634正在执行的不同线程束之间划分。[0414]在至少一个实施例中,gpgpu核心2662可以各自包括用于执行图形多处理器2634的指令的浮点单元(fpu)和/或整数算术逻辑单元(alu)。在至少一个实施例中,gpgpu核心2662在架构上可以相似或架构可能有所不同。在至少一个实施例中,gpgpu核心2662的第一部分包括单精度fpu和整数alu,而gpgpu核心的第二部分包括双精度fpu。在至少一个实施例中,fpu可以实现用于浮点算法的ieee754-2008标准或启用可变精度浮点算法。在至少一个实施例中,图形多处理器2634可以另外包括一个或更多个固定功能或特殊功能单元,以执行特定功能,诸如复制矩形或像素混合操作。在至少一个实施例中,gpgpu核心中的一个或更多个也可以包括固定或特殊功能逻辑。[0415]在至少一个实施例中,gpgpu核心2662包括能够对多组数据执行单个指令的simd逻辑。在一个实施例中,gpgpu核心2662可以物理地执行simd4、simd8和simd16指令,并且在逻辑上执行simd1、simd2和simd32指令。在至少一个实施例中,用于gpgpu核心的simd指令可以在编译时由着色器编译器生成,或者在执行针对单程序多数据(spmd)或simt架构编写和编译的程序时自动生成。在至少一个实施例中,可以通过单个simd指令来执行为simt执行模型配置的程序的多个线程。例如,在至少一个实施例中,可以通过单个simd8逻辑单元并行执行执行相同或相似操作的八个simt线程。[0416]在至少一个实施例中,存储器和高速缓存互连2668是将图形多处理器2634的每个功能单元连接到寄存器文件2658和共享存储器2670的互连网络。在至少一个实施例中,存储器和高速缓存互连2668是交叉开关互连,其允许加载/存储单元2666在共享存储器2670和寄存器文件2658之间实现加载和存储操作。在至少一个实施例中,寄存器文件2658可以以与gpgpu核心2662相同的频率操作,从而gpgpu核心2662和寄存器文件2658之间的数据传输的延迟非常低。在至少一个实施例中,共享存储器2670可以用于启用在图形多处理器2634内的功能单元上执行的线程之间的通信。在至少一个实施例中,高速缓存存储器2672可以用作例如数据高速缓存,以高速缓存在功能单元和纹理单元2636之间通信的纹理数据。在至少一个实施例中,共享存储器2670也可以用作程序管理的高速缓存。在至少一个实施例中,除了存储在高速缓存存储器2672中的自动高速缓存的数据之外,在gpgpu核心2662上执行的线程还可以以编程方式将数据存储在共享存储器中。[0417]在至少一个实施例中,如本文所述的并行处理器或gpgpu通信地耦合到主机/处理器核心,以加速图形操作、机器学习操作、图案分析操作以及各种通用gpu(gpgpu)功能。在至少一个实施例中,gpu可以通过总线或其他互连(例如,诸如pcie或nvlink的高速互连)通信地耦合到主机处理器/核心。在至少一个实施例中,gpu可以与核心集成在相同的封装或芯片上,并通过内部处理器总线/互连(即,封装或芯片的内部)通信地耦合到核心。在至少一个实施例中,不管gpu连接的方式如何,处理器核心可以以工作描述符中包含的命令/指令序列的形式向该gpu分配工作。在至少一个实施例中,该gpu然后使用专用电路/逻辑来有效地处理这些命令/指令。[0418]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图形多处理器2634中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络功能和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。[0419]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0420]图27示出了根据至少一个实施例的多gpu计算系统2700。在至少一个实施例中,多gpu计算系统2700可以包括经由主机接口交换机2704耦合到多个通用图形处理单元(gpgpu)2706a-d的处理器2702。在至少一个实施例中,主机接口交换机2704是将处理器2702耦合到pciexpress总线的pciexpress交换机设备,处理器2702可以通过pciexpress总线与gpgpu2706a-d通信。gpgpu2706a-d可以经由一组高速p2pgpu到gpu链路2716互连。在至少一个实施例中,gpu到gpu链路2716经由专用gpu链路连接到gpgpu2706a-d中的每一个。在至少一个实施例中,p2pgpu链路2716使得能够在每个gpgpu2706a-d之间进行直接通信,而无需通过处理器2702所连接的主机接口总线2704进行通信。在至少一个实施例中,在gpu到gpu业务定向到p2pgpu链路2716的情况下,主机接口总线2704保持可用于系统存储器访问或例如经由一个或更多个网络设备与多gpu计算系统2700的其他实例进行通信。虽然在至少一个实施例中,gpgpu2706a-d经由主机接口交换机2704连接到处理器2702,但是在至少一个实施例中,处理器2702包括对p2pgpu链路2716的直接支持,并且可以直接连接到gpgpu2706a-d。[0421]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在多gpu计算系统2700中使用,用于至少部分地基于使用本文描述的神经网络训练操作、神经网络函数和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。[0422]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0423]图28是根据至少一个实施例的图形处理器2800的框图。在至少一个实施例中,图形处理器2800包括环形互连2802、管线前端2804、媒体引擎2837和图形核心2880a-2880n。在至少一个实施例中,环形互连2802将图形处理器2800耦合到其他处理单元,所述处理单元包括其他图形处理器或一个或更多个通用处理器核心。在至少一个实施例中,图形处理器2800是集成在多核心处理系统内的许多处理器之一。[0424]在至少一个实施例中,图形处理器2800经由环形互连2802接收多批命令。在至少一个实施例中,输入的命令由管线前端2804中的命令流转化器(streamer)2803解释。在至少一个实施例中,图形处理器2800包括可扩展执行逻辑,用于经由图形核心2880a-2880n执行3d几何处理和媒体处理。在至少一个实施例中,对于3d几何处理命令,命令流转化器2803将命令提供给几何管线2836。在至少一个实施例中,对于至少一些媒体处理命令,命令流转化器2803将命令提供给视频前端2834,该视频前端与媒体引擎2837耦合。在至少一个实施例中,媒体引擎2837包括用于视频和图像后处理的视频质量引擎(vqe)2830,以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(mfx)2833引擎。在至少一个实施例中,几何管线2836和媒体引擎2837各自生成用于由至少一个图形核心2880a提供的线程执行资源的执行线程。[0425]在至少一个实施例中,图形处理器2800包括具有(featuring)图形核心2880a-2880n(其有时被称为核心切片)的可扩展线程执行资源,每个图形核心具有多个子核心2850a-2850n,2860a-2860n(有时称为核心子切片)。在至少一个实施例中,图形处理器2800可以具有任意数量的图形核心2880a到2880n。在至少一个实施例中,图形处理器2800包括具有至少第一子核心2850a和第二子核心2860a的图形核心2880a。在至少一个实施例中,图形处理器2800是具有单个子核心(例如2850a)的低功率处理器。在至少一个实施例中,图形处理器2800包括多个图形核心2880a-2880n,每个图形核心包括一组第一子核心2850a-2850n和一组第二子核心2860a-2860n。在至少一个实施例中,第一子核心2850a-2850n中的每个子核心至少包括第一组执行单元2852a-2852n和媒体/纹理采样器2854a-2854n。在至少一个实施例中,第二子核心2860a-2860n中的每个子核心至少包括第二组执行单元2862a-2862n和采样器2864a-2864n。在至少一个实施例中,每个子核心2850a-2850n,2860a-2860n共享一组共享资源2870a-2870n。在至少一个实施例中,共享资源包括共享高速缓存存储器和像素操作逻辑。[0426]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315可以在图形处理器2800中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络功能和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。[0427]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0428]图29是根据至少一个实施例的说明用于处理器2900的微架构的框图,该处理器2900可以包括用于执行指令的逻辑电路。在至少一个实施例中,处理器2900可以执行指令,包括x86指令、arm指令、用于专用集成电路(asic)的专用指令等。在至少一个实施例中,处理器2900可以包括用于存储封装数据的寄存器,例如作为加利福尼亚州圣克拉拉市英特尔公司采用mmx技术启用的微处理器中的64位宽mmxtm寄存器。在至少一个实施例中,整数和浮点数形式可用的mmx寄存器可以与封装的数据元素一起运行,所述封装的数据元素伴随单指令多数据(“simd”)和流式simd扩展(“sse”)指令。在至少一个实施例中,与sse2、sse3、sse4、avx或更高版本(一般称为“ssex”)技术有关的128位宽xmm寄存器可以保存此类封装数据操作数。在至少一个实施例中,处理器2900可以执行指令以加速机器学习或深度学习算法、训练或推理。[0429]在至少一个实施例中,处理器2900包括有序前端(“前端”)2901,以提取要执行的指令并准备稍后在处理器管线中使用的指令。在至少一个实施例中,前端2901可以包括几个单元。在至少一个实施例中,指令预取器2926从存储器中获取指令并将指令提供给指令解码器2928,指令解码器2928又对指令进行解码或解释。例如,在至少一个实施例中,指令解码器2928将接收到的指令解码为机器可执行的所谓的“微指令”或“微操作”(也称为“微操作”或“微指令”)的一个或更多个操作。在至少一个实施例中,指令解码器2928将指令解析为操作码以及相应的数据和控制字段,其可以由微架构用来使用以根据至少一个实施例来执行操作。在至少一个实施例中,跟踪高速缓存2930可以将解码的微指令组装成微指令队列2934中的程序排序的序列或追踪以供执行。在至少一个实施例中,当追踪高速缓存2930遇到复杂指令时,微码rom2932提供完成操作所需的微指令。[0430]在至少一个实施例中,可以将一些指令转换成单个微操作,而另一些指令则需要几个微操作来完成全部操作。在至少一个实施例中,如果需要多于四个的微指令来完成一条指令,则指令解码器2928可以访问微码rom2932以执行该指令。在至少一个实施例中,可以将指令解码为少量的微指令以在指令解码器2928处进行处理。在至少一个实施例中,如果需要多个微指令完成该操作,则可以将指令存储在微码rom2932中。在至少一个实施例中,追踪高速缓存器2930参考入口点可编程逻辑阵列(“pla”)以确定正确的微指令指针,用于根据至少一个实施例从微码rom2932读取微码序列以完成一个或更多个指令。在至少一个实施例中,在微码rom2932完成对指令的微操作排序之后,机器的前端2901可以恢复从追踪高速缓存2930获取微操作。[0431]在至少一个实施例中,乱序执行引擎(“乱序引擎”)2903可以准备用于执行的指令。在至少一个实施例中,乱序执行逻辑具有多个缓冲区,以使指令流平滑并重新排序,以在指令沿管线下降并被调度执行时优化性能。在至少一个实施例中,乱序执行引擎2903包括但不限于分配器/寄存器重命名器2940、存储器微指令队列2942、整数/浮点微指令队列2944、存储器调度器2946、快速调度器2902、慢速/通用浮点调度器(“慢速/通用fp调度器”)2904和简单浮点调度器(“简单fp调度器”)2906。在至少一个实施例中,快速调度器2902、慢速/通用浮点调度器2904和简单浮点调度器2906也统称为“微指令调度器2902、2904、2906”。分配器/寄存器重命名器2940分配每个微指令按序列执行所需要的机器缓冲区和资源。在至少一个实施例中,分配器/寄存器重命名器2940将逻辑寄存器重命名为寄存器文件中的条目。在至少一个实施例中,分配器/寄存器重命名器2940还为两个微指令队列之一中的每个微指令分配条目,存储器微指令队列2942用于存储器操作和整数/浮点微指令队列2944用于非存储器操作,在存储器调度器2946和微指令调度器2902、2904、2906的前面。在至少一个实施例中,微指令调度器2902、2904、2906基于它们的从属输入寄存器操作数源的就绪性和需要完成的执行资源微指令的可用性来确定何时准备好执行微指令。至少一个实施例的快速调度器2902可以在主时钟周期的每个一半上调度,而慢速/通用浮点调度器2904和简单浮点调度器2906可以在每个主处理器时钟周期调度一次。在至少一个实施例中,微指令调度器2902、2904、2906对调度端口进行仲裁,以调度用于执行的微指令。[0432]在至少一个实施例中,执行块2911包括但不限于整数寄存器文件/支路网络2908、浮点寄存器文件/支路网络(“fp寄存器文件/支路网络”)2910、地址生成单元(“agu”)2912和2914、快速算术逻辑单元(“快速alu”)2916和2918、慢速算术逻辑单元(“慢速alu”)2920、浮点alu(“fp”)2922和浮点移动单元(“fp移动”)2924。在至少一个实施例中,整数寄存器文件/支路网络2908和浮点寄存器文件/旁路网络2910在本文中也称为“寄存器文件2908、2910”。在至少一个实施例中,agu2912和2914、快速alu2916和2918、慢速alu2920、浮点alu2922和浮点移动单元2924在本文中也称为“执行单元2912、2914、2916、2918、2920、2922和2924”。在至少一个实施例中,执行块2911可以包括但不限于任意数量(包括零)和类型的寄存器文件、支路网络、地址生成单元和执行单元(以任何组合)。[0433]在至少一个实施例中,寄存器文件2908、2910可以布置在微指令调度器2902、2904、2906与执行单元2912、2914、2916、2918、2920、2922和2924之间。在至少一个实施例中,整数寄存器文件/旁路网络2908执行整数运算。在至少一个实施例中,浮点寄存器文件/旁路网络2910执行浮点操作。在至少一个实施例中,寄存器文件2908、2910中的每一个可以包括但不限于旁路网络,该旁路网络可以绕过或转发尚未写入寄存器文件中的刚刚完成的结果到新的从属对象。在至少一个实施例中,寄存器文件2908、2910可以彼此通信数据。在至少一个实施例中,整数寄存器文件/旁路网络2908可以包括但不限于两个单独的寄存器文件、一个寄存器文件用于低阶32位数据,第二寄存器文件用于高阶32位数据。在至少一个实施例中,浮点寄存器文件/旁路网络2910可以包括但不限于128位宽的条目,因为浮点指令通常具有宽度为64至128位的操作数。[0434]在至少一个实施例中,执行单元2912、2914、2916、2918、2920、2922、2924可以执行指令。在至少一个实施例中,寄存器文件2908、2910存储微指令需要执行的整数和浮点数据操作数值。在至少一个实施例中,处理器2900可以包括但不限于任何数量的执行单元2912、2914、2916、2918、2920、2922、2924及其组合。在至少一个实施例中,浮点alu2922和浮点移动单元2924,可以执行浮点、mmx、simd、avx和sse或其他操作,包括专门的机器学习指令。在至少一个实施例中,浮点alu2922可以包括但不限于64位乘64位浮点除法器,以执行除法、平方根和余数微操作。在至少一个实施例中,可以用浮点硬件来处理涉及浮点值的指令。在至少一个实施例中,可以将alu操作传递给快速alu2916、2918。在至少一个实施例中,快速alu2916、2918可以以半个时钟周期的有效延迟执行快速操作。在至少一个实施例中,大多数复杂的整数运算进入慢速alu2920,因为慢速alu2920可以包括但不限于用于长延迟类型操作的整数执行硬件,例如乘法器、移位、标志逻辑和分支处理。在至少一个实施例中,存储器加载/存储操作可以由agu2912、2914执行。在至少一个实施例中,快速alu2916、快速alu2918和慢速alu2920可以对64位数据操作数执行整数运算。在至少一个实施例中,可以实现快速alu2916、快速alu2918和慢速alu2920以支持包括十六、三十二、128、256等的各种数据位大小。在至少一个实施例中,浮点alu2922和浮点移动单元2924可以实现为支持具有各种宽度的位的一定范围的操作数。在至少一个实施例中,浮点alu2922和浮点移动单元2924可以结合simd和多媒体指令对128位宽封装数据操作数进行操作。[0435]在至少一个实施例中,微指令调度器2902、2904、2906在父加载完成执行之前调度从属操作。在至少一个实施例中,由于可以在处理器2900中推测性地调度和执行微指令,处理器2900还可以包括用于处理存储器未命中的逻辑。在至少一个实施例中,如果数据高速缓存中的数据加载未命中,则可能存在在管线中正在运行的从属操作,其使调度器暂时没有正确的数据。在至少一个实施例中,一种重放机制追踪踪并重新执行使用不正确数据的指令。在至少一个实施例中,可能需要重放从属操作并且可以允许完成独立操作。在至少一个实施例中,处理器的至少一个实施例的调度器和重放机制也可以设计为捕获用于文本串比较操作的指令序列。[0436]在至少一个实施例中,术语“寄存器”可以指代可以用作识别操作数的指令的一部分的机载处理器存储位置。在至少一个实施例中,寄存器可以是那些可以从处理器外部使用的寄存器(从程序员的角度来看)。在至少一个实施例中,寄存器可能不限于特定类型的电路。相反,在至少一个实施例中,寄存器可以存储数据、提供数据并执行本文描述的功能。在至少一个实施例中,本文描述的寄存器可以通过处理器内的电路使用多种不同技术来实现,例如专用物理寄存器、使用寄存器重命名动态分配的物理寄存器、专用和动态分配的物理寄存器的组合等。在至少一个实施例中,整数寄存器存储32位整数数据。至少一个实施例的寄存器文件还包含八个用于封装数据的多媒体simd寄存器。[0437]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,可以将推理和/或训练逻辑1315的部分或全部并入执行块2911以及示出或未示出的其他存储器或寄存器。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用执行块2911中示出的一个或更多个alu。此外,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,该寄存器和/或寄存器配置执行块2911的alu以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。[0438]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0439]图30示出了根据至少一个实施例的深度学习应用程序处理器3000。在至少一个实施例中,深度学习应用程序处理器3000使用指令,如果由深度学习应用程序处理器3000执行,则指令使深度学习应用程序处理器3000执行贯穿本公开描述的一些或全部过程和技术。在至少一个实施例中,深度学习应用程序处理器3000是专用集成电路(asic)。在至少一个实施例中,应用程序处理器3000执行矩阵乘法运算或者“硬连线”到硬件中,作为执行一个或更多个指令或两者的结果。在至少一个实施例中,深度学习应用程序处理器3000包括但不限于处理集群3010(1)-3010(12)、芯片间链路(“icl”)3020(1)-3020(12)、芯片间控制器(“icc”)3030(1)-3030(2)、第二代高带宽存储器(“hbm2”)3040(1)-3040(4)、存储器控制器(“memctrlr”)3042(1)-3042(4)、高带宽存储器物理层(“hbmphy”)3044(1)-3044(4)、管理控制器中央处理单元(“管理控制器cpu”)3050、串行外围设备接口、内部集成电路和通用输入/输出块(“spi、i2c、gpio”)3060,外围组件互连快速控制器和直接存储器访问块(“pcie控制器和dma”)3070、以及十六通道外围组件互连快速端口(“pciexpressx16”)3080。[0440]在至少一个实施例中,处理集群3010可以执行深度学习操作,包括基于一种或更多种训练技术计算的权重参数的推理或预测操作,包括本文所述的那些技术。在至少一个实施例中,每个处理集群3010可以包括但不限于任何数量和类型的处理器。在至少一个实施例中,深度学习应用程序处理器3000可以包括任何数量和类型的处理集群3000。在至少一个实施例中,芯片间链路3020是双向的。在至少一个实施例中,芯片间链路3020和芯片间控制器3030使多个深度学习应用程序处理器3000能够交换信息,包括从执行一个或更多个神经网络中体现的一种或更多种机器学习算法而产生的激活信息。在至少一个实施例中,深度学习应用程序处理器3000可以包括任意数量(包括零)和类型的icl3020和icc3030。[0441]在至少一个实施例中,hbm23040提供总共32gb的存储器。hbm23040(i)与存储器控制器3042(i)和hbmphy3044(i)都相关联。在至少一个实施例中,任何数量的hbm23040可以提供任何类型和总量的高带宽存储器,并且可以与任何数量(包括零)和类型的存储器控制器3042和hbmphy3044相关联。在至少一个实施例中,可以用任何数量和类型的块替换spi、i2c、gpio3360、pcie控制器和dma3070和/或pcie3080,以任何技术上可行的方式实现任何数量和类型的通信标准。[0442]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(例如神经网络),以预测或推理提供给深度学习应用程序处理器3000的信息。在至少一个实施例中,深度学习应用程序处理器3000用于基于已经由另一处理器或系统或由深度学习应用程序处理器3000训练的经训练的机器学习模型(例如,神经网络)来推理或预测信息。在至少一个实施例中,处理器3000可以用于执行本文所述的一个或更多个神经网络用例。[0443]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0444]图31是根据至少一个实施例的神经形态处理器3100的框图。在至少一个实施例中,神经形态处理器3100可以从神经形态处理器3100外部的源接收一个或更多个输入。在至少一个实施例中,这些输入可以被传输到神经形态处理器3100内的一个或更多个神经元3102。在至少一个实施例中,可以使用包括一个或更多个算术逻辑单元(alu)的电路或逻辑来实现神经元3102及其组件。在至少一个实施例中,神经形态处理器3100可以包括但不限于成千上万个神经元3102的实例,但是可以使用任何合适数量的神经元3102。在至少一个实施例中,神经元3102的每个实例可以包括神经元输入3104和神经元输出3106。在至少一个实施例中,神经元3102可以生成可以传输到神经元3102的其他实例的输入的输出。在至少一个实施例中,神经元输入3104和神经元输出3106可以经由突触3108互连。[0445]在至少一个实施例中,神经元3102和突触3108可以互连,使得神经形态处理器3100操作以处理或分析由神经形态处理器3100接收的信息。在至少一个实施例中,当通过神经元输入3104接收到的输入超过阈值时,神经元3102可以发送输出脉冲(或“触发”或“峰值”)。在至少一个实施例中,神经元3102可以对在神经元输入3104处接收到的信号进行求和或积分。例如,在至少一个实施例中,神经元3102可以实现为有泄漏的积分-触发神经元,其中如果求和(称为“膜电位”)超过阈值,则神经元3102可以使用诸如sigmoid或阈值函数的传递函数来产生输出(或“触发”)。在至少一个实施例中,泄漏的积分-触发神经元可以将在神经元输入3104处接收到的信号求和成膜电位,并且可以应用程序衰减因子(或泄漏)以减小膜电位。在至少一个实施例中,如果在神经元输入3104处接收到足够快以超过阈值的多个输入信号(即,在膜电势衰减得太低而不能触发之前),则泄漏的积分-触发神经元可能会触发。在至少一个实施例中,神经元3102可以使用接收输入、将输入积分到膜电位、并衰减膜电位的电路或逻辑来实现。在至少一个实施例中,可以对输入求平均,或者可以使用任何其他合适的传递函数。此外,在至少一个实施例中,神经元3102可以包括但不限于当将传递函数应用程序于神经元输入3104的结果超过阈值时在神经元输出3106处产生输出尖峰的比较器电路或逻辑。在至少一个实施例中,一旦神经元3102触发,它可以通过例如将膜电位复位为0或另一合适的默认值来忽略先前接收的输入信息。在至少一个实施例中,一旦膜电位被重置为0,则神经元3102可以在合适的时间段(或修复期)之后恢复正常操作。[0446]在至少一个实施例中,神经元3102可以通过突触3108互连。在至少一个实施例中,突触3108可以操作以将从第一神经元3102的输出的信号传输到第二神经元3102的输入。在至少一个实施例中,神经元3102可以在一个以上的突触3108实例上传输信息。在至少一个实施例中,神经元输出3106的一个或更多个实例可以通过突触3108的实例连接到同一神经元3102中神经元输入3104的实例。在至少一个实施例中,相对于突触3108的那个实例,神经元3102的实例产生要在突触3108的实例上传输的输出可以被称为“突触前神经元”。在至少一个实施例中,相对于突触3108的实例,神经元3102的实例接收通过突触3108的实例传输的输入可以被称为“突触后神经元”。在至少一个实施例中,关于突触3108的各种实例,因为神经元3102的实例可以接收来自一个或更多个突触3108实例的输入,并且还可以通过一个或更多个突触3108实例传输输出,因此神经元3102的单个实例可以既是“突触前神经元”又是“突触后神经元”。[0447]在至少一个实施例中,神经元3102可以被组织成一层或更多层。神经元3102的每个实例可以具有一个神经元输出3106,该神经元输出3106可以通过一个或更多个突触3108扇出到一个或更多个神经元输入3104。在至少一个实施例中,第一层3110中的神经元3102的神经元输出3106可以连接到第二层3112中的神经元3102的神经元输入3104。在至少一个实施例中,层3110可以被称为“前馈层”。在至少一个实施例中,在第一层3110的实例中神经元3102的每个实例可以扇出到第二层3112中的神经元3102的每个实例。在至少一个实施例中,第一层3110可以被称为“完全连接的前馈层”。在至少一个实施例中,在第二层3112的每个实例中的神经元3102的每个实例扇出到少于在第三层3114中的神经元3102的所有实例。在至少一个实施例中,第二层3112可以被称为“稀疏连接的前馈层”。在至少一个实施例中,第二层3112中的神经元3102可以扇出到多个其他层中的神经元3102,也包括扇出到第二层3112中的神经元3102。在至少一个实施例中,第二层3112可以被称为“循环层”。神经形态处理器3100可以包括但不限于循环层和前馈层的任何合适的组合,包括但不限于稀疏连接的前馈层和完全连接的前馈层。[0448]在至少一个实施例中,神经形态处理器3100可以包括但不限于可重新配置的互连架构或专用硬连线互连,以将突触3108连接到神经元3102。在至少一个实施例中,神经形态处理器3100可以包括但不限于电路或逻辑,其根据神经网络拓扑结构和神经元扇入/扇出,允许根据需要将突触分配给不同神经元3102。例如,在至少一个实施例中,可以使用互连结构(诸如片上网络)或通过专用连接将突触3108连接到神经元3102。在至少一个实施例中,可以使用电路或逻辑来实现突触互连及其组件。[0449]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0450]图32示出了根据至少一个实施例的处理系统。在至少一个实施例中,系统3200包括一个或更多个处理器3202和一个或更多个图形处理器3208,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器3202或处理器核心3207的服务器系统。在至少一个实施例中,系统3200是结合在片上系统(soc)集成电路内的处理平台,以在移动、手持或嵌入式设备使用。[0451]在至少一个实施例中,系统3200可以包括或结合在基于服务器的游戏平台中,包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中,系统3200是移动电话、智能电话、平板计算设备或移动互联网设备。在至少一个实施例中,处理系统3200还可包括与可穿戴设备耦合或集成在可穿戴设备中,例如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中,处理系统3200是电视或机顶盒设备,其具有一个或更多个处理器3202以及由一个或更多个图形处理器3208生成的图形界面。[0452]在至少一个实施例中,一个或更多个处理器3202每个包括一个或更多个处理器核心3207,以处理指令,该指令在被执行时执行针对系统和用户软件的操作。在至少一个实施例中,一个或更多个处理器核心3207中的每一个被配置为处理特定指令集3209。在至少一个实施例中,指令集3209可以促进复杂指令集计算(cisc)、精简指令集计算(risc),或通过超长指令字(vliw)进行计算。在至少一个实施例中,处理器核心3207可以各自处理不同的指令集3209,该指令集可以包括有助于仿真其他指令集的指令。在至少一个实施例中,处理器核心3207还可以包括其他处理设备,例如数字信号处理器(dsp)。[0453]在至少一个实施例中,处理器3202包括高速缓存存储器3204。在至少一个实施例中,处理器3202可以具有单个内部高速缓存或多个级别的内部高速缓存。在至少一个实施例中,高速缓存存储器在处理器3202的各个组件之间共享。在至少一个实施例中,处理器3202还使用外部高速缓存(例如,三级(l3)高速缓存或最后一级高速缓存(llc))(未示出),可以使用已知的高速缓存一致性技术在处理器核心3207之间共享该外部高速缓存。在至少一个实施例中,处理器3202中另外包括寄存器文件3206,处理器可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中,寄存器文件3206可以包括通用寄存器或其他寄存器。[0454]在至少一个实施例中,一个或更多个处理器3202与一个或更多个接口总线3210耦合,以在处理器3202与系统3200中的其他组件之间传输通信信号,例如地址、数据或控制信号。在至少一个实施例中,接口总线3210在一个实施例中可以是处理器总线,例如直接媒体接口(dmi)总线的版本。在至少一个实施例中,接口3210不限于dmi总线,并且可以包括一个或更多个外围组件互连总线(例如,pci,pciexpress)、存储器总线或其他类型的接口总线。在至少一个实施例中,处理器3202包括集成存储器控制器3216和平台控制器集线器3230。在至少一个实施例中,存储器控制器3216促进存储器设备与处理系统3200的其他组件之间的通信,而平台控制器集线器(pch)3230通过本地i/o总线提供到输入/输出(i/o)设备的连接。[0455]在至少一个实施例中,存储器设备3220可以是动态随机存取存储器(dram)设备、静态随机存取存储器(sram)设备、闪存设备、相变存储设备或具有适当的性能以用作处理器存储器。在至少一个实施例中,存储设备3220可以用作处理系统3200的系统存储器,以存储数据3222和指令3221,以在一个或更多个处理器3202执行应用程序或过程时使用。在至少一个实施例中,存储器控制器3216还与可选的外部图形处理器3212耦合,其可以与处理器3202中的一个或更多个图形处理器3208通信以执行图形和媒体操作。在至少一个实施例中,显示设备3211可以连接至处理器3202。在至少一个实施例中,显示设备3211可以包括内部显示设备中的一个或更多个,例如在移动电子设备或膝上型设备或通过显示器接口(例如显示端口(displayport)等)连接的外部显示设备中。在至少一个实施例中,显示设备3211可以包括头戴式显示器(hmd),诸如用于虚拟现实(vr)应用或增强现实(ar)应用中的立体显示设备。[0456]在至少一个实施例中,平台控制器集线器3230使外围设备能够通过高速i/o总线连接到存储设备3220和处理器3202。在至少一个实施例中,i/o外围设备包括但不限于音频控制器3246、网络控制器3234、固件接口3228、无线收发器3226、触摸传感器3225、数据存储设备3224(例如,硬盘驱动器、闪存等)。在至少一个实施例中,数据存储设备3224可以经由存储接口(例如,sata)或经由外围总线来连接,诸如外围组件互连总线(例如,pci、pcie)。在至少一个实施例中,触摸传感器3225可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中,无线收发器3226可以是wi-fi收发器、蓝牙收发器或移动网络收发器,诸如3g、4g或长期演进(lte)收发器。在至少一个实施例中,固件接口3228使能与系统固件的通信,并且可以是例如统一可扩展固件接口(uefi)。在至少一个实施例中,网络控制器3234可以启用到有线网络的网络连接。在至少一个实施例中,高性能网络控制器(未示出)与接口总线3210耦合。在至少一个实施例中,音频控制器3246是多通道高清晰度音频控制器。在至少一个实施例中,处理系统3200包括可选的传统(legacy)i/o控制器3240,用于将传统(例如,个人系统2(ps/2))设备耦合到系统。在至少一个实施例中,平台控制器集线器3230还可以连接到一个或更多个通用串行总线(usb)控制器3242,该控制器连接输入设备,诸如键盘和鼠标3243组合、相机3244或其他usb输入设备。[0457]在至少一个实施例中,存储器控制器3216和平台控制器集线器3230的实例可以集成到离散的外部图形处理器中,例如外部图形处理器3212。在至少一个实施例中,平台控制器集线器3230和/或存储器控制器3216可以在一个或更多个处理器3202的外部。例如,在至少一个实施例中,系统3200可以包括外部存储器控制器3216和平台控制器集线器3230,其可以配置成在与处理器3202通信的系统芯片组中的存储器控制器集线器和外围控制器集线器。[0458]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑1315可以结合到图形处理器3200中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个alu,所述alu体现在3d管线3212中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图13a或图13b所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器3200的alu,以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。[0459]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0460]图33是根据至少一个实施例的具有一个或更多个处理器核心3302a-3302n、集成存储器控制器3314和集成图形处理器3308的处理器3300的框图。在至少一个实施例中,处理器3300可以包含附加核心,多达并包括以虚线框表示的附加核心3302n。在至少一个实施例中,每个处理器核心3302a-3302n包括一个或更多个内部高速缓存单元3304a-3304n。在至少一个实施例中,每个处理器核心还可以访问一个或更多个共享高速缓存单元3306。[0461]在至少一个实施例中,内部高速缓存单元3304a-3304n和共享高速缓存单元3306表示处理器3300内的高速缓存存储器层次结构。在至少一个实施例中,高速缓存存储器单元3304a-3304n可以包括每个处理器核心内的至少一级指令和数据高速缓存以及共享中级高速缓存中的一级或更多级缓存,例如2级(l2)、3级(l3)、4级(l4)或其他级别的高速缓存,其中将外部存储器之前的最高级别的高速缓存归类为llc。在至少一个实施例中,高速缓存一致性逻辑维持各种高速缓存单元3306和3304a-3304n之间的一致性。[0462]在至少一个实施例中,处理器3300还可包括一组一个或更多个总线控制器单元3316和系统代理核心3310。在至少一个实施例中,一个或更多个总线控制器单元3316管理一组外围总线,例如一个或更多个pci或pcie总线。在至少一个实施例中,系统代理核心3310为各种处理器组件提供管理功能。在至少一个实施例中,系统代理核心3310包括一个或更多个集成存储器控制器3314,以管理对各种外部存储器设备(未示出)的访问。[0463]在至少一个实施例中,一个或更多个处理器核心3302a-3302n包括对多线程同时进行的支持。在至少一个实施例中,系统代理核心3310包括用于在多线程处理期间协调和操作核心3302a-3302n的组件。在至少一个实施例中,系统代理核心3310可以另外包括电源控制单元(pcu),该电源控制单元包括用于调节处理器核心3302a-3302n和图形处理器3308的一个或更多个电源状态的逻辑和组件。[0464]在至少一个实施例中,处理器3300还包括用于执行图处理操作的图形处理器3308。在至少一个实施例中,图形处理器3308与共享高速缓存单元3306和包括一个或更多个集成存储器控制器3314的系统代理核心3310耦合。在至少一个实施例中,系统代理核心3310还包括用于驱动图形处理器输出到一个或更多个耦合的显示器的显示器控制器3311。在至少一个实施例中,显示器控制器3311也可以是经由至少一个互连与图形处理器3308耦合的独立模块,或者可以集成在图形处理器3308内。[0465]在至少一个实施例中,基于环的互连单元3312用于耦合处理器3300的内部组件。在至少一个实施例中,可以使用替代性互连单元,例如点对点互连、交换互连或其他技术。在至少一个实施例中,图形处理器3308经由i/o链路3313与环形互连3312耦合。[0466]在至少一个实施例中,i/o链路3313表示多种i/o互连中的至少一种,包括促进各种处理器组件与高性能嵌入式存储器模块3318(例如edram模块)之间的通信的封装i/o互连。在至少一个实施例中,处理器核心3302a-3302n和图形处理器3308中的每一个使用嵌入式存储器模块3318作为共享的最后一级高速缓存。[0467]在至少一个实施例中,处理器核心3302a-3302n是执行公共指令集架构的同质核心。在至少一个实施例中,处理器核心3302a-3302n在指令集架构(isa)方面是异构的,其中一个或更多个处理器核心3302a-3302n执行公共指令集,而一个或更多个其他处理器核心3302a-3302n执行公共指令集的子集或不同指令集。在至少一个实施例中,就微架构而言,处理器核心3302a-3302n是异构的,其中具有相对较高功耗的一个或更多个核心与具有较低功耗的一个或更多个功率核心耦合。在至少一个实施例中,处理器3300可以在一个或更多个芯片上实现或被实现为soc集成电路。[0468]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑1315可以结合到图形处理器3310中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个alu,所述alu体现在图33中的3d管线3212、图形核心3315a、共享功能逻辑3316,图形核心3315b,共享功能逻辑3320或其他逻辑中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图13a或图13b所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器3310的alu以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。[0469]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0470]图34是图形处理器3400的框图,该图形处理器可以是分立的图形处理单元,或者可以是与多个处理核心集成的图形处理器。在至少一个实施例中,图形处理器3400经由存储器映射的i/o接口与图形处理器3400上的寄存器以及放置在存储器中的命令进行通信。在至少一个实施例中,图形处理器3400包括用于访问存储器的存储器接口3414。在至少一个实施例中,存储器接口3414是到本地存储器、一个或更多个内部高速缓存、一个或更多个共享的外部高速缓存和/或到系统存储器的接口。[0471]在至少一个实施例中,图形处理器3400还包括用于将显示输出数据驱动到显示设备3420的显示控制器3402。在至少一个实施例中,显示控制器3402包括用于显示设备3420的一个或更多个覆盖平面的硬件以及多层视频或用户接口元素的组合。在至少一个实施例中,显示设备3420可以是内部或外部显示设备。在至少一个实施例中,显示设备3420是头戴式显示设备,例如虚拟现实(vr)显示设备或增强现实(ar)显示设备。在至少一个实施例中,图形处理器3400包括视频编解码器引擎3406,以将媒体编码、解码或转码为一种或更多种媒体编码格式,从一种或更多种媒体编码格式编码、解码或转码,或在一种或更多种媒体编码格式之间进行编码、解码或转码,所述媒体编码格式包括但不限于运动图像专家组(mpeg)格式(例如mpeg-2),高级视频编码(avc)格式(例如h.264/mpeg-4avc,以及美国电影电视工程师协会(smpte)421m/vc-1)和联合图像专家组(jpeg)格式(例如jpeg)和motionjpeg(mjpeg)格式。[0472]在至少一个实施例中,图形处理器3400包括块图像传送(blit)引擎3404,以执行二维(2d)光栅化器操作,包括例如位边界块传送。但是,在至少一个实施例中,使用图形处理引擎(gpe)3410的一个或更多个组件来执行2d图形操作。在至少一个实施例中,gpe3410是用于执行图形操作(包括三维(3d)图形操作和媒体操作)的计算引擎。[0473]在至少一个实施例中,gpe3410包括用于执行3d操作的3d管线3412,例如使用对3d图元形状(例如,矩形、三角形等)进行操作的处理功能来渲染三维图像和场景。3d管线3412包括执行各种任务和/或产生到3d/媒体子系统3415的执行线程的可编程和固定功能元素。虽然3d管线3412可用于执行媒体操作,但是在至少一个实施例中,gpe3410还包括媒体管线3416,其用于执行媒体操作,诸如视频后处理和图像增强。[0474]在至少一个实施例中,媒体管线3416包括固定功能或可编程逻辑单元,用于执行一种或更多种专门的媒体操作,例如视频解码加速,视频去隔行和视频编码加速,代替或表示视频编解码器引擎3406。在至少一个实施例中,媒体管线3416还包括线程产生单元,用于产生线程以在3d/媒体子系统3415上执行。在至少一个实施例中,产生的线程在3d/媒体子系统3415中包含的一个或更多个图形执行单元上执行媒体操作的计算。[0475]在至少一个实施例中,3d/媒体子系统3415包括用于执行3d管线3412和媒体管线3416产生的线程的逻辑。在至少一个实施例中,3d管线3412和媒体管线3416将线程执行请求发送到3d/媒体子系统3415,其包括用于仲裁各种请求并将其分派给可用线程执行资源的线程分派逻辑。在至少一个实施例中,执行资源包括用于处理3d和媒体线程的图形执行单元的阵列。在至少一个实施例中,3d/媒体子系统3415包括用于线程指令和数据的一个或更多个内部高速缓存。在至少一个实施例中,子系统3415还包括共享存储器,其包括寄存器和可寻址存储器,以在线程之间共享数据并存储输出数据。[0476]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,可以将推理和/或训练逻辑1315的部分或全部合并到处理器3400中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用3d管线3412中包含的一个或更多个alu。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图13a或图13b所示的逻辑以外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器3400的alu以执行一种或更多种机器学习算法、神经网络架构、用例或本文介绍的训练技术。[0477]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0478]图35是根据至少一个实施例的图形处理器的图形处理引擎3510的框图。在至少一个实施例中,图形处理引擎(gpe)3510是图34中所示的gpe3410的版本。在至少一个实施例中,媒体管线3516是可选的,并且可以不显式地包括在gpe3510中。在至少一个实施例中,单独的媒体和/或图像处理器耦合到gpe3510。[0479]在至少一个实施例中,gpe3510耦合到或包括命令流转化器3503,其向3d管线3512和/或媒体管线3516提供命令流。在至少一个实施例中,命令流转化器3503耦合到存储器,所述存储器可以是系统存储器,也可以是内部高速缓存存储器和共享高速缓存存储器中的一个或更多个。在至少一个实施例中,命令流转化器3503从存储器接收命令,并且将命令发送到3d管线3512和/或媒体管线3516。在至少一个实施例中,命令是从环形缓冲区中获取的指令、基元或微操作,该环形缓冲区存储用于3d管线3512和媒体管线3516的命令。在至少一个实施例中,环形缓冲区还可以包括存储各批多个命令的批命令缓冲区。在至少一个实施例中,用于3d管线3512的命令还可以包括对存储在存储器中的数据的引用,例如但不限于用于3d管线3512的顶点和几何数据和/或用于媒体管线3516的图像数据和存储器对象。在至少一个实施例中,3d管线3512和媒体管线3516通过执行操作或通过将一个或更多个执行线程分派到图形核心阵列3514,来处理命令和数据。在至少一个实施例中,图形核心阵列3514包括一个或更多个图形核心块(例如,一个或更多个图形核心3515a、一个或更多个图形核心3515b),每个块包括一个或更多个图形核心。在至少一个实施例中,每个图形核心包括一组图形执行资源,所述图形执行资源包括通用和图形特定的执行逻辑,用于执行图形和计算操作,以及固定功能纹理处理和/或机器学习和人工智能加速逻辑,包括图13a和图13b中的推理和/或训练逻辑1315。[0480]在至少一个实施例中,3d管线3512包括固定功能和可编程逻辑,用于通过处理指令并将执行线程分派到图形核心阵列3514,来处理一个或更多个着色器程序,例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。在至少一个实施例中,图形核心阵列3514提供统一的执行资源块,所述执行资源块用于处理着色器程序。在至少一个实施例中,在图形核心阵列3514的图形核心3515a-3515b内的多用途执行逻辑(例如,执行单元)包括对各种3dapi着色器语言的支持,并且可以执行与多个着色器关联的多个同时执行线程。[0481]在至少一个实施例中,图形核心阵列3514还包括执行逻辑,用于执行媒体功能,诸如视频和/或图像处理。在至少一个实施例中,除了图形处理操作之外,执行单元还包括可编程以执行并行通用计算操作的通用逻辑。[0482]在至少一个实施例中,输出数据可以将数据输出到统一返回缓冲区(urb)3518中的存储器,所述输出数据由在图形核心阵列3514上执行的线程生成。在至少一个实施例中,urb3518可以存储多个线程的数据。在至少一个实施例中,urb3518可以用于在图形核心阵列3514上执行的不同线程之间发送数据。在至少一个实施例中,urb3518还可用于图形核心阵列3514上的线程与共享功能逻辑3520内的固定功能逻辑之间的同步。[0483]在至少一个实施例中,图形核心阵列3514是可缩放的,使得图形核心阵列3514包括可变数量的图形核心,每个图形核心具有基于gpe3510的目标功率和性能水平的可变数量的执行单元。在至少一个实施例中,执行资源是动态可伸缩的,使得执行资源可以根据需要被启用或禁用。[0484]在至少一个实施例中,图形核心阵列3514耦合到共享功能逻辑3520,该共享功能逻辑包括在图形核心阵列3514中的图形核心之间共享的多个资源。在至少一个实施例中,由共享功能逻辑3520执行的共享功能体现在向图形核心阵列3514提供专门的补充功能的硬件逻辑单元中。在至少一个实施例中,共享功能逻辑3520包括但不限于采样器单元3521、数学单元3522和线程间通信(itc)逻辑3523。在至少一个实施例中,一个或更多个高速缓存3525被包含在或耦合到共享功能逻辑3520中。[0485]在至少一个实施例中,如果对专用功能的需求不足以包含在图形核心阵列3514中,则使用共享功能。在至少一个实施例中,专用功能的单个实例在共享功能逻辑3520中使用,并且在图形核心阵列3514内的其他执行资源之间共享。在至少一个实施例中,特定共享功能可以包括在图形核心阵列3514内的共享功能逻辑3516内,所述特定共享功能在图形核心阵列3514广泛使用的共享功能逻辑3520内。在至少一个实施例中,图形核心阵列3514内的共享功能逻辑3516可包括共享功能逻辑3520内的一些或全部逻辑。在至少一个实施例中,共享功能逻辑3520内的所有逻辑元件可在图形核心阵列3514的共享功能逻辑3526内复制。在至少一个实施例中,排除共享功能逻辑3520,以支持图形核心阵列3514内的共享功能逻辑3526。[0486]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑1315可以结合到图形处理器3510中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个alu,所述alu体现在3d管线3512、图形核心3515a、共享功能逻辑3526、图形核心3515b、共享功能逻辑3520或图35中的其他逻辑中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图13a或图13b所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器3510的alu,以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。[0487]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0488]图36是根据本文所述的至少一个实施例的图形处理器核心3600的硬件逻辑的框图。在至少一个实施例中,图形处理器核心3600被包括在图形核心阵列内。在至少一个实施例中,图形处理器核心3600(有时称为核心切片)可以是模块化图形处理器内的一个或更多个图形核心。在至少一个实施例中,图形处理器核心3600是一个图形核心切片的示例,并且本文所述的图形处理器可以基于目标功率和性能包络线包括多个图形核心切片。在至少一个实施例中,每个图形核心3600可以包括与多个子核心3601a-3601f耦合的固定功能块3630,也称为子切片,其包括通用和固定功能逻辑的模块块。[0489]在至少一个实施例中,固定功能块3630包括几何/固定功能管线3636,例如,在较低性能和/或较低功率的图形处理器实施方式中,该几何和固定功能管线3636可以由图形处理器3600中的所有子核心共享。在至少一个实施例中,几何/固定功能管线3636包括3d固定功能管线、视频前端单元,线程产生器和线程分派器以及管理统一返回缓冲区的统一返回缓冲区管理器。[0490]在固定的至少一个实施例中,固定功能块3630还包括图形soc接口3637、图形微控制器3638和媒体管线3639。图形soc接口3637提供了图形核心3600以及片上集成电路系统中的其他处理器核心之间的接口。在至少一个实施例中,图形微控制器3638是可编程子处理器,其可配置为管理图形处理器3600的各种功能,包括线程分派、调度和抢占。在至少一个实施例中,媒体管线3639包括有助于对包括图像和视频数据的多媒体数据进行解码、编码、预处理和/或后处理的逻辑。在至少一个实施例中,媒体管线3639经由对子核心3601-3601f内的计算或采样逻辑的请求来实现媒体操作。[0491]在至少一个实施例中,soc接口3637使图形核心3600能够与通用应用程序处理器核心(例如,cpu)和/或soc内的其他组件通信,包括存储器层次结构元素,诸如共享的最后一级高速缓存、系统ram和/或嵌入式片上或封装dram。在至少一个实施例中,soc接口3637还可以使得能够与soc内的固定功能设备(例如,相机成像管线)进行通信,并且使得能够使用和/或实现可以在图形核心3600和soc内部的cpu之间共享的全局存储器原子。在至少一个实施例中,图形soc接口3637还可以实现用于图形处理器核心3600的电源管理控制,并且启用图形处理器核心3600的时钟域与soc内的其他时钟域之间的接口。在至少一个实施例中,soc接口3637使得能够从命令流转化器和全局线程分派器接收命令缓冲区,其配置为向图形处理器内的一个或更多个图形核心中的每一个提供命令和指令。在至少一个实施例中,当要执行媒体操作时,可以将命令和指令分派给媒体管线3639,或者当要执行图形处理操作时,可以将其分配给几何形状和固定功能管线(例如,几何形状和固定功能管线3636,和/或几何形状和固定功能管线3614)。[0492]在至少一个实施例中,图形微控制器3638可以配置为对图形核心3600执行各种调度和管理任务。在至少一个实施例中,图形微控制器3638可以在子核心3601a-3601f中的执行单元(eu)阵列3602a-3602f、3604a-3604f内的各种图形并行引擎上执行图形和/或计算工作负载调度。在至少一个实施例中,在包括图形核心3600的soc的cpu核心上执行的主机软件可以提交多个图形处理器门铃之一的工作负载,其调用适当的图形引擎上的调度操作。在至少一个实施例中,调度操作包括确定接下来要运行哪个工作负载、将工作负载提交给命令流转化器、抢先在引擎上运行的现有工作负载、监控工作负载的进度以及在工作负载完成时通知主机软件。在至少一个实施例中,图形微控制器3638还可以促进图形核心3600的低功率或空闲状态,从而为图形核心3600提供在图形核心3600内独立于操作系统和/或系统上的图形驱动程序软件的跨低功率状态转换的保存和恢复寄存器的能力。[0493]在至少一个实施例中,图形核心3600可以具有比所示的子核心3601a-3601f多或少达n个模块化子核心。对于每组n个子核心,在至少一个实施例中,图形核心3600还可以包括共享功能逻辑3610、共享和/或高速缓存存储器3612、几何/固定功能管线3614以及附加的固定功能逻辑3616以加速各种图形和计算处理操作。在至少一个实施例中,共享功能逻辑3610可以包括可由图形核心3600内的每个n个子核心共享的逻辑单元(例如,采样器、数学和/或线程间通信逻辑)。共享和/或高速缓存存储器3612可以是图形核心3600内的n个子核心3601a-3601f的最后一级高速缓存,并且还可以用作可由多个子核心访问的共享存储器。在至少一个实施例中,可以包括几何/固定功能管线3614来代替固定功能块3630内的几何/固定功能管线3636,并且可以包括相似的逻辑单元。[0494]在至少一个实施例中,图形核心3600包括附加的固定功能逻辑3616,其可以包括供图形核心3600使用的各种固定功能加速逻辑。在至少一个实施例中,附加的固定功能逻辑3616包括用于仅位置着色中使用的附加的几何管线。在仅位置着色中,存在至少两个几何管线,而在几何和固定功能管线3614、3636内的完整几何管线和剔除管线中,其是可以包括在附加的固定功能逻辑3616中的附加几何管线。在至少一个实施例中,剔除管线是完整几何管线的修整版。在至少一个实施例中,完整管线和剔除管线可以执行应用程序的不同实例,每个实例具有单独的环境。在至少一个实施例中,仅位置着色可以隐藏被丢弃的三角形的长剔除运行,从而在某些情况下可以更早地完成着色。例如,在至少一个实施例中,附加固定功能逻辑3616中的剔除管线逻辑可以与主应用程序并行执行位置着色器,并且通常比完整管线更快地生成关键结果,因为剔除管线获取并遮蔽顶点的位置属性,无需执行光栅化和将像素渲染到帧缓冲区。在至少一个实施例中,剔除管线可以使用生成的临界结果来计算所有三角形的可见性信息,而与这些三角形是否被剔除无关。在至少一个实施例中,完整管线(在这种情况下可以称为重播管线)可以消耗可见性信息来跳过剔除的三角形以仅遮盖最终传递到光栅化阶段的可见三角形。[0495]在至少一个实施例中,附加的固定功能逻辑3616还可包括机器学习加速逻辑,例如固定功能矩阵乘法逻辑,用于实现包括用于机器学习训练或推理的优化。[0496]在至少一个实施例中,在每个图形子核心3601a-3601f内包括一组执行资源,其可用于响应于图形管线、媒体管线或着色器程序的请求来执行图形、媒体和计算操作。在至少一个实施例中,图形子核心3601a-3601f包括多个eu阵列3602a-3602f、3604a-3604f,线程分派和线程间通信(td/ic)逻辑3603a-3603f,3d(例如,纹理)采样器3605a-3605f,媒体采样器3606a-3606f,着色器处理器3607a-3607f和共享本地存储器(slm)3608a-3608f。在至少一个实施例中,eu阵列3602a-3602f、3604a-3604f每个都包含多个执行单元,这些执行单元是通用图形处理单元,能够为图形、媒体或计算操作提供服务,执行浮点和整数/定点逻辑运算,包括图形、媒体或计算着色器程序。在至少一个实施例中,td/ic逻辑3603a-3603f为子核心内的执行单元执行本地线程分派和线程控制操作,并促进在子核心的执行单元上执行的线程之间的通信。在至少一个实施例中,3d采样器3605a-3605f可以将与纹理或其他3d图形相关的数据读取到存储器中。在至少一个实施例中,3d采样器可以基于与给定纹理相关联的配置的采样状态和纹理格式来不同地读取纹理数据。在至少一个实施例中,媒体采样器3606a-3606f可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在至少一个实施例中,每个图形子核心3601a-3601f可以可替代地包括统一的3d和媒体采样器。在至少一个实施例中,在每个子核心3601a-3601f内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器3608a-3608f,以使在线程组内执行的线程能够使用片上存储器的公共池来执行。[0497]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315的部分或全部可以被合并到图形处理器3610中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用在3d管线、图形微控制器3638、几何和固定功能管线3614和3636或图36中的其他逻辑中体现的一个或更多个alu。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图13a或图13b所示的逻辑以外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器3600的alu以执行一种或更多种本文介绍的机器学习算法、神经网络架构、用例或训练技术。[0498]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0499]图37a-37b示出了根据至少一个实施例的包括图形处理器核心的处理元件的阵列的线程执行逻辑3700。图37a示出了至少一个实施例,其中使用了线程执行逻辑3700。图37b示出了根据至少一个实施例的图形执行单元3708的示例性内部细节。[0500]如图37a中所示,在至少一个实施例中,线程执行逻辑3700包括着色器处理器3702、线程分派器3704、指令高速缓存3706、包括多个执行单元3707a-3707n和3708a-3708n的可缩放执行单元阵列、采样器3710、数据高速缓存3712和数据端口3714。在至少一个实施例中,可缩放执行单元阵列可以例如基于工作负载的计算要求,通过启用或禁用一个或更多个执行单元(例如,执行单元3708a、3708b、3708c、3708d、至3708n-1和3708n中的任意一个)来动态缩放。在至少一个实施例中,可缩放执行单元通过链路到每个执行单元的互连结构互连。在至少一个实施例中,线程执行逻辑3700包括通过指令高速缓存3706、数据端口3714、采样器3710和执行单元3708a-3708n中的一个或更多个到存储器(诸如系统存储器或高速缓存存储器)的一个或更多个连接。在至少一个实施例中,每个执行单元(例如3708a)是独立的可编程通用计算单元,其能够执行多个同时的硬件线程,同时针对每个线程并行处理多个数据元素。在至少一个实施例中,执行单元3708a-3708n的阵列可缩放以包括任意数量的单独执行单元。[0501]在至少一个实施例中,执行单元3708a-3708n主要用于执行着色器程序。在至少一个实施例中,着色器处理器3702可以处理各种着色器程序并经由线程分派器3704来分派与着色器程序相关联的执行线程。在至少一个实施例中,线程分派器3704包括用于仲裁来自图形和媒体管线的线程初始化庆祝以及在执行单元3708a-3708n中的一个或更多个执行单元上实例化请求的线程的逻辑。例如,在至少一个实施例中,几何管线可以将顶点、镶嵌或几何着色器分派到线程执行逻辑以进行处理。在至少一个实施例中,线程分派器3704还可以处理来自执行着色器程序的运行时线程产生请求。[0502]在至少一个实施例中,执行单元3708a-3708n支持一种指令集,该指令集包括对许多标准3d图形着色器指令的本机支持,从而使图形库(例如direct3d和opengl)中的着色器程序只需最少的转换即可执行。在至少一个实施例中,执行单元支持顶点和几何处理(例如,顶点程序、几何程序、和/或顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算和媒体着色器)。在至少一个实施例中,每个执行单元3708a-3708n包括一个或更多个算术逻辑单元(alu),能够执行多发出单指令多数据(simd),并且多线程操作实现了高效的执行环境尽管有更高的延迟存储器访问。在至少一个实施例中,每个执行单元内的每个硬件线程具有专用的高带宽寄存器文件和相关的独立线程状态。在至少一个实施例中,执行是每个时钟到管线的多次发出,管线能够进行整数、单精度和双精度浮点运算、simd分支功能、逻辑运算、先验运算和其他其他运算。在至少一个实施例中,在等待来自存储器或共享功能之一的数据时,执行单元3708a-3708n内的依赖性逻辑使等待线程休眠直到返回了所请求的数据。在至少一个实施例中,当等待线程正在休眠时,硬件资源可以专用于处理其他线程。例如,在至少一个实施例中,在与顶点着色器操作相关联的延迟期间,执行单元可以对像素着色器、片段着色器或另一类型的着色器程序(包括不同的顶点着色器)执行操作。[0503]在至少一个实施例中,执行单元3708a-3708n中的每一个执行单元在数据元素的阵列上进行操作。在至少一个实施例中,多个数据元素是“执行大小”或指令的通道数。在至少一个实施例中,执行通道是用于指令内的数据元素访问、屏蔽和流控制的执行的逻辑单元。在至少一个实施例中,多个通道可以独立于用于特定图形处理器的多个物理算术逻辑单元(alu)或浮点单元(fpu)。在至少一个实施例中,执行单元3708a-3708n支持整数和浮点数据类型。[0504]在至少一个实施例中,执行单元指令集包括simd指令。在至少一个实施例中,各种数据元素可以作为封装数据类型存储在寄存器中,并且执行单元将基于那些元素的数据大小来处理各种元素。例如,在至少一个实施例中,当对256位宽的向量进行操作时,将向量的256位存储在寄存器中,并且执行单元对向量进行操作,作为四个单独的64位封装数据元素(四字(qw)大小数据元素)、八个单独的32位封装数据元素(双字(dw)大小数据元素)、十六个单独的16位封装数据元素(单词(w)大小数据元素)或三十二个单独的8位数据元素(字节(b)大小的数据元素)。然而,在至少一个实施例中,不同的向量宽度和寄存器大小是可能的。[0505]在至少一个实施例中,一个或更多个执行单元可以被组合成具有执行对于融合eu共用的线程控制逻辑(3707a-3707n)的融合执行单元3709a-3709n。在至少一个实施例中,可以将多个eu合并成一个eu组。在至少一个实施例中,融合eu组中的eu的数量可以配置为执行单独的simd硬件线程,融合的eu组中的eu的数量可能根据各个实施例而变化。在至少一个实施例中,每个eu可以执行各种simd宽度,包括但不限于simd8、simd16和simd32。在至少一个实施例中,每个融合图形执行单元3709a-3709n包括至少两个执行单元。例如,在至少一个实施例中,融合执行单元3709a包括第一eu3708a、第二eu3708b以及第一eu3708a和第二eu3708b共用的线程控制逻辑3707a。在至少一个实施例中,线程控制逻辑3707a控制在融合图形执行单元3709a上执行的线程,从而允许融合执行单元3709a-3709n内的每个eu使用公共指令指针寄存器来执行。[0506]在至少一个实施例中,一个或更多个内部指令高速缓存(例如3706)被包括在线程执行逻辑3700中以高速缓存用于执行单元的线程指令。在至少一个实施例中,包括一个或更多个数据高速缓存(例如3712)以在线程执行期间高速缓存线程数据。在至少一个实施例中,包括采样器3710以提供用于3d操作的纹理采样和用于媒体操作的媒体采样。在至少一个实施例中,采样器3710包括专门的纹理或媒体采样功能,以在将采样数据提供给执行单元之前在采样过程中处理纹理或媒体数据。[0507]在执行期间,在至少一个实施例中,图形和媒体管线通过线程产生和分派逻辑将线程发起请求发送到线程执行逻辑3700。在至少一个实施例中,一旦一组几何对象已经被处理并光栅化成像素数据,则在着色器处理器3702内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)被调用以进一步计算输出信息并且导致将结果写入输出表面(例如,颜色缓冲区、深度缓冲区、模板缓冲区等)。在至少一个实施例中,像素着色器或片段着色器计算要在光栅化对象上插值的各种顶点属性的值。在至少一个实施例中,着色器处理器3702内的像素处理器逻辑然后执行应用程序接口(api)提供的像素或片段着色器程序。在至少一个实施例中,为了执行着色器程序,着色器处理器3702经由线程分派器3704将线程分派到执行单元(例如3708a)。在至少一个实施例中,着色器处理器3702使用采样器3710中的纹理采样逻辑来访问存储在存储器中的纹理贴图中的纹理数据。在至少一个实施例中,对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据,或者丢弃一个或更多个像素以进行进一步处理。[0508]在至少一个实施例中,数据端口3714提供了一种用于线程执行逻辑3700的存储器访问机制,以将处理后的数据输出到存储器以在图形处理器输出管线上进行进一步处理。在至少一个实施例中,数据端口3714包括或耦合到一个或更多个高速缓存存储器(例如,数据高速缓存3712)以高速缓存数据以便经由数据端口进行存储器访问。[0509]如图37b所示,在至少一个实施例中,图形执行单元3708可以包括指令获取单元3737、通用寄存器文件阵列(grf)3724、架构寄存器文件阵列(arf)3726、线程仲裁器3722、发送单元3730、分支单元3732、一组simd浮点单元(fpu)3737,以及在至少一个实施例中,一组专用整数simdalu3735。grf3724和arf3726包括一组与可以在图形执行单元3708中活跃的每个同时硬件线程相关联的通用寄存器文件和架构寄存器文件。在至少一个实施例中,在arf3726中维护每个线程架构状态,而在线程执行期间使用的数据存储在grf3724中。在至少一个实施例中,每个线程的执行状态,包括每个线程的指令指针,可以被保存在arf3726中的线程专用寄存器中。[0510]在至少一个实施例中,图形执行单元3708具有一种架构,该架构是同时多线程(smt)和细粒度交错多线程(imt)的组合。在至少一个实施例中,架构具有模块化配置,该模块化配置可以在设计时基于同时线程的目标数量和每个执行单元的寄存器数量来进行微调,其中执行单元资源在用于执行多个同时线程的逻辑上分配。[0511]在至少一个实施例中,图形执行单元3708可以共同发布多个指令,每个指令可以是不同的指令。在至少一个实施例中,图形执行单元线程3708的线程仲裁器3722可以将指令分派到发送单元3730、分支单元3732或simdfpu3734之一以供执行。在至少一个实施例中,每个执行线程可以访问grf3724中的128个通用寄存器,其中每个寄存器可以存储32个字节,可以作为32位数据元素的simd8元素向量进行访问。在至少一个实施例中,每个执行单元线程可以访问grf3724中的4kb,尽管实施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。在至少一个实施例中,尽管每个执行单元的线程数量也可以根据实施例而变化,但是最多可以同时执行七个线程。在其中七个线程可以访问4kb的至少一个实施例中,grf3724可以存储总共28kb。在至少一个实施例中,灵活的寻址模式可以允许将寄存器一起寻址以有效地建立更宽的寄存器或表示跨步的矩形块数据结构。[0512]在至少一个实施例中,经由由消息传递发送单元3730执行的“发送”指令来调度存储器操作、采样器操作和其他更长延迟的系统通信。在至少一个实施例中,将分支指令分派到专用分支单元3732促进simd发散和最终收敛。[0513]在至少一个实施例中,图形执行单元3708包括一个或更多个simd浮点单元(fpu)3734,以执行浮点操作。在至少一个实施例中,一个或更多个fpu3734还支持整数计算。在至少一个实施例中,一个或更多个fpu3734可以simd执行多达m个32位浮点(或整数)运算,或者simd执行多达2m个16位整数或16位浮点运算。在至少一个实施例中,至少一个fpu提供扩展的数学能力以支持高吞吐量的先验数学函数和双精度64位浮点。在至少一个实施例中,还存在一组8位整数simdalu3735,并且可以被专门优化以执行与机器学习计算相关的操作。[0514]在至少一个实施例中,可以在图形子核心分组(例如,子切片)中实例化图形执行单元3708的多个实例的阵列。在至少一个实施例中,执行单元3708可以跨多个执行通道执行指令。在至少一个实施例中,在图形执行单元3708上执行的每个线程在不同的通道上执行。[0515]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,推理和/或训练逻辑1315的部分或全部可以被结合到线程执行逻辑3700中。此外,在至少一个实施例中,可以使用除了图13a或图13b中所示的逻辑之外的逻辑来完成在此描述的推理和/或训练操作。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置线程执行逻辑3700的alu以执行一种或更多种机器学习算法、神经网络架构、用例或本文介绍的训练技术。[0516]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0517]图38示出了根据至少一个实施例的并行处理单元(“ppu”)3800。在至少一个实施例中,ppu3800配置有机器可读代码,该机器可读代码如果由ppu3800执行,则使得ppu3800执行贯穿本公开描述的一些或全部过程和技术。在至少一个实施例中,ppu3800是在一个或更多个集成电路设备上实现的多线程处理器,并且利用多线程作为被设计为处理在多个线程上并行执行的计算机可读指令(也称为机器可读指令或简单的指令)的延迟隐藏技术。在至少一个实施例中,线程是指执行线程,并且是被配置为由ppu3800执行的一组指令的实例。在至少一个实施例中,ppu3800是图形处理单元(“gpu”),图形处理单元配置为实现用于处理三维(“3d”)图形数据的图形渲染管线,以便生成用于在显示设备(诸如液晶显示器(“lcd”)设备)上显示的二维(“2d”)图像数据。在至少一个实施例中,ppu3800用于执行计算,诸如线性代数运算和机器学习运算。图38仅出于说明性目的示出了示例并行处理器,并且应被解释为在本公开的范围内设想的处理器架构的非限制性示例,并且可以采用任何适当的处理器来对其进行补充和/或替代。[0518]在至少一个实施例中,一个或更多个ppu3800配置成加速高性能计算(“hpc”)、数据中心和机器学习应用程序。在至少一个实施例中,ppu3800配置成加速深度学习系统和应用程序,包括以下非限制性示例:自动驾驶汽车平台、深度学习、高精度语音、图像、文本识别系统、智能视频分析、分子模拟、药物发现、疾病诊断、天气预报、大数据分析、天文学、分子动力学模拟、财务建模、机器人技术、工厂自动化、实时语言翻译、在线搜索优化以及个性化用户推荐等。[0519]在至少一个实施例中,ppu3800包括但不限于输入/输出(“i/o”)单元3806、前端单元3810、调度器单元3812、工作分配单元3814、集线器3816、交叉开关(“xbar”)3820、一个或更多个通用处理集群(“gpc”)3818和一个或更多个分区单元(“存储器分区单元”)3822。在至少一个实施例中,ppu3800通过一个或更多个高速gpu互连(“gpu互连”)3808连接到主机处理器或其他ppu3800。在至少一个实施例中,ppu3800通过互连3802连接到主机处理器或其他外围设备。在一实施例中,ppu3800连接到包括一个或更多个存储器设备(“存储器”)3804的本地存储器。在至少一个实施例中,存储器设备3804包括但不限于一个或更多个动态随机存取存储器(“dram”)设备。在至少一个实施例中,一个或更多个dram设备配置和/或可配置为高带宽存储器(“hbm”)子系统,并且在每个设备内堆叠有多个dram管芯。[0520]在至少一个实施例中,高速gpu互连3808可以指代系统使用其来进行缩放的基于线的多通道通信链路,并包括与一个或更多个中央处理单元结合的一个或更多个ppu3800(“cpu”),支持ppu3800和cpu之间的缓存相干以及cpu主控。在至少一个实施例中,高速gpu互连3808通过集线器3816将数据和/或命令传输到ppu3800的其他单元,例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元和/或在图38中可能未明确示出的其他组件。[0521]在至少一个实施例中,i/o单元3806配置为通过系统总线3802从主机处理器(图38中未示出)发送和接收通信(例如,命令、数据)。在至少一个实施例中,i/o单元3806直接通过系统总线3802或通过一个或更多个中间设备(例如存储器桥)与主机处理器通信。在至少一个实施例中,i/o单元3806可以经由系统总线3802与一个或更多个其他处理器(例如一个或更多个ppu3800)通信。在至少一个实施例中,i/o单元3806实现外围组件互连express(“pcie”)接口,用于通过pcie总线进行通信。在至少一个实施例中,i/o单元3806实现用于与外部设备通信的接口。[0522]在至少一个实施例中,i/o单元3806对经由系统总线3802接收的分组进行解码。在至少一个实施例中,至少一些分组表示被配置为使ppu3800执行各种操作的命令。在至少一个实施例中,i/o单元3806如命令所指定的那样将解码的命令发送到ppu3800的各种其他单元。在至少一个实施例中,命令被发送到前端单元3810和/或被发送到集线器3816或ppu3800的其他单元,例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(图38中未明确示出)。在至少一个实施例中,i/o单元3806配置为在ppu3800的各种逻辑单元之间路由通信。[0523]在至少一个实施例中,由主机处理器执行的程序在缓冲区中对命令流进行编码,该缓冲区将工作负载提供给ppu3800以进行处理。在至少一个实施例中,工作负载包括指令和要由那些指令处理的数据。在至少一个实施例中,缓冲区是可由主机处理器和ppu3800两者访问(例如,读/写)的存储器中的区域—主机接口单元可以配置为访问经由i/o单元3806通过系统总线3802传输的存储器请求连接到系统总线3802的系统存储器中的缓冲区。在至少一个实施例中,主机处理器将命令流写入缓冲区,然后将指示命令流开始的指针发送给ppu3800,使得前端单元3810接收指向一个或更多个命令流指针并管理一个或更多个命令流,从命令流中读取命令并将命令转发到ppu3800的各个单元。[0524]在至少一个实施例中,前端单元3810耦合到调度器单元3812,该调度器单元3812配置各种gpc3818以处理由一个或更多个命令流定义的任务。在至少一个实施例中,调度器单元3812配置为跟踪与调度器单元3812管理的各种任务有关的状态信息,其中状态信息可以指示任务被分配给哪个gpc3818,任务是活跃的还是非活跃的,与任务相关联的优先级等等。在至少一个实施例中,调度器单元3812管理在一个或更多个gpc3818上执行的多个任务。[0525]在至少一个实施例中,调度器单元3812耦合到工作分配单元3814,该工作分配单元3814配置为分派任务以在gpc3818上执行。在至少一个实施例中,工作分配单元3814跟踪从调度器单元3812接收到的多个调度任务并且工作分配单元3814管理每个gpc3818的待处理任务池和活跃任务池。在至少一个实施例中,待处理任务池包括多个时隙(例如32个时隙),这些时隙包含分配给要由特定的gpc3818处理的任务;活跃任务池可包括用于由gpc3818主动处理的任务的多个时隙(例如4个时隙),以使随着gpc3818中的一个完成任务的执行,该任务将从gpc3818的活动任务池中逐出,并且从待处理任务池中选择其他任务之一,并安排其在gpc3818上执行。在至少一个实施例中,如果活跃任务在gpc3818上处于空闲状态,例如在等待数据依赖性解决时,则活跃任务从gpc3818中驱逐并返回到待处理任务池,同时选择了待处理任务池中的另一个任务并调度在gpc3818上执行。[0526]在至少一个实施例中,工作分配单元3814经由xbar3820与一个或更多个gpc3818通信。在至少一个实施例中,xbar3820是互连网络,其将ppu3800的许多单元耦合到ppu3800的其他单元,并且可以配置为将工作分配单元3814耦合到特定的gpc3818。在至少一个实施例中,一个或更多个ppu3800的其他单元也可以通过集线器3816连接到xbar3820。[0527]在至少一个实施例中,任务由调度器单元3812管理,并由工作分配单元3814分配给gpc3818之一。在至少一个实施例中,gpc3818配置为处理任务并产生结果。在至少一个实施例中,结果可以由gpc3818中的其他任务消耗,通过xbar3820路由到不同的gpc3818或存储在存储器3804中。在至少一个实施例中,结果可以通过分区单元3822写到存储器3804中,其实现了用于向存储器3804写入数据或从存储器3804读取数据的存储器接口。在至少一个实施例中,结果可以经由高速gpu互连3808传输到另一ppu3804或cpu。在至少一个实施例中,ppu3800包括但不限于u个分区单元3822,其等于耦合到ppu3800的分离且不同的存储器设备3804的数量。在至少一个实施例中,分区单元3822将是本文结合图40更详细地描述。[0528]在至少一个实施例中,主机处理器执行驱动器核心,该驱动程序核心实现应用程序编程接口(api),该应用程序编程接口使在主机处理器上执行的一个或更多个应用程序能够调度操作以在ppu3800上执行。在一个实施例中,多个计算应用程序由ppu3800同时执行,并且ppu3800为多个计算应用程序提供隔离、服务质量(“qos”)和独立的地址空间。在至少一个实施例中,应用程序生成指令(例如,以api调用的形式),该指令使驱动器核心生成一个或更多个任务以供ppu3800执行,并且驱动器核心将任务输出至由ppu3800处理的一个或更多个流。在至少一个实施例中,每个任务包括一个或更多个相关线程组,其可以被称为线程束(warp)。在至少一个实施例中,线程束包括可以并行执行的多个相关线程(例如32个线程)。在至少一个实施例中,协作线程可以指代多个线程,包括用于执行任务并且通过共享存储器交换数据的指令,结合图40根据至少一个实施例更详细地描述了线程和协作线程。[0529]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给ppu3800的信息。在至少一个实施例中,深度学习应用程序处理器3800用于基于已由另一处理器或系统或ppu3800训练过的训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,ppu3800可用于执行本文所述的一个或更多个神经网络用例。[0530]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0531]图39示出了根据至少一个实施例的通用处理集群(“gpc”)3900。在至少一个实施例中,gpc3900是图38的gpc3818。在至少一个实施例中,每个gpc3900包括但不限于用于处理任务的多个硬件单元,并且每个gpc3900包括但不限于管线管理器3902、预光栅操作单元(“prerop”)3904、光栅引擎3908、工作分配交叉开关(“wdx”)3916、存储器管理单元(“mmu”)3918、一个或更多个数据处理集群(“dpc”)3906,以及部件的任何合适组合。[0532]在至少一个实施例中,gpc3900的操作由管线管理器3902控制。在至少一个实施例中,管线管理器3902管理一个或更多个dpc3906的配置,以处理分配给gpc3900的任务。在至少一个实施例中,管线管理器3902配置一个或更多个dpc3906中的至少一个以实现图形渲染管线的至少一部分。在至少一个实施例中,dpc3906配置为在可编程流式多处理器(“sm”)3914上执行顶点着色器程序。在至少一个实施例中,管线管理器3902配置为将从工作分配单元接收的数据包路由到gpc3900内的适当逻辑单元,以及在至少一个实施例中,可以将一些数据包路由到prerop3904和/或光栅引擎3908中的固定功能硬件单元,而可以将其他数据包路由到dpc3906以由原始引擎3912或sm3914进行处理。在至少一个实施例中,管线管理器3902配置dpc3906中的至少一个以实现神经网络模型和/或计算管线。[0533]在至少一个实施例中,prerop单元3904配置为在至少一个实施例中将由光栅引擎3908和dpc3906生成的数据路由到分区单元3822中的光栅操作(“rop”)单元,上面结合图38更详细地描述。在至少一个实施例中,prerop单元3904配置为执行用于颜色混合的优化、组织像素数据、执行地址转换等等。在至少一个实施例中,光栅引擎3908包括但不限于配置为执行各种光栅操作的多个固定功能硬件单元,并且在至少一个实施例中,光栅引擎3908包括但不限于设置引擎、粗光栅引擎、剔除引擎、裁剪引擎、精细光栅引擎、图块聚合引擎及其任意合适的组合。在至少一个实施例中,设置引擎接收变换后的顶点并生成与由顶点定义的几何图元相关联的平面方程;平面方程式被传送到粗光栅引擎以生成基本图元的覆盖信息(例如,图块的x、y覆盖范围掩码);粗光栅引擎的输出将传输到剔除引擎,在剔除引擎中与z测试失败的图元相关联的片段将被剔除,并传输到剪切引擎,在剪切引擎中剪切位于视锥范围之外的片段。在至少一个实施例中,将经过裁剪和剔除的片段传递给精细光栅引擎,以基于设置引擎生成的平面方程式生成像素片段的属性。在至少一个实施例中,光栅引擎3908的输出包括将由任何适当的实体(例如,由在dpc3906内实现的片段着色器)处理的片段。[0534]在至少一个实施例中,包括在gpc3900中的每个dpc3906包括但不限于m管线控制器(“mpc”)3910;图元引擎3912;一个或更多个sm3914;及其任何合适的组合。在至少一个实施例中,mpc3910控制dpc3906的操作,将从管线管理器3902接收的分组路由到dpc3906中的适当单元。在至少一个实施例中,将与顶点相关联的分组路由到图元引擎3912,图元引擎3912配置为从存储器中获取与顶点关联的顶点属性;相反,可以将与着色器程序相关联的数据包发送到sm3914。[0535]在至少一个实施例中,sm3914包括但不限于可编程流式处理器,其配置为处理由多个线程表示的任务。在至少一个实施例中,sm3914是多线程的并且配置为同时执行来自特定线程组的多个线程(例如32个线程),并且实现单指令、多数据(“simd”)架构,其中将一组线程(例如,线程束)中的每个线程配置为基于相同的指令集来处理不同的数据集。在至少一个实施例中,线程组中的所有线程执行相同的指令。在至少一个实施例中,sm3914实施单指令、多线程(“simt”)架构,其中一组线程中的每个线程配置为基于相同的指令集来处理不同的数据集,但是其中线程组中的各个线程允许在执行期间发散。在至少一个实施例中,为每个线程束维护程序计数器、调用栈和执行状态,从而当线程束中的线程发散时,实现线程束和线程束内的串行执行之间的并发性。在另一个实施例中,为每个单独的线程维护程序计数器、调用栈和执行状态,从而使得在线程束内和线程束之间的所有线程之间具有相等的并发性。在至少一个实施例中,为每个单独的线程维持执行状态,并且可以收敛并并行地执行执行相同指令的线程以提高效率。本文更详细地描述sm3914的至少一个实施例。[0536]在至少一个实施例中,mmu3918在gpc3900和存储器分区单元(例如,图38的分区单元3822)之间提供接口,并且mmu3918提供虚拟地址到物理地址的转换、存储器保护以及存储器请求的仲裁。在至少一个实施例中,mmu3918提供一个或更多个转换后备缓冲区(“tlb”),用于执行虚拟地址到存储器中的物理地址的转换。[0537]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给gpc3900的信息。在至少一个实施例中,gpc3900用于基于已由另一处理器或系统或gpc3900训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,gpc3900可用于执行本文所述的一个或更多个神经网络用例。[0538]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0539]图40示出了根据至少一个实施例的并行处理单元(“ppu”)的存储器分区单元4000。在至少一个实施例中,存储器分区单元4000包括但不限于光栅操作(“rop”)单元4002;二级(“l2”)高速缓存4004;存储器接口4006;及其任何合适的组合。在至少一个实施例中,存储器接口4006耦合到存储器。在至少一个实施例中,存储器接口4006可以实现32、64、128、1024位数据总线,或者类似的实现方式用于高速数据传输。在至少一个实施例中,ppu包括u个存储器接口4006,其中u是正整数,每对分区单元4000一个存储器接口4006,其中每对分区单元4000连接到对应的存储器设备。例如,在至少一个实施例中,ppu可以连接至多达y个存储器设备,例如高带宽存储器堆栈或图形双数据速率版本5同步动态随机存取存储器(“gddr5sdram”)。[0540]在至少一个实施例中,存储器接口4006实现高带宽存储器第二代(“hbm2”)存储器接口,并且y等于u的一半。在至少一个实施例中,hbm2存储器堆栈与ppu位于相同的物理封装上,与传统的gddr5sdram系统相比,可提供大量功率并节省面积。在至少一个实施例中,每个hbm2堆栈包括但不限于四个存储器管芯,且y=4,每个hbm2堆栈包括每个管芯两个128位通道,用于总共8个通道和1024位的数据总线宽度。在至少一个实施例中,存储器支持单错误校正双错误检测(“secded”)错误校正码(“ecc”)以保护数据。在至少一个实施例中,ecc为对数据损坏敏感的计算应用程序提供更高的可靠性。[0541]在至少一个实施例中,ppu实现了多级存储器层次结构。在至少一个实施例中,存储器分区单元4000支持统一存储器以为中央处理单元(“cpu”)和ppu存储器提供单个统一虚拟地址空间,从而实现虚拟存储器系统之间的数据共享。在至少一个实施例中,追踪ppu对位于其他处理器上的存储器的访问频率,以确保将存储器页面移动到更频繁地访问页面的ppu的物理存储器。在至少一个实施例中,高速gpu互连3808支持地址转换服务,其允许ppu直接访问cpu的页表,并通过ppu提供对cpu存储器的完全访问。[0542]在至少一个实施例中,复制引擎在多个ppu之间或ppu与cpu之间传输数据。在至少一个实施例中,复制引擎可以为未被映射到页表中的地址生成页面错误,并且存储器分区单元4000然后为页面错误提供服务,将地址映射到页表中,之后复制引擎执行传输。在至少一个实施例中,为多个处理器之间的多个复制引擎操作固定(即不可分页)存储器,从而实质上减少了可用存储器。在至少一个实施例中,在硬件页面故障的情况下,可以将地址传递给复制引擎,而无需考虑是否驻留存储器页,并且复制过程是透明的。[0543]根据至少一个实施例,来自图38的存储器3804或其他系统存储器的数据由存储器分区单元4000获取,并将其存储在l2高速缓存4004中,l2高速缓存4004位于芯片上并且在各种gpc之间共享。在至少一个实施例中,每个存储器分区单元4000包括但不限于与对应的存储器设备相关联的l2高速缓存的至少一部分。在至少一个实施例中,在gpc内的各个单元中实现较低级别的高速缓存。在至少一个实施例中,每个sm3914可以实现一级(“l1”)高速缓存,其中l1高速缓存是专用于特定sm3914的私有存储器,并且从l2高速缓存4004中获取数据并将其存储在每个l1高速缓存中,用于在sm3914的功能单元中进行处理。在至少一个实施例中,l2高速缓存4004耦合到存储器接口4006和xbar3820。[0544]在至少一个实施例中,rop单元4002执行与像素颜色有关的图形光栅操作,诸如颜色压缩、像素混合等。在至少一个实施例中,rop单元4002结合光栅引擎3908实施深度测试,从光栅引擎3908的剔除引擎接收与像素片段相关联的样本位置的深度。在至少一个实施例中,针对在与片段关联的样本位置的深度缓冲区中的相应深度测试深度。在至少一个实施例中,如果该片段通过了针对该样本位置的该深度测试,则rop单元4002更新深度缓冲区,并将该深度测试的结果发送给光栅引擎3908。将意识到,分区单元4000的数量可以不同于gpc的数量,因此,可以在至少一个实施例中将每个rop单元4002耦合到每个gpc。在至少一个实施例中,rop单元4002追踪从不同gpc接收到的分组,并且确定rop单元4002生成的结果是否要通过xbar3820路由到。[0545]图41示出了根据至少一个实施例的流式多处理器(“sm”)4100。在至少一个实施例中,sm4100是图39的sm。在至少一个实施例中,sm4100包括但不限于指令高速缓存4102;一个或更多个调度器单元4104;寄存器文件4108;一个或更多个处理核心(“核心”)4110;一个或更多个特殊功能单元(“sfu”)4112;一个或更多个加载/存储单元(“lsu”)4114;互连网络4116;共享存储器/一级(“l1”)高速缓存4118;以及/或其任何合适的组合。在至少一个实施例中,工作分配单元调度任务以在并行处理单元(“ppu”)的通用处理集群(“gpc”)上执行,并且每个任务被分配给gpc内部的特定数据处理集群(“dpc”),并且如果任务与着色器程序相关联,则将该任务分配给sm4100之一。在至少一个实施例中,调度器单元4104从工作分配单元接收任务并管理分配给sm4100的一个或更多个线程块的指令调度。在至少一个实施例中,调度器单元4104调度线程块以作为并行线程的线程束来执行,其中每个线程块被分配至少一个线程束。在至少一个实施例中,每个线程束执行线程。在至少一个实施例中,调度器单元4104管理多个不同的线程块,将线程束分配给不同的线程块,然后在每个时钟周期内将来自多个不同的协作组的指令分派给各种功能单元(例如,处理核心4110、sfu4112和lsu4114)。[0546]在至少一个实施例中,协作组可以指用于组织通信线程组的编程模型,其允许开发者表达线程正在通信的粒度,从而能够表达更丰富、更有效的并行分解。在至少一个实施例中,协作启动api支持线程块之间的同步以执行并行算法。在至少一个实施例中,常规编程模型的应用程序提供了用于同步协作线程的单一、简单的构造:跨线程块的所有线程的屏障(例如,syncthreads()函数)。但是,在至少一个实施例中,程序员可以在小于线程块粒度的情形下来定义线程组,并在所定义的组内进行同步,以实现更高的性能、设计灵活性以及以集合组范围功能接口的形式实现软件重用。在至少一个实施例中,协作组使程序员能够以子块(即,小到单个线程)和多块粒度明确定义线程组,并执行集合操作,例如对协作组中的线程进行同步。在至少一个实施例中,该编程模型支持跨软件边界的干净组合,从而库和实用程序功能可以在其本地环境中安全地同步,而不必进行关于收敛的假设。在至少一个实施例中,协作组图元使协作并行的新图案成为可能,包括但不限于生产者-消费者并行,机会主义并行以及整个线程块网格上的全局同步。[0547]在至少一个实施例中,分派单元4106配置为将指令发送到功能单元中的一个或更多个,并且调度器单元4104并包括但不限于两个分派单元4106,该两个分派单元4106使得来自相同线程束的两个不同指令能够在每个时钟周期被调度。在至少一个实施例中,每个调度器单元4104包括单个分派单元4106或附加分派单元4106。[0548]在至少一个实施例中,每个sm4100在至少一个实施例中包括但不限于寄存器文件4108,该寄存器文件4108为sm4100的功能单元提供了一组寄存器。在至少一个实施例中,寄存器文件4108在每个功能单元之间划分,从而为每个功能单元分配寄存器文件4108的专用部分。在至少一个实施例中,寄存器文件4108在由sm4100执行的不同线程束之间划分,并且寄存器文件4108为连接到功能单元的数据路径的操作数提供临时存储。在至少一个实施例中,每个sm4100包括但不限于多个l个处理核心4110,其中l是正整数。在至少一个实施例中,sm4100包括但不限于大量(例如128个或更多)不同的处理核心4110。在至少一个实施例中,每个处理核心4110包括但不限于全管线、单精度、双精度和/或混合精度处理单元,其包括但不限于浮点算术逻辑单元和整数算术逻辑单元。在至少一个实施例中,浮点算术逻辑单元实现用于浮点算术的ieee754-2008标准。在至少一个实施例中,处理核心4110包括但不限于64个单精度(32位)浮点核心、64个整数核心、32个双精度(64位)浮点核心和8个张量核心。[0549]根据至少一个实施例,张量核心配置为执行矩阵运算。在至少一个实施例中,一个或更多个张量核心包括在处理核心4110中。在至少一个实施例中,张量核心配置为执行深度学习矩阵算术,例如用于神经网络训练和推理的卷积运算。在至少一个实施例中,每个张量核心在4×4矩阵上操作并且执行矩阵乘法和累加运算d=a×b c,其中a、b、c和d是4×4矩阵。[0550]在至少一个实施例中,矩阵乘法输入a和b是16位浮点矩阵,并且累加矩阵c和d是16位浮点或32位浮点矩阵。在至少一个实施例中,张量核心对16位浮点输入数据进行32位浮点累加运算。在至少一个实施例中,16位浮点乘法使用64个运算,并得到全精度乘积,然后使用32位浮点加法与其他中间乘积累加起来,以进行4x4x4矩阵乘法。在至少一个实施例中,张量核心用于执行由这些较小元件构成的更大的二维或更高维度的矩阵运算。在至少一个实施例中,api(诸如cuda9c api)公开专门的矩阵加载、矩阵乘法和累加以及矩阵存储操作,以有效地使用来自cuda-c 程序的张量核心。在至少一个实施例中,在cuda级别,线程束级别接口假定跨越所有32个线程束线程的16×16大小的矩阵。[0551]在至少一个实施例中,每个sm4100包括但不限于执行特殊功能(例如,属性评估、倒数平方根等)的m个sfu4112。在至少一个实施例中,sfu4112包括但不限于配置为遍历分层树数据结构的树遍历单元。在至少一个实施例中,sfu4112包括但不限于配置为执行纹理映射过滤操作的纹理单元。在至少一个实施例中,纹理单元配置为从存储器中加载纹理映射(例如,纹理像素的2d阵列)和采样纹理映射,以产生采样的纹理值以供由sm4100执行的着色器程序使用。在至少一个实施例中,将纹理映射存储在共享存储器/l1高速缓存4118中。在至少一个实施例中,根据至少一个实施例,纹理单元使用mip映射(mip-maps)(例如,细节级别不同的纹理映射)来实现纹理操作(诸如过滤操作)。在至少一个实施例中,每个sm4100包括但不限于两个纹理单元。[0552]在至少一个实施例中,每个sm4100包括但不限于实现共享存储器/l1高速缓存4118与寄存器文件4108之间的加载和存储操作的n个lsu4114。在至少一个实施例中,每个sm4100包括但不限于互连网络4116,其将每个功能单元连接到寄存器文件4108,并且将lsu4114连接到寄存器文件4108和共享存储器/l1高速缓存4118。在至少一个实施例中,互连网络4116是交叉开关,其可以配置为将任何功能单元连接到寄存器文件4108中的任何寄存器,并且将lsu4114连接到寄存器文件4108和共享存储器/l1高速缓存4118中的存储器位置。[0553]在至少一个实施例中,共享存储器/l1高速缓存4118是片上存储器的阵列,其在至少一个实施例中允许sm4100与图元引擎之间以及sm4100中的线程之间的数据存储和通信。在至少一个实施例中,共享存储器/l1高速缓存4118包括但不限于128kb的存储容量,并且位于从sm4100到分区单元的路径中。在至少一个实施例中,共享存储器/l1高速缓存4118在至少一个实施例中用于高速缓存读取和写入。在至少一个实施例中,共享存储器/l1高速缓存4118、l2高速缓存和存储器中的一个或更多个是后备存储。[0554]在至少一个实施例中,将数据高速缓存和共享存储器功能组合到单个存储器块中,为两种类型的存储器访问提供了改进的性能。在至少一个实施例中,容量由不使用共享存储器的程序使用或将其用作高速缓存,例如如果共享存储器配置为使用一半容量,并且纹理和加载/存储操作可以使用剩余容量。根据至少一个实施例,在共享存储器/l1高速缓存4118内的集成使共享存储器/l1高速缓存4118能够用作用于流传输数据的高吞吐量管线,同时提供对频繁重用的数据的高带宽和低延迟访问。在至少一个实施例中,当配置用于通用并行计算时,与图形处理相比,可以使用更简单的配置。在至少一个实施例中,绕过固定功能图形处理单元,从而创建了更加简单的编程模型。在至少一个实施例中,在通用并行计算配置中,工作分配单元直接将线程的块分配和分布给dpc。在至少一个实施例中,块中的线程执行相同的程序,在计算中使用唯一的线程id以确保每个线程生成唯一的结果,使用sm4100执行程序并执行计算,使用共享存储器/l1高速缓存4118在线程之间进行通信,以及使用lsu4114通过共享存储器/l1高速缓存4118和存储器分区单元来读写全局存储器。在至少一个实施例中,当被配置用于通用并行计算时,sm4100向调度器单元4104写入可以用来在dpc上启动新工作的命令。[0555]在至少一个实施例中,ppu被包括在台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如,无线、手持设备)、个人数字助理(“pda”)、数码相机、车辆、头戴式显示器、手持式电子设备等中或与之耦合。在至少一个实施例中,ppu被实现在单个半导体衬底上。在至少一个实施例中,ppu与一个或更多个其他设备(例如附加的ppu、存储器、精简指令集计算机(“risc”)cpu,一个或更多个存储器管理单元(“mmu”)、数模转换器(“dac”)等)一起被包括在片上系统(“soc”)中。[0556]在至少一个实施例中,ppu可以被包括在包括一个或更多个存储设备的图形卡上。在至少一个实施例中,该图形卡可以配置为与台式计算机主板上的pcie插槽相连接。在至少一个实施例中,该ppu可以是包括在主板的芯片组中的集成图形处理单元(“igpu”)。[0557]推理和/或训练逻辑1315用于执行与一个或更多个实施例相关的推理和/或训练操作。本文结合图13a和/或图13b提供关于推理和/或训练逻辑1315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给sm4100的信息。在至少一个实施例中,sm4100用于基于已由另一处理器或系统或由sm4100训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,sm4100可用于执行一个或更多个本文所述的神经网络用例。[0558]上述技术可用于例如实现用于执行人机对象交接的系统。一些示例使用推理和/或训练逻辑来创建神经网络,该神经网络被训练为生成对如上所述的人手握住的对象的抓握。[0559]在至少一个实施例中,单个半导体平台可以指唯一的单一基于半导体的集成电路或芯片。在至少一个实施例中,可以使用具有增加的连接性的多芯片模块,其模拟芯片上的操作,并且相对于利用传统的中央处理单元(“cpu”)和总线实现方式进行了实质性的改进。在至少一个实施例中,根据用户的需求,各种模块也可以分开放置或以半导体平台的各种组合放置。[0560]在至少一个实施例中,机器可读的可执行代码或计算机控制逻辑算法形式的计算机程序被存储在主存储器1904和/或辅助存储中。根据至少一个实施例,如果由一个或更多个处理器执行,则计算机程序使系统1900能够执行各种功能。在至少一个实施例中,存储器1904、存储和/或任何其他存储是计算机可读介质的可能示例。在至少一个实施例中,辅助存储可以指代任何合适的存储设备或系统,例如硬盘驱动器和/或可移除存储驱动器,其表示软盘驱动器、磁带驱动器、光盘驱动器、数字多功能盘(“dvd”)驱动器、记录设备、通用串行总线(“usb”)闪存等。在至少一个实施例中,各个先前附图的架构和/或功能是在cpu1902;并行处理系统1912;能够具有两个cpu1902的至少部分能力的集成电路;并行处理系统1912;芯片组(例如,设计成作为执行相关功能的单元工作并出售的一组集成电路等);以及集成电路的任何适当组合的环境中实现的。[0561]在至少一个实施例中,各个先前附图的架构和/或功能在通用计算机系统、电路板系统、专用于娱乐目的的游戏控制台系统、专用系统等的环境中实现。在至少一个实施例中,计算机系统1900可以采取台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如,无线、手持设备)、个人数字助理(“pda”)、数码相机、车辆、头戴式显示器、手持式电子设备、移动电话设备、电视、工作站、游戏机、嵌入式系统和/或任何其他类型的逻辑的形式。[0562]在至少一个实施例中,并行处理系统1912包括但不限于多个并行处理单元(“ppu”)1914和相关联的存储器1919。在至少一个实施例中,ppu1914经由互连1918和交换机1920或多路复用器连接到主机处理器或其他外围设备。在至少一个实施例中,并行处理系统1912在可并行化的ppu1914上分配计算任务,例如,作为跨多个图形处理单元(“gpu”)线程块的计算任务分布的一部分。在至少一个实施例中,在ppu1914中的一些或全部之间共享和访问存储器(例如,用于读取和/或写入访问),尽管这种共享存储器可能引发相对于使用本地存储器和驻留在ppu1914上的寄存器的性能损失。在至少一个实施例中,通过使用命令(诸如__syncthreads())来同步ppu1914的操作,其中块中的所有线程(例如,跨多个ppu1914执行)在进行之前到达某个代码执行点。[0563]其他其他变型在本公开的精神内。因此,尽管公开的技术易于进行各种修改和替代构造,但是某些示出的其实施例在附图中示出并且已经在上面进行了详细描述。然而,应理解,无意将公开内容限制为所公开的一种或更多种特定形式,而是相反,其意图是涵盖落入如所附权利要求书所定义的本公开内容的精神和范围内的所有修改、替代构造和等同物。[0564]除非另有说明或显然与上下文矛盾,否则在描述所公开的实施例的上下文中(特别是在所附权利要求的上下文中),术语“一”和“一个”和“该”以及类似指代的使用应被解释为涵盖单数和复数,而不是作为术语的定义。除非另有说明,否则术语“包括”、“具有”、“包含”和“含有”应被解释为开放式术语(意味着“包括但不限于”)。术语“连接”(在未经修改时指的是物理连接)应解释为部分或全部包含在内、附接到或连接在一起,即使有某些介入。除非本文另外指出,否则本文中对数值范围的引用仅旨在用作分别指代落入该范围内的每个单独值的简写方法,并且每个单独值都被并入说明书中,就如同其在本文中被单独叙述一样。在至少一个实施例中,除非另外指出或与上下文矛盾,否则术语“集”(例如“项目集”)或“子集”的使用应解释为包括一个或更多个成员的非空集合。此外,除非另外指出或与上下文矛盾,否则术语相应集的“子集”不一定表示对应集的适当子集,而是子集和对应集可以相等。[0565]除非以其他方式明确指出或与上下文明显矛盾,否则诸如“a,b和c中的至少一个”或“a,b与c中的至少一个”形式的短语之类的连接语在上下文中理解为通常用来表示项目、条款等,其可以是a或b或c,也可以是a和b和c集的任何非空子集。例如,在具有三个成员的集的说明性示例中,连接短语“a,b和c中的至少一个”和“a,b与c中的至少一个”是指以下任意集:{a},{b},{c},{a,b},{a,c},{b,c},{a,b,c}。因此,这种连接语言通常不旨在暗示某些实施例要求存在a中的至少一个,b中的至少一个和c中的至少一个。另外,除非另有说明或与上下文矛盾,否则术语“多个”表示复数的状态(例如,“多个项目”表示多个项目)。在至少一个实施例中,多个项目中项目的数量至少为两个,但如果明确指示或通过上下文指示,则可以更多。此外,除非另有说明或从上下文中可以清楚得知,否则短语“基于”是指“至少部分基于”而不是“仅基于”。[0566]除非本文另外指出或与上下文明显矛盾,否则本文描述的过程的操作可以任何合适的顺序执行。在至少一个实施例中,诸如本文所述的那些过程(或其变形和/或其组合)之类的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行,并且被实现为代码(例如,可执行指令,一个或更多个计算机程序或一个或更多个应用程序),该代码通过硬件或其组合在一个或更多个处理器上共同执行。在至少一个实施例中,代码以例如计算机程序的形式存储在计算机可读存储介质上,该计算机程序包括可由一个或更多个处理器执行的多个指令。在至少一个实施例中,计算机可读存储介质是非暂时性计算机可读存储介质,其排除了暂时性信号(例如,传播的瞬态电或电磁传输),但包括非暂时性数据存储电路(例如,缓冲区、高速缓存和队列)。在至少一个实施例中,代码(例如,可执行代码或源代码)被存储在其上存储有可执行指令的一组一个或更多个非暂时性计算机可读存储介质(或用于存储可执行指令的其他存储器)上,该可执行指令在由计算机系统的一个或更多个处理器执行时(即,作为被执行的结果),使得计算机系统执行本文所述的操作。在至少一个实施例中,一组非暂时性计算机可读存储介质包括多个非暂时性计算机可读存储介质,并且多个非暂时性计算机可读存储介质中的个体非暂时性存储介质中的一个或更多个缺少全部代码,而是多个非暂时性计算机可读存储介质共同存储全部代码。在至少一个实施例中,可执行指令被执行,以使得不同的指令由不同的处理器执行,例如,非暂时性计算机可读存储介质存储指令,并且主中央处理单元(“cpu”)执行一些指令,而图形处理单元(“gpu”)执行其他指令。在至少一个实施例中,计算机系统的不同组件具有单独的处理器,并且不同的处理器执行指令的不同子集。[0567]因此,在至少一个实施例中,计算机系统被配置为实现单独地或共同地执行本文所述的过程的操作的一个或更多个服务,并且这样的计算机系统被配置有使能实施操作的适用的硬件和/或软件。此外,实现本公开的至少一个实施例的计算机系统是单个设备,并且在另一实施例中是分布式计算机系统,其包括以不同方式操作的多个设备,使得分布式计算机系统执行本文所述的操作,并且使得单个设备不执行所有操作。[0568]本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地阐明本公开的实施例,并且不对公开的范围构成限制,除非另有要求。说明书中的任何语言都不应被解释为表示任何未要求保护的要素对于实践公开内容是必不可少的。[0569]本文引用的所有参考文献,包括出版物、专利申请和专利,均通过引用并入本文,其程度就如同每个参考文献被单独且具体地指示为以引用的方式并入本文并且其全部内容在本文中阐述一样。[0570]在说明书和权利要求中,可以使用术语“耦合”和“连接”以及它们的派生词。应当理解,这些术语可能不旨在作为彼此的同义词。相反,在特定示例中,“连接”或“耦合”可用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦合”也可能意味着两个或更多个元素彼此不直接接触,但仍彼此协作或交互。[0571]除非另有明确说明,否则可以理解,在整个说明书中,诸如“处理”、“计算”、“计算”、“确定”等之类的术语,是指计算机或计算系统或类似的电子计算设备的动作和/或过程,其将计算系统的寄存器和/或存储器中表示为物理量(例如电子)的数据处理和/或转换为类似表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。[0572]以类似的方式,术语“处理器”可以指处理来自寄存器和/或存储器的电子数据并将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据的任何设备或存储器的一部分。作为非限制性示例,“处理器”可以是cpu或gpu。“计算平台”可以包括一个或更多个处理器。如本文所使用的,“软件”进程可以包括例如随时间执行工作的软件和/或硬件实体,诸如任务、线程和智能代理。同样,每个过程可以指代多个过程,以连续地或间歇地顺序地或并行地执行指令。在至少一个实施例中,术语“系统”和“方法”在本文中可以互换使用,只要系统可以体现一种或更多种方法,并且方法可以被认为是系统。[0573]在本文件中,可以参考获得、获取、接收或将模拟或数字数据输入子系统、计算机系统或计算机实现的机器中。在至少一个实施例中,可以通过多种方式来完成获得、获取、接收或输入模拟和数字数据的过程,例如通过接收作为函数调用或对应用程序编程接口的调用的参数的数据。在一些实现方式中,可以通过经由串行或并行接口传输数据来完成获得、获取、接收或输入模拟或数字数据的过程。在另一实现方式中,可以通过经由计算机网络将数据从提供实体传输到获取实体来完成获得、获取、接收或输入模拟或数字数据的过程。也可以参考提供、输出、传送、发送或呈现模拟或数字数据。在各种示例中,提供、输出、传送、发送或呈现模拟或数字数据的过程可以通过将数据作为函数调用的输入或输出参数、应用程序编程接口或进程间通信机制的参数进行传输来实现。[0574]尽管上面的讨论阐述了所描述的技术的示例实现,但是其他架构可以用于实现所描述的功能,并且旨在落入本公开的范围内。此外,尽管出于讨论的目的在上面定义了具体的职责分配,但是根据情况,可以以不同的方式分配和划分各种功能和职责。[0575]此外,尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求书所要求保护的主题不必限于所描述的特定特征或动作。而是,公开了特定的特征和动作作为实现权利要求的示例性形式。当前第1页12当前第1页12
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献