具有渲染的图形输出的会话AI平台的制作方法

2022-06-12 06:38:22 来源：中国专利 TAG：

技术特征：
1.一种处理器，包括：处理电路，用于：实例化对应于应用程序的实例的虚拟代理；接收表示与一个或更多个用户设备相关联的音频流、文本流或视频流中的一个或更多个的第一数据，所述一个或更多个用户设备以通信方式耦接到所述应用程序的所述实例；分析所述第一数据以确定所实现的激活条件；至少部分地基于所实现的所述激活条件，生成表示响应于所述第一数据的文本输出并且与所述虚拟代理相对应的第二数据；将所述第二数据应用到文本到语音算法以生成音频数据；至少部分地基于所述音频数据，从虚拟相机视角生成表示虚拟环境的虚拟视场的图形数据，所述虚拟视场包括所述虚拟环境内的所述虚拟代理的图形表示；使用所述应用程序的所述实例，使得所述图形数据的渲染和对应于所述音频数据的音频输出同步呈现。2.根据权利要求1所述的处理器，其中，所述应用程序是视频会议应用程序、车辆的客舱内应用程序、食品或饮料订购应用程序、计算机辅助设计(cad)应用程序、客户服务应用程序、网络服务应用程序、智能扬声器或智能显示应用程序、零售应用程序、财务应用程序或食品服务应用程序中的至少一个。3.根据权利要求1所述的处理器，其中，所述虚拟代理的实例化至少部分地基于发送到托管所述虚拟代理的计算设备的邀请。4.根据权利要求1所述的处理器，其中，所述虚拟代理的实例化至少部分地基于表示文本触发、听觉触发或视觉触发中的至少一个的第三数据。5.根据权利要求1所述的处理器，其中，所述激活条件包括与使用至少两种输入模式的用户相对应的输入。6.根据权利要求5所述的处理器，其中，所述激活条件包括以下项中的至少一个：确定用户正在看与所述应用程序的所述实例相关联的相机、确定所述用户正在说话、确定所述用户正在说触发短语或者确定所述用户正在执行触发手势。7.根据权利要求1所述的处理器，其中，所述第二数据的生成至少部分地基于使用所述第一数据确定用户正在观看与所述应用程序的所述实例相关联的相机，以及确定所述用户占有由所述第一数据表示的所述音频的至少一部分。8.根据权利要求7所述的处理器，其中，所述确定所述用户占有由所述第一数据表示的所述音频的至少一部分包括：分析所述用户的嘴唇运动。9.根据权利要求1所述的处理器，其中，所述第一数据的所述分析包括将所述第一数据的至少一个子集应用到一个或更多个算法，所述一个或更多个算法被配置为执行自然语言处理、自动语音识别或计算机视觉分析中的至少一个。10.根据权利要求9所述的处理器，其中，所述第一数据的所述分析包括将所述第一数据的至少一个子集应用至一个或更多个深度神经网络(dnn)。11.根据权利要求1所述的处理器，其中，所述处理电路通过将表示所述图形数据的所述渲染的所述音频数据和视频数据发送至执行所述应用程序的所述实例的计算设备，来引起所述同步呈现。12.根据权利要求11所述的处理器，其中，所述发送是来自基于云的服务器。13.根据权利要求12所述的处理器，其中，所述基于云的服务器包括用于所述图像数据的渲染的一个或更多个并行处理单元。14.根据权利要求1所述的处理器，其中，所述图形数据的生成包括将所述音频数据应
用于嘴唇同步应用程序，使得所述虚拟代理的图形表示的至少一部分模拟与所述音频数据的发音对应的运动。15.根据权利要求1所述的处理器，其中，所述图形数据的生成包括：访问与所述虚拟环境对应的数据文件；以及生成所述图形数据，使得在所述虚拟环境内描绘所述虚拟代理。16.根据权利要求15所述的处理器，其中，至少部分地基于分析所述第一数据来选择所述数据文件以确定对应于所述第一数据的上下文信息。17.根据权利要求16所述的处理器，其中，所述上下文信息包括位置、物品、结构或项目中的至少一个。18.根据权利要求15所述的处理器，其中，所述图形数据进一步表示与所述数据文件中表示的一个或更多个虚拟对象交互的所述虚拟代理。19.根据权利要求1所述的处理器，其中，通过使用一个或更多个并行处理单元执行一个或更多个光线追踪技术来生成所述图形数据的所述渲染。20.根据权利要求1所述的处理器，还包括处理电路，所述处理电路用于实例化与所述应用程序的所述实例对应的一个或更多个附加虚拟代理，所述一个或更多个附加虚拟代理中的每个虚拟代理与不同于每个其他虚拟代理的至少一个技能或领域相关联。21.根据权利要求1所述的处理器，其中，所述一个或更多个附加虚拟代理中的每一个的实例化至少部分地基于表示对所述附加虚拟代理的请求的附加数据，所述请求以文本方式、视觉方式或听觉方式中的至少一种表示。22.根据权利要求1所述的处理器，其中，所述虚拟环境是第一虚拟环境，并且其中，在所述应用程序的所述实例的执行期间，从另一虚拟相机的角度从第二虚拟环境的另一视场生成表示所述虚拟代理的附加图形数据，所述第一虚拟环境不同于所述第二虚拟环境。23.根据权利要求1所述的处理器，还包括处理电路，所述处理电路用于：至少部分地基于所述第一数据确定所述一个或更多个用户中的用户的情绪特征，其中表示所述虚拟代理的所述第二数据的生成和所述图像数据的生成至少部分地基于情绪状况。24.根据权利要求1所述的处理器，其中，所述第二数据的生成至少部分地基于确定已经满足了多模式触发。25.一种方法，包括：接收表示使用用户设备生成的表示视频、音频或文本中的至少一个的第一数据，所述用户设备以通信方式耦接至会议应用程序的实例；分析所述第一数据以确定将针对虚拟代理生成响应；至少部分地基于所述第一数据，生成表示对应于所述虚拟代理的文本响应和视觉响应的第二数据；生成表示从虚拟相机的视角捕捉的虚拟环境的图形数据，当所述虚拟代理执行所述视觉响应时，所述虚拟环境包括所述虚拟代理的图形表示；至少部分地基于渲染所述图形数据来生成视频数据；使至少部分地基于所述文本响应的文本到语音表示而渲染的音频数据与所述视频数据同步；以及发送所述视频数据和所述音频数据到托管所述会议应用程序的所述实例的设备。26.根据权利要求25所述的方法，其中，由所述用户设备的相机、麦克风或者输入设备中的至少一个生成所述视频、音频或者文本。27.根据权利要求25所述的方法，其中，分析所述第一数据包括：确定是否已满足与所述虚拟代理对应的激活触发。28.根据权利要求27所述的方法，其中，所述激活触发包括：确定所述用户正在看所述
用户设备的相机并且确定用户正在说话。29.根据权利要求28所述的方法，其中，使用一个或更多个计算机视觉技术来执行所述确定所述用户正在看相机并且所述用户正在说话。30.根据权利要求29所述的方法，其中，所述计算机视觉技术包括一个或更多个深度神经网络。31.根据权利要求25所述的方法，其中，所述视觉响应包括所述虚拟代理的手势、所述虚拟代理的姿态、所述虚拟代理的情绪显示、所述虚拟代理的面部表情或者确定所述虚拟代理的所述虚拟环境中的至少一个。32.根据权利要求31所述的方法，其中发送所述视频数据包括：对所述视频数据编码以生成经编码的视频数据；以及流传输所述经编码的视频数据。33.根据权利要求25所述的方法，其中，生成所述图形数据包括：使用深度神经网络来确定所述虚拟环境内的所述虚拟代理的情绪状态的表示。34.根据权利要求33所述的方法，其中，至少部分地基于用户情绪状态来确定所述情绪状态，所述用户情绪状态是至少部分地基于所述第一数据确定的。35.根据权利要求25所述的方法，其中，分析所述第一数据包括使用自动语音识别算法。36.根据权利要求25所述的方法，其中，托管所述会议应用程序的所述实例的所述设备对应于第一基于云的平台，并且使用不同于所述第一基于云的平台的第二基于云的平台来执行生成所述第二数据和生成所述图形数据。37.一种系统，包括：一个或更多个并行处理单元，其执行人工智能引擎，用于：接收表示与参与应用程序的实例的一个或更多个用户相关联的音频、文本或视频中的一个或更多个的第一数据；分析所述第一数据以确定所实现的激活条件；至少部分地基于所实现的所述激活条件，生成表示响应于所述第一数据的文本输出并且与所述虚拟代理相对应的第二数据；将所述第二数据应用于文本到语音算法以生成音频数据；渲染引擎，用于：从所述虚拟环境中的虚拟相机的角度生成表示包括所述虚拟代理的虚拟环境的图形数据；以及生成表示所述图形数据的渲染的图像数据；以及通信设备，其用于将所述图像数据和所述音频数据发送到与所述应用程序的所述实例相对应的一个或更多个设备，以使所述一个或更多个设备呈现所述图像数据并输出与所述音频数据对应的音频。

技术总结
在各个示例中，虚拟动画和交互式代理可以被渲染以用于利用应用程序与一个或更多个用户进行视觉和听觉通信。例如，人工智能(AI)会话助手可以被渲染和显示以用于除了与终端用户的声音通信之外的视觉通信。同样，除了声音域之外，AI助手还可以利用视觉域以更清楚地与用户通信，包括与在其中渲染AI助手的虚拟环境交互。类似地，AI助手可以利用来自用户的音频、视频和/或文本输入来确定用户的请求、情绪、手势和/或姿态，以更准确地响应用户和与用户交互。互。互。

技术研发人员：R
受保护的技术使用者：辉达公司
技术研发日：2021.05.12
技术公布日：2022/6/10

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：利用适当的度量聚合生成多事实数据集的数据可视化的制作方法

具有渲染的图形输出的会话AI平台的制作方法

相关文献

最热文献