基于示例的语音机器人开发技术的制作方法

2023-02-06 13:19:55 来源：中国专利 TAG：

基于示例的语音机器人开发技术
背景技术：
：：1.人类可以经由各种计算设备参与与被称为“机器人”、“聊天机器人”、“自动化助理”、“交互式个人助理”、“智能个人助理”、“对话代理”等的交互式软件应用的人机会话。作为一个示例，这些机器人能够发起电话呼叫或应答呼入电话呼叫，并且与人类进行对话以代表第三方执行动作。然而，这些机器人的功能可能受到机器人用来执行动作的预定义意图模式的限制。换言之，如果参与与机器人的会话的人提供包括未由预定义意图模式定义的意图的口头话语，则机器人将失败。此外，为了更新这些机器人，可以修改现有的意图模式或者可以添加新的意图模式。然而，存在几乎无限的可能需要被定义的意图模式，以使机器人对人类语音的各种细微差别具有鲁棒性。需要大量利用计算资源来手动定义和/或手动细化这样的意图模式。此外，即使定义了大量意图模式，也需要大量存储器来存储和/或利用大量意图模式。因此，意图模式实际上不能扩展到学习人类语音的细微差别的程度。技术实现要素：2.本文公开的实施方式涉及提供使得能够基于多个训练实例来训练与第三方相关联的语音机器人的语音机器人开发平台。语音机器人能够对应于一个或多个处理器，该一个或多个处理器利用一个或多个机器学习(ml)模型的多个ml层来代表第三方针对与第三方相关联的电话呼叫进行对话。语音机器人开发平台能够基于用户输入从第三方开发人员并且经由与第三方开发人员相关联的客户端设备获得指向语音机器人开发平台的多个训练实例。与第三方相关联的电话呼叫能够包括由人类经由相应的客户端设备发起并指向第三方的呼入电话呼叫，和/或由语音机器人经由语音机器人开发平台发起并指向人类或与人类相关联的附加第三方的呼出电话呼叫。此外，能够使用各种语音通信协议(例如，互联网协议语音(voip)、公共交换电话网络(pstn)和/或其他电话通信协议)来执行与第三方相关联的电话呼叫。3.例如，假设正在为其训练语音机器人的第三方是名为hypotheticalcafé的虚构餐馆实体。进一步假设经由语音机器人开发平台获得用于训练与hypotheticalcafé相关联的语音机器人的多个训练实例。在该示例中，语音机器人可以随后应答呼入电话呼叫并执行与餐厅预订、营业时间询问、外卖订单相关的一个或多个动作，和/或可以在电话对话期间执行与指向hypotheticalcafé的呼入电话呼叫相关联的任何其他动作。此外，语音机器人可以附加地或替代地发起呼出电话呼叫的执行，并且执行与库存订单、信息技术请求相关的一个或多个动作，和/或可以在电话对话期间执行代表hypotheticalcafé与呼出电话呼叫相关联的任何其他动作。值得注意的是，可以部署语音机器人的多个相应实例，使得语音机器人的相应实例能够在任何给定时间参与与相应人的多个相应对话。例如，语音机器人的每个实例能够包括利用语音机器人的ml层的对应实例的对应处理器。4.在各种实施方式中，多个训练实例中的每个训练实例能够包括训练实例输入和训练实例输出。训练实例输入能够包括对应对话的一部分以及与对应对话相关联的先前场境。例如，对应对话的部分能够包括捕获用户(例如，第三方开发人员或另一人)的口头输入的音频数据、基于使用一个或多个自动语音辨识(asr)模型处理音频数据而生成的多个语音假设、和/或由第三方开发人员提供的文本。此外，与对应对话相关联的先前场境能够包括在对话的该部分之前的对应对话的在前音频数据、基于使用asr模型中的一个或多个处理在前音频数据而生成的多个在前语音假设、由第三方开发人员提供的文本和/或与对应对话相关联的元数据。训练实例输出能够包括对对应对话的至少该部分的对应真实值响应。例如，对对应对话的至少该部分的对应真实值响应能够包括捕获用户(例如，第三方开发人员或另一人)的口头响应的音频数据、基于使用asr模型中的一个或多个处理音频数据而生成的多个语音假设、与真实值响应相关联的真实值嵌入和/或由第三方开发人员提供的文本。5.在那些实施方式的一些版本中，能够使用一个或多个ml模型的多个ml层来处理训练实例输入以生成与对对话的至少该部分的预测响应相关联的预测嵌入。此外，能够在嵌入空间中将预测嵌入和与训练实例输出相关联的真实值嵌入进行比较。能够基于预测嵌入与真实值嵌入之间的距离度量(例如，余弦距离、欧几里德距离和/或其他距离度量)来生成一个或多个损失，并且能够基于损失中的一个或多个损失来更新多个ml层中的一个或多个ml层。在那些实施方式的一些附加或替代版本中，能够利用多个ml层中的第一ml层来处理对应对话的至少该部分以生成第一嵌入，能够利用多个ml层中的第二ml层来处理对应对话的先前场境以生成第二嵌入，并且能够级联第一嵌入和第二嵌入以生成与对应对话的当前状态相关联的嵌入。换言之，与对应对话的当前状态相关联的嵌入相对于对应对话的历史对对应对话进行编码。在那些实施方式的一些附加或替代的进一步版本中，多个语音假设，无论是包括在对话的至少该部分中还是基于包括在对话的至少该部分中的音频数据而生成，都能够在被处理之前被对齐和/或注释。6.在各种实施方式中，多个训练实例中的一个或多个训练实例能够与一个或多个对应特征强调输入相关联。对应特征强调输入能够基于来自第三方开发人员的用户输入来获得，并且能够被提供为对应训练实例的特定特征为什么重要的指示。如上所述，对应特征强调输入能够被用作用于训练多个ml层的训练实例输入的一部分，以在处理训练实例输入之后偏置多个ml层的更新，和/或用作对在训练期间使多个ml层关注对应特征强调输入的指针网络的输入。例如，如果用作用于与hypotheticalcafé相关联的语音机器人的训练实例输入的对应对话的部分对应于“iwouldliketomakeareservationat6:00pmforfourpeople(我想预订下午6:00的四人位)”，则对应特征强调输入可以包括对应对话的部分包括用于进行餐馆预订的时间特征和聚会人数特征的指示。结果，语音机器人可以被训练为关注推断时的输入的特定特征。7.通过使用本文描述的对应特征强调输入，能够实现各种技术优点。作为一个非限制性示例，语音机器人能够通过包括对应特征强调输入而基于给定数量的训练实例来实现给定水平的准确性和/或鲁棒性。在不包括对应特征强调输入的情况下，将需要更大量的训练实例来实现给定水平的准确度和/或鲁棒性——或者将无法实现给定水平的准确度和/或鲁棒性。例如，即使由给定语音机器人处理的输入可以是几乎无限的，响应的变化也能够限于对给定语音机器人的候选响应，而不是需要针对几乎无限的输入中的每个输入的预定义意图模式。结果，可以以更快速且高效的方式训练语音机器人，从而节省用于训练语音机器人的客户端设备的计算资源和/或在通过一个或多个网络传送训练实例、训练损失和/或其他训练数据的实施方式中的网络资源。8.在各种实施方式中，语音机器人能够被训练为与一个或多个第三方系统进行远程过程调用(rpc)。第三方系统能够包括例如预订系统、库存系统、状态更新系统和/或能够从语音机器人接收rpc出站请求并将响应rpc入站请求发送回到语音机器人的任何其他第三方系统。由语音机器人开发平台获得的多个训练实例能够包括rpc训练实例。rpc训练实例中的每个rpc训练实例能够是rpc出站训练实例或rpc入站训练实例。在给定rpc训练实例是rpc出站训练实例的实施方式中，训练实例输入可以包括对应对话的部分和对应对话的先前场境，如上所述。然而，训练实例输出可以包括生成和传送rpc出站请求的指示，并且可选地包括真实值响应。继续上述hypotheticalcafé示例，rpc出站请求可以是响应于“iwouldliketomakeareservationat6:00pmforfourpeople(我想预订下午6:00的4人位)”的对应对话的部分而被传送到预订系统的结构化请求[时间＝下午6:00；聚会人数＝4]。此外，训练实例输出还可以包括“letmecheck(让我查一下)”的对应真实值响应，以告诉人类语音机器人正在询问餐厅预订的可用性。在给定rpc训练实例是rpc入站训练实例的实施方式中，训练实例输入可以包括来自一个或多个第三方系统的rpc入站请求。此外，训练实例输出可以包括对rpc入站请求的对应真实值响应。继续上述hypotheticalcafé示例，rpc入站请求可以是指示期望时间是否可用的结构化请求(例如，下午6:00预订四人位)，并且可选地在期望时间不可用的情况下指示一个或多个替代时间。此外，训练实例输出还可以包括“wehave6:00pmavailable,what’sthename？(下午6:00可以，姓名是什么？)”或“wedonothave6:00pmavailable,butwehave7:00pmand8:00pmavailable(下午6:00不可以，但我们下午7:00和8:00可以”的对应真实值响应，以告诉人类语音机器人正在询问餐厅预订的可用性。[0009]通过使用本文描述的rpc训练实例，实现各种技术优点。作为一个非限制性示例，语音机器人能够学习如何和/或何时向第三方系统传送请求，以及如何利用对这些请求的响应来解决由语音机器人正在进行的电话对话的任务。结果，任务能够在对话期间由语音机器人解决，并且能够被高效地解决，而不需要使额外的人参与对话。此外，rpc训练实例的利用使得能够减少rpc请求的数量，因为存在较少的错误rpc请求，从而节省否则将在生成rpc请求时消耗的计算资源和/或否则将在通过一个或多个网络传送rpc请求时消耗的网络资源。[0010]在一些实施方式中，能够基于来自第三方开发人员的用户输入并且经由语音机器人开发平台从先前电话呼叫的语料库获得多个训练实例中的一个或多个训练实例。可以请求第三方开发人员经由进一步的用户输入来标记来自先前电话呼叫的语料库的训练实例中的一个或多个训练实例。例如，语音机器人开发平台可以请求第三方开发人员为训练实例中的一个或多个训练实例定义对应特征强调输入，为训练实例中的一个或多个训练实例定义rpc请求(如果有的话)，和/或为训练实例中的一个或多个训练实例定义其他标签。先前电话呼叫能够包括捕获在多个人和/或人与对应语音机器人之间的对应对话的音频数据。能够处理先前电话呼叫以生成训练实例中的一个或多个训练实例。例如，假设先前电话呼叫包括捕获在第一类型的人(例如，客户)与第二类型的人(例如，雇员)之间的对应对话的音频数据。在该示例中，能够识别与与客户相关联的对应对话的部分相对应的音频数据，并且能够识别与响应于与客户相关联的对应对话的部分的与雇员相关联的对应响应相对应的音频数据。与客户相关联的对应对话的部分能够被用作训练实例输入的一部分，并且与雇员相关联的对应响应能够被用作训练实例输出的一部分。此外，在对应对话中的任何给定点处，对应对话的先前场境也能够被用作训练实例输入的一部分。在对应电话呼叫期间进行rpc的实施方式中，第三方开发人员可能需要将rpc出站请求或rpc入站请求注入到那些训练实例中。在那些实施方式的一些版本中，先前电话呼叫可以与正在为其训练语音机器人的第三方相关联。在那些实施方式的一些附加或替代版本中，先前电话呼叫可以与一个或多个其他第三方相关联，这些第三方不同于正在为其训练语音机器人的第三方。[0011]在一些附加或替代实施方式中，能够从基于来自第三方开发人员的用户输入并且经由语音机器人开发平台进行的演示性对话获得多个训练实例中的一个或多个训练实例。演示性对话能够包括捕获一个或多个人(例如，可以包括或可以不包括第三方开发人员)之间的对应演示性对话的音频数据和/或文本。继续上述hypotheticalcafé示例，人能够从hypotheticalcafé的客户的角度提供用户输入以发起对应对话，该人或额外的人能够从hypotheticalcafé的雇员的角度提供后续用户输入，该人能够从雇员的角度提供进一步的后续用户输入，该人或额外的人能够从客户的角度提供更进一步的后续用户输入，以此类推，直到演示性对话已经结束。能够以与上文关于先前电话呼叫的语料库中的先前电话呼叫生成多个训练实例中的一个或多个训练实例所描述的相同或类似的方式来处理演示性对话。[0012]在一些附加或替代实施方式中，能够基于来自第三方开发人员的用户输入并经由语音机器人开发平台直接获得多个训练实例中的一个或多个训练实例。例如，第三方开发人员可以定义要用作针对给定训练实例的训练实例输入的对应对话的至少一部分，并且可以定义要用作针对给定训练实例的训练实例输出的对对应对话的该部分的真实值响应。此外，第三方开发人员可以可选地定义对应对话的先前场境，以也用作针对给定训练实例的训练实例输入的一部分，或者对应对话的“先前”部分的对话摘要。值得注意的是，尽管第三方开发人员正在定义对话的这些部分，但是第三方开发人员可能不需要像演示性对话那样定义整个对话。因此，第三方开发人员能够定义指向对话的特定部分(诸如请求任务(例如，餐厅预订任务、航班更改任务、库存检查任务和/或可以在对应电话呼叫期间执行的任何其他任务)的参数的特定值、执行rpc、介绍和/或对应对话的其他方面)的一个或多个训练实例。[0013]在各种实施方式中，能够生成在部署时由语音机器人进行的每个电话呼叫的对应对话摘要。能够经由语音机器人开发平台将对应对话摘要呈现给第三方开发人员，以监视语音机器人的执行。在一些实施方式中，对应对话摘要能够包括例如对应电话呼叫中的每个的自然语言摘要、对应电话呼叫的持续时间、对应电话呼叫的结果或成果、与对应电话呼叫相关联的金钱信息和/或与电话呼叫相关联的其他信息。继续hypotheticalcafé示例，对应对话摘要可以是例如“usercalledtomakeareservation,thetimewasavailable,thereservationwasmade(用户呼叫以进行预订，时间可用，预订已完成)”。在一些附加或替代实施方式中，对应对话摘要在被选择时可以使得对应电话呼叫的转录经由语音机器人开发平台被呈现给第三方开发人员。对应对话摘要能够被存储在语音活动数据库中。[0014]通过使用本文描述的技术，能够实现各种技术优点。作为一个非限制性示例，语音机器人开发平台使得能够基于对话的示例而不是预定义意图模式来训练语音机器人。这允许通过添加新的训练实例或修改现有的训练实例来容易地添加或修改语音机器人行为。因此，使用本文描述的语音机器人开发平台训练的语音机器人更具可扩展性，并且由于不需要定义大量意图模式，因此减少了存储器消耗。因此，训练和利用的ml模型能够具有更小的存储器占用，并且能够更鲁棒和/或准确。此外，使用语音机器人开发平台训练的语音机器人获得高水平的精度和查全率，从而使得能够更快速且高效地结束电话呼叫，因为使用语音机器人开发平台训练的语音机器人更能够理解人类语音的细微差别并相应地做出响应。[0015]提供以上描述作为本文公开的仅一些实施方式的概述。在本文中更详细地描述这些实施方式和其他实施方式。附图说明[0016]图1描绘了展示本公开的各个方面并且能够在其中实现本文公开的实施方式的示例性环境的框图。[0017]图2a描绘了根据各种实施方式的用于训练语音机器人的示例性过程流程。[0018]图2b描绘了根据各种实施方式的用于使用经训练的语音机器人的示例性过程流程。[0019]图3a、图3b和图3c描绘了根据各种实施方式的与语音机器人开发平台相关联的用户界面的各种非限制性示例。[0020]图4描绘了图示根据各种实施方式的至少部分地基于特征强调输入来训练语音机器人的示例性方法的流程图。[0021]图5描绘了图示根据各种实施方式的至少部分地基于远程过程调用来训练语音机器人的示例性方法的流程图。[0022]图6描绘了根据各种实施方式的计算设备的示例性架构。具体实施方式[0023]现在转到图1，描绘了展示本公开的各个方面并且能够在其中实现本文公开的实施方式的示例性环境的框图。在图1中示出客户端设备110，并且在各种实施方式中，客户端设备110包括用户输入引擎111、渲染引擎112和语音机器人开发系统客户端113。客户端设备110能够是例如独立助理设备(例如，具有麦克风、扬声器和/或显示器)、膝上型计算机、台式计算机、平板计算机、可穿戴计算设备、车辆计算设备和/或能够实现语音机器人开发系统客户端113的任何其他客户端设备。[0024]用户输入引擎111能够检测客户端设备110处的各种类型的用户输入。在客户端设备110处检测到的用户输入能够包括经由客户端设备110的麦克风检测到的口头输入、经由客户端设备110的用户接口输入设备(例如，触摸屏)检测到的触摸输入和/或经由客户端设备110的用户接口输入设备(例如，经由触摸屏上的虚拟键盘、物理键盘、鼠标、触笔和/或客户端设备110的任何其他用户接口输入设备)检测到的键入输入。[0025]渲染引擎112能够使得输出经由用户接口输出在客户端设备110处被可视地和/或可听地渲染。该输出能够包括，例如，可以经由客户端设备110的用户界面可视地渲染的与语音机器人开发系统客户端113相关联的各种类型的用户界面(例如，如参考图3a、图3b和图3c所述)、可以经由客户端设备110的用户界面可视地渲染和/或经由客户端设备110的扬声器可听地渲染的与语音机器人开发系统客户端113相关联的通知，和/或可视地和/或可听地渲染本文描述的任何其他输出。[0026]在各种实施方式中，语音机器人开发系统客户端113能够包括自动语音辨识(asr)引擎130a、自然语言理解(nlu)引擎140a1和文本到语音(tts)引擎150a1。此外，语音机器人开发系统客户端113能够通过一个或多个网络1991(例如，wi-fi、蓝牙、近场通信(nfc)、局域网(lan)广域网(wan)、以太网、互联网和/或其他网络的任何组合)与语音机器人开发系统120通信。从与客户端设备110交互的用户的角度来看，语音机器人开发系统客户端113和语音机器人开发系统120形成语音机器人开发平台的逻辑实例。尽管语音机器人开发系统120在图1中被描绘为远离客户端设备110实现(例如，经由一个或多个服务器)，但是应当理解，这是为了示例的目的而不意味着限制。例如，语音机器人开发系统120能够可替代地在客户端设备110处本地实现。[0027]语音机器人开发平台能够由第三方开发人员(例如，客户端设备110的用户)用来训练如本文所述的语音机器人，该语音机器人被部署用于代表与第三方开发人员相关联的第三方针对与第三方相关联的电话呼叫进行对话。值得注意的是，语音机器人开发平台能够由第一方提供，并且第三方开发人员能够利用语音机器人开发平台来训练与第三方开发人员相关联的第三方的语音机器人。如本文所使用的，术语第一方是指发布语音机器人开发平台的实体，而术语第三方是指不同于与第一方相关联的实体并且不发布语音机器人开发系统的实体。因此，第三方开发人员是指与语音机器人开发平台交互以训练与第三方相关联的语音机器人的用户。[0028]能够使用各种语音通信协议(例如，互联网协议语音(voip)、公共交换电话网络(pstn)和/或其他电话通信协议)来执行本文描述的电话呼叫。如本文所述，能够将合成语音渲染为辅助电话呼叫的一部分，这能够包括将合成语音注入到呼叫中，使得其可被辅助电话呼叫的至少一个参与者感知。合成语音能够由作为给定电话呼叫的端点之一的客户端设备110生成和/或注入，和/或能够由连接到电话呼叫的服务器(例如，实现语音机器人开发系统120的服务器)生成和/或注入。[0029]在各种实施方式中，语音机器人开发系统120包括asr引擎130a2、nlu引擎140a2、tts引擎150a2、语音机器人训练引擎160、语音机器人引擎170、错误识别引擎180和对话摘要引擎185。语音机器人训练引擎160能够用于训练要被部署用于代表第三方针对与第三方相关联的电话呼叫进行对话的语音机器人，并且在各种实施方式中能够包括训练实例引擎161和训练引擎162。此外，语音机器人引擎170随后能够利用经训练的语音机器人代表第三方针对与第三方相关联的电话呼叫进行对话，并且在各种实施方式中能够包括响应引擎171和远程过程调用(rpc)引擎172。[0030]训练实例引擎161能够基于由第三方开发人员提供并且经由用户输入引擎111在客户端设备110处检测到的用户输入来获得用于训练语音机器人的多个训练实例。多个训练实例能够被存储在训练实例数据库161a中，并且与要基于多个训练实例训练的语音机器人的指示相关联。多个训练实例中的每个训练实例能够包括训练实例输入和训练实例输出。训练实例输入能够包括以下中的一个或多个：对应对话的一部分(例如，音频数据和/或与其相对应的多个语音假设)、与对应对话相关联的先前场境、呼入电话呼叫的指示、发起对呼出电话呼叫的执行的动作或命令、rpc入站请求或一个或多个特征强调输入。训练实例输出能够包括以下中的一个或多个：对对应对话的该部分(例如，音频数据和/或与其相对应的多个语音假设)的真实值响应、针对呼入电话呼叫的介绍、发起对呼出电话呼叫的执行或rpc出站请求。[0031]在一些实施方式中，能够基于用户输入从先前电话呼叫的语料库获得多个训练实例中的一个或多个训练实例。第三方开发人员可能需要经由用户输入来标记来自先前电话呼叫的语料库的训练实例中的一个或多个训练实例。先前电话呼叫能够包括捕获在多个人和/或人与对应语音机器人之间的对应对话的音频数据。训练实例引擎161能够处理先前电话呼叫以生成训练实例中的一个或多个训练实例。例如，假设先前电话呼叫包括捕获在第一类型的人(例如，客户)与第二类型的人(例如，雇员)之间的对应对话的音频数据。在该示例中，训练实例引擎161能够识别与与客户相关联的对应对话的部分相对应的音频数据，并且识别与响应于与客户相关联的对应对话的部分的与雇员相关联的对应响应相对应的音频数据。与客户相关联的对应对话的部分能够被用作训练实例输入的一部分，并且与雇员相关联的对应响应能够被用作训练实例输出的一部分。此外，对应对话的先前场境也能够被用作训练实例输入的一部分。对应对话的先前场境能够包括对应对话的在前音频数据(和/或与其相对应的多个语音假设或与其相对应的辨识文本)、与对话相关联的元数据(例如，客户的位置、发起对应电话呼叫的时间、是否已经请求参数的值等)和/或与先前电话呼叫相关联的其他场境信息。[0032]在那些实施方式的一些版本中，先前电话呼叫可以与正在为其训练语音机器人的第三方相关联。例如，假设第三方是销售各种产品的名为假想市场的虚构零售实体。先前电话呼叫能够包括捕获在第一类型的人(例如，客户)与第二类型的人(例如，假想市场的雇员)、与假想市场相关联的语音机器人或与假想市场相关联的交互式语音响应(ivr)系统中的一个或多个之间的对应对话的音频数据。在那些实施方式的一些附加或替代版本中，先前电话呼叫可以与一个或多个其他第三方相关联，这些第三方不同于正在为其训练语音机器人的第三方。在那些实施方式的一些进一步版本中，由训练实例引擎161获得的与一个或多个其他第三方相关联的先前电话呼叫可以限于与正在为其训练语音机器人的第三方具有相同类型的实体的其他第三方(例如，零售商实体、航空公司实体、餐馆实体、学校或大学实体、供应商实体、托运人实体、政府实体和/或任何其他类型的人、地点或事物)。继续上述示例，用于为与假想市场相关联的语音机器人生成训练实例的先前电话呼叫可以限于与其他零售商相关联的那些电话呼叫，并且可选地限于销售相同或相似产品的其他零售商。[0033]在附加或替代实施方式中，能够从基于用户输入进行的演示性对话获得多个训练实例中的一个或多个训练实例。演示性对话能够包括捕获在(例如，可以包括或可以不包括第三方开发人员的)一个或多个人之间的对应演示性对话的音频数据和/或文本。例如，假设第三方是销售各种产品的名为假想市场的虚构零售实体。在该示例中，人能够从假想市场的客户的角度提供用户输入以发起对应对话，该人或额外的人能够从假想市场的雇员的角度提供后续用户输入，该人能够从雇员的角度提供进一步的后续用户输入，该人或额外的人能够从客户的角度提供更进一步的后续用户输入，以此类推(例如，如参考图3b所述)。训练实例引擎161能够以上文关于训练实例的语料库描述的类似方式处理演示性对话以生成训练实例中的一个或多个训练实例。[0034]在一些附加或替代实施方式中，能够基于用户输入直接获得多个训练实例中的一个或多个训练实例。例如，第三方开发人员可以定义要用作针对给定训练实例的训练实例输入的对应对话的至少一部分，并且可以定义要用作针对给定训练实例的训练实例输出的对对应对话的该部分的真实值响应。此外，第三方开发人员可以可选地定义对应对话的先前场境，以也用作针对给定训练实例的训练实例输入的一部分，或者对应对话的“先前”部分的对话摘要。值得注意的是，尽管第三方开发人员正在定义对话的这些部分，但是第三方开发人员可能不需要像演示性对话那样定义整个对话。因此，第三方开发人员能够定义指向对话的特定部分(诸如请求任务(例如，餐厅预订任务、航班更改任务、库存检查任务和/或可以在对应电话呼叫期间执行的任何其他任务)的参数的特定值、rpc的执行、介绍和/或对应对话的其他方面)的一个或多个训练实例。[0035]在各种实施方式中，一个或多个对应特征强调输入可以与多个训练实例中的一个或多个训练实例相关联。一个或多个对应特征强调输入能够是例如指示特定训练实例的一个或多个部分为什么对于训练语音机器人而言重要的自然语言输入(例如，口头和/或键入)，诸如训练实例输入的一个或多个部分包括时间特征、日期特征、姓名特征、账号特征、电子邮件地址特征、电话号码特征、金钱特征、数量特征、产品名称特征、位置特征、rpc请求特征、和/或针对给定训练实例的训练实例输入或训练实例输出的任何其他特征。一个或多个对应特征强调输入可以被包括在针对对应训练实例的训练实例输入中，用于在处理训练实例输入之后偏置与正在训练的语音机器人相对应的多个ml层的更新，和/或用作对使得语音机器人在训练期间关注一个或多个对应特征强调输入的指针网络的输入以进行识别。因此，当语音机器人随后由第三方部署以进行对话时，能够使经训练的语音机器人关注这些特征的出现。[0036]在一个或多个对应特征强调输入被用作对指针网络的输入的实施方式中，能够在训练期间使用指针网络来处理对应对话的部分(或其表示，诸如对话编码、对话嵌入、对话向量和/或其他表示)和/或对应对话的先前场境(或其表示，诸如场境编码、场境嵌入、场境向量和/或其他表示)。能够用指示对应对话的该部分的一个或多个令牌是否被预测为对应于一个或多个对应特征强调输入的一个或多个值(例如，概率、对数似然、二元值和/或其他值)来标记对应对话的部分的一个或多个令牌。此外，能够将指示对应对话的该部分的一个或多个令牌是否被预测为对应于一个或多个对应特征强调输入的一个或多个值与基于由第三方开发人员提供的一个或多个特征强调输入确定的一个或多个真实值的值进行比较。[0037]例如，假设正在训练的语音机器人与假想市场相关联，假设训练实例输入包括对应于“iwouldliketopurchaseproductxifavailable(如果有货的话，我想购买产品x)”的对应对话的至少一部分，并且假设由第三方开发人员提供的一个或多个对应特征强调输入指示产品特征和可用性特征。在该示例中，与“productx(产品x)”和“available(有货)”相对应的一个或多个令牌可以与指示这些特征对于正确地响应对应对话的该部分有意义的值相关联。然而，假设指针网络基于处理以及预测值(例如，指示应该关注“purchase(购买)”的概率0.5)，确定“purchase”被预测为对应于特征强调输入，并且基于处理以及预测值(例如，指示应该关注“productx”的概率0.6)确定“productx”被预测为对应于特征强调输入。在该示例中，能够将与“purchase”相关联的预测值0.5与真实值的值(诸如概率0.0)进行比较，因为“purchase”未由第三方开发人员提供为对应特征强调输入以生成第一损失，并且能够将与“productx”相关联的预测值0.6与真实值的值(诸如概率1.0)进行比较，因为“productx”由第三方开发人员提供为对应特征强调输入以生成第二损失。能够基于由第三方开发人员提供的一个或多个对应特征强调输入来确定这些真实值的值。此外，能够至少基于第一损失和第二损失(例如，经由反向传播)来更新指针网络。换言之，指针网络能够处理针对给定训练实例的训练实例输入以学习包括在训练实例输入中的应该关注的对应对话的特定部分和/或对应对话的先前场境(或其表示)。因此，在训练期间，能够基于用于训练与语音机器人相对应的多个ml层的相同训练实例来训练指针网络。[0038]在一些实施方式中，与语音机器人相对应的多个ml层可以进一步包括与指针网络相对应的ml层。与指针网络相对应的ml层可以类似于与注意力层相对应的ml层，但是包括差异。例如，传统上在序列到序列处理中利用transformerml模型的注意力层，以使transformerml模型关注输入序列(例如，音频数据流)，同时生成输出序列(例如，与音频数据流相对应的文本流)。类似地，能够利用对应于指针网络的ml层以使transformerml模型关注输入序列，同时生成输出序列。然而，指针网络使transformerml模型关注输入序列的特定部分(例如，包括在输入序列中的特定单词或短语)。在一些实施方式中，与指针网络相对应的ml层可以是本文描述的transformerml模型的一部分。在附加或替代实施方式中，与指针网络相对应的ml层可以不同于本文描述的transformerml模型，但是与本文描述的transformerml模型结合使用。[0039]因此，指针网络能够用于预测在响应用户和/或解释语音机器人为什么以特定方式响应用户时对于与语音机器人相对应的多个ml层有意义的对话的部分。此外，与语音机器人相对应的多个ml层能够利用由指针网络确定的这些预测部分来偏置对响应于而提供的候选响应的选择。继续假想市场示例，进一步假设对应于“iwouldliketopurchaseproductxifavailable”的对应对话的部分被用作训练实例输入，并且进一步假设“productx”实际上“available”用于销售。基于该可用性，预测响应可以对应于“itisavailable(有货)”、“itisavailable,wouldyouliketopurchaseproductx？(有货，你想要购买产品x吗？)”等。在该示例中选择预测响应时，由第三方开发人员提供的一个或多个对应特征强调输入也可以用于偏向预测响应。因此，一个或多个特征强调输入不仅可以用于初始地训练指针网络以预测在训练期间有意义的对应对话的一个或多个特定部分，而且还可以由与语音机器人相对应的多个ml层用于选择对对应对话的该部分的预测响应。[0040]换言之，第三方开发人员能够与语音机器人开发系统120交互以提供特征强调输入。语音机器人不仅通过在推断时使用指针网络来学习对对应对话重要的对应对话的特定特征，而且语音机器人还能够基于在推断时使用指针网络生成的输出来学习预测响应可以如何改变或被偏置。结果，经训练的语音机器人能够(例如，经由如下所述的对话摘要引擎185)向第三方开发人员提供关于为什么它在推断时以特定方式进行响应的指示。[0041]通过使用本文描述的对应特征强调输入，能够实现各种技术优点。作为一个非限制性示例，语音机器人能够通过包括对应特征强调输入而基于给定数量的训练实例来实现给定水平的准确性和/或鲁棒性。在不包括对应特征强调输入的情况下，将需要更大数量的训练实例来实现给定水平的准确度和/或鲁棒性——或者将无法实现给定水平的准确度和/或鲁棒性。结果，可以以更快速且高效的方式训练语音机器人，从而节省用于训练语音机器人的客户端设备的计算资源和/或在通过一个或多个网络传送训练实例、训练损失和/或其他训练数据的实施方式中的网络资源。[0042]在各种实施方式中，多个训练实例中的一个或多个训练实例可以是rpc训练实例。如本文所使用的，rpc训练实例包括具有至少包括对应rpc入站请求的对应训练实例输入和/或至少包括对应rpc出站请求的对应训练实例输出的训练实例。包括在对应训练实例输出中的rpc出站请求可以指示语音机器人应当生成rpc请求，并且经由一个或多个网络1992将rpc请求传送到一个或多个第三方系统190(例如，预订系统、库存系统、状态检查系统和/或任何其他第三方系统)。包括在对应训练实例输入中的rpc入站请求可以指示语音机器人应该经由一个或多个网络1992从一个或多个第三方系统190接收对rpc请求的响应，并且处理该响应以基于该响应来生成输出。尽管在图1中与网络1991分开描绘了网络1992，但是应当理解，这是为了清楚起见而不意味着限制。例如，网络1992和网络1991可以是本文描述的相同网络或网络的不同组合。由于rpc请求不直接与在其上生成用于训练语音机器人的多个训练实例的对应对话相关联(例如，不直接在对话的口头或键入输入中捕获)，因此第三方开发人员可能需要定义针对训练实例的rpc出站请求和rpc入站请求、一个或多个第三方系统190中的rpc出站请求应该被指向的特定第三方系统、rpc请求的格式、对rpc请求的响应的格式和/或与rpc相关联的任何其他信息。[0043]在如上所述的用户输入引擎111在获得训练实例时经由客户端设备110的麦克风检测用户的口头输入的实施方式中，能够处理捕获口头输入的音频数据。在一些实施方式中，客户端设备110的asr引擎130a1能够使用asr模型130a来处理捕获口头输入的音频数据。在附加或替代实施方式中，客户端设备110能够通过网络1991将音频数据传送到语音机器人开发系统120，并且asr引擎130a2能够使用asr模型130a处理捕获口头输入的音频数据。语音辨识引擎130a1和/或130a2能够基于音频数据的处理来生成针对口头输入的多个语音假设，并且能够可选地基于与多个语音假设中的每个相关联的对应值(例如，概率值、对数似然值和/或其他值)来选择特定语音假设作为针对口头输入的辨识文本。在各种实施方式中，asr模型130a是端到端语音辨识模型，使得asr引擎130a1和/或130a2能够直接使用该模型生成多个语音假设。例如，asr模型130a能够是用于在逐个字符的基础上(或在其他逐个令牌的基础上)生成多个语音假设中的每个的端到端模型。用于在逐个字符的基础上生成辨识文本的这种端到端模型的一个非限制性示例是循环神经网络转换器(rnn-t)模型。rnn-t模型是一种形式的序列到序列模型，其不采用注意力机制。在其他实施方式中，asr模型130a不是端到端语音辨识模型，使得asr引擎130a1和/或130a2能够替代地生成预测音素(和/或其他表示)。例如，然后asr引擎130a1和/或130a2可以利用预测音素(和/或其他表示)来确定符合预测音素的多个语音假设。在这样做时，asr引擎130a1和/或130a2能够可选地采用解码图、词典和/或其他资源。在各种实施方式中，能够在客户端设备110处渲染对应转录(例如，与训练实例输入、训练实例输出、对应特征强调输入、演示性对话和/或语音机器人开发平台的其他方面相关联)。[0044]在那些实施方式的一些版本中，客户端设备110的nlu引擎140a1和/或语音机器人开发系统120的nlu引擎140a2能够使用nlu模型140a来处理由asr引擎130a1和/或130a2生成的辨识文本，以确定包括在口头输入中的意图。例如，如果客户端设备110检测到来自第三方开发人员的“addtraininginstanceinputof‘doyouhaveanyreservationsat6:30pmfortwopeople’(添加‘您在下午6:30有两位的预订吗’的训练实例输入)的口头输入(例如，作为定义训练实例输入的独立口头输入的一部分)，则客户端设备110能够使用asr模型130a1和/或130a2处理捕获口头输入的音频数据以生成与口头输入相对应的辨识文本，并且能够使用nlu模型140a处理辨识文本以至少确定添加训练实例输入的意图(例如，其可以包括针对口头输入的音频数据和/或对应语音假设)。[0045]在那些实施方式的一些版本中，客户端设备110的tts引擎150a1和/或语音机器人开发系统120的tts引擎150a2能够生成捕获合成语音的合成语音音频数据。能够使用渲染引擎112并经由客户端设备110的扬声器在客户端设备110处渲染合成语音。合成语音可以捕获由本文描述的语音机器人开发生成的任何输出，并且可以包括例如已经添加训练实例的指示(或重复特定训练实例输入、训练实例输出、特征强调输入等)、请求第三方开发人员添加一个或多个附加训练实例或一组训练实例(以及可选地与特定特征相关联的那些训练实例)的通知、请求第三方开发人员修改一个或多个现有的训练实例或训练实例的地面(以及可选地与特定特征相关联的那些训练实例)的通知、语音机器人的训练已经被发起、完成的指示、或关于语音机器人的训练的状态更新、和/或能够被可听地传达给第三方开发人员的与语音机器人或语音机器人开发平台相关的任何其他信息。[0046]训练引擎162能够利用(例如，存储在训练实例数据库161a中的)由训练实例引擎161获得的多个训练实例来训练语音机器人(例如，其ml层)。语音机器人能够对应于一个或多个处理器，其利用(例如，存储在ml层数据库170a1中的)一个或多个机器学习(ml)模型的多个ml层来代表第三方针对与第三方相关联的电话呼叫进行对话。多个ml层可以对应于transformerml模型的ml层(例如，输入层、编码层、解码层、前馈层、注意力层、输出层和/或其他ml层)、单向和/或双向rnn模型(例如，输入层、隐藏层、输出层和/或其他ml层，和/或其他ml模型的其他ml层。在一些实施方式中，对应于指针网络的ml层可以是本文描述的transformerml模型的一部分。在附加或替代实施方式中，对应于指针网络的ml层可以不同于本文描述的transformerml模型，但是与本文描述的transformerml模型结合使用。[0047]例如，并且参考图2a，描绘了用于训练语音机器人的示例性过程流程200a。在一些实施方式中，训练实例引擎161能够从存储在训练实例数据库161a中的与语音机器人相关联的多个训练实例当中获得给定训练实例。在一些实施方式中，对于给定训练实例，训练实例输入能够至少包括与对应对话的一部分相对应的音频数据201和针对对应对话的对话场境202。此外，对于给定训练实例，训练实例输出能够包括对对话的该部分的真实值响应203。音频数据201能够由asr引擎130a1和/或130a2使用asr模型130a处理，以生成多个语音假设204。在其他实施方式中，训练实例输入可以包括基于音频数据201生成的多个语音假设204，但是可以不包括音频数据201本身。[0048]在一些实施方式中，编码引擎162a1能够使用存储在ml层数据库170a1中的多个ml层中的第一ml层来处理多个语音假设204以生成第一编码。编码引擎162a1能够使用存储在ml层数据库170a1中的多个ml层中的第二ml层的第一ml层来处理对话场境202以生成第二编码。此外，级联引擎162a2能够级联第一编码和第二编码以生成级联编码。级联编码可以表示对应对话的当前状态。例如，级联编码能够对对话的历史和对话的最近部分进行编码，以将整个对话作为整体进行编码。[0049]通过对对应对话的当前状态进行编码，可以跟踪对话的会话，从而使得语音机器人能够对对应对话的状态进行建模和/或学习。因此，所得到的经训练的语音机器人可以学习经由对应电话呼叫请求与正在执行的任务相关联的参数的对应值。例如，假设训练实例输入包括对应于“hello,doyouhaveanyofproductxavailableforsale(你好，你有任何产品x可供销售吗)”的对应对话的至少一部分。在该示例中，语音机器人被训练为理解该人正在请求对产品x进行库存检查。此外，通过对对应对话的对话场境202进行编码，语音机器人还被训练为理解，如果产品x有的话，则该人尚未提供与购买或将产品x置于待付款状态相关联的名称参数、与购买产品x相关联的金钱参数、在该人希望将产品x运送到他或她的住所的情况下地址参数等的任何对应值。因此，语音机器人能够被训练为随后通过跟踪会话的状态来向该人提示这些参数中的一个或多个参数的对应值。[0050]此外，嵌入引擎162a3能够使用多个ml层中的一个或多个ml层来处理级联编码，以生成与预测响应205相关联的预测嵌入(例如，执行与第三方系统的rpc、响应于训练实例输入而提供的合成语音或文本、应答呼入电话呼叫、发起呼出电话呼叫和/或被预测为响应于训练实例输入的其他响应)。预测响应205可以从候选响应数据库171a(例如，其包括真实值响应203和多个附加候选响应)中的多个候选响应中选择。在生成预测嵌入时，级联编码的大小可以被减小到固定维度。这使得与预测响应205相关联的预测嵌入能够在嵌入空间中容易地与关于损失引擎162a4描述的其他嵌入进行比较。[0051]在那些实施方式的一些版本中，并且在处理多个语音假设204之前，训练引擎162能够使得多个语音假设被对齐。例如，假设多个语音假设捕获“for4pm(下午4点)”的口头输入。在该示例中，多个语音假设能够被对齐为[for,#empty,4pm；for,4,pm；four,four,pm]，使得多个对齐的语音假设中的每个能够随后彼此组合地被处理。在那些实施方式的一些进一步版本中，训练引擎162能够进一步使得多个对齐的语音假设被注释。继续上述示例，多个对齐的语音假设能够被注释为[for,#empty(@null),4pm(@time)；for,4(@time),pm(@time)；four(@time),four(@time),pm(@time)]。[0052]在训练实例输入还包括音频数据201的实施方式中，除了或代替基于多个语音假设生成的编码，编码引擎162a1能够生成与音频数据201相关联的编码。在这些实施方式中，级联引擎162a2能够处理与音频数据201相关联的编码和与对话场境202相关联的编码，以生成级联编码。此外，嵌入引擎162a3能够使用多个ml层中的一个或多个ml层来处理级联编码，以生成与预测响应205相关联的预测嵌入。[0053]在各种实施方式中，并且尽管未在图2a中描绘，但是训练引擎162能够进一步训练与存储在ml层数据库170a1中的ml层相对应的点网络。在这些实施方式中，并且在训练期间，一个或多个对应特征强调输入能够从第三方开发人员接收，并且能够用于训练指针网络。最初，训练引擎162能够使得指针网络处理音频数据201、对话场境202和/或多个语音假设204以生成输出。输出能够包括例如被预测为在确定如何响应在音频数据201中捕获的对话的部分时有意义的对话的一个或多个特征(例如，日期特征、时间特征、rpc特征等)的指示，以及指示预测对话的特定部分在确定如何响应在音频数据201中捕获的对话的部分时多么有意义的对应值(例如，二元值、概率、对数似然等)。能够将一个或多个特征(和对应值)与一个或多个对应特征强调输入(以及针对一个或多个对应特征强调输入中的每个的对应真实值的值)进行比较，以生成用于更新指针网络的一个或多个损失。[0054]此外，并且除了基于针对给定训练实例的一个或多个对应特征强调输入来训练指针网络之外，编码引擎162a1和/或嵌入引擎162a3还可以处理作为副输入提供的与给定训练实例相关联的对应特征强调输入中的一个或多个，以及音频数据201、对话场境203和/或多个语音假设204。在处理一个或多个对应特征强调输入时，所得到的预测嵌入能够偏向与一个或多个对应特征强调输入相关联的候选响应。例如，如果一个或多个对应特征强调输入包括针对餐厅预订的时间特征，则候选响应能够偏向与发起出站rpc请求以确定由时间特征指示的时间是否可用于餐厅预订相关联的候选响应。[0055]此外，尽管编码引擎162a1、级联引擎162a2和嵌入引擎162a3在本文中被描述为以特定顺序执行特定功能，但是应当理解，这些特定功能的执行可以被重新排序，和/或可以省略这些引擎中的一个或多个。例如，可以省略编码引擎162a1，并且嵌入引擎162a3能够使用多个ml模型的相应ml层来处理多个语音假设204和对话场境202，以生成与对与多个语音假设相关联的对应对话的至少该部分的预测响应相关联的预测嵌入。[0056]此外，在各种实施方式中，损失引擎162a4能够在嵌入空间中将与预测响应205相关联的预测嵌入和与真实值响应203相关联的真实值嵌入进行比较，以生成一个或多个损失206。预测嵌入和真实值嵌入能够分别对应于预测响应205和对应真实值响应203的较低维度表示。嵌入空间允许比较这些较低维度的嵌入。此外，与预测响应205相关联的预测嵌入应当在嵌入空间中接近与对应真实值响应203相关联的对应真实值嵌入。换言之，在处理对应对话的至少该部分和对话的先前场境时，系统应该预测与对对应对话的至少该部分的实际响应类似的响应。例如，能够确定嵌入空间中的预测嵌入与对应真实值嵌入之间的距离度量(例如，余弦相似性距离、欧几里德距离和/或其他距离度量)，并且能够基于距离度量生成一个或多个损失206。[0057]在一些实施方式中，能够使用不同ml模型(未描绘)的不同ml层来在基于给定训练实例训练语音机器人的同时，生成与真实值响应203相关联的真实值嵌入，该不同ml层不同于在生成与预测响应205(例如，点积架构)相关联的预测嵌入时利用的多个ml层。然后可以将真实值嵌入存储在候选响应数据库171a中，以在推断时用作多个候选响应中的一个。值得注意的是，可以基于一个或多个损失206来附加地或替代地来更新不同ml层，使得不同ml层学习嵌入空间的相应部分以指派给真实值嵌入(并且多个ml层和/或不同ml层中的一个或多个ml层可以可选地保持固定)。此外，与作为对对应对话的部分的不正确响应的一个或多个响应相关联的对应嵌入可以附加地或替代地用作否定示例，以在嵌入空间中进一步区分针对对应对话的部分的正确嵌入。在更新不同ml层之后，能够使用更新的不同ml层来处理多个附加候选响应，以生成对应候选响应嵌入。这些候选响应嵌入和对应候选响应也能够被存储在候选响应数据库171a中，即使它们未被用于训练语音机器人。因此，在推断时，可以省略不同ml层，因为候选响应嵌入和对应候选响应是已知的。在附加或替代实施方式中，能够将真实值嵌入与针对给定训练实例的真实值响应相关联地存储在训练实例数据库161a中。[0058]更新引擎162a5能够使得基于一个或多个损失206来更新多个ml层中的一个或多个ml层(并且多个ml层中的一个或多个ml层可以可选地保持固定)。例如，更新引擎162a5能够使得一个或多个损失206跨多个ml层中的一个或多个ml层反向传播，以更新多个ml层中的一个或多个ml层的相应权重。在一些实施方式中，更新引擎162a5能够利用针对给定训练实例的对应特征强调输入中的一个或多个来偏置更新多个ml层中的一个或多个ml层。能够以上述相同或类似的方式基于由训练实例引擎161获得的附加训练实例来进一步更新多个ml层中的一个或多个ml层。在一些实施方式中，可以以这种方式训练语音机器人，直到满足一个或多个条件。一个或多个条件能够包括例如被更新的多个ml层或多个附加ml层中的一个或多个ml层的验证、被更新的多个ml层或多个附加ml层中的一个或多个ml层的收敛(例如，零损失或在零损失的阈值范围内)、多个ml层或多个附加ml层中的一个或多个ml层(关于精度和/或查全率)表现得比当前正被利用的语音机器人的实例(如果有的话)更好的确定、基于至少阈值数量的训练实例的训练的发生、和/或基于训练实例的训练的持续时间。[0059]尽管语音机器人被描述为以特定方式并使用特定架构来训练，但是应当理解，这是为了示例的目的而不意味着限制。例如，在训练与假想市场相关联的语音机器人时，与名为hypotheticalcafé的虚构餐馆相关联的语音机器人能够用作基线语音机器人。在该示例中，可以利用一种或多种迁移学习技术(例如，元学习)来针对与假想市场相关联的语音机器人适配与hypotheticalcafé相关联的语音机器人(或基于那些训练实例生成的输出)。例如，训练实例输入可以包括指示与假想市场相关联的语音机器人正被训练用于不同的零售相关目的的附加输入，而与hypotheticalcafé相关联的原始语音机器人被训练用于餐馆目的。[0060]简要地返回参考图1，并且在训练语音机器人之后，语音机器人引擎170能够使得随后利用经训练的语音机器人来代表第三方针对与第三方相关联的电话呼叫进行对话，并且在各种实施方式中能够包括响应引擎171和远程过程调用(rpc)引擎172。经训练的语音机器人能够经由相应的附加客户端设备195与发起呼入电话呼叫或应答呼出电话呼叫的人或附加语音机器人进行电话呼叫。能够使用语音通信协议(例如，互联网协议语音(voip)、公共交换电话网络(pstn)和/或其他电话通信协议)通过一个或多个网络1993进行电话呼叫。值得注意的是，这些呼叫可以是基于云的电话呼叫，使得用于训练语音机器人的客户端设备110不是对应电话呼叫的端点。相反，语音机器人开发系统120(例如，一个或多个服务器)可以与附加客户端设备195之一一起用作电话呼叫的端点。[0061]例如，并且具体参考图2b，假设为其训练语音机器人的第三方是销售各种产品的名为假想市场的虚构零售实体。进一步假设人在附加客户端设备195中的相应一个处提供用户输入以发起与假想市场的电话呼叫，语音机器人应答由该人发起的呼入电话呼叫，并且使得(例如，使用tts模型150a生成的)捕获与针对语音机器人的特定介绍相对应的合成语音的合成语音音频数据在附加客户端设备195中的相应一个处被可听地渲染，使得合成语音可经由附加客户端设备195中的相应一个的扬声器被该人感知。进一步假设该人响应于合成语音音频数据的可听渲染而提供口头话语“hello,doyouhaveanyofproductxavailableforsale(你好，你有产品x可供出售吗)”。可以在通过一个或多个网络传送到图1的语音机器人开发系统120的音频数据207中捕获口头话语。[0062]asr引擎130a2能够使用asr模型130a处理音频数据207，以生成对应于口头话语的多个语音假设209。语音机器人引擎170能够可选地使得多个语音假设209被对齐和/或注释。此外，响应引擎171能够使用存储在ml层数据库170a1中的多个ml层来处理多个语音假设209、(例如，存储在语音活动数据库170a2中的)由人发起的呼入电话呼叫的对话场境208和/或音频数据207中的一个或多个，以生成响应嵌入。在一些实施方式中，响应于确定由用户提供的口头话语是完整的，音频数据207可以仅由asr引擎130a2处理和/或多个语音假设209可以仅由响应引擎171处理。例如，语音机器人开发系统120能够使用被训练为检测该人何时完成提供口头话语的端点模型来处理音频数据，以确定该人在说出单词“sale(销售)”之后完成提供口头话语。[0063]在一些实施方式中，响应引擎171能够将响应嵌入和与存储在候选响应数据库171a中的多个候选响应相关联的多个候选响应嵌入进行比较。此外，响应引擎171能够基于嵌入空间中的响应嵌入和与多个候选响应相关联的多个候选响应嵌入中的一个或多个之间的距离度量来选择多个候选响应中的给定候选响应作为对口头话语的响应210。例如，可以选择与满足距离阈值的对应距离度量相关联的候选响应作为响应210。响应210能够由tts引擎150a2使用tts模型150a处理，以生成捕获响应210的合成语音音频数据212。此外，合成语音音频数据212能够在附加客户端设备195中的相应一个处被可听地渲染。[0064]在各种实施方式中，能够使用以上文参考图1和图2a描述的方式训练的经训练的指针网络来处理音频数据207、对话场境208和/或多个语音假设209。指针网络能够识别对话或对话场境的特定部分，该特定部分被预测为在选择响应于音频数据207而提供的响应时和/或在响应于音频数据207而生成rpc出站请求(例如，特征强调输出)时有意义。在这些实施方式中，使用指针网络识别的对话或对话场境的特定部分能够作为输入提供给响应引擎171(例如，作为对与经训练的语音机器人相对应的多个ml层的副输入)。此外，响应引擎171能够偏置响应210的选择和/或rpc出站请求211a的生成。此外，如参考对话摘要引擎185更详细所述，特征强调输出能够用于生成对话的对话摘要，该对话摘要提供对话的概述以及关于经训练的语音机器人为什么以特定方式行动的解释。[0065]在一些实施方式中，响应引擎171能够确定需要rpc请求响应在音频数据207中捕获的口头话语。在这些实施方式的一些版本中，rpc引擎172能够生成rpc出站请求211a，并将rpc出站请求传送到一个或多个第三方系统190。继续上述示例，响应引擎171可以确定需要rpc请求来确定假想市场是否具有供销售的“productx”的任何库存。因此，rpc引擎172能够生成结构化请求(例如，库存＝productx，意图＝销售)作为被传送到库存第三方系统190的rpc出站请求211a。rpc引擎172能够响应于rpc出站请求211b而接收rpc入站请求211b。例如，rpc入站请求211b可以指示“productx”经由假想市场可供销售或不可供销售。在响应引擎171确定需要rpc请求的实施方式中，与rpc出站请求211a相关联的合成语音音频数据的一个或多个实例(例如，“holdonasecondwhileicheck(请稍等，我查一下)”)和/或与rpc入站请求211a相关联的合成语音音频数据的一个或多个实例(例如，“yes,wehaveproductxavailableforsale,wouldyouliketopurchaseit？(是，我们有可供销售的产品x，你想要购买它吗？)”)能够以与上述相同或类似的方式在附加客户端设备195中的相应一个处被渲染。[0066]可以重复该过程以生成针对由该人提供的口头话语的对应响应，直到电话呼叫完成。与该人的电话呼叫可以被存储在语音活动数据库170a2中。例如，对于给定电话呼叫，语音活动数据库170a2可以包括与该人的口头话语相对应的音频数据、与语音呼叫的合成语音相对应的合成语音音频数据、给定电话呼叫的结果、给定电话呼叫的持续时间、与给定电话呼叫相关联的时间和/或日期、和/或从给定电话呼叫导出的其他信息。在一些实施方式中，语音机器人可以在参与对话之前请求该人同意与语音机器人交互。在该人同意在电话呼叫期间利用语音参与对话的实施方式中，语音机器人可以参与与用户的对话。在该人不同意在电话呼叫期间利用语音参与对话的实施方式中，语音机器人可以结束电话呼叫或者请求与第三方相关联的额外的人加入电话呼叫。[0067]返回参考图1，错误识别引擎180能够使用存储在ml层数据库180a中的ml模型的多个ml层来处理存储在语音机器人活动数据库170a2中的语音机器人活动，以识别语音机器人的任何行为错误。能够基于使用多个ml层生成的输出将所识别的行为错误分类为一个或多个不同的错误类别。一个或多个不同的错误类别能够包括例如语音机器人过早地终止呼叫、语音机器人未能提供响应并超时、语音机器人未能请求完成该人的期望动作所需的参数的对应值、语音机器人未能辨识由该人提供以完成该人的期望动作的参数的对应值、语音机器人未能在需要时执行rpc、语音机器人利用不正确的第三方系统执行rpc、和/或在对应电话呼叫期间可能发生的该语音机器人的任何其他行为错误。换言之，如果所识别的行为错误的根本原因是相同的，则能够将所识别的行为错误分类为相同或不同错误类别中的一个或多个。[0068]在一些实施方式中，错误识别引擎180能够自动地执行一个或多个动作以校正这些识别的行为问题。一个或多个动作能够包括例如合成新的训练实例以用于重新训练语音机器人和/或修改现有的训练实例以用于重新训练语音机器人。例如，错误识别引擎180可以确定语音机器人已经混淆了包括在对应对话的部分中的多个特征，但是在包括这些特征的训练实例中存在稀疏性问题，其防止语音机器人能够一致地区分多个特征。在该示例中，错误识别引擎180可以生成包括多个特征中的一个或多个特征的合成训练实例以解决稀疏性问题，并且使得语音机器人基于与语音机器人相关联的多个训练实例(包括所生成的合成训练实例)被重新训练。作为另一示例，错误识别引擎180可以附加地或替代地修改重新标记一个或多个现有的训练实例以进一步区分多个特征中的一个或多个特征。[0069]在一些附加或替代实施方式中，错误识别引擎180能够使得通知被呈现给第三方开发人员。通知能够包括当由第三方开发人员执行时应当校正这些识别的行为问题的一个或多个动作的指示。通知能够与针对对应呼叫的对话摘要一起渲染，或者经由单独的界面(例如，弹出通知、通知界面等)渲染。一个或多个动作能够包括例如添加新的训练实例以用于重新训练语音机器人和/或修改现有的训练实例以用于重新训练语音机器人。例如，错误识别引擎可以呈现一个或多个训练实例，并且提示第三方开发人员识别多个训练实例中的一个或多个训练实例的一个或多个对应特征强调输入、添加包括一个或多个训练实例的特征的更多训练实例、重新标记训练实例以包括一个或多个不同的标签、和/或可以校正所识别的行为错误的根本原因的任何其他动作。[0070]对话概要引擎185能够基于存储在语音机器人活动数据库170a2中的语音机器人活动来生成针对由语音机器人进行的每个电话呼叫的对应对话概要。能够使用渲染引擎112在客户端设备110的用户接口处渲染对应对话摘要。在一些实施方式中，对应对话摘要能够包括例如对应电话呼叫中的每个的自然语言摘要、对应电话呼叫的持续时间、对应电话呼叫的结果或成果、与对应电话呼叫相关联的金钱信息和/或与电话呼叫相关联的其他信息，诸如关于语音机器人为什么基于在对话期间生成的一个或多个特征强调输出提供特定输出的特定原因。继续假想市场示例，对应对话摘要可以是例如“usercalledtoinquireaboutavailabilityofproductx,icheckedtomakesureproductxwasavailable,theuserpurchasedproductxfor(用户呼叫以询问产品x的可用性，我查一下以确保产品x有货，用户用购买产品x)”。在一些附加或替代实施方式中，对应对话摘要在被选择时可以使得使用渲染引擎112在客户端设备110的用户接口处渲染对应电话呼叫的转录。下面(例如，参考图3c)描述对应对话摘要。[0071]因此，本文描述的语音机器人开发平台使得与第三方相关联的第三方开发人员能够训练语音机器人，监视语音机器人的执行，并且随后基于语音机器人的任何所识别的行为错误来更新语音机器人。值得注意的是，语音机器人开发平台是基于示例的，因为基于对话的部分来训练语音机器人，并且基于添加更多示例或修改现有示例来更新语音机器人。因此，第三方开发人员不需要具有ml或如何定义各种意图模式的任何广泛知识，这可以是开发基于规则的语音机器人所需要的。[0072]尽管语音机器人在本文中被描述为随后被部署用于代表第三方针对与第三方相关联的电话呼叫进行对话，但是应当理解，这是为了示例的目的而不意味着限制。例如，本文描述的语音机器人能够被部署在人能够参与与给定语音机器人的人机会话的任何场景中。例如，给定语音机器人能够被训练为经由汽车餐厅(drivethru)系统与在汽车餐厅处的人进行对话、经由人的客户端设备作为自动助理与该人进行对话、和/或人能够参与与给定语音机器人的人机会话的电话呼叫之外的任何其他领域。因此，应当理解，这些语音机器人的行为可以是基于用于训练对应语音机器人的训练实例。[0073]通过使用本文描述的技术，能够实现各种技术优点。作为一个非限制性示例，语音机器人开发平台使得能够基于对话的示例而不是预定义意图模式来训练语音机器人。这允许通过添加新的训练实例或修改现有的训练实例来容易地添加或修改语音机器人行为。因此，使用本文描述的语音机器人开发平台训练的语音机器人更具可扩展性，并且由于不需要定义大量意图模式，因此减少了存储器消耗。因此，训练和利用的ml模型能够具有更小的存储器占用，并且能够更鲁棒和/或准确。此外，使用语音机器人开发平台训练的语音机器人获得高水平的精度和查全率，从而使得能够更快速且高效地结束电话呼叫，因为使用语音机器人开发平台训练的语音机器人更能够理解人类语音的细微差别并相应地做出响应。[0074]现在转到图3a、图3b和图3c，描绘了与语音机器人开发人员平台相关联的用户界面300的各种非限制性示例。第三方开发人员能够使用包括语音机器人开发系统客户端或语音机器人开发系统的客户端设备(例如，图1的客户端设备110)与语音机器人开发平台交互。通过与语音机器人开发平台交互，第三方开发人员能够训练语音机器人，该语音机器人在被部署时能够代表与第三方开发人员相关联的第三方针对指向第三方的呼入电话呼叫和/或代表第三方发起的呼出电话呼叫进行对话。为了贯穿图3a、图3b和图3c的示例，假设第三方开发人员正在创建新的语音机器人以针对与hypotheticalcafé(虚构餐馆)相关联的电话呼叫进行对话。[0075]具体参考图3a，语音机器人开发平台的主屏幕或登录页面被描绘为在用户界面300上可视地渲染。在各种实施方式中，可以在主屏幕或登录页面上向第三方开发人员呈现各种图形元素。例如，用户界面300可以包括语音机器人图形元素310，其提供与由第三方开发人员开发的语音机器人和/或与第三方(例如，hypotheticalcafé)相关联的任何语音机器人相关联的任何独特标识符的片段。在创建新语音机器人时，第三方开发人员能够在文本输入字段318中提供独特标识符以与正在开发的新语音机器人相关联。例如，如图3a所示，第三方开发人员可以在文本输入字段318中提供“hypotheticalcafé”的键入输入，或者捕获对应于“hypotheticalcafé”(并且可选地，响应于麦克风界面元素350的用户选择)的音频数据的口头输入。在一些实施方式中，第三方开发人员可以选择如图3a所示的“查看更多”图形元素，以扩展语音机器人的片段(如果存在任何其他片段的话)，以包括附加语音机器人或在用户界面300上启动语音机器人界面。[0076]此外，用户界面300可以附加地或替代地包括训练实例图形元素320，其提供在创建新语音机器人时使用的多个训练实例的片段。多个训练实例中的每个训练实例能够包括训练实例输入和训练实例输出。训练实例输入能够包括例如对应对话的至少一部分和对应对话的先前场境，并且训练实例输出能够包括例如对对应对话的至少该部分的对应真实值响应。多个训练实例能够例如从与hypotheticalcafé(或另一餐厅实体)相关联的现有电话呼叫语料库、从在(例如，可以包括或可以不包括开发人员的)一个或多个人之间的演示性对话、和/或从与对话的片段相对应的(例如，可以包括或可以不包括开发人员的)一个或多个人的一个或多个其他口头话语获得。下面(例如，参考图3b)描述获得多个训练实例并训练与hypotheticalcafé相关联的语音机器人。在一些实施方式中，第三方开发人员可以选择如图3a所示的“addtraininginstance(s)(添加训练实例)”图形元素，以添加用于训练与hypotheticalcafé相关联的语音机器人的训练实例，或者在用户界面300上启动训练实例界面。[0077]此外，用户界面300可以附加地或替代地包括语音机器人活动图形元素330，其提供与经训练的语音机器人相关联的语音机器人活动的片段。语音机器人活动能够包括与由经训练的语音机器人代表hypotheticalcafé进行的每个对应电话呼叫相关的信息。例如，语音机器人活动能够包括与每个对应电话呼叫相关联的时间和/或日期、每个对应电话呼叫的持续时间、与每个对应电话呼叫相关联的摘要、与每个对应电话呼叫相关联的转录、和/或与由经训练的语音机器人代表hypotheticalcafé进行的每个对应电话呼叫相关的任何其他信息。在一些实施方式中，能够在对应电话呼叫期间和/或在每个对应电话呼叫之后生成语音机器人活动。语音机器人活动使得第三方开发人员能够监视语音机器人的执行。下面(例如，参考图3c)描述语音机器人活动。在一些实施方式中，第三方开发人员可以选择如图3a所示的“seemore(查看更多)”图形元素，以扩展语音机器人活动的片段(如果存在任何片段的话)以包括附加语音活动或在用户界面300上启动语音机器人活动界面。[0078]更进一步地，用户界面300可以附加地或替代地包括语音机器人行为错误图形元素330，其提供与经训练的语音机器人相关联的所识别的语音机器人行为错误的片段。语音机器人行为错误能够包括由经训练的语音机器人在代表hypotheticalcafé的对应电话呼叫期间做出的错误。这些语音机器人行为错误能够包括例如接受或建议针对餐馆预订的不可用时间、提供不正确的营业时间、接受不可供的食物订单和/或对应于经训练的语音机器人的不正确行为的任何其他错误。语音机器人行为错误使得语音机器人开发平台能够识别这些语音机器人行为错误的对应根本原因。在一些实施方式中，语音机器人开发平台可以采取一个或多个动作来自动地校正对应根本原因，诸如重新标记用于重新训练语音机器人的多个训练实例中的一个或多个训练实例、将一个或多个特征强调输入添加到用于重新训练语音机器人的多个训练实例中的一个或多个训练实例、和/或可以由语音机器人训练平台采取以校正所识别的语音机器人行为错误的对应根本原因的任何其他动作。在附加或替代实施方式中，语音机器人开发平台可以生成一个或多个通知以向第三方开发人员通知所识别的语音机器人行为错误的根本原因。这些通知能够可选地包括一个或多个动作的指示，该一个或多个动作在由第三方开发人员执行时可以校正所识别的语音机器人行为错误的对应根本原因，诸如请求第三方开发人员重新标记用于重新训练语音机器人的多个训练实例中的一个或多个训练实例、请求第三方开发人员将一个或多个特征强调输入添加到用于重新训练语音机器人的多个训练实例中的一个或多个训练实例、请求第三方开发人员添加用于重新训练语音机器人的一个或多个附加训练实例(并且可选地具有一个或多个特定标签或特定特征强调输入)、和/或可以由第三方开发人员采取以校正所识别的语音机器人行为错误的对应根本原因的任何其他动作。在一些实施方式中，第三方开发人员可以选择如图3a所示的“seemore(查看更多)”图形元素，以扩展所识别的语音机器人行为错误的片段(如果任何片段存在的话)或者在用户界面300上启动语音机器人行为错误界面。[0079]第三方开发人员能够导航图3a中所示的语音机器人的主页或登录页以创建新的语音机器人。例如，假设第三方开发人员在文本输入字段318中为语音机器人提供“hypotheticalcafé”的独特标识符，并选择“addtraininginstance(s)”图形元素。可以经由如图3b所示的用户界面300向第三方开发人员呈现训练实例界面。第三方开发人员可以与训练实例接口交互以定义用于训练语音机器人的训练实例。[0080]在一些实施方式中，能够从训练实例的语料库获得训练实例。训练实例语料库能够包括例如在对应先前电话呼叫期间在与hypotheticalcafé相关联的用户(例如，雇员)与附加用户(例如，客户)之间的一个或多个先前对话、在对应先前电话呼叫(例如，与另一餐厅实体相关联的电话呼叫)期间在与hypotheticalcafé不相关联的其他用户之间的一个或多个先前对话、和/或能够在其上生成训练实例的其他对话。例如，响应于接收到指向训练实例语料库界面元素380的用户输入，第三方开发人员能够访问训练实例语料库以选择对应对话的一部分以用作针对给定训练实例的训练实例输入321a(以及对应对话的任何先前场境)，并且选择对对应对话的该部分的对应响应以用作针对给定训练实例的训练实例输出322a。指向训练实例语料库界面元素380的用户输入能够是例如经由触摸屏或经由用户接口输入设备(例如，鼠标或触笔)检测到的触摸输入和/或经由客户端设备的麦克风(并且可选地响应于指向语音界面元素350的用户输入)检测到的口头输入。在各种实施方式中，第三方开发人员能够可选地为给定训练实例定义特征强调输入323a。在这些实施方式中，如上文参考图1和图2a所述，特征强调输入323a能够用于训练与语音机器人相对应的指针网络和/或多个ml层。指针网络能够是对应于语音机器人的多个ml层的一部分，或者是与对应于语音机器人的多个ml层结合使用的单独的ml层。[0081]在一些附加或替代实施方式中，能够从在经由用户界面300呈现给用户的训练实例界面处接收到的用户输入获得训练实例。在训练实例界面处接收到的用户输入能够是例如经由触摸屏或经由用户接口输入设备(例如，鼠标、触笔、键盘等)检测到的触摸或键入输入和/或经由客户端设备的麦克风(并且可选地响应于指向语音界面元素350的用户输入)检测到的口头输入。例如，用户能够提供包括图3b中所示的训练实例的表中的训练实例输入321a和训练实例输出322a(以及可选地特征强调输入323a)中的一个或多个的用户输入。[0082]在一些附加或替代实施方式中，能够从演示性对话352b获得训练实例。然后可以利用演示性对话352b来生成用于训练与hypotheticalcafé相关联的语音机器人的多个训练实例。例如，如由图3b中的演示性对话所示，第三方开发人员(以及可选地另一个人)能够根据不同的角色行动，以通过提供针对演示性对话的用户输入(例如，键入输入或口头输入)来模拟在与hypotheticalcafé相关联的人(例如，雇员)和另一个人(例如，客户)之间的实际对话。例如，第三方开发人员能够选择雇员图形元素362a并提供用户输入352b1“hello,hypotheticalcafé,howmayihelpyou？(你好，hypotheticalcafé，我能为你做什么？)”，选择客户图形元素362b并提供用户输入354b1“hi,iwouldliketobookatableforfourpeopleat6pmtonight(你好，我想预订今晚6点的一张四人桌)”，选择雇员图形元素362a并提供用户输入352b2“letmecheck(让我查一下)”，然后是用户输入352b3“i’msorry,weonlyhave7pmand8pmavailableforfourpeople(对不起，我们只有晚上7点和晚上8点的四人桌)”。选择客户图形元素362b并提供用户输入354b2“7pmwillwork(晚上7点可以)”，选择雇员图形元素362a并提供用户输入352b4“what’sthename？(你的姓名是什么？)”，选择客户图形元素362b并提供用户输入354b3“johnsmith”，并且选择雇员图形元素362a并提供用户输入352b5“thanksjohn,seeyoutonight(谢谢john，晚上见)”。语音机器人开发平台能够基于演示性对话352b自动地生成多个训练实例。然而，第三方开发人员可能需要为基于演示性对话352b生成的训练实例指定任何特征强调输入。[0083]例如，假设基于演示性对话352b生成的训练实例输入321a1包括存在呼入电话呼叫的指示，并且假设训练实例输出322a1包括对呼入电话呼叫的对应响应，诸如应答呼入电话呼叫并提供与用户输入352b1相对应的输出。在该示例中，特征强调输入323a1可以对应于针对呼入电话呼叫的介绍特征。针对呼入电话呼叫的介绍可以是用户输入352b1、经由交互式语音响应(ivr)系统呈现的选项和/或第三方开发人员可能希望语音机器人学习的其他介绍。值得注意的是，由于没有演示性对话352b的在先部分，因此没有训练实例输入321a1的先前对话场境。因此，在该训练实例上训练的语音机器人能够学习如何应答呼入电话呼叫。在训练实例输入和/或训练实例输出是基于用户输入的实施方式中，用户输入可以对应于捕获用户输入的音频数据、基于处理音频数据生成的多个语音假设和/或对应于用户输入的文本。[0084]作为另一示例，假设基于演示性对话352b生成的训练实例输入321a2包括与用户输入354b1相对应的演示性对话352b的一部分和如由指示的先前对话场境(例如，演示性对话352b中在用户输入354b1之前发生的用户输入和/或与演示性对话352b相关联的元数据)，并且假设训练实例输出322a1包括对用户输入354b1的对应响应，诸如用户输入352b2和发起针对可用性的远程过程调用(rpc)出站请求的指示。在该示例中，特征强调输入323a2可以对应于用户输入354b1的特征，诸如聚会人数特征(例如，如由针对训练实例输入321a2的虚线框指示的“四个人”)、时间特征(例如，也由针对训练实例输入321a2的虚线框指示的“6pm”)和rpc出站请求特征。值得注意的是，训练实例输出322a2还包括发起针对可用性的rpc出站请求的指示。该训练实例可以被认为是rpc训练实例，并且rpc训练实例的类型可以是rpc出站请求训练实例。[0085]针对可用性的rpc出站请求能够包括，例如，生成结构化请求以询问在所请求的时间针对特定聚会人数的餐厅预订可用性(例如，可用性：[聚会人数]＝4；[时间]＝6pm或任何其他形式的结构化请求)，并将结构化请求传送到与管理hypotheticalcafé的餐厅预订相关联的第三方系统。尽管rpc出站请求未被显式地包括在演示性对话352b中，但是第三方开发人员能够将针对可用性的rpc出站请求添加或注入到训练实例输出322a2中。此外，尽管rpc出站请求被传送到第三方系统(并且不是演示性对话352b中的“客户”)，但是语音机器人仍然能够被训练为基于请求餐馆预订的可用性的训练实例输入321a2是rpc出站请求训练实例来在演示性对话352b期间生成并传送针对可用性的rpc出站请求。此外，尽管rpc出站请求被描述为与餐厅预订可用性相关联，但是应当理解，这是为了示例的目的，并不意味着限制。例如，rpc出站请求可以与食物/库存可用性、营业时间询问、转移电话呼叫和/或在电话呼叫期间需要与一个或多个第三方系统交互的任何其他功能相关联。因此，在该rpc出站请求训练实例上训练的语音机器人能够学习何时以及如何启动rpc出站请求。[0086]作为又一示例，假设基于演示性对话352b生成的训练实例输入321a3包括演示性对话352b的与rpc入站请求相对应的部分和如由指示的先前对话场境(例如，演示性对话352b中在rpc入站请求之前发生的用户输入和/或与演示性对话352b相关联的元数据)，并且假设训练实例输出322a3包括对rpc入站请求的对应响应，诸如用户输入352b3。在该示例中，特征强调输入323a3可以对应于rpc入站请求特征。值得注意的是，训练实例输出322a2还包括发起针对可用性的rpc出站请求的指示。该训练实例可以被认为是rpc训练实例，并且rpc训练实例的类型可以是rpc入站请求训练实例。[0087]具有可用性的rpc入站请求能够包括例如接收结构化响应，该结构化响应包括是否存在满足预订请求的参数(例如，聚会人数4，时间6pm)的任何餐厅预订的指示，以及可选地满足预订请求的参数的替代的一个或多个替代时间或时间范围。在一些实施方式中，能够基于演示性对话352b的当前状态来生成一个或多个亲和特征。例如，假设如演示性对话352b中包括的餐馆预订的请求时间是6pm，并且请求时间可用。在这种情况下，能够生成指示请求时间可用的一个或多个亲和特征。相反，假设餐厅预订的请求时间不可用。在这种情况下，指示请求时间的一个或多个亲和特征不可用并且还将请求时间与替代时间相关联(例如，如果可用性对应于7pm和8pm而不是请求时间6pm，则在请求时间之后一小时和在请求时间之后两小时)。[0088]类似于上述rpc出站请求，尽管rpc入站请求未被显式地包括在演示性对话352b中，但是第三方开发人员能够将具有可用性的rpc入站请求添加或注入到训练实例输入321a3中。此外，尽管rpc入站请求是从第三方系统(而不是演示性对话352b中的“客户”)接收到的，但是语音机器人仍然能够被训练为基于训练实例输入321a3(其包括作为rpc入站请求训练实例的餐馆预订的可用性)在演示性对话352b期间接收具有可用性的rpc入站请求。此外，尽管rpc入站请求被描述为与餐厅预订可用性相关联，但是应当理解，这是为了示例的目的，并不意味着限制。例如，rpc入站请求可以是基于传送到一个或多个第三方系统的对应rpc出站请求。因此，在该rpc入站请求训练实例上训练的语音机器人能够学习如何处理rpc入站请求，以及如何基于rpc入站请求中包括的对话和数据的场境进行响应。[0089]本文描述的rpc训练实例，能够实现各种技术优点。作为一个非限制性示例，语音机器人能够学习如何和/或何时向第三方系统传送请求，以及如何利用对这些请求的响应来解决由语音机器人正在进行的电话对话的任务。结果，任务能够在对话期间由语音机器人解决，并且能够被高效地解决，而不需要使额外的人参与对话。此外，rpc训练实例的利用使得能够减少rpc请求的数量，因为存在较少的错误rpc请求，从而节省否则将在生成rpc请求时消耗的计算资源和/或否则将通过一个或多个网络传送rpc请求时消耗的网络资源。[0090]作为又一示例，假设基于演示性对话352b生成的训练实例输入321a4包括与用户输入354b3相对应的演示性对话352b的一部分和如由指示的先前对话场境(例如，演示性对话352b中在用户输入354b3之前发生的用户输入和/或与演示性对话352b相关联的元数据)，并且假设训练实例输出322a4包括对呼入呼叫的对应响应，诸如与用户输入相对应的响应352b5。在该示例中，特征强调输入323a4可以对应于姓名特征(例如，如由训练实例输入321a4的虚线框指示的“johnsmith”)。值得注意的是，在演示性对话352b中，“客户”不对餐厅预订提供姓名，直到被“雇员”提示这样做。因此，如果“客户”不提供用于姓名参数的值(例如，johnsmith)，则在该训练实例上训练的语音机器人能够学习在进行餐厅预订时应该请求姓名参数的值。[0091]在各种实施方式中，并且在定义训练实例之后，能够训练与hypotheticalcafé相关联的语音机器人。例如，响应于接收到指向训练语音机器人图形元素382的用户输入，能够基于由用户输入定义的训练实例来训练语音机器人(例如，如参考图1的语音机器人训练引擎160所述)。与hypotheticalcafé相关联的语音机器人可以对应于ml模型(例如，rnn模型、transformer模型、指针网络、lstm模型和/或其他ml模型)的多个层。值得注意的是，在训练语音机器人时，ml模型的多个层中的一个或多个层能够通过使用指针网络来关注与多个训练实例中的一个或多个训练实例相关联的对应特征强调输入。例如，能够使语音机器人至少关注聚会人数特征、时间特征、姓名特征、rpc出站请求特征、rpc入站请求特征和/或由结合图3b讨论的训练实例和未结合图3b讨论的附加训练实例的对应特征强调输入定义的其他特征。指针网络能够被训练为识别被预测为在基于训练实例输入312a确定如何响应时有意义的这些特征。[0092]在部署语音机器人之后，第三方开发人员能够监视语音机器人的进展。例如，响应于接收到指向语音机器人活动界面元素384的用户输入，用户界面300可以呈现如图3c所示的语音机器人活动界面。作为另一示例，响应于接收到指向主界面元素386的用户输入，用户界面300可以返回到如图3a所示的主页或登录页，并且用户界面300可以响应于来自第三方开发人员的对语音机器人活动图形元素330(或上文参考图3a描述的对应“seemore(查看更多)”图形元素)的选择而呈现如图3c所示的语音机器人活动界面。第三方开发人员可以与语音机器人活动界面交互以查看与hypotheticalcafé相关联的语音机器人的语音机器人活动。语音机器人活动能够被存储在可由客户端设备访问的一个或多个数据库(例如，图1的语音活动数据库170a2)中。[0093]例如，用户能够查看由经训练的语音机器人代表hypotheticalcafé进行的电话呼叫的对话摘要331a。在一些实施方式中，第三方开发人员能够查看语音机器人的所有语音机器人活动，如图3c所示并且如由330a所示。在一些附加或替代实施方式中，第三方开发人员能够在查看所有语音机器人活动与如由330b所示的仅查看包括语音机器人的所识别的行为错误的语音机器人活动之间切换。与330a和330b相关联的文本可以是可选择的，并且使得第三方开发人员能够在语音机器人活动的这些不同视图之间切换。在各种实施方式中，第三方开发人员能够搜索语音机器人活动日志。例如，第三方开发人员能够将一个或多个术语输入到文本输入字段330c中以搜索语音机器人活动。此外，在各种实施方式中，可以利用一个或多个排序标准来对呈现给用户的对话摘要331a进行排序。一个或多个排序标准能够包括例如对应电话呼叫的新近度、自第三方开发人员审查对应对话摘要以来的新近度、和/或任何其他排序标准。[0094]在一些实施方式中，对话摘要提供由语音机器人代表hypotheticalcafé进行的对应电话呼叫的自然语言解释。例如，对话摘要331a1指示“usercalledtomakeareservation,requestedtimewasnotavailable,isuggestedanalternatetime,theuseracceptedthesuggestedalternatetimeforthereservation,thereservationwascompleted(用户呼叫以进行预订，所请求的时间不可用，我建议替代时间，用户接受所建议的替代时间进行预订，预订已完成)”。在该示例中，对话摘要331a1指示电话呼叫类似于图3b的演示性对话352b。对话摘要331a1能够附加地或替代地包括执行rpc以(例如，基于使用指针网络生成的特征强调输出)检查请求时间的可用性并识别与对应电话呼叫相关联的替代时间和/或其他信息的指示，诸如进行对应电话呼叫的时间和日期、对应电话呼叫的持续时间、与对应电话呼叫相关联的金钱信息(例如，外卖订单的成本)、与对应电话呼叫相关联的预订信息、和/或从对应电话呼叫导出的任何其他信息。[0095]在一些附加或替代实施方式中，能够从语音呼叫活动界面访问与由语音机器人代表hypotheticalcafé进行的对应电话呼叫相关联的转录(并且可选地，仅当与语音机器人交谈的人同意监视对应电话呼叫的语音机器人活动时)。例如，对话摘要331a2指示“usercalledtoplacecarryoutorder,icheckedtomakesureallthefoodwasavailable,thecarryoutorderwascomplete(用户呼叫来下外卖订单，我查一下以确保所有食物可用，外卖订单完成)”。可以基于图3c中所示的对话352c来生成对话摘要331a2。例如，假设语音机器人应答指向hypotheticalcafé并由人经由相应的客户端设备发起的呼入电话呼叫。进一步假设语音机器人在应答呼入电话呼叫时渲染合成语音音频数据，该合成语音音频数据捕获合成语音352c1“hello,hypotheticalcafé,howmayihelpyou？(你好，hypotheticalcafé，我能为你做什么)？”进一步假设，语音机器人处理捕获口头话语354c1“hi,iwouldliketoplaceanorderforcarryout(嗨，我想订外卖)”(以及对话352c的先前场境)的音频数据，并生成捕获合成语音352c2“okay,whatcanigetforyou？(好的，要我为你点什么？)”的合成语音音频数据作为对口头话语的响应352c2。对话352c能够如图3c所示继续。值得注意的是，对话包括rpc相关联的第三方库存系统，以检查口头话语354c2中的外卖订单中包括的特定物品(例如，peasonearthsoupandtheheretoday,gonetomatolasagna)的可用性。rpc相关联的第三方库存系统能够包括rpc出站请求，如在对话352中由合成语音352c3指示的(例如，“letmemakesurewehavethesoup(让我确保我们有汤)”，并且能够包括rpc入站请求，如在对话352中由合成语音352c4指示的(例如，“okay,wehaveit(好的，我们有汤)”)。此外，语音机器人能够包括外卖订单将准备好的估计时间，如由合成语音所指示的(例如，“40分钟”)。[0096]在一些附加或替代实施方式中，针对给定电话呼叫识别的任何语音机器人行为错误能够被包括在对应对话摘要中。例如，对话摘要331a3指示“usercalledtoaskwhetherwehavepatioseating,thetelephonecallfailed(用户呼叫来问我们是否有露天座位，电话呼叫失败)”。如果语音机器人不能生成对由人提供的口头话语的响应，或者不能以足够的置信度生成对口头话语的响应，则对话摘要331a3可以指示电话呼叫失败(例如，如参考图1的错误识别引擎180所述)。在针对给定电话呼叫识别语音机器人行为错误的实施方式中，对话摘要331a3能够包括由语音机器人开发平台自动执行以校正语音机器人的所识别的行为错误的一个或多个动作。在针对给定电话呼叫识别语音机器人行为错误的附加或替代实施方式中，对话摘要331a3能够包括一个或多个动作，该一个或多个动作当由第三方开发人员执行时可以校正语音机器人的所识别的行为错误。一个或多个动作能够包括添加一个或多个附加训练实例以重新训练语音机器人，或者修改用于训练与hypotheticalcafé相关联的语音机器人的现有训练实例。例如，响应于接收到指向训练实例界面元素388的用户输入，用户界面300可以返回到如图3b所示的训练实例界面。作为另一示例，响应于接收到指向主界面元素386的用户输入，用户界面300可以返回到如图3a所示的主页或登录页，并且用户界面300可以响应于来自第三方开发人员的对训练实例图形元素320(或上文参考图3a描述的对应“seemore(查看更多)”图形元素)的选择而呈现如图3b所示的训练实例界面。可以将一个或多个附加训练实例添加到与hypotheticalcafé相关联的语音机器人的训练实例和/或能够修改现有训练实例。响应于接收到指向训练语音机器人图形元素382的用户输入，能够基于附加训练实例和/或修改的训练实例来重新训练语音机器人(例如，如参考图1的语音机器人训练引擎160所述)。[0097]尽管参考图3a、图3b和图3c描述了仅与hypotheticalcafé相关联的语音机器人的单个实例，但是应当理解，这是为了示例的目的，并不意味着限制。例如，语音机器人的多个实例可以由一个或多个计算设备(例如，客户端设备、服务器和/或其他计算设备)同时实现，使得语音机器人的多个实例能够同时参与与对应人(或其他语音机器人)的对话。语音机器人的每个实例能够包括利用语音机器人的多个ml层的对应实例的对应处理器。此外，尽管参考图3a、图3b和图3c将与hypotheticalcafé相关联的语音机器人描述为应答呼入电话呼叫，但是应当理解，这是为了示例的目的，并不意味着限制。例如，能够附加地或替代地训练语音以发起到各种实体的呼出电话呼叫。例如，对于给定训练示例，训练实例输入能够包括用于发起与特定实体的对应电话呼叫以执行特定任务的动作或命令，并且对于给定训练实例，训练实例输出能够包括与发起呼出电话呼叫相关联的对应真实值响应。以这种方式，能够利用与hypotheticalcafé相关联的语音机器人来发起和进行呼出电话呼叫，以从供应商订购更多库存、从信息技术部门询问软件问题、与顾客确认餐厅预订、和/或执行为其训练语音机器人的任何其他功能。[0098]现在转到图4，描绘了图示至少部分地基于特征强调输入来训练语音机器人的示例性方法400的流程图。为方便起见，参考执行操作的系统来描述方法400的操作。方法400的该系统包括计算设备(例如，图1的客户端设备110、图1的语音机器人开发系统120和/或图6的计算设备610、服务器和/或其他计算设备)的至少一个处理器、至少一个存储器和/或其他组件。此外，虽然以特定顺序示出了方法400的操作，但这并不意味着限制。可以重新排序、省略和/或添加一个或多个操作。[0099]在框452处，系统获得用于训练语音机器人的多个训练实例，多个训练实例中的每个训练实例包括训练实例输入和训练实例输出。在一些实施方式中，训练实例输入能够包括对应对话的至少一部分和对应对话的先前场境，并且训练实例输出能够包括对对话的该部分的对应真实值响应。在一些附加或替代实施方式中，训练实例输入能够包括呼入电话呼叫的指示，并且训练实例输出能够包括与应答呼入电话呼叫相关联的对应的真实值响应(以及可选地与应答呼入电话呼叫相关联的介绍)。在一些附加或替代实施方式中，训练实例输入能够包括用于发起与特定实体的呼出电话呼叫的执行以执行特定任务的动作或命令，并且训练实例输出能够包括与发起呼出电话呼叫相关联的对应真实值响应。在各种实施方式中，能够从训练实例语料库获得多个训练实例，该训练实例语料库是基于与正在为其训练语音机器人的第三方(或与第三方具有相同类型的实体的另一第三方(例如，餐馆实体、航空公司实体、零售商实体等))相关联的先前电话呼叫、来自与第三方相关联的第三方开发人员的用户输入和/或由(例如，可以包括或可以不包括第三方开发人员的)一个或多个人提供的演示性对话而生成。上文参考图3a、图3b和图3c描述了获得用于训练语音机器人的多个训练实例。[0100]在框454处，系统获得与多个训练实例中的一个或多个训练实例相关联的对应特征强调输入。能够由第三方开发人员为多个训练实例中的一个或多个训练实例定义对应特征强调输入。此外，特征强调输入使得语音机器人关注针对给定训练实例的对应对话的部分的特定特征。例如，假设正在为其训练语音机器人的第三方是名为hypotheticalairlines的虚构航空公司实体，并且假设对于给定训练实例，训练实例输入包括“iwouldliketochangemyflightfromsdftodcafromtodayatnoontotomorrowatnoon(我想将我的从sdf到dca的航班从今天中午改到明天中午)”的对应对话的一部分。在该示例中，特征强调输入能够包括航班变更特征(例如，“changemyflight(变更我的航班)”)、出发地点特征(例如，“sdf”)、目的地地点特征(例如，“dca”)、原始时间和日期特征(例如，“todayatnoon(今天中午)”)以及期望时间和日期特征(例如，“tomorrowatnoon(明天中午)”)。与该训练实例输入相关联的这些特征强调输入能够与给定训练实例相关联地存储在一个或多个数据库(例如，图1的训练实例数据库161a)中，并且可选地用于训练如本文所述的指针网络(例如，参考图1和图2a)。[0101]在框456处，系统使用机器学习(ml)模型的多个ml层并且针对给定训练实例来处理训练实例输入(以及可选地由第三方开发人员提供的对应特征强调输入)以生成与关联于给定训练实例的对应对话的当前状态相关联的嵌入。在一些实施方式中，包括在训练实例输入中的对应对话的部分对应于针对对应对话的至少该部分的多个语音假设。在那些实施方式的一些版本中，能够使用多个ml层中的第一ml层来处理多个语音假设以生成第一嵌入，并且能够使用多个ml层中的第二ml层来处理先前对话场境以生成第二嵌入。可以级联第一嵌入和第二嵌入以生成与对应对话的当前状态相关联的嵌入。在一些附加或替代实施方式中，包括在训练实例输入中的对应对话的部分对应于捕获对应对话的部分的音频数据。在那些实施方式的一些版本中，能够使用自动语音辨识(asr)模型来处理音频数据以生成针对对应对话的至少该部分的多个语音假设。在那些实施方式的一些版本中，能够使用多个ml层中的第一ml层来处理多个语音假设(并且可选地以及音频数据)以生成第一嵌入，并且能够使用多个ml层中的第二ml层来处理先前对话场境以生成第二嵌入。可以级联第一嵌入和第二嵌入以生成与对应对话的当前状态相关联的嵌入。[0102]在框458处，系统基于对应对话的当前状态来生成一个或多个亲和特征。一个或多个亲和特征能够表示包括在对应对话的先前场境中的特征和/或与对话的当前状态相关联的特征之间的关系。例如，假设正在为其训练语音机器人的第三方是名为hypotheticalairlines的虚构航空公司实体，并且假设对于给定训练实例，训练实例输入包括“iwouldliketochangemyflightfromsdftodcafromtodayatnoontotomorrowatnoon(我想将我的从sdf到dca的航班从今天中午改到明天中午)”的对应对话的一部分。在该示例中，亲和特征能够包括与原始时间和日期特征(例如，“todayatnoon(今天中午)”)与期望时间和日期特征(例如，“tomorrowatnoon(明天中午)”)之间的24小时差异相关联的时间亲和特征、与用户的航班变更请求相关联的账户亲和特征，该航班变更请求与对应常旅客号码相关联(假设对应常旅客号码先前被提供并且被包括在对应对话的先前场境中)、和/或其他亲和特征。[0103]在框460处，系统使用ml模型的多个附加ml层或附加ml模型来处理与对应对话的当前状态相关联的嵌入和亲和特征中的一个或多个亲和特征以生成与对对应对话的至少该部分的预测响应相关联的预测嵌入。在一些实施方式中，诸如当第三方开发人员提供一个或多个对应特征强调输入时，能够基于由第三方开发人员提供的对应特征强调输入中的一个或多个来偏置与对对应对话的至少该部分的预测响应相关联的预测嵌入。[0104]在框462处，系统在嵌入空间中将与预测响应相关联的预测嵌入和与对应真实值响应相关联的对应真实值嵌入进行比较以生成一个或多个损失。预测嵌入和真实值嵌入能够分别对应于预测响应和对应真实值响应的较低维度表示。嵌入空间允许比较这些较低维度的嵌入。此外，与预测响应相关联的预测嵌入在嵌入空间中应该接近与对应真实值响应相关联的对应真实值嵌入。换言之，在处理对应对话的至少一部分和对话的先前场境时，系统应该预测与对对应对话的至少该部分的实际响应类似的响应。例如，能够确定嵌入空间中的预测嵌入与对应真实值嵌入之间的距离度量(例如，余弦相似性距离、欧几里德距离和/或其他距离度量)，并且能够基于距离度量来生成一个或多个损失。[0105]在框464处，系统基于给定训练实例的一个或多个损失来更新多个ml层或多个附加ml层中的一个或多个ml层。例如，系统能够跨多个ml层或多个附加ml层中的一个或多个ml层反向传播一个或多个损失。此外，通过更新多个ml层或多个附加ml层中的一个或多个ml层，可以使多个ml层或多个附加ml层中的一个或多个ml层关注第三方开发人员指示给定训练实例中包括的对于给定训练实例重要的特征，诸如由对应特征强调输入中的一个或多个指示的特征。结果，训练多个ml层或多个附加ml层中的一个或多个ml层以识别这些特定特征，以及这些特定在整个对话的场境中的含义是什么。[0106]在框466处，系统确定是否存在用于训练语音机器人的附加训练实例。如果在框466的迭代处，系统确定存在用于语音机器人的附加训练实例，则系统可以返回框456并基于附加训练实例重复框456至464的过程。在一些实施方式中，当附加训练实例可用时，系统可以继续更新多个ml层或多个附加ml层中的一个或多个ml层，直到满足一个或多个条件。一个或多个条件能够包括，例如，被更新的多个ml层或多个附加ml层中的一个或多个ml层的验证、被更新的多个ml层或多个附加ml层中的一个或多个ml层的收敛(例如，零损失或在零损失的阈值范围内)、多个ml层或多个附加ml层中的一个或多个ml层(例如，关于精度和/或查全率)表现得比当前正被利用的语音机器人的实例(如果有的话)更好的确定、基于至少阈值数量的训练实例的训练的发生、和/或基于训练实例的训练的持续时间。在一些附加或替代实施方式中，系统可以继续更新多个ml层或多个附加ml层中的一个或多个ml层，直到已经在为训练语音机器人而获得的多个训练实例中的每个训练实例上训练了语音机器人。如果在框466的迭代处，系统确定没有用于语音机器人的附加训练实例或者直到满足一个或多个条件，则系统可以进行到框468。[0107]在框468处，系统使得经训练的语音机器人被部署用于代表第三方进行对话。例如，能够部署经训练的语音机器人以代表第三方针对与第三方相关联的电话呼叫进行对话。在一些实施方式中，经训练的语音机器人能够代表第三方应答呼入电话呼叫，并参与与人(或与该人相关联的附加语音机器人)的对应对话。在附加或替代实施方式中，经训练的语音机器人能够代表第三方发起呼出电话呼叫的执行，并参与与人或实体(或与该人相关联的附加语音机器人或与该人相关联的交互式语音响应(ivr)系统)的对应对话。作为另一示例，经训练的语音机器人能够被部署为代表第三方在汽车餐厅处或在任何其他服务场景中进行对话。值得注意的是，经训练的语音机器人的多个实例可以由第三方同时部署。通过部署经训练的语音机器人的多个实例，能够同时处理多个呼入电话呼叫和多个呼出电话呼叫的任何组合。[0108]现在转到图5，描绘了图示至少部分地基于远程过程调用(rpc)来训练语音机器人的示例性方法500的流程图。为方便起见，参考执行操作的系统来描述方法500的操作。方法500的该系统包括计算设备(例如，图1的客户端设备110、图1的语音机器人开发系统120和/或图6的计算设备610、服务器和/或其他计算设备)的至少一个处理器、至少一个存储器和/或其他组件。此外，虽然以特定顺序示出了方法500的操作，但这并不意味着限制。可以重新排序、省略和/或添加一个或多个操作。[0109]在框552处，系统获得用于训练语音机器人的多个rpc训练实例，多个训练实例中的每个训练实例包括训练实例输入和训练实例输出。能够从与语音机器人相关联的训练实例的超集(例如，图1的训练实例数据库161a)当中选择多个rpc训练实例。在框554处，系统为训练语音机器人确定针对多个rpc训练实例中的给定rpc训练实例的rpc请求的类型。[0110]在一些实施方式中，针对给定rpc训练实例的rpc请求的类型可以是rpc出站请求。系统可以基于训练实例输出来确定rpc请求的类型是rpc出站请求，对于给定rpc训练实例，该请求至少包括对应真实值rpc出站请求，如由子框552a1所指示。如果在框554的迭代处，系统确定针对给定训练实例的rpc请求的类型是rpc出站请求，则系统可以进行到框556a。[0111]在框556a处，系统使用机器学习(ml)模型的多个ml层并且针对给定的rpc训练实例来处理训练实例输入以生成与对应对话的当前状态相关联的嵌入。训练实例输入能够包括对应对话的至少一部分。能够以与上文参考图4的框456描述的相同或类似的方式处理训练实例输入。[0112]在框558a处，系统使用ml模型的多个附加ml层或附加ml模型来处理嵌入和一个或多个亲和特征以生成与对包括在训练实例输入中的对应对话的至少该部分的预测响应相关联的预测嵌入。系统能够以与上文参考图4的框458描述的相同或类似的方式生成一个或多个亲和特征。此外，系统能够以与上文参考图4的框460描述的相同或类似的方式利用多个附加ml层来处理与对应对话的当前状态相关联的嵌入和亲和特征中的一个或多个亲和特征。[0113]在框560a处，系统在嵌入空间中将预测嵌入和与对应真实值rpc出站请求相关联的真实值嵌入进行比较以生成一个或多个损失。系统能够以与上文参考图4的框462描述的相同或类似的方式将预测嵌入和真实值嵌入进行比较生成一个或多个损失。值得注意的是，真实值嵌入与rpc出站请求相关联(与上文参考图4描述的对对应对话的至少一部分的真实值响应对照)。对于给定rpc训练实例，rpc出站请求可以与特定第三方系统(例如，第三方预订系统、第三方库存系统和/或其他特定第三方系统)相关联。因此，与这些特定第三方系统中的每个相关联的rpc出站请求可以与嵌入空间的相应部分相关联。例如，假设对应rpc出站请求与第三方预订系统相关联。在该示例中，与例如与第三方库存系统相关联的嵌入对照，真实值嵌入能够与第三方预订系统相关联。系统进行到框562。下面描述框562。[0114]在其他实施方式中，针对给定rpc训练实例的rpc请求的类型可以是rpc入站请求。系统可以基于训练实例输入来确定rpc请求的类型是rpc入站请求，对于给定rpc训练实例，该请求至少包括对应rpc入站请求，如子框552a2所示。如果在框554的迭代处，系统确定针对给定训练实例的rpc请求的类型是rpc入站请求，则系统可以进行到框556b。[0115]在框556b处，系统使用ml模型的多个ml层来处理至少对应rpc入站请求以生成与对应对话的当前状态相关联的嵌入。训练实例输入可以另外包括对应对话的至少一部分。能够以与上文参考图4的框456描述的相同或类似的方式处理训练实例输入。值得注意的是，训练实例输入包括rpc入站请求(与仅上文参考图4描述的对应对话的至少一部分对照)。对于给定rpc训练实例，rpc入站请求可以与特定第三方系统(例如，第三方预订系统、第三方库存系统和/或其他特定第三方系统)相关联。结果，rpc入站请求能够是要在对话中传达的结构化信息，并且被接收到对应rpc出站请求，如上文参考框560a所述。[0116]在框558b处，系统使用ml模型的多个附加ml层或附加ml模型来处理嵌入和一个或多个亲和特征以生成与对至少rpc入站请求的预测响应相关联的预测嵌入。系统能够以与上文参考图4的框458描述的相同或类似的方式生成一个或多个亲和特征。此外，系统能够以与上文参考图4的框460描述的相同或类似的方式利用多个附加ml层来处理与对应对话的当前状态相关联的嵌入和亲和特征中的一个或多个亲和特征。[0117]在框560b处，系统在嵌入空间中将预测嵌入和与训练实例输出相关联的真实值嵌入进行比较以生成一个或多个损失。训练实例输出能够包括对rpc入站请求的对应真实值响应。系统能够以与上文参考图4的框462描述的相同或类似的方式将预测嵌入和真实值嵌入进行比较以生成一个或多个损失。系统进行到框562。[0118]在框562处，系统基于在框560a或560b处生成的一个或多个损失来更新多个ml层或多个附加ml层中的一个或多个ml层。系统能够以与上文参考图4的框464描述的相同或类似的方式更新多个ml层或多个附加ml层中的一个或多个ml层。[0119]在框564处，系统确定是否存在用于训练语音机器人的附加rpc训练实例。如果在框564的迭代处，系统确定存在用于语音机器人的附加rpc训练实例，则系统可以返回框554并基于附加rpc训练实例重复框554至562的过程。在一些实施方式中，当附加rpc训练实例可用时，系统可以继续更新多个ml层或多个附加ml层中的一个或多个ml层，直到满足一个或多个条件。一个或多个条件能够包括，例如，被更新的多个ml层或多个附加ml层中的一个或多个ml层的验证、被更新的多个ml层或多个附加ml层中的一个或多个ml层的收敛(例如，零损失或在零损失的阈值范围内)、多个ml层或多个附加ml层中的一个或多个ml层(例如，关于精度和/或查全率)表现得比当前正被利用的语音机器人的实例(如果有的话)更好的确定、基于至少阈值数量的训练实例的训练的发生、和/或基于训练实例的训练的持续时间。在一些附加或替代实施方式中，系统可以继续更新多个ml层或多个附加ml层中的一个或多个ml层，直到已经在为训练语音机器人而获得的多个rpc训练实例中的每个训练实例上训练了语音机器人。如果在框564的迭代处，系统确定没有用于语音机器人的附加训练实例或者直到满足一个或多个条件，则系统可以进行到框465568。[0120]在框566处，系统使得经训练的语音机器人被部署用于代表第三方进行对话。例如，能够部署经训练的语音机器人以代表第三方针对与第三方相关联的电话呼叫进行对话。在一些实施方式中，经训练的语音机器人能够代表第三方应答呼入电话呼叫，并参与与人(或与该人相关联的附加语音机器人)的对应对话。在附加或替代实施方式中，经训练的语音机器人能够代表第三方发起呼出电话呼叫的执行，并参与与人或实体(或与该人相关联的附加语音机器人或与该人相关联的交互式语音响应(ivr)系统)的对应对话。作为另一示例，经训练的语音机器人能够被部署为代表第三方在汽车餐厅处或在任何其他服务场景中进行对话。值得注意的是，经训练的语音机器人的多个实例可以由第三方同时部署。通过部署经训练的语音机器人的多个实例，能够同时处理多个呼入电话呼叫和多个呼出电话呼叫的任何组合。[0121]尽管本文参考仅多个rpc训练实例描述了图5，但是应当理解，这是为了说明的目的而不意味着限制。例如，多个rpc训练实例能够与用于训练第三方的语音机器人的多个附加非rpc训练实例混合，诸如参考图4描述的那些。此外，多个rpc训练实例中的一个或多个还可以与对应特征强调输入相关联(例如，如参考图1、图2a、图3b和图4所述)。[0122]图6是可以可选地用于执行本文描述的技术的一个或多个方面的示例性计算设备610的框图。在一些实施方式中，客户端设备、基于云的自动化助理组件和/或其他组件中的一个或多个可以包括示例性计算设备610的一个或多个组件。[0123]计算设备610通常包括经由总线子系统612与多个外围设备通信的至少一个处理器614。这些外围设备可以包括存储子系统624(包括例如存储器子系统625和文件存储子系统626)、用户接口输出设备620、用户接口输入设备622、以及网络接口子系统616。输入和输出设备允许用户与计算设备610进行交互。网络接口子系统616提供到外部网络的接口并耦合到其他计算设备中的对应接口设备。[0124]用户接口输入设备622可以包括、键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、并入到显示器中的触摸屏、诸如语音辨识系统、麦克风的音频输入设备、和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算设备610中或通信网络上的所有可能类型的设备和方式。[0125]用户接口输出设备620可以包括显示子系统、打印机、传真机或诸如音频输出设备的非可视显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备、或用于创建可见图像的一些其他机构。显示子系统还可以诸如经由音频输出设备来提供非视觉显示。通常，术语“输出设备”的使用旨在包括用于将信息从计算设备610输出到用户或另一机器或计算设备的所有可能类型的设备和方式。[0126]存储子系统624存储提供本文所述的一些或所有模块的功能的编程和数据结构。例如，存储子系统624可以包括执行本文公开的方法的所选方面以及实现图1中描绘的各种组件的逻辑。[0127]这些软件模块通常由处理器614单独或与其他处理器结合地执行。存储子系统624中使用的存储器625能够包括多个存储器，其包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)630和其中存储固定指令的只读存储器(rom)632。文件存储子系统626能够为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、cd-rom驱动器、光盘驱动器或可移除介质盒。实现某些实施方式的功能的模块可以由文件存储子系统626存储在存储子系统624中，或者存储在处理器614可访问的其他机器中。[0128]总线子系统612提供了一种机制，该机制让计算设备610的各个组件和子系统按预期彼此通信。尽管总线子系统612被示意性地示出为单条总线，但是总线子系统612的可替代实施方式可以使用多条总线。[0129]计算设备610能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，对图6中描绘的计算设备610的描述仅旨在作为出于图示一些实施方式的目的的特定示例。计算设备610的许多其他配置可能具有比图6描绘的计算设备更多或更少的组件。[0130]在本文描述的系统收集或以其他方式监视关于用户的个人信息或者可以利用个人和/或被监视的信息的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行为或活动、职业、用户的偏好或用户的当前地理位置的信息)或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。而且，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得个人可识别信息被移除。例如，可以处理用户的身份，使得不能确定用户的个人可识别信息，或者可以在获得地理位置信息的情况下将用户的地理位置一般化(诸如到城市、邮政编码或州级别)，使得不能确定用户的具体地理位置。因此，用户可以控制如何收集和/或使用关于用户的信息。[0131]在一些实施方式中，提供了一种由一个或多个处理器实现的方法，并且该方法包括经由语音机器人开发平台获得多个训练实例。所述多个训练实例中的每个训练实例包括训练实例输入和训练实例输出。所述训练实例输入包括对应对话的至少一部分和所述对应对话的先前场境，并且所述训练实例输出包括对所述对应对话的至少所述部分的对应真实值响应。所述方法进一步包括：经由所述语音机器人开发平台获得与所述多个训练实例中的一个或多个训练实例相关联的对应特征强调输入，以及经由所述语音机器人开发平台，基于所述多个训练实例和与所述多个训练实例中的一个或多个训练实例相关联的所述对应特征强调输入来训练语音机器人。与所述多个训练实例中的一个或多个训练实例相关联的所述对应特征强调输入使所述语音机器人关注所述对应对话的所述部分的特定特征。所述方法进一步包括：在训练所述语音机器人之后，使得经训练的语音机器人被部署用于代表第三方进行对话。[0132]本文公开的技术的这些和其他实施方式能够可选地包括下述特征中的一个或多个。[0133]在一些实施方式中，训练所述语音机器人可以包括：使用机器学习(ml)模型的多个ml层，并且针对所述多个训练实例中的给定训练实例，处理所述对应对话的至少所述部分和所述对应对话的所述先前场境以生成与所述对应对话的当前状态相关联的嵌入。[0134]在那些实施方式的一些版本中，所述对应对话的所述部分可以包括针对所述对应对话的至少所述部分的多个语音假设。处理所述对应对话的至少所述部分和所述对应对话的所述先前场境以生成与所述对应对话的所述当前状态相关联的所述嵌入可以包括：使用所述多个ml层中的第一ml层来处理所述多个语音假设以生成第一嵌入，使用所述多个ml层中的第二ml层来处理所述对应对话的所述先前场境以生成第二嵌入，以及级联所述第一嵌入和所述第二嵌入以生成与所述对应对话的所述当前状态相关联的所述嵌入。[0135]在那些实施方式的一些进一步版本中，所述方法可以进一步包括：经由所述语音机器人开发平台，基于与所述对应对话的所述当前状态相关联的所述嵌入来生成多个亲和特征。在那些实施方式的另外的进一步版本中，训练所述语音机器人可以进一步包括使用所述ml模型的多个附加ml层或附加ml模型来处理所述多个亲和特征和与所述对应对话的所述当前状态相关联的所述嵌入以生成与对所述对应对话的至少所述部分的预测响应相关联的预测嵌入。在那些实施方式的更进一步版本中，训练所述语音机器人可以进一步包括：在嵌入空间中将与对所述对应对话的至少所述部分的所述预测响应相关联的所述预测嵌入和与对所述对应对话的至少所述部分的所述对应真实值响应相关联的对应真实值嵌入进行比较，基于将所述预测嵌入和所述对应真实值嵌入进行比较来生成一个或多个损失，以及基于与所述给定训练实例相关联的所述损失和所述对应特征强调输入中的一个或多个来更新所述ml模型。在那些实施方式的另外的更进一步版本中，所述ml模型可以是包括一个或多个注意力机制的transformer模型，并且基于与所述给定训练实例相关联的所述损失和所述对应特征强调输入中的一个或多个来更新所述transformer模型可以包括：使得基于所述损失中的一个或多个损失来更新所述多个ml层或所述多个附加ml层中的一个或多个ml层的权重，以及基于与所述给定训练实例相关联的所述对应特征强调输入来使得所述transformer模型的所述注意力机制中的所述一个或多个注意力机制关注所述对应对话的至少所述部分的一个或多个特征。[0136]在那些实施方式的一些附加或替代的进一步版本中，所述对应对话的所述部分可以包括与捕获所述对应对话的至少所述部分的口头话语相对应的音频数据。可以基于使用自动语音辨识(asr)模型处理与所述口头话语相对应的所述音频数据以生成针对所述对应对话的至少所述部分的所述多个语音假设来生成所述多个语音假设。在那些实施方式的另外的进一步版本中，所述方法可以进一步包括：将与所述多个语音假设中的每个语音假设相关联的一个或多个对应文本段对齐，以及利用至少一个对应标签来注释所述一个或多个对应文本段中的每个以生成多个注释的语音假设。使用所述多个ml层中的所述第一ml层来处理所述多个语音假设以生成所述第一嵌入可以包括处理所述多个注释的语音假设以生成所述第一嵌入。[0137]在那些实施方式的一些附加或替代的进一步版本中，所述对应对话的所述先前场境可以包括所述对应对话的至少一个或多个先前部分。所述对应对话的所述一个或多个先前部分在所述对应对话中发生在所述对应对话的至少所述部分之前。[0138]在一些实施方式中，获得与所述多个训练实例中的一个或多个训练实例相关联的所述对应特征强调输入可以包括：从与所述第三方相关联的一个或多个人接收自然语言输入，以及处理所述自然语言输入以获得与所述多个训练实例中的一个或多个训练实例相关联的所述对应特征强调输入。所述自然语言输入是以下中的一个或多个：自由形式口头输入或自由形式键入输入。[0139]在一些实施方式中，可以从训练实例的语料库获得所述多个训练实例中的一个或多个训练实例。所述训练实例的语料库可以包括多个人之间的多个先前对话。在一些附加或替代的实施方式中，可以从一个或多个人之间的对应演示性对话获得所述多个训练实例中的一个或多个训练实例。所述人中的所述一个或多个人可以与所述第三方相关联。在一些附加或替代的实施方式中，可以从经由所述语音机器人开发接收到的口头话语获得所述多个训练实例中的一个或多个训练实例。可以从与所述第三方相关联的一个或多个人接收所述口头话语。[0140]在一些实施方式中，使得所述经训练的语音机器人被部署用于代表所述第三方进行所述对话可以包括：使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的电话呼叫的所述对话，并且使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的所述电话呼叫的所述对话可以包括使得所述语音机器人应答对应呼入电话呼叫并经由相应的客户端设备与发起所述对应呼入电话呼叫的对应人进行所述对话。在那些实施方式的一些版本中，所述方法可以进一步包括：在结束所述呼入电话呼叫之后，生成在所述对应呼入电话呼叫期间进行的所述对话的对应对话摘要，以及使得所述对话的所述对应对话摘要经由所述语音机器人开发平台被渲染。[0141]在一些实施方式中，使得所述经训练的语音机器人被部署用于代表所述第三方进行所述对话可以包括使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的电话呼叫的所述对话，并且使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的所述电话呼叫的所述对话可以包括使得所述语音机器人发起对应呼出电话呼叫并与经由相应的客户端设备与应答所述对应呼出电话呼叫的对应人进行所述对话。在那些实施方式的一些版本中，所述方法可以进一步包括：在结束所述呼出电话呼叫之后，生成在所述对应呼出电话呼叫期间进行的所述对话的对应对话摘要，以及使得所述对话的所述对应对话摘要经由所述语音机器人开发平台被渲染。[0142]在一些实施方式中，由与部署所述语音机器人的所述第三方不同的第一方提供所述语音机器人开发平台。[0143]在一些实施方式中，提供一种由一个或多个处理器实现的方法，并且该方法包括经由语音机器人开发平台获得多个远程过程调用(rpc)训练实例。所述多个rpc训练实例中的每个训练实例包括训练实例输入和训练实例输出。所述训练实例输入包括对应对话的至少一部分和所述对应对话的先前场境，并且所述训练实例输出包括对所述对应对话的至少所述部分的对应真实值响应。所述方法进一步包括：经由所述语音机器人开发平台至少基于所述多个rpc训练实例来训练语音机器人。基于所述多个rpc训练实例来训练所述语音机器人使得所述语音机器人与第三方系统交互。所述方法进一步包括：在训练所述语音机器人之后，使得经训练的语音机器人被部署用于代表第三方进行对话。[0144]本文公开的技术的这些和其他实施方式能够可选地包括下述特征中的一个或多个。[0145]在一些实施方式中，针对所述多个rpc训练实例中的给定rpc训练实例的所述对应真实值响应至少可以包括对应rpc出站请求。训练所述语音机器人可以包括：使用机器学习(ml)模型的多个ml层，并且针对所述给定训练实例，处理所述对应对话的至少所述部分和所述对应对话的所述先前场境以生成与所述对应对话的当前状态相关联的嵌入。[0146]在那些实施方式的一些版本中，所述对应对话的所述部分可以包括针对所述对应对话的至少所述部分的多个语音假设。处理所述对应对话的至少所述部分和所述对应对话的所述先前场境以生成与所述对应对话的所述当前状态相关联的所述嵌入可以包括：使用所述多个ml层中的第一ml层来处理所述多个语音假设以生成第一嵌入，使用所述多个ml层中的第二ml层来处理所述对应对话的所述先前场境以生成第二嵌入，以及级联所述第一嵌入和所述第二嵌入以生成与所述对应对话的所述当前状态相关联的所述嵌入。[0147]在那些实施方式的一些进一步版本中，所述方法可以进一步包括：经由所述语音机器人开发平台，基于与所述对应对话的所述当前状态相关联的所述嵌入来生成多个亲和特征。[0148]在那些实施方式的一些进一步版本中，训练所述语音机器人可以进一步包括使用所述ml模型或附加ml模型的多个附加ml层来处理所述多个亲和特征和与所述对应对话的所述当前状态相关联的所述嵌入以生成与对所述对应对话的至少所述部分的预测响应相关联的预测嵌入。[0149]在那些实施方式的更进一步版本中，训练所述语音机器人可以进一步包括：在嵌入空间中将与对所述对应对话的至少所述部分的所述预测响应相关联的所述预测嵌入和与所述对应rpc出站请求相关联的对应真实值嵌入进行比较，基于将所述预测嵌入和所述对应真实值嵌入进行比较来生成一个或多个损失，以及基于所述损失中的一个或多个损失来更新所述ml模型。[0150]在一些实施方式中，针对所述多个rpc训练实例中的给定rpc训练实例的对应对话的至少所述部分至少可以包括对应rpc入站请求。训练所述语音机器人可以包括：使用机器学习(ml)模型的多个ml层，并且针对所述给定训练实例，至少处理所述对应rpc入站请求和所述对应对话的所述先前场境以生成与所述对应对话的当前状态相关联的嵌入。[0151]在那些实施方式的一些版本中，处理所述对应对话的至少所述部分和所述对应对话的所述先前场境以生成与所述对应对话的所述当前状态相关联的所述嵌入可以包括：使用所述多个ml层中的第一ml层来处理至少所述rpc入站请求以生成第一嵌入，使用所述多个ml层中的第二ml层来处理所述对应对话的所述先前场境以生成第二嵌入，以及级联所述第一嵌入和所述第二嵌入以生成与对所述对应对话的至少所述部分的预测响应相关联的预测嵌入。[0152]在那些实施方式的一些进一步版本中，训练所述语音机器人可以进一步包括：在嵌入空间中将与对所述对应对话的至少所述部分的所述预测响应相关联的所述预测嵌入和与所述对应真实值响应相关联的对应真实值嵌入进行比较，基于将所述预测嵌入和所述对应真实值嵌入进行比较来生成一个或多个损失，以及基于所述损失中的一个或多个损失来更新所述ml模型。[0153]在一些实施方式中，部署所述语音机器人的所述第三方不同于与所述第三方系统相关联的附加第三方。[0154]在一些实施方式中，使得所述经训练的语音机器人被部署用于代表所述第三方进行所述对话可以包括：使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的电话呼叫的所述对话，并且使得所述经训练的语音机器人被部署用于进行与所述第三方相关联的所述电话呼叫的所述对话可以包括使得所述语音机器人应答对应呼入电话呼叫并经由相应的客户端设备与发起所述对应呼入电话呼叫的对应人进行所述对话。所述语音机器人在与所述对应人的所述对话期间可以经由对应rpc与所述第三方系统交互。在那些实施方式的一些版本中，所述方法可以进一步包括：在结束所述呼入电话呼叫之后，生成在所述对应呼入电话呼叫期间进行的所述对话的对应对话摘要，以及使得所述对话的所述对应对话摘要经由所述语音机器人开发平台被渲染。所述对应对话摘要中的一个或多个对话摘要可以包括所述对应rpc基于在所述对应呼入电话呼叫期间接收到的所述对应人的对应口头话语发生的指示。[0155]在一些实施方式中，提供一种语音机器人开发平台，并且所述语音机器人开发平台包括：至少一个处理器；至少一个存储器；至少一个数据库，所述至少一个数据库包括多个训练实例；以及至少一个用户接口，所述至少一个用户接口用于使得与第三方相关联的第三方开发人员能够与所述语音机器人开发平台交互以：获得多个训练实例；基于所述多个训练实例来训练语音机器人以生成所述语音机器人的多个对应行为；以及在训练所述语音机器人之后，使得所述第三方开发人员能够添加存储在所述至少一个数据库中的附加训练实例以为所述语音机器人的所述多个对应行为添加新行为；以及使得所述第三方开发人员能够修改存储在所述至少一个数据库中的现有训练实例以修改所述语音机器人的所述多个对应行为中的现有行为。所述多个训练实例中的每个训练实例包括训练实例输入和训练实例输出。所述训练实例输入包括对应对话的至少一部分和所述对应对话的先前场境，并且所述训练实例输出包括对所述对应对话的至少所述部分的对应真实值响应。[0156]另外，一些实施方式包括一个或多个计算设备的一个或多个处理器(例如，中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu))，其中，该一个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中，该指令被配置为使得执行任何上述方法。一些实施方式还包括一个或多个非暂时性计算机可读存储介质，其存储可由一个或多个处理器执行以执行任何上述方法的计算机指令。一些实施方式还包括一种计算机程序产品，该计算机程序产品包括可由一个或多个处理器执行以执行任何前述方法的指令。[0157]应当认识到，本文更详细描述的前述概念和附加概念的所有组合被认为是本文公开的主题的一部分。例如，出现在本公开的开头的要求保护的主题的所有组合被认为是本文公开的主题的一部分。当前第1页12当前第1页12

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：自助终端交易界面的处理方法及装置与流程

基于示例的语音机器人开发技术的制作方法

相关文献

最热文献