通过不同应用的不相似消息传递特征来促进通信的自动化助理的制作方法

2023-02-06 13:24:10 来源：中国专利 TAG：

通过不同应用的不相似消息传递特征来促进通信的自动化助理

背景技术：

1.人类可以使用本文称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”、“对话代理”等)的交互式软件应用进行人机对话。例如，人类(当他们与自动化助理交互时其可以被称为“用户”)可以使用口头自然语言输入(即话语)和/或通过提供文本(例如，键入的)自然语言输入提供命令和/或请求，这些口头自然语言输入在某些情况下可以被转换为文本然后进行处理。
2.在一些情况下，能够调用自动化助理以例如代表用户向另一用户发送短消息服务(sms)消息。然而，这样的特征能够限于由提供对自动化助理的访问的同一实体提供的原始设备制造商(oem)消息传递应用。这种限制能够使得用户直接地且广泛地与计算设备的触摸界面交互，以便通过其他通信平台发送消息。例如，许多用户倾向于通过评论、线程、电子邮件和/或其他计算机化通信平台进行通信，这些平台可能无法通过oem消息传递应用访问和/或无法经由自动化助理进行控制。结果，用户可能必须导航到并启动第三方应用以便回复第三方应用中的评论(例如，作为相对于自动化助理的第三方应用的锻炼应用)。这可能导致计算设备的电池寿命和/或处理资源的过度使用。此外，即使对于与自动化助理对接的非oem消息传递应用，为了通过非oem消息传递应用发送消息，对应的用户也必须回忆起由自动化助理识别的非oem消息传递应用的别名，并在向自动化助理提供话语时正确地叙述别名。这可能导致在发送消息时用户输入的持续时间延长和/或用户输入的数量更大。此外，别名可能是晦涩难懂的并且难以回忆起，从而导致无法回忆起别名和/或需要进一步的用户输入来识别别名。

技术实现要素：

3.本文阐述的实施方式涉及自动化助理，该自动化助理能够进一步在经由特定应用进行通信的人之间进行对话，而无需用户指定特定应用。当用户通过他们各自的应用参与各种对话时，在具有来自用户的事先许可的情况下，自动化助理能够使用可以收集到的信息来识别特定应用。通过这种方式，通过各种模态(诸如经由评论和其他应用内聊天界面)发生的对话能够受制于自动化助理控制。这样的控制能够允许用户在不依靠oem消息传递应用和/或不需要用户指定要经由其发送消息的特定应用的情况下向其他人发送消息。这能够允许保存计算资源，诸如电池寿命、存储器、cpu/gpu处理能力和网络带宽，否则这些计算资源可能会在用户访问支持显示的设备以便手动识别要经由其发送消息的应用、启动应用和/或将评论和/或其他消息手动键入到应用的显示界面中时被消耗。
4.此外，本文公开的实施方式能够从多个候选应用当中自动选择特定应用，经由该特定应用发送在用户的口头话语中传达的消息。尽管口头话语(或任何其他之前或之后的用户输入)未能显式地指定特定应用，但这些实施方式能够自动选择特定应用。作为一个示例，能够自动选择特定应用并且经由特定应用自动发送消息而不需要任何用户确认。作为另一示例，能够自动选择特定应用，向用户呈现(例如，利用口头“是”响应或其他简短的肯
定输入)确认特定应用的提示，以及响应于接收到响应于提示的肯定输入而经由特定应用发送消息。以这些和其他方式，至少由于用户输入不需要显式地指定特定应用，能够减少经由特定应用发送消息所需的用户输入的数量和/或持续时间。例如，通过不需要显式地指定特定应用，能够减少口头话语中的术语的数量。作为另一示例，通过不需要显式地指定特定应用，用户不需要在讲话期间暂停以重新收集由自动化助理识别的特定应用的特定别名。例如，应用能够是包括特定别名“victor’s superb zurich running app”的正在运行的应用，该特定别名是由自动化助理识别的应用的仅有别名。尽管是一个出色的别名，但用户可能难以回忆起，从而导致长时间停顿和/或甚至需要用户手动扫描在他们的计算设备上的应用列表才能回忆起该别名。
5.作为一些实例的工作示例，用户可以经由在锻炼应用中制作的“发布”参与对话。锻炼应用能够包括允许评论线程从由用户制作的关于用户已经完成的特定跑步或其他锻炼的每个发布延伸的特征。尽管锻炼应用可能不是用户最常用于对话的电子通信的模态，但用户仍然可以依靠锻炼应用来参与某些类型的对话。在某些情况下，用户可以依靠他们的自动化助理经由默认或oem消息传递应用发送电子通信。然而，在本文提供的实施方式中，用户还能够调用自动化助理以经由提供消息传递功能的其他应用与其他用户进行通信——而无需用户显式地将自动化助理指向特定应用。
6.例如，当用户与经由不同应用发生的多个通信相关联时，用户能够命令自动化助理提交消息以促进特定对话和/或以便回复另一用户(例如，他们的朋友luke)。例如，当用户看到有关另一用户在视频编辑应用上发布的视频的通知时，用户能够提供诸如“assistant,tell luke that
‘
i like the choreography in this video’(助理，告诉luke
‘
我喜欢这个视频中的编排’)”的口头话语。作为响应，自动化助理能够执行一个或多个操作，以便识别用户利用口头话语对准的特定对话和/或应用。
7.例如，响应于口头话语，自动化助理能够处理表征口头话语的音频数据，以便识别与口头话语最相关的对话和/或应用。在一些实施方式中，自动化助理能够为用户能够参与和/或正在参与的对话建立标识符。自动化助理能够通过通知、界面、应用和/或计算设备能够访问的其他数据来意识到对话。例如，并且根据前述示例，当另一用户“luke”在视频编辑应用上发布视频时，用户的计算设备能够渲染图形通知。图形通知能够包括用户能够观察到的图像、文本和/或视频。在一些实施方式中，并且在具有来自用户和/或另一用户的事先许可的情况下，自动化助理能够基于通知来生成交互标识符。
8.在一些实施方式中，能够为与各种应用相关联的通信生成多个不同标识符。例如，能够利用某些信息来注释消息，这些信息诸如是发送者、接收者、应用、消息、主题、url、时间戳和/或任何其他信息，而不管消息如何变得可用。当此类信息由于特定应用不遵循特定消息传递协议而不易获得时，能够处理场境数据以便生成用于注释消息数据的信息。例如，并且在具有来自用户的事先许可的情况下，能够使用一个或多个经训练的机器学习模型来处理屏幕内容和/或其他提取的内容，以理解屏幕内容。在一些实施方式中，能够使用一个或多个经训练的机器学习模型来处理消息的内容，以识别可能与消息相关联的主题和/或以生成那些消息的概述。然后能够在对通信进行分类时使用识别的主题和/或概述，以便自动化助理能够响应于对该特定对话和/或该特定应用的请求而识别特定对话和/或特定应用。
9.作为示例，响应于口头话语“assistant,tell luke that
‘
i like the choreography in this video’(助理，告诉luke
‘
我喜欢这个视频中的编排’)”，自动化助理能够确定现有对话和/或应用是否与名为“luke”的人相关联。当自动化助理识别到与人“luke”相关联的一个或多个对话和/或应用时，自动化助理能够进一步识别特定对话和/或应用。替代地或附加地，自动化助理能够处理对应于口头话语的音频数据，以便识别口头话语的主题和/或概述，并确定口头话语与一个或多个对话和/或应用的相关性。例如，用户与一个或多个应用之间的历史交互能够由自动化助理处理的应用数据来表征，以便确定在口头话语与先前交互之间是否存在关联。当来自口头话语的一个或多个术语与跟特定应用相关联的识别的主题同义时，自动化助理能够选择该特定应用作为用户预期受口头话语影响的目标应用。在一些实施方式中，能够基于在用户与应用之间的一个或多个交互来生成嵌入，并且能够基于口头话语来生成另一嵌入。替代地或附加地，能够基于特定对话来生成嵌入，并且能够基于口头话语来生成另一嵌入。当潜在空间中嵌入之间的距离被确定为满足阈值时，与非话语嵌入相关联的应用或对话(例如，基于交互和/或特定对话生成的嵌入)能够由自动化助理选择为受制于口头话语中体现的一个或多个请求。
10.为了履行自动化助理经由特定应用提交消息的请求，自动化助理能够采用脚本和/或应用编程接口(api)。例如，专门在用户的客户端设备处或者在具有来自用户的事先许可的情况下在一个或多个不同的计算设备上处，能够处理表征用户与各种不同应用的交互的应用数据，以便识别为了经由特定应用提交消息而执行的一个或多个操作。一个或多个操作能够体现在脚本中，其后能够在用户请求自动化助理经由特定应用提交另一消息的后续实例期间采用该脚本。
11.提供以上描述作为本公开的一些实施方式的概述。下文更详细地描述了这些实施方式和其他实施方式的进一步描述。
12.其他实施方式可以包括一种存储指令的非暂时性计算机可读存储介质，该指令能由一个或多个处理器(例如，中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu))执行以执行方法，诸如本文描述的方法中的一个或多个。另外的其他实施方式可以包括一个或多个计算机的系统，该一个或多个计算机包括一个或多个处理器，该处理器可操作以执行存储的指令以执行方法，诸如本文描述的方法中的一个或多个。
13.应当注意，本文使用的术语“对话”能够是指一个或多个数据实例(例如，图像、视频、文本和/或任何其他类型的数据)，一个或多个用户能够使用一个或多个应用以附加数据来响应该一个或多个数据实例。
14.应当理解，前述概念和本文更详细描述的附加概念的所有组合都被认为是本文公开的主题的一部分。例如，出现在本公开的开头的要求保护的主题的所有组合都被认为是本文公开的主题的一部分。
附图说明
15.图1a、图1b和图1c图示了用户在不显式地识别特定应用的情况下调用自动化助理来响应对话的视图。
16.图2a、图2b和图2c图示了用户经由消息传递应用初始化对话并且其后调用自动化助理以向对话提供另一消息而不指定特定应用和/或特定接收者的视图。
17.图3图示了使用不限于信号强度并且可以基于在用户与自动化助理之间的最近交互的网络度量来确定是否卸载计算任务的系统。
18.图4a和图4b图示了用于经由自动化助理响应经由第三方应用和/或其他第三方通信模态接收的通信而无需指定特定应用的方法。
19.图5是示例计算机系统的框图。
具体实施方式
20.图1a、图1b和图1c分别图示了用户102在不显式地识别特定应用的情况下调用自动化助理来响应对话的视图100、视图120和视图140。例如，能经由计算设备108访问的自动化助理能够提供输出104，诸如“jessica,posted a new completed exercise(jessica，发布了一个新的已完成锻炼)”。为了提供该输出104，计算设备108能够包括操作系统，锻炼应用能够通过该操作系统与自动化助理应用通信。替代地或附加地，计算设备108能够将输入处理卸载到单独的计算设备110。在一些实施方式中，锻炼应用能够提供应用数据112，该应用数据能够由计算设备110和/或计算设备108处理以便生成注释数据114。注释数据114能够用于将应用数据112与现有对话或新对话相关。例如，自动化助理能够访问对话识别数据116，该对话识别数据表征可以经由多个不同应用在多个不同用户之间发生的多个不同对话。替代地或附加地，能够从注释beta 114生成交互标识符数据116，以便为(例如，由jessica)刚刚已经发起的对话建立占位符。例如，交互标识符数据116断定诸如“identifier_j1”的id，并且能够与注释数据114(例如，@name：“jessica”；@subject：[锻炼，发布]；@application：“锻炼应用”；@summary：“新锻炼”)相关联地存储。
[0021]
在一些情况下，用户102能够依靠自动化助理来回复由另一用户生成的内容，而无需用户102显式地识别通过其响应该另一用户的应用或其他模态。例如，并且如在图1b的视图120中提供的，用户102能够提供口头话语122，诸如，“assistant,tell her,
‘
good job.i'll pick you up soon.’(助理，告诉她，
‘
干得好。我会很快接你。’)”。尽管用户102没有指定将接收消息的人的姓名或要利用其发送消息的应用，但自动化助理仍然能够确定用户102在指谁。此外，自动化助理能够确定用户102在与另一用户通信时可能预期让自动化助理使用的应用。
[0022]
例如，响应于接收到口头话语122，自动化助理能够处理对应于口头话语的输入数据142，以便识别用于传递来自用户102的响应的特定应用。在一些实施方式中，自动化助理能够确定输入数据142对应于对自动化助理将消息传递给另一用户的请求。基于该确定，自动化助理能够生成交互数据144，该交互数据能够用于选择特定对话和或特定应用来传递消息。在一些实施方式中，交互数据144能够包括能够表征口头话语122的语义理解的语义理解数据。然后能够将语义理解数据与应用数据进行比较以便确定口头话语122与特定应用的相关性。例如，应用数据能够指示锻炼应用最近已经提供了通知，并且用户102先前已经向锻炼应用提供了输入以指示祝贺(例如，“good job(干得好)”)和接人时间。此外，对另一用户(例如，“her(她)”)的引用能够提供与锻炼应用和来自该另一用户的发布的更强相关性。基于这种相关性，自动化助理能够选择锻炼应用中的最近发布作为来自用户102的口头话语122的预期目标。
[0023]
在一些实施方式中，当自动化助理已经识别了用于特定应用传递来自用户102的
消息的特定对话时，自动化助理能够生成操作数据146以提交该消息。在一些实施方式中，操作数据146能够表征要由自动化助理、操作系统和/或已经由自动化助理选择的特定应用执行的一个或多个操作。操作数据146能够是基于用户102与特定应用交互以便传递消息的先前实例。在一些实施方式中，当处理输入数据142以便生成操作数据146时，能够使用一个或多个经训练的机器学习模型。能够使用屏幕截图、api数据、应用内容、操作系统数据和/或能够用于表征一个或多个应用的活动的任何其他数据来训练一个或多个经训练的机器学习模型。以这种方式，自动化助理能够在具有来自用户的事先许可的情况下调整新应用的控制操作，而无需要求新应用的应用编程接口。当自动化助理已经使得操作数据146被执行并且消息被成功地提供给另一用户时，自动化助理能够提供输出148，诸如“ok,i responded to jessica in the exercise application(好的，我在锻炼应用中回复了jessica)”。
[0024]
图2a、图2b和图2c图示了用户202经由消息传递应用初始化对话并且其后调用自动化助理以向对话提供另一消息而不指定特定应用和/或特定接收者的视图200、视图220和视图240。例如，用户202能够与计算设备204交互以便创建能够被传递给人的组的草稿消息214。能够通过第三方应用和或与自动化助理应用分离的任何其他应用来创建草稿消息214。例如，能够在由第三方实体提供的电子邮件应用处创建草稿消息，该第三方实体不同于提供对自动化助理的访问的实体。
[0025]
基于用户202创建草稿消息214和/或发送草稿消息214，自动化助理在具有来自用户202的事先许可的情况下能够使得消息数据212被处理以便生成和/或识别与草稿消息214相关联的交互标识符。例如，消息内容，诸如接收者的姓名、主题、正文、时间、位置和或任何其他消息相关数据能够由消息数据212表征。消息数据212能够在获取设备204和/或单独的计算设备208处被处理以便生成注释数据216。在一些实施方式中，注释数据216能够包括嵌入数据和/或关联于嵌入数据。例如，使用一个或多个经训练的机器学习模型来处理消息数据212，以便生成能够映射到潜在空间的一个或多个嵌入。其后，能够处理其他消息数据以便确定空间中的嵌入之间的距离，其能够指示特定消息是否应该与现有对话和/或现有消息相关联地存储。
[0026]
在一些实施方式中，一个或多个嵌入能够对应于交互标识符，该交互标识符能够与一个或多个不同注释相关联。例如，注释数据216能够从消息数据212生成并且能够表征消息数据212的各种特征和或与消息数据212相关联的特征。例如，能够使用消息数据212的部分来执行自然语言理解以便识别能够与草稿消息214有关的主题。在一些实施方式中，处理与多个不同消息相关联的注释数据以便识别在草稿消息214处相对于其他消息对草稿消息214能够是独特的特征。当草稿消息214对应于对话的初始消息时，将生成并存储交互标识符数据218，使得草稿消息214将不被视为现有对话的扩展。因此，为了使自动化助理将后续输入与现有对话相关，自动化助理能够生成一个或多个注释、嵌入和/或能够与存储的且与交互标识符218相关联的数据进行比较的任何其他数据。
[0027]
例如，并且如图2b的视图220所示，用户202能够通过向自动化助理提供口头话语来参与对话，即使对话可能正在不是默认消息传递应用的应用处进行。当草稿消息240的其他接收者已经响应草稿消息214时，用户202能够在对话中的后续点处提供口头话语230。还能够处理每个响应以便生成附加注释数据，该附加注释数据能够与由草稿消息214初始化
的正在进行的对话的交互标识符相关联地存储。以这种方式，自动化助理能够更容易地对与现有对话相关联的输入进行分类，而不需要用户202与计算设备的触摸界面进行手动交互和/或不需要用户202显式地识别接收者和/或应用来传递消息。
[0028]
例如，用户202能够提供口头地址230，诸如“assistant,ask the group
‘
can we push the time for breakfast back an hour？’(助理，问一下组
‘
我们可以将早餐时间推迟一个小时吗？’)”。用户202能够将口头话语230提供给连接到与用于起草草稿消息214的计算设备204不同的网络的计算设备224。计算设备224和/或单独的设备226能够处理表征口头话语230的输入数据228，以便识别要基于口头话语230执行的一个或多个操作。例如，能够使用一个或多个经训练的机器学习模型来处理输入数据228，以便生成一个或多个嵌入。能够将使用输入数据228生成的嵌入映射到潜在空间以确定嵌入与一个或多个先前生成的嵌入之间的距离。当该距离满足阈值和/或被确定为比一个或多个其他嵌入距离短时，能够确定该嵌入与最接近的现有嵌入最相关。当最接近的嵌入对应于现有对话时，自动化助理能够识别与现有对话相关联的应用和/或注释。
[0029]
例如，基于口头话语230，自动化助理能够识别对应于与从输入数据228生成的嵌入最相关的存储的嵌入的交互数据230。在一些实施方式中，交互数据230能够包括注释数据和/或能够识别对话的参与者、用于对话的一个或多个应用、对话的内容和/或对话的任何其他特征的其他数据。使用所识别的数据，自动化助理能够生成操作数据232，该操作数据能够指导特定应用向一个或多个所识别的参与者提供消息。例如，自动化助理能够为特定应用生成命令，该命令使得特定应用为其他参与者渲染消息。渲染的消息能够包括内容“can we push breakfast back an hour？(我们可以将早餐推迟一个小时吗？)”，并且当自动化助理已经完成提交消息时，自动化助理能够为用户202渲染输出242。例如，并且如图2c的视图240中所提供的，自动化助理能够使得计算设备224渲染输出242，“ok,i’ve messaged the
‘
family’group(好的，我已经向
‘
家庭’组发送了消息)”。提供该输出能够允许用户202确认消息被提交给预期参与者。替代地或附加地，当处理输入数据228时，自动化助理能够识别参与者(例如，“家庭”组)并在自动化助理向参与者提供消息之前渲染提示用于用户202确认。替代地或附加地，能够在gui界面处渲染要经由特定应用提供的消息，使得用户202能够确认该消息具有预期的内容。例如，特定应用能够包括文本字段，自动化助理能够将消息的自然语言内容并入到该文本字段中。
[0030]
图3图示了使用不限于信号强度并且可以基于在用户与自动化助理304之间的最近交互的网络度量来确定是否卸载计算任务的系统300。自动化助理304能够作为在诸如计算设备302和/或服务器设备的一个或多个计算设备处提供的辅助应用的部分运行。用户能够经由助理接口320与自动化助理304交互，助理接口320能够是麦克风、相机、触摸屏显示器、用户接口和/或能够在用户与应用之间提供接口的任何其他装置。例如，用户能够通过向助理接口320提供口头、文本和/或图形输入来初始化自动化助理304，以使得自动化助理304初始化一个或多个动作(例如，提供数据、控制外围设备、访问代理、生成输入和/或输出等)。或者，能够基于使用一个或多个经训练的机器学习模型对场境数据336的处理来初始化自动化助理304。场境数据336能够表征其中自动化助理304能访问的环境的一个或多个特征和/或被预测为预期与自动化助理304交互的用户的一个或多个特征。
[0031]
计算设备302能够包括显示设备，该显示设备能够是显示面板，该显示面板包括用
于接收触摸输入和/或手势的触摸界面以允许用户经由该触摸界面控制计算设备302的应用334。在一些实施方式中，计算设备302能够缺乏显示设备，从而提供可听的用户接口输出，而不提供图形用户界面输出。此外，计算设备302能够提供用于接收来自用户的口头自然语言输入的用户接口，诸如麦克风。在一些实施方式中，计算设备302能够包括触摸界面并且能够没有相机，但是能够可选地包括一个或多个其他传感器。
[0032]
计算设备302和/或其他第三方客户端设备能够通过诸如互联网的网络与服务器设备通信。此外，计算设备302和任何其他计算设备能够通过诸如wi-fi网络的局域网(lan)相互通信。计算设备302能够将计算任务卸载到服务器设备，以便节省计算设备302处的计算资源。例如，服务器设备能够托管自动化助理304，和/或计算设备302能够向服务器设备传送在一个或多个辅助接口320处接收到的输入。然而，在一些实施方式中，自动化助理304能够被托管在计算设备302处，并且能够在计算设备302处执行能够与自动化助理操作相关联的各种过程。
[0033]
在各种实施方式中，能够在计算设备302上实现自动化助理304的所有方面或少于所有的方面。在那些实施方式中的一些实施方式中，自动化助理304的方面经由计算设备302实现并且能够与服务器设备对接，服务器设备能够实现自动化助理304的其他方面。服务器设备能够可选地经由多个线程服务于多个用户及其相关联的助理应用。在其中经由计算设备302实现自动化助理304的所有方面或少于所有的方面的实施方式中，自动化助理304能够是与计算设备302的操作系统分离的应用(例如，安装在操作系统的“顶部”)——或者能够替代地由计算设备302的操作系统直接实现(例如，被认为是操作系统的应用，但与操作系统集成在一起)。
[0034]
在一些实施方式中，自动化助理304能够包括输入处理引擎306，该输入处理引擎能够采用多个不同的模块来处理计算设备302和/或服务器设备的输入和/或输出。例如，输入处理引擎306能够包括语音处理引擎308，该语音处理引擎能够处理在辅助接口320处接收到的音频数据以识别音频数据中体现的文本。音频数据能够从例如计算设备302传送到服务器设备，以便保存计算设备302处的计算资源。附加地或替代地，能够在计算设备302处专门处理音频数据。
[0035]
用于将音频数据转换为文本的过程能够包括语音识别算法，该算法能够采用神经网络和/或统计模型用于识别对应于词或短语的音频数据组。从音频数据转换的文本能够由数据解析引擎310解析，并作为文本数据提供给自动化助理304，该文本数据能够用于生成和/或识别命令短语、意图、动作、槽值和/或由用户指定的任何其他内容。在一些实施方式中，能够将由数据解析引擎310提供的输出数据提供给参数引擎312以确定用户是否提供了与能够由自动化助理304执行的特定意图、动作和/或例程和/或能够经由自动化助理304访问的应用或代理相对应的输入。例如，助理数据338能够被存储在服务器设备和/或计算设备302处，并且能够包括定义能够由自动化助理304执行的一个或多个动作的数据，以及执行动作所需的参数。参数引擎312能够为意图、动作和/或槽值生成一个或多个参数，并将该一个或多个参数提供给输出生成引擎314。输出生成引擎314能够使用一个或多个参数与辅助接口320进行通信以向用户提供输出，和/或与一个或多个应用334进行通信以向一个或多个应用334提供输出。
[0036]
在一些实施方式中，自动化助理304能够是能够被安装在计算设备302的操作系统“顶部”和/或本身能够形成计算设备302的操作系统的一部分(或全部)的应用。自动化助理应用包括和/或能够访问设备上语音识别、设备上自然语言理解和设备上履行。例如，能够使用设备上语音识别模块来执行设备上语音识别，该设备上语音识别模块使用本地存储在计算设备302处的端到端语音识别机器学习模型来处理(由麦克风检测到的)音频数据。设备上语音识别为音频数据中存在的口头话语(如果有的话)生成识别的文本。此外，例如，能够使用设备上nlu模块来执行设备上自然语言理解(nlu)，该设备上nlu模块处理使用设备上语音识别生成的识别的文本，以及可选的场境数据，以生成nlu数据。
[0037]
nlu数据能够包括对应于口头话语的意图和可选的意图参数(例如，槽值)。能够使用设备上履行模块来执行设备上履行，该设备上履行模块利用nlu数据(来自设备上nlu)和可选的其他本地数据来确定要采取以解析口头话语的意图(以及可选的意图参数)的动作。这能够包括确定对口头话语的本地和/或远程响应(例如，回答)、要基于口头话语执行的与本地安装的应用的交互、要基于口头话语传送到物联网(iot)设备(直接或经由对应的远程系统)的命令和/或要基于口头话语执行的其他解析动作。然后，设备上履行能够发起对所确定的动作的本地和/或远程执行/实施，以解析口头话语。
[0038]
在各种实施方式中，能够至少选择性地利用远程语音处理、远程nlu和/或远程履行。例如，识别的文本能够至少被选择性地传送到远程自动化助理组件，以用于远程nlu和/或远程履行。例如，识别的文本能够可选地被传送以用于与设备上执行并行的远程执行，或者响应于设备上nlu和/或设备上履行的失败而可选地被传送。然而，设备上语音处理、设备上nlu、设备上履行和/或设备上执行能够至少由于它们在解析口头话语时提供的延迟减少(由于没有解析口头话语所需的客户端-服务器往返)而被优先化。此外，设备上功能能够是在没有网络连接或网络连接受限的情况下可用的仅有功能。
[0039]
在一些实施方式中，计算设备302能够包括一个或多个应用334，该一个或多个应用能够由与提供计算设备302和/或自动化助理304的实体不同的第三方实体提供。自动化助理304和/或计算设备302的应用状态引擎能够访问应用数据330以确定能够由一个或多个应用334执行的一个或多个动作，以及一个或多个应用334中的每个应用的状态和/或与计算设备302相关联的相应设备的状态。自动化助理304和/或计算设备302的设备状态引擎能够访问设备数据332以确定能够由计算设备302和/或与计算设备302相关联的一个或多个设备执行的一个或多个动作。此外，应用数据330和/或任何其他数据(例如，设备数据332)能够由自动化助理304访问以生成场境数据336，该场境数据能够表征其中特定应用334和/或设备正在执行的场境和/或其中特定用户正在访问计算设备302、访问应用334和/或任何其他设备或模块的场境。
[0040]
当一个或多个应用334正在计算设备302处执行时，设备数据332能够表征正在计算设备302处执行的每个应用334的当前操作状态。此外，应用数据330能够表征正在执行的应用334的一个或多个特征，诸如在一个或多个应用334的指导下渲染的一个或多个图形用户界面的内容。替代地或附加地，应用数据330能够表征动作模式，该动作模式能够由相应应用和/或由自动化助理304基于相应应用的当前操作状态来更新。替代地或附加地，一个或多个应用334的一个或多个动作模式能够保持静态，但能够由应用状态引擎访问，以便经由自动化助理304确定要初始化的合适动作。
[0041]
计算设备302能够进一步包括助理调用引擎322，该助理调用引擎能够使用一个或
多个经训练的机器学习模型来处理应用数据330、设备数据332、场境数据336和/或计算设备302能访问的任何其他数据。助理调用引擎322能够处理该数据以便确定是否等待用户显式地说出调用短语以调用自动化助理304，或者认为该数据指示用户调用自动化助理的意图——而不是要求用户显式地说出调用短语。例如，能够使用训练数据的实例来训练一个或多个经训练的机器学习模型，训练数据的实例是基于用户处于其中多个设备和/或应用正在展示各种操作状态的环境中的场景。能够生成训练数据的实例以便捕获训练数据，该训练数据表征其中用户调用自动化助理的场境和其中用户不调用自动化助理的其他场境。
[0042]
当根据训练数据的这些实例来训练一个或多个经训练的机器学习模型时，助理调用引擎322能够使得自动化助理304基于场境和/或环境的特征来检测或限制检测来自用户的口头调用短语。附加地或替代地，助理调用引擎322能够使得自动化助理304基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实施方式中，能够基于计算设备302检测到来自另一计算设备的助理抑制输出来禁用或限制助理调用引擎322。以这种方式，当计算设备302正在检测助理抑制输出时，将不会基于场境数据336来调用自动化助理304——否则其将在没有检测到助理抑制输出的情况下使得自动化助理304被调用。
[0043]
在一些实施方式中，自动化助理304能够包括内容注释引擎316，该内容注释引擎能够基于自动化助理304能访问的信息来生成注释数据。例如，应用数据330、设备数据332和/或场境数据336能够用于生成用于注释自动化助理304能访问的某些信息的注释数据。在一些实施方式中，由计算设备302的操作系统提供给用户的信息能够是用于注释经由特定应用334可用的数据的基础。例如，能够使用来自操作系统的地理定位数据来注释由应用334提供的通知，以便为通知建立附加场境。当内容注释引擎316生成这样的注释时，自动化助理304能够响应于用户提供与注释相关的输入而引用注释。以这种方式，用户能够依靠自动化助理304来解析在用户输入中可能明显的歧义，而不必依靠用户提供广泛的细节。例如，用户能够依靠自动化助理304来识别除了oem消息传递应用之外的用于基于可能与消息相关的注释将消息传递给另一人的特定应用。
[0044]
在一些实施方式中，自动化助理304能够包括嵌入处理引擎318，该嵌入处理引擎能够处理自动化助理304能访问的数据以便基于数据来生成一个或多个嵌入。能够使用一个或多个经训练的机器学习模型来生成嵌入，能够使用基于在一个或多个用户与一个或多个应用之间的交互的训练数据来训练该一个或多个经训练的机器学习模型。替代地或附加地，能够使用表征自然语言内容的训练数据来训练一个或多个经训练的机器学习模型。例如，能够在具有来自用户的事先许可的情况下捕获应用334gui的屏幕截图，并将其由嵌入处理引擎318处理，以便为屏幕截图和/或语义理解数据生成相应嵌入。在一些实施方式中，能够使用经训练的机器学习模型来处理屏幕截图以生成嵌入，同时能够使用不同的经训练的机器学习模型来处理文本数据以生成另一嵌入。但是，嵌入能够被映射到公共潜在空间，该公共潜在空间能够用于对具有新对话和/或现有对话的数据进行分类。
[0045]
当提供输入以贡献于现有对话(例如，文档编辑应用中的评论)时，自动化助理304能够识别对应于现有对话的应用334。在一些实施方式中，自动化助理304能够包括应用操作引擎324，该应用操作引擎能够用于处理特定应用的现有对话数据以便生成操作数据。然后能够将操作数据传递到特定应用和/或操作系统，以便使得特定应用向现有对话提交消
息。
[0046]
图4a和图4b图示了用于经由自动化助理响应经由第三方应用和/或其他第三方通信模态接收的通信而无需指定特定应用的方法400和方法420。能够由一个或多个计算设备、应用和/或能够与自动化助理相关联的任何其他装置或模块来执行方法400。方法400能够包括确定是否检测到经由应用执行的用户交互的操作402。通过处理基于在用户与一个或多个不同应用之间的一个或多个先前交互的应用数据来检测用户交互。在某些情况下，应用数据能够表征当用户的朋友在新闻应用上发布评论时生成的通知。作为响应，新闻应用能够生成通知，该通知可以包括自然语言内容，诸如“this is great news.i'm looking forward to hearing more about this(这是个大新闻。我期待听到更多关于此事的消息)”。当自动化助理确定新闻应用提供了该通知时，自动化助理能够确定用户能够经由新闻应用的界面对来自朋友的评论提供响应。例如，自动化助理能够确定用户能够通过处理包括通知的屏幕截图(例如，其中，屏幕截图包括标记为“回复”的可选择gui元素)、与新闻应用相关联的api数据、表征在用户与新闻应用之间的先前交互的交互数据和或能够指示评论能够被用户响应的任何其他数据来响应评论。
[0047]
当检测到用户交互时，方法400能够从操作402进行到操作404。或者，当自动化助理没有检测到与一个或多个不同应用的任何用户交互时，方法410能够进行到操作406。或者，能够同时和或与是否满足操作402或操作406的条件无关地执行操作402和操作406。操作404能够包括基于检测到的交互来生成交互数据。例如，交互数据能够在具有来自用户的事先许可的情况下退化以指示交互中的一个或多个参与者、其中执行交互的应用、与交互相关联的时间数据、语义理解信息、与交互相关联的媒体和或能够与交互关联的任何其他信息。在一些实施方式中，交互数据能够包括基于检测到的交互而生成的嵌入。例如，一个或多个经训练的机器学习模型能够用于处理与检测交互相关联的数据，以便生成对应于交互的嵌入。其后，能够将嵌入与潜在空间中的其他嵌入进行比较，以确定与其他嵌入的相似性或相关性。
[0048]
方法400能够从操作404或操作402进行到操作406，其能够包括确定是否已经检测到助理输入。对自动化助理的输入能够是例如口头话语、gui输入和/或能够提供给计算设备的任何其他类型的输入。例如，并且根据上述示例，自动化助理能够从用户检测口头话语，诸如“assistant,reply saying
‘
i think so too and we should get together soon to discuss.’(助理，回复说
‘
我也这么认为，我们应该尽快聚在一起讨论’)”。在自动化助理检测到该输入时，方法400能够从操作406进行到操作408。否则，当没有检测到助理输入时，方法400能够返回至操作402。
[0049]
操作408能够包括确定用户正在请求自动化助理将消息传递给一个或多个接收者。例如，自动化助理能够处理对应于口头话语的音频数据，以便确定用户参与特定对话的意图。在一些实施方式中，能够处理助理输入的自然语言内容以确定用户想要发送的消息是否与已经由自动化助理检测到的交互相关。替代地或附加地，能够处理助理输入的自然语言内容以识别特定接收者、应用和/或应该被识别用于将消息传递给接收者的任何其他属性。
[0050]
方法400能够经由继续元素“a”进行到图4b和方法420中提供的操作410。操作410能够包括确定助理输入的内容是否与现有交互数据相关联。在一些实施方式中，为了确定
助理输入是否与现有交互数据相关联，能够将对应于助理输入的嵌入与关联于一个或多个相应现有交互的一个或多个嵌入进行比较。例如，能够确定潜在空间中的嵌入之间的距离，以便将该距离与阈值进行比较和/或识别具有距与助理输入相关联的嵌入的最短距离的嵌入。在一些实施方式中，从助理输入生成的嵌入能够是基于使用训练数据训练的一个或多个经训练的机器学习模型，该训练数据在具有来自每个参与者的事先许可(或基于公开可用的对话(例如，来自在线留言板))的情况下能够表征对话的消息。例如，训练数据能够是基于每个相应对话中的两个或更多个连续消息。例如，训练数据能够包括训练实例，每个训练实例包括对应的一对先前消息数据(基于对应对话的一个或多个较早时间消息)和当前消息数据(基于对应对话的响应于较早时间消息的消息)。作为一个特定实例，训练数据能够用于训练机器学习模型的两个单独的塔，其中，一个塔用于处理一对中的先前消息数据以生成先前消息嵌入，并且另一塔用于处理该对中的当前消息数据以生成当前消息嵌入，并且基于先前消息嵌入与当前消息嵌入之间的距离的损失(例如，力图最小化两个嵌入之间的距离的损失)来更新塔。以这些和其他方式，将在潜在嵌入空间中以更近的距离渲染由处理来自单个对话的单个消息产生的嵌入。此外，涉及促进特定对话的助理输入也将在潜在空间中具有到用于特定对话的现有嵌入更近的距离。
[0051]
替代地或附加地，能够将助理输入的内容与一个或多个交互的内容进行比较，以识别具有与助理输入最相似的内容的交互。例如，能够采用“词袋”方法和/或其他自然语言处理方法来确定用户请求自动化助理发送的消息与自动化助理可用的内容(例如，通知内容、屏幕截图文本、由多个不同应用生成的数据等)之间的相似性程度。
[0052]
当助理输入的内容被确定为与现有交互数据相关联时，方法420能够从操作410进行到操作412。然而，当助理输入的内容被确定为不与现有交互数据相关联时，方法420能够从操作410进行到操作414。操作414能够包括向用户提示用于履行请求的附加输入。例如，自动化助理可以确定口头话语“assistant,reply saying
‘
i think so too and we should get together soon to discuss’(助理，回复说
‘
我也这么认为，我们应该尽快聚在一起讨论’)”与任何现有交互数据不足够相关(例如，与来自新闻应用的通知或其他通知、gui数据等不足够相关)。
[0053]
然而，为了识别用于履行请求的合适的应用，自动化助理能够使得为用户渲染提示以提供附加输入。例如，提示能够是声音输出，诸如“ok,who is the recipient of the reply？(好的，回复的收件人是谁？)”。作为响应，用户能够提供附加输入，以便为自动化助理提供进一步的场境，以识别用户预期用于请求的特定应用和/或接收者。例如，用户能够提供附加口头话语，诸如“the reply is for durac(回复是给durac的)”，并且基于该附加口头话语，自动化助理能够识别可能与姓名“durac”相关联的应用和/或交互。例如，姓名“durac”可能不会在通知的内容中被提及，并且因此可能没有影响基于通知内容来生成嵌入。然而，自动化助理可能仍然认为新闻应用是最相关的，因为姓名“durac”在与新闻应用相关联的应用数据中被识别到。
[0054]
操作412能够包括识别与输入的内容最相关的交互和/或对话标识符。自动化助理能够采用一种或多种不同的技术来确定助理输入和/或附加输入与自动化助理能访问的应用、交互数据和/或对话标识符的相关性程度。当自动化助理识别到与助理输入最相关的特定交互和/或对话标识符时，方法420能够进行到操作416：生成操作数据，以经由对应的应
用提交消息。例如，自动化助理与所识别的应用(例如，新闻应用)之间的api和/或其他接口能够用于生成操作数据，以经由所识别的应用提交消息。在一些实施方式中，操作数据能够表征自动化助理能够使得所识别的应用执行以便提交消息的一个或多个操作的脚本。在一些实施方式中，能够基于使用一个或多个经训练的机器学习模型对交互数据的处理来并入脚本中识别的操作。该处理能够帮助识别提供给特定应用的特定输入，以便有效地使得特定应用传递消息。
[0055]
当已经生成操作数据时，方法420能够进行到操作418，该操作能够包括使得对应的应用将消息提供给接收者。例如，当执行操作数据能够使得新闻应用接收来自用户的消息时，新闻应用能够使得在用户的朋友能够访问的新闻应用的单独实例处渲染单独的通知。其后，朋友还能够在单独的计算设备处使用他们的自动化助理的实例来回复来自用户的消息。以这种方式，能够通过自动化助理来促进各种不同应用之间的对话，而无需要求用户直接触摸键盘和/或触摸界面来初始化特定应用。
[0056]
图5是示例计算机系统510的框图500。计算机系统510通常包括至少一个处理器514，其经由总线子系统512与多个外围设备通信。这些外围设备可以包括：存储子系统524(包括例如存储器525和文件存储子系统526)、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出设备允许用户与计算机系统510交互。网络接口子系统516提供到外部网络的接口并耦合到其他计算机系统中的对应的接口设备。
[0057]
用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的定点设备、扫描仪、并入到显示器中的触摸屏、诸如语音识别系统、麦克风的音频输入设备和/或其他类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入到计算机系统510中或通信网络上的所有可能类型的设备和方式。
[0058]
用户接口输出设备520可以包括显示子系统、打印机、传真机或诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备或用于产生可见图像的某种其他机构。显示子系统还可以诸如经由音频输出设备提供非视觉显示。通常，术语“输出设备”的使用旨在包括将信息从计算机系统510输出到用户或另一机器或计算机系统的所有可能类型的设备和方式。
[0059]
存储子系统524存储提供本文描述的一些或所有模块的功能的编程和数据结构。例如，存储子系统524可以包括执行方法300的选定方面和/或实现系统300、计算设备108、计算设备110、计算设备208、计算设备204、计算设备224、计算设备226和/或本文讨论的任何其他应用、设备、装置和/或模块中的一个或多个的逻辑。
[0060]
这些软件模块通常由处理器514单独或与其他处理器组合执行。在存储子系统524中使用的存储器525能够包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)530和其中存储固定指令的只读存储器(rom)532。文件存储子系统526能够为程序和数据文件提供永久存储，并且可以包括硬盘驱动器、软盘驱动器连同相关联的可移除介质、cd-rom驱动器、光驱动器或可移除介质盒。实现某些实施方式的功能的模块可以由文件存储子系统526存储在存储子系统524中，或存储在处理器514能访问的其他机器中。
[0061]
总线子系统512提供一种机制，用于让计算机系统510的各种组件和子系统按预期相互通信。尽管总线子系统512被示意性地显示为单条总线，但总线子系统的替代实施方式
可以使用多条总线。
[0062]
计算机系统510能够是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图5中描绘的计算机系统510的描述仅旨在作为出于说明一些实施方式的目的的特定示例。计算机系统510的许多其他配置可能具有比图5中描绘的计算机系统更多或更少的组件。
[0063]
在本文描述的系统收集关于用户(或本文通常称为“参与者”)的个人信息或可以利用个人信息的情况下，可以向用户提供机会来控制程序或功能是否收集用户信息(例如，关于用户社交网络、社交行为或活动、职业、用户的偏好或用户的当前地理位置的信息)，或控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，在存储或使用某些数据之前，可以以一种或多种方式对其进行处理，使得移除个人可识别信息。例如，用户的身份可以被处理，使得无法确定用户的个人可识别信息，或者用户的地理位置可以在获得地理位置信息的情况下被概括(诸如至城市、邮政编码或州级)，使得无法确定用户的特定地理位置。因此，用户可以控制如何收集和/或使用关于用户的信息。
[0064]
虽然本文已经描述和说明了若干实施方式，但是可以利用用于执行功能和/或获得结果和/或本文描述的一个或多个优点的各种其他装置和/或结构，并且每个这种变化和/或修改被认为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置都意味着是示例性的，并且实际参数、尺寸、材料和/或配置将取决于教导被用于的一个或多个特定应用。本领域技术人员将认识到或能够仅使用常规实验来确定本文描述的特定实施方式的许多等效物。因此，应当理解，前述实施方式仅作为示例呈现，并且在所附权利要求及其等价物的范围内，可以以不同于具体描述和要求保护的方式实现实施方式。本公开的实施方式涉及本文所述的每个单独的特征、系统、物品、材料、套件和/或方法。此外，如果此类特征、系统、物品、材料、套件和/或方法不相互矛盾，则两个或更多此类特征、系统、物品、材料、套件和/或方法的任何组合被包括在本公开的范围内。
[0065]
在一些实施方式中，一种由一个或多个处理器实现的方法被阐述为包括操作，诸如在计算设备处接收来自用户的口头话语，其中，所述口头话语指向能经由所述计算设备访问的自动化助理。所述方法能够进一步包括以下操作：基于所述口头话语来确定所述用户正在请求所述自动化助理将消息传递给另一用户，其中，所述口头话语识别要并入到所述消息中的自然语言内容，并且所述口头话语没有用于传递所述消息的单独应用的显式标识符。所述方法能够进一步包括以下操作：基于所述口头话语将现有应用数据与所述口头话语的自然语言内容进行比较，其中，所述现有应用数据是基于在所述用户与两个或更多不同应用之间的先前交互。所述方法能够进一步包括以下操作：基于将所述现有应用数据与所述自然语言内容进行比较来确定经由特定应用将所述消息提交给所述另一用户。所述方法能够进一步包括以下操作：由所述自动化助理基于确定经由所述特定应用提交所述消息来使得向所述特定应用提供输入，其中，向所述特定应用提供所述输入以促进将所述消息传递给所述另一用户。
[0066]
在一些实施方式中，所述现有应用数据包括嵌入，并且所述方法能够进一步包括：在接收到所述口头话语之前：使用一个或多个经训练的机器学习模型基于由所述特定应用提供的应用数据的初始实例来生成所述嵌入。在一些实施方式中，识别对应于所述自然语言内容的所述现有应用数据包括：将所述嵌入与一个或多个现有应用嵌入进行比较。在一
些实施方式中，所述一个或多个现有应用嵌入中的至少一个现有应用嵌入对应于所述现有应用数据。在一些实施方式中，所述现有应用数据对应于包括在由所述特定应用生成的通知中的其他自然语言内容。
[0067]
在一些实施方式中，所述方法能够进一步包括以下操作：在接收到所述口头话语之前：处理来自不同于所述自动化助理的多个不同应用的各种应用内容，以及基于所述各种应用内容来生成对话嵌入，其中，所述对话嵌入中的每个对话嵌入与所述用户能够采用以与一个或多个单独用户通信的特定应用界面相关联。在一些实施方式中，识别对应于所述自然语言内容的所述现有应用数据包括：基于所述自然语言内容来生成嵌入，以及将所述嵌入与所述对话嵌入进行比较。在一些实施方式中，所述对话嵌入中的至少一个对话嵌入对应于所述现有应用数据。
[0068]
在一些实施方式中，使得所述自动化助理向所述特定应用提供输入包括：使得所述特定应用渲染包括文本字段的界面，以及使得所述口头话语的所述自然语言内容的至少一部分并入到所述界面的所述文本字段中。在一些实施方式中，所述方法能够进一步包括以下操作：在接收到所述口头话语之前：基于所述另一用户向所述特定应用的单独实例提供附加输入来确定所述特定应用已经生成通知，以及基于所述通知来生成将所述附加输入的内容与所述自动化助理能访问的交互标识符相关的注释数据，其中，进一步基于所述注释数据来执行确定对应于所述自然语言内容的所述现有应用数据。在一些实施方式中，确定对应于要并入到所述消息中的所述自然语言内容的所述现有应用数据包括：基于所述口头话语的所述自然语言内容来生成表征所述自然语言内容的主题的语义理解数据，以及将所述语义理解数据与各种注释数据进行比较以确定所述语义理解数据与所述各种注释数据之间的对应关系，其中，所述各种注释数据包括所述注释数据。
[0069]
在其他实施方式中，一种由一个或多个处理器实现的方法被阐述为包括操作，诸如由自动化助理确定正在计算设备的界面处渲染的应用内容，其中，所述计算设备提供对所述自动化助理的访问。所述方法能够进一步包括以下操作：基于所述应用内容来生成提供所述应用内容与现有交互标识符之间的对应关系的注释数据。所述方法能够进一步包括以下操作：由所述自动化助理接收用户输入，所述用户输入对应于对所述自动化助理经由特定应用向另一用户提交消息的请求，其中，所述用户输入识别要并入到所述消息中的自然语言内容，并且所述用户输入没有要由所述自动化助理识别的所述特定应用的显式标识符。所述方法能够进一步包括以下操作：基于所述用户输入和所述注释数据来确定多个不同交互标识符中的特定交互标识符是否对应于所述用户输入，其中，所述多个不同交互标识符包括基于与所述特定应用的交互的所述特定交互标识符和基于与附加应用的单独交互的附加交互标识符。在一些实施方式中，所述方法能够进一步包括以下操作：当所述特定交互标识符被确定为对应于所述用户输入时：基于所述用户输入来生成用于向所述特定应用提供消息输入的操作数据。
[0070]
在一些实施方式中，生成所述注释数据包括：使用一个或多个经训练的机器学习模型基于所述应用内容来生成内容嵌入。在一些实施方式中，确定多个不同交互标识符中的所述特定交互标识符是否对应于所述用户输入包括：将所述内容嵌入与基于与所述特定应用和所述附加应用相关联的其他内容生成的一个或多个现有内容嵌入进行比较。在一些实施方式中，确定所述多个不同交互标识符中的所述特定交互标识符是否对应于所述用户
输入包括：确定潜在空间中所述内容嵌入与所述一个或多个现有内容嵌入中的另一现有内容嵌入之间的距离是否满足阈值距离。
[0071]
在一些实施方式中，生成所述注释数据包括：使用一个或多个经训练的机器学习模型基于所述应用内容来生成语义理解数据，其中，确定多个不同交互标识符中的所述特定交互标识符是否对应于所述用户输入包括：使用所述一个或多个经训练的机器学习模型基于所述用户输入来生成其他语义理解数据，以及使用所述其他语义理解数据来识别多个不同交互标识符中的所述特定交互标识符。在一些实施方式中，生成所述注释数据包括：确定所述应用内容识别到与所述特定交互标识符相关联的另一用户的联系人标识符，其中，所述用户输入包括自然语言内容，所述自然语言内容识别所述消息指向的所述另一用户的所述联系人标识符。在一些实施方式中，确定多个不同交互标识符中的所述特定交互标识符是否对应于所述用户输入包括：确定所述另一用户是否已经与所述特定应用的实例进行了交互，其中，所述用户能够访问所述特定应用的单独实例。
[0072]
在另外的其他实施方式中，一种由一个或多个处理器实现的方法被阐述为包括操作，诸如在计算设备处确定应用的实例已经接收到来自用户的第一输入。所述方法能够进一步包括以下操作：基于来自所述用户的用户输入来使得应用在另一计算设备处的单独实例处渲染通知。所述方法能够进一步包括以下操作：从自动化助理接收基于在所述应用的所述单独实例处渲染的所述通知的第二输入，其中，由所述自动化助理响应于在另一用户与所述自动化助理之间的交互而提供所述第二输入，在其中所述另一用户未明确地识别所述应用。所述方法能够进一步包括以下操作：基于来自所述自动化助理的所述第二输入来使得在所述应用的所述实例处渲染另一通知，其中，所述另一通知是基于在所述交互期间由所述另一用户提供给所述自动化助理的自然语言内容。
[0073]
在一些实施方式中，使得在所述应用的所述单独实例处渲染所述通知包括：向所述自动化助理提供基于所述第一输入的数据，其中，所述数据识别提供所述第一输入的所述用户。所述方法能够进一步包括以下操作：基于来自所述用户的所述第一输入来使得在所述另一计算设备处的所述自动化助理基于所述通知来生成注释数据。在一些实施方式中，所述第二输入包括操作数据，所述操作数据基于在所述另一用户与所述自动化助理之间的所述交互来识别所述应用的所述实例要执行的多个不同操作。所述方法能够进一步包括以下操作：基于来自所述自动化助理的所述第二输入来使得单独的自动化助理提供表征来自所述自动化助理的所述第二输入的输出。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种改进的ConvLSTM的网络流量入侵检测方法

通过不同应用的不相似消息传递特征来促进通信的自动化助理的制作方法

相关文献

最热文献