阻止助理交互数据的非瞬时存储和/或擦除存储的助理交互数据的制作方法

2022-06-09 02:42:04 来源：中国专利 TAG：

阻止助理交互数据的非瞬时存储和/或擦除存储的助理交互数据

背景技术：

1.人类可以参与和在此被称为“自动化助理”的交互式软件应用程序的人机交互。例如，人(当与自动化助理交互时，可被称为“用户”)可向自动化助理提供输入，该输入可使自动化助理生成并提供响应输出，以控制一个或多个智能设备，和/或执行一个或多个其它功能。由用户提供的输入可以是例如触摸输入(例如，经由触摸屏)、手势(例如，经由相机检测到的)、和/或口头自然语言输入(即，经由麦克风检测到的话语)，其在一些情况下可以被转换成文本(或其它语义表示)，然后被进一步处理。
2.在许多情况下，自动化助理包括由助理客户端设备(包括助理客户端应用程序的客户端设备，也称为助理设备)本地执行并且由用户直接参与的自动化助理客户端，以及利用云的更鲁棒的资源来帮助自动化助理客户端响应用户输入的云对应方。例如，自动化助理客户端可以向云对应方提供用户的口头话语的音频记录(和/或其文本转换)，以及可选地指示与用户相关联的账户的数据。云对应方可以对口头话语(和/或其文本转换)执行各种处理，以将响应结果返回给自动化助理客户端，该自动化助理客户端然后可以向用户提供对应的输出。
3.在用户许可的情况下，来自用户和自动化助理之间的交互的助理交互数据可以非瞬时存储在云对应方和/或助理设备的计算机可读介质中。例如，可以响应于用户和自动化助理之间的对话回合来存储交互数据的实例，诸如包括用户口头输入“what’s the weather in louisville(路易斯维尔的天气如何)”和助理响应“85and sunny(85，晴天)”的对话回合。交互数据的实例可以包括例如捕捉用户口头输入的音频数据、其生成的文本转录(例如，使用话音到文本模型生成)、基于文本转录的自然语言理解(nlu)数据(例如，意图(例如，“today’sweather(今天的天气)”)和/或参数(例如，路易斯维尔市)，和/或表征助理响应的数据(例如，响应本身和/或响应的主题)。交互数据的实例可以被非瞬时存储，其中它被存储的持续时间超过了生成和提供响应输出、控制一个或多个智能设备和/或执行一个或多个其它功能所需的持续时间。
4.在用户许可的情况下，非瞬时存储的助理交互数据可用于各种目的，例如改善用户和助理之间的将来交互。例如，助理交互数据可用于推断用户感兴趣的主题(例如，基于包括在助理响应数据和/或nlu数据中的主题)，以及经由自动化助理主动提供给用户的与那些主题相关的更新。由于消除了用户提供请求更新的输入的需要，因此这种主动更新可以产生更高效(例如，更短的持续时间)的自动化助理交互。作为另一示例，助理交互数据可用于训练自动化助理使用的机器学习模型(诸如话音辨识模型和/或nlu模型)，以使其更准确和/或更鲁棒。因此，通过助理交互数据的非瞬时存储和使用，可以实现各种技术益处。然而，对于一些交互，出于各种考虑，助理交互数据的非瞬时存储可能是不期望的。

技术实现要素：

5.本文中所公开的实施方案针对的是用于针对用户与自动化助理之间的对话回合
选择性地允许和/或禁止助理交互数据的一个或多个实例的非瞬时存储的技术。
6.这些实施方案中的一些实施方案响应于在助理设备处接收到的特定用户输入而主动阻止对话回合中助理交互数据的存储。在这些实施方案的一些版本中，是主动阻止还是允许助理交互数据的存储可以取决于用户在对话回合开始时如何调用助理。换句话说，在这些版本中的一些版本中，当以一种或多种一个或多个第一方式调用助理时，可以阻止助理交互数据的存储，而当以一个或多个第二方式调用助理时，可以允许助理交互数据的存储。作为一个示例，这些版本中的一些版本可以主动阻止对特定助理调用短语(例如，“secret assistant(秘密助理)”)之后的对话回合的这种存储，同时允许对特定其它助理调用短语(例如，“ok assistant(ok助理)”)之后的对话回合的这种存储。作为另一个示例，这些版本中的一些版本可以额外地或替代地主动阻止在与软件或硬件调用按钮(例如，长按)的特定助理调用交互之后的对话回合的这种存储，同时允许在与软件或硬件调用按钮(例如，短按)的特定其它助理调用交互之后的对话回合的这种存储。作为另一个示例，这些版本中的一些版本可以额外地或替代地主动阻止对特定免调用和无触摸助理调用交互(例如，经由助理设备的相机检测到的基于手势的调用交互)之后的对话回合的这种存储，同时允许对特定其它免调用和无触摸助理调用交互之后的对话回合的这种存储。例如，可以基于本地处理来自相机的图像并确定用户正在做出特定手势，以及可选地，图像中存在其它条件(例如，做出手势的用户的凝视指向相机和/或做出手势的用户的身体和/或头部姿势面向相机)来调用助理。在这种情况下，如果手势被检测为用户以嘘手势将他们的手指放在他们的嘴前，则可以主动阻止这种存储，而如果手势被检测为用户挥手，则允许这种存储。注意，在一些上述版本中，除了在特定非默认(即，标准“开箱即用”)调用短语之后、在非默认调用交互之后和/或在特定短语之后之外，对于所有对话回合，这种存储总是可以被主动阻止。例如，默认可以是主动阻止这种存储，除非用户利用诸如“ok non-private assistant(ok非私人助理)”的非默认调用短语。
7.在这些实施方案的一些额外或替代版本中，可以针对在调用后提供的特定口头短语(例如，“don’t store this(不存储这个)”、“don’t store anything for the next 5minutes(接下来5分钟内不存储任何东西)”)之后的对话回合主动阻止这种存储，而针对不在调用后提供的特定口头短语之后的对话回合允许这种存储。
8.不管用于激活对这种存储的主动阻止的技术如何，对这种存储的阻止可以持续到一个或多个终止条件得到满足为止，诸如经过了阈值时间量(例如，固定时间或用户输入中指定的时间)、对话会话的结束和/或对话回合的结束。此外，在各种实施方案中，在阻止这种存储期间提供可听和/或视觉提示，以允许引导用户/助理对话，使得用户可以意识到持续阻止这种存储，同时阻止干扰用户/助理对话。例如，在这种存储的主动阻止的整个持续期间，可以经由助理设备的显示器和/或经由助理设备的发光二极管来提供视觉提示，并且可以在这种阻止被终止时停止(例如，响应于终止条件的发生)。以这些和其它方式，可听和/或视觉提示可以引导用户/助理交互，以确保用户知道何时存储被阻止以及何时存储被允许。这可以在存储被阻止时通知用户，从而减少在存储已经被阻止的情况下用户提供用于阻止存储的输入的发生。因此，可以阻止不必要地延长对话的发生，同时阻止在处理这种输入时不必要地利用资源。
9.在各种实施方案中，可响应于仅在和用户相关联的助理设备的协调生态系统的多
个助理设备的子集(例如，仅一个)处检测到的对应用户输入来阻止存储用于与所述多个助理设备中的任一个助理设备进行交互的助理交互数据。以这些和其它方式，用于阻止存储对话回合并在第一助理设备处检测到的用户输入仍然可以阻止在第二助理设备处存储。这可以确保如果第二助理设备处理了在对话回合期间接收到的话语(例如，由于设备仲裁中的错误和/或由于用户将位置移动到更靠近第二助理设备)，则在第二助理设备处阻止存储。在那些各种实施方案中的一些实施方案中，所述多个助理设备中的每个助理设备可在阻止此类存储期间呈现对应的可听和/或视觉提示。以这些和其它方式，可听和/或视觉提示可以引导用户/助理交互，以确保用户在逐个设备的基础上知道何时存储被阻止以及何时存储被允许。这可以减少在存储已经被阻止的情况下用户提供用于阻止存储的输入的发生。
10.本文中所公开的一些实施方案额外地或替代地响应于在助理设备处接收到的特定用户输入而追溯性地擦除所存储的助理交互数据实例。作为一个示例，这些实施方案中的一些可以响应于针对自动化助理的“delete everything from the past week(删除上周的所有内容)”的口头输入，追溯性地清除在上周内打上时间戳的任何助理交互数据。例如，可以擦除在当前时间的一周内打上时间戳并且与提供口头输入的用户的账户相关联的助理交互数据的那些实例。可以使用说话人识别技术、面部匹配技术和/或其它识别技术来确定提供口头输入的用户的账户。同样，当对应的助理交互发生时，助理交互数据的实例可以基于使用类似的技术来识别账户而与账户相关联地存储。
11.在一些实施方案中，当口头输入使得从先前的助理交互中追溯性地擦除助理交互数据时，可以维持基于先前的助理交互而被排队等待将来执行但尚未被执行的任何将来动作。换句话说，这些将来动作仍将在将来执行。例如，其中口头输入“turn on the living loom lights at 10:00(在10:00打开起居室灯)”的先前的助理交互可以将使得起居室灯在10:00转换到打开状态的将来动作排队。即使相关联的助理交互数据被擦除，将来动作也可以持续，因此，起居室灯仍然会在10:00转换到打开状态。
12.在一些实施方案中，口头输入指示擦除助理交互数据的期望，但未能指定擦除此类数据的时间段。例如，口头输入可以是“delete what i just said(删除我刚才说的内容)”，而不是“everything from the past x temporal period(删除过去x时间段的所有内容)”(例如，小时、分钟、天)。在这些实施方案中的一些实施方案中，可基于从最近的对话会话中识别的助理交互数据的那些实例来确定要擦除的助理交互数据，并擦除所识别的实例。可以基于一个或多个考虑，诸如实例的属性之间的比较，来确定助理交互数据的实例属于同一对话会话。例如，假设人/助理对话的第一回合的第一实例和人/助理对话的第二回合的第二实例。该两个实例是否被确定属于同一对话会话可以基于该两个实例的时间戳的比较和/或该两个实例的主题的比较。例如，第一实例的时间戳可以指示第一回合的人类输入和/或助理响应(和/或动作)的时间，并且第二实例的时间戳可以同样地指示第二回合的人类输入和/或助理响应(和/或动作)的时间。该两个时间戳在时间上更接近可以更好地指示该两个实例属于同一会话。例如，如果时间接近度满足阈值，则可以认为它们属于同一个会话。可以额外地或替代地考虑该两个实例的主题是否相同和/或相似。
13.在一些实施方案中，对话会话可以包括用户和自动化助理之间的一个或多个消息的逻辑独立的交换。多个对话会话之间的区别可以基于各种信号，例如会话之间的时间流
逝、在会话之间用户上下文的改变(例如，位置、在预定会议之前/期间/之后等、检测用户和助理设备之间的一个或多个介入交互，而不是用户和自动化助理之间的对话(例如，用户切换应用程序一段时间，用户离开然后稍后返回到独立的语音激活产品)，在会话之间助理设备锁定/休眠，改变用于与自动化助理的一个或多个实例接口连接的助理设备，等等。
14.前述内容仅作为本文公开的一些实施方式的概述。这些和/或其它实施方案将在下文中更详细地描述。
附图说明
15.图1示出了可以实施本文公开的实施方案的示例环境。
16.图2a、图2b、图2c和图2d各自示出了根据本文中所公开的各种实施方案的用户与助理设备之间的示例交互。
17.图3是示出响应于在助理设备处接收到的特定用户输入，针对对话回合主动阻止存储助理交互数据的示例方法的流程图。
18.图4是示出响应于在助理设备处接收的特定用户输入而追溯性地擦除助理交互数据的存储实例的示例方法的流程图。
19.图5示出了计算设备的示例架构。
具体实施方式
20.首先转向图1，助理设备110可以包括一个或多个麦克风、一个或多个扬声器，并且可选地包括一个或多个相机和/或其它视觉组件和/或显示器(例如，触敏显示器)。助理设备110至少选择性地执行自动化助理客户端120。自动化助理客户端120可以包括例如设备上自动话音辨识(asr)引擎122、设备上自然语言理解(nlu)引擎124、设备上文本到话音(tts)引擎126、设备上实现引擎128、设备上调用引擎130、设备上认证引擎1332和/或设备上交互数据引擎134。自动化助理客户端120可包括额外和/或替代引擎，例如语音活动检测器(vad)、端点检测器和/或其它引擎。
21.一个或多个基于云的自动化助理组件140可以可选地在一个或多个计算系统(统称为“云”计算系统)上实施，这些计算系统经由一个或多个局域网和/或广域网(例如，因特网)108通信地耦合到助理设备。基于云的自动化助理组件140可以例如通过高性能服务器集群来实施。在下面更详细地描述基于云的自动化助理组件140。
22.在各种实施方案中，自动化助理客户端120的实例，可选地通过其与基于云的自动化助理组件140的交互，可以形成从用户的角度看似乎是自动化助理100的逻辑实例，用户可以与自动化助理100进行人机交互(例如，口头交互、基于手势的交互和/或基于触摸的交互)。
23.助理设备110可以是例如：台式计算设备、膝上型计算设备、平板计算设备、移动电话计算设备、用户的车辆的计算设备(例如，车载通信系统、车载娱乐系统、车载导航系统)、独立的交互式扬声器(可选地具有显示器和/或相机)、诸如智能电视(或者配备有具有自动化助理能力的联网电子狗的标准电视)的智能电器，和/或包括计算设备的用户的可穿戴装置(例如，具有计算设备的用户的手表、具有计算设备的用户的眼镜、虚拟或增强现实计算设备)。可以提供额外的和/或替代的助理设备。
24.助理设备110的可选视觉组件可以采取各种形式，例如专题相机、立体相机、lidar组件(或其它基于激光的组件)、雷达组件等。一个或多个视觉组件可用于捕捉部署了助理设备的环境的视觉帧(例如，图像帧、基于激光的视觉帧)。视觉帧可由例如设备上调用引擎130、设备上认证引擎132和/或自动化助理100的其它引擎(例如，基于云的调用引擎150和/或基于云的认证引擎152)使用。
25.在一些实施方案中，设备上调用引擎130可以利用这样的视觉帧来确定用户(任何用户或一个或多个注册用户中的任何一个)是否出现在助理设备附近，来确定用户是否正在提供无触摸调用手势，和/或来确定用户(例如，用户的面部)相对于助理设备的距离。例如，设备上调用引擎130可以利用这种确定来确定是否激活设备上asr引擎122和/或其它助理组件。例如，设备上调用引擎130可以使用一个或多个调用模型162a-162n(例如，神经网络模型)来处理视觉帧，以确定在视觉帧中捕捉的用户是否正在提供无触摸调用手势。例如，调用引擎130可以在确定用户是否正在提供无触摸调用手势以及正在提供哪个无触摸调用手势时处理视觉帧。如本文所述，可执行一个或多个无触摸调用手势以主动阻止存储助理交互数据，并且可执行一个或多个其它无触摸调用手势以允许存储助理交互数据。设备上调用引擎130可以向设备上交互数据引擎134提供正在提供哪个无触摸调用手势的指示，并且设备上交互数据引擎134可以利用该指示来确定是主动阻止存储无触摸调用之后的对话回合的助理交互数据，还是允许存储这种助理交互数据。举例来说，设备上交互数据引擎134可利用所述指示来确定是否将此类助理交互数据本地存储在设备上交互数据数据库166中，该设备上交互数据数据库166位于助理设备110本地的一个或多个计算机可读介质上。作为另一示例，设备上交互数据引擎134可以将该指示(或相关数据)传输到基于云的自动化助理组件140，以允许或阻止基于云的交互数据引擎154对这种助理交互数据的基于云的存储。
26.在一些实施方案中，设备上认证引擎132可以额外地或替代地利用这样的视觉帧来确定与在视觉帧中并且正在与助理设备110交互的(例如，基于指示用户的凝视、身体姿势和/或头部姿势是针对助理设备110的视觉帧来确定)用户相关联的账户。例如，设备上认证引擎132可以使用本地存储在助理设备110处的一个或多个设备上认证模型164a-164n(例如，神经网络模型)来处理视觉帧，以确定在视觉帧中捕捉的用户的特征是否与向助理设备110注册的账户的存储特征充分匹配。例如，可以使用一个或多个设备上认证模型164a-164n来处理视觉帧(例如，至少捕捉用户面部的部分)，以生成用户面部的面部嵌入，并且将该面部嵌入与先前在用户账户的注册过程期间生成的存储的面部嵌入进行比较。如果该比较指示充分匹配(例如，小于嵌入空间中的阈值距离)，则认证引擎132可以确定即将到来的或正在进行的交互来自与账户相关联的用户。
27.如本文所述，用户可以提供口头话语，该口头话语表达为擦除用户的先前助理交互的助理交互数据的意图。在这些实施方案中的一些中，设备上认证引擎132可以向设备上交互数据引擎134提供用户账户的指示，并且设备上交互数据引擎134可以利用该指示来确保与账户相关联地存储的交互数据被擦除。举例来说，设备上交互数据引擎134可利用所述指示来识别与账户相关联地本地存储在设备上交互数据数据库166中的助理交互数据。作为另一示例，设备上交互数据引擎134可以将该指示(或相关数据)传输给基于云的自动化助理组件140，以使基于云的交互数据引擎154能够识别和擦除与账户相关联地存储在远程
交互数据库176中的助理交互数据。
28.除了基于视觉帧来调用自动化助理100之外，或者代替基于视觉帧来调用自动化助理100，设备上调用引擎130可以基于检测到助理调用短语的出现和/或一个或多个硬件和/或软件按钮致动的出现来调用自动化助理100。例如，设备上调用引擎130可以响应于检测到诸如“hey assistant(嘿助理)”、“ok assistant”、“assistant”、“secret assistant”和/或“private assistant”之类的口头助理调用短语来调用自动化助理100。设备上调用引擎130可以使用一个或多个设备上调用模型162a-162n来连续处理(例如，如果不处于“非活动”模式)基于来自助理设备110的一个或多个麦克风的输出的音频数据帧流，以监测助理调用短语的出现。举例来说，一个或多个第一设备上调用模型162a-162n可用于处理音频数据帧，以监测一个或多个第一调用短语(例如，那些使得主动阻止存储助理交互数据的短语)。一个或多个第二设备上调用模型162a-162n可以并行地用于处理音频数据帧，以监测一个或多个第二调用短语(例如，那些使得存储助理交互数据的短语)。在监测口头助理调用短语的出现时，设备上调用引擎130丢弃(例如，在临时存储在缓冲器中之后)任何不包括口头调用短语的音频数据帧。然而，当设备上调用引擎130在经处理的音频数据帧中检测到口头调用短语的出现时，设备上调用引擎130可以调用自动化助理100。如此处所使用的，“调用”自动化助理可包括使自动化助理的一个或多个先前不活动的功能被激活。例如，调用自动化助理可以包括使得一个或多个本地引擎和/或基于云的自动化助理组件基于检测到调用短语的音频数据帧来进一步处理该音频数据帧，和/或一个或多个后续音频数据帧(而在调用之前没有发生对音频数据帧的进一步处理)。例如，本地和/或基于云的组件可以响应于自动化助理的调用，使用asr模型来处理所捕捉的音频数据。
29.如本文所述，检测到特定调用短语可使得主动阻止助理交互数据的存储，并且检测到特定其它调用短语可使得允许助理交互数据的存储。设备上调用引擎130可以向设备上交互数据引擎134提供指示，该指示提供调用了哪个短语，并且设备上交互数据引擎134可以利用该指示来确定是主动阻止存储无触摸调用之后的对话回合的助理交互数据，还是替代地允许存储这种助理交互数据。举例来说，设备上交互数据引擎134可利用所述指示来确定是否将此类助理交互数据本地存储在设备上交互数据数据库166中，该设备上交互数据数据库166位于助理设备110本地的一个或多个计算机可读介质上。作为另一示例，设备上交互数据引擎134可以将该指示(或相关数据)传输给基于云的自动化助理组件140，以允许或阻止基于云的交互数据引擎154对这种助理交互数据的基于云的存储。在主动阻止存储助理交互数据是基于调用助理的方式的实施方案中，交互数据引擎134可以利用该方式的指示来阻止在甚至提供口头输入和/或生成助理交互数据的其它数据之前存储任何助理交互数据。以这些和其它方式，交互数据引擎134可以确保助理交互数据仅被暂时存储(如果有的话)解析对应用户请求所必需的时间量。这可使得在暂时存储助理交互数据时使用存储器和/或其它资源的时间量最小化(或甚至消除)。
30.除了基于视觉帧来确定交互用户的账户之外，或者代替基于视觉帧来确定交互用户的账户，设备上认证引擎132可以处理音频帧来确定账户。例如，设备上认证引擎132可以使用本地存储在助理设备110处的设备上认证模型164a-164n(例如，神经网络模型)中的一个或多个设备上认证模型来处理音频帧，以确定在音频帧中捕捉的语音输入的特征是否与向助理设备110注册的账户的存储特征充分匹配。例如，可以使用一个或多个设备上认证模
型164a-164n来处理音频帧，以生成说话人嵌入，并且将该说话人嵌入与先前在用户账户的注册过程期间生成的存储的说话人嵌入进行比较。如果该比较指示充分匹配(例如，小于嵌入空间中的阈值距离)，则认证引擎132可以确定即将到来或正在进行的交互来自与账户相关联的用户。音频帧可以包括捕捉调用短语的音频帧(例如，依赖于文本的说话人识别)和/或在调用之后的音频帧(例如，独立于文本的说话人识别)。
31.如本文所述，用户可以提供口头话语，该口头话语表达为擦除用户的先前助理交互的助理交互数据的意图。在这些实施方案中的一些中，设备上认证引擎132可以向设备上交互数据引擎134提供用户账户的指示，并且设备上交互数据引擎134可以利用该指示来确保与账户相关联地存储的交互数据被擦除。
32.设备上asr引擎122可以利用设备上话音辨识模型来处理捕捉口头话语的音频数据，以生成对应于口头话语的辨识文本。助理设备的可选的设备上nlu引擎124对辨识文本执行设备上自然语言理解，以生成nlu数据。设备上nlu引擎124可以可选地利用一个或多个设备上nlu模型来生成nlu数据。nlu数据可以包括，例如，对应于口头话语的意图和可选的用于意图的参数(例如，槽值)。例如，nlu数据可以指示话语是否表达了追溯性地擦除助理交互数据和/或主动阻止存储助理交互数据的意图。当nlu数据指示这样的意图时，nlu引擎124可以向交互数据引擎134提供该意图的指示，以便适当地处理。nlu数据还可包括用于这种意图的参数，诸如主动阻止存储的持续时间和/或助理交互数据将被擦除的时间段。这样的参数也可以被提供给交互数据引擎134进行处理。如本文所述，当缺少这样的参数时，交互数据引擎134可以利用各种技术来自动确定持续时间或时间段，并且可以可选地引起要提供的该自动确定的可听和/或视觉指示。
33.此外，助理设备的可选的设备上实现引擎128使用nlu数据生成实现数据。设备上实现引擎128可以可选地利用一个或多个设备上实现模型来生成实现数据。该实现数据可以定义对口头话语的本地和/或远程响应(例如，回答)、基于口头话语与本地安装的应用程序执行的交互、基于口头话语向物联网(iot)设备(直接或经由对应的远程系统)传输的命令、和/或基于口头话语执行的其它解析动作。然后提供实现数据，用于所确定的动作的本地和/或远程执行/实施，以解析口头话语。实施可以包括例如呈现本地和/或远程响应(例如，视觉和/或可听呈现(可选地利用设备上tts引擎126))、与本地安装的应用程序交互、向iot设备传输命令和/或其它动作。可选的设备上tts引擎126可以使用一个或多个设备上tts模型来生成合成话音。实现引擎128可以利用设备上tts引擎126来为特定可听本地响应生成合成话音。tts引擎126也可用于生成此处所描述的可听提示。
34.助理设备110的可选显示器可用于呈现本文所述的各种视觉提示和/或可以是用户界面输出组件之一，通过该组件来呈现来自自动化助理客户端120的响应的视觉部分。视觉提示可以额外地或替代地经由发光二极管和/或其它视觉输出设备来呈现。此外，可以经由助理设备110的扬声器来呈现可听提示。
35.在一些实施方案中，基于云的自动化助理组件140可以包括执行话音辨识的远程asr引擎142、执行自然语言理解的远程nlu引擎144、生成合成话音的远程tts引擎146、生成实现数据的远程实现引擎148、确定是否和/或如何调用助理100(或验证设备上调用引擎130的确定)的远程调用引擎150、确定交互用户的账户(如果有的话)(或验证设备上认证引擎132的确定)的认证引擎152和交互数据引擎154。交互数据引擎154可以选择性地将交互
数据存储在远程交互数据数据库176中。此外，交互数据引擎154可以基于从交互数据引擎134接收到的指示和/或利用本文描述的其它技术的自我确定，来从远程交互数据数据库176为账户追溯地擦除助理交互数据。此外，交互数据引擎154可以基于从交互数据引擎134接收到的指示和/或利用本文描述的其它技术的自我确定，来额外地或替代地主动阻止(或允许)在远程交互数据库176处针对对话回合存储助理交互数据。还可以可选地包括远程执行模块，该远程执行模块基于本地或远程确定的实现数据来执行远程执行。
36.可以包括额外的和/或替代的远程引擎。在各种实施方案中，当在助理设备上提供时，设备上的话音处理、设备上nlu、设备上的实现和/或设备上的执行可以被优先化，这至少是由于它们在解析口头话语时提供的时延和/或网络使用减少(由于不需要客户端-服务器往返来解析口头话语)。然而，可以至少选择性地利用一个或多个基于云的自动化助理组件。例如，这样的组件可以与设备上的组件并行使用，并且当本地组件出现故障时使用来自这样的组件的输出。例如，在特定情况下(例如，由于客户端160的资源相对有限)，设备上实现引擎可能出现故障，并且在这种情况下，远程实现引擎可以利用云的更鲁棒的资源来生成实现数据。远程实现引擎可以与设备上实现引擎并行操作，并且当设备上实现失败时利用其结果，或者可以响应于确定设备上实现失败而被调用。
37.在各种实施方案中，nlu引擎(设备上和/或远程)可以生成包括辨识文本的一个或多个注释以及自然语言输入的一个或多个(例如，全部)术语的带注释输出。在一些实施方案中，nlu引擎被配置成识别和注释自然语言输入中的各种类型的语法信息。例如，nlu引擎可以包括形态模块，该形态模块可以将各个单词分成语素和/或例如用语素的类别来注释语素。nlu引擎还可以包括话音标记器，该语音标记器被配置成用术语的语法角色来注释术语。此外，例如，在一些实施方案中，nlu引擎可以额外地和/或替代地包括依存解析器，该依存解析器被配置成确定自然语言输入中的术语之间的句法关系。
38.在一些实施方案中，nlu引擎可以额外地和/或替代地包括实体标记器，该实体标记器被配置成注释一个或多个片段中的实体引用，诸如对人的引用(例如，包括文学人物、名人、公众人物等)、组织、位置(真实的和虚构的)等等。在一些实施方案中，nlu引擎可以额外地和/或替代地包括共指解析器(未示出)，该共指解析器被配置成基于一个或多个上下文线索来分组或“群集”对同一实体的引用。在一些实施方案中，nlu引擎的一个或多个组件可以依赖于来自nlu引擎的一个或多个其它组件的注释。
39.nlu引擎还可包括意图匹配器，其被配置成确定参与和自动化助理100的交互的用户的意图。意图匹配器可以使用各种技术来确定用户的意图。在一些实施方案中，意图匹配器可以访问一个或多个本地和/或远程数据结构，这些数据结构包括例如语法和响应意图之间的多个映射。例如，包括在映射中的语法可以随着时间被选择和/或学习，并且可以代表用户的共同意图。例如，一个语法“play《artist》(播放《艺术家》)”可以被映射到调用响应动作的意图，该响应动作使得《artist》的音乐在助理设备上播放。另一种语法“[weather|forecast]today(今天的[天气|预报])”能够匹配诸如“what’s the weather today(今天的天气如何)”和“what’s the forecast for today(今天的天气预报如何)？”的用户查询。除了语法之外或者代替语法，在一些实施方案中，意图匹配器可以单独地或者与一个或多个语法相结合地使用一个或多个经训练的机器学习模型。这些经训练的机器学习模型可以被训练来识别意图，例如通过将来自口头话语的辨识文本嵌入到降维空间中，然后例如使
用诸如欧几里德距离、余弦相似度等技术来确定哪些其它嵌入(以及因此的意图)是最接近的。如上面的“play《artist》”示例语法所示，一些语法具有可以用槽值(或“参数”)填充的槽(例如《artist》)。可以用各种方式来确定槽值。用户通常会主动提供槽值。例如，对于语法“order me a《topping》pizza(给我点《浇头》比萨饼)”，用户可能说出短语“order me a sausage pizza(给我点香肠比萨饼)”，在这种情况下，槽《topping》被自动填充。可以基于例如用户位置、当前呈现的内容、用户偏好和/或其它提示来推断其它槽值。
[0040]
实现引擎(本地和/或远程)可被配置成接收由nlu引擎输出的预测/估计的意图以及任何相关联的槽值，并实现(或“解析”)该意图。在各种实施方案中，用户意图的实现(或“解析”)可以使得例如由实现引擎生成/获得各种实现信息(也称为实现数据)。这可以包括确定对口头话语的本地和/或远程响应(例如，回答)、基于口头话语执行的与本地安装的应用程序的交互、基于口头话语向物联网(iot)设备(直接或经由对应的远程系统)传输的命令、和/或基于口头话语执行的其它解析动作。然后，设备上实现可以允许所确定的动作的本地和/或远程执行/实施，以解析口头话语。
[0041]
如本文所述，在各种实施方案中，助理交互数据可以包括由上述助理设备110和/或云组件140中的一个或多个(诸如asr引擎、nlu引擎和/或实现模块)生成的数据(或基于这种生成的数据的数据)。当非瞬时存储时，助理交互数据可以存储在云组件140(例如，在数据库176中)和/或助理设备110处。因此，当被擦除(或阻止被存储)时，擦除(或阻止存储)可以在云组件140和/或助理设备110处。
[0042]
参考图2a、图2b、图2c、图2d和图2e，示出了用户201和助理设备205之间的示例交互，并演示了本文公开的各种实施方案的各方面。
[0043]
在图2a中，用户201提供三个口头话语252a1、252a2和252a3，并且对应的助理响应254a1、254a2和254a3由助理设备205可听地(并且可选地视觉地)呈现。每个口头话语和助理响应对(例如，252a1和254a1是一对)可以是对话的回合，并且在图2a的示例中，在回合之间可以经过相对少的时间(例如，在响应254a1的完成和话语252a2之间少于5秒，并且对于响应254a2和话语252a3也是如此)。口头话语252a4指示擦除一个或多个先前助理交互的助理交互数据的意图，但是未能指示擦除助理交互数据的任何时间段(例如，日期范围、小时范围、分钟范围)。结果，在一些实施方案中，可选地，如果最近对话会话在接收口头话语252a4的阈值时间内结束，则自动化助理可以仅擦除该最近对话会话的那些交互的助理交互数据。在图2a的示例中，基于确定所有三个口头话语和所有三个助理响应形成单个对话会话的一部分，可以擦除所有三个口头话语252a1、252a2和252a3中的任何口头话语以及所有三个对应的助理响应254a1、254a2和254a3中的任何助理响应的助理交互数据。可以基于所有三个回合彼此在时间上非常接近地发生(例如，在前一个回合结束的x秒内开始的经过初始回合的每个回合)和/或基于回合的主题的相似性(例如，基于所有回合具有天气意图，如基于nlu数据所确定的)来(例如，通过设备上交互数据引擎134或远程交互数据引擎154)做出这样的确定。在图2a中，在助理设备的显示器205a上提供视觉提示206(“复选标记”)，以视觉上指示执行了口头话语252a4的请求。此外，助理响应254a4也被可听地提供，并且指示所有三个回合的助理交互数据将响应于口头话语252a4的请求而被删除，从而消除响应于模糊口头话语252a4而采取的动作的任何模糊性。
[0044]
在图2b中，用户提供三个口头话语252b1、252b2和252b3，并且对应的助理响应
254b1、254b2和254b3由助理设备205可听地(并且可选地视觉地)呈现。每个口头话语和助理响应对(例如，252a1和254a1)可以是对话的一个回合，并且在图2a的示例中，在前两个回合(252b1和254b1的第一回合，以及252b2和254b2的第二回合)之间可以经过相对少的时间，但是在第二和第三回合之间可以出现相对大的时间间隙(例如，30秒或更多)。口头话语252b4指示擦除一个或多个先前助理交互的助理交互数据的意图，但是未能指示擦除助理交互数据的任何时间段(例如，日期范围、小时范围、分钟范围)。结果，在一些实施方案中，可选地，如果最近对话会话在接收口头话语252b4的阈值时间内结束，则自动化助理可以仅擦除该最近对话会话的那些交互的助理交互数据。在图2b的示例中，基于确定最近的回合本身形成最近的对话会话，并且最初的两个回合是先前对话会话的一部分，因此可以擦除仅最近的回合(即，252b3和254b3)的助理交互数据。这种确定可以基于第三回合和第二回合之间的时间间隙和/或基于与和前两个回合的主题(例如天气)不同的主题相关的第三回合。在图2b中，在助理设备205的显示器205b上提供视觉提示206(“复选标记”)，以视觉上指示执行了口头话语252b4的请求。此外，助理响应254b4也被可听地提供，并且指示响应于口头话语252b4的请求，将仅删除最近一回合的助理交互数据(即，通过指示其主题)，从而消除响应于模糊口头话语252b4而采取的动作的任何模糊性。注意，在图2b的示例中，如果用户201也想要删除来自先前回合的助理交互数据，则用户201可以提供进一步的话语来引起这种删除。例如，进一步的话语可以是“forget everything i said for the last 5minutes(忘记我在过去5分钟说的一切)”或“forget the weather questions as well(也忘记天气问题)”，这两者中的任何一个都可以被解释为(例如，使用nlu引擎和/或交互数据引擎)请求擦除图2b的较早回合。
[0045]
图2c的示例提供了口头输入252c2的一个示例，该口头输入252c2使得从先前的助理交互(即，252c1、254c1的交互)中追溯性地擦除助理交互数据，同时维持被排队等待将来执行但尚未执行的提醒通知的将来动作。
[0046]
在图2c中，用户提供口头话语252c1，其请求在将来(明天早上6:00)执行动作(提供提醒通知)。对应的助理响应254c1由助理设备205可听地(并且可选地视觉地)呈现，并且确认该动作被排队以供将来执行。在助理响应254c1之后不久(例如，10秒)提供口头话语252c2，并且该口头话语252c2指示擦除一个或多个先前助理交互的助理交互数据的意图，但是未能指示擦除助理交互数据的任何时间段(例如，日期范围、小时范围、分钟范围)。结果，在一些实施方案中，可选地，如果最近对话会话在接收口头话语252c2的阈值时间内结束，则自动化助理可以仅擦除该最近对话会话的那些交互的助理交互数据。在图2c的示例中，可以基于确定最近的回合本身形成最近的对话会话来擦除仅该最近的回合(即，252c1和254c1)的助理交互数据。然而，值得注意的是，排队等待将来执行的动作没有被擦除，而是维持排队等待将来执行(即，提醒通知仍将在明天早上6:00呈现)。在图2c中，在助理设备205的显示器205b上提供视觉提示206(“复选标记”)，以视觉上指示执行了口头话语252c2的请求。此外，助理响应254c2也被听觉地提供，并且指示响应于口头话语254c2的请求，仅最近交互的助理交互数据将被删除，并且指示该动作将保持排队以供将来执行，从而消除了关于什么将被删除和/或该动作是否将保持排队以供将来执行的任何模糊性。
[0047]
图2d的示例提供了调用自动化助理并包括特定调用短语(“secret assistant”)的口头输入252d1的一个示例，该特定调用短语使得主动阻止助理交互数据的非瞬时存储。
在图2d中，视觉地提供符号207以提供这种阻止的指示，并且将继续呈现直至终止条件发生为止。换句话说，符号207可以在主动阻止助理交互数据的非瞬时存储的整个持续时间内提供。可选地，可以可听地提供助理提示254d1，以便也提供这种阻止的开始的指示。额外地或替代地，在阻止持续期间，可以连续地提供连续的可听提示，例如连续的鸟鸣声、波浪撞击声或其它声音。由于由口头输入252d1触发的主动阻止，与口头输入252d2和/或助理响应254d2相关的助理交互数据将永远不会被非瞬时存储。应注意，在一些实施方案中，可以额外地或替代地提供可听和/或视觉提示，以提供何时助理交互数据的非瞬时存储正在发生(即，何时其未被阻止)的指示。
[0048]
图3是示出响应于在助理设备处接收到的特定用户输入，针对对话的回合主动阻止存储助理交互数据的存储的示例方法的流程图。为了方便起见，参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件，诸如助理设备110的一个或多个组件或基于云的自动化助理组件140。此外，虽然方法300的操作以特定顺序示出，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。
[0049]
在框352处，系统基于在助理设备处接收的用户输入来确定阻止助理交互数据的非瞬时存储。在一些实施方案中，系统仅针对助理设备处的交互阻止助理交互数据的非瞬时存储。在一些其它实施方案中(并且可选地取决于输入)，该系统阻止针对在助理设备处的交互以及针对在用户的助理设备生态系统中的一个或多个(例如，所有)助理设备处的交互(例如，那些链接到用户的账户并且可选地链接到与助理设备相同的结构的助理设备)的助理交互数据的非瞬时存储。在一些实施方案中，框352包括子框352a或子框352b。
[0050]
在子框352a处，系统基于对助理的调用是特定调用来确定阻止助理交互数据的非瞬时存储。例如，当检测到一个或多个特定调用时，这些调用可以使得系统确定阻止助理交互数据的非瞬时存储，并且系统可以响应于确定该调用是那些特定调用之一而阻止非瞬时存储。例如，调用可以是口头调用短语。该系统可以使用多个不同的调用短语检测模型中的每一个来处理音频数据，每个调用短语检测模型针对调用短语的不同子集(例如，仅对应的单个调用短语)被训练，以生成对应度量，每个度量指示对应调用短语子集是否存在于音频数据中。如果利用为阻止非瞬时存储的特定调用短语(例如，“private assistant”)而训练的模型生成的对应度量指示检测到那些调用短语之一，则系统可以确定阻止助理交互数据的非瞬时存储。该特定调用可以额外地或替代地包括无触摸手势调用、特定硬件或软件按钮的致动、和/或以特定方式(例如，长按或双击)硬件或软件按钮的致动。
[0051]
在子框352b处，系统基于对调用之后的口头话语的处理，来确定阻止助理交互数据的非瞬时存储。例如，该系统可以通过对捕捉口头话语的音频数据执行asr来生成辨识文本，然后利用nlu来确定辨识文本表达了阻止助理交互数据的非瞬时存储的意图。
[0052]
在框354处，系统确定停止对助理交互数据的非瞬时存储的阻止的一个或多个终止条件。换句话说，系统将继续阻止助理交互数据的非瞬时存储，直至一个或多个条件得到满足为止。在一些实施方案中，框354包括子框354a和/或子框354b。
[0053]
在子框354a处，系统基于框352的调用和/或口头话语来确定终止条件。例如，“secret assistant”的口头调用短语可以与“passage of 30 seconds(30秒过去)”或“termination of current dialog session(当前对话会话的终止)”的终止条件相关联，而“top secret assistant(绝密助理)”的口头调用短语可以与“passage of 1hour(1小时
过去)”的终止条件相关联。系统可以选择对应的终止条件作为终止条件之一。作为另一个示例，在调用之后的口头话语可以指定阻止的持续时间，并且该持续时间可以是利用nlu确定的参数，并且该系统可以利用该持续时间到期作为终止条件。例如，如果口头话语是“secret mode for 10 minutes(10分钟的秘密模式)”，10分钟的持续时间到期可以被用作终止条件。
[0054]
在子框354b处，系统额外地或替代地确定一个或多个默认条件。系统可以可选地总是确定一些默认条件，如果它们发生，则停止阻止。例如，一个这样的条件可以是如果检测到另一个调用，该调用不是用于阻止助理交互数据的非瞬时存储的调用。在一些实施方案中，当没有执行框354a时，系统可以额外地或替代地确定一些默认条件。例如，如果口头话语或调用没有指定终止条件，则可以确定默认终止条件，例如默认持续时间的过去或当前对话会话的终止。
[0055]
在可选框356处，系统使得一个或多个可听和/或视觉上可感知的提示在助理设备处呈现，并且可选地，在助理设备生态系统的一个或多个额外助理设备处呈现。例如，在也阻止在这些助理设备处的交互的存储的实施方案中，也可以在额外的助理设备处呈现提示。在一些实施方案中，系统使得在阻止存储的整个持续时间内连续呈现提示(即，直至在框358处确定“是”为止，如下所述)。
[0056]
在框358处，系统确定是否终止对助理交互数据的非瞬时存储的阻止。系统可以基于是否已经满足框354的一个或多个条件来确定是否终止。在一些实施方案中和/或对于一些条件，任何单个条件或多个条件的出现都会使得系统决定终止。在一些其它实施方案中和/或对于一些其它条件，多个条件必须同时出现，系统才能确定终止。
[0057]
框358可以迭代地执行(例如，每秒或以其它频率)。只要框358处的决定是不终止阻止，系统就将阻止在助理设备处和可选的额外助理设备处的交互的助理交互数据的非瞬时存储。例如，在框362处，该系统可以处理接收到的口头话语并生成响应(可听和/或视觉)和/或执行响应动作(例如，控制智能设备)，并且这样做时无需非瞬时存储助理交互数据。可以进行框362的一次或多次迭代。例如，框362的迭代可以是对话的回合，并且取决于终止条件，对话的多个回合可以通过框362的多次迭代而发生。
[0058]
在一些实施方案中，框362包括子框362a和/或子框362b。
[0059]
在子框362a处，系统确定进一步接收的口头话语是否来自在框352处提供输入的同一用户，并且如果确定其来自同一用户，则仅阻止对应的助理交互数据的非瞬时存储。因此，对于子框362a，阻止存储是对在框352处提供输入的用户个人的，而不阻止其它用户的存储。在确定进一步接收的口头话语是否来自同一用户时，可以基于进一步的口头话语来执行语音识别和/或面部识别，并且也可以在框352处接收输入时执行。只有当这两个识别指示相同的用户在框352处提供了输入并且在框362处提供了进一步的口头话语时，才可以确定进一步接收的口头话语来自相同的用户。
[0060]
在子框362b处，系统用基于特定语音生成的合成话音来呈现全部或部分可听响应，该特定语音专用于阻止非瞬时存储。举例来说，合成语音可具有将其与其它合成语音区分开的一个或多个语音特征，并且至少对于用户且任选地对于一群(例如，所有)用户，合成语音可以仅在助理交互数据的非瞬时存储被阻止时被利用。例如，该合成语音的一个或多个韵律属性可以不同于自动化助理为用户和/或用户群体(例如，所有用户)使用的所有其
它合成语音。因此，听到这样的合成语音可以作为对用户的提示(除了或代替框356的提示)，以通知用户阻止存储正在持续。这可以阻止用户不必要地再次请求阻止非瞬时存储和/或请求追溯擦除实例交互(例如，使用下面描述的图4的方法400)。这可以防止计算资源的浪费和/或防止延长助理/用户交互的持续时间。
[0061]
如果在迭代中在框358处的决定为是，则系统进行到框360。在框360处，系统重新允许助理交互数据的非瞬时存储，并停止框356的可感知提示(如果有的话)的呈现。助理交互数据的非瞬时存储可以持续到在框352的另一次迭代中再次接收到特定输入。
[0062]
方法300被示出和描述为响应于在助理设备处接收到的特定用户输入，针对对话的回合主动阻止助理交互数据的存储。然而，应注意，方法300可适于改为响应于在助理设备处接收的特定用户输入，针对对话的回合允许助理交互数据的存储。举例来说，默认可阻止助理交互数据的非瞬时存储，框352的输入可专用于允许助理交互数据的非瞬时存储，并且在框354处确定的终止条件可指示何时将停止允许助理交互数据的存储。
[0063]
另外，代替或除了阻止助理交互数据的非瞬时存储，在一些实施方案中，框352的输入可以阻止至少一些(例如，阻止任何)个人数据被用于在框362处生成至少一些(例如，全部)响应和/或执行至少一些(例如，全部)响应动作。举例来说，除了在框362处阻止助理交互数据的非瞬时存储之外，框362还可包含阻止在产生至少一些(或甚至所有)响应时利用个人数据(即，与用户账户相关联地存储且对用户账户是私人的数据)。例如，如果在框362处接收到的口头话语是“what’s on my calendar(我的日历上有什么事情)”，则可以提供“error(错误)”响应，因为用户的日历数据是个人数据，不能用于生成响应。作为另一个实例，如果在框362处接收到的口头话语是“play some music(播放一些音乐)”，则可以播放歌曲，但是该歌曲将独立于用户的任何个人数据而被选择(即，它不会基于用户的音乐偏好而被选择)。
[0064]
图4是示出了响应于在助理设备处接收的特定用户输入而追溯性地擦除助理交互数据的存储实例的示例方法的流程图。为了方便起见，参考执行操作的系统来描述流程图的操作。该系统可以包括各种计算机系统的各种组件，诸如助理设备110的一个或多个组件或基于云的自动化助理组件140。此外，尽管方法400的操作以特定顺序示出，但这并不意味着是限制性的。可以重新排序、省略或添加一个或多个操作。
[0065]
在框452处，系统经由助理设备的麦克风接收捕捉用户话语的音频数据。
[0066]
在框454处，系统对音频数据执行asr以生成口头话语的辨识文本。
[0067]
在框456处，系统基于口头话语的辨识文本来确定辨识文本表达了擦除一个或多个先前助理交互的助理交互数据的意图。例如，系统可以执行nlu来确定意图。
[0068]
在框458处，系统识别要擦除的助理交互数据的实例。框458可以包括一个或多个子框458a、458b和458c。
[0069]
在子框458a处，系统基于话语的辨识文本来识别助理交互数据的实例。例如，话语可以包括时间段(例如，“delete everything from the last week(删除上周的所有内容)”)，并且该时间段可以用于识别落在该时间段内的助理交互数据的实例。例如，可以利用助理交互数据的时间戳。可以执行利用nlu对辨识文本的处理，以识别时间段(例如，时间段可以是由nlu处理输出的参数)。
[0070]
在子框458b处，系统基于实例是最近对话会话的一部分来识别实例。当系统确定
辨识文本未能指定时间段时，可以可选地执行子框458b来代替子框458a。
[0071]
在子框458c处，系统确定用户的账户，并基于与账户相关联地存储实例来识别实例。换句话说，系统可以识别提供口头话语的用户的交互的那些实例(来自助理设备和/或其它助理设备的交互)，而不是简单地来自助理设备的所有实例(可以包括来自其它用户的那些实例)。该系统可以使用说话人识别、面部辨识和/或其它验证技术来确定用户的账户。
[0072]
在框462处，系统擦除助理交互数据的实例。
[0073]
在可选框464处，系统呈现确认擦除并可选地提供被擦除实例的数量和/或对被擦除实例的指示的输出。例如，该输出可以识别被擦除的对话回合和/或对话会话的数量。作为另一个示例，输出可以识别被擦除的对话回合和/或对话会话的主题和/或其它摘要。
[0074]
在各种实施方案中，这里描述的助理交互数据的实例可以包括例如捕捉口头输入的音频数据、其生成的文本转录(例如，使用话音到文本模型生成)、基于文本转录的自然语言理解(nlu)数据(例如，意图(例如，“today’s weather”)和/或参数(例如，路易斯维尔市)，和/或表征助理响应的数据(例如，响应本身和/或响应的主题)。助理交互数据的实例可以额外地或替代地包括在对话会话期间捕捉的图像、视频和/或其它视觉数据和/或基于处理这样的图像数据的数据。例如，在与带有相机的助理设备的对话会话期间，用户可以在相机前拿着一个物品，并提供“what is this(这是什么)”的口头话语。自动化助理可以使用神经网络模型处理视觉数据，以生成对象的预测分类，并基于预测分类生成对口头话语的响应。在这样的示例中，助理交互数据可以包括视觉数据和/或预测分类。助理交互数据的实例可以额外地或替代地包括不捕捉用户的口头话语的音频数据，和/或基于处理这种音频数据的其它数据。例如，在经由助理设备的对话会话期间，用户可以提供“what is this song(这是什么歌曲)”的口头话语，并且可以处理音频数据来识别该歌曲。在这样的示例中，助理交互数据可以包括音频数据和/或所识别的歌曲。
[0075]
本文已经描述了关于一般自动化助理的实施方案，通过该一般自动化助理，用户可以参与各种对话来完成各种任务。例如，用户可以利用自动化助理来控制智能设备、播放音乐、拨打电话、创建日历条目、创建提醒、查询天气和/或跨其它垂直领域执行额外和/或替代任务。在一些实施方案中，此处所描述的各种技术可以额外地或替代地与一个或多个非自动化助理系统和/或与专用于仅针对单个任务或仅针对单个垂直领域与用户进行交互的自动化助理结合使用。例如，设备和/或应用程序可以专用于接收受损话音，处理受损话音以生成合成的未受损话音，并呈现合成的未受损话音。利用这样的示例，可以取决于如何调用设备和/或应用程序来选择性地允许和/或禁止交互数据(例如，来自对话回合的受损话音和/或未受损话音)的非瞬时存储。额外地或替代地，对于这样的示例，任何存储的交互数据可以额外地或替代地响应于在设备或应用程序处接收的特定用户输入而被追溯性地擦除。
[0076]
现在参考图5，示出了示例计算设备510的框图，该示例计算设备510可以可选地用于执行本文描述的技术的一个或多个方面。在一些实施方案中，助理设备、基于云的自动化助理组件和/或其它组件中的一个或多个可以包括示例计算设备510的一个或多个组件。
[0077]
计算设备510通常包括至少一个处理器514，其通过总线子系统512与多个外围设备通信。这些外围设备可以包括存储子系统524，包括例如存储器子系统525和文件存储子系统526、用户接口输出设备520、用户接口输入设备522和网络接口子系统516。输入和输出
设备允许用户与计算设备510交互。网络接口子系统516提供到外部网络的接口，并且耦合到其它计算设备中的对应接口设备。
[0078]
用户接口输入设备522可以包括键盘、诸如鼠标、轨迹球的定点设备、触摸板或图形输入板、扫描仪、结合到显示器中的触摸屏、诸如语音辨识系统的音频输入设备、麦克风和/或其它类型的输入设备。一般而言，术语“输入设备”的使用旨在包括将信息输入到计算设备510中或输入到通信网络上的所有可能类型的设备和方式。
[0079]
用户接口输出设备520可以包括显示子系统、打印机、传真机或者诸如音频输出设备的非视觉显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板设备、投影设备或用于创建可视图像的一些其它机制。显示子系统还可以例如通过音频输出设备提供非视觉显示。一般而言，术语“输出设备”的使用旨在包括从计算设备510向用户或向另一机器或计算设备输出信息的所有可能类型的设备和方式。
[0080]
存储子系统524存储提供这里描述的一些或所有模块的功能的程序和数据结构。例如，存储子系统524可以包括执行本文公开的方法的选定方面以及实施各种组件的逻辑。
[0081]
这些软件模块通常由处理器514单独执行或者与其它处理器结合执行。存储子系统524中使用的存储器525可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)510和存储固定指令的只读存储器(rom)512。文件存储子系统526可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动介质、cd-rom驱动器、光驱或可移动介质盒。实施特定实施方案的功能的模块可以由文件存储子系统526存储在存储子系统524中，或者存储在处理器514能够访问的其它机器中。
[0082]
总线子系统512提供了一种机制，用于让计算设备510的各种组件和子系统如预期的那样相互通信。尽管总线子系统512被示意性地示为单条总线，但是总线子系统的替代实施方案可以使用多条总线。
[0083]
计算设备510可以是各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器群或任何其它数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图5中描绘的计算设备510的描述仅旨在作为用于说明一些实施方案的特定示例。计算设备510的许多其它配置可能具有比图5中描绘的计算设备更多或更少的组件。
[0084]
在这里描述的系统收集或以其它方式监测关于用户的个人信息，或者可以利用个人和/或被监测的信息(例如，在消息交换线程中交换的消息)的情况下，可以向用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交行动或活动、职业、用户的偏好或用户的当前地理位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，在存储或使用特定数据之前，可能会以一个或多个方式对其进行处理，以便删除个人身份信息。例如，可以处理用户的身份，使得不能确定用户的身份信息，或者可以在获得地理位置信息的地方概括用户的地理位置(例如城市、邮政编码或州级)，使得不能确定用户的特定地理位置。因此，用户可以控制如何收集和/或使用关于用户的信息。例如，在一些实施方案中，操作配置有本公开的选定方面的消息交换客户端的消息交换线程参与者可以选择不监测消息交换线程内容，例如，使得期望将消息交换客户端转变为私有状态或从私有状态转变出来的参与者可以手动进行。
[0085]
在一些实施方案中，提供了一种方法，所述方法包括使用话音辨识模型来处理音
频数据，以生成在音频数据中捕捉的用户的口头话语的辨识文本。经由助理设备的一个或多个麦克风来检测音频数据。所述方法还包括确定辨识文本表达了擦除用户的一个或多个先前助理交互的助理交互数据的意图。所述方法还包括确定与提供口头话语的用户相关联的账户。所述方法还包括，响应于确定辨识文本表达了擦除助理交互数据的意图：在一个或多个计算机可读介质中为用户识别助理交互数据的一个或多个实例，这是基于所述一个或多个实例与所确定的账户相关联地存储；以及从所述一个或多个计算机可读介质中擦除助理交互数据的所识别的一个或多个实例。
[0086]
这里公开的技术的这些和其它实施方案可以包括一个或多个以下特征。
[0087]
在一些实施方案中，所述方法还包括确定辨识文本未能指示用于擦除助理交互数据的任何时间段。在那些实施方案中，识别助理交互数据的一个或多个实例还包含：响应于确定辨识文本未能指示擦除助理交互数据的任何时间段：进一步基于确定所述一个或多个实例中的每个实例是用户与自动化助理之间的最近对话会话的一部分来识别助理交互数据的一个或多个实例。在这些实施方案的一些版本中，助理交互数据的一个或多个实例包括第一实例和第二实例，并且所述方法还包括确定所述一个或多个实例中的每个实例都是用户和自动化助理之间的最近对话会话的一部分。确定所述一个或多个实例中的每个实例都是用户和自动化助理之间的最近对话会话的一部分可以包括：确定与第一实例相关联地存储的第一时间戳在与第二实例相关联地存储的第二时间戳的阈值持续时间内；以及将当前时间与第一时间戳和/或第二时间戳进行比较。在这些版本的一些中，确定所述一个或多个实例中的每个实例都是用户和自动化助理之间的最近对话会话的一部分还基于确定与第一实例相关联地存储的第一主题在与第二实例相关联地存储的第二主题的阈值语义距离内。例如，可以为第一主题的第一描述符生成第一嵌入(例如，使用word2vec或其它语义嵌入模型)，可以为第二主题的第二描述符生成第二嵌入，并且语义距离可以是嵌入空间中第一嵌入和第二嵌入之间的距离。作为另一个示例，语义距离可以基于在知识图或其它分类结构中第一主题和第二主题之间的最短路径中有多少条边。可选地，第一实例包括：捕捉用户的第一话语的第一音频数据、用户的第一话语的第一转录、基于第一转录生成的第一自然语言理解数据、和/或表征对第一话语的助理响应的第一响应数据。可选地，第二实例包括：捕捉用户的第二话语的第二音频数据、用户的第二话语的第二转录、基于第二转录生成的第二自然语言理解数据、和/或表征对第二话语的助理响应的第二响应数据。
[0088]
在一些实施方案中，确定与提供口头话语的用户相关联的账户包括：使用音频数据和/或紧接在音频数据之前的调用音频数据来执行说话人识别；以及基于执行说话人识别来确定与用户相关联的账户。在这些实施方案的一些版本中，执行说话人识别包括在助理设备处基于处理音频数据和/或调用音频数据来生成嵌入。在这些版本中的一些中，基于执行说话人识别来确定与用户相关联的账户包括将嵌入与本地存储在助理设备处的预存储嵌入进行匹配，并且确定所匹配的预存储嵌入与账户相关联地存储。
[0089]
在一些实施方案中，所述方法还包括，在识别助理交互数据的一个或多个实例之后：使得在助理设备处呈现可听输出和/或视觉输出，该可听输出和/或视觉输出确认从所述一个或多个计算机可读介质擦除所识别的一个或多个助理交互数据实例。在那些实施方案的一些版本中，所述方法还包括生成可听输出和/或视觉输出，以包括：所述助理交互数据的所述一个或多个实例的数量；和/或助理交互数据的每个实例的对应指示。在这些版本
中的一些版本中，针对助理交互数据的每个实例的对应指示包括针对助理交互数据的每个实例的对应主题。
[0090]
在一些实施方案中，助理交互数据的每个实例包含来自用户助理对话的对应单个回合的数据。
[0091]
在一些实施方案中，所述方法还包括确定辨识文本指示用于擦除助理交互数据的时间段。在这些实施方案中的一些实施方案中，响应于确定辨识文本指示用于擦除助理交互数据的时间段，识别助理交互数据的一个或多个实例还包括：进一步基于确定与所述一个或多个实例相关联地存储的对应时间戳全部落在用于擦除助理交互数据的时间段内来识别助理交互数据的所述一个或多个实例。在这些实施方案的一些版本中，确定与提供口头话语的用户相关联的账户包括：使用音频数据和/或紧接在该音频数据之前的调用音频数据来执行说话人识别；以及基于执行说话人识别来确定与用户相关联的账户。
[0092]
在一些实施方案中，助理交互数据的所述一个或多个实例中的给定实例对应于使得在当前时间之前的将来时间排队执行将来动作的对话回合。在这些实施方案中的一些中，从一个或多个计算机可读介质中擦除助理交互数据的所识别的一个或多个实例在不影响将来时间的将来动作的执行的情况下发生。在这些实施方案的一些版本中，将来动作包括控制智能设备和/或使得呈现通知。
[0093]
在一些实施方案中，用户输入是在由助理设备的相机生成的一个或多个视觉帧中检测到的特定无触摸手势，并且对替代无触摸手势的检测使得对紧随该替代无触摸手势之后的至少一个助理交互的助理交互数据的非瞬时存储。
[0094]
在一些实施方案中，使得助理响应在助理设备处被呈现包括使得助理响应的可听部分以特定合成语音被呈现。使可听部分以特定合成语音呈现是响应于确定阻止助理交互数据的非瞬时存储。至少对于用户来说，仅当助理交互数据的非瞬时存储被阻止时，才使用特定合成语音。
[0095]
在一些实施方案中，所述方法还包括基于用户输入来确定另外阻止在生成助理响应时使用任何个人数据，直至一个或多个终止条件得到满足为止。在这些实施方案中的一些中，确定响应于口头话语的助理响应包括，响应于确定额外阻止在生成助理响应时利用任何个人数据，确定独立于任何个人数据的助理响应。
[0096]
在一些实施方案中，提供一种方法，所述方法包含基于在助理设备处接收的用户输入来确定阻止助理交互数据的非瞬时存储，直至一个或多个终止条件得到满足为止。所述方法还包含：响应于确定阻止助理交互数据的非瞬时存储，并且直至所述一个或多个终止条件得到满足为止：使得所述助理设备呈现视觉上可感知和/或可听感知的提示。所述方法还包括，在阻止助理交互数据的非瞬时存储的同时并且在所述一个或多个终止条件得到满足之前：使用话音辨识模型来处理音频数据，以生成在音频数据中捕捉的用户的口头话语的辨识文本，其中音频数据是经由助理设备的一个或多个麦克风检测到的；基于辨识文本，确定响应于口头话语的助理响应；使得所述助理响应在所述助理设备处被呈现；以及响应于确定阻止助理交互数据的非瞬时存储，阻止音频数据、辨识文本和/或助理响应的非瞬时存储。所述方法还包含响应于确定所述一个或多个终止条件得到满足，允许助理交互数据的非瞬时存储。
[0097]
这里公开的技术的这些和其它实施方案可以包括一个或多个以下特征。
[0098]
在一些实施方案中，助理设备是与用户相关联的助理设备生态系统中的多个助理设备之一。在这些实施方案中的一些实施方案中，所述方法还包含响应于确定阻止助理交互数据的非瞬时存储，阻止来自与生态系统中的任何助理设备的交互的任何助理交互数据的非瞬时存储。在那些实施方案的一些版本中，所述方法还包含：响应于确定阻止助理交互数据的非瞬时存储，并且直至所述一个或多个终止条件得到满足为止：使得除所述助理设备之外的所述多个助理设备中的每个助理设备呈现对应的视觉上可感知和/或可听感知的提示。在这些版本中的一些中，使得除了该助理设备之外的所述多个助理设备中的每个助理设备呈现对应的视觉上可感知和/或可听感知的提示包括由助理设备向除了该助理设备之外的所述多个助理设备传输使得呈现对应的视觉上可感知和/或可听感知的提示的命令。在那些版本中的一些其它版本中，使得除了该助理设备之外的所述多个助理设备中的每个助理设备呈现对应的视觉上可感知和/或可听感知的提示包括由与助理设备通信的远程辅助服务器向除了该助理设备之外的所述多个助理设备传输使得呈现对应的视觉上可感知和/或可听感知的提示的命令。
[0099]
在一些实施方案中，阻止助理交互数据的非瞬时存储仅针对与提供用户输入的用户相关联的账户。在这些实施方案中的一些中，所述方法还包括：确定与提供阻止非瞬时存储的用户输入的用户相关联的账户；并且阻止音频数据、辨识文本和/或助理响应的非瞬时存储进一步响应于确定口头输入与为账户存储的说话人嵌入相匹配。
[0100]
在一些实施方案中，所述一个或多个终止条件包括阈值时间量的过去和/或紧随用户输入之后的对话会话的完成。
[0101]
在一些实施方案中，用户输入是以给定方式对硬件或软件按钮的致动，并且可选地，以替代方式对硬件或软件按钮的致动引起对紧随以替代方式致动之后的至少一个助理交互的助理交互数据的非瞬时存储。
[0102]
在一些实施方案中，用户输入是口头特定助理调用短语，并且可选地，替代的口头助理调用短语方式引起针对紧跟在替代的口头助理调用短语之后的至少一个助理交互的助理交互数据的非瞬时存储。
[0103]
在一些实施方案中，提供了一种由一个或多个处理器实施的方法，所述方法包括基于在助理设备处接收的用户输入来确定阻止在生成助理响应时利用任何个人数据，直至一个或多个终止条件得到满足为止。所述方法还包括，在所述一个或多个终止条件得到满足之前：使用话音辨识模型处理音频数据，以生成在音频数据中捕捉的用户的口头话语的辨识文本；基于辨识文本，确定响应于口头话语的助理响应；以及使得在助理设备处呈现助理响应。确定响应口头话语的助理响应包括，响应于确定另外阻止在生成助理响应时利用任何个人数据，确定独立于任何个人数据的助理响应。所述方法还包括，响应于确定所述一个或多个终止条件得到满足：允许利用个人数据确定助理响应。
[0104]
这里公开的技术的这些和其它实施方案可以包括一个或多个以下特征。
[0105]
在一些实施方案中，使得助理响应在助理设备处被呈现包括使得助理响应的可听部分以特定合成语音被呈现。使得可听部分以特定合成语音呈现是响应于确定阻止助理交互数据的非瞬时存储。可选地，至少对于用户来说，仅当助理交互数据的非瞬时存储被阻止时，才使用特定合成语音。
[0106]
在一些实施方案中，提供一种由一个或多个处理器实施的方法，所述方法包含基
于在助理设备处接收的用户输入来确定阻止助理交互数据的非瞬时存储，直至一个或多个终止条件得到满足为止。所述方法还包括，在阻止助理交互数据的非瞬时存储的同时并且在所述一个或多个终止条件得到满足之前：使用话音辨识模型处理经由助理设备的麦克风检测到的音频数据，以生成在音频数据中捕捉的用户的口头话语的辨识文本；基于辨识文本，确定响应于口头话语的助理响应；使得所述助理响应在所述助理设备处被呈现；以及响应于确定阻止助理交互数据的非瞬时存储，阻止音频数据、辨识文本和/或助理响应的非瞬时存储。所述方法还包含响应于确定所述一个或多个终止条件得到满足：允许助理交互数据的非瞬时存储。
[0107]
此外，一些实施方案包括一个或多个计算设备的一个或多个处理器，其中所述个或多个处理器可操作以执行存储在相关联的存储器中的指令，并且其中所述指令被配置成使得执行本文公开的任何方法。一些实施方案包括存储计算机指令的至少一个非瞬时性计算机可读存储介质，所述计算机指令能够由一个或多个处理器执行以执行本文公开的任何方法。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：使用助理系统的基于自然语言理解的元语音系统提高语音识别精度的制作方法

阻止助理交互数据的非瞬时存储和/或擦除存储的助理交互数据的制作方法

相关文献

最热文献