使用可穿戴设备的分布式声音识别的制作方法

2022-06-18 05:27:36 来源：中国专利 TAG：

1.本公开涉及使用多个设备上多个分类器的分布式传感器数据处理。

背景技术：

2.计算设备(例如，可穿戴设备、智能眼镜、智能扬声器、运动相机等)通常是相对小型的设备，并且在一些示例中，可以长时间段地戴在人体身上或周围。然而，用于处理传感器数据(例如，图像数据、音频数据)的计算机处理要求可能相对较高，尤其是对于包括显示和感知能力的设备。例如，设备可能执行需要多个电路组件的能量密集型操作(例如，音频和/或图像处理、计算机视觉等)，这可能导致若干挑战。例如，设备可能生成相对大量的热量，从而使设备长时间段地接近皮肤时感到不舒服。此外，电路组件(包括电池)的数量增加了设备的重量，从而增加了长时间段佩戴设备的不适。此外，能量密集型操作(结合电池容量的限制)可能导致电池寿命相对较短。因此，一些常规设备只能在一天中使用较短的持续时间。

技术实现要素：

3.本公开涉及通过无线连接连接到计算设备(例如，智能电话、膝上型计算机、平板计算机等)的低功率设备(例如，智能眼镜、可穿戴手表、便携式动作相机、安全相机、智能扬声器等)，其中，能量密集型操作被卸载到计算设备(或连接到计算设备的服务器计算机)，这会导致设备性能(例如，功率、带宽、等待时间、计算能力、机器学习精度等)和用户体验的改善。在一些示例中，无线连接是近距离无线连接，诸如蓝牙连接或近场通信(nfc)连接。在一些示例中，低功率设备包括头戴式显示设备，诸如智能眼镜。然而，本文讨论的技术可以应用于其他类型的低功率设备，诸如便携式动作相机、安全相机、智能门铃、智能手表等。
4.根据一方面，一种使用可穿戴设备的分布式声音识别的方法包括：经由可穿戴设备的麦克风接收音频数据；由可穿戴设备的声音分类器检测音频数据是否包括感兴趣的声音，其中，声音分类器执行第一机器学习(ml)模型；以及响应在音频数据内检测到感兴趣的声音，经由无线连接将音频数据传送到计算设备，其中，音频数据被配置为由第二 ml模型用于进一步声音分类。
5.根据一方面，一种存储可执行指令的非暂时性计算机可读介质，可执行指令在由至少一个处理器执行时，使至少一个处理器：经由可穿戴设备的麦克风接收音频数据；由可穿戴设备的声音分类器检测音频数据是否包括感兴趣的声音，其中，声音分类器被配置为执行第一机器学习 (ml)模型；以及响应于在音频数据内检测到感兴趣的声音，经由无线连接将音频数据传送到计算设备，其中，音频数据被配置为由计算设备上的第二ml模型使用以进一步声音分类。
6.根据一方面，一种用于分布式声音识别的可穿戴设备包括：被配置以捕获音频数据的麦克风；声音分类器，声音分类器被配置为检测音频数据是否包括感兴趣的声音，声音分类器包括第一机器学习(ml)模型；以及射频(rf)收发器，rf收发器被配置为响应于在音
频数据内检测到所述感兴趣的声音，经由无线连接将音频数据传送到计算设备，其中，音频数据被配置为由第二ml模型使用以将感兴趣的声音转换为文本数据。
7.根据一方面，一种用于声音识别的计算设备包括至少一个处理器；以及存储可执行指令的非暂时性计算机可读介质，可执行指令在由至少一个处理器执行时，使至少一个处理器：经由无线连接从可穿戴设备接收音频数据，音频数据具有由执行第一机器学习(ml)模型的声音分类器检测到的感兴趣的声音；使用计算设备上的声音识别引擎，确定是否将感兴趣的声音转换为文本数据；响应于使用计算设备上的声音识别引擎的确定，由声音识别引擎将感兴趣的声音转换为文本数据，声音识别引擎被配置为执行第二ml模型；以及经由无线连接将文本数据发送到可穿戴设备。
8.根据一方面，一种用于使用可穿戴设备的分布式图像识别的方法包括：经由可穿戴设备的至少一个成像传感器接收图像数据，由可穿戴设备的图像分类器检测感兴趣的对象是否包括在图像数据内，图像分类器执行第一机器学习(ml)模型，以及经由无线连接将图像数据传送到计算设备，图像数据被配置为由计算设备上的第二ml模型使用以进一步的图像分类。
9.根据一方面，一种存储可执行指令的非暂时性计算机可读介质，可执行指令在由至少一个处理器执行时，使至少一个处理器从可穿戴设备上的一个成像传感器接收图像数据，由可穿戴设备的图像分类器检测感兴趣的对象是否被包括在所述图像数据内，图像分类器被配置为执行第一机器学习(ml)模型，以及经由无线连接将图像数据传送到计算设备，图像数据被配置为由计算设备上的第二ml模型使用以计算对象位置数据，对象位置数据标识图像数据中的感兴趣对象的位置。
10.根据一方面，一种用于分布式图像识别的可穿戴设备包括：被配置为捕获图像数据的至少一个成像传感器，被配置为检测感兴趣的对象是否包括在图像数据内的图像分类器，图像分类器被配置为执行第一机器学习(ml)模型，以及射频(rf)收发器，其被配置为经由无线连接将图像数据传送到计算设备，图像数据被配置为由计算设备上的第二 ml模型使用以计算对象位置数据，所述对象位置数据识别感兴趣的对象在图像数据中的位置。
11.根据一方面，一种用于分布式图像识别的计算设备包括至少一个处理器和存储可执行指令的非暂时性计算机可读介质，可执行指令在由至少一个处理器执行时，使至少一个处理器经由无线连接从可穿戴设备接收图像数据，图像数据具有由执行第一机器学习(ml)模型的图像分类器检测到的感兴趣的对象，使用第二ml模型，基于图像数据来计算对象位置数据，对象位置数据识别图像数据中的感兴趣的对象的位置，并且经由无线连接将对象位置数据传送到可穿戴设备。
附图说明
12.图1图示了根据一方面的用于跨包括可穿戴设备和计算设备的多个设备分布图像和/或音频处理的系统。
13.图2图示了根据一方面的用于跨可穿戴设备和服务器计算机分布图像和/或音频处理的系统。
14.图3图示了根据一方面的用于跨可穿戴设备、计算设备和服务器计算机分布图像和/或音频处理的系统。
15.图4图示了根据一方面的头戴式显示设备的示例。
16.图5图示了根据一方面的头戴式显示设备上的电子组件的示例。
17.图6图示了根据一方面的头戴式显示设备上的电子组件的印刷电路板基板。
18.图7a图示了根据一方面的用于在可穿戴设备和计算设备之间分布音频处理的系统。
19.图7b图示了根据一方面的声音分类器。
20.图8图示了根据一方面的用于在可穿戴设备和服务器计算机之间分布音频处理的系统。
21.图9图示了根据一方面的用于使用可穿戴设备和计算设备进行音频处理的系统。
22.图10图示了根据一方面的用于使用可穿戴设备、计算设备和服务器计算机进行音频处理的系统。
23.图11图示了根据一方面的使用可穿戴设备的音频处理的流程图。
24.图12图示了根据另一方面的使用可穿戴设备的音频处理的流程图。
25.图13a图示了根据一方面的用于使用可穿戴设备和计算设备的图像处理的系统。
26.图13b图示了根据一方面的图像分类器。
27.图13c图示了根据一方面的边界框数据集的示例。
28.图14图示了根据一方面的使用可穿戴设备的图像处理的流程图。
29.图15图示了根据一方面的用于使用可穿戴设备和计算设备的图像处理的系统。
30.图16图示了根据一方面的用于使用可穿戴设备的图像处理的流程图。
31.图17图示了根据一方面的用于使用可穿戴设备和计算设备的图像处理的系统。
32.图18图示了根据一方面的用于使用可穿戴设备和计算设备的音频和/或图像处理的系统。
33.图19图示了根据一方面的用于使用可穿戴设备的图像处理的流程图。
34.图20图示了根据一方面的用于使用可穿戴设备和计算设备的音频处理的系统。
35.图21图示了根据一方面的用于使用可穿戴设备的音频处理的流程图。
具体实施方式
36.对于由可穿戴设备上的一个或多个传感器捕获的传感器数据，可穿戴设备执行音频和/或图像处理的一部分(例如，较低能量密集操作)，并且计算设备(和/或服务器计算机和/或其他多个设备)执行音频和/或图像处理的其他部分(例如，较高能量密集操作)。例如，可穿戴设备可以使用相对较小的机器学习(ml)模型，智能地检测传感器数据的存在(例如，音频数据是否包括感兴趣的声音，诸如语音、音乐、警报、话音命令的热词等，或者图像数据是否包括感兴趣的对象，诸如对象、文本、条形码、面部特征等)，并且如果是这样，则可以通过无线连接将传感器数据流式传输到计算设备，以使用相对较大的ml模型执行更复杂的音频和/或图像处理。可以经由无线连接，将更复杂的音频和/或图像处理的结果提供回可穿戴设备，这可以使可穿戴设备执行动作(包括附加的图像/音频处理)和/或可以使可穿戴设备在可穿戴设备的显示器上渲染结果。
37.在一些示例中，该混合架构可以在诸如头戴式显示设备(例如，智能眼镜)的可穿戴设备中实现具有较少电路组件的小型外形。例如，由于系统将更能量密集的操作卸载到
所连接的计算设备(和/或服务器计算机)，因此可穿戴设备可以包括不太强大/复杂的电路。在一些示例中，可穿戴设备的架构可以在眼镜的框架内实现相对小型的印刷电路板，其中，印刷电路板包括功率相对较低同时仍然能够执行基于图像处理和/ 或计算机视觉(诸如对象分类、光学字符识别(ocr)和/或条形码解码) 的可穿戴应用的电路。结果，可以增加电池寿命，使得用户可以在延长的时间段内使用可穿戴设备。
38.在一些示例中，声音识别操作分布在可穿戴设备与计算设备(以及潜在地服务器计算机或其他计算设备)之间。例如，可穿戴设备包括声音分类器(例如，小ml模型)，其被配置为检测感兴趣的声音(例如，语音、音乐、警报等)是否包括在由可穿戴设备上的麦克风捕获的音频数据内。如果没有，则声音分类器继续监视音频数据以确定是否检测到感兴趣的声音。如果有，则可穿戴设备可以通过无线连接将音频数据(例如，原始声音、压缩声音、声音片段、提取的特征和/或音频参数等)流式传输到计算设备。声音分类器可以通过其相对小的ml模型来节省功率和等待时间。计算设备包括更强大的声音识别引擎(例如，更强大的分类器)，其执行更大的ml模型以将音频数据转译(或转换)为文本数据(或其他形式的数据)，其中，计算设备经由无线连接，将文本数据传送回到可穿戴设备以显示在可穿戴设备的显示器上和/或可听地读回给用户。在一些示例中，计算设备通过网络(例如，互联网)连接到服务器计算机，并且计算设备将音频数据传送到服务器计算机，其中，服务器计算机执行更大的ml模型以将音频数据转译为文本数据(例如，在转译为不同语言的情况下)。然后，文本数据被路由回到计算设备，然后被路由回到可穿戴设备以供显示。
39.在一些示例中，图像识别操作分布在可穿戴设备和计算设备之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、条形码和/或文本)的操作。可穿戴设备包括图像分类器(例如，小ml 模型)，其被配置为检测感兴趣的对象(例如，面部特征、文本、ocr 码等)是否包括在由可穿戴设备上的一个或多个成像传感器捕获的图像数据内。如果是，则可穿戴设备可以通过无线连接将图像帧(包括感兴趣的对象)传送到计算设备。计算设备包括更强大的对象检测器(例如，更强大的分类器)，其执行更大的ml模型以计算识别所检测的感兴趣对象的位置的对象位置数据(例如，边界框数据集)，其中，计算设备将对象位置数据传送回可穿戴设备。可穿戴设备使用一个或多个低复杂度跟踪机制(例如，基于惯性测量单元(iuu)的扭曲、斑点检测、光流等)来传播用于可穿戴设备上捕获的后续图像帧的对象位置数据。可穿戴设备可以压缩裁剪区域并将其发送到计算设备，其中，计算设备上的对象检测器可以对裁剪区域执行对象检测并将更新的对象位置数据发送回到可穿戴设备。
40.在一些示例中，具有多分辨率的感知操作分布在可穿戴设备和计算设备之间。感知操作可以包括常开感测和感测语音输入请求(例如，热词检测)。例如，可穿戴设备可以包括低功率/低分辨率(lplr)相机和高功率/高分辨率(hphr)相机。在一些示例中，可穿戴设备可以包括图像分类器，该图像分类器执行小ml模型以从由lplr相机捕获的图像数据中检测感兴趣的对象(例如，面部、文本、条形码、建筑物等)。如果检测到感兴趣的对象，则可以触发hphr相机以捕获具有更高质量 (例如，更高分辨率、更少噪声等)的一个或多个图像帧。对于一些应用，可能需要更高质量的图像。
41.然后，可以通过无线连接将来自hphr相机的图像帧传送到计算设备，其中，计算设备执行更大的ml模型以对具有更高质量的图像帧执行更复杂的图像识别操作。在一些示例
中，操作可以类似于上述对象检测示例，其中，对象位置数据(例如，边界框数据集)被计算并被发送到可穿戴设备，以及可穿戴设备使用一个或多个跟踪机制来将对象位置数据传播到后续帧，然后可穿戴设备裁剪并压缩图像区域以被发送回计算设备以进一步处理。在一些示例中，产品的图像流可以被用来捕获标签文本或条形码并查找相关联的产品信息(例如，价格、购物建议、可比较的产品等)。该信息可以显示在可穿戴设备上存在的显示表面上，或者可听地读回给用户。
42.就感测语音输入请求而言，可穿戴设备可以包括话音命令检测器，该话音命令检测器执行小ml模型(例如，把关模型)以连续地(例如，周期性地)处理针对热词(例如，“ok g”或“ok d”)的初始部分的麦克风样本。如果话音命令检测器检测到该初始部分，则话音命令检测器可以使缓冲器捕获后续音频数据。此外，可穿戴设备可以通过无线连接将缓冲器的一部分(例如，从缓冲器的头部的1-2秒的音频)传送到计算设备，其中，计算设备包括具有较大ml模型的热词识别引擎以执行全热词识别。如果话语是错误位置，则计算设备可以向可穿戴设备传送解除命令，其丢弃缓冲器的内容。如果话语是真实位置，则将音频缓冲器的其余部分传送到计算设备以用于自动语音识别和用户绑定响应生成。
43.本文描述的系统和技术可以减少可穿戴设备的功耗、增加电池寿命、减少由可穿戴设备生成的热量，和/或减少可穿戴设备内的电路组件的量(这会导致重量减小)，这可能导致可穿戴设备长时间段的使用。在一些示例中，在功率方面，本文描述的系统和技术可以将可穿戴设备的电池寿命延长到延长的时间段(例如，5至15小时，或超过15小时)。相比之下，一些常规智能眼镜及其它图像/音频处理产品可能仅能使用几个小时。
44.在一些示例中，在带宽方面，本文描述的系统和技术可以使用把关模型(例如，小分类器、二进制分类器等)跨无线连接分布计算操作(例如，推断操作)，以限制不必要的传输，这可以减少等待时间并减少功率使用。在一些示例中，在等待时间方面，本文描述的系统和技术可以使得能够在可穿戴设备的传感器附近和跨计算设备(以及潜在地服务器计算机)的组件这两者中使用推断，这可以提供调谐性能以满足各种应用的要求的灵活性。当应用使用和功率(例如，剩余电池寿命)或计算要求在使用中改变时，ml决策可以动态地发生。在一些示例中，在计算能力方面，本文描述的系统和技术可以提供计算资源的灵活使用以满足应用要求。
45.图1图示了用于跨包括设备102、计算设备152和/或服务器计算机 160的多个设备分布对传感器数据128的图像和/或音频处理的系统100。在一些示例中，传感器数据128是实时传感器数据或近实时传感器数据 (例如，实时或近实时地从一个或多个传感器138收集的数据)。在一些示例中，可以在设备102和计算设备152之间分布对传感器数据128 的图像和/或音频处理。在一些示例中，对传感器数据128的图像和/或音频处理可以分布在设备102、计算设备152或服务器计算机160(或其任何组合)中的任何两个或更多个之间。在一些示例中，系统100包括多个设备102和/或多个计算设备152，其中，每个设备执行分类器，该分类器做出关于是否以及什么数据要中继到下一个分类器的决定，该下一个分类器可以在相同设备或不同设备上。
46.设备102被配置为经由无线连接148连接到计算设备152。在一些示例中，无线连接148是近距离通信链路，诸如近场通信(nfc)连接或蓝牙连接。设备102和计算设备152可以经由无线连接148交换信息。在一些示例中，无线连接148定义应用层协议，该应用层协议使
用具有用于绘制图形图元、配置传感器138和外围设备以及改变设备模式的消息类型的协议缓冲器来实现。在一些示例中，应用层协议定义了可以将传感器数据128和远程过程调用(rpc)返回值传送回计算设备152的另一组消息类型。
47.计算设备152可以通过网络150耦合到服务器计算机160。服务器计算机160可以是采取多个不同设备形式的计算设备，例如标准服务器、一组这样的服务器或机架服务器系统。在一些示例中，服务器计算机160 是共享诸如处理器和存储器的组件的单个系统。网络150可以包括互联网和/或其他类型的数据网络，诸如局域网(lan)、广域网(wan)、蜂窝网络、卫星网络或其他类型的数据网络。网络150还可以包括被配置为在网络150内接收和/或传送数据的任何数量的计算设备(例如，计算机、服务器、路由器、网络交换机等)。在一些示例中，设备102还被配置为通过网络150连接到服务器计算机160。
48.关于由设备102上的一个或多个传感器138实时或接近实时地捕获的传感器数据128的音频和/或图像处理，在设备102处执行音频和/或图像处理的一部分(例如，较低能量密集操作)，并且在计算设备152 (和/或服务器计算机160)处执行音频和/或图像处理的其他部分(例如，较高能量密集操作)。在一些示例中，音频和/或图像处理的另一部分在另一设备处执行。在一些示例中，音频和/或图像处理的另一部分在又一设备处执行等等。在一些示例中，传感器数据128包括音频数据131。在一些示例中，传感器数据128包括图像数据129。在一些示例中，传感器数据128包括音频数据131和图像数据129。
49.设备102可以智能地检测由传感器138捕获的传感器数据128内的某些类型的数据的存在。在一些示例中，设备102可以检测由麦克风140 捕获的音频数据131是否包括感兴趣的声音，诸如语音、音乐、警报或用于命令检测的热词的至少一部分等。在一些示例中，设备102可以检测图像数据129是否包括感兴趣的对象(例如，对象、文本、条形码、面部特征等)。如果设备102检测到传感器数据128内的相关数据，则设备102可以通过无线连接148将传感器数据128流式传输到计算设备 152，以执行更复杂的音频和/或图像处理。在一些示例中，设备102可以将图像数据129流式传输到计算设备152。在一些示例中，设备102 可以将音频数据131流式传输到计算设备152。在一些示例中，设备102 可以将音频数据131和图像数据129这两者流式传输到计算设备152。
50.在一些示例中，设备102在传输到计算设备152之前压缩音频数据 131和/或图像数据129。在一些示例中，设备102从传感器数据128提取特征并将提取的特征发送到计算设备152。在一些示例中，设备102 从传感器数据128提取特征并将提取的特征发送到计算设备152。例如，所提取的特征可以包括声音强度、所计算的到达角(例如，声音来自什么方向)和/或声音的类型(例如，语音、音乐、警报等)。在一些示例中，所提取的特征可以包括压缩编码，其可以为特定类型的声音节省传输带宽。可以经由无线连接148，将在计算设备152处执行的更复杂的音频和/或图像处理的结果提供回设备102，以使设备102执行动作(包括进一步的音频和/或图像处理)，使设备102在设备102的显示器116 上渲染结果，和/或使设备102可听地提供结果。
51.在一些示例中，设备102是能够佩戴在人的皮肤上或附近的显示设备。在一些示例中，设备102是可穿戴设备。在一些示例中，设备102 是头戴式显示器(hmd)设备，诸如光学头戴式显示器(ohmd)设备、透明平视显示器(hud)设备、增强现实(ar)设备或其他设备，诸如具有传感器、显示器和计算能力的谷歌眼镜或耳机。在一些示例中，设备102是智能眼镜。
智能眼镜是以一副眼镜的形状设计的光学头戴式显示器。例如，智能眼镜是在佩戴者通过眼镜观看的事物旁边添加信息 (例如，投影一个显示器116)的眼镜。在一些示例中，可以通过智能光学器件来实现将信息(例如，数字图像)叠加到视场上。智能眼镜是可以运行自包含移动app(例如，应用112)的有效可穿戴计算机。在一些示例中，智能眼镜可以是免提的，并且可以经由自然语言话音命令与互联网通信，而其他智能眼镜使用触摸按钮。在一些示例中，设备102 可以包括任何类型的低功率设备。在一些示例中，设备102包括安全相机。在一些示例中，设备102包括动作相机。在一些示例中，设备102 包括智能手表。在一些示例中，设备102包括智能门铃。如上所述，系统100可以包括多个设备102(例如，智能手表、智能眼镜等)，其中，每个设备102被配置为执行可以执行图像/音频处理的分类器，然后将数据路由到分类器网络中的下一个分类器。
52.设备102可以包括一或多个处理器104，其可形成于基板中，被配置为执行一或多个机器可执行指令或软件、固件或其组合。在一些示例中，处理器104被包括为片上系统(soc)的一部分。处理器104可以是基于半导体的，即，处理器可以包括可以执行数字逻辑的半导体材料。处理器104包括微控制器106。在一些示例中，微控制器106是soc内的子系统，并且可以包括进程、存储器和输入/输出外围设备。在一些示例中，微控制器106是执行分类器的专用硬件处理器。设备102可以包括功率管理单元(pmu)108。在一些示例中，pmu 108与soc集成或被包括在soc内。微控制器106被配置为执行机器学习(ml)模型126 以使用传感器数据128来执行与音频和/或图像处理相关的推断操作 124-1。如下面进一步讨论的，ml模型126的相对小的尺寸可以节省功率和等待时间。在一些示例中，设备102包括执行多个推断操作124-1 的多个微控制器106和多个ml模型126，其可以彼此通信和/或与其他设备(例如，计算设备152和/或服务器计算机160)通信。
53.设备102包括一个或多个存储器设备110。在一些示例中，存储器设备110包括闪存。在一些示例中，存储器设备110可以包括主存储器，该主存储器以可以由包括微控制器106的处理器104读取和/或执行的格式来存储信息。存储器设备110可以存储用于由微控制器106执行的 ml模型126的权重109(例如，推断权重或模型权重)。在一些示例中，存储器设备110可以存储诸如字体和图像的其他资产。
54.在一些示例中，设备102包括一个或多个应用112，其可以存储在存储器设备110中，并且当由处理器104执行时，执行某些操作。应用 112可以根据使用情况而广泛地变化，但是可以包括搜索web内容的浏览器应用、诸如语音到文本应用的声音识别应用、图像识别应用(包括对象和/或面部检测(和跟踪)应用、条形码解码应用、文本ocr应用等)、和/或可以使设备102能够执行某些功能(例如，捕获图像、记录视频、获得方向、发送消息等)的其他应用。在一些示例中，应用112 包括电子邮件应用、日历应用、存储应用、话音呼叫应用和/或消息传递应用。
55.设备102包括显示器116，显示器116是显示信息的用户界面。在一些示例中，显示器116被投影到用户的视场上。在一些示例中，显示器116是内置透镜显示器。显示器116可以包括液晶显示器(lcd)、发光二极管(led)显示器、有机发光显示器(oled)、电泳显示器 (epd)或采用led光源的微投影显示器。在一些示例中，显示器116 可以提供透明或半透明显示器，使得佩戴眼镜的用户可以看到由显示器 116提供的图像，但也可以看到位于投影图像后面的智能眼镜的视场中的信息。在一些示例中，设备102包括触摸板117，其允许用户
控制设备102(例如，其可以允许轻扫显示在显示器116上的界面)。设备102 包括被配置为向电路组件供电的电池120、使得经由无线连接148与计算设备152和/或经由网络150与服务器计算机160通信的一或多个射频 (rf)收发器114、被配置为控制电池120的充电的电池充电器122，以及控制由显示器116显示的信息的一或多个显示调节器118。
56.设备102包括多个传感器138，诸如被配置为捕获音频数据131的麦克风140、被配置为捕获图像数据的一或多个成像传感器142、被配置为获得光照条件信息的光照条件传感器144、和/或被配置为获得运动信息的运动传感器146。麦克风140是将声音转换成由音频数据131表示的电信号的换能器设备。光照条件传感器144可以检测曝光量。在一些示例中，光照条件传感器144包括检测存在的环境光量的环境光传感器，其可以用于确保以期望的信噪比(snr)捕获图像数据129。然而，光照条件传感器144可以包括其他类型的光度(或色度计)传感器。运动传感器146可以获得运动信息，其可以包括模糊估计信息。运动传感器146被用于监视设备移动(诸如倾斜、摇动、旋转和/或摆动)和/或用于确定模糊估计。
57.成像传感器142是检测和传达用于制作由图像数据129表示的图像的信息的传感器(例如，相机)。成像传感器142可以拍摄图片并记录视频。在一些示例中，设备102包括单个成像传感器142。在一些示例中，设备102包括多个成像传感器142。在一些示例中，成像传感器142 包括成像传感器142a和成像传感器142b。成像传感器142a可以被认为是低功率、低分辨率(lplr)图像传感器。成像传感器142b可以被认为是高功率、高分辨率(hplr)图像传感器。由成像传感器142b捕获的图像具有比由成像传感器142a捕获的图像更高的质量(例如，更高的分辨率、更低的噪声)。在一些示例中，设备102包括两个以上成像传感器142。
58.在一些示例中，成像传感器142a被配置为在激活设备102时获得图像数据129(例如，在激活设备102时连续地或周期性地捕获图像数据129)。在一些示例中，成像传感器142a被配置为操作为常开传感器。在一些示例中，响应于检测到感兴趣的对象，(例如，短持续时间内) 激活成像传感器142b，如下面进一步讨论的。
59.计算设备152可以是能够无线连接到设备102的任何类型的计算设备。在一些示例中，计算设备152是移动计算设备。在一些示例中，计算设备152是智能电话、平板计算机或膝上型计算机。在一些示例中，计算设备152是可穿戴设备。计算设备152可以包括形成在基板中的一个或多个处理器154，其被配置为执行一个或多个机器可执行指令或软件、固件或其组合。处理器154可以是基于半导体的，即，处理器可以包括可以执行数字逻辑的半导体材料。
60.计算设备152可以包括一个或多个存储器设备156。存储器设备156 可以包括以可以由处理器154读取和/或执行的格式存储信息的主存储器。操作系统155是管理计算机硬件、软件资源并为计算程序提供公共服务的系统软件。尽管未在图1中示出，但是计算设备152可以包括显示器(例如，触摸屏显示器、led显示器等)，其可以显示用于正由计算设备152执行的应用158的用户界面。应用158可以包括可由操作系统155执行的任何类型的计算机程序。应用158可以包括移动应用，例如为移动平台或移动设备开发的软件程序。
61.在一些示例中，对由传感器138获得的传感器数据128执行的音频和/或图像处理被称为推断操作(或ml推断操作)。推断操作(例如，推断操作124-1或推断操作124-2)可以是指涉及进行(或导致)一个或多个预测的ml模型的音频和/或图像处理操作、步骤或子步骤。某些类型的音频和/或图像处理使用ml模型来进行预测。例如，机器学习可以使用学习
来自现有数据中的数据的统计算法，以便做出关于新数据的决定，这是被称为推断的过程。换句话说，推断是指采用已经训练的模型并使用该经过训练的模型来进行预测的过程。推断的一些示例可以包括声音识别(例如，语音到文本识别)、图像识别(例如，面部识别和跟踪等)和/或感知(例如，常开感测、话音输入请求感测等)。
62.在一些示例中，ml模型包括一个或多个神经网络。神经网络对由输入层接收的输入进行变换，通过一系列隐藏层对其进行变换，并且经由输出层产生输出。每一层由节点集合的子集组成。隐藏层中的节点完全连接到在先一层中的所有节点，并将它们的输出提供给下一层中的所有节点。单层中的节点彼此独立地起作用(即，不共享连接)。输出中的节点将变换后的输入提供给请求进程。在一些示例中，神经网络是卷积神经网络，其是未完全连接的神经网络。因此，卷积神经网络具有比全连接神经网络更低的复杂性。卷积神经网络还可以利用池化或最大池化来降低流过神经网络的数据的维度(并因此降低复杂性)，因此可以降低所需的计算水平。这使得卷积神经网络中的输出的计算比神经网络中的输出的计算更快。
63.关于特定推断类型，设备102可以执行推断的一个或多个部分以智能地检测传感器数据128的存在(例如，音频数据131是否包括感兴趣的声音，诸如语音、警报或热词的至少一部分，和/或图像数据129是否包括感兴趣的对象(例如，面部特征、文本、对象、条形码等))，如果是，则通过无线连接148将传感器数据128发送到计算设备152，其中，计算设备152使用传感器数据128执行ml推断的一个或多个其他部分(例如，音频和/或图像处理的更复杂部分)。换句话说，推断操作可以分布在设备102和计算设备152(以及潜在地服务器计算机160) 之间，使得在与相对小的计算设备(例如，设备102)相比的更强大计算设备(例如，计算设备152或服务器计算机160)处执行能量密集型操作。
64.在一些示例中，系统100可以包括其他设备(例如，除了设备102、计算设备152和服务器计算机160之外)，其中，这些其他设备中的一个或多个可以执行一个或多个分类器(其中，每个分类器执行与对象/ 声音识别相关的ml模型)。例如，系统100可以具有在设备102、一个或多个可穿戴设备(例如，一个或多个设备102)上的一个或多个分类器和/或在计算设备152上的一个或多个分类器。此外，可以将数据发送到服务器计算机160以进行服务器侧处理，这可以具有附加的分类步骤。因此，在一些示例中，系统100可以包括分类器网络，该分类器网络分析音频/相机流并决定是否以及什么要中继到下一节点(或分类器)。
65.在一些示例中，设备102的微控制器106可以使用传感器数据128 (例如，来自麦克风140的音频数据131和/或来自成像传感器142中的一个或多个的图像数据129)和存储在设备102上的ml模型126来执行推断操作124-1。在一些示例中，ml模型126可以将传感器数据128 接收为输入，并且检测传感器数据128是否其中具有训练ml模型126 进行分类的分类(例如，音频数据131是否包括感兴趣的声音或者图像数据129是否包括感兴趣的对象)。在一些示例中，ml模型126是可以针对特定标准(例如，频率、幅度、特征检测等)评估传入声音的声音分类器。在一些示例中，所分析的标准确定音频数据(例如，原始声音、压缩声音、声音片段、音频参数等)是否应当被发送到其他设备(包括计算设备152、服务器计算机160等)，该其他设备进行进一步分类。
66.在一些示例中，ml模型126是检测音频数据131包括语音还是不包括语音的语音分类器(例如，二进制语音分类器)。在一些示例中， ml模型126是图像对象分类器(检测器)，
其检测图像数据129是包括感兴趣对象还是不包括感兴趣对象。在一些示例中，ml模型126是检测图像数据129是包括面部特征还是不包括面部特征的对象分类器。在一些示例中，ml模型126是确定音频数据131是否包括用于话音命令的热词的至少一部分的分类器。
67.如果ml模型126的输出指示已经检测到分类，则设备102的rf 收发器114可以经由无线连接148，将传感器数据128传送到计算设备 152。在一些示例中，设备102可以压缩传感器数据128，然后将所压缩的传感器数据128发送到计算设备152。然后，计算设备152被配置为使用传感器数据128(从设备102接收的)和存储在计算设备152上的 ml模型127来执行推断操作124-2。在一些示例中，在声音识别(例如，语音到文本处理)方面，ml模型127被用来将音频数据131转换为文本，其中，结果被传送回设备102。在一些示例中，在热词命令识别方面，ml模型127被用来对从设备102接收的音频数据131执行全热词命令识别。在一些示例中，在图像处理方面，ml模型127被用来计算对象位置数据(识别图像数据中的感兴趣对象的位置)，其中，结果被传送回设备102以进行进一步的图像处理，这在说明书中稍后进一步描述。
68.然而，通常，推断操作124-2可以是指涉及与推断操作124-1不同的ml模型的音频和/或图像处理操作。在一些示例中，推断操作包括声音识别操作，其中，推断操作124-1是指使用ml模型126执行的第一声音识别操作，而推断操作124-2是指使用ml模型127执行的第二声音识别。在一些示例中，推断操作包括图像识别操作，其中，推断操作 124-1是指使用ml模型126执行的第一图像识别操作，而推断操作 124-2是指使用ml模型127执行的第二图像识别操作。在一些示例中，推断操作包括感知感测操作(例如，常开感测、话音命令感测(例如，热词识别)等)，其中，推断操作124-1是指使用ml模型126执行的第一感知感测操作，而推断操作124-2是指使用ml模型127执行的第二感知感测操作。
69.ml模型126的尺寸可以小于(例如，基本上小于)ml模型127 的尺寸。在一些示例中，与ml模型127相比，可能要求ml模型126 执行更少的计算操作来进行预测。在一些示例中，特定ml模型的尺寸可以由该模型进行预测所需的参数的数量来表示。参数是ml模型内部的配置变量，并且其值可以从给定数据估计。ml模型126可以包括参数111。例如，ml模型126可以定义ml模型126进行预测所需的多个参数111。ml模型127包括参数113。例如，ml模型127可以定义 ml模型127进行预测所需的多个参数113。参数111的数量可以小于 (例如，基本上小于)参数113的数量。在一些示例中，参数113的数量比参数111的数量大至少十倍。在一些示例中，参数113的数量比参数111的数量大至少一百倍。在一些示例中，参数113的数量比参数111 的数量大至少一千倍。在一些示例中，参数113的数量比参数111的数量大至少一百万倍。在一些示例中，参数111的数量在10k和100k之间的范围内。在一些示例中，参数111的数量小于10k。在一些示例中，参数113的数量在1m和10m之间的范围内。在一些示例中，参数113 的数量大于10m。
70.在一些示例中，声音识别操作(例如，语音、警报或通常任何类型的声音)分布在设备102和计算设备152之间。在一些示例中，声音识别操作分布在设备102和计算设备152之间。例如，微控制器106被配置为通过调用ml模型126来执行推断操作124-1，以检测感兴趣的声音是否包括在由设备102上的麦克风140捕获的音频数据131内。ml 模型126可以是将音频数据131分类为包含感兴趣的声音或不包括感兴趣的声音的分类器。例如，ml模型126从麦克风140接收音频数据131，并且计算关于音频数据131是否包括感兴趣的声音的预测。
如果ml模型126未在音频数据131内检测到感兴趣的声音，则ml模型126继续从麦克风140接收音频数据131作为输入，以计算关于是否在音频数据 131内检测到感兴趣的声音的预测。如果ml模型126在音频数据131 内检测到感兴趣的声音，则设备102通过无线连接148，将音频数据131 (例如，原始声音、压缩声音、声音片段和/或音频参数等)流式传输到计算设备152。在一些示例中，设备102压缩音频数据131，然后通过无线连接148将压缩的音频数据131发送到计算设备152。
71.计算设备152通过无线连接148从设备102接收音频数据131，并且通过调用ml模型127来执行推断操作124-2。ml模型127可以通过其相对小的ml模型来节省功率和等待时间。计算设备152包括更强大的声音识别引擎(例如，另一种类型的分类器)，其执行ml模型127 (例如，更大的ml模型)以转换音频数据131(潜在地转换为文本数据)，其中，计算设备152经由无线连接148将文本数据传送回设备102 以显示在设备的显示器上。在一些示例中，计算设备152通过网络150 (例如，互联网)连接到服务器计算机160，并且计算设备152将音频数据131传送到服务器计算机160，其中，服务器计算机160执行更大的ml模型以将音频数据131转换为文本数据(例如，在转译成不同语言的情况下)。然后，文本数据被路由回到计算设备152，然后路由到设备102以供显示。
72.在一些示例中，图像识别操作分布在设备102和计算设备152之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、文本和条形码)的操作。微控制器106被配置为通过调用ml模型126 来执行推断操作124-1，以检测包括在由设备102上的一个或多个成像传感器142捕获的图像数据129内的感兴趣对象。如果是，则设备102 可以通过无线连接148将图像帧(包括感兴趣的对象)传送到计算设备 152。在一些示例中，设备102压缩图像帧，然后通过无线连接148将压缩的图像帧传送到计算设备152。
73.计算设备152被配置为通过调用ml模型127来执行推断操作 124-2，以使用图像数据129执行更复杂的图像处理操作，诸如计算识别感兴趣对象的位置的对象位置数据(例如，边界框数据集)，其中，计算设备152将对象位置数据传送回设备102。设备102使用一个或多个低复杂度跟踪机制(例如，基于imu的扭曲、斑点检测、光流等)来传播在设备102上捕获的后续图像帧的对象位置数据。设备102可以压缩裁剪的区域并将其发送到计算设备152，其中，计算设备152可以对裁剪的区域执行图像分类并将更新的对象位置数据发送回设备102。
74.在一些示例中，具有多分辨率的感知操作分布在设备102和计算设备152之间。感知操作可以包括常开感测和感测话音输入请求(例如，热词检测)。在一些示例中，当用户佩戴设备102时，成像传感器142a (例如，lplr相机)被激活，以便以相对低的分辨率捕获图像数据129 来搜索感兴趣的区域。例如，微控制器106被配置为通过调用ml模型126(将图像数据129用作ml模型126的输入)来执行推断操作124-1，以检测感兴趣的对象(例如，面部、文本、条形码、建筑物等)。如果检测到感兴趣的对象，则可激活成像传感器142b以捕获具有较高分辨率的一个或多个图像帧。
75.然后，可以通过无线连接148将具有较高分辨率的图像数据129传送到计算设备152。在一些示例中，设备102压缩具有较高分辨率的图像数据129，并且通过无线连接148传送压缩的图像数据129。计算设备152被配置为通过调用(被输入具有较高分辨率的图像数
据129)ml 模型127来执行推断操作142-2以执行图像识别。在一些示例中，操作可以类似于上述面部检测示例，其中，对象位置数据(例如，边界框数据集)由计算设备152计算并发送到设备102，并且设备102使用一个或多个跟踪机制来将对象位置数据传播到后续帧，然后设备102裁剪和压缩将被发送回计算设备152的图像区域以进一步图像分类。在一些示例中，产品的图像流可以被用来捕获标签文本或条形码并查找相关联的产品信息(例如，价格、购物建议、可比较的产品等)。该信息可以显示在设备102上的显示器116上，或者可听地读回给用户。
76.在感测话音输入请求方面，微控制器106被配置为通过调用ml模型126来执行推断操作124-1以连续地(例如，周期性地)处理热词(例如，“ok g”或“ok d”)的初始部分的麦克风样本(例如，音频数据 131)。如果ml模型126检测到初始部分，则微控制器106可以使缓冲器捕获后续音频数据131。此外，设备102可以通过无线连接148向计算设备152传送缓冲器的一部分(例如，从缓冲器的头部开始的1-2 秒的音频)。在一些示例中，缓冲器的该部分在被传送到计算设备152 之前被压缩。计算设备152被配置为通过调用ml模型127来执行推断操作124-2，以使用音频数据131执行全热词识别。如果话语是错误位置，则计算设备152可以向设备102发送解除命令，其丢弃缓冲器的内容。如果话语是真实位置，则音频缓冲器的其余部分被压缩并被传送到计算设备152，以用于自动语音识别和用户绑定响应生成。
77.在一些示例中，为了提高传输效率，设备102可以缓冲多个数据包 134，并且通过无线连接148将数据包134作为单个传输事件132传送到计算设备152。例如，每一传输事件132可以与使得从电池120耗散电力的功耗相关联。在一些示例中，设备102确定要传送到计算设备152 的信息的类型。在一些示例中，如果要传送到计算设备152的信息的类型涉及等待时间相关信息(例如，音频流式传输)，则设备102可以不缓冲音频数据131，而是没有延迟地流式传输音频数据131。在一些示例中，如果要传送的信息不是依赖于等待时间的信息，则设备102可以将该信息作为一个或多个数据包134存储在缓冲器130中，并且在稍后的时间，将该信息传送到计算设备152。缓冲器130可以是存储器设备 110的一部分。在一些示例中，其他非等待时间相关信息可以与缓冲器130中的现有数据组合，并且包含在缓冲器130中的信息可以作为单个传输事件132被传送到计算设备152。
78.例如，缓冲器130可以包括数据包136a和数据包136b。数据包136a 可以包括在第一时间实例获得的信息，并且数据包136b可以包括在第二时间实例获得的信息，其中，第二时间实例在第一时间实例之后。然而，除了将数据包136a和数据包136b作为不同的传输事件132来传输之外，设备102可以将数据包136a和数据包136b存储在缓冲器130中，并且将数据包136a和数据包136b作为单个传输事件132来传送。以这种方式，可以减少传输事件132的数量，这可以提高向计算设备152送达信息的能量效率。
79.图2图示了用于跨包括设备202、计算设备252和服务器计算机260 的多个设备分布图像和/或音频处理的系统200。系统200可以是图1的系统100的示例，并且可以包括参考那些附图公开的任何细节。设备202 通过无线连接248连接到计算设备252。在一些示例中，设备202是头戴式显示设备，诸如智能眼镜。然而，设备202可以是如本文所讨论的其他类型的低功率设备。计算设备252通过网络250连接到服务器计算机260。在图2中，设备202从设备202上的一个或多个传感器238获得传感器数据228。传感器数据228可以包括图像数据或音频数据中的至少一个。设备202(例如，图1的微控制器106)可以通过调用ml 模型226来执
行推断操作224-1以对传感器数据228执行图像和/或音频处理，以检测传感器数据228是否包括训练ml模型226的数据类型。在一些示例中，设备202可以包括多个分类器(例如，多个微控制器106)，其中，每一个分类器可以做出将传感器数据228(或决定的结果)发送到另一分类器的决定，该另一分类器可以在设备202或诸如计算设备252 的另一设备上。
80.如果检测到训练ml模型226的数据的类型，则设备202可以通过无线连接248将传感器数据228传送到计算设备252。然后，计算设备252可以通过网络250将传感器数据228传送到服务器计算机260。在一些示例中，计算设备252可以包括一个或多个分类器，该一个或多个分类器处理由传感器238捕获的音频/图像数据，以做出关于是否调用计算设备252、设备202或服务器计算机260上的另一分类器的决定。服务器计算机260包括一个或多个处理器262，其可以形成在被配置为执行一个或多个机器可执行指令或软件、固件或其组合的基板中。处理器 262可以是基于半导体的，即，处理器可以包括可以执行数字逻辑的半导体材料。服务器计算机260包括一个或多个存储器设备264。存储器设备264可以包括以可由处理器262读取和/或执行的格式存储信息的主存储器。
81.服务器计算机260被配置为使用传感器数据228和存储在服务器计算机260上的ml模型229来执行推断操作224-2。推断操作224-1和推断操作224-2涉及不同的音频和/或图像处理操作。在一些示例中，推断操作224-1和推断操作224-2涉及不同的音频处理操作。在一些示例中，推断操作224-1和推断操作224-2涉及不同的图像识别操作。在一些示例中，推断操作224-1和推断操作224-2涉及不同的感知操作。
82.ml模型226的尺寸可以小于(例如，基本上小于)ml模型229 的尺寸。ml模型226可以定义ml模型226进行预测所需的多个参数 211。ml模型229可以定义ml模型229进行预测所需的多个参数215。参数211的数量小于(例如，基本上小于)参数215的数量。在一些示例中，参数215的数量比参数211的数量大至少一千倍。在一些示例中，参数215的数量比参数211的数量大至少一百万倍。在一些示例中，参数211的数量在10k和100k之间的范围内。在一些示例中，参数211 的数量小于10k。在一些示例中，参数215的数量在10m和100m之间的范围内。在一些示例中，参数215的数量大于100m。
83.图3图示了用于跨包括设备302、计算设备352和服务器计算机360 的多个设备分布图像和/或音频处理的系统300。系统300可以是图1的系统100和/或图2的系统200的示例，并且可以包括参考那些附图公开的任何细节。设备302通过无线连接348连接到计算设备352。在一些示例中，设备302是头戴式显示设备，诸如智能眼镜。然而，设备302 可以是如本文所讨论的其他类型的低功率设备。计算设备352通过网络 350连接到服务器计算机360。在图3中，设备302从设备302上的一个或多个传感器338获得传感器数据328。传感器数据328可以包括图像数据或音频数据中的至少一个。设备302(例如，图1的微控制器106) 可以通过调用ml模型336来执行推断操作324-1以对传感器数据328 执行图像和/或音频处理，以检测传感器数据328是否包括训练ml模型 336的数据类型。
84.如果检测到训练ml模型326的数据的类型，则设备302可以通过无线连接348将传感器数据328传送到计算设备352。计算设备352被配置为使用传感器数据328和存储在计算设备352上的ml模型327来执行推断操作324-2。然后，计算设备352可以通过网络350将推断操作324-2的结果和/或传感器数据328发送到服务器计算机360。
85.服务器计算机360被配置为使用推断操作324-2的结果和/或传感器数据328和存
储在服务器计算机360上的ml模型329来执行推断操作 324-3。推断操作324-1、推断操作324-2和推断操作324-3涉及不同的音频和/或图像处理操作。在一些示例中，推断操作324-1、推断操作 324-2、推断操作324-3涉及不同的音频处理操作。在一些示例中，推断操作324-1、推断操作324-2、推断操作324-3涉及不同的图像识别操作。在一些示例中，推断操作324-1、推断操作324-2和推断操作324-3涉及不同的感知操作。
86.ml模型326的尺寸可以小于(例如，基本上小于)ml模型327 的大小。ml模型327的尺寸可以小于(例如，基本上小于)ml模型 329的大小。ml模型326可以定义ml模型326进行预测所需的多个参数311。ml模型327可以定义ml模型327进行预测所需的多个参数313。ml模型329可以定义ml模型329进行预测所需的多个参数 315。参数311的数量小于(例如，基本上小于)参数313的数量。参数313的数量小于(例如，基本上小于)参数315的数量。在一些示例中，参数311的数量在10k和100k之间的范围内。在一些示例中，参数311的数量小于10k。在一些示例中，参数313的数量在100k和1m 之间的范围内。在一些示例中，参数313的数量大于1m。在一些示例中，参数315的数量在10m和100m之间的范围内。在一些示例中，参数315的数量大于100m。
87.图4图示了根据一方面的头戴式显示设备402的示例。头戴式显示设备402可以是图1的设备102、图2的设备202、和/或图3的设备302 的示例。头戴式显示设备402包括智能眼镜469。智能眼镜469是在佩戴者通过眼镜观看的事物旁边添加信息(例如，投影一个显示器416) 的眼镜。在一些示例中，除了投影信息之外，显示器416是镜片内微显示器。智能眼镜469(例如，眼镜或护目镜)是视觉辅助设备，包括安装在框架471中的镜片472(例如，玻璃或硬塑料镜片)，框架471通常利用鼻子上的鼻梁架473以及搁置在耳朵上的腿474(例如，镜腿或镜腿件)将它们保持在人的眼睛前方。智能眼镜469包括电子组件470，所述电子组件包括智能眼镜469的电路。在一些示例中，电子组件470 包括包围图1的设备102、图2的设备202和/或图3的设备302的组件的壳体。在一些示例中，电子组件470被包括或集成到智能眼镜469的腿474中的一个(或两个)中。
88.图5图示了根据示例的一副智能眼镜的电子组件570的示例。电子组件570可以是图4的电子组件470的示例。智能眼镜的电子组件570 可以包括显示调节器518、显示器516、闪存510、rf收发器514、通用串行总线(usb)接口521、功率管理单元(pmu)508、芯片上系统 (soc)504、电池充电器522、电池520、多个用户控件581和用户发光二极管(led)585。显示调节器518、显示器516、rf收发器514、电池充电器522和电池520可以是图1的显示调节器118、显示器116、rf收发器114、电池充电器122和电池120的示例。soc 504可以包括图1的处理器104(包括微控制器106)。闪存510可以是图1的存储器设备110的示例。闪存510可以存储用于可由soc 504执行的任何 ml模型的权重。
89.soc 504可以将数据和控制信息提供给投影在用户的视场中的显示器516。在一些示例中，pmu 508被包括在soc 504内或与soc 504 集成。显示调节器518连接到pmu 508。显示调节器518可以包括第一转换器576(例如，vddd dc-dc转换器)、第二转换器579(例如， vdda dc-dc转换器)和led驱动器580。第一转换器576被配置为响应于使能信号而激活，而第二转换器579被配置为响应于使能信号而激活。led驱动器580被配置为根据脉宽调制(pwm)控制信号来驱动。多个用户控件581可以包括重置按钮582、电源按钮583、第一用户按钮584-1和第二用户按钮584-2。
90.图6图示了根据一方面的用于智能眼镜的印刷电路板(pcb)基板 668。pcb基板668可以是图4的电子组件470和/或图5的电子组件570 的示例和/或包括在其内。pcb基板668包括多个电路组件。在一些示例中，电路组件耦合在pcb基板668的一侧上。在一些示例中，电路组件耦接在pcb基板668的两侧上。pcb基板668可以包括电池充电器 622、soc 604、显示器柔性件669、显示调节器618和闪存610。pcb 基板668可以是相对小型的。例如，pcb基板668可以限定长度(l) 和宽度(w)。在一些示例中，长度(l)在40mm至80mm的范围内。在一些示例中，长度(l)在50mm至70mm的范围内。在一些示例中，长度(l)为60mm。在一些示例中，宽度(w)在8mm至25mm的范围内。在一些示例中，宽度(w)在10mm至20mm的范围内。在一些示例中，宽度(w)为14.5mm。
91.图7a和7b图示了用于在设备702和计算设备752之间分布声音识别操作的系统700。系统700可以是图1的系统100、图2的系统200 和/或图3的系统300的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备702可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备702的组件可以包括图5的电子组件570和/或图6的电子组件670。
92.如图7a所示，声音识别操作分布在设备702和计算设备752之间。设备702经由无线连接748(诸如短期无线连接(诸如蓝牙或nfc连接)) 连接到计算设备752。在一些示例中，无线连接748是蓝牙连接。在一些示例中，设备702包括声音识别应用，该声音识别应用使得音频数据 731能够由设备702上的麦克风740捕获并且文本数据707能够显示在设备702的显示器716上。
93.设备702包括微控制器706，该微控制器706执行声音分类器703 以检测感兴趣的声音(例如，语音、警报等)是否包括在由设备702上的麦克风740捕获的音频数据731内。声音分类器703可以包括ml模型726或由ml模型726定义。ml模型726可以定义ml模型726进行预测所需的多个参数711(例如，感兴趣的声音是否包括在音频数据 731内)。ml模型726可以相对较小，因为实际转换被卸载到计算设备752。例如，参数711的数量可以在10k和100k之间的范围内。声音分类器703可以通过其相对小的ml模型726来节省功率和等待时间。
94.参考图7b，在操作721中，声音分类器703可以从设备702上的麦克风740接收音频数据731。在操作723中，声音分类器703可以确定是否在音频数据731中检测到感兴趣的声音。如果未检测到感兴趣的声音(否)，则声音分类器703继续监视经由麦克风740接收到的音频数据731，以确定是否检测到感兴趣的声音。如果检测到感兴趣的声音 (是)，则在操作725中，设备702通过无线连接748将音频数据731 流式传输到计算设备752。例如，设备702上的rf收发器714可以通过无线连接748发送音频数据731。在一些示例中，设备702压缩音频数据731，然后将压缩的音频数据731发送到计算设备752。
95.参考图7a，计算设备752包括声音识别引擎709(例如，另一分类器)，其执行ml模型727(例如，较大的ml模型)以将音频数据 731的声音转换为文本数据707。ml模型727可以定义ml模型727进行预测所需的多个参数713。在一些示例中，参数713的数量比参数711 的数量大至少十倍。在一些示例中，参数713的数量比参数711的数量大至少一百倍。在一些示例中，参数713的数量比参数711的数量大至少一千倍。在一些示例中，参数713的数量比参数711的数量大至少一百万倍。在一些示例中，参数713的数量在1m和10m之间的范围内。在一些示例中，参数713的数量大于10m。计算设备752经由无线连接 748将文本数据707传送到
设备702。设备702在设备的显示器716上显示文本数据707。
96.图8图示了用于在设备802和服务器计算机860之间分布声音识别操作的系统800。系统800可以是图1的系统100、图2的系统200、图 3的系统300和/或图7a和7b的系统700的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备802可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备802的组件可以包括图5的电子组件570和/或图6的电子组件670。
97.如图8所示，声音识别操作分布在设备802和服务器计算机860之间，其中，音频数据831可以经由计算设备852被提供给服务器计算机 860。设备802经由无线连接848(诸如短期无线连接(诸如蓝牙或nfc 连接))连接到计算设备852。在一些示例中，无线连接848是蓝牙连接。计算设备852通过网络850(例如，诸如wi-fi或移动连接的互联网)连接到服务器计算机860。在一些示例中，设备802包括声音识别应用，该声音识别应用使得音频数据831能够由设备802上的麦克风840 捕获并且文本数据807能够显示在设备802的显示器816上。
98.设备802包括微控制器806，该微控制器806执行声音分类器803 以检测感兴趣的声音是否包括在由设备802上的麦克风840捕获的音频数据831内。声音分类器803可以包括ml模型826或由ml模型826 定义。ml模型826可以定义ml模型826进行预测(例如，感兴趣的声音是否包括在音频数据831内)所需的多个参数811。ml模型826 可以相对较小，因为实际转换被卸载到服务器计算机860。例如，参数 811的数量可以在10k和100k之间的范围内。声音分类器803可以通过其相对小的ml模型826来节省功率和等待时间。
99.如果未检测到感兴趣的声音，则声音分类器803继续监视经由麦克风840接收的音频数据831，以确定是否检测到感兴趣的声音。如果检测到感兴趣的声音，则设备802通过无线连接848将音频数据831流式传输到计算设备852。例如，设备802上的rf收发器814可以通过无线连接848传送音频数据831。在一些示例中，设备802压缩音频数据 831，然后将压缩的音频数据831发送到计算设备852。
100.在一些示例中，计算设备852可以通过网络850将音频数据831传送到服务器计算机860。在一些示例中，计算设备852确定计算设备852 是否具有将声音转换为文本数据807的能力。如果不是，则计算设备852 可以将音频数据831传送到服务器计算机860。如果是，则计算设备852 可以执行声音转换，如参考图7a和7b的系统700所讨论的。
101.在一些示例中，计算设备852确定声音转换是否包括转译成另一种语言。例如，音频数据831可以包括英语语言的语音，但是声音识别应用的参数指示以诸如德语的另一语言提供文本数据807。在一些示例中，如果对话包括转译成另一种语言，则计算设备852可以将音频数据831 传送到服务器计算机860。在一些示例中，在从设备802接收到音频数据831后，计算设备852可以自动地将音频数据831传送到服务器计算机860。在一些示例中，设备802经由网络850将音频数据831直接传送到服务器计算机860(例如，不使用计算设备852)，并且设备802 经由网络850从服务器计算机860接收文本数据807(例如，不使用计算设备852)。
102.服务器计算机860包括声音识别引擎809，该声音识别引擎809执行ml模型829(例如，较大的ml模型)以将音频数据831的声音转换为文本数据807。在一些示例中，语音到文本数据的转换807包括转译成不同的语言。ml模型829可以定义ml模型829进行预测(例如，声音到文本数据807的转换)所需的多个参数815。在一些示例中，参数815的数量比参数811
的数量大至少一千倍。在一些示例中，参数815 的数量比参数811的数量大至少一百万倍。在一些示例中，参数815的数量比参数811的数量大至少一亿倍。在一些示例中，参数815的数量在1m和100m之间的范围内。在一些示例中，参数815的数量大于 100m。服务器计算机860通过网络850将文本数据807传送到计算设备 852。计算设备852经由无线连接848将文本数据807传送到设备802。设备802在设备的显示器816上显示文本数据807。
103.图9图示了使用设备902进行声音识别操作的系统900。系统900 可以是图1的系统100、图2的系统200、图3的系统300、图7a和7b 的系统700和/或图8的系统800的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备902可以是图4的头戴式显示设备 402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备902的组件可以包括图5的电子组件570和/或图6的电子组件670。
104.设备902经由无线连接948(诸如短期无线连接(诸如蓝牙或nfc 连接))连接到计算设备952。在一些示例中，无线连接948是蓝牙连接。计算设备952可以包括被配置为捕获音频数据931的麦克风921，以及被配置为将音频数据931的声音转换为文本数据907的声音识别引擎909。声音识别引擎909可以包括ml模型或由ml模型定义，如参考先前附图所讨论的。在将声音转换为文本数据907之后，计算设备952 可以经由无线连接948将文本数据907传送到设备902，并且设备902 经由设备902上的rf收发器914接收文本数据907。设备902被配置为在设备902的显示器916上显示文本数据907。
105.图10图示了用于使用设备1002执行声音识别操作的系统1000。系统1000可以是图1的系统100、图2的系统200、图3的系统300、图7a和7b的系统700、图8的系统800和/或图9的系统900的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备1002 可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备1002的组件可以包括图5的电子组件570和/或图6的电子组件670。
106.如图10所示，声音识别操作分布在计算设备1052和服务器计算机 1060之间，其中，文本数据1007经由设备1002显示。设备1002经由无线连接1048(诸如短期无线连接(诸如蓝牙或nfc连接))连接到计算设备1052。在一些示例中，无线连接1048是蓝牙连接。计算设备 1052通过网络850(例如，诸如wi-fi或移动连接的互联网)连接到服务器计算机1060。
107.计算设备1052包括被配置为捕获音频数据1031的麦克风1021。此外，计算设备1052包括声音分类器1003(例如，ml模型)，以检测感兴趣的声音是否包括在由计算设备1052上的麦克风1021捕获的音频数据1031内。如果未检测到感兴趣的声音，则声音分类器1003继续监视经由麦克风1021接收到的音频数据1031，以确定是否检测到感兴趣的声音。如果检测到感兴趣的声音，则计算设备1052通过网络1050 将音频数据1031流式传输到服务器计算机1060。在一些示例中，计算设备1052确定计算设备1052是否具有将声音转换为文本数据1007的能力。如果不是，则计算设备1052可以将音频数据1031传送到服务器计算机1060。如果是，则计算设备1052可以执行声音转换，如参考图 9的系统900所讨论的。在一些示例中，计算设备1052压缩音频数据 1031，并将压缩的音频数据1031发送到服务器计算机1060。
108.在一些示例中，计算设备1052确定声音转换是否包括转译成另一种语言。例如，音频数据1031可以包括英语语言的语音，但是语音到文本应用的参数指示以不同语言提供文本数据1007。在一些示例中，如果语音到文本转换包括转译成另一种语言，则计算设备1052
可以将音频数据1031传送到服务器计算机1060。在一些示例中，在检测到音频数据1031内的语音时，计算设备1052可以将音频数据1031自动地传送到服务器计算机1060。
109.服务器计算机1060包括声音识别引擎1009，其执行ml模型以将音频数据1031的声音转换为文本数据1007。在一些示例中，声音到文本数据1007的转换包括转译成不同的语言。服务器计算机1060通过网络1050将文本数据1007传送到计算设备1052。计算设备1052经由无线连接1048将文本数据1007传送到设备1002上的rf收发器1014。设备1002在设备的显示器1016上显示文本数据1007。
110.图11是描绘图7a和图7b的系统700的示例性操作的流程图1100。尽管参考图7a和图7b的系统700说明了图11的流程图1100，但是流程图1100可以适用于本文讨论的任何实施例，包括图1的系统100、图 2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570、图6的电子组件670、图8的系统800、图9的系统900和 /或图10的系统1000。尽管图11的流程图1100以顺序次序示出了操作，但是应当意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图11的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。
111.操作1102包括经由设备702的麦克风740接收音频数据731。操作1104包括由声音分类器703检测音频数据731是否包括感兴趣的声音(例如，语音)，其中，声音分类器703执行第一ml模型(例如， ml模型726)。
112.操作1106包括经由无线连接748将音频数据731传送到计算设备 752，其中，音频数据731被配置为由计算设备752使用以使用第二ml 模型(例如，ml模型727)将感兴趣的声音转译为文本数据707。操作1108包括经由无线连接748，从计算设备752经由无线连接748接收文本数据707。操作1110包括由设备702在设备702的显示器716上显示文本数据707。
113.图12是描绘图8的系统800的示例性操作的流程图1200。尽管参考图8的系统800说明了图12的流程图1200，但是流程图1200可以适用于本文讨论的任何实施例，包括图1的系统100、图2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570、图6的电子组件670、图7a和7b的系统700、图9的系统900和/或图10 的系统1000。尽管图12的流程图1200以顺序次序示出了操作，但是应当意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图12的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。
114.操作1202包括经由设备802的麦克风840接收音频数据831。操作1204包括由设备802的声音分类器803检测音频数据831是否包括感兴趣的声音(例如，语音)，其中，声音分类器803执行第一ml模型(例如，ml模型826)。
115.操作1206包括由设备802经由无线连接848将音频数据831传送到计算设备852，其中，音频数据831通过网络850被进一步传送到服务器计算机860以使用第二ml模型(例如，ml模型829)将声音转译为文本数据807。操作1208包括由设备802经由无线连接848从计算设备852接收文本数据807。操作1210包括由设备802在设备802的显示器816上显示文本数据807。
116.图13a至13c示出了用于在设备1302和计算设备1352之间分布图像识别操作的系统1300。系统1300可以是图1的系统100、图2的系统200和/或图3的系统300的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备1302可以是图4的头戴式显示设
备 402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备1302的组件可以包括图5的电子组件570和/或图6的电子组件 670。在一些示例中，系统1300还包括分布式声音识别操作的能力，并且可以包括参考图7a和7b的系统700、图8的系统800、图9的系统 900和/或图10的系统1000讨论的任何细节。
117.如图13a所示，图像识别操作分布在设备1302和计算设备1352 之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、文本和条形码)的操作。设备1302经由无线连接1348(诸如，诸如蓝牙或nfc的短期无线连接)连接到计算设备1352。在一些示例中，无线连接1348是蓝牙连接。在一些示例中，设备1302和/或计算设备1352包括图像识别应用，其使得能够经由由一个或多个成像传感器 1342捕获的图像数据来识别(和跟踪)对象。
118.设备1302包括微控制器1306，其执行图像分类器1303以检测感兴趣对象1333是否包括在由设备1302上的成像传感器1342捕获的图像数据1329内。在一些示例中，感兴趣对象1333包括面部特征。在一些示例中，感兴趣对象1333包括文本数据。在一些示例中，感兴趣对象1333包括ocr码。然而，感兴趣对象1333可以是能够在图像数据中检测到的任何类型的对象。图像分类器1303可以包括ml模型1326 或由ml模型1326定义。ml模型1326可以定义ml模型1326进行预测(例如，感兴趣对象1333是否包括在图像数据1329内)所需的多个参数1311。ml模型1326可以相对较小，因为一些更密集的图像识别操作被卸载到计算设备1352。例如，参数1311的数量可以在10k和100k 之间的范围内。图像分类器1303可以通过其相对小的ml模型1326来节省功率和等待时间。
119.参考图13b，在操作1321中，图像分类器1303可从设备1302上的成像传感器1342接收图像数据1329。在操作1323中，可以激活图像分类器1303。在操作1325中，图像分类器1303可以确定在图像数据 1329的图像帧1329a中检测到感兴趣对象1333。如果未检测到感兴趣对象1333(否)，则在操作1328中，图像分类器1303(和/或成像传感器1342)可以转换到省电状态。在一些示例中，在经过一段时间之后，可以重新激活图像分类器1303(例如，过程返回到操作1323)以确定是否在图像数据1329的图像帧1329a中检测到感兴趣对象1333。如果检测到感兴趣对象1333(是)，则在操作1330中，设备1302通过无线连接1348将图像帧1329a传送到计算设备1352。例如，设备1302上的 rf收发器1314可以通过无线连接1348传送图像帧1329a。在一些示例中，设备1302压缩图像帧1329a，并且将压缩的图像帧1329a发送到计算设备1352。
120.参考图13a，计算设备1352包括对象检测器1309，其执行ml模型1327(例如，更大的ml模型)以计算边界框数据集1341。在一些示例中，边界框数据集1341是对象位置数据的示例。边界框数据集1341 可以是定义感兴趣对象1333(例如，面部特征)位于图像帧1329a内的位置的数据。在一些示例中，参考图13c，边界框数据集1341定义包括图像帧1329a内的感兴趣对象1333的边界框1381的坐标。在一些示例中，坐标包括高度坐标1383、左坐标1385、顶坐标1387和宽度坐标 1389。例如，高度坐标1383可以是边界框1381的高度作为整体图像高度的比率。左坐标1385可以是边界框1381的左坐标作为整体图像宽度的比率。顶坐标1387可以是边界框1381的顶坐标作为整体图像高度的比率。宽度坐标1389可以是边界框1381的宽度作为整体图像宽度的比率。
121.ml模型1327可以定义ml模型1327进行预测(例如，边界框数据集1341的计算)所需
的多个参数1313。在一些示例中，参数1313的数量比参数1311的数量大至少十倍。在一些示例中，参数1313的数量比参数1311的数量大至少一百倍。在一些示例中，参数1313的数量比参数1311的数量大至少一千倍。在一些示例中，参数1313的数量比参数1311的数量大至少一百万倍。在一些示例中，参数1313的数量在1m 和10m之间的范围内。在一些示例中，参数1313的数量大于10m。计算设备1352经由无线连接1048将边界框数据集1341传送到设备1302。
122.设备1302包括对象跟踪器1335，其被配置为使用边界框数据集 1341来跟踪一或多个后续图像帧1329b中的感兴趣对象1333。在一些示例中，对象跟踪器1335被配置为执行低复杂度跟踪机制，诸如基于惯性测量单元(iuu)的扭曲、斑点检测或光流。例如，对象跟踪器1335 可以传播用于后续图像帧1329b的边界框数据集1341。对象跟踪器1335 可以包括裁剪器1343和压缩器1345。裁剪器1343可以使用边界框数据集1341来识别图像帧1329b内的图像区域1347。压缩器1345可以压缩图像区域1347。例如，图像区域1347可以表示图像帧1329b内已由对象跟踪器1335裁剪和压缩的区。
123.然后，设备1302可以通过无线连接1348将图像区域1347发送到计算设备1352。例如，当对象跟踪器1335正在跟踪感兴趣对象1333时，计算设备1352可以接收图像区域流1347。在计算设备1352处，对象检测器1309可以对通过无线连接1348从设备1302接收的图像区域1347 执行图像识别。在一些示例中，如果感兴趣对象1333相对靠近图像区域1347的边缘(或根本不存在)，则计算设备1352可以传送请求以再次发送新完整帧(例如，新图像帧1329a)来再次计算边界框数据集1341。在一些示例中，如果图像帧1329a不包含感兴趣对象1333，则计算设备 1352可以传送进入省电状态以轮询感兴趣对象的请求。在一些示例中，可以在设备1302的显示器1316上提供视觉指示符1351(例如，视觉框)，其中，视觉指示符1351识别感兴趣对象1333(例如，面部特征)。
124.图14是描绘图13a至13c的系统1300的示例性操作的流程图 1400。尽管参考图13a至图13c的系统1300解释了图14的流程图1400，但是流程图1400可以适用于本文讨论的任何实施例，包括图1的系统 100、图2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570和/或图6的电子组件670、图7a和7b的系统700。尽管图14的流程图1400以顺序次序示出了操作，但是应当意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图14的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。在一些示例中，图14的流程图1400的操作可以与图11的流程图1100和/或图12的流程图1200的操作相组合。
125.操作1402包括经由设备1302上的至少一个成像传感器1342接收图像数据1329。操作1404包括由设备1302的图像分类器1303检测感兴趣对象1333是否包括在图像数据1329内，其中，图像分类器1303 执行ml模型1326。
126.操作1406包括经由无线连接1348，将图像数据1329(例如，图像帧1329a)传送到计算设备1352，其中，图像帧1329a包括感兴趣对象 1333。图像数据1329被配置为由计算设备1352用于使用ml模型1327 的图像识别。
127.操作1408包括经由无线连接1348从计算设备1352接收边界框数据集1341。操作1410包括由设备1302使用边界框数据集1341来识别后续图像数据(例如，图像帧1329b)中的图像区域1347。操作1412 包括经由无线连接1348将图像区域1347传送到计算设备1352，
其中，图像区域1347被配置为由计算设备1352用于图像识别。
128.图15图示了用于在设备1502和计算设备1552之间分布图像识别操作的系统1500。系统1500可以是图1的系统100、图2的系统200、图3的系统300和/或图13a至13c的系统1300的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备1502可以是图4 的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备1502的组件可以包括图5的电子组件570和/或图 6的电子组件670。在一些示例中，系统1500还包括分布式声音识别操作的能力，并且可以包括参考图7a和7b的系统700、图8的系统800、图9的系统900和/或图10的系统1000讨论的任何细节。
129.如图15所示，图像识别操作分布在设备1502和计算设备1552之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、文本和条形码)的操作。设备1502经由无线连接1548(诸如短期无线连接，诸如蓝牙或nfc连接)连接到计算设备1552。在一些示例中，无线连接1548是蓝牙连接。在一些示例中，设备1502和/或计算设备1552包括图像识别应用，其使得能够经由由成像传感器1542a和成像传感器1542b捕获的图像数据来识别(和跟踪)对象。
130.成像传感器1542a可以被认为是低功率、低分辨率(lplr)图像传感器。成像传感器1542b可以被认为是高功率、高分辨率(hplr) 图像传感器。由成像传感器1542b捕获的图像帧1529b的分辨率1573a 高于由成像传感器1542a捕获的图像帧1529a的分辨率1573a。在一些示例中，成像传感器1542a被配置为在设备102被激活并耦合到用户时获得图像数据(例如，图像帧1529a)(例如，在设备102被激活时连续地或周期性地捕获图像帧1529a)。在一些示例中，成像传感器1542a 被配置为操作为常开传感器。在一些示例中，响应于检测到感兴趣对象， (例如，在短的持续时间内)激活成像传感器1542b，如下文进一步讨论的。
131.设备1502包括光照条件传感器1544，其被配置为估计用于捕获图像数据的光照条件。在一些示例中，光照条件传感器1544包括检测存在的环境光量的环境光传感器，其可以被用来确保以期望的信噪比(snr)捕获图像帧1529a。然而，光照条件传感器1544可以包括其他类型的光度(或色度计)传感器。运动传感器146可以被用于监视设备移动，诸如倾斜、摇动、旋转和/或摆动和/或用于模糊估计。传感器触发器1571可以接收来自光照条件传感器1544的光照条件信息和来自运动传感器1546的运动信息，并且如果光照条件信息和运动信息指示条件可接受以获得图像帧1529a，则传感器触发器1571可以激活成像传感器1542a以捕获图像帧1529a。
132.设备1502包括微控制器1506，其被配置为执行图像分类器1503，所述图像分类器检测由成像传感器1542a捕获的图像帧1529a内是否包括感兴趣对象。类似于其他实施例，图像分类器1503可以包括ml模型或由ml模型定义。ml模型可以定义ml模型进行预测(例如，感兴趣对象是否包括在图像帧1529a内)所需的多个参数。ml模型可以相对较小，因为一些更密集的图像识别操作被卸载到计算设备1552。例如，参数的数量可以在10k和100k之间的范围内。图像分类器1503可以通过其相对小的ml模型来节省功率和等待时间。
133.如果图像分类器1503检测到图像帧1529a内存在感兴趣对象，则图像分类器1503被配置为触发成像传感器1542b以捕获图像帧1529b。如上所述，图像帧1529b具有高于图像帧1529a的分辨率1573a的分辨率1573b。设备1502经由无线连接1548将图像帧1529b发送到计算设备1552以进行进一步处理。在一些示例中，设备1502压缩图像帧1529b，然后将压缩
的图像帧1529b发送到计算设备1552。在一些示例中，运动信息和/或光照条件信息被用来确定是否传送图像帧1529b。例如，如果运动信息指示高于阈值水平的运动(例如，运动高)，则可以不传送图像帧1529b，并且微控制器1506可以激活成像传感器1542b以捕获另一图像帧。如果光照条件信息指示光照条件低于阈值水平，则可以不传送图像帧1529b，并且微控制器1506可以激活成像传感器1542b以捕获另一图像帧。
134.计算设备1552包括被配置为使用图像帧1529b执行图像识别操作 (包括边界框数据集的计算)的对象检测器1509。类似于图13a至13c 的系统1300的实施例，对象检测器1509执行较大ml模型以使用较高分辨率图像(例如，图像帧1529b)计算边界框数据集，所述较高分辨率图像经由无线连接1548传送回到设备1502。然后，设备1502使用边界框数据集来跟踪一个或多个后续图像帧中的感兴趣对象。例如，设备 1502可以使用低复杂度跟踪机制(诸如基于惯性测量单元(iuu)的扭曲、斑点检测或光流)来传播用于后续图像帧的边界框数据集。设备1502 可以使用边界框数据集来识别图像帧1529b内的图像区域，并且设备 1502可以压缩图像区域，然后将其传送回到计算设备1552以进行图像识别。
135.图16是描绘图15的系统1500的示例性操作的流程图1600。尽管参考图15的系统1500解释了图16的流程图1600，但是流程图1600可以适用于本文讨论的任何实施例，包括图1的系统100、图2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570、图 6的电子组件670和/或图13的系统1300。尽管图16的流程图1600以顺序次序示出了操作，但是应当意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图16的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。在一些示例中，图 16的流程图1600的操作可以与图11的流程图1100、图12的流程图1200 和/或图14的流程图1400的操作相组合。
136.操作1602包括由设备1502的第一成像传感器(例如，成像传感器 1542a)接收第一图像帧1529a。操作1604包括由设备1502的图像分类器1503检测第一图像帧1529a中的感兴趣对象的存在。
137.操作1606包括由设备1502的第二成像传感器(例如，成像传感器1542b)接收第二图像帧1529b，第二图像帧1529b的分辨率1573b高于第一图像帧1529a的分辨率1573a，其中，第二图像帧1529b经由无线连接1548被传送到计算设备1552，并且第二图像帧1529b被配置为由在计算设备1552处的对象检测器1509使用。
138.图17图示了用于设备1702与计算设备1752之间分布图像识别操作的系统1700。系统1700可以是图1的系统100、图2的系统200、图 3的系统300、图13a至13c的系统1300和/或图15的系统1500的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备 1702可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备1702的组件可以包括图5的电子组件570和/或图6的电子组件670。在一些示例中，系统1700还包括分布式声音识别操作的能力，并且可以包括参考图7a和7b的系统 700、图8的系统800、图9的系统900和/或图10的系统1000讨论的任何细节。
139.如图17所示，图像识别操作分布在设备1702与计算设备1752之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、文本和条形码)的操作。设备1702经由无线连接1748(诸如短期无线连接，诸如蓝牙或nfc连接)连接到计算设备1752。在一些示例中，无线连接1748是
蓝牙连接。在一些示例中，设备1702和/或计算设备1752包括图像识别应用，其使得能够经由由成像传感器1742a和成像传感器1742b捕获的图像数据来识别(和跟踪)对象。
140.成像传感器1742a可以被认为是低功率、低分辨率(lplr)图像传感器。成像传感器1742b可以被认为是高功率、高分辨率(hplr) 图像传感器。由成像传感器1742b捕获的图像帧1729b的分辨率1773a 高于由成像传感器1742a捕获的图像帧1729a的分辨率1773a。在一些示例中，成像传感器1742a被配置为在设备102被激活并耦合到用户时获得图像数据(例如，图像帧1729a)(例如，在设备102被激活时连续地或周期性地捕获图像帧1729a)。在一些示例中，成像传感器1742a 被配置为操作为常开传感器。在一些示例中，响应于检测到感兴趣对象， (例如，在短的持续时间内)激活成像传感器1742b，如下文进一步讨论的。
141.设备1702包括光照条件传感器1744，其被配置为估计用于捕获图像数据的光照条件。在一些示例中，光照条件传感器1744包括检测存在的环境光量的环境光传感器，其可以被用来确保以期望的信噪比 (snr)捕获图像帧1729a。然而，光照条件传感器1744可以包括其他类型的光度(或色度计)传感器。运动传感器146可以被用于监视设备移动，诸如倾斜、摇动、旋转和/或摆动和/或用于模糊估计。传感器触发器1771可以接收来自光照条件传感器1744的光照条件信息和来自运动传感器1746的运动信息，并且如果光照条件信息和运动信息指示条件可接受以获得图像帧1729a，则传感器触发器1771可以激活成像传感器1742a以捕获图像帧1729a。
142.设备1702包括微控制器1706，其被配置为执行分类器1703，该分类器1703检测由成像传感器1742a捕获的图像帧1729a内是否包括感兴趣区域(roi)1789。roi 1789也被称为感兴趣对象。分类器1703可以包括ml模型或由ml模型定义。ml模型可以定义ml模型进行预测(例如，roi 1789是否包括在图像帧1729a内)所需的多个参数。 ml模型可以相对较小，因为一些更密集的图像识别操作被卸载到计算设备1752。例如，参数的数量可以在10k和100k之间的范围内。分类器1703可以通过其相对小的ml模型来节省功率和等待时间。
143.如果分类器1703检测到图像帧1729a内存在roi 1789，则分类器 1703被配置为触发成像传感器1742b以捕获图像帧1729b。如上所述，图像帧1729b具有高于图像帧1729a的分辨率1773a的分辨率1773b。设备1702经由无线连接1748将图像帧1729b传送到计算设备1752以进行进一步处理。在一些示例中，设备1702压缩图像帧1729b，并且将压缩的图像帧1729b传送到计算设备1752。
144.计算设备1752包括roi分类器1709，其执行ml模型(例如，较大的ml模型)以计算roi数据集1741。在一些示例中，roi数据集 1741是对象位置数据和/或边界框数据集的示例。roi数据集1741可以是定义roi 1789位于图像帧1729b内的位置的数据。计算设备1752可以经由无线连接1748将roi数据集1741传送到设备1702。
145.设备1702包括roi跟踪器1735，其被配置为使用roi数据集1741 来跟踪一个或多个后续图像帧中的roi 1789。在一些示例中，roi跟踪器1735被配置为执行低复杂度跟踪机制，诸如基于惯性测量单元(iuu) 的扭曲、斑点检测或光流。例如，roi分类器1709可以传播用于后续图像帧的roi数据集1741。roi跟踪器1735可以包括裁剪器1743和压缩器1745。裁剪器1743可以使用roi数据集1741来识别图像帧1729b 内的图像区域1747。压缩器1745可以压缩图像区域1747。例如，图像区1747可以表示图像帧1729b内已由roi跟踪器1735裁剪和压缩的区域，其中，图像区域1747包括roi 1789。
146.然后，设备1702可以通过无线连接1748将图像区域1747传送到计算设备1752。例如，当roi跟踪器1735正在跟踪roi 1789时，计算设备1752可以接收图像区域1747的流。在计算设备1752处，roi 分类器1709可以对通过无线连接1748从设备1702接收的图像区域1747 执行对象检测。在一些示例中，如果roi 1789相对靠近图像区域1747 的边缘(或根本不存在)，则计算设备1752可以传送发送新的完整帧 (例如，新的图像帧1729b)以再次计算roi数据集1741的请求。在一些示例中，如果图像帧1729a不包含roi 1789，则计算设备1752可以发送请求以进入省电状态来轮询roi 1789。在一些示例中，在设备 1702的显示器1716上提供视觉指示符1787，其中，视觉指示符1787 标识roi 1789。
147.图18图示了用于在设备1802与计算设备1852之间分布图像识别操作的系统1800。系统1800可以是图1的系统100、图2的系统200、图3的系统300、图13a至13c的系统1300、图15的系统1500和图 17的系统1700的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备1802可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备1802的组件可以包括图5的电子组件570和/或图6的电子组件670。在一些示例中，系统1800还包括分布式声音识别操作的能力，并且可以包括参考图7a和7b的系统700、图8的系统800、图9的系统900和/或图 10的系统1000讨论的任何细节。
148.如图18所示，图像识别操作分布在设备1802和计算设备1852之间。在一些示例中，图像识别操作包括面部检测和跟踪。然而，图像识别操作可以包括检测(和跟踪)图像数据中的其他感兴趣区域(诸如对象、文本和条形码)的操作。设备1802经由无线连接(例如，无线电资源1867)(诸如短期无线连接，诸如蓝牙或nfc连接)连接到计算设备1852。在一些示例中，无线连接是蓝牙连接。在一些示例中，设备 1802和/或计算设备1852包括图像识别应用，该图像识别应用使得能够经由由相机1842a和相机1842b捕获的图像数据来识别(和跟踪)对象。
149.相机1842a可以被认为是低功率、低分辨率(lplr)相机。相机 1842b可以被认为是高功率、高分辨率(hplr)相机。由相机1842b 捕获的图像帧的分辨率高于由相机1842a捕获的图像帧的分辨率。在一些示例中，相机1842a被配置为在设备1802被激活并耦合到用户时获得图像数据(例如，在设备1802被激活时连续地或周期性地捕获图像帧)。在一些示例中，相机1842a被配置为操作为常开传感器。在一些示例中，响应于检测到感兴趣对象，(例如，在短的持续时间内)激活相机1842b，如下文进一步讨论的。
150.设备1802包括光照条件传感器1844，其被配置为估计用于捕获图像数据的光照条件。在一些示例中，光照条件传感器1844包括检测存在的环境光量的环境光传感器，其可以被用来确保以期望的信噪比 (snr)捕获图像帧。然而，光照条件传感器1844可以包括其他类型的光度(或色度计)传感器。运动传感器1846可以被用于监视设备移动，诸如倾斜、摇动、旋转和/或摆动和/或用于模糊估计。传感器触发器1871可以接收来自光照条件传感器1844的光照条件信息和来自运动传感器1846的运动信息(例如模糊估计)，并且如果光照条件信息和运动信息指示条件可接受以获得图像帧，则传感器触发器1871可以激活相机1842a以捕获具有低分辨率的图像帧。在一些示例中，设备1802 包括将音频数据提供给分类器1803的麦克风1840。
151.设备1802包括分类器1803，其检测由相机1842a捕获的图像帧内是否包括感兴趣
区域。分类器1803可以包括ml模型或由ml模型定义。ml模型可以定义ml模型进行预测(例如，感兴趣区域是否包括在图像帧内)所需的多个参数。ml模型可以相对较小，因为一些更密集的图像识别操作被卸载到计算设备1852。例如，参数的数量可以在 10k和100k之间的范围内。分类器1803可以通过其相对小的ml模型来节省功率和等待时间。
152.如果分类器1803检测到由相机1842a捕获的图像帧内的感兴趣区域的存在，则分类器1803被配置为触发相机1842b以捕获更高分辨率图像。在一些示例中，设备1802经由无线电资源1867传送由相机1842b 捕获的全图像帧。
153.计算设备1852包括分类器1809，其执行ml模型(例如，较大的 ml模型)以计算roi数据集(例如，对象框、x、y)。roi数据集可以是定义感兴趣对象在图像帧内所处的位置的数据。计算设备1852可以将roi数据集传送到设备1802。分类器1803可以将roi数据集提供给铜1843，其裁剪后续图像帧以识别图像区域。图像区域由压缩器1845 压缩并经由无线电资源1867传送到计算设备1852。在一些示例中，设备1802包括动作管理器1865，其从分类器1809接收roi检测且可在设备1802的显示器1816上提供视觉指示符或其它动作。
154.图19是描绘图17的系统1700的示例性操作的流程图1900。尽管参考图17的系统1700解释了图19的流程图1900，但是流程图1900可以适用于本文讨论的任何实施例，包括图1的系统100、图2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570、图 6的电子组件670、图7a和7b的系统700、图8的系统800、图9的系统900、图10的系统1000、图13a至图13c的系统1300、图15的系统1500和/或图18的系统1800。尽管图19的流程图1900以顺序次序示出了操作，但是应当意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图19的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。在一些示例中，图19的流程图1900的操作可以与图11的流程图1100、图12的流程图1200、图 14的流程图1400和/或图16的流程图1600的操作相组合。
155.操作1902包括激活设备1702的第一成像传感器1742a以捕获第一图像数据(例如，图像帧1729a)。操作1904包括由设备1702的分类器1703检测感兴趣区域(roi)1789是否包括在第一图像数据内，其中，分类器1703执行ml模型。
156.操作1906包括响应于在第一图像数据内检测到roi 1789，激活设备1702的第二成像传感器1742b以捕获第二图像数据(例如，图像帧 1729b)。第二图像数据的分辨率1773b高于第一图像数据的分辨率 1773a。操作1908包括经由无线连接1748，将第二成像数据传送到计算设备1752，其中，第二图像数据1729b由计算设备1752以用于使用ml 模型的图像处理。
157.图20图示了用于在设备2002和计算设备2052之间分布图像识别操作的系统2000。系统2000可以是图1的系统100、图2的系统200 和/或图3的系统300的示例，并且可以包括参考那些附图讨论的任何细节。在一些示例中，设备2002可以是图4的头戴式显示设备402的示例，并且可以包括参考该图讨论的任何细节。在一些示例中，设备2002 的组件可以包括图5的电子组件570和/或图6的电子组件670。在一些示例中，系统2000还包括分布式声音识别操作的能力，并且可以包括参考图7a和7b的系统700、图8的系统800、图9的系统900和/或图 10的系统1000讨论的任何细节。在一些示例中，系统2000还包括分布式图像识别操作的能力，其可以包括参考图13a至13c的系统1300、图15的系统1500、图17的系统1700和图18的系统1800讨论的任何细节。
158.如图20所示，用于话音命令的热词识别操作分布在设备2002和计算设备2052之间。设备2002可以包括话音命令检测器2093，其执行 ml模型2026(例如，把关模型)以连续地(例如，周期性地)处理来自设备2002上的麦克风2040的针对话音命令2090的热词(例如，“okg”或“ok d”)的初始部分的麦克风样本(例如，音频数据2031)。如果话音命令检测器2093检测到该初始部分，则话音命令检测器2093 可以使缓冲器2091捕获后续音频数据2031。此外，设备2002可以通过无线连接2048将音频部分2092传送到计算设备2052。在一些示例中，设备2002压缩音频部分2092，然后传送压缩的音频部分2092。音频部分2092可以是缓冲器的一部分。例如，音频部分2092可以是来自缓冲器2091的头部的1-2秒的音频数据2031。
159.计算设备2052包括热词识别引擎2094，其被配置为执行ml模型 2027(例如，更大的ml模型)以使用音频部分2092执行全热词识别。例如，ml模型2027将音频部分2092接收为输入，并且ml模型2027 预测音频部分2092是否包括热词(例如，“ok google，ok device”)。如果音频部分2092是假肯定2094，则计算设备2052可以将解除命令 2096传送到设备2002，其丢弃缓冲器2091的内容(例如，音频数据 2031)。如果音频部分2092是真肯定2095，则缓冲器2091的剩余部分 2099被传送到计算设备2052。在一些示例中，设备2002压缩缓冲器2091 (或缓冲器2091的剩余部分2099)内的音频数据2031且将压缩的音频数据2031传送到计算设备2052。计算设备2052包括命令生成器2097，其使用音频数据2031(例如，缓冲器2091的剩余部分2099和音频部分 2092)来确定动作命令2098(例如，撰写电子邮件、拍照等等)。计算设备2052可以通过无线连接2048将动作命令2098传送到设备2002。
160.图21是描绘图20的系统2000的示例性操作的流程图2100。尽管参考图20的系统2000解释了图21的流程图2100，但是流程图2100可以适用于本文讨论的任何实施例，包括图1的系统100、图2的系统200、图3的系统300、图4的头戴式显示设备402、图5的电子组件570、图 6的电子组件670、图7a和7b的系统700、图8的系统800、图9的系统900、图10的系统1000、图13a至13c的系统1300、图15的系统 1500和/或图18的系统1800。尽管图21的流程图2100以顺序次序示出了操作，但是将意识到，这仅仅是示例，并且可以包括附加的或替代的操作。此外，图21的操作和相关操作可以以与所示顺序不同的顺序执行，或者以并行或重叠的方式执行。在一些示例中，图21的流程图2100 的操作可以与图11的流程图1100、图12的流程图1200、图14的流程图1400、图16的流程图1600和/或图19的流程图1900的操作相组合。
161.操作2102包括经由设备2002的麦克风2040接收音频数据2031。操作2104包括由话音命令检测器2093检测来自音频数据2031的热词的一部分的存在，其中，话音命令检测器2093执行ml模型。
162.操作2106包括在设备2002的缓冲器2091中存储响应于检测到热词的一部分而经由麦克风2040接收的音频数据2031。操作2108包括经由无线连接2048将缓冲器2091的音频部分2092传送到计算设备2052，其中，缓冲器2091的音频部分2092被配置为由计算设备2052用于执行热词识别。
163.尽管所公开的发明构思包括在所附权利要求中限定的发明构思，但是应当理解到，本发明构思也可以根据以下实施例来限定：
164.实施例1是一种用于使用可穿戴设备进行分布式声音识别的方法，包括：经由可穿
戴设备的麦克风接收音频数据；由可穿戴设备的声音分类器检测音频数据是否包括感兴趣的声音；以及响应于在音频数据内检测到感兴趣的声音，经由无线连接将音频数据发送到计算设备。
165.实施例2是根据实施例1所述的方法，其中，声音分类器执行第一机器学习(ml)模型。
166.实施例3是根据实施例1至2中的任一项所述的方法，其中，音频数据被配置为由计算设备或服务器计算机使用以用于使用第二ml模型的进一步声音识别。
167.实施例4是根据实施例1至3中的任一项所述的方法，其中，音频数据被配置为由所述计算设备使用以进一步声音识别。
168.实施例5是根据实施例1至4中的任一项所述的方法，其中，音频数据被配置为由服务器计算机使用以进一步声音识别。
169.实施例6是根据实施例1至5中的任一项所述的方法，其中，服务器计算机通过网络连接到计算设备。
170.实施例7是根据实施例1至6中的任一项所述的方法，其中，感兴趣声音包括语音。
171.实施例8是根据实施例1至7中的任一项的方法，其中，音频数据被配置为由计算设备或服务器计算机使用以使用第二ml模型将语音转换为文本数据。
172.实施例9是根据实施例1至8中的任一项所述的方法，其中，所述方法进一步包括经由无线连接从计算设备接收文本数据。
173.实施例10是根据实施例1至9中的任一项所述的方法，其中，语音为第一语言，而文本数据为第二语言，第二语言不同于第一语言。
174.实施例11是根据实施例1至10中的任一项所述的方法，进一步包括在可穿戴设备的显示器上显示文本数据。
175.实施例12是根据实施例1至11中的任一项所述的方法，进一步包括压缩音频数据，其中，将压缩的音频数据经由无线连接传送到计算设备。
176.实施例13是根据实施例1至12中的任一项所述的方法，进一步包括从音频数据提取特征，其中，所提取的特征经由无线连接被传送到计算设备。
177.实施例14是根据实施例1至13中的任一项所述的方法，其中，无线连接是近距离无线连接。
178.实施例15是根据实施例1至14中的任一项所述的方法，其中，可穿戴设备包括智能眼镜。
179.实施例16是一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行根据实施例1至15中的任一项所述的方法。
180.实施例17是一种被配置为执行实施例1至15中的任一项的可穿戴设备。
181.实施例18是一种编码有计算机程序的计算机存储介质，该程序包括指令，该指令在由数据处理装置执行时，可操作以使数据处理装置执行根据实施例1至15中的任一项所述的方法。
182.实施例19是一种存储可执行指令的非暂时性计算机可读介质，所述可执行指令在由至少一个处理器执行时，使得所述至少一个处理器从可穿戴设备的麦克风接收音频数
据，由可穿戴设备的声音分类器检测音频数据是否包括感兴趣的声音，以及响应于在音频数据内检测到感兴趣的声音，经由无线连接将音频数据传送到计算设备。
183.实施例20是根据实施例19所述的非暂时性计算机可读介质，其中，声音分类器被配置为执行第一机器学习(ml)模型。
184.实施例21是根据实施例19至20中的任一项所述的非暂时性计算机可读介质，其中，音频数据被配置为由计算设备使用以使用第二ml 模型进一步声音识别。
185.实施例22是根据实施例19至21中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时使至少一个处理器继续由声音分类器响应于在音频数据内未检测到感兴趣的声音，由声音分类器继续检测音频数据是否包括感兴趣的声音。
186.实施例23是根据实施例19至22中的任一项所述的非暂时性计算机可读介质，其中，感兴趣的声音包括语音。
187.实施例23是根据实施例19至22中的任一项所述的非暂时性计算机可读介质，其中，音频数据被配置为由计算设备使用以使用第二ml 模型将语音转译为文本数据。
188.实施例24是根据实施例19至23中的任一项所述的非暂时性计算机可读介质，其中，所述可执行指令包括当由所述至少一个处理器执行时，使所述至少一个处理器经由无线连接从计算设备接收文本数据的指令。
189.实施例25是根据实施例19至24中的任一项所述的非暂时性计算机可读介质，其中，所述可执行指令包括当由所述至少一个处理器执行时使所述至少一个处理器压缩音频数据的指令，其中，压缩的音频数据经由无线连接被传送到计算设备。
190.实施例26是根据实施例19至25中的任一项所述的非暂时性计算机可读介质，其中，所述可执行指令包括当由所述至少一个处理器执行时，使所述至少一个处理器从音频数据中提取特征的指令，其中，所提取的特征经由无线连接被传送到计算设备。
191.实施例27是根据实施例19至26中的任一项所述的非暂时性计算机可读介质，其中，可穿戴设备包括智能眼镜。
192.实施例28是根据实施例19至27中的任一项所述的非暂时性计算机可读介质，其中，计算设备包括智能电话。
193.实施例29是一种方法，包括根据实施例19至28中的任一项所述的非暂时性计算机可读介质的操作。
194.实施例30是包括实施例19至28中的任一项所述的特征的可穿戴设备。
195.实施例31是一种用于分布式声音识别的可穿戴设备，该可穿戴设备包括被配置为接收音频数据的麦克风、被配置为检测音频数据是否包括感兴趣的声音的声音分类器，以及被配置为响应于在音频数据内检测到感兴趣的声音，经由无线连接将音频数据发送到计算设备的射频(rf) 收发器。
196.实施例32是根据实施例31所述的可穿戴设备，其中，声音分类器包括第一机器学习(ml)模型。
197.实施例33是根据实施例29至32中的任一项所述的可穿戴设备，其中，音频数据被配置为由计算设备或服务器计算机使用以使用第二 ml模型将感兴趣的声音转译为文本数据。
198.实施例34是根据实施例29至33中的任一项所述的可穿戴设备，其中，rf收发器被配置为通过无线连接从计算设备接收文本数据。
199.实施例35是根据实施例29至34中的任一项所述的可穿戴设备，其中，可穿戴设备进一步包括被配置为显示文本数据的显示器。
200.实施例36是根据实施例29至35中的任一项所述的可穿戴设备，其中，所述可穿戴设备包括智能眼镜。
201.实施例37是根据实施例29至36中的任一项所述的可穿戴设备，其中，无线连接是蓝牙连接。
202.实施例38是一种用于声音识别的计算设备，包括：至少一个处理器；以及存储可执行指令的非暂时性计算机可读介质，所述可执行指令在由所述至少一个处理器执行时，使得所述至少一个处理器经由无线连接，从可穿戴设备接收音频数据，音频数据具有由执行第一机器学习 (ml)模型的声音分类器检测到的感兴趣的声音，使用计算设备上的声音识别引擎来确定是否将感兴趣的声音转译为文本数据，响应于确定使用计算设备上的声音识别引擎，该声音识别引擎被配置为执行第二 ml模型，由声音识别引擎将感兴趣的声音转译为文本，并且经由无线连接将文本数据传送到可穿戴设备。
203.实施例39是根据实施例38所述的计算设备，其中，所述可执行指令包括当由所述至少一个处理器执行时，使所述至少一个处理器执行以下操作的指令：响应于确定不使用计算设备上的声音识别引擎，通过网络将音频数据传送到服务器计算机，以及通过网络从服务器计算机接收文本数据。
204.实施例40是根据实施例38至39中的任一项所述的计算设备，其中，计算设备包括智能电话。
205.实施例41是一种方法，其包括根据实施例38至39中的任一项所述的计算设备的操作。
206.实施例42是一种编码有计算机程序的计算机存储介质，所述程序包括指令，所述指令在由数据处理装置执行时，可操作以使所述数据处理装置执行根据实施例38至39中的任一项所述的计算设备的操作。
207.实施例43是一种用于使用可穿戴设备进行分布式图像识别的方法，包括：经由可穿戴设备的至少一个成像传感器接收图像数据，由可穿戴设备的图像分类器检测感兴趣对象是否包括在图像数据内，以及经由无线连接将图像数据发送到计算设备。
208.实施例44是根据实施例43所述的方法，其中，图像分类器执行第一机器学习(ml)模型。
209.实施例45是根据实施例43至44中的任一项所述的方法，其中，图像数据被配置为由计算设备使用以使用第二ml模型进一步图像识别。
210.实施例46是根据实施例43至45中的任一项所述的方法，进一步包括经由无线连接从计算设备接收边界框数据集。
211.实施例47是根据实施例43至46中的任一项所述的方法，进一步包括由可穿戴设备的对象跟踪器使用边界框数据集来识别由至少一个成像传感器捕获的后续图像数据中的图像区域。
212.实施例48是根据实施例43至47中的任一项所述的方法，进一步包括经由无线连接
将图像区域传送到计算设备，图像区域被配置为由计算设备用于进一步图像识别。
213.实施例49是根据实施例43至48中的任一项所述的方法，进一步包括由对象跟踪器裁剪来自后续图像数据的图像区域。
214.实施例50是根据实施例43至49中的任一项所述的方法，进一步包括由对象跟踪器压缩图像区域，其中，压缩的图像区域通过无线网络被传送到计算设备。
215.实施例51是根据实施例43至50中的任一项所述的方法，其中，感兴趣对象包括面部特征。
216.实施例52是根据实施例43至51中的任一项所述的方法，进一步包括激活可穿戴设备的第一成像传感器以捕获第一图像数据。
217.实施例53是根据实施例43至45中的任一项所述的方法，进一步包括由图像分类器检测第一图像数据是否包括感兴趣对象。
218.实施例54是根据实施例43至53中的任一项所述的方法，进一步包括激活第二成像传感器以捕获第二图像数据。
219.实施例55是根据实施例43至44中的任一项所述的方法，其中，第二图像数据的质量高于第一图像数据的质量。
220.实施例56是根据实施例43至55中的任一项所述的方法，其中，第二图像数据经由无线连接被传送到计算设备，第二图像数据被配置为由计算设备用于进一步的图像识别。
221.实施例57是根据实施例43至56中的任一项所述的方法，进一步包括经由可穿戴设备的光照条件传感器接收光照条件信息。
222.实施例58是根据实施例43至57中的任一项所述的方法，进一步包括基于光照条件信息激活第一成像传感器。
223.实施例59是根据实施例43至58中的任一项所述的方法，进一步包括经由可穿戴设备的运动传感器接收运动信息。
224.实施例60是根据实施例43至59中的任一项所述的方法，进一步包括基于运动信息激活第一成像传感器。
225.实施例61是根据实施例43至60中的任一项所述的方法，其中，无线连接为近距离无线连接。
226.实施例62是根据实施例43至61中的任一项所述的方法，其中，可穿戴设备包括智能眼镜。
227.实施例63是根据实施例43至62中的任一项所述的方法，其中，计算设备包括智能电话。
228.实施例64是一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行根据实施例43至63中的任一项所述的方法。
229.实施例65是一种被配置为执行根据实施例43至63中的任一项所述的可穿戴设备。
230.实施例66是一种编码有计算机程序的计算机存储介质，该程序包括指令，该指令在由数据处理装置执行时可操作以使数据处理装置执行根据实施例43至63中的任一项所述的方法。
231.实施例67是一种存储可执行指令的非暂时性计算机可读介质，所述可执行指令在
由至少一个处理器执行时，使所述至少一个处理器从可穿戴设备上的一个成像传感器接收图像数据，由可穿戴设备的图像分类器检测感兴趣对象是否包括在图像数据内，图像分类器被配置为执行第一机器学习(ml)模型，并且经由无线连接将图像数据传送到计算设备，图像数据被配置为由计算设备使用以使用第二ml模型来计算边界框数据集。
232.实施例68是根据实施例67所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时，使至少一个处理器执行以下操作的指令：经由无线连接从计算设备接收边界框数据集，由可穿戴设备的对象跟踪器使用边界框数据集识别由至少一个成像传感器捕获的后续图像数据中的图像区域，和/或经由无线连接，将图像区域传送到计算设备，图像区域被配置为由计算设备用于进一步的图像识别。
233.实施例69是根据实施例67至68中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时，使至少一个处理器执行以下操作的指令：由对象跟踪器裁剪来自后续图像数据的图像区域和/或由对象跟踪器压缩图像区域，其中，压缩的图像区域通过无线网络被传送到计算设备。
234.实施例70是根据实施例67至69中的任一项所述的非暂时性计算机可读介质，其中，感兴趣对象包括条形码或文本。
235.实施例71是根据实施例67至70中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时，使至少一个处理器激活可穿戴设备的第一成像传感器以捕获第一图像数据，由图像分类器检测第一图像数据是否包括感兴趣对象，和/或激活第二成像传感器以捕获第二图像数据，第二图像数据的质量高于第一图像数据的质量，其中，所述第二图像数据经由无线连接被传送到所述计算设备，第二图像数据被配置为由计算设备使用以进一步的图像识别。
236.实施例72是根据实施例67至71中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时使至少一个处理器压缩第二图像数据的指令，其中，压缩的图像数据经由无线连接被传送到计算设备。
237.实施例73是根据实施例67至72中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时使至少一个处理器从可穿戴设备的光照条件传感器接收光照条件信息和/或基于光照条件信息确定是否传送第二图像数据的指令。
238.实施例74是根据实施例67至73中的任一项所述的非暂时性计算机可读介质，其中，可执行指令包括当由至少一个处理器执行时使至少一个处理器从可穿戴设备的运动传感器接收运动信息，并且基于运动信息确定是否传送第二图像数据的指令。
239.实施例75是一种用于分布式图像识别的可穿戴设备，该可穿戴设备包括被配置为捕获图像数据的至少一个成像传感器，被配置为检测感兴趣对象是否包括在图像数据内的图像分类器，该图像分类器被配置为执行第一机器学习(ml)模型，以及被配置为经由无线连接将图像数据传送到计算设备的射频(rf)收发器，该图像数据被配置为由计算设备使用以使用第二ml模型计算边界框数据集。
240.实施例76是根据实施例75所述的可穿戴设备，其中，rf收发器被配置为经由无线连接，从计算设备接收边界框数据集，可穿戴设备进一步包括对象跟踪器，该对象跟踪器被配置为使用边界框数据集，识别由至少一个成像传感器捕获的后续图像数据中的图像区域，其中，rf 收发器被配置为经由无线连接，将图像区域传送到计算设备，图像区域被配置
为由计算设备使用以进一步图像识别。
241.实施例77是根据实施例75至76中的任一项所述的可穿戴设备，其中，可穿戴设备进一步包括传感器触发器，其被配置为激活第一成像传感器以捕获第一图像数据，图像分类器被配置为检测第一图像数据是否包括感兴趣对象，传感器触发器被配置为响应于在第一图像数据中检测到感兴趣对象，激活第二成像传感器以捕获第二图像数据，第二图像数据的质量高于第一图像数据的质量，其中，rf收发器被配置为通过无线连接将第二图像数据传送到计算设备。
242.实施例78是一种用于分布式图像识别的计算设备，该计算设备包括至少一个处理器和存储可执行指令的非暂时性计算机可读介质，该可执行指令在由至少一个处理器执行时，使至少一个处理器经由无线连接从可穿戴设备接收图像数据，该图像数据具有由执行第一机器学习 (ml)模型的图像分类器检测到的感兴趣对象，使用第二ml模型基于图像数据来计算边界框数据集，经由无线连接将边界框数据集传送到可穿戴设备。
243.实施例79是根据实施例78所述的计算设备，其中，可执行指令包括当由至少一个处理器执行时，使至少一个处理器经由无线连接接收后续图像数据中的图像区域和/或由第二ml模型对图像区域执行对象识别的指令。
244.实施例80是一种使用可穿戴设备进行分布式热词识别的方法，包括：经由可穿戴设备的麦克风接收音频数据，由可穿戴设备的话音命令检测器从音频数据中检测热词的一部分的存在，话音命令检测器执行第一机器学习(ml)模型，在可穿戴设备的缓冲器中存储响应于检测到热词的一部分而经由麦克风接收的音频数据，以及经由无线连接将包括在缓冲器中的音频数据的一部分传送到计算设备，音频数据的该部分被配置为由计算设备使用以使用第二ml模型执行热词识别。
245.实施例81是根据实施例80所述的方法，进一步包括经由无线连接，将包括在缓冲器中的音频数据的剩余部分传送到计算设备。
246.实施例82是根据实施例80至81中的任一项所述的方法，进一步包括经由无线连接，从计算设备接收动作命令，该动作命令使可穿戴装置执行动作。
247.实施例83是根据实施例80至82中的任一项所述的方法，进一步包括：经由无线连接，从计算设备接收解除命令和/或响应于解除命令而丢弃包括在缓冲器中的音频数据。
248.实施例84是一种系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行根据实施例80至83中的任一项所述的方法。
249.实施例85是一种被配置为执行实施例80至83中的任一项所述的可穿戴设备。
250.实施例86是一种编码有计算机程序的计算机存储介质，该程序包括指令，该指令在由数据处理装置执行时可操作以使数据处理装置执行根据实施例80至83中的任一项所述的方法。
251.实施例87是一种用于使用可穿戴设备感测具有多分辨率的图像数据的方法，该方法包括：激活可穿戴设备的第一成像传感器以捕获第一图像数据，由可穿戴设备的分类器检测感兴趣区域(roi)是否被包括在第一图像数据内，分类器执行第一机器学习(ml)模型，响应于在第一图像数据内检测到roi，激活可穿戴设备的第二成像传感器以捕获第二图像数据，第二图像数据的分辨率高于第一图像数据的分辨率，以及经由无线连接将第二图像
数据发送到计算设备，第二图像数据被配置为由计算设备使用以使用第二ml模型进行图像处理。
252.除了上面的描述之外，可以向用户提供控件，该控件允许用户做出关于本文描述的系统、程序或特征是否以及何时可以使能收集用户信息 (例如，关于用户的社交网络、社交动作或活动、职业、用户的偏好或用户的当前位置的信息)以及是否从服务器向用户发送内容或通信这两者的选择。另外，某些数据可以在其被存储或使用之前以一种或多种方式被处理，使得可移除个人可识别信息。例如，可以处理用户的身份，使得不能确定用户的个人可识别信息，或者可以概括获得位置信息的用户的地理位置(诸如到城市、邮政编码或州级别)，使得不能确定用户的具体位置。因此，用户可以控制收集关于用户的什么信息、如何使用该信息以及向用户提供什么信息。
253.本文所述的系统和技术的各种实施方式能够以数字电子电路、集成电路、专门设计的asic(专用集成电路)、计算机硬件、固件、软件和/或其组合来实现。这些各种实施方式可以包括以在可编程系统上执行和/或解释的一个或多个计算机程序的实施方式，可编程系统包括可以是专用或通用的至少一个可编程处理器，其被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，以及向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
254.这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象编程语言和/或汇编/机器语言实现。如本文所使用的，术语“机器可读介质”、“计算机可读介质”是指被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(pld))，包括将机器指令接收为机器可读信号的机器可读介质。术语“机器可读信号”是指被用来向可编程处理器提供机器指令和/或数据的任何信号。
255.为了提供与用户的交互，本文所述的系统和技术可以实现在具有用于向用户显示信息的显示设备(例如，crt(阴极射线管)或lcd(液晶显示器)监视器)，和用户可以通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)的计算机上。也可以使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；以及可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。
256.本文所述的系统和技术可以以包括后端组件(例如，作为数据服务器)或包括中间件组件(例如，应用服务器))，或者包括前端组件(例如，具有用户通过其与本文所述的系统和技术的实施方式交互的图形用户界面或web浏览器的客户端计算机)，或者这种后端、中间件或前端组件的任何组合的计算系统实现。系统的组件可以通过数字数据通信 (例如，通信网络)的任何形式或媒介互连。通信网络的示例包括局域网(“lan”)、广域网(“wan”)和因特网。
257.计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络交互。客户端和服务器的关系借助在各自的计算机上运行的并且彼此具有客户端-服务器关系的计算机程序产生。
258.在本说明书和所附权利要求中，除非上下文另外清楚地规定，否则单数形式“一(a)”、“一个(an)”和“该(the)”不排除复数引用。另外，除非上下文另外清楚地规定，否则诸
如“和”、“或”及“和 /或”的连词是包括性的。例如，“a和/或b”包括单独a、单独b以及a和b。另外，在所呈现的各个图中示出的连接线或连接器旨在表示各个元件之间的示例性功能关系和/或物理或逻辑耦合。在实际设备中可以存在许多替代或附加功能关系、物理连接或逻辑连接。此外，除非元件被具体地描述为“必要的”或“关键的”，否则项目或组件不是实施本文中公开的实施例所必要的。
259.在本文中使用诸如但不限于近似地、基本上、一般地等的术语来指示不要求并且不必指定精确值或其范围。如本文中所使用的，上文讨论的术语对于本领域的普通技术人员而言将具有现成和即时含义。
260.此外，参考当前考虑或图示的定向使用诸如上、下、顶部、底部、侧面、端部、前面、后面等的术语在本文中的运用。如果相对于另一定向考虑它们，则应当理解到，必须相应地修改这些术语。
261.另外，在本说明书和所附权利要求中，除非上下文另外清楚地规定，否则单数形式“一(a)”、“一个(an)”和“该(the)”不排除复数引用。此外，除非上下文另外清楚地规定，否则诸如“和”、“或”及“和/或”的连词是包括性的。例如，“a和/或b”包括单独a、单独b以及a和b。
262.尽管本文已经描述了某些示例性方法、装置和制品，但是本专利的覆盖范围不限于此。应理解到，本文采用的术语是出于描述特定方面的目的，而不是限制性的。相反，该专利涵盖了完全落在本专利的权利要求范围内的所有方法、装置和制品。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

使用可穿戴设备的分布式声音识别的制作方法

相关文献

最热文献