多个头戴式装置之间的音频空间化和增强的制作方法

2021-12-15 02:34:00 来源：中国专利 TAG：

多个头戴式装置之间的音频空间化和增强
1.相关申请的交叉引用
2.本技术要求2019年5月7日提交的第16/405,950号美国申请的优先权，该美国申请的内容通过引用以其整体并入本文以用于所有目的。
3.背景
4.本公开总体上涉及在共享通信信道上的用户之间的音频通信，并且具体涉及对在共享通信信道的多个不同用户之间传输的音频信号的空间化和增强。
5.在具有多个声源的环境中，收听者可能会遇到在调谐到特定声源时同时调谐出来自其他声源中的声源的麻烦。例如，在多人同时讲话的繁忙房间里，收听者很难将特定发言者的话语与该房间里其他发言者的声音区别开。这种现象被称为鸡尾酒会问题(cocktail party problem)。在一些情况下，不同的声源，例如发言者，可以具有记录他们的语音的麦克风，这些语音被传输给收听者听到。然而，收听者可能很难辨认声源，尤其是当存在大量声源时，或者很难在不同的声源之间切换他们的注意力。
6.概述
7.实施例涉及在多个用户之间建立用于传输和接收音频内容的共享通信信道。每个用户与头戴式装置相关联，该头戴式装置被配置为向其他用户的头戴式装置传输音频数据和从其他用户的头戴式装置接收音频数据。第一用户的头戴式装置响应于接收到对应于第二用户的音频数据，基于第一用户和第二用户的相对位置将音频数据空间化，使得呈现给第一用户的音频数据看起来源自对应于第二用户的位置。头戴式装置还可以基于第二用户的位置与增强方向(例如第一用户的注视方向)之间的偏差来增强音频数据，从而允许第一用户更清楚地听到来自其他用户的他们正在关注的音频数据。
8.在一些实施例中，描述了一种头戴式装置。该头戴式装置包括注视确定系统，该注视确定系统被配置为确定穿戴头戴式装置的第一用户的注视方向。该头戴式装置还包括接收器，该接收器被配置为接收与第二用户相关联的音频数据，该音频数据包括音频输出信号。头戴式装置还包括处理电路，该处理电路被配置为识别与第二用户相关联的相对于第一用户的相对位置，以及确定所识别的第二用户的相对位置相对于第一用户的注视方向的偏差。处理电路基于与第二用户相关联的相对位置来空间化与第二用户相关联的音频输出信号。响应于所识别的第二用户的位置相对于第一用户的注视方向的偏差在阈值量内，处理电路还可以基于该偏差来增强音频输出信号的幅度。头戴式装置还包括音频输出接口，该音频输出接口被配置为向一个或更多个扬声器发送空间化和增强的音频输出信号以产生输出声音，以便将输出声音呈现给第一用户，使得输出声音被感知为源自第二用户的位置。
9.该方法可以由音频系统执行。例如，作为头戴式装置的一部分的音频系统(例如，近眼显示器、头戴式显示器)。音频系统包括麦克风组件、收发器、控制器和扬声器组件(例如，扬声器阵列)。
10.特别地，在涉及头戴式装置、方法和存储介质的所附权利要求中公开了根据本发明的实施例，其中，在一个权利要求类别(例如头戴式装置)中提及的任何特征也可以在另
一个权利要求类别(例如方法、存储介质、系统和计算机程序产品)中要求保护。仅出于形式上的原因选择所附权利要求中的从属关系或往回引用。然而，也可以要求保护由有意地往回引用任何先前的权利要求(特别是多项从属关系)所导致的任何主题，使得公开并可要求保护权利要求及其特征的任何组合，而与所附权利要求中选择的从属关系无关。可以要求保护的主题不仅包括所附权利要求中阐述的特征的组合，而且还包括权利要求中特征的任何其他组合，其中，权利要求中提到的每个特征可以与任何其他特征或权利要求中的其他特征的组合进行组合。此外，本文描述或描绘的任何实施例和特征可以在单独的权利要求中和/或与本文描述或描绘的任何实施例或特征或与所附权利要求的任何特征的任何组合中要求保护。
11.在一个实施例中，一种头戴式装置可以包括：
12.注视确定电路，其被配置为确定头戴式装置的第一用户的注视方向；
13.收发器，其被配置为接收与第二用户的头戴式装置相关联的音频信号；
14.处理电路，其被配置为：
15.确定与第二用户相关联的相对于第一用户的相对位置；
16.确定第二用户的位置相对于第一用户的增强方向的偏差，其中增强方向至少部分地基于第一用户的注视方向；
17.至少部分地基于与第二用户相关联的相对位置，空间化与第二用户相关联的音频信号；以及
18.至少部分地基于所识别的第二用户的位置相对于第一用户的增强方向的偏差来增强音频输出信号的幅度；以及
19.扬声器组件，其被配置为基于空间化和增强的音频输出信号来投射声音，使得投射的声音被感知为源自第二用户的位置。
20.在一个实施例中，头戴式装置可以包括麦克风阵列，该麦克风阵列包括被布置在多个不同位置中的多个麦克风，麦克风阵列可以被配置为捕获第一用户的局部区域中的声音并生成音频输入信号。
21.处理电路可以被配置为：
22.分析音频输入信号以识别源自第一用户的局部区域中的特定区域的声音；以及
23.通过增强音频输入信号的与源自该特定区域的声音对应的部分，来根据该音频输入信号生成用户音频信号。
24.特定区域可以对应于第一用户的嘴。
25.收发器可以被配置为接收第二用户的位置信息。
26.在一个实施例中，头戴式装置可以包括天线阵列，该天线阵列被配置为确定与第二用户相关联的相对于第一用户的相对位置。
27.处理电路可以被配置为基于第一用户和第二用户之间是否有视线(line of sight)来空间化音频输出信号。
28.注视确定电路可以被配置为：
29.接收第一用户的位置，该位置至少包括第一用户的头部定向；以及
30.确定第一用户的眼睛相对于第一用户的头部的相对定向；并且
31.其中，空间化与第二用户相关联的音频输出信号是基于第二用户的位置相对于第
一用户的头部定向的相对方向。
32.接收器可以被配置为从第三用户接收第二音频信号，并且处理电路可以被配置为：
33.识别与第三用户相关联的相对于第一用户的相对位置；
34.确定所识别的第三用户的相对位置相对于第一用户的增强方向的偏差；
35.将所识别的第三用户的相对位置的偏差与所识别的第二用户的相对位置的偏差进行比较；以及
36.基于比较的结果，增强与第三用户相关联的第二音频信号的幅度。
37.在实施例中，一种方法可以包括：
38.在第一用户的头戴式装置处，确定第一用户的增强方向；
39.在第一用户的头戴式装置处，接收与第二用户的头戴式装置相关联的音频信号；
40.识别与第二用户相关联的相对于第一用户的相对位置；
41.确定所识别的第二用户的相对位置相对于第一用户的增强方向的偏差；
42.至少部分基于与第二用户相关联的相对位置，空间化与第二用户相关联的音频信号；以及
43.至少部分地基于所识别的第二用户的位置相对于第一用户的增强方向的偏差来增强音频输出信号的幅度；以及
44.基于空间化和增强的音频输出信号来投射声音，使得投射的声音被感知为源自第二用户的位置。
45.在一个实施例中，一种方法可以包括使用包括被布置在多个不同位置中的多个麦克风的麦克风阵列来捕获第一用户的局部区域中的声音并生成音频输入信号。
46.在一个实施例中，一种方法可以包括：
47.分析音频输入信号以识别源自第一用户的局部区域中的特定区域的声音；
48.通过增强音频输入信号的对应于源自该特定区域的声音的部分，来根据该音频输入信号生成用户音频信号。
49.特定区域可以对应于第一用户的嘴。
50.在一个实施例中，一种方法可以包括接收第二用户的位置信息。
51.在一个实施例中，一种方法可以包括：在天线阵列处，接收来自第二用户的头戴式装置的信号，以及基于所接收的信号，确定与第二用户相关联的相对于第一用户的相对位置。
52.空间化音频输出信号可以基于第一用户和第二用户之间是否有视线。
53.确定第一用户的增强方向可以包括通过以下步骤确定第一用户的注视方向：
54.接收第一用户的位置，该位置至少包括第一用户的头部定向；
55.确定第一用户的眼睛相对于第一用户的头部的相对定向；以及
56.基于该头部定向和第一用户的眼睛相对于第一用户的头部的相对定向来确定注视方向；并且
57.其中，空间化与第二用户相关联的音频输出信号是基于第二用户的位置相对于第一用户的定向的相对方向。
58.在一个实施例中，一种方法可以包括：
59.从第三用户接收第二音频信号；
60.识别与第三用户相关联的相对于第一用户的相对位置；
61.确定所识别的第三用户的相对位置相对于第一用户的增强方向的偏差；
62.将所识别的第三用户的相对位置的偏差与所识别的第二用户的相对位置的偏差进行比较；以及
63.基于比较的结果，增强与第三用户相关联的第二音频信号的幅度。
64.在一个实施例中，一种非暂时性计算机可读介质可以存储指令，该指令当被一个或更多个处理器执行时，使得该一个或更多个处理器执行操作，该操作包括：
65.在第一用户的头戴式装置处，确定第一用户的增强方向；
66.在第一用户的头戴式装置处，接收与第二用户的头戴式装置相关联的音频信号；
67.识别与第二用户相关联的相对于第一用户的相对位置；
68.确定所识别的第二用户的相对位置相对于第一用户的增强方向的偏差；
69.至少部分基于与第二用户相关联的相对位置，空间化与第二用户相关联的音频信号；以及
70.至少部分基于所识别的第二用户的位置相对于第一用户的增强方向的偏差来增强音频输出信号的幅度；以及
71.基于空间化和增强的音频输出信号来投射声音，使得投射的声音被感知为源自第二用户的位置。
72.确定第一用户的增强方向可以包括通过以下步骤确定第一用户的注视方向：
73.接收第一用户的位置，该位置至少包括第一用户的头部定向；
74.确定第一用户的眼睛相对于第一用户的头部的相对定向；以及
75.基于该头部定向和第一用户的眼睛相对于第一用户的头部的相对定向来确定注视方向；并且
76.其中，空间化与第二用户相关联的音频输出信号是基于第二用户的位置相对于第一用户的定向的相对方向。
77.在实施例中，一个或更多个计算机可读非暂时性存储介质可以包含软件，该软件当被执行时可操作来执行根据上述任一实施例的方法或在上述任一实施例中的方法。
78.在实施例中，系统可以包括：一个或更多个处理器；以及至少一个存储器，该存储器耦合到处理器并包括可由处理器执行的指令，处理器可在执行指令时可操作以执行根据上述任一实施例的方法或在上述任一实施例中的方法。
79.在实施例中，优选地包括计算机可读非暂时性存储介质的计算机程序产品可在数据处理系统上执行时可操作以执行根据上述任一实施例的方法或在上述任一实施例中的方法。
80.附图简述
81.图1示出了根据一个或更多个实施例的其中可以使用用于音频空间化和增强的系统的环境的高阶图。
82.图2是示出根据一个或更多个实施例的可以由共享通信信道的用户穿戴的包括音频系统的头戴式装置的示例。
83.图3示出了根据一个或更多个实施例的音频系统的框图。
84.图4示出了根据一个或更多个实施例的具有利用共享通信信道的多个用户的环境的示例。
85.图5示出了根据一个或更多个实施例的对用户音频信号进行滤波的图示。
86.图6是根据一个或更多个实施例的用于空间化和增强从共享通信信道中的其他用户接收的音频数据的过程的流程图。
87.图7是根据一个或更多个实施例的用于处理对应于用户的说话声的音频信号的过程的流程图。
88.图8是根据一个或更多个实施例的包括如上所述的音频系统的头戴式装置的系统环境。
89.附图仅出于说明的目的描绘了本发明的多个实施例。本领域中的技术人员从下面的讨论中将容易认识到，在不偏离本文所述的本发明的原理的情况下可以采用本文所示的结构和方法的替代实施例。
90.详细描述
91.实施例涉及一种具有音频系统的头戴式装置，该音频系统被配置为从多个音频源接收音频信号，并将接收到的音频信号回放给用户(例如，头戴式装置的穿戴者)。音频系统基于特定音频源的相对位置将从该音频源接收的音频信号空间化，使得被回放给用户的音频信号看起来源自音频源的位置。在一些实施例中，音频系统基于音频源的位置和用户的增强方向(例如，注视方向)来增强从音频源接收的音频信号，以便强调(emphasize)从特定音频源接收的音频数据，并允许用户在不同的音频源之间切换他们的注意力。
92.在一些实施例中，在局域网内的多个用户之间建立共享通信信道。每个用户都穿戴包括用于与共享通信信道中的其他用户通信(例如，传输和接收音频信号)的收发器的头戴式装置。每个头戴式装置还包括被配置为跟踪其用户的位置和注视方向的传感器，该位置和注视方向可用于确定共享通信信道的其他用户的相对位置以及其他用户的位置与用户的注视方向如何相关。
93.头戴式装置基于共享通信信道的其他用户的相对位置来处理从共享通信网络的其他用户接收的音频信号，使得音频信号在被回放给用户时，将看起来源自对应于其他用户的位置。音频信号还基于用户的增强方向(用户的增强方向可以基于用户的注视方向，并且可以被用于推断用户正在关注哪些其他用户)被增强，其中来自与用户的增强方向对齐的位置处的其他用户的音频信号可以被更强地增强。例如，第一用户从共享通信信道的每个其他用户接收音频信号，该音频信号被空间化以指示每个其他用户相对于第一用户的相对位置，并且基于第一用户当前正看着哪个其他用户(例如，由注视方向确定的其他用户)而被增强。
94.此外，头戴式装置还包括麦克风，该麦克风用于记录用户自己的语音。然后，用户自己的语音可以被传输到共享通信信道中的其他用户的头戴式装置。此外，在一些实施例中，用户自己的语音可以被回放给用户，以帮助用户调整他们自己说话声的音量。
95.各种实施例可以包括人工现实系统或结合人工现实系统来实现。人工现实是一种在呈现给用户之前已以某种方式进行调整的现实形式，其可包括例如虚拟现实(vr)、增强现实(ar)、混合现实(mr)、混杂现实或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或与捕获的(例如，现实世界的)内容相结合的生成内容。人工现实内容可以
包括视频、音频、触觉反馈或它们的某种组合，并且其中的任何一个都可以在单个通道或多个通道中呈现(诸如向观看者产生三维效果的立体视频)。此外，在一些实施例中，人工现实还可以与用于例如在人工现实中创建内容和/或以其他方式用于人工现实(例如，在其中执行活动)的应用、产品、附件、服务或其某种组合相关联。提供人工现实内容的人工现实系统可以在各种平台上实现，包括连接到主机计算机系统的头戴式显示器(hmd)、独立hmd、移动装置或计算系统或任何其他能够向一个或更多个观看者提供人工现实内容的硬件平台。
96.图1示出了根据一个或更多个实施例的包括音频系统115的环境的高阶图。音频系统115可以被集成为用户105a可以穿戴的头戴式装置110的一部分。
97.穿戴包含音频系统115的头戴式装置110的用户105a处于接近多个其他用户(用户105b、105c、105d和105e)的环境中。用户105a
‑
e可以统称为用户105。用户可以彼此交谈，且因此每个用户可以被认为对应于音频源。此外，在该环境中可能存在另外的音频源。在大量音频源彼此接近的环境中，用户105a可能难以聚焦于任何特定的音频源(例如，环境中的特定的其他用户的语音)。
98.为了便于环境中的用户之间的对话，每个用户可以穿戴具有相应音频系统的相应头戴式装置。音频系统115与其他头戴式装置的音频系统通信，以接收对应于其他用户的语音的音频信号，并将音频信号回放给用户105a。这可以允许用户105a更清楚地听到其他用户的语音。此外，音频系统115处理接收到的音频信号，使得被回放给用户105的音频信号被空间化，使得播放的声音被感知为源自其他用户的位置。还可以基于用户105当前正看着哪个其他用户来增强回放的音频信号。
99.在一些实施例中，多个用户可以建立共享通信信道。例如，图1示出了具有三个用户的第一共享通信信道120a，以及具有两个用户的第二共享通信信道120b。共享通信信道120可以对应于希望彼此对话的特定用户组。例如，共享通信信道120可以包括彼此在特定接近度内的多个用户(例如，坐在同一张桌子上的用户)。如本文所使用的，共享通信信道可以指多个用户的分组，每个用户与相对应的音频系统相关联，其中每个用户的音频系统能够与该分组内的每个其他用户的音频系统通信。例如，共享通信信道120a的三个用户105a、105b和105c中的每一个用户具有彼此通信的相应音频系统，而共享通信信道120b的两个用户105d和105e中的每一个用户具有彼此通信的相应音频系统。
100.在一些实施例中，共享通信信道可以包括一个或更多个远程用户。共享通信信道可以包括在(例如，对应于特定房间、建筑物等的)特定地理区域内的多个用户。在一些实施例中，地理区域可以基于一个或更多个结构(例如墙壁)来进行限定。如本文所使用的，远程用户可以对应于参与共享通信信道的位于对应于该信道的地理区域之外的用户。例如，共享通信信道可以包括坐在公共桌旁的一组用户，以及位于不同建筑物中的一个或更多个另外的远程用户。
101.尽管图1示出了每个共享通信信道120a和120b对应于不同的区域，但是在一些实施例中，不同的共享通信信道覆盖重叠的区域。例如，共享通信信道120b的用户可以在公共区域内与共享通信信道120a的用户混在一起。在一些实施例中，特定用户可以是多于一个共享通信信道(例如，共享通信信道120a和120b两者)的一部分。
102.在一些实施例中，共享通信信道120可以由一组一个或更多个用户通过信息交换来建立。例如，第一用户可以通过(例如，使用他们相应的头戴式装置110或其他扫描装置)
扫描对应于第二用户的信息来(例如，基于第二用户穿戴的头戴式装置或诸如徽章的可扫描对象)加入关于第二用户的公共共享通信信道。在一些实施例中，共享通信信道被实现为在至少第一用户和第二用户的头戴式装置之间建立的对等网络的一部分。
103.在一些实施例中，一个或更多个用户105经由网络125访问应用服务器130。网络可以包括互联网、局域网(lan)、广域网(wan)、移动有线或无线网络、专用网络、虚拟专用网络或它们的组合。
104.应用服务器130包含便于不同用户的头戴式装置之间的通信的一个或更多个应用，并且可以对应于在线系统、本地控制台或它们的某种组合。例如，应用服务器130可以包含在两个或更多用户之间建立共享通信信道，并且维护对应于所建立的共享通信信道的元数据的应用。应用服务器可以包括在线系统。每个用户可以登录到应用服务器130上的在线系统，并指示他们希望与之通信的一个或更多个其他用户。在一些实施例中，如果两个用户105都指示希望与另一个用户通信，则可以建立这两个用户之间的连接。可以为每个用户组形成共享通信信道，其中该组中的每个用户连接到该组中的每个其他用户。
105.在其他实施例中，第一用户可以建立共享通信信道120，然后另外的用户可以加入该共享通信信道120。例如，第一用户可以向每个另外的用户提供密码或其他类型的认证，以允许另外的用户经由应用服务器130加入共享通信信道(例如，向另外的用户口头地或以书面形式提供密码，或者向由第一用户通过用户界面指示的另外的用户的头戴式装置传输密码)。在一些实施例中，应用服务器130维护共享通信信道120，并且(例如，在新用户加入信道时，或者在现有用户退出信道时)向信道的每个用户的头戴式装置传输关于信道的当前状态的更新。在一些实施例中，应用服务器130用于维护对应于共享通信信道120的信息，并将关于共享通信信道的当前状态信息传输给每个用户的头戴式装置，同时头戴式装置之间的音频数据的通信可以对等执行。
106.在一些实施例中，应用服务器130包括社交网络系统。社交网络系统可以维护指示不同用户之间的关系(例如，朋友关系)的社交图或其他数据结构。在一些实施例中，只有在社交网络系统上具有特定类型关系的用户可以彼此建立连接以形成共享通信信道。在一些实施例中，由应用服务器130维护的社交图可以用于在多个用户之间自动建立共享通信信道120。例如，全部位于特定地理区域内并且彼此都具有特定类型的社交网络关系的一组用户可以被自动包括在共享通信信道中。
107.在一些实施例中，应用服务器130的一些或所有功能可以由本地控制台来执行。例如，本地控制台可以连接到对应于本地环境中不同用户105的多个头戴式装置110，并且在环境中的用户组之间建立和维护一个或更多个共享通信信道。在一些实施例中，一个或更多个头戴式装置105可以通过本地控制台连接到应用服务器130。
108.图2是示出根据一个或更多个实施例的可以由共享通信信道中的用户穿戴的包括音频系统的头戴式装置110的示例。头戴式装置110向用户呈现媒体。在一个实施例中，头戴式装置110可以是近眼显示器(ned)。在另一个实施例中，头戴式装置110可以是头戴式显示器(hmd)。通常，头戴式装置可以穿戴在用户(如，用户105)的脸上，从而使用头戴式装置的一个或两个透镜210来呈现内容(例如，媒体内容)。然而，也可以使用头戴式装置110，使得媒体内容以不同的方式呈现给用户。头戴式装置110呈现的媒体内容的示例包括一个或更多个图像、视频、音频或其某种组合。头戴式装置110包括音频系统，并且可以包括框架205、
透镜210、相机组件235、位置传感器240、眼睛跟踪传感器245和用于控制音频系统的控制器215以及头戴式装置110的其他各种传感器。尽管图2示出了在头戴式装置110上的示例位置上的头戴式装置110的部件，但是这些部件可以位于头戴式装置110上的其他地方、与头戴式装置110配对的外围装置上，或者这两种位置的某种组合。
109.头戴式装置110可以矫正或增强用户的视力、保护用户的眼睛或向用户提供图像。头戴式装置110可以是矫正用户视力缺陷的眼镜。头戴式装置110可以是保护用户眼睛免受阳光照射的太阳镜。头戴式装置110可以是保护用户眼睛免受撞击的安全眼镜。头戴式装置110可以是夜视装置或红外护目镜以增强用户在夜间的视力。头戴式装置110可以是为用户产生人工现实内容的近眼显示器。可替代地，头戴式装置110可以不包括透镜210并且可以是具有向用户提供音频内容(例如，音乐、广播、播客)的音频系统的框架205。
110.透镜210向穿戴头戴式装置110的用户提供或传输光。透镜210可以是处方透镜(例如，单视觉(single vision)透镜、双焦和三焦或渐进透镜)以帮助矫正用户的视力缺陷。处方透镜将环境光传输给穿戴头戴式装置110的用户。透射的环境光可能会被处方透镜改变，以矫正用户视力的缺陷。透镜210可以是偏光透镜或有色镜片以保护用户的眼睛免受阳光照射。透镜210可以具有作为波导显示器的一部分的一个或更多个波导，其中图像光通过波导的端部或边缘耦合到用户的眼睛。透镜210可以包括用于提供图像光的电子显示器并且还可以包括用于放大来自电子显示器的图像光的光学块。
111.在一些实施例中，头戴式装置110包括相机组件235，其捕获关于头戴式装置110周围的局部区域的视觉信息。在一些实施例中，相机组件235对应于深度相机组件(dca)，其捕获描述局部区域的深度信息的数据。在一些实施例中，dca可以包括光投影仪(例如，结构化光和/或用于飞行时间的闪光照明)、成像装置和控制器。捕获的数据可以是由成像装置捕获的由光投影仪投射到局部区域的光的图像。在一个实施例中，dca可以包括两个或两个以上的相机和控制器，这些相机被定向为以立体方式捕获局部区域的部分。捕获到的数据可以是由两个或两个以上的相机以立体方式捕获的局部区域的图像。控制器使用捕获的数据和深度确定技术(例如，结构化光、飞行时间、立体成像等)来计算局部区域的深度信息。基于深度信息，控制器215可以能够确定头戴式装置110在局部区域内的绝对位置信息。dca可以与头戴式装置110集成或者可以位于头戴式装置110外部的局部区域内。在后一实施例中，dca的控制器可以将深度信息传输到头戴式装置110的控制器215。
112.位置传感器240被配置为生成一个或更多个测量信号，并基于生成的信号估计头戴式装置110的当前位置。在一些实施例中，相对于头戴式装置110的初始位置来确定头戴式装置110的当前位置。估计位置可以包括头戴式装置110的位置和/或头戴式装置110或穿戴头戴式装置110的用户的头部的定向或其某种组合。例如，该定向可以对应于每只耳朵相对于参考点的位置。在一些实施例中，在相机组件235包括dca时，位置传感器240使用来自dca的深度信息和/或绝对位置信息来估计头戴式装置110的当前位置。位置传感器240可以包括测量平移运动(向前/向后、向上/向下、向左/向右)的一个或更多个加速度计和用于测量旋转运动(例如，俯仰、偏航、滚动)的一个或更多个陀螺仪。在一些实施例中，位置传感器240包括可用于检测运动的其他类型的传感器，例如一个或更多个磁力计。
113.在一些实施例中，位置传感器240包括惯性测量单元(imu)，其快速采样所接收的测量信号并根据采样数据计算头戴式装置110的估计位置。例如，imu对从加速度计接收到
的测量信号在时间上求积分以估计速度矢量并且对速度矢量在时间上求积分以确定头戴式装置110上的参考点的估计位置。参考点是可以用来描述头戴式装置110的位置的点。虽然参考点通常可以定义为空间中的点，然而实际上参考点被定义为头戴式装置110内的点。在一些实施例中，imu可以被实现为本地控制器215的一部分，而不是位置传感器240。
114.眼睛跟踪传感器245被配置为提供可用于确定用户的注视方向的传感器读数(例如，对用户眼睛的捕获图像)。当穿戴头戴式装置110时，用户眼睛可以相对于他们的头部移动，允许用户在不必移动他们的头部的情况下看向不同的方向。这样，用户可能正看向不同于相对于(例如，由位置传感器240确定的)头戴式装置110的位置和定向的正前方的方向。
115.在一些实施例中，眼睛跟踪传感器245包括被配置为确定用户眼睛的定向的眼睛跟踪传感器。眼睛跟踪传感器捕获并分析用户眼睛的图像，以确定用户眼睛相对于头戴式装置110的定向。在一些实施例中，眼睛跟踪传感器包括一个或更多个光源和一个或更多个相机。一个或更多个光源用ir光(例如(例如，用于飞行时间深度确定的)红外闪光)、结构光图案(例如，点图案、条形图案等)、闪烁图案等照射眼睛。例如，源可以是垂直腔发射激光器、发光二极管、微型led、某种其他的红外光ir源或它们的某种组合。一个或更多个相机被配置成捕获用来自一个或更多个源的ir光照射的一只或两只眼睛的图像。相机包括被配置成检测从一个或更多个源发射出的光的图像传感器(例如，互补金属氧化物半导体、电荷耦合器件等)。在一些实施例中，相机还可以能够检测其他波段(例如，可见光波段)的光。眼睛跟踪传感器使用捕获的图像和深度确定技术来确定用户的一只或两只眼睛的眼睛定向。深度确定技术可以包括例如结构光、飞行时间、立体成像、本领域技术人员熟悉的某种其他深度确定方法等。在一些实施例中，眼睛跟踪传感器基于捕获的图像和用户眼睛的模型来确定眼睛定向。
116.由眼睛跟踪传感器确定的眼睛定向可以与头戴式装置110的确定的位置(例如，使用位置传感器240确定的位置)相结合，以确定用户的注视方向。例如，对应于用户的眼睛定向的向量(其指示用户眼睛相对于他们头部的定向)可以被添加到对应于头戴式装置的位置的向量(其指示头戴式装置在本地环境内的位置和定向)以确定对应于用户的注视方向的向量(其指示用户在本地环境正看向的方向)。通过确定用户的注视方向，识别用户在环境中正看向的方向，这可以结合对共享通信信道的其他用户的位置的知识，从而允许确定用户正看向哪个其他用户。
117.在一些实施例中，眼睛跟踪传感器245还从相机组件235的相机接收描绘相机的fov内的局部区域的一个或更多个图像，并将所确定的眼睛定向映射到所接收的图像内的位置。在一些实施例中，该模块使用对象识别来识别一个或更多个图像中的一个或更多个对象(例如，其他用户)，并将所确定的眼睛定向映射到一个或更多个所识别的对象。
118.头戴式装置110的音频系统被配置成允许用户与共享通信信道110内的其他用户通信。在一些实施例中，音频系统包括麦克风组件225、收发器230、具有一个或更多个扬声器的扬声器组件以及控制器215。控制器215被配置成协调头戴式装置110的各个部件之间的操作。例如，控制器215可以控制麦克风组件225来捕获对应于用户语音的音频数据，以经由收发器230传输给共享通信信道内的其他用户。此外，控制器215可以经由收发器230接收对应于共享通信信道的其他用户的音频数据，并且基于其他用户相对于该用户的当前位置(例如，由位置传感器240确定的当前位置)的相对位置来处理接收到的音频数据(例如，空
间化和/或增强音频数据)。可以使用扬声器组件将处理后的音频数据回放给用户。关于音频系统的附加细节参考图3进行讨论。
119.麦克风组件225记录头戴式装置110的局部区域内的声音。局部区域是头戴式装置110周围的环境。例如，局部区域可以是穿戴头戴式装置110的用户所在的房间，或者穿戴头戴式装置110的用户可以在外面并且局部区域是麦克风组件能够检测到声音的外部区域。麦克风组件225包括一个或更多个声学传感器。在一些实施例中，声学传感器被配置成记录头戴式装置110的用户的语音。为此，声学传感器可以位于用户的嘴附近，并且可以具有短的捕获范围，以避免捕获不是源自用户的其他声音。在一些实施例中，声学传感器可以位于单独的话筒(mouthpiece)或其他结构上，以被定位成更靠近用户的嘴。
120.在一些实施例中，声学传感器包括对应于头戴式装置110的框架205中的孔的端口。该端口为声音提供从局部区域到声学波导的输入耦合点，该声学波导将声音引导至声学传感器。声学传感器捕获从局部区域中的一个或更多个声源发射出的声音，并被配置成检测声音并将检测到的声音转换成电子格式(模拟或数字)。声学传感器可以是声波传感器、麦克风、声换能器或适用于检测声音的类似传感器。
121.尽管图2示出了麦克风组件225位于头戴式装置110上的单个位置处，但是在一些实施例中，麦克风组件225包括麦克风阵列，该麦克风阵列具有位于头戴式装置110上的多个声学检测位置。每个声学检测位置可以包括声学传感器或端口。声学检测位置可以被放置在头戴式装置110的外表面上、被放置在头戴式装置110的内表面上、与头戴式装置110分开(例如，某种其他装置的一部分)、或者它们的某种组合。
122.收发器230被配置成与其他用户的其他头戴式装置的收发器通信。例如，收发器230可以将数据(例如，对应于用户语音的音频)传输给共享通信信道内的其他用户的头戴式装置，并且从其他用户的头戴式装置接收数据(例如，对应于其他用户的语音的音频信号)。在一些实施例中，收发器230可以访问网络(例如，网络125)以与应用服务器或控制台(例如，被配置为维护共享通信信道的应用服务器)通信。收发器230可以包括发射器、接收器或两者。
123.头戴式装置110还包括扬声器组件，该扬声器组件被配置为回放一个或更多个音频信号作为投射给头戴式装置110的用户的声音。在一些实施例中，扬声器组件包括两个或更多个扬声器，这允许投射到用户的声音(例如，通过调整通过每个扬声器220投射的声音的幅度)被空间化，使得声音可以在用户听来是源自该局部区域中的特定位置或方向。例如，如图2所示，扬声器组件可以包括对应于用户左右耳朵的左扬声器220a和右扬声器220b。在一些实施例中，扬声器可以覆盖用户的耳朵(例如，头戴式受话器)或者插入用户的耳朵(例如，耳塞)。
124.尽管图2示出了两个扬声器(例如，左扬声器220a和右扬声器200b)，但是在一些实施例中，扬声器可以包括扬声器阵列，该扬声器阵列包括头戴式装置110上的多个声发射位置。声发射位置是头戴式装置110的框架105中的扬声器或端口的位置。在声发射位置的情况下，端口提供来自声学波导的声音的输出耦合点，该声学波导将扬声器阵列的扬声器与端口分开。从扬声器发射出的声音行经声学波导，且然后被端口发射到局部区域中。在一些实施例中，声发射位置被放置在框架205的外表面(即，不面向用户的表面)上、框架205的内表面(面向用户的表面)上，或它们的某种组合。
125.尽管图2示出了头戴式装置110在特定布置中的各种部件，但是应当理解的是，在其他实施例中，头戴式装置110可以包含与这里描述的部件不同的部件，并且头戴式装置110的部件可以具有不同的结构或者被不同地布置。在一些实施例中，上面讨论的一些功能可以由不同的部件或部件的组合来执行。
126.在所示的配置中，音频系统被嵌入到用户穿戴的ned中。在替代实施例中，音频系统可以嵌入到用户穿戴的头戴式显示器(hmd)中。虽然上面的描述讨论了嵌入到用户穿戴的头戴式装置中的音频组件，但对于本领域技术人员来说明显的是，音频组件可以嵌入到不同的头戴式装置中，这些头戴式装置可由用户在别处穿戴或在不被穿戴的情况下由用户操作。
127.音频系统
128.图3示出了根据一个或更多个实施例的音频系统300的框图。音频系统300可以被实现为头戴式装置(例如，头戴式装置110)的一部分，并且可以包括麦克风组件225、收发器230、扬声器组件330和控制器215。音频系统300的一些实施例具有与这里描述的那些不同的部件。类似地，功能可以以不同于这里描述的方式在部件之间分布。在一些实施例中，音频系统的一些功能可以是不同部件的一部分(例如，一些功能可以是头戴式装置的一部分，而一些功能可以是控制台和/或服务器的一部分)。
129.麦克风组件225被配置成捕获用户的局部区域内的声音，并生成对应于所捕获的声音的音频信号。在一些实施例中，麦克风组件225被配置成捕获用户的语音，并且包括多个麦克风，该多个麦克风被配置成朝向局部区域的特定部分(例如，靠近用户的嘴)进行波束成形(beam form)，以增加对头戴式装置的用户说出的声音的检测。例如，每个麦克风生成对应于麦克风检测到的声音的音频输入信号。通过分析每个麦克风的音频输入信号，可以识别出源自用户的局部区域中的特定区域(例如，靠近用户的嘴)的声音。控制器215通过增强音频输入信号的对应于源自特定区域的声音的部分，来根据音频输入信号生成用户音频信号。这样，可以生成用户音频信号，使得它反映源自用户的嘴处或嘴附近的声音(例如，对应于用户的语音的声音)。这可能是有用的，因为即使在具有来自其他源的大量声音的环境中(例如，在拥挤的房间中)，它也允许捕获用户语音的清晰音频信号。
130.收发器230被配置成向用户是其一部分的共享通信信道内的其他用户传输数据和从其他用户接收数据。例如，收发器230可以接收由麦克风组件225捕获的音频数据(例如，对应于用户自己的语音的音频数据)，并将接收到的音频数据传输到共享通信信道内的其他用户的头戴式装置上的收发器。此外，收发器230接收由共享通信信道的其他用户输出的音频数据(称为音频输出信号或音频信号)，该音频数据可以被处理(例如，由本地控制器215进行处理)并(例如，经由扬声器220)被播放给第一用户。收发器230通过电磁波传送和接收信息。电磁波可以是例如射频(rf)、ir或它们的某种组合。在一些实施例中，收发器230使用rf和/或红外通信来与局部区域中的其他用户的收发器通信。在一些实施例中，对应于多个用户的头戴式装置的多个收发器可以(例如，通过蓝牙或其他类型的协议)彼此通信以建立局部网络。在一些实施例中，收发器230还可以通过网络(例如，互联网)与应用服务器(例如，经由wi
‑
fi)无线通信，或者与被配置为维护共享通信信道的本地控制台通信。此外，在共享通信信道可以包括远程用户的实施例中，收发器230可以通过应用服务器或本地控制台与远程用户通信。
131.在一些实施例中，收发器230传输和接收的数据包括对应于传输/接收的音频数据的元数据。元数据可以指示与音频数据相关联的用户身份(例如，用户id)和可以从中导出用户的位置的信息。例如，元数据可以包括用户的(例如，由用户头戴式装置上的位置传感器确定的)当前位置信息。在一些实施例中，第一头戴式装置110的收发器230包括天线阵列，每个天线位于第一头戴式装置110上的不同位置处，使得每个天线从第二头戴式装置的收发器接收的信号的相对时序(timing)或相位可以被用于确定第二头戴式装置的相对位置。
132.扬声器组件330被配置为回放一个或更多个音频信号作为投射给头戴式装置的用户的声音。如上所述，在一些实施例中，扬声器组件330包括两个或更多个扬声器，这允许投射到用户的声音(例如，通过调整通过每个扬声器投射的声音的幅度)被空间化，使得声音可以在用户听起来是源自局部区域中的特定位置或方向。
133.扬声器可以是例如动圈换能器、压电换能器、使用电信号生成声压波的某种其他装置或者它们的某种组合。在一些实施例中，扬声器组件330还包括覆盖每只耳朵的扬声器(例如，头戴式受话器、耳塞等)。在其他实施例中，扬声器组件330不包括任何阻塞用户耳朵的扬声器(例如，扬声器在头戴式装置的框架上)。
134.控制器215包括用于操作麦克风组件225、收发器230和扬声器组件330的电路模块。这些电路模块可以包括数据储存器335、信道配置电路305、位置跟踪电路310、注视确定电路315、信号操纵电路(signal manipulation circuit)320和音频滤波电路325。尽管图3示出了控制器215的部件对应于不同电路，但是应当理解的是，在其他实施例中，信道配置电路305、位置跟踪电路310、注视确定电路315、信号操纵电路320和音频滤波电路325可以用软件(例如，软件模块)、固件、硬件或它们的任意组合来体现。
135.数据储存器335存储由控制器215的各个其他模块使用的数据。存储的数据可以包括共享通信信道的一个或更多个参数(例如，共享通信信道中的其他用户的身份、用于访问共享通信信道的认证信息等)。存储的数据可以包括与用户相关联的位置信息(例如，由位置传感器240确定的用户的位置和姿势)和/或(例如，从其他用户的头戴式装置接收的)与其他用户的音频系统相关联的位置信息。在一些实施例中，数据储存器335可以存储局部区域的一个或更多个模型。例如，控制器215可以生成局部区域的模型，该模型指示局部环境中的用户和其他用户的位置、(例如，使用相机组件235进行检测的)局部环境中的一个或更多个对象等。数据储存器335还可以存储一个或更多个眼睛跟踪参数(例如，用于眼睛跟踪的光图案、用户眼睛的模型等)、音频内容(例如，记录的音频数据、接收的音频数据等)、用于空间化音频内容的一个或更多个参数(例如，头部相关的传递函数)、用于增强音频内容的一个或更多个参数(例如，用于确定注意力分数的算法)、用于对音频内容滤波的一个或更多个参数、音频系统300使用的一些其他信息、或者它们的某种组合。
136.信道配置电路305被配置为维护用户在共享通信信道中的成员资格。如本文所使用的，例如，维护用户在共享通信信道中的成员资格可以包括：建立共享通信信道，将用户作为成员添加到现有的共享通信信道和/或移除用户，(例如，经由与应用服务器或与共享通信信道中的其他用户的音频系统的通信)更新共享通信信道的一个或更多个参数，执行与共享通信信道相关联的其他动作，或以上项的某种组合。
137.在一些实施例中，用户可以通过(例如，经由用户界面、经由扫描装置等)向信道配
置电路305提供对应于一个或更多个另外的用户的信息来建立共享通信信道。作为响应，信道配置电路305可以建立共享通信信道，以包括用户和一个或更多个另外的用户。在一些实施例中，信道配置电路305(例如，经由收发器230)向与每个另外的用户相关联的信道配置电路传输数据以建立共享通信信道。
138.在一些实施例中，与共享通信信道中的每个用户相关联的信道配置电路将对应于该信道的信息存储在相应的数据储存器(例如，数据储存器335)中。该信息可以包括共享通信信道内的其他用户的身份、在共享通信信道上通信所需的认证信息等。在一些实施例中，信道配置电路305可以检测一个或更多个信道参数的变化，例如信道的用户成员资格的变化(例如，新用户加入信道、用户退出信道、用户优先级的变化)、与信道相关联的认证信息的变化、信道的其他参数的变化、或它们的某种组合。响应于检测到信道参数的变化，信道配置电路305可以将该变化传送给信道中其他用户的信道配置电路。这样，用户的信道通信电路可以彼此协调，使得每个信道通信电路能够访问关于共享通信信道的最新参数，从而每个音频系统300能够与该信道的其他用户的音频系统通信。
139.在其他实施例中，信道配置电路305(经由收发器230)与应用服务器通信，该应用服务器(例如，通过与将要被包括在共享通信信道中的每个用户的音频系统的信道配置电路通信)协调共享通信信道的建立。例如，信道配置电路305与应用服务器通信，以指示参与共享通信信道，并接收与共享通信信道相关联的参数(例如，共享通信信道内的其他用户的身份、在共享通信信道上通信所需的任何认证信息等)。此外，信道通信电路305可以与应用服务器通信，以指示与用户参与信道相关的任何变化。应用服务器可以负责维护共享通信信道的参数，并将这些参数传送给对应于参与信道的用户的信道通信电路，以确保信道通信电路能够访问信道的最新参数。
140.位置跟踪电路310被配置成确定用户的当前位置。位置跟踪电路310从位置传感器(例如，位置传感器240)接收对应于用户的头戴式装置的位置信息，并基于接收的位置信息确定头戴式装置的当前位置。用户头戴式装置的位置可以指示用户在本地环境内的位置以及用户的定向(例如，用户头部上的头戴式装置的定向，以下也称为用户的“头部定向”)。在一些实施例中，用户的位置是相对于参考点计算的。在一些实施例中，位置跟踪电路310的一个或更多个功能由imu执行。
141.位置跟踪电路310还可以被配置为确定对应于共享通信信道的其他用户的位置信息。在一些实施例中，可以直接从其他用户的头戴式装置(例如，经由收发器230)接收对应于其他用户的位置信息。例如，位置信息可以作为伴随从共享通信信道的一个或更多个其他用户接收的音频数据的元数据被接收，位置信息指示(例如，由其他用户的头戴式装置的位置跟踪模块确定的)从其接收音频数据的用户的当前位置。在一些实施例中，位置跟踪电路310使用获得的其他用户的位置信息来确定每个其他用户相对于用户的当前位置的相对位置。在一些实施例中，位置跟踪电路310可以使用其他用户的所确定的位置来生成或更新局部区域的模型。
142.在其他实施例中，位置跟踪电路310基于分析从其他用户的头戴式装置上的天线阵列中的多个天线接收的信号来确定其他用户的位置。例如，在一些实施例中，第一头戴式装置的音频系统300的收发器230包括天线阵列，每个天线位于第一头戴式装置上的不同位置处。第一头戴式装置的位置跟踪电路310分析在阵列的每个天线处接收的来自第二头戴
式装置的收发器的信号，并基于接收信号的相对时序或相位来确定第二头戴式装置的相对位置。在其他实施例中，收发器230接收由第二头戴式装置的收发器传输的多个不同信号，其中第二头戴式装置的收发器是包括位于第二头戴式装置上不同位置处的多个天线的天线阵列。位置跟踪电路310分析接收到的信号(例如，接收到的信号的时序或相位)，由此可以确定第二头戴式装置相对于第一头戴式装置的相对位置。
143.注视确定电路315被配置成(例如，基于眼睛跟踪传感器245的眼睛跟踪测量结果，例如用户眼睛的捕获图像)确定穿戴头戴式装置的用户的注视方向。如本文所使用的，用户的注视方向对应于用户在局部环境中正看向的方向。在一些实施例中，基于用户的头部定向和用户的眼睛位置的组合来确定用户的注视方向。例如，注视确定电路315可以从眼睛跟踪传感器245接收一个或更多个眼睛跟踪测量结果(例如，由眼睛跟踪相机捕获的用户眼睛的一个或更多个图像)，以确定用户的当前眼睛定向，并接收(例如，由位置跟踪电路310确定的)用户的头部定向，并且利用所确定的眼睛定向来修改用户的头部定向，以确定用户在局部环境内的注视方向。例如，用户的头部可以面向第一方向。然而，如果用户的眼睛被定向为远离第一方向进行观看(例如，不直视前方)，则用户的注视方向将不同于用户的头部定向。
144.在一些实施例中，注视确定电路315还可以从相机组件235接收在相机的fov内的局部区域的一个或更多个图像，并将所确定的眼睛定向映射到所接收的图像内的位置。注视确定电路可以使用对象识别来识别一个或更多个图像内的对应于所映射的位置的一个或更多个对象(例如，其他用户)，以确定用户的注视方向是否与一个或更多个识别的对象对齐。在一些实施例中，所识别的对象可用于生成或更新局部区域的模型。例如，在一个或更多个图像内的被识别对象(例如，其他用户)的位置可用于确定用户是否正看着任何被识别对象、被识别对象相对于用户所处的位置、用户是否具有到被识别对象的视线等。
145.尽管图3将位置跟踪电路310和注视确定电路315示出为单独的模块，但是在一些实施例中，位置跟踪电路310和注视确定电路315可以被实现为一个单个模块。例如，单个注视确定电路可以接收传感器测量结果(例如，来自位置传感器240的位置数据和来自眼睛跟踪传感器245的眼睛跟踪数据)，以确定用户的位置、用户的头部定向以及用户眼睛相对于其头部的定向，由此可以确定用户的注视方向。
146.信号操纵电路320被配置为接收经由收发器230接收的一个或更多个音频信号，每个音频信号对应于共享通信信道的另一用户的音频系统(称为“发送音频系统”)，并且基于其他音频系统相对于用户的相对位置，处理该信号以生成要呈现给用户的音频数据。
147.信号操纵电路320识别发送用户相对于用户的当前位置的相对位置。位置信息可以从位置确定模块310接收。在一些实施例中，信号操纵电路320访问包含局部区域中每个用户的位置信息的局部区域的模型，以确定发送用户的相对位置。此外，信号操纵电路320可以从注视确定电路315接收用户的当前注视方向的指示。基于用户的相对位置，信号操纵电路320可以空间化来自发送用户的音频信号，使得当声音(例如，经由扬声器220)被播放给用户时，它将看起来源自发送用户的位置。
148.在一些实施例中，信号操纵电路320基于与音频系统相关联的一个或更多个生成的声学传递函数来空间化音频信号。声学传递函数可以是头部相关传递函数(hrtf)或其他类型的声学传递函数。hrtf表征耳朵如何接收来自空间中的一点的声音。相对于人的特定
源位置的hrtf对于人的每只耳朵是唯一的(并且对于这个人是唯一的)，这是由于人的解剖结构(例如，耳朵形状、肩膀等)在声音行进到人的耳朵时会影响声音。例如，在一些实施例中，信号操纵电路320可以为用户生成两组hrtf，每只耳朵一组hrtf，它们对应于各种频率和相对位置。一个hrtf或一对hrtf可用于创建音频内容，该音频内容包括看起来源自空间中特定点(例如，源自发送音频系统的位置)的声音。几个hrtf可用于创建环绕声音频内容(例如，用于家庭娱乐系统、剧院扬声器系统、沉浸式环境等)，其中每个hrtf或每对hrtf对应于空间中的不同点，使得音频内容看起来来自空间中的几个不同点。标题为“audio system for dynamic determination of personalized acoustic transfer functions”的第16/015,879号美国专利申请中描述了生成hrtf的另外的示例，该美国专利申请的全部内容由此通过引用并入。
149.在一些实施例中，信号操纵电路320可以基于发送用户相对于增强方向的位置来增强音频信号。如本文所使用的，用户的增强方向可以指用户被推断正在关注的方向。在一些实施例中，用户的增强方向可以对应于用户的注视方向。在其他实施例中，增强方向可以基于用户头部的定向、用户的头部相对于他们躯干的定向等。为了便于讨论，增强方向将主要被讨论为对应于注视方向，但是应当理解的是，在其他实施例中，增强方向可以对应于相对于用户的其他方向。
150.如本文所使用的，增强音频信号可以指正增强音频信号(例如，相对于其他声音或音频信号增大音频信号的幅度)或者负增强音频信号(例如，相对于其他声音或音频信号减小音频信号的幅度)。例如，在一些实施例中，如基于用户的注视方向确定的，来自用户正在看着的发送用户(例如，暗示用户正在关注发送用户)的音频信号被正增强，而来自用户没有看着的其他发送用户的音频信号被负增强。这可以允许用户更容易聚焦于来自特定用户(例如，他们正在关注的发送用户)的语音，而来自其他用户的语音较少地分散注意力，尤其是在大量用户同时说话的情况下。在一些实施例中，信号操纵电路320基于针对每个发送用户计算的“注意力分数”来增强每个接收到的音频信号，这将在下面参考图4更详细地描述。
151.由于用户的耳朵位于用户头部上的固定位置处，信号操纵电路320可以基于用户的头部定向来空间化接收的音频数据。另一方面，信号操纵电路320基于用户的注视方向来增强音频数据，以更好地强调源自用户实际正在看着或正在关注的其他用户的音频数据。
152.尽管以上讨论主要涉及基于用户的注视方向来增强音频数据，但是在其他实施例中，音频数据的增强可以基于其他方向，例如用户的头部方向、根据用户头部相对于他们躯干的角度修改的用户的头部方向、或者它们的某种组合。
153.信号操纵电路320还向扬声器组件330的扬声器输出空间化和增强的音频信号。例如，基于所执行的空间化和/或增强，信号操纵电路320可以向扬声器组件320的每个扬声器输出不同幅度的音频信号。
154.音频滤波电路325被配置为接收与用户的语音相对应的(例如，由麦克风组件225捕获的)用户音频信号，并对用户音频信号执行滤波。用户音频信号可以被传输给共享通信信道中的其他用户。此外，在一些实施例中，用户音频信号也可以通过扬声器组件330回放给用户。
155.在一些实施例中，因为共享通信信道的用户可能彼此接近，所以用户可能能够听到发送用户的语音的实际声音，以及能够通过他们的头戴式装置接收对应于发送用户的语
音的音频数据。由于处理接收的音频信号需要时间，在发送用户的语音可以在用户的位置处被听到之后，音频数据可以(例如，通过扬声器组件330)被呈现给用户。发送用户的实际语音在用户的位置处可以被听到的时刻与发送用户的音频数据通过扬声器组件330被播放给用户的时刻之间的延迟被称为处理延迟。如果处理延迟超过特定时间量，则呈现给第一用户的音频数据可能听起来像是到第一用户的回声。这产生了可能会分散用户注意力的不期望的音频效果。例如，在一些实施例中，当处理延迟大于10到15毫秒时，回声效应被产生。
156.在一些实施例中，音频滤波电路325包括全通滤波器，其操纵用户音频信号的相位以产生时间上分散的用户音频信号(以下称为“扩散用户音频信号(diffused user audio signal)”)。扩散用户音频信号可以包括用户音频信号的多个扩散反射，该多个扩散反射具有与原始未滤波信号相同的总能量。对于对应于语音的声音，与未滤波的信号相比，扩散用户音频信号允许其作为单独的听觉事件不太可能被人耳检测到。这允许用户音频信号在其将作为单独回声被接收用户音频信号的其他用户检测到之前经历更长的处理延迟。下面参考图5更详细地描述扩散用户音频信号的示例。尽管本讨论涉及音频滤波电路325对用户音频信号执行时间分散以准备将用户音频信号传输给共享通信信道内的其他用户，但是在一些实施例中，音频滤波电路325在回放给用户之前，对从其他用户的音频系统接收的音频信号执行时间分散，而不是对用户音频信号执行时间分散。在一些实施例中，可以使用其他滤波技术。例如，在一些实施例中，音频滤波电路325可以修改用户音频信号的频率幅度谱，以代替或补充时间上扩散用户音频信号。
157.在一些实施例中，音频滤波电路325还对用户音频信号进行滤波，以生成要回放给音频系统300的用户的修改的用户音频信号。当用户在嘈杂的环境中讲话和/或对着麦克风讲话时，由于用户自己的说话声的声音被淹没在嘈杂环境中，用户可能经常不会意识到他们自己的说话声的音量。因此，用户可能会不经意地提高他们的说话声而超过了需要。
158.为了防止用户试图大声说话以盖过环境的噪音，可以向用户回放用户音频信号的版本，使得用户可以更准确地评估他们的说话声音量。因为人听到他们自己的说话声与麦克风捕获的他们的说话声听起来是不同的(例如，由于除了通过空气的声波之外，由用户的声带导致的他们头骨中的振动到达他们的耳朵)，所以用户音频信号可以被修改，以便用户将用户音频信号的声音识别为他们自己的说话声。在一些实施例中，用户音频信号经过一个或更多个滤波器，该一个或更多个滤波器近似如用户感知到的头骨振动对用户说话声的效果。在一些实施例中，一个或更多个滤波器被配置成通常适用于大多数人(例如，基于平均头骨形状和大小)。在其他实施例中，可以基于一个或更多个用户设置来定制一个或更多个滤波器。例如，头戴式装置110的用户可以在建立期间配置滤波器的一个或更多个设置，以更接近地近似他们听到他们的说话声是怎样的。在一些实施例中，滤波器可以包括低通滤波器，其中用户能够调整滤波器的斜率和截止频率。在一些实施例中，滤波器可以包括一系列一个或更多个可调双二阶滤波器(biquad filters)、fir(有限脉冲响应)滤波器或它们的某种组合。
159.这样，通过将用户音频信号的经滤波版本反馈给用户，即使在嘈杂的环境中，用户也可以更准确地评估他们说话声的音量，并且可以避免不必要地提高他们的说话声。在一些实施例中，仅当环境中的(例如，使用麦克风组件测量的)噪声量超过阈值时，才向用户回放用户音频信号的经滤波版本，使得如果环境中的噪声量使得用户可以被预期能够听到他
们自己的说话声，则不向用户回放经滤波的用户音频信号。
160.基于位置的音频空间化和增强
161.图4示出了根据一个或更多个实施例的具有利用共享通信信道的多个用户的环境的示例。该环境包含多个用户，包括第一用户405a和另外的用户405b、405c和405d(统称为用户405)，他们是共享通信信道的一部分。每个用户405穿戴相应的头戴式装置410，头戴式装置410包含用户用来与共享通信信道的其他用户通信的音频系统。为了便于解释，在图4中仅标记了第一用户405a穿戴的头戴式装置410。
162.第一用户405a的头戴式装置410包括被配置为确定第一用户405a的位置和注视方向的位置传感器和眼睛跟踪传感器，第一用户405a的位置和注视方向可用于确定第一用户405a的增强方向415。虽然图4示出了第一用户405a的增强方向415与头戴式装置410和用户405a的头部的定向对齐，但是增强方向415可以不与用户405a的头部的定向对齐。例如，在一些实施例中，增强方向415可以对应于用户405a的注视方向。这样，随着用户405a移动他们的眼睛，即使用户405a的位置和用户405a的头部的定向保持静止，增强方向415也可能改变。在其他实施例中，用户405a的增强方向可以对应于用户的头部方向(例如，基于用户头部的定向)、根据用户头部和躯干定向之间的角度修改的用户的头部方向(例如，随着用户头部和躯干之间的角度增大，增强方向415偏离用户的头部方向)、或者它们的某种组合。
163.环境内的其他用户405b、405c和405d中的每一个用户都可以是发送用户。响应于用户405b、405c或405d中的每一个用户的语音，音频数据(例如，通过他们相应的头戴式装置)被记录并被传输到第一用户405a(以及参与该信道的其他用户)的头戴式装置410。头戴式装置410的信号操纵电路320分析每个其他用户的相对位置，以确定应该如何操纵每个用户的音频信号。
164.在一些实施例中，第一用户405a的头戴式装置410的音频系统确定与向用户405a传输音频信号的每个发送用户相对应的位置信息，并且为每个发送用户确定发送用户相对于第一用户405a的头部定向的相对位置，以及发送用户的位置相对于第一用户405a的增强方向415之间的偏差。
165.音频系统使用发送用户相对于第一用户405a的头部定向的相对位置来空间化从发送用户接收的音频信号。使用所确定的相对位置和用户405a的所确定的当前头部定向，音频系统空间化音频信号，使得当经由头戴式装置410的扬声器组件投射到用户405a时，音频信号的声音看起来源自相对应的发送用户的位置。在一些实施例中，音频系统通过设置对应于扬声器组件的每个扬声器的一个或更多个权重来空间化音频信号。在一些实施例中，音频系统使用hrtf来空间化音频信号。通过调整通过扬声器组件的每个扬声器投射到用户405a的音频信号的幅度，可以使产生的声音看起来好像源自不同的位置(例如，对应于发送用户的位置)。
166.例如，如图4所示，用户405b位于用户的正前方。这样，来自用户405b的音频信号被空间化，使得所产生的声音被用户405a感知为源自用户405a的前方。另一方面，用户405c和用户405d分别位于用户405a的左侧和右侧。这样，音频系统空间化相应的音频信号，使得对应于用户405c和405d的音频看起来源自用户405c和405d的相应位置。
167.在一些实施例中，不对用户405a从作为远程用户的发送用户接收的音频信号执行空间化。在其他实施例中，可以对从特定类型的远程用户(例如，与距离用户405a在阈值距
离内的位置相关联的远程用户)接收的音频信号执行空间化。
168.此外，在一些实施例中，如果在用户405a和发送用户之间没有视线，则不执行空间化。例如，在一些实施例中，音频系统可以知道(例如，使用相机组件235或其他类型的传感器来确定)在局部区域内的特定类型的对象，例如墙壁。如果用户405a和发送用户之间的向量425与这样的对象相交，指示用户405a和发送用户之间缺乏视线，则来自发送用户的音频信号可以不被空间化。在一些实施例中，如果用户405a和发送用户之间的距离小于阈值量，则在没有视线的情况下来自发送用户的音频信号可以被空间化，但是如果距离大于阈值量，则不能被空间化。阈值量可以是预定量，或者可以基于一个或更多个用户输入、局部区域的一个或更多个确定的属性(例如，房间的大小)或它们的某种组合来动态确定。
169.此外，音频系统基于每个相应的发送用户的位置与用户405a的增强方向415的偏差来增强每个接收到的音频信号。如本文所使用的，发送用户(例如，用户405c)的位置与用户405a的增强方向的偏差可以基于在用户405a的增强方向415和连接用户405a和405c的向量425之间测量的角度来确定。在一些实施例中，音频系统还可以基于每个相应的发送用户的位置相对于用户405a的距离来增强每个接收到的音频信号(例如，与来自更远的发送用户的音频信号相比，来自更靠近用户405a的发送用户的音频信号被更大地增强)。
170.在来自多个其他用户的多个音频信号被接收并被投射到用户405a的情况下，即使音频信号被空间化，用户405a也可能难以聚焦于任何一个用户的语音。通过选择性地增强接收到的音频信号，用户405a可以更容易聚焦于来自他们正在关注的其他用户的语音，同时较少地被来自他们没有关注的用户的语音分散注意力。
171.在一些实施例中，可以基于用户405a的增强方向415来推断用户405a正在关注哪个发送用户。例如，如果用户405a的增强方向415与另一用户的位置对齐，则用户405a可以被推断为正在关注该用户。例如，如图4所示，用户405a可以被推断为正在关注用户405b。在一些实施例中，如果另一个用户的位置相对于增强方向415在阈值偏差420内，则用户405a可以被推断正在关注另一个用户。例如，如图4所示，由于用户405c和405d远离增强方向415大于阈值偏差，用户405a可以被推断为没有关注用户405c和405d。在一些实施例中，如果有多个发送用户相对于增强方向415在阈值偏差420内，则用户405a可以被认为正在关注在最靠近用户405a的位置处的发送用户、在相对于增强方向415偏差最小的位置处的发送用户、或它们的某种组合。
172.在一些实施例中，可以针对共享通信信道的每个其他用户计算“注意力分数”。注意力分数可以用作指示用户可以被推断为正在关注另一个用户的程度的度量，以便确定在多大程度上增强从另一个用户接收的音频信号。特定用户的注意力分数可以基于用户的位置相对于第一用户405a的增强方向415的偏差、用户的位置到第一用户405a的位置的距离、或它们的某种组合。在一些实施例中，注意力分数被确定为一个或更多个因素的集合(例如，加权和)。
173.音频系统基于用户405a是否正在关注发送用户来(例如，基于发送用户的注意力分数)增强从发送用户接收的音频信号。例如，如果用户405a被推断为正在关注发送用户，则音频系统正增强音频信号，而如果用户405a被推断为没有关注发送用户，则音频系统不正增强音频信号。此外，在一些实施例中，如果用户405a被推断为没有关注发送用户，则音频信号可以被负增强，以便最小化对源自用户405a正在关注的发送用户的音频信号的干
扰。在一些实施例中，可以基于是否存在用户405a被确定为正在关注的另一发送用户来增强发送用户的音频信号(例如，来自用户405c的音频信号在用户405a被推断为正在关注用户405b的情况下被负增强，但是如果在增强方向415的阈值偏差420内没有用户，则不被负增强)。
174.在一些实施例中，音频系统基于相应的发送用户的注意力分数来增强接收到的音频信号。在一些实施例中，增强的量还可以基于其他用户的注意力分数(例如，发送用户的分数相对于其他发送用户的排名)。例如，在图4所示的示例中，头戴式装置410的音频系统可以通过比较每个发送用户的位置相对于用户405a的增强方向415的偏差来确定增强来自发送用户405b和405c的音频信号的程度，并且基于比较的结果来增强每个音频信号。例如，在一些实施例中，相比于不存在第二发送用户(例如，当前没有发送音频信号)或与第一发送用户相比第二发送用户具有更低注意力分数的情况，如果存在(例如，由于与用户的注视方向具有更低的偏差)具有更高注意力分数的第二发送用户，则来自第一发送用户的音频信号可能被增强较少。
175.因为发送用户的注意力分数是基于用户405a的增强方向415，所以当用户405a的增强方向415(例如，由于他们的头部或眼睛的移动)改变时，可以相应地调整每个发送用户的注意力分数，导致他们相应的音频信号的不同增强量。在一些实施例中，周期性地更新每个发送用户的注意力分数。在一些实施例中，如果音频系统检测到用户405a的增强方向415的变化超过阈值量，则更新发送用户的注意力分数。
176.在增强方向415对应于用户的注视方向的实施例中，因为用户405a的眼睛可能非常快速地移动，所以增强方向415可能非常快速地改变。在一些实施例中，增强方向415不被更新，除非用户405a的注视在至少阈值时间段内没有改变超过阈值量，以便减少用户405a的随机眼睛移动的影响。
177.在一些实施例中，发送用户的注意力分数还可以基于发送用户的增强方向。例如，如果发送用户的增强方向面向用户405a，则与发送用户的注视方向不是朝向用户405a的情况相比，对应于发送用户的音频信号可以被信号操纵电路320修改为更强。例如，如图4所示，即使两个用户405c和405d都具有与用户405a的增强方向415相似的偏差幅度，但是与来自用户405d的音频信号相比，来自用户405c的音频信号可以被增强得更多。在一些实施例中，发送用户的定向或注视方向在发送用户的注意力分数上的权重可以基于发送用户的位置相对于增强方向415的偏差而变化。
178.在一些实施例中，在共享通信信道具有一个或更多个远程用户的情况下，信号操纵电路320可以基于用户405a当前是否正在关注局部区域中的另一用户来增强来自远程用户的音频信号。在一些实施例中，用户405a可以经由用户界面指示用于如何增强来自特定发送用户的音频信号的一个或更多个修改。
179.通过基于相应的发送用户的相对位置来处理(例如，空间化和/或增强)接收到的音频信号，信号操纵电路320因此使得用户405a更容易听到并聚焦于来自用户正在关注的其他用户的音频(例如，通过正增强来自那些用户的音频信号)，以及允许用户405a更好地感知从其接收到音频信号的其他用户位于何处。
180.用于减少回声的音频滤波
181.图5示出了根据一个或更多个实施例的对用户音频信号进行滤波的图。图5示出了
第一曲线图505，其示出了在第一用户的耳道开口处测量的音频信号。第一用户的音频系统通过共享通信信道与第二用户的音频系统通信。音频信号包括真实音频信号510和传输的音频信号515。真实音频信号510对应于源自第二用户并在用户耳道处测量的声压波(即，用户听到第二用户的语音)。传输的音频信号515对应于未经滤波的音频信号，该音频信号对应于第二用户的被记录(例如，作为第二用户的用户音频信号)、被传输到第一用户的音频系统并通过一个或更多个扬声器被回放给第一用户的语音。由于与记录、传输、处理和回放所传输的音频信号相关联的处理延迟，所传输的音频信号515可以比真实音频510晚对应于处理延迟δt的时间量在耳道处被检测到(即，对于用户来说是可听见的)。如果处理延迟δt是特定量的时间(例如，10
‑
15毫秒)，则第一用户可能将传输的音频信号515听作如真实音频信号510的单独的听觉事件，这可能产生分散第一用户注意力的回声效果。
182.第二曲线图520示出了当使用全通滤波器对传输的音频进行滤波以扩散音频信号时在第一用户的位置处测量的音频。如第二曲线图520所示，在第一用户的位置处听到相同的真实音频信号510。然而，传输音频信号已经被滤波以产生包括多个扩散反射的经滤波的传输音频信号525。即使经滤波的传输音频信号525直到真实音频510之后的δt才被听到，传输音频信号525的扩散可以导致第一用户将真实音频信号510和经滤波的传输音频信号525解释为同一听觉事件的一部分，从而减少或消除不期望的回声效果。这样，通过对音频信号进行滤波，可以适应更长的处理延迟，而不会对用户产生不期望的回声效果。在一些实施例中，音频信号在被传输到共享通信信道的其他用户之前，在发送用户的头戴式装置处被滤波。在其他实施例中，音频信号在接收音频信号的用户的头戴式装置处被滤波。在接收方侧执行滤波的一些实施例中，接收头戴式装置的音频系统可以确定真实音频和传输音频之间的延迟，并且基于所确定的延迟来调整一个或更多个滤波参数(例如，分散量)。
183.在一些情况下，第一用户和第二用户可以彼此相距一定距离，使得在真实音频510之前在第一用户的位置处听到所传输的音频525。在一些实施例中，如果发送用户被确定离用户至少有阈值距离，则音频系统不对传输音频执行扩散滤波。
184.在共享通信信道包括至少一个远程用户的实施例中，在远程和非远程用户之间传输的音频信号不需要经历滤波，因为远程用户听不到非远程用户的真实音频(反之亦然)，所以不存在由处理延迟引起的回声效果。此外，在一些实施例中，如果确定了第二用户和第一用户之间的距离至少是阈值量或者在第一和第二用户之间存在特定结构(例如墙)，使得第一用户可以被推断为不能听到第二用户的真实音频，则来自第二用户的音频可以不被滤波。
185.信道优先级
186.在一些实施例中，共享通信信道上的不同用户可以被给予不同的优先级。如本文所使用的，共享通信信道的用户的优先级可以指示与用户的语音相对应的音频信号相对于与其他用户相对应的音频信号被增强的级别，其中来自具有较高优先级的用户的音频信号相对于较低优先级的用户被正增强。在一些实施例中，共享通信信道可以包括对应于基本优先级的第一组用户以及与被认为优先于基本优先级的高优先级相关联的至少一个用户(例如，指定的发言者或领导者)。
187.例如，当与高优先级相关联的用户(以下称为“优先用户”)不说话时，如上所述，由第一用户接收的对应于共享通信信道的基本优先级用户的音频信号可以被正常处理(例
如，基于用户的相对位置进行空间化和增强)。然而，在优先用户讲话之后，由第一用户接收的与优先用户相对应的音频信号被增强，而不管第一用户和优先用户的相对位置如何。此外，在向第一用户播放来自优先用户的音频信号的时间期间，可以衰减来自基本优先级用户的音频信号，以确保第一用户能够清楚地听到优先用户的语音。
188.在一些实施例中，共享通信信道的用户可以被组织成两个以上不同的优先级。来自具有较高优先级的用户的音频信号相对于来自具有较低优先级的用户的音频信号被增强，允许用户在较高优先级用户讲话时更清楚地听到较高优先级用户的语音。在一些实施例中，共享通信信道的每个用户可以基于他们最感兴趣关注哪个其他用户来向该信道的其他用户分配个性化优先级。
189.过程流程
190.图6是根据一个或更多个实施例的用于空间化和增强从共享通信信道中的其他用户接收的音频数据的过程的流程图。该过程可以由包括音频系统(例如，音频系统300)的头戴式装置来执行。第一用户的头戴式装置参与共享通信信道(例如，图1所示的用户105的头戴式装置110，其中用户105是共享通信信道120a的一部分)。在其他实施例中，其他实体可以执行该过程的一些或全部步骤(例如，控制台)。同样，实施例可以包括不同的步骤和/或另外的步骤，或者以不同的顺序执行这些步骤。
191.第一用户的头戴式装置确定605第一用户的增强方向。在增强方向对应于用户的注视方向的一些实施例中，头戴式装置包括眼睛跟踪传感器和位置传感器，以用于确定用户的注视方向。例如，位置传感器可以确定头戴式装置的位置和定向，由此可以推断第一用户头部的位置和定向。此外，眼睛跟踪传感器可用于确定第一用户的眼睛相对于其头部的定向。这样，位置传感器和眼睛跟踪传感器的组合可以用于确定第一用户的注视的方向。
192.头戴式装置(例如，经由收发器)从共享通信信道的一个或更多个发送用户接收610音频信号。音频信号可以对应于发送用户的语音，并且可以包括另外的元数据，例如发送用户的身份以及可以从中确定发送用户的位置的数据。
193.头戴式装置确定615与从其接收音频信号的每个发送用户相关联的位置。在一些实施例中，头戴式装置接收与音频信号相关联的指示(例如，由发送用户的头戴式装置上的位置传感器确定的)发送用户的位置的元数据。在其他实施例中，头戴式装置接收由位于发送用户的头戴式装置上不同位置处的多个天线(例如，天线阵列)传输的多个信号。基于接收信号的相位或时序，头戴式装置可以确定发送用户相对于第一用户的相对位置。
194.头戴式装置确定620每个发送用户相对于第一用户的相对位置。发送用户的相对位置可以基于第一用户的头部定向指示发送用户相对于第一用户所处的位置(例如，在第一用户的前方、在第一用户的左边等)。
195.头戴式装置确定625每个发送用户的位置与第一用户的增强方向之间的偏差。偏差指示发送用户相对于第一用户的增强方向的位置。在一些实施例中，附加地，头戴式装置控制器可以确定发送用户和第一用户之间的距离。
196.头戴式装置基于相应的发送用户相对于第一用户的位置来空间化630每个发送用户的音频信号，使得通过两个或更多个扬声器播放给第一用户的音频信号听起来好像源自特定位置(例如，发送用户的位置)。在一些实施例中，空间化音频信号包括配置通过每个扬声器播放的音频信号的幅度，使得用户能够将通过不同扬声器的声音的不同幅度解释为对
应于源自特定位置的声音。
197.头戴式装置基于相应的发送用户的位置相对于第一用户的增强方向的偏差来增强635每个发送用户的音频信号。在一些实施例中，如果发送用户的位置的偏差没有超过阈值量，则增强发送用户的音频信号。在一些实施例中，增强的幅度可以与发送用户的位置和第一用户的增强方向之间的偏差量成反比。这样，与发送用户的位置更远离增强方向的情况相比，当发送用户的位置靠近第一用户的增强方向时，来自发送用户的音频信号将被更强地增强。在一些实施例中，增强的量也可以基于当前从其他发送用户接收的音频信号的数量、发送用户和第一用户之间的距离等。在一些实施例中，音频信号的增强可以包括音频信号的衰减(例如，负增强)。
198.这样，通过空间化和增强从共享通信信道中的其他用户接收的音频信号，头戴式装置的用户可以更容易地聚焦于他们正在关注的其他用户的语音，以及允许用户感知从其接收音频信号的每个其他用户的位置。这允许用户即使在嘈杂的环境中也更清楚地听到他们希望关注的语音，同时保持对环境中其他用户的察觉。
199.图7是根据一个或更多个实施例的用于处理对应于用户的说话声的音频信号的过程的流程图。该过程可以由包括音频系统(例如，音频系统300)的头戴式装置来执行。第一用户的头戴式装置参与共享通信信道(例如，图1所示的用户105的头戴式装置110，其中用户105是共享通信信道120a的一部分)。在其他实施例中，其他实体可以执行该过程的一些或全部步骤(例如，控制台)。同样，实施例可以包括不同的步骤和/或另外的步骤，或者以不同的顺序执行这些步骤。
200.头戴式装置接收705对应于头戴式装置的用户的语音的用户音频信号。在一些实施例中，用户音频信号由位于用户的嘴附近的声学传感器(例如，声学传感器225)记录。在一些实施例中，用户音频信号由麦克风阵列生成，该麦克风阵列使用波束形成来隔离和捕获来自局部区域中的特定区域(例如，用户的嘴附近)的声音。
201.头戴式装置对用户音频信号应用710一个或更多个滤波器(例如，全通滤波器)，该一个或更多个滤波器在时间上分散用户音频信号以产生扩散的用户音频信号。
202.头戴式装置将扩散的用户音频信号传输715到共享通信信道中的其他用户的头戴式装置。通过时间上分散用户音频信号，另一用户听到用户的真实语音的时刻与他们听到通过一个或更多个扬声器播放给他们的传输用户音频信号的时刻之间的处理延迟量可以增加，而不会导致另一用户听到作为单独听觉事件的用户音频信号，产生不期望的回声效果。
203.在一些实施例中，不是在时间上分散用户音频信号并将扩散的用户音频信号传输到其他用户的头戴式装置，而是由接收音频信号的头戴式装置执行音频信号的在时间上的分散。在一些实施例中，用户音频信号基于一个或更多个滤波参数在时间上进行分散，该一个或更多个滤波参数可以基于发送用户和接收用户的头戴式装置之间的相对位置或距离来进行调整。
204.头戴式装置对用户音频信号应用720语音滤波器，以产生用户音频信号的改变版本。语音滤波器被配置为模拟以下效果：当人说话时，通过头骨传播的人的声带振动影响他们如何听到自己的说话声。在一些实施例中，用户可以手动配置语音滤波器的一个或更多个参数，以便改变后的用户音频信号更贴切地匹配他们如何听到他们自己的说话声。
205.头戴式装置(例如，通过一个或更多个扬声器)向用户回放720改变后的用户音频信号，允许用户更好地感知他们的说话声的当前音量，使得他们能够更好地调节他们的说话音量。
206.人工现实系统的示例
207.图8是根据一个或更多个实施例的包括如上述音频系统的头戴式装置的系统环境。系统800可以在人工现实环境(例如虚拟现实、增强现实、混合现实环境或其某种组合)中操作。图8所示的系统800包括耦合到控制台810的头戴式装置805和输入/输出(i/o)接口815。头戴式装置805可以是头戴式装置110的实施例。尽管图8示出了包括一个头戴式装置805和一个i/o接口815的示例系统800，但在其他实施例中，系统800中可以包括任何数量的这些部件。例如，可以有多个头戴式装置805，每个头戴式装置805具有相关联的i/o接口815，每个头戴式装置805和i/o接口815与控制台810通信。在替代配置中，系统800中可以包括不同的和/或附加的部件。此外，在一些实施例中，结合图8中所示的一个或更多个部件描述的功能可以以与结合图8描述的方式不同的方式分布在部件之间。例如，控制台810的一些或全部功能由头戴式装置805提供。
208.头戴式装置805向用户呈现内容，该内容包括用计算机生成的元素(例如，二维(2d)或三维(3d)图像、2d或3d视频、声音等)增强的物理、真实世界环境的视图。头戴式装置805可以是眼镜装置或头戴式显示器。在一些实施例中，呈现的内容包括音频内容(从共享通信信道的其他用户接收的音频信号)。
209.头戴式装置805包括音频系统820、传感器系统825、电子显示器830和光学块835。音频系统820可以对应于图3中描述的音频系统300，并且可以包括麦克风组件225、收发器230、扬声器组件330和控制器215。音频系统820被配置为与其他hmd的音频系统通信，捕获对应于hmd805的用户的语音的音频信号，处理接收到的音频信号(例如，来自其他hmd的音频信号)，并且向用户回放处理后的音频信号。
210.传感器系统825包括一个或更多个传感器模块，其可以包括相机组件235、位置传感器240和眼睛跟踪传感器245。传感器模块可用于生成hmd805周围的局部区域的信息，以及跟踪hmd 805的位置和hmd 805的用户的注视方向。在一些实施例中，传感器系统825的传感器可以与跟踪模块855一起使用，以跟踪hmd 805的位置。
211.电子显示器830和光学块835是透镜210的一个实施例。头戴式装置805的一些实施例具有与结合图8描述的部件不同的部件。此外，在其他实施例中，结合图8描述的各种部件提供的功能可以不同地分布在头戴式装置805的部件之间，或者被捕获在远离头戴式装置805的单独组件中。
212.电子显示器830根据从控制台810接收到的数据向用户显示2d或3d图像。在各种实施例中，电子显示器830包括单个电子显示器或多个电子显示器(例如，用户的每只眼睛对应一个显示器)。电子显示器830的示例包括：液晶显示器(lcd)、有机发光二极管(oled)显示器、有源矩阵有机发光二极管显示器(amoled)、波导显示器、某种其他显示器或它们的某种组合。
213.在一些实施例中，光学块835放大从电子显示器830接收到的图像光，校正与图像光相关联的光学误差，并将校正后的图像光呈现给头戴式装置805的用户。在各种实施例中，光学块835包括一个或更多个光学元件。光学块835中包括的示例光学元件包括：波导、
光圈、菲涅耳透镜、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块835可以包括不同光学元件的组合。在一些实施例中，光学块835中的一个或更多个光学元件可具有一个或更多个涂层，诸如部分反射或抗反射涂层。
214.与较大的显示器相比，光学块835对图像光的放大和聚焦允许电子显示器830在物理上更小、重量更轻并且消耗更少的功率。另外，放大可以增加电子显示器830呈现的内容的视场。例如，显示的内容的视场使得显示的内容使用几乎所有(例如，约110度对角线)，并且在某些情况下，使用用户的所有视场来呈现。此外，在一些实施例中，可以通过添加或移除光学元件来调整放大的量。
215.在一些实施例中，光学块835可以被设计为校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差可以进一步包括球面像差、色差或由于透镜场曲率、散光或任何其他类型的光学误差引起的误差。在一些实施例中，提供给电子显示器830用于显示的内容被预失真，并且光学块835在其接收来自电子显示器830的基于内容生成的图像光时校正失真。
216.i/o接口815是允许用户发送动作请求并从控制台810接收响应的装置。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束图像或视频数据的捕获的指令，或者是在应用内执行特定动作的指令。i/o接口815可以包括一个或更多个输入装置。示例输入装置包括：键盘、鼠标、手控制器或用于接收动作请求并将动作请求传送到控制台810的任何其他合适的装置。由i/o接口815接收到的动作请求被传送到控制台810，控制台810执行与动作请求相对应的动作。在一些实施例中，i/o接口815包括一个或更多个位置传感器，该一个或更多个位置传感器捕获指示i/o接口815相对于i/o接口815的初始位置的估计位置的校准数据。在一些实施例中，i/o接口815可以根据从控制台810接收到的指令向用户提供触觉反馈。例如，当接收到动作请求时提供触觉反馈，或者控制台810将指令传送到i/o接口815，从而使i/o接口815在控制台810执行动作时生成触觉反馈。i/o接口815可以监控来自用户的一个或更多个输入响应以用于确定音频内容的感知源方向和/或感知源位置。
217.控制台810向头戴式装置805提供内容以根据从头戴式装置805和i/o接口815中的一个或更多个接收到的信息进行处理。在图8所示的示例中，控制台810包括应用储存器850、跟踪模块855和引擎845。控制台810的一些实施例具有与结合图8描述的那些不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图8描述的方式分布在控制台810的部件之间。
218.应用储存器850存储由控制台810执行的一个或更多个应用。应用是一组指令，当由处理器执行时，该指令生成用于呈现给用户的内容。应用生成的内容可以响应于经由头戴式装置805或i/o接口815的移动从用户接收到的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其他合适的应用。在一些实施例中，控制台810可以用作应用服务器(例如，应用服务器130)，并且应用可以包括用于维护用户组(例如，不同hmd 805的用户)之间的共享通信信道的应用。
219.跟踪模块855使用一个或更多个校准参数校准系统环境800并且可以调整一个或更多个校准参数以减少头戴式装置805或i/o接口815的位置的确定中的误差。跟踪模块855执行的校准还考虑从头戴式装置805中的传感器系统825的一个或更多个传感器模块(例如，位置传感器)或在i/o接口815中包括的一个或更多个传感器接收到的信息。此外，如果
失去对头戴式装置805的跟踪，则跟踪模块855可以重新校准系统环境800的一些或全部。
220.跟踪模块855使用来自一个传感器(例如，位置传感器240、相机组件235或它们的某种组合)的信息来跟踪头戴式装置805或i/o接口815的移动。例如，跟踪模块855基于来自头戴式装置805的信息来确定在局部区域的映射中头戴式装置805的参考点的位置。跟踪模块855还可以分别使用来自头戴式装置805的位置的数据或使用来自包括在i/o接口815中的一个或更多个传感器的指示i/o接口815的位置的数据来确定头戴式装置805的参考点或i/o接口815的参考点的位置。此外，在一些实施例中，跟踪模块855可以使用指示头戴式装置805的位置的数据的部分来预测头戴式装置805的未来位置。跟踪模块855向引擎845提供头戴式装置805或i/o接口815的估计或预测的未来位置。在一些实施例中，跟踪模块855可以向音频系统820提供跟踪信息以用于确定如何空间化和/或增强接收的音频信号。
221.引擎845还执行系统环境800内的应用并从跟踪模块855接收头戴式装置805的位置信息、加速度信息、速度信息、预测的未来位置或它们的某种组合。基于接收到的信息，引擎845确定提供给头戴式装置805以呈现给用户的内容。例如，如果接收到的信息指示用户向左看，则引擎845为头戴式装置805生成内容，该内容反映用户在虚拟环境中或在用附加内容增强局部区域的环境中的移动。此外，引擎845响应于从i/o接口815接收到的动作请求而在控制台810上执行的应用内执行动作并向用户提供该动作被执行的反馈。所提供的反馈可以是经由头戴式装置805的视觉或听觉反馈或经由i/o接口815的触觉反馈。
222.附加配置信息
223.以上对本公开的实施例的描述是为了说明的目的而呈现；它并不旨在详尽无遗或将本公开内容限制为所公开的精确形式。相关领域的技术人员可以理解，根据上述公开内容，许多修改和变化是可能的。
224.本说明书的某些部分根据对信息的操作的算法和符号表示来描述本公开的实施例。这些算法描述和表示通常被数据处理领域的技术人员用来将他们的工作的实质有效地传达给本领域的其他技术人员。这些操作尽管在功能上、计算上或逻辑上进行了描述，但应理解为通过计算机程序或等效电路、微代码等来实现。此外，在不失一般性的情况下，有时也证明将这些操作安排称为模块是方便的。所描述的操作及其相关联的模块可以实施在软件、固件、硬件或其任何组合中。
225.本文描述的任何步骤、操作或过程都可以用一个或更多个硬件或软件模块单独或与其他装置组合来执行或实现。在一个实施例中，软件模块由计算机程序产品实现，该计算机程序产品包括包含计算机程序代码的计算机可读介质，该计算机程序代码可由计算机处理器执行以用于执行所描述的任何或所有步骤、操作或过程。
226.本公开的实施例还可以涉及用于执行本文的操作的设备。该设备可以为所需目的而专门构造，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算装置。这样的计算机程序可以存储在非暂时性、有形的计算机可读存储介质或适合于存储电子指令的任何类型的介质中，所述介质可以耦合到计算机系统总线。此外，本说明书中提及的任何计算系统可以包括单个处理器或者可以是采用多处理器设计以增加计算能力的架构。
227.本公开的实施例还可以涉及通过本文描述的计算过程产生的产品。这样的产品可以包括从计算过程产生的信息，其中该信息存储在非暂时性、有形计算机可读存储介质上
并且可以包括计算机程序产品或本文描述的其他数据组合的任何实施例。
228.最后，说明书中使用的语言主要是出于可读性和教学目的而选择的，并且可能未被选择来描述或限制本发明的主题。因此，本公开的范围旨在不受该详细描述的限制，而是由基于本文的应用发布的任何权利要求限制。因此，实施例的公开内容旨在说明而非限制在所附权利要求中阐述的本公开的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：耳机频响校准方法、装置、耳机设备及存储介质与流程

多个头戴式装置之间的音频空间化和增强的制作方法

相关文献

最热文献