用于音频内容呈现的头部相关传递函数模板的个性化的制作方法

2021-12-08 01:51:00 来源：中国专利 TAG：

用于音频内容呈现的头部相关传递函数模板的个性化
1.相关申请的交叉引用
2.本技术要求2019年4月18日提交的美国申请第16/387,897号的优先权，出于所有目的，该申请的内容通过引用以其整体并入本文。
3.背景
4.本公开总体上涉及双耳音频合成，并且具体涉及个性化头部相关传递函数(hrtf)以呈现音频内容。
5.根据声源相对于每只耳朵的方向和位置以及感知声音的房间环境，在两只耳朵处接收到的来自给定声源的声音可能不同。hrtf表征对于声源的特定位置(和频率)在人的耳朵处接收的声音。多个hrtf用于表征用户如何感知声音。在一些情况下，多个hrtf形成依赖于数万个参数的高维数据集，以向收听者提供声源方向的感知。
6.概述
7.一种用于生成为(例如，可以实现为头戴式装置(headset)的一部分的)音频系统的用户定制的个性化hrtf的系统。该系统包括服务器和音频系统。服务器部分地基于用户的声学特征数据(例如，图像数据、人体测量特征等)和模板hrtf来确定个性化hrtf。模板hrtf是可以定制(例如，添加一个或更多个陷波(notch))的hrtf，使得它可以针对不同的用户进行个性化。服务器向音频系统提供个性化hrtf。音频系统使用个性化hrtf向用户呈现空间化的音频内容。本文描述的方法也可以体现为存储在计算机可读介质上的指令。
8.根据本发明的第一方面，提供了一种方法，包括：至少部分地基于用户的声学特征数据来确定一个或更多个个性化滤波器；基于模板hrtf和所确定的一个或更多个个性化滤波器，为用户生成一个或更多个个性化头部相关传递函数hrtf；以及将所生成的一个或更多个个性化hrtf提供给音频系统，其中个性化hrtf用于生成空间化音频内容。
9.该方法可以由服务器执行。
10.一个或更多个个性化滤波器可以通过机器学习来确定。
11.一个或更多个个性化滤波器可以用于个性化模板hrtf，使得它为用户定制，从而形成个性化hrtf。
12.个性化可能意味着增加一个或更多个陷波。
13.确定一个或更多个个性化滤波器可以包括使用经训练的机器学习模型以及用户的声学特征数据来确定一个或更多个个性化滤波器的参数值。
14.一个或更多个个性化滤波器的参数值可以描述一个或更多个个性化hrtf中的一个或更多个个性化陷波。
15.参数值可以包括以下中的一个或更多个：频率位置、以该频率位置为中心的频带中的宽度、以及在以该频率位置为中心的频带中引起的衰减量。参数值可以包括所述列表中的每一个。
16.可以用图像数据、人体测量特征和/或声学数据来训练机器学习模型，声学数据包括针对用户群体获得的hrtf的测量值。
17.基于模板hrtf和所确定的一个或更多个个性化滤波器为用户生成一个或更多个
个性化hrtf可以包括：使用一个或更多个个性化滤波器中的至少一个向模板hrtf添加至少一个陷波，以生成一个或更多个个性化hrtf中的个性化hrtf。
18.模板hrtf可以基于描述用户群体的通用hrtf(generic hrtf)，通用hrtf包括频率范围内的至少一个陷波。
19.可以通过移除至少一个陷波使得模板hrtf在频率范围内是平滑且连续的函数来从通用hrtf生成模板hrtf。
20.频率范围可以是5khz到10khz。
21.在频率范围之外的模板hrtf中可能存在至少一个陷波。
22.音频系统可能是头戴式装置的一部分。
23.或者，音频系统可以与头戴式装置分离并且在头戴式装置外部。
24.根据本发明的第二方面，提供了一种非暂时性计算机可读介质，其被配置为存储程序代码指令，当由处理器执行时，该程序代码指令使得处理器执行包括以下操作的步骤：至少部分地基于用户的声学特征数据来确定一个或更多个个性化滤波器；基于模板hrtf和所确定的一个或更多个个性化滤波器，为用户生成一个或更多个个性化头部相关传递函数hrtf；以及将生成的一个或更多个个性化hrtf提供给音频系统，其中个性化hrtf用于生成空间化音频内容。
25.确定一个或更多个个性化滤波器可以包括使用经训练的机器学习模型以及用户的声学特征数据来确定一个或更多个个性化滤波器的参数值。
26.一个或更多个个性化滤波器的参数值可以描述一个或更多个个性化hrtf中的一个或更多个个性化陷波。
27.参数值可以包括以下中的一个或更多个：频率位置、以该频率位置为中心的频带中的宽度、以及在以该频率位置为中心的频带中引起的衰减量。参数值可以包括所述列表中的每一个。
28.可以用图像数据、人体测量特征和/或声学数据来训练机器学习模型，声学数据包括针对用户群体获得的hrtf的测量值。
29.基于模板hrtf和所确定的一个或更多个个性化滤波器为用户生成一个或更多个个性化hrtf可以包括：使用一个或更多个个性化滤波器中的至少一个向模板hrtf添加至少一个陷波，以生成一个或更多个个性化hrtf中的个性化hrtf。
30.根据本发明的第三方面，提供了一种方法，包括：在头戴式装置处接收头戴式装置的用户的一个或更多个个性化头部相关传递函数hrtf；检索与相对于头戴式装置的目标声源方向相关联的音频数据；将一个或更多个个性化hrtf应用于音频数据，以将音频数据渲染为音频内容；由头戴式装置的扬声器组件呈现音频内容，其中所呈现的音频内容被空间化，使得它听起来源自目标声源方向。
31.可以从服务器接收一个或更多个hrtf。头戴式装置可以检索音频数据。头戴式装置可以将一个或更多个个性化hrtf应用于音频数据。
32.该方法可以进一步包括：捕获用户的声学特征数据；以及将所捕获的声学特征数据传输到服务器，其中服务器使用所捕获的声学特征数据来确定一个或更多个个性化hrtf，并且服务器将一个或更多个个性化hrtf提供给头戴式装置。
33.还描述了一种用于生成为(例如，可以实现为头戴式装置的一部分的)音频系统的
用户定制的个性化hrtf的系统。该系统可以包括服务器和音频系统。服务器可以部分地基于用户的声学特征数据(例如，图像数据、人体测量特征等)和模板hrtf来确定个性化hrtf。模板hrtf可以是可以定制(例如，添加一个或更多个陷波)的hrtf，使得它可以针对不同的用户进行个性化。服务器可以向音频系统提供个性化hrtf。音频系统可以使用个性化hrtf向用户呈现空间化的音频内容。
34.本文描述的方法也可以体现为存储在计算机可读介质上的指令。
35.附图简述
36.图1是根据一个或更多个实施例的从用户视点看的声源仰角(elevation)的透视图。
37.图2示出了根据一个或更多个实施例的由用户的声源仰角参数化的三个hrtf的示例描绘。
38.图3是根据一个或更多个实施例的用于生成个性化hrtf的高级系统环境的示意图。
39.图4是根据一个或更多个实施例的服务器的框图。
40.图5是示出根据一个或更多个实施例的用于为用户处理对一个或更多个个性化hrtf的请求的过程的流程图。
41.图6是根据一个或更多个实施例的音频系统的框图。
42.图7是示出根据一个或更多个实施例的使用一个或更多个个性化hrtf在头戴式装置上呈现音频内容的过程的流程图。
43.图8是根据一个或更多个实施例的包括音频系统的头戴式装置的系统环境。
44.图9是根据一个或更多个实施例的包括音频系统的头戴式装置的透视图。
45.附图仅出于说明的目的描绘了各种示例。本领域技术人员从下面的讨论中将容易认识到，在不脱离本文描述的原理的情况下，可以采用本文示出的结构和方法的替代示例。
46.详细描述
47.综述
48.系统环境被配置为生成个性化hrtf。hrtf表征对于声源的特定位置在人的耳朵处接收的声音。多个hrtf用于表征用户如何感知声音。基于人的解剖结构(例如，耳朵形状、肩膀等)，相对于人的特定源方向的hrtf对于人来说可能是唯一的，因为他们的解剖结构会影响声音如何到达人的耳道。
49.特定于用户的典型hrtf包括用于为用户定制hrtf的特征(例如陷波)。模板hrtf是使用来自某些人群的数据确定的hrtf，然后可以针对单个用户进行个性化。因此，单个模板hrtf是可定制的，以便为不同的用户提供不同的个性化hrtf。模板hrtf可以被认为是平滑变化的连续能量函数，在一个或更多个频率范围(例如，5khz
‑
10khz)上没有单独的声源方向频率特性。通过对模板hrtf应用一个或更多个滤波器，使用模板hrtf生成个性化hrtf。例如，滤波器可以用于在模板hrtf中引入一个或更多个陷波。在一些实施例中，对于给定的源方向，陷波由以下参数描述：频率位置、以该频率位置为中心的频带宽度以及该频率位置处的频带衰减值。陷波可被视为在声能到达收听者的头部并在头部和耳廓周围反弹，在到达耳道入口之前经历抵消(cancellation)时声能中的共振的结果。如上所述，陷波可以影响人如何感知声音(例如，声音听起来源自相对于用户的什么高度)。
50.系统环境包括服务器和音频系统(可以全部或部分地实现为头戴式装置的一部分、可以是独立的并且在头戴式装置外部，等等)。服务器可以接收描述用户头部和/或头戴式装置特征的声学特征数据。例如，用户可以向服务器系统提供他们的头部和/或耳朵的图像和/或视频、头部和/或耳朵的人体测量特征等。服务器至少部分地基于声学特征数据来确定一个或更多个个性化滤波器(例如，添加陷波)的参数值。例如，服务器可以利用机器学习来基于接收到的声学特征数据识别一个或更多个陷波滤波器的参数值。服务器基于模板hrtf和个性化滤波器(例如，为一个或更多个个性化陷波确定的参数值)为用户生成一个或更多个个性化hrtf。在一些实施例中，服务器向与用户相关联的音频系统(例如，可以是头戴式装置的一部分)提供一个或更多个个性化hrtf。音频系统可以将一个或更多个个性化hrtf应用于音频数据，以将音频数据渲染为音频内容。音频系统然后可以(例如，通过音频系统的扬声器组件)呈现音频内容。所呈现的音频内容是空间化的音频内容(即，听起来源自一个或更多个目标声源方向)。
51.在一些实施例中，服务器的一些或全部功能由音频系统执行。例如，服务器可以将个性化滤波器(例如，一个或更多个个性化陷波的参数值)提供给头戴式装置上的音频系统，并且音频系统可以使用个性化滤波器和模板hrtf生成一个或更多个个性化hrtf。
52.图1是根据一个或更多个实施例的用户110在感知音频内容时的听觉感知的透视图。音频系统(未示出)向音频系统的用户110呈现音频内容。在该说明性示例中，用户110被放置在球面坐标系的原点，更具体地，用户110的耳朵之间的中点。当头戴式装置中的音频系统向用户110提供音频内容时，为了便于用户的沉浸式体验，音频系统可以在空间上定位音频内容，使得用户将音频内容感知为源自相对于头戴式装置的源方向120。源方向120可以用仰角和方位角θ140来描述。仰角是从水平面150朝向球面坐标系的极点测量的角度。方位角是在水平面150上从参考轴开始测量的。在其他实施例中，感知的声音起源方向可以包括一个或更多个向量，例如，描述感知的声音起源方向宽度的向量角度或描述感知的声音起源方向区域的向量立体角度。利用声压随着距离r以比率1/r而减小的物理原理，音频内容可以进一步被空间地定位为起源于目标声源方向上的特定距离。
53.影响声音定位的两个参数是用户的耳间时间差(itd，interaural time differences)和耳间水平差(ild，interaural level differences)。itd描述了两个耳朵之间声音到达时间的差异，该参数提供了声源距头部的角度或方向的提示。例如，来自位于人右侧的声源的声音将在到达人的左耳之前到达右耳。ild描述了两个耳朵之间声音水平或强度的差异。例如，与左耳听到的声音相比，来自位于人右侧的声源的声音在人的右耳听到时会更大，这是由于声波传播到左耳时头部遮挡了部分声波。itd和ild可能影响声音的偏侧化(lateralization)。
54.在一些实施例中，基于声源仰角和方位角来参数化用户的个性化hrtf。因此，对于具有仰角和方位角θ140的定义值的特定源方向120的目标用户音频感知，提供给用户的音频内容可以由针对用户以及针对目标源方向120个性化的一组hrtf来修改。一些实施例还可以根据用户110和声音打算被感知为源自的目标位置之间的距离将所呈现的音频内容空间地定位在目标声源方向上的目标距离。
55.模板hrtf
56.模板hrtf是可以定制的hrtf，以便可以针对不同的用户进行个性化。模板hrtf可以被认为是平滑变化的连续能量函数，没有单独的声源方向频率特性，但是描述了一组收听者(例如，在某些情况下所有收听者)的平均声源方向频率特性。
57.在一些实施例中，模板hrtf是从用户群体的通用hrtf生成的。在一些实施例中，通用hrtf对应于在用户群体中获得的平均hrtf。在一些实施例中，通用hrtf对应于从用户群体获得的hrtf数据库中的一个hrtf。在一些实施例中，从hrtf的数据库中选择这一个hrtf的标准对应于预定义的机器学习或统计模型或统计度量。通用hrtf在用户群体中表现出不同声源方向的平均频率特性。
58.在一些实施例中，模板hrtf可以被认为保留了一般用户群体的平均角度相关itd和ild。然而，模板hrtf不展示任何个性化的频率特性(例如，特定位置的陷波)。陷波可被视为在声能到达收听者的头部并在头部和耳廓周围反弹，在到达耳道入口之前经历抵消时声能中的共振的结果。hrtf中的陷波(例如陷波的数量、陷波的位置、陷波的宽度等)为特定用户定制/个性化hrtf。因此，模板hrtf是通用的非个性化参数化频率传递函数，其已经被修改以移除频谱中的个性化陷波，特别是那些在5khz和10khz之间的陷波。并且在一些实施例中，这些陷波可以位于低于5khz和高于10khz。
59.对于用户来说，完全个性化的“真实”hrtf是一个依赖于数万个参数的高维数据集，为收听者提供逼真的声源仰角感知。诸如用户头部的几何形状、耳朵耳廓的形状、耳道的几何形状、头部的密度、环境特征等特征都在音频内容从源位置传播时对其进行变换，并影响单个用户对音频的感知方式(例如，衰减或放大生成的音频内容的频率)。简而言之，针对用户的个性化“真实”hrtf包括频谱中的个性化陷波。
60.图2示出了根据一个或更多个实施例的由用户的声源仰角参数化的三个hrtf的示例描绘。三个hrtf包括用于用户的真实hrtf 210、模板hrtf 220和个性化hrtf 230。这三个hrtf对于以度为单位的仰角(仰角(度)在
‑
90度至90度范围内)按照在一组以千赫为单位的频率值(频率(khz)在0.0khz
‑
16.0khz范围内)上被参数化的方式描绘了以分贝为单位的色标编码能量值(color
‑
scale coded energy value)(能量(db)在
‑
20db至20db范围内)，下面将进一步讨论。注意，虽然未示出，但是这些hrtf中的每一个都有作为方位角的函数的曲线图。
61.真实hrtf 210描述了真实频率衰减特性，该特性影响耳朵如何在所示的仰角范围内接收来自空间点的声音。请注意，在大约5.0khz
‑
16.0khz的频率范围内，真实hrtf 330在整个仰角范围内表现出频率衰减特性。这在视觉上被描绘为陷波240。这意味着，对于5.0khz
‑
16khz的频带范围内的音频内容，为了使音频内容向用户提供关于声源仰角的真实沉浸式体验，所生成的音频内容可以理想地与对于所示仰角范围尽可能接近真实hrtf 210的hrtf进行卷积。
62.模板hrtf 220表示由通用质心hrtf显示的频率衰减特性的示例，该通用质心hrtf保留了一般用户群体的平均角度相关的itd和ild。注意，模板hrtf 220在大约0.0khz
‑
5.0khz的频率范围内表现出与真实hrtf 210相似的特性。然而，在大约5.0khz
‑
16.0khz的频率范围内，与真实hrtf 330不同，模板hrtf 220在所示的仰角范围内表现出减小的频率衰减特性。
63.个性化hrtf 230是已经为用户个性化的模板hrtf 220的版本。如下面参考图3
‑
图
7所讨论的，个性化将一个或更多个滤波器应用于模板hrtf。一个或更多个滤波器可以用于将一个或更多个陷波引入模板hrtf。在图示的示例中，两个陷波350被添加到hrtf模板230以形成个性化hrtf 230。注意，部分地由于陷波250近似真实hrtf 210中的陷波240，个性化hrtf 230在0.0khz
‑
16.0khz的频率范围内表现出与真实hrtf210相似的特性。
64.系统概况
65.图3是根据一个或更多个实施例的用于为用户310确定个性化hrtf的高级系统环境300的示意图。头戴式装置320通过网络340与服务器330通信。用户310可以佩戴头戴式装置320。
66.服务器330接收声学特征数据。例如，用户310可以经由网络340向服务器330提供声学特征数据。声学特征数据描述了用户310的头部和/或头戴式装置320的特征。声学特征数据可以包括例如用户310的头部和/或耳朵的一个或更多个图像、用户310的头部和/或耳朵的一个或更多个视频、用户310的头部和/或耳朵的人体测量特征、佩戴头戴式装置320的头部的一个或更多个图像、单独的头戴式装置320的一个或更多个图像、佩戴头戴式装置320的头部的一个或更多个视频、单独的头戴式装置320的一个或更多个视频、或者它们的某种组合。用户310的人体测量特征是用户310的头部和/或耳朵的测量结果。在一些实施例中，可以使用诸如卷尺(measuring tape)和/或直尺的测量仪器来测量人体测量特征。在一些实施例中，使用成像设备(未示出)捕获用户310的头部和/或耳朵的图像和/或视频。成像设备可以是头戴式装置320上的相机、作为头戴式装置320的一部分的深度相机组件(dca)、外部相机(例如，移动设备的一部分)、外部dca、被配置为捕获图像和/或深度信息的某种其他设备或它们的某种组合。在一些实施例中，成像设备也用于捕获头戴式装置320的图像。数据可以通过网络340提供给服务器330。
67.为了更准确地捕获用户的头部，用户310(或某一其他方)将成像设备定位在相对于他们头部的不同位置，使得所捕获的图像覆盖用户310头部的不同部分。用户310可以相对于用户310以不同的角度和/或距离保持成像设备。例如，用户310可以将成像设备保持在用户310的脸的正前方一臂的距离，并使用成像设备来捕获用户310的脸的图像。用户310还可以将成像设备保持在短于手臂长度的距离处，成像设备指向用户310的头部一侧，以捕获用户310的耳朵和/或肩膀的图像。在一些实施例中，成像设备可以运行特征识别软件，并且当感兴趣的特征(例如，耳朵、肩膀)被识别或者从用户接收输入以捕获图像时，自动捕获图像。在一些实施例中，成像设备可以具有应用，该应用具有图形用户界面(gui)，该图形用户界面引导用户310从相对于用户310的特定角度和/或距离捕获用户310的头部的多个图像。例如，gui可以请求用户310的面部的正面图像、用户310的右耳图像和用户310的左耳图像。在一些实施例中，人体测量特征由成像设备使用成像设备捕获的图像和/或视频来确定。
68.在所示示例中，数据从头戴式装置320经由网络340提供给服务器330。然而，在替代实施例中，一些其他设备(例如，移动设备(例如，智能手机、平板电脑等)、台式电脑、外部相机等)可用于将数据上传到服务器330。在一些实施例中，数据可以直接提供给服务器330。
69.网络340可以是用于数据传输的任何合适的通信网络。网络340典型地是因特网，但可以是任何网络，包括但不限于局域网(lan)、城域网(man)、广域网(wan)、移动有线或无线网络、专用网或虚拟专用网络。在一些示例实施例中，网络340是互联网，并且使用标准通
信技术和/或协议。因此，网络340可以包括使用诸如以太网、802.11、微波接入全球互操作性(wimax)、3g、4g、数字用户线路(dsl)、异步传输模式(atm)、无限带宽、pci快速(pci express)高级交换等技术的链路。在一些示例实施例中，实体使用定制和/或专用数据通信技术来代替或补充上述技术。
70.服务器330使用用户的声学特征数据以及模板hrtf来为用户310生成个性化hrtf。在一些实施例中，存在用于所有用户的单个模板hrtf。然而，在替代实施例中，存在多个不同的模板hrtf，并且每个模板hrtf针对具有一个或更多个共同特征(例如，头部尺寸、耳朵形状、男性、女性等)的不同群组。在一些实施例中，每个模板hrtf与特定特征相关联。这些特征可以是，例如，头部尺寸、头部形状、耳朵尺寸、性别、年龄、影响人如何感知声音的某种其他特征、或者它们的某种组合。例如，基于头部尺寸和/或年龄的变化，可能存在不同的hrtf(例如，可能存在用于儿童的模板hrtf和用于成人的不同hrtf)，因为itd可能随着头部直径而缩放。在一些实施例中，服务器330使用声学特征数据来确定描述用户310的头部的一个或更多个特征(例如，耳朵尺寸、形状、头部尺寸等)。服务器330然后可以基于一个或更多个特征选择模板hrtf。
71.服务器330在声学特征数据上使用经训练的机器学习系统来获得为用户定制的滤波器。可以将滤波器应用于模板hrtf，以创建个性化hrtf。滤波器可以是例如带通(例如，描述峰值)、带阻(例如，描述陷波)、高通(例如，描述高频搁架(shelf))、低通(例如，描述低频搁架)或其某种组合。滤波器可以由一个或更多个参数值来描述。参数值可以包括例如频率位置、以频率位置为中心的频带宽度(例如，由质量因子和/或滤波器阶数确定)以及频率位置处的深度(例如，增益)。频率位置处的深度指的是频率位置处的频带中的衰减值。单个滤波器或滤波器的组合可用于描述一个或更多个陷波。在一些实施例中，服务器330使用经训练的机器学习(ml)模型来使用用户310的声学特征数据确定一个或更多个个性化滤波器的滤波器参数值。ml模型可以部分地基于从声学特征数据估计的itd和/或ild来确定滤波器。如上所述，itd可能影响例如仰角，并且ild可能对偏侧化有一些影响。基于相应的滤波器参数值，一个或更多个个性化滤波器各自被应用于模板hrtf，以修改模板hrtf(例如，添加一个或更多个陷波)，从而为用户310生成个性化hrtf(例如，每个耳朵至少一个)。个性化hrtf可以通过仰角和方位角来参数化。在一些实施例中，当多个用户可以操作头戴式装置320时，ml模型可以确定要应用于每个特定个体用户的模板hrtf的个性化陷波的参数值，以便为多个用户中的每一个生成个性化hrtf。
72.在一些实施例中，服务器330经由网络340向头戴式装置320提供个性化hrtf。头戴式装置320中的音频系统(未示出)存储个性化hrtf。头戴式装置320然后可以使用个性化hrtf向用户310呈现音频内容，使得它听起来源自朝向用户的特定位置(例如，在房间中的虚拟对象的前面、后面等)。例如，头戴式装置320可以将音频数据与一个或更多个个性化hrtf进行卷积，以生成空间化的音频内容，当被呈现时，该音频内容听起来源自特定位置(即，空间化的音频内容)。
73.在一些实施例中，服务器330向头戴式装置310提供生成的滤波器参数值的个性化集合。在该实施例中，头戴式装置320中的音频系统(未示出)将滤波器参数值的个性化集合应用于模板hrtf，以生成一个或更多个个性化hrtf。模板hrtf可以本地存储在头戴式装置320上和/或从某个其他位置(例如，服务器330)检索。
74.图4是根据一个或更多个实施例的服务器400的框图。服务器330是服务器400的实施例。服务器400包括各种部件，包括例如数据储存器410、通信模块420、模板hrtf生成模块430和hrtf个性化模块440。服务器400的一些实施例具有与这里描述的那些不同的部件。类似地，功能可以以与这里描述的方式不同的方式在部件之间进行分配。并且在一些实施例中，服务器400的一个或更多个功能可以由其他部件(例如，头戴式装置的音频系统)来执行。
75.数据储存器410存储供服务器400使用的数据。数据储存器410中的数据可以包括，例如，一个或更多个模板hrtf、一个或更多个个性化hrtf、个性化滤波器(例如，滤波器参数值的个性化集合)、用户简档、声学特征数据、与服务器系统400使用相关的其他数据、音频数据或其某种组合。在一些实施例中，数据储存器410存储来自模板hrtf生成模块430的一个或更多个模板hrtf，存储来自hrtf个性化模块440的个性化hrtf，存储来自hrtf个性化模块440的滤波器参数值的个性化集合，或其某种组合。在一些实施例中，数据储存器410可以周期性地从模板hrtf生成模块440接收并存储更新的带时间戳的模板hrtf。在一些实施例中，可以从hrtf个性化模块440接收用户的周期性更新的个性化hrtf，对其加时间戳，并将其存储在数据储存器410中。在一些实施例中，数据储存器410可以从hrtf个性化模块440接收并存储带时间戳的滤波器参数值的个性化集合。
76.通信模块420与一个或更多个头戴式装置(例如，头戴式装置320)通信。在一些实施例中，通信模块420还可以与一个或更多个其他设备(例如，成像设备、智能手机等)通信。通信模块420可以经由例如网络340和/或某种直接耦合(例如，通用串行总线(usb)、wifi等)进行通信。通信模块420可以从头戴式装置接收针对特定用户的个性化hrtf的请求、声学特征数据(来自头戴式装置和/或一些其他设备)或其某种组合。通信模块420还可以向头戴式装置提供一个或更多个个性化hrtf、滤波器参数值的一个或更多个个性化集合、一个或更多个模板hrtf或它们的某种组合。
77.模板hrtf生成模块430生成模板hrtf。生成的模板hrtf可以存储在数据储存器410中，并且也可以被发送到头戴式装置以存储在头戴式装置中。在一些实施例中，hrtf生成模块430从通用hrtf生成模板hrtf。通用hrtf与一些用户群体相关联，并且可以包括一个或更多个陷波。通用hrtf中的陷波对应于频率窗口或频带上的幅度变化。陷波由以下参数描述：频率位置、以该频率位置为中心的频带宽度以及该频率位置处的频带衰减值。在一些实施例中，hrtf中的陷波被识别为振幅变化超过预定阈值的频率位置。因此，通用hrtf中的陷波可以被认为代表作为用户群体的频率和方向的函数的平均衰减特性。
78.模板hrtf生成模块430在整个可听频带(人类可以感知的声音范围)的一些或全部上移除通用hrtf中的陷波，以形成模板hrtf。模板hrtf生成模块430还可以平滑模板hrtf，使得它的一些或全部是平滑且连续的函数。在一些实施例中，模板hrtf被生成为平滑且连续的函数，其在一些频率范围上缺少陷波，但在那些频率范围之外不一定缺少陷波。在一些实施例中，模板hrtf使得在5khz
‑
10khz的频率范围内没有陷波。这可能很重要，因为该频率范围内的陷波在不同用户之间有所不同。这意味着，在大约5khz
‑
10khz的频率范围内，陷波数量、陷波尺寸、陷波位置可能对耳道入口处如何接收声能有很大影响(因此会影响用户感知)。因此，使模板hrtf在大约5khz
‑
10khz的频率范围内作为平滑且连续的函数而没有陷波，使得它成为可以针对不同用户个性化的适合模板。在一些实施例中，模板hrtf生成模块
430将hrtf模板生成为在所有频率范围都缺少陷波的平滑且连续的函数。在一些实施例中，模板hrtf生成模块430生成hrtf，该hrtf在一个或更多个频带上是平滑且连续的函数，但是可以包括在这一个或更多个频带之外的陷波。例如，模板hrtf生成模块430可以生成在频率范围(例如，大约5khz
‑
10khz)上缺少陷波但是可以在该范围之外包括一个或更多个陷波的模板hrtf模板。
79.请注意，用于生成模板hrtf的通用hrtf是基于用户群体的。在一些实施例中，可以选择群体，使得其代表大多数用户，并且从群体中生成单个模板hrtf，并用于生成一些或所有个性化hrtf。
80.在其他实施例中，使用多个群体来生成不同的通用hrtf，并且这些群体使得每个都与一个或更多个共同特征相关联。这些特征可以是，例如，头部尺寸、头部形状、耳朵尺寸、耳朵形状、年龄、性别、影响人如何感知声音的某种些其他特征、或者它们的某种组合。例如，一个群体可以用于成年人，一个群体用于儿童，一个群体用于男性，一个群体用于女性，等等。模板hrtf生成模块430可以为多个通用hrtf中的一个或更多个生成模板hrtf。因此，可能有多个不同的模板hrtf，并且每个模板hrtf针对共享一些共同特征集合的不同群组。
81.在一些实施例中，模板hrtf生成模块430可以随着获得更多的群体hrtf数据而周期性地生成新的模板hrtf和/或修改先前生成的模板hrtf。模板hrtf生成模块430可以将每个新生成的模板hrtf和/或模板hrtf的每个更新存储在数据储存器410中。在一些实施例中，服务器400可以向头戴式装置发送新生成的模板hrtf和/或模板hrtf的更新。
82.hrtf个性化模块430至少部分地基于与用户相关联的声学特征数据来确定针对用户个性化的滤波器。滤波器可以包括例如针对用户个性化的一个或更多个滤波器参数值。hrtf个性化模块430对用户的声学特征数据采用经训练的机器学习(ml)模型，以确定针对用户定制的一个或更多个个性化滤波器(例如，陷波)的个性化滤波器参数值(例如，滤波器参数值)。在一些实施例中，个性化滤波器参数值由声源仰角和方位角参数化。ml模型首先使用从用户群体收集的数据进行训练。收集的数据可以包括例如图像数据、人体测量特征和声学数据。训练可以包括有监督或无监督的学习算法，包括但不限于线性和/或逻辑回归模型、神经网络、分类和回归树、k
‑
均值聚类、矢量量化或任何其他机器学习算法。声学数据可以包括使用音频测量装置测量的和/或通过来自头部三维扫描的数值分析模拟的hrtf。
83.在一些实施例中，滤波器和/或滤波器参数值经由机器学习直接从用户的图像数据中导出，该图像数据对应于由相机(在电话中或以其他方式)拍摄的左耳和右耳的单个或多个快照。在一些实施例中，滤波器和/或滤波器参数值是通过机器学习从由相机(在电话中或以其他方式)捕获的左耳和右耳的单个或多个视频中导出的。在一些实施例中，滤波器和/或滤波器参数值从用户的人体测量特征中导出，并且对应于左耳和右耳的身体特征。这些人体测量特征包括左耳和右耳的高度、左耳和右耳的宽度、左耳和右耳的耳甲腔(ear cavum concha)高度、左耳和右耳的耳甲腔宽度、左耳和右耳的耳甲艇(ear cymba)高度、左耳和右耳的耳窝(ear fossa)高度、左耳和右耳的耳廓高度和宽度、左耳和右耳的耳间切迹宽度(ear intertragal incisure width)以及其他相关的物理测量结果。在一些实施例中，滤波器和/或滤波器参数值从照片、视频和人体测量结果的加权组合中导出。
84.在一些实施例中，ml模型使用具有节点层的卷积神经网络模型，其中当前层的节
点处的值是前一层的节点处的值的变换。模型中的变换是通过连接当前层和前一层的一组权重和参数来确定的。在一些示例中，还可以通过用于在模型中的先前层之间进行变换的一组权重和参数来确定变换。
85.神经网络模型的输入可以是用户的一些或全部声学特征数据以及编码到第一卷积层上的模板hrtf，并且神经网络模型的输出是要应用于模板hrtf的一个或更多个个性化陷波的滤波器参数值，该滤波器参数值由用户的仰角和方位角参数化；这是从神经网络的输出层解码的。跨越神经网络模型的多个层的变换的权重和参数可以指示包含在起始层中的信息和从最终输出层获得的信息之间的关系。例如，权重和参数可以是用户特征的量化等，包括在用户图像数据的信息中。权重和参数也可以基于历史用户数据。
86.ml模型可以包括任意数量的机器学习算法。可以使用的一些其它ml模型是线性和/或逻辑回归、分类和回归树、k
‑
均值聚类、矢量量化等。在一些实施例中，ml模型包括已经用强化学习训练的确定性方法(从而创建强化学习模型)。该模型被训练来提高使用来自头戴式装置处的音频系统内的监控系统的测量结果生成的滤波器参数值的个性化集合的质量。
87.hrtf个性化模块430选择hrtf模板，用于为用户生成一个或更多个个性化hrtf。在一些实施例中，hrtf个性化模块430简单地(例如，从数据储存器410)检索单个hrtf模板。在其他实施例中，hrtf个性化模块430从声学特征数据中确定与用户相关联的一个或更多个特征，并使用所确定的一个或更多个特征从多个模板hrtf中选择模板hrtf。
88.hrtf个性化模块430使用所选模板hrtf和一个或更多个个性化滤波器(例如，滤波器参数值的集合)为用户生成一个或更多个个性化hrtf。hrtf个性化模块430将个性化滤波器(例如，一组或更多组个性化滤波器参数值)应用于所选模板hrtf，以形成个性化hrtf。在一些实施例中，hrtf个性化模块430使用一个或更多个个性化滤波器中的至少一个向所选模板hrtf添加至少一个陷波，以生成个性化hrtf。以这种方式，hrtf个性化模块430能够通过向模板hrtf添加一个或更多个陷波(对用户来说是个性化的)来近似真实的hrtf(例如，如以上关于图2所述)。在一些实施例中，hrtf个性化模块430然后可以(经由通信模块420)向头戴式装置提供一个或更多个个性化hrtf。在替代实施例中，hrtf个性化模块430向头戴式装置提供个性化的滤波器参数值集，并且头戴式装置使用模板hrtf生成一个或更多个个性化hrtf。
89.图5是示出根据一个或更多个实施例的用于为用户处理对一个或更多个个性化hrtf的请求的过程500的流程图。在一个实施例中，图5的过程由服务器(例如，服务器400)执行。在其他实施例中，其他实体(例如，控制台)可以执行该过程的一些或所有步骤。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。
90.服务器400接收510与用户相关联的声学特征数据。例如，服务器400可以接收用户的头部和/或耳朵的一个或更多个图像。声学特征数据可以通过网络从例如成像设备、移动设备、头戴式装置等提供给服务器。
91.服务器400选择520模板hrtf。服务器400从(例如，存储在数据储存器中的)一个或更多个模板中选择模板hrtf。在一些实施例中，服务器400部分地基于与用户相关联的声学特征数据来选择模板hrtf。例如，服务器400可以使用声学特征数据确定用户是成人，并选择与儿童(相对成人)相关联的模板hrtf。
92.服务器500部分地基于声学特征数据确定530一个或更多个个性化滤波器。使用经训练的机器学习模型来执行该确定。在一些实施例中，至少一个个性化滤波器描述一组或更多组滤波器参数值。每组滤波器参数值描述单个陷波。个性化滤波器参数值描述频率位置、以频率位置为中心的频带宽度(例如，由质量因子和/或滤波器阶数确定)以及频率位置处的深度(例如，增益)。在一些实施例中，针对以用户为中心的球面坐标系中的每个仰角和方位角对值，个性化滤波器参数值被参数化。在一些实施例中，个性化滤波器参数值被描述为在一个或更多个特定频率范围内(例如，5khz
‑
10khz)。
93.服务器500基于模板hrtf和一个或更多个个性化滤波器(例如，一组或更多组滤波器参数值)为用户生成540一个或更多个个性化hrtf。服务器500使用一个或更多个个性化滤波器(例如，通过一组或更多组滤波器参数值)向模板hrtf添加至少一个陷波，以生成个性化hrtf。
94.服务器500向与用户相关联的音频系统提供550一个或更多个个性化hrtf。在一些实施例中，音频系统的一些或全部可以是头戴式装置的一部分。在其他实施例中，音频系统的一些或全部可以与头戴式装置分离并在头戴式装置外部。音频系统可以使用一个或更多个个性化hrtf来向用户渲染音频内容。
95.注意，在替代实施例中，服务器500将一个或更多个个性化滤波器(以及可能的模板hrtf)提供给头戴式装置，并且步骤540由头戴式装置执行。
96.图6是根据一个或更多个实施例的音频系统600的框图。在一些实施例中，图6的音频系统是向用户提供音频内容的头戴式装置的部件。在其他实施例中，音频系统600中的一些或全部与头戴式装置分离并且在头戴式装置外部。例如，音频系统600可以是控制台的一部分。音频系统600包括扬声器组件610和音频控制器620。音频系统600的一些实施例具有与这里描述的那些不同的部件。类似地，功能可以以与这里描述的方式不同的方式在部件之间进行分配。
97.扬声器组件610向音频系统600的用户提供音频内容。扬声器组件610包括根据来自音频控制器620的指令提供音频内容的扬声器。在一些实施例中，扬声器组件610的一个或更多个扬声器可以远离头戴式装置定位(例如，在头戴式装置的局部区域内)。扬声器组件610被配置为利用扬声器向音频系统600的用户的一只或两只耳朵提供音频内容。扬声器可以是例如动圈式换能器(moving coil transducer)、压电换能器、使用电信号生成声压波的某种其他设备或者它们的某种组合。典型的动圈式换能器包括线圈和产生永久磁场的永久磁铁。在导线被置于永久磁场中时，向导线施加电流会根据电流的振幅和极性在线圈上产生力，该力可以朝向或远离永久磁铁移动线圈。压电换能器包括压电材料，该压电材料可以通过在压电材料上施加电场或电压来应变。压电材料的一些示例包括聚合物(例如聚氯乙烯(pvc)、聚偏二氟乙烯(pvdf))、基于聚合物的复合材料、陶瓷或晶体(例如石英(二氧化硅或sio2)、锆钛酸铅(pzt))。放置在用户耳朵附近的一个或更多个扬声器可以耦合到柔软材料(例如硅树脂)，该柔软材料很好地附着到用户的耳朵上并且对用户来说可能是舒适的。
98.音频控制器620控制音频系统600的操作。在一些实施例中，音频控制器620获得与头戴式装置用户相关联的声学特征数据。声学特征数据可以从头戴式装置上的成像设备(例如深度相机组件)或者从某种其他设备(例如智能电话)获得。在一些实施例中，音频控
制器620可以被配置成基于来自成像设备和/或其他设备的数据来确定人体测量特征。例如，音频控制器620可以使用照片、视频和人体测量结果的加权组合来导出人体测量特征。在一些实施例中，音频控制器620经由网络(例如，网络340)向服务器(例如，服务器400)提供声学特征数据。
99.音频系统600使用一个或更多个个性化hrtf生成音频内容。一个或更多个个性化hrtf是为用户定制的。在一些实施例中，从服务器接收一个或更多个个性化hrtf中的一些或全部。在一些实施例中，音频控制器620使用从服务器接收的数据(例如，陷波参数的个性化集合和模板hrtf)生成一个或更多个个性化hrtf。
100.在一些实施例中，音频控制器620可以识别向音频系统600的用户呈现具有目标声源方向的音频内容的机会，例如，当虚拟体验中出现用于呈现具有目标声源方向的音频内容的标志时。音频控制器620可以首先检索音频数据，该音频数据随后将被渲染以生成呈现给用户的音频内容。音频数据可以另外指定音频系统600的局部区域内的音频内容的虚拟源的目标声源方向和/或目标位置。每个目标声源方向描述声音的虚拟源的空间方向。此外，目标声源位置是虚拟源的空间位置。例如，音频数据可以包括来自用户后面的第一目标声源方向和/或目标位置的爆炸，以及来自用户前面的第二目标声源方向和/或目标位置的鸟叫。在一些实施例中，目标声源方向和/或目标位置可以在球面坐标系中组织，用户位于球面坐标系的原点。然后，每个目标声源方向被表示为相对于水平面的仰角和球面坐标系中的方位角，如图1所示。目标声源位置包括距水平面的仰角、方位角和距球面坐标系原点的距离。
101.音频控制器620基于与要呈现给用户的音频数据相关联的目标音频源方向和/或位置感知，为用户使用一个或更多个个性化hrtf。音频控制器620将音频数据与一个或更多个个性化hrtf进行卷积，以向用户渲染被空间化为听起来源自目标源方向和/或位置的音频内容。音频控制器620向扬声器组件610提供渲染的音频内容，以呈现给音频系统的用户。
102.图7是示出根据一个或更多个实施例的使用一个或更多个个性化hrtf在头戴式装置上呈现音频内容的过程700的流程图。在一个实施例中，图7的过程由头戴式装置执行。在其他实施例中，其他实体可以执行该过程的一些或所有步骤。例如，步骤710和720可以由一些其他设备来执行。同样，实施例可以包括不同的和/或附加的步骤，或者以不同的顺序执行这些步骤。
103.头戴式装置捕获710用户的声学特征数据。头戴式装置可以例如使用头戴式装置中的成像设备捕获用户头部和耳朵的图像和/或视频。在一些实施例中，头戴式装置可以与外部设备(例如，相机、移动设备/电话等)通信来接收声学特征数据。
104.头戴式装置向服务器(例如，服务器系统400)提供720声学特征数据。在一些实施例中，声学特征数据可以在被提供给服务器之前在头戴式装置处被预处理。例如，在一些实施例中，头戴式装置可以使用捕获的图像和/或视频来确定用户的人体测量特征。
105.头戴式装置从服务器接收730一个或更多个个性化hrtf。一个或更多个个性化hrtf是为用户定制的。
106.头戴式装置使用一个或更多个个性化hrtf呈现740音频内容。头戴式装置可以将音频数据与一个或更多个个性化hrtf卷积以生成音频内容。音频内容由扬声器组件渲染，并且被感知为源自目标源方向和/或目标位置。
107.在上述实施例中，服务器向头戴式装置提供个性化hrtf。然而，在替代实施例中，服务器可以向头戴式装置提供模板hrtf、一个或更多个个性化滤波器(例如，一组或更多组个性化滤波器参数值)或其某种组合。然后头戴式装置将使用一个或更多个个性化滤波器生成个性化hrtf。
108.人工现实系统环境
109.图8是根据一个或更多个实施例的包括音频系统600的头戴式装置805的系统环境800。系统800可以在人工现实环境(例如，虚拟现实环境、增强现实环境、混合现实环境或它们的某种组合)中操作。图8所示的系统800包括头戴式装置805和耦合到控制台810的输入/输出(i/o)接口815，并且控制台810和/或头戴式装置805通过网络340与服务器400通信。头戴式装置805可以是头戴式装置320的实施例。虽然图8示出了包括一个头戴式装置805和一个i/o接口815的示例系统800，但是在其他实施例中，系统800中可以包括任意数量的这些部件。例如，可以有多个头戴式装置805，每个头戴式装置具有相关联的i/o接口815，每个头戴式装置805和i/o接口815与控制台810通信。在替代配置中，系统800中可以包括不同的和/或附加的部件。另外，在一些实施例中，结合图8所示的一个或更多个部件描述的功能可以以不同于结合图8描述的方式分布在部件中。例如，控制台810的部分或全部功能由头戴式装置805提供。
110.头戴式装置805可以是向佩戴者呈现内容的近眼显示器(ned)或头戴式显示器(hmd)，该内容包括具有计算机生成元素(例如，二维(2d)或三维(3d)图像、2d或3d视频、声音等)的物理现实环境的增强视图。在一些实施例中，所呈现的内容包括经由音频系统600呈现的音频，音频系统600从头戴式装置805、控制台810或两者接收音频信息，并基于音频信息呈现音频数据。在一些实施例中，头戴式装置805向佩戴者呈现部分地基于佩戴者周围的真实环境的虚拟内容。例如，虚拟内容可以呈现给头戴式装置的佩戴者。头戴式装置包括音频系统600。头戴式装置805还可以包括深度相机组件(dca)825、电子显示器830、光学块835、一个或更多个位置传感器840和惯性测量单元(imu)845。头戴式装置805的一些实施例具有与结合图8描述的部件不同的部件。另外，在其他实施例中，由结合图8描述的各种部件提供的功能可以不同地分布在头戴式装置805的部件中，或者被捕获在远离头戴式装置805的单独组件中。下面参考图9描述头戴式装置的一个示例。
111.音频系统600使用一个或更多个个性化hrtf向头戴式装置805的用户呈现音频内容。在一些实施例中，音频系统600可以(例如，从服务器400和/或控制台810)接收和存储用户的个性化hrtf。在一些实施例中，音频系统600可以(例如，从服务器400和/或控制台810)接收并存储模板hrtf和/或要应用于模板hrtf的(例如，通过参数值描述的)一个或更多个个性化滤波器。音频系统600接收与相对于头戴式装置805的目标声源方向相关联的音频数据。音频系统600将一个或更多个个性化hrtf应用于音频数据以生成音频内容。音频系统600通过扬声器组件向用户呈现音频内容。所呈现的音频内容被空间化，使得当用扬声器组件呈现时，它听起来源自目标声源方向和/或目标位置。
112.dca 825捕获描述头戴式装置805的一些或全部周围的局部区域的深度信息的数据。dca 825可以包括发光器、成像设备和可以耦合到发光器和成像设备二者的dca控制器。发光器例如根据由dca控制器生成的发射指令用照明光照射局部区域。dca控制器被配置为基于发射指令来控制发光器的特定部件的操作，例如，以调整照射局部区域的照明光的强
度和图案。在一些实施例中，照明光可以包括结构光图案，例如点图案、线图案等。成像设备捕获用照明光照射的局部区域中的一个或更多个对象的一个或更多个图像。dca 825可以使用由成像设备捕获的数据来计算深度信息，或者dca 825可以将该信息发送到另一设备(例如控制台810)，该另一设备可以使用来自dca 825的数据来确定深度信息。dca 825还可以用于通过摘下头戴式装置并将dca指向用户的头部和/或耳朵来捕获描述用户的头部和/或耳朵的深度信息。
113.电子显示器830根据从控制台810接收的数据来向佩戴者显示2d或3d图像。在各种实施例中，电子显示器830包括单个电子显示器或多个电子显示器(例如，佩戴者的每只眼睛一个显示器)。电子显示器830的示例包括：液晶显示器(lcd)、有机发光二极管(oled)显示器、有源矩阵有机发光二极管显示器(amoled)、波导显示器、某种其他显示器或它们的某种组合。
114.光学块835放大从电子显示器830接收的图像光，校正与图像光相关联的光学误差，以及将校正后的图像光呈现给头戴式装置805的佩戴者。在各种实施例中，光学块835包括一个或更多个光学元件。光学块835中包括的示例光学元件包括：波导、光圈、菲涅尔透镜(fresnel lens)、凸透镜、凹透镜、滤光器、反射表面或影响图像光的任何其他合适的光学元件。此外，光学块835可以包括不同光学元件的组合。在一些实施例中，光学块835中的一个或更多个光学元件可以具有一个或更多个涂层，例如部分反射涂层或抗反射涂层。
115.光学块835对图像光的放大和聚焦允许电子显示器830比更大的显示器物理上更小、重量更轻并且消耗更少的功率。此外，放大可以增大电子显示器830所呈现的内容的视场。例如，所显示内容的视场使得所显示内容使用佩戴者的几乎所有视场(例如，大约110度对角线)、且在一些情况下使用所有视场来呈现。另外，在一些实施例中，可以通过添加或移除光学元件来调整放大量。
116.在一些实施例中，光学块835可以被设计成校正一种或更多种类型的光学误差。光学误差的示例包括桶形或枕形失真、纵向色差或横向色差。其他类型的光学误差还可以包括球面像差、色差(chromatic aberrations)或由于透镜像场弯曲(lens field curvature)、散光或任何其他类型的光学误差引起的误差。在一些实施例中，被提供给电子显示器830用于显示的内容被预失真，并且当光学块835从电子显示器830接收基于内容生成的图像光时，光学块835校正失真。
117.imu 845是电子设备，其基于从一个或更多个位置传感器840接收的测量信号生成指示头戴式装置805位置的数据。位置传感器840响应于头戴式装置805的运动而生成一个或更多个测量信号。位置传感器840的示例包括：一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁力计、检测运动的另一种合适类型的传感器、用于imu 845的误差校正的一种类型的传感器或者其某种组合。位置传感器840可以位于imu 845的外部、imu 845的内部或者这两种位置的某种组合。
118.基于来自一个或更多个位置传感器840的一个或更多个测量信号，imu 845生成指示相对于头戴式装置805的初始位置的头戴式装置805的估计的当前位置的数据。例如，位置传感器840包括用于测量平移运动(向前/向后、向上/向下、向左/向右)的多个加速度计和用于测量旋转运动(例如，俯仰、偏航和横滚)的多个陀螺仪。在一些实施例中，imu 845对测量信号进行快速采样，并根据所采样的数据来计算头戴式装置805的估计的当前位置。例
如，imu 845对从加速度计接收到的测量信号在时间上求积分以估计速度矢量，并对速度矢量在时间上求积分以确定在头戴式装置805上的参考点的估计的当前位置。替代地，imu 845向控制台810提供采样的测量信号，控制台810对数据进行解析以减少误差。参考点是可以用来描述头戴式装置805的位置的点。参考点通常可以被定义为与头戴式装置805的定向和位置相关的空间中的点或者位置。
119.i/o接口815是允许佩戴者发送动作请求并从控制台810接收响应的设备。动作请求是执行特定动作的请求。例如，动作请求可以是开始或结束捕获图像或视频数据的指令，或者是在应用内执行特定动作的指令。i/o接口815可以包括一个或更多个输入设备。示例输入装置包括：键盘、鼠标、游戏控制器、或者用于接收动作请求并将动作请求传送到控制台810的任何其他合适的装置。由i/o接口815接收的动作请求被传送到控制台810，控制台810执行对应于动作请求的动作。在一些实施例中，如上文进一步描述的，i/o接口815包括imu 845，其捕获指示相对于i/o接口815的初始位置的i/o接口815的估计的位置的校准数据。在一些实施例中，i/o接口815可以根据从控制台810接收的指令来向佩戴者提供触觉反馈。例如，当动作请求被接收到时，或者当控制台810向i/o接口815传送指令时，触觉反馈被提供，该指令使i/o接口815在控制台810执行动作时生成触觉反馈。
120.控制台810向头戴式装置805提供内容，用于根据从以下一项或更多项接收的信息来进行处理：头戴式装置805和i/o接口815。在图8所示的示例中，控制台810包括应用储存器850、跟踪模块855和引擎860。控制台810的一些实施例具有与结合图8描述的模块或部件不同的模块或部件。类似地，下面进一步描述的功能可以以不同于结合图8描述的方式被分配在控制台810的部件中。
121.应用储存器850存储用于由控制台810执行的一个或更多个应用。应用是一组指令，该组指令在由处理器执行时生成用于呈现给佩戴者的内容。由应用生成的内容可以响应于经由头戴式装置805的移动或i/o接口815而从佩戴者接收的输入。应用的示例包括：游戏应用、会议应用、视频回放应用或其它合适的应用。
122.跟踪模块855使用一个或更多个校准参数来校准系统环境800，并且可以调整一个或更多个校准参数以减少头戴式装置805或i/o接口815的位置确定中的误差。由跟踪模块855执行的校准也可以考虑从头戴式装置805中的imu 845和/或被包括在i/o接口815中的imu 845接收的信息。另外，如果丢失对头戴式装置805的跟踪，则跟踪模块855可以重新校准系统环境800的一些或全部。
123.跟踪模块855使用来自一个或更多个位置传感器840、imu 845、dca825或其某种组合的信息来跟踪头戴式装置805或i/o接口815的移动。例如，跟踪模块855基于来自头戴式装置805的信息来确定头戴式装置805的参考点在局部区域的映射中的位置。跟踪模块855也可以分别地使用来自imu 845的指示头戴式装置805位置的数据或者使用来自包括在i/o接口815中的imu 845的指示i/o接口815位置的数据，来确定头戴式装置805的参考点或者i/o接口815的参考点的位置。另外，在一些实施例中，跟踪模块855可以使用来自imu 845的指示头戴式装置805的位置的部分数据来预测头戴式装置805的未来定位。跟踪模块855向引擎860提供头戴式装置805或i/o接口815的估计的或预测的未来位置。
124.引擎860也执行系统环境800内的应用，并从跟踪模块855接收头戴式装置805的位置信息、加速度信息、速度信息、所预测的未来位置、或它们的某种组合。基于接收到的信
息，引擎860确定要提供给头戴式装置805用于呈现给佩戴者的内容。例如，如果接收到的信息指示佩戴者已经向左看，则引擎860为头戴式装置805生成反映(mirror)佩戴者在虚拟环境中或在用附加内容增强局部区域的环境中的移动的内容。另外，引擎860响应于从i/o接口815接收的动作请求来执行在控制台810上执行的应用内的动作，并且向佩戴者提供动作被执行的反馈。所提供的反馈可以是经由头戴式装置805的视觉或听觉反馈，或者经由i/o接口815的触觉反馈。
125.示例头戴式装置
126.图9是根据一个或更多个实施例的包括音频系统的头戴式装置900的透视图。头戴式装置900向用户呈现媒体。头戴式装置900呈现的媒体的示例包括一个或更多个图像、视频、音频或它们的某种组合。头戴式装置900可以是近眼显示器、眼镜或头戴式显示器(hmd)。头戴式装置900包括框架905、镜片910、传感器设备915和音频系统(未示出)等部件。在作为头戴式装置的实施例中，头戴式装置900可以校正或增强用户的视觉，保护用户的眼睛，或者向用户提供图像。头戴式装置900可以是矫正用户视力缺陷的眼镜。头戴式装置900可以是保护用户眼睛免受阳光照射的太阳镜。头戴式装置900可以是保护用户眼睛免受撞击的安全眼镜。头戴式装置900可以是夜视装置或红外护目镜以增强用户在夜间的视力。在可替代实施方式中，头戴式装置900可以不包括镜片910并且可以是具有向用户提供音频内容(例如，音乐、广播、播客)的音频系统的框架905。
127.框架905包括保持镜片910的前部和附接到用户的末端件(end piece)。框架905的前部架在(bridge)用户鼻子的顶部。末端件(例如，镜腿(temples))是框架905的一部分，用户的鬓角(temples)附接到该部分。末端件的长度可以是可调的(例如，可调的镜腿长度)，以适合不同的用户。末端件也可以包括在用户耳朵后面弯曲(curl)的部分(例如，镜腿套(temple tip)、挂耳件(ear piece))。
128.镜片910向佩戴头戴式装置900的用户提供或传输光。镜片910由头戴式装置900的框架905的前部保持。镜片910可以是处方镜片(例如，单光镜片(single vision lens)、双焦点镜片和三焦点镜片或渐进镜片)，以帮助矫正用户的视力缺陷。处方透片将环境光传输给穿戴头戴式装置900的用户。透射的环境光可以被处方镜片改变，以矫正用户的视力缺陷。镜片910可以是偏光镜片或有色镜片以保护用户的眼睛免受阳光照射。镜片910可以是作为波导显示器一部分的一个或更多个波导，其中图像光通过波导的末端或边缘耦合到用户的眼睛。镜片910可以包括用于提供图像光的电子显示器，并且还可以包括用于放大来自电子显示器的图像光的光学块。在一些实施例中，镜片910是电子显示器830的实施例。
129.传感器设备915估计相对于头戴式装置900的初始位置的头戴式装置900的当前位置。传感器设备915可以位于头戴式装置900的框架905的一部分上。传感器设备915包括位置传感器和惯性测量单元。传感器设备915还可以包括放置在框架905上的一个或更多个相机，以观察或面对用户的眼睛。传感器设备915的一个或更多个相机被配置成捕获对应于用户眼睛的眼睛位置的图像数据。传感器设备915可以是imu 845和/或位置传感器840的实施例。
130.音频系统(未示出)向头戴式装置900的用户提供音频内容。音频系统是音频系统600的实施例，并且使用扬声器920呈现内容。
131.附加配置信息
132.根据本发明的实施例在所附权利要求中具体公开，涉及方法、存储介质、和音频系统，其中在一个权利要求类别(例如方法)中提到的任何特征，也可以在另一个权利要求类别(例如存储介质、音频系统、系统和计算机程序产品)中要求保护。在所附权利要求中的从属性或往回引用仅为了形式原因而被选择。然而，也可以要求保护由对任何前面权利要求的有意往回引用(特别是多项从属性)而产生的任何主题，使得权利要求及其特征的任何组合被公开并可被主张，而不考虑在所附权利要求中选择的从属性。
133.可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。
134.在一个实施例中，一种方法可以包括：至少部分地基于用户的声学特征数据来确定一个或更多个个性化滤波器；基于模板hrtf和所确定的一个或更多个个性化滤波器，为用户生成一个或更多个个性化头部相关传递函数(hrtf)；以及将所生成的一个或更多个个性化hrtf提供给音频系统，其中个性化hrtf用于生成空间化音频内容。
135.确定一个或更多个个性化滤波器可以包括使用经训练的机器学习模型以及用户的声学特征数据来确定一个或更多个个性化滤波器的参数值。一个或更多个个性化滤波器的参数值可以描述一个或更多个个性化hrtf中的一个或更多个个性化陷波。参数值可以包括：频率位置、以该频率位置为中心的频带中的宽度、以及在以该频率位置为中心的频带中引起的衰减量。
136.可以用图像数据、人体测量特征和声学数据来训练机器学习模型，所述声学数据包括针对用户群体获得的hrtf的测量值。
137.可以基于模板hrtf和所确定的一个或更多个个性化滤波器为用户生成一个或更多个个性化hrtf可以包括：使用一个或更多个个性化滤波器中的至少一个向模板hrtf添加至少一个陷波，以生成一个或更多个个性化hrtf中的个性化hrtf。
138.模板hrtf可以基于描述用户群体的通用hrtf，通用hrtf可以包括频率范围内的至少一个陷波。可以通过移除至少一个陷波使得模板hrtf在频率范围内是平滑且连续的函数来从通用hrtf生成模板hrtf。频率范围可以是5khz到10khz。在频率范围之外的模板hrtf中可以存在至少一个陷波。
139.音频系统可以是头戴式装置的一部分。音频系统可以与头戴式装置分离并且在于头戴式装置外部。
140.在一个实施例中，非暂时性计算机可读介质可以被配置为存储程序代码指令，当由处理器执行时，该程序代码指令可以使处理器执行包括以下操作的步骤：至少部分地基于用户的声学特征数据来确定一个或更多个个性化滤波器；基于模板hrtf和所确定的一个或更多个个性化滤波器，为用户生成一个或更多个个性化头部相关传递函数(hrtf)；以及将生成的一个或更多个个性化hrtf提供给音频系统，其中个性化hrtf用于生成空间化音频内容。
141.确定一个或更多个个性化滤波器可以包括使用经训练的机器学习模型以及用户的声学特征数据来确定一个或更多个个性化滤波器的参数值。
142.一个或更多个个性化滤波器的参数值可以描述一个或更多个个性化hrtf中的一个或更多个个性化陷波。参数值可以包括：频率位置、以该频率位置为中心的频带中的宽度、以及在以该频率位置为中心的频带中引起的衰减量。
143.可以用图像数据、人体测量特征和声学数据来训练机器学习模型，所述声学数据包括针对用户群体获得的hrtf的测量值。
144.可以基于模板hrtf和所确定的一个或更多个个性化滤波器为用户生成一个或更多个个性化hrtf可以包括：使用一个或更多个个性化滤波器中的至少一个向模板hrtf添加至少一个陷波，以生成一个或更多个个性化hrtf中的个性化hrtf。
145.在一个实施例中，一种方法可以包括：在头戴式装置处接收头戴式装置的用户的一个或更多个个性化hrtf；检索与相对于头戴式装置的目标声源方向相关联的音频数据；将一个或更多个个性化hrtf应用于音频数据，以将音频数据渲染为音频内容；以及由头戴式装置的扬声器组件呈现音频内容，其中所呈现的音频内容被空间化，使得它听起来源自目标声源方向。
146.在一个实施例中，一种方法可以包括：捕获用户的声学特征数据；以及将所捕获的声学特征数据传输到服务器，其中服务器使用所捕获的声学特征数据来确定一个或更多个个性化hrtf，并且服务器将一个或更多个个性化hrtf提供给头戴式装置。
147.在一个实施例中，音频系统可以包括：音频组件和音频控制器，该音频组件包括被配置为向音频系统的用户呈现音频内容的一个或更多个扬声器；该音频控制器被配置为执行根据上述任何实施例的或在上述任何实施例内的方法。
148.在实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。
149.在实施例中，一种音频系统和/或系统可以包括：一个或更多个处理器；以及至少一个存储器，其耦合到处理器并包括由处理器可执行的指令，当执行该指令时，处理器可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。
150.在实施例中，一种计算机程序产品，优选地包括计算机可读非暂时性存储介质，当在数据处理系统上被执行时，该计算机程序产品可以可操作来执行根据上述任何实施例的或在上述任何实施例内的方法。
151.本公开的实施例的前述描述为了说明的目的被提出；它并不意图为无遗漏的或将本公开限制到所公开的精确形式。相关领域中的技术人员可以认识到，按照上面的公开，许多修改和变化是可能的。
152.本描述的一些部分从对信息的操作的算法和符号表示方面描述了本公开的实施例。数据处理领域的技术人员通常使用这些算法描述和表示来向本领域的其他技术人员有效地传达他们工作的实质。这些操作虽然在功能上、计算上或逻辑上进行了描述，但应理解为将由计算机程序或等效电路、微代码等来实现。此外，将操作的这些布置称为模块有时候也被证明是方便的而不失一般性。所描述的操作和它们的相关模块可以体现在软件、固件、硬件或其任何组合中。
153.可以利用一个或更多个硬件或软件模块单独地或与其他设备组合地来执行或实现本文描述的任何步骤、操作或过程。在一个实施例中，利用包括计算机可读介质的计算机程序产品来实现软件模块，该计算机可读介质包含计算机程序代码，计算机程序代码可以
由计算机处理器执行，用于执行所描述的任何或全部步骤、操作或过程。
154.本公开的实施例也可以涉及用于执行本文的操作的设备。该设备可以被特别构造成用于所需的目的，和/或它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算装置。这种计算机程序可以存储在非暂时性的、有形的计算机可读存储介质中，或者任何类型的适于存储电子指令的介质中，其可以耦合到计算机系统总线。此外，说明书中提到的任何计算系统可以包括单个处理器，或者可以是采用多处理器设计以提高计算能力的架构。
155.本公开的实施例也可以涉及由本文所述的计算过程产生的产品。这样的产品可以包括从计算过程得到的信息，其中信息被存储在非暂时性的、有形的计算机可读存储介质上且可以包括计算机程序产品或本文所述的其他数据组合的任何实施例。最后，在说明书中使用的语言主要为了可读性和指导目的而被选择，并且它可以不被选择来描绘或限制创造性主题。因此，意图是本公开的范围不由该详细描述限制，而是由在基于其的申请上发布的任何权利要求限制。因此，实施例的公开意图对本公开的范围是说明性的，而不是限制性的，在所附权利要求中阐述了本公开的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

用于音频内容呈现的头部相关传递函数模板的个性化的制作方法

相关文献

最热文献