在内容内放置声音的制作方法

2022-07-24 01:01:32 来源：中国专利 TAG：

1.本公开的实施例涉及在所显示的内容内放置声音。

背景技术：

2.空间音频允许用户控制从哪里渲染声源。在某些情况下，用户希望将音频源添加到所显示的内容。

技术实现要素：

3.根据各种但不一定是所有实施例，提供了一种装置，包括用于以下操作的部件：
4.在视口内显示内容；
5.在视口内显示表示声源的符号；
6.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
7.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声源锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声源锁定到不随着所显示的内容在视口内移动而移动的位置，
8.其中第一放置方法包括针对符号的相对于视口的消除歧义的手势，消除歧义的手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
9.在一些但不一定是所有示例中，第一放置方法的消除歧义的手势包括相对于视口拖动符号。
10.在一些但不一定是所有示例中，第一放置方法包括先前手势，先前手势在消除歧义的手势之前相对于视口和所显示的内容拖动符号。
11.在一些但不一定是所有示例中，包括用于以下操作的部件：
12.确定视口中的第一位置，第一位置由先前手势相对于视口和所显示的内容拖动符号的端点定义；以及
13.确定视口中的第二位置，第二位置由相应的第一放置方法或第二放置方法的终止定义；其中第一位置与第二位置之间的差异消除第一放置方法和第二放置方法的歧义
14.在一些但不一定是所有示例中，第一放置方法包括在其中符号被拖动到内容并且然后与内容一起被拖动的放置方法，以及第二放置方法包括在其中符号被拖动到视口内的位置并且然后保持在视口内的位置的放置方法。
15.在一些但不一定是所有示例中，第一放置方法和第二放置方法包括：使用手势选择符号。
16.在一些但不一定是所有示例中，第一放置方法和第二放置方法包括：针对符号相对于视口和所显示的内容的初始手势，初始手势指示符号相对于视口和所显示的内容的移动，
17.第一放置方法附加地包括：
18.针对符号相对于视口的手势，手势指示符号相对于使第一放置方法与第二放置方
法消除歧义的视口的移动。
19.在一些但不一定是所有示例中，第一放置方法包括
20.符号相对于视口和所显示的内容的初始拖动移动以及符号相对于视口的随后移动，但没有符号相对于所显示的内容的移动。
21.在一些但不一定是所有示例中，第一放置方法包括
22.符号相对于视口和所显示的内容的初始拖动移动，以及符号相对于视口到可变位置的随后移动，可变位置跟踪在声源要被锁定到的视口内正在移动的所显示的内容。
23.在一些但不一定是所有示例中，被跟踪的、并且声源要被锁定到的所显示的内容是视觉场景的第一内容。
24.在一些但不一定是所有示例中，第一内容是形成背景的视觉场景的大部分。
25.在一些但不一定是所有示例中，第一内容是作为在视觉场景内移动的视觉对象的、视觉场景的小部分。
26.在一些但不一定是所有示例中，在视口内显示的内容是可用内容的子集，其中子集由视口定义，并且其中视口由视点和视场定义，其中所显示的内容和视点中的一者或两者是时变的。
27.在一些但不一定是所有示例中，第一放置方法包括保持手势，该保持手势在视口移动的同时将所显示的符号保持在相对于内容的固定位置并且其中第二放置方法包括保持手势，该保持手势在视口移动的同时将所显示的符号保持在相对于视口的固定位置。
28.在一些但不一定是所有示例中，对符号执行的第二放置方法将声源锁定到跟踪视口的位置而不是相对于视口正在移动的所显示的内容。
29.在一些但不一定是所有示例中，第二放置方法包括符号相对于视口和所显示的内容的初始拖动移动，并且在阈值时间段内没有符号相对于视口的随后移动。
30.在一些但不一定是所有示例中，视口是触摸显示屏，并且符号是在触摸显示屏上显示的图标，并且其中将显示的符号放置在所显示的内容中的一个或多个手势是基于触摸的手势。
31.在一些但不一定是所有示例中，图标被提供在菜单中，该菜单被显示在触摸显示屏上。
32.在一些但不一定是所有示例中，声源和内容被同时记录。
33.根据各种但不一定是所有实施例，提供了一种方法，包括：
34.在视口内显示内容；
35.在视口内显示表示声源的符号；
36.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
37.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声源锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声源锁定到不随着所显示的内容在视口内移动而移动的位置，
38.其中第一放置方法包括针对符号的相对于视口的消除歧义的手势，消除歧义的手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
39.根据各种但不一定是所有的实施例，提供了一种计算机程序，包括程序指令，该程序指令用于使装置至少执行以下操作：
40.在视口内显示内容；
41.在视口内显示表示声源的符号；以及
42.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
43.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声源锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声源锁定到不随着所显示的内容在视口内移动而移动的位置，
44.其中第一放置方法包括针对符号的相对于视口的消除歧义的手势，消除歧义的手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
45.根据各种但不一定是所有实施例，提供了一种人机接口，包括用于以下操作的部件：
46.在视口内显示内容；
47.在视口内显示表示声源的符号；
48.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
49.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声源锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声源锁定到不随着所显示的内容在视口内移动而移动的位置，
50.其中第一放置方法包括针对符号的相对于视口的消除歧义的手势，消除歧义的手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
51.根据各种但不一定是所有实施例，提供了如所附权利要求中要求保护的示例。
附图说明
52.现在将参考附图描述一些示例实施例，在附图中：
53.图1示出了本文所述主题的示例实施例；
54.图2示出了本文所述主题的另一示例实施例；
55.图3示出了本文所述主题的另一示例实施例；
56.图4示出了本文所述主题的另一示例实施例；
57.图5示出了本文所述主题的另一示例实施例；
58.图6示出了本文所述主题的另一示例实施例；
59.图7示出了本文所述主题的另一示例实施例；
60.图8示出了本文所述主题的另一示例实施例；
61.图9示出了本文所述主题的另一示例实施例；
62.图10示出了本文所述主题的另一示例实施例；
63.图11示出了本文所述主题的另一示例实施例；
64.图12示出了本文所述主题的另一示例实施例；
65.图13示出了本文所述主题的另一示例实施例；
66.图14示出了本文所述主题的另一示例实施例；
67.图15示出了本文所述主题的另一示例实施例；
68.图16示出了本文所述主题的另一示例实施例；
69.图17示出了本文所述主题的另一示例实施例。
具体实施方式
70.图1图示了用于控制将声源50添加到所显示的内容20的装置10的示例。
71.装置10包括用于以下操作的部件：
72.在视口30内显示内容20；
73.在视口30内显示表示声源50的符号40；
74.检测一个或多个手势60，一个或多个手势60将所显示的符号40放置在所显示的内容20中；
75.消除针对符号40执行的第一放置方法与针对符号40执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声源50锁定到随着所显示的内容20在视口30内移动而移动的位置，第二放置方法将声源50锁定到不随着所显示的内容20在视口30内移动而移动的位置。
76.第一放置方法包括针对符号40的相对于视口30的手势60，手势60指示符号40相对于视口30、使第一放置方法与第二放置方法消除歧义的移动。
77.在所图示示例中，装置10包括
78.显示部件12，显示部件12用于在视口30内显示内容20，并且用于在视口30内显示表示声源50的符号40；
79.检测部件14，检测部件14用于检测一个或多个手势60，一个或多个手势60将所显示的符号40放置在所显示的内容20中；
80.消除歧义部件16，消除歧义部件16用于消除针对符号40执行的第一放置方法与针对符号40执行的第二放置方法之间的歧义；以及
81.空间音频部件18，空间音频部件18被配置为取决于消除歧义而将声源50锁定到随着所显示的内容20在视口30内移动而移动的位置或者将声源50锁定到不随着所显示的内容20在视口30内移动而移动的位置。
82.第一放置方法包括针对符号40的相对于视口30的手势60，手势60指示符号40相对于视口30、使第一放置方法与第二放置方法消除歧义的移动。
83.显示部件12可以是用于控制或向用户提供视觉输出的任何设备。在一些但不一定是所有示例中，装置10是手持式装置并且显示部件12是装置10的显示屏。在一些但不一定是所有示例中，显示部件12将光投射到用户的眼睛中，例如经由近眼显示器或头戴式显示屏，或者是用于控制将光投射到用户的眼睛中或头戴式显示屏的输出接口。
84.检测部件14可以是用于检测一个或多个手势60的任何设备。手势可以是用户身体的任何移动。在一些示例中，一个或多个手势是用户在其中使用定点设备的手指触摸触敏屏(例如触敏显示屏)的触摸手势。在一些示例中，一个或多个手势是在其中用户相对于装置10移动他或她的身体的三维手势。可以以多种方式检测三维手势，例如，使用多个检测器来检测投射电场、超声场或光场的空间变化。
85.空间音频部件18是当呈现给用户时能够控制声源的感知位置的任何设备。声源可以建模为虚拟扬声器，其通过控制例如在用户的左耳和右耳处感知的声音之间的定时和幅度差异来定位。混响还可用于将声音外部化到佩戴耳机的用户的外部。声音可以使用合适的多扬声器设置(诸如环绕声扬声器)或使用耳机来呈现。
86.视口30是对用户可见的显示区域。在装置10使用显示屏作为显示部件12的情况
下，视口30是显示屏。
87.显示内容20是在显示区域中显示的内容。在一些但不一定是所有示例中，内容是视频内容。在一些但不一定是所有示例中，在特定时间显示在视口30中的内容是可用于在特定时间在视口30中显示的内容的子集。例如，可用内容的视野可以大于所显示的内容的视场。例如，如果视口仅显示全景图像的一部分，或者如果视口30显示中介现实内容，则会发生这种情况。在第一人称视角的中介现实中，用户的真实视点(位置和/或取向)确定了虚拟用户在虚拟空间内的视点，从而改变了虚拟场景(所显示的内容)。在一些示例中，虚拟空间可以水平延伸到360
°
并且可以垂直延伸到180
°
。
88.在一些但不一定是所有示例中，声源50和内容被同时记录。
89.在一些示例中，装置10被配置为能够将空间音频效果(声源50)添加到所捕获的内容，例如所捕获的视频。
90.在一些示例中，所显示的内容可以具有在显示内容时呈现的相关联的声音。
91.在一些但不一定是所有示例中，装置10是渲染装置。例如，它可以用于编辑内容以添加空间音频效果。
92.图2a到图2g图示了视口30的示例。内容20显示在视口30内。内容20正在视口30内移动。在这些示例但不一定所有示例中，内容在图2a和图2b中是静止的，然后在图2c、图2d、图2e中向左移动(相对于视口30)，然后在图2f中向右移动(相对于视口30)，然后在图2g中向左移动(相对于视口30)。图2a至图2g用于图示第一放置方法101的示例。
93.在图2a中，表示声源50的符号40显示在视口30内。用户70对符号40执行选择手势60。
94.图2b图示了执行放置手势60的用户70。该手势60相对于视口30和所显示的内容20并且指示符号40相对于视口30和所显示的内容20的移动。
95.例如，放置手势60可以是符号40相对于视口30和所显示的内容20到视口30(和所显示的内容20)中的符号位置61的拖动移动。
96.图2c和图2d图示了用户70继续放置手势60。该继续放置手势60包括符号相对于视口30的移动，但没有符号40相对于所显示的内容20的实质的移动。符号位置61相对于视口30变化，但不相对于内容20变化或显著地变化。符号位置61跟随内容20的相同部分。
97.符号40具有跟踪所显示的内容20的可变位置61，该所显示的内容20在声源50将被锁定到的视口30内正在移动。
98.例如，继续放置手势60可以是符号40相对于视口30、跟随所显示的内容20的拖动移动。没有相对于所显示的内容20的显著的移动。
99.被跟踪、并且声源50要被锁定到的所显示的内容20是视觉场景的第一内容。
100.在一些但不一定是所有示例中，第一内容是形成背景的视觉场景的大部分。
101.在一些但不一定是所有示例中，第一内容是作为在视觉场景内移动的视觉对象的、视觉场景的小部分。
102.图2e、图2f和图2g图示了在放置手势60终止之后，声源50被锁定到随着所显示的内容20在视口30内移动而移动的位置51。术语“被锁定”意味着声源50被固定到位置51而不需要继续放置手势60。锁定不一定是永久的并且例如可以是有时间限制的。
103.尽管声源50被图示为视口30中的视觉元素，但这是可选的。在一些示例中，声源50
的位置51没有被视觉标记。在一些示例中，在声源50的位置51使用视觉元素被视觉地标记的情况下，视觉元素可以是符号40或符号的修改版本。在一些示例中，用户可以做出使一个或多个声源50的位置使用符号40被视觉指示的用户选择。然后放置方法101、102可以针对那些所显示的符号40中的任何一个被执行。
104.图3a至图3g示出了视口30的示例。内容20显示在视口30内。内容20正在视口30内移动。在这些示例但不一定所有示例中，内容在图3a和图3b中是静止的，然后在图3c、图3d、图3e中向左移动(相对于视口30)，然后在图3f、图3g中向右移动(相对于视口30)。图3a至图3g用于图示第二放置方法102的示例。
105.为了便于比较第一放置方法101和第二放置方法102，使用相同的视口30、相同的移动显示内容20和相同的符号40。然而，应当理解，这仅仅是为了便于比较，并且这些特征中的一个或多个特征在方法之间可能不同。
106.在图3a中，表示声源50的符号40显示在视口30内。用户70对符号40执行选择手势60。
107.图3b图示了执行放置手势60的用户70。该手势相对于视口30和所显示的内容20并且指示符号40相对于视口30和所显示的内容20的移动。
108.例如，放置手势60可以是符号相对于视口30和所显示的内容20到视口30(和所显示的内容20)中的符号位置61的拖动移动。
109.图3c和图3d图示了用户70继续放置手势60。这种继续放置手势60包括符号相对于所显示的内容20的移动，但没有符号40相对于视口30的实质的移动。符号位置61相对于所显示的内容20变化，但相对于视口30不变化或显著地变化。
110.符号40在视口30内具有静止位置61，声源50将被锁定到该静止位置61。该位置61不跟踪正在视口30内移动的所显示的内容20。
111.例如，继续放置手势60可以是没有符号40相对于视口30的拖动移动的静止手势。没有相对于视口30的显著的移动。
112.放置手势60包括符号40相对于视口30和所显示的内容20的初始拖动移动(图3b)以及在阈值时间段内没有符号40相对于视口30的随后移动(图3c、3d)。例如，阈值时间段可以是1或2秒。
113.图3e、图3f和图3g图示了在放置手势60终止之后，声源50被锁定到位置51，该位置51不会随着所显示的内容20在视口30内移动而移动。术语“被锁定”意味着声源50被固定到位置51而不需要继续放置手势60。锁定不一定是永久的并且例如可以是时间限制的。
114.尽管声源50被图示为视口30中的视觉元素，但这是可选的。在一些示例中，声源50的位置51没有被视觉标记。在一些示例中，在声源50的位置51使用视觉元素被视觉地标记的情况下，视觉元素可以是符号40或符号的修改版本。在一些示例中，用户可以做出使一个或多个声源50的位置使用符号40被视觉指示的用户选择。然后放置方法101、102可以针对那些所显示的符号40中的任何一个符号40被执行。
115.比较第一放置方法101和第二放置方法102，第一放置方法101另外包括针对符号40的相对于视口30的手势60，手势60指示符号40相对于视口30的移动。该手势60(图2c、图2d)使第一放置方法101与第二放置方法102消除歧义。
116.在至少一些示例中，第一放置方法101包括其中符号40被拖动到所显示的内容20
内的位置61(图2b中的c)并且然后与该内容一起被拖动的放置方法(图2c、图2d)。
117.在至少一些示例中，第二放置方法102包括其中符号40被拖动到视口30内的位置61并且然后被保持在视口30内的该位置61处的放置方法(图3c、图3d)。
118.例如，消歧过程可以包括：
119.确定视口30中的第一位置61(图2b、图2c)，第一位置61由相对于视口30和所显示的内容20拖动符号40的手势60的端点定义。
120.在视口30中确定第二位置61(图2d、图3d)，第二位置61由相应的第一放置方法101或第二放置方法102的终止定义。
121.确定第一位置61(图2b、图2c)与第二位置61(图2d、图3d)之间的位置差，并且使用该差来消除第一放置方法101和第二放置方法102的歧义。
122.在第一放置方法101中，通过相对于视口30拖动符号40，第二位置61与视口30中的第一位置61分离。在第二放置方法102中，第二位置61通过将符号40保持在相对于视口30基本固定的位置中而在内容空间中与第一位置61分离。
123.因此，内容空间中的小位置差(或视口空间中的大位置差)指示第一放置方法101已经发生，并且内容空间中的大位置差(或视口空间中的小位置差)指示第二放置方法102已经发生。
124.在一些但不一定是所有示例中，拖动手势60被执行为接触点在触摸屏显示器的表面上的移动。在这些示例中，放置方法101、102的终止发生在通过抬起用户的手指或定点设备而终止接触时。
125.在视口30是触控显示屏的情况下，符号40可以是触控显示屏上显示的图标。将所显示的符号40放置在所显示的内容中的一个或多个手势60是在图标上执行的基于触摸的手势。该图标可以在菜单中提供，该菜单被显示在触摸显示屏上作为人机接口的一部分，用于将空间音频效果添加到视觉内容。
126.在一些但不一定是所有示例中，在视口30内显示的所显示的内容20是可用内容的子集。
127.如图4a至图4f和图5a至图5f所示，子集由视口30定义。
128.图4a、图4b、图4c、图4d、图4e、图4f中的每个图相应地与图2b、图2c、图2d、图2e、图2f、图2g相对应。图5a、图5b、图5c、图5d、图5e、图5f中的每个图相应地与图3b、图3c、图3d、图3e、图3f、图3g相对应。
129.图4a至图4f和图5a至图5f图示视口30与可用内容abcde的关系。所显示的内容20是与视口30重叠的可用内容的部分。视口30相对于改变所显示的内容20的可用内容移动。
130.在与第一放置方法101相对应的示例4a至4c中，手势控制的符号40的位置61相对于所显示的内容20的特定部分(c)保持静态，并且在视口30内以与视口相对于可用内容20如何移动的相反意义和相同程度移动。该放置方法101的检测使声源50的位置51被锁定到由放置方法101定义的所显示的内容20的特定部分(c)。在示例4d至4f中，声源50的位置51相对于所显示的内容20的特定部分(c)保持静态，并且在视口30内以与视口相对于可用内容20如何移动的相反意义和相同程度移动。
131.第一放置方法101将声源50锁定到随所显示的内容20而不是视口30移动的位置51。
132.在该示例中，第一放置方法101包括保持手势60，该保持手势60在视口30移动的同时将所显示的符号40保持在相对于内容的固定位置61。
133.在对应于第二放置方法102的示例5a至5c中，手势控制的符号40的位置61相对于视口30的特定部分(x)保持静态并且随着视口30移动。手势控制的符号40的位置61在所显示的内容20内以与视口相对于可用内容20如何移动相同的意义和相同的程度移动。该放置方法102的检测引起声源50的位置51被锁定到由放置方法102定义的视口的特定部分(x)。在示例5d至5f中，声源50的位置51相对于视口30的特定部分(x)保持静态，并且以与视口相对于可用内容20如何移动相同的意义和相同的程度在所显示的内容20内移动。
134.第二放置方法102将声源50锁定到随视口30而不是所显示的内容20移动的位置51。声源50跟踪视口30而不是相对于视口30正在移动的所显示的内容20。
135.在该示例中，第二放置方法102包括保持手势60，该保持手势60在视口移动的同时将所显示的符号40保持在相对于视口的固定位置61。
136.图6a至图6b和图7a至图7b图示了视口30是手持设备的触摸显示屏的示例。
137.图6a至图6b图示了当视口30是手持设备的触摸显示屏时的第一放置方法101的示例。
138.在图6a中，表示声源50的符号40显示在视口30内。用户70在符号40上执行放置手势60，以及可选地选择手势60。用户用手指或指针触摸符号40，并且然后将其拖动到视口30的所显示的内容20内的所需位置。
139.在图6b中，用户70继续放置手势60。用户继续用手指或指针触摸符号40并在视口30上拖动。这种持续的放置手势60包括符号相对于视口30的移动，但没有符号40相对于所显示的内容20的实质移动。符号位置相对于视口30变化，但相对于内容20不变化或显著地变化。符号位置61跟随内容20的相同部分。
140.图7a至图7b图示了当视口30为手持装置的触摸显示屏时的第二放置方法102的示例。
141.在图7a中，表示声源50的符号40显示在视口30内。用户70在符号40上执行放置手势60，并且可选地执行选择手势60。用户利用手指或指针来触摸符号40并且将其拖动到视口30的所显示的内容20内的所需位置。
142.在图7b中，用户70继续放置手势60。用户继续利用手指或指针来触摸符号40，同时保持手指或指针相对于视口30基本静止。这种持续的放置手势60包括符号相对于所显示的内容20的移动，但没有符号40相对于视口30的实质移动。符号位置相对于所显示的内容20变化，但相对于视口30不变化或显著地变化。
143.图8a和图8b图示了视口30可以如何相对于改变所显示的内容20的可用内容移动的示例。
144.在这些示例中，视口由视点110和视场112定义。
145.所显示的内容和视点110中的一者或两者是时变的。
146.在图8a所图示的示例中，视点110可随位置的变化而变化。这与可用内容的跟踪镜头相对应。
147.在图8b所图示的示例中，视点110可通过取向中的改变而变化。这对应于可用内容的平移镜头。
148.将理解，在这些示例中，第二放置方法102将声源50锁定到视点110，使得声源50相对于视点110的位置51随着视点110的变化是不变的。第二放置方法102将声源50锁定到随视口30而不是所显示的内容20移动的位置51。第一放置方法101将声源50锁定到与视点110改变时相同的所显示的内容。第一放置方法101将声源50锁定到随所显示的内容20而不是视口30移动的位置51。
149.图9a和图9b图示了可以如何改变视点110的一些示例。
150.图9a图示了由装置10使用的显示器124是手持装置120的一部分的示例。
151.手持装置120包括显示器124，显示器124用于向用户70显示所显示的内容20和所显示的符号40。手持装置120可以在用户70的手中在六个自由度(三个用于取向，并且三个用于平移)中的一个或多个自由度中被有意地移动以定义不同的视点110。
152.如果手持装置具有安装在与显示器相对的面上的相机，则它可以作为观看视频布置来操作，该观看视频布置使得能够在向用户显示一个或多个视觉元素(诸如符号40)的同时观看现场真实场景以组合提供虚拟场景。
153.手持装置可以或可以作为用于中介现实的观看视频布置来操作，其使得真实场景或其他内容的现场或录制视频能够显示在显示器124上以供用户观看，同时一个或多个视觉元素(诸如符号40)同时显示在显示器124上以供用户观看。所显示的真实场景或其他内容与所显示的一个或多个视觉元素的组合向用户提供了虚拟场景。
154.在一些但不一定是所有示例中，装置10是图像捕获装置，例如相机。所显示的内容20可以是同时显示在相机取景器中并且记录为所捕获的内容的内容。例如，它可以用于编辑正在捕获的内容，以添加空间音频效果。在该示例中，即使在相机正在摇动时，内容锁定的声源50也来自世界中的相同位置。在该示例中，视口锁定的声源50跟随相机及其视口的移动。声源50在被渲染时来自相同的方向，而与相机指向的位置无关。
155.图9b图示了由装置10使用的显示器124是头戴式装置122的示例。
156.头戴式装置122包括显示器124，显示器124用于向用户70显示所显示的内容20和所显示的符号40。当用户的头部移动时，头戴式装置可以自动移动。头戴式装置122可以在六个自由度(三个用于取向，并且三个用于平移)中的一个或多个自由度中移动，以定义不同的视点110。
157.头戴式装置122可以作为增强现实的透视布置来操作，其使得能够在显示器124向用户显示一个或多个视觉元素(诸如符号40)的同时，观看现场真实场景以组合提供虚拟场景。在这种情况下，遮阳板(如果存在)是透明或半透明的，使得可以通过遮阳板观看现场真实场景。
158.头戴式装置122可以作为用于中介现实的观看视频布置来操作，其使得真实场景或其他内容的现场或录制视频能够由显示器124显示以供用户观看，同时一个或多个视觉元素(诸如符号40)由显示器同时显示以供用户观看。所显示的场景和所显示的一个或多个视觉元素的组合向用户提供了虚拟场景。在这种情况下，遮阳板是不透明的并且可以用作显示器124。
159.中介现实是指为远程用户实现中介现实的目的而呈现中介现实，例如增强现实或虚拟现实。中介现实可以支持3dof、3dof 或6dof中的一项或多项。
160.真实空间中的用户具有由位置和取向定义的真实视点。位置为三维位置，并且取
向为三维取向。
161.在3dof中介现实的示例中，用户的真实视点(取向)确定虚拟用户在虚拟空间内的虚拟视点110。用户的取向控制虚拟用户的虚拟取向。用户的真实取向与虚拟用户的虚拟取向之间存在对应关系，使得真实取向的变化产生虚拟取向的相同变化。
162.虚拟用户的虚拟取向组合虚拟视场定义了虚拟视觉空间内的虚拟视觉场景。虚拟视觉场景作为所显示的内容20呈现给用户。在一些示例中，虚拟视觉场景可以附加地定义虚拟声音场景。
163.虚拟视觉场景是经由所显示的内容20向用户显示的虚拟视觉空间(可用内容)的一部分。虚拟声音场景是呈现给用户的虚拟声音空间的那部分。虚拟声音空间和虚拟视觉空间对应并形成组合的虚拟空间。虚拟声音空间和虚拟视觉空间对应于虚拟声音空间内的视点在虚拟视觉空间内具有等效的视点。在3dof中介现实中，用户的位置的变化不会改变虚拟用户的虚拟位置或虚拟取向。
164.在6dof和3dof 中介现实的示例中，用户的真实视点(位置和/或取向)确定了虚拟用户的虚拟空间内的虚拟视点(位置和/或取向)。该情况如针对3dof所描述的，此外，可以通过用户的位置的移动来改变渲染的虚拟声音场景和所显示的虚拟视觉场景。例如，用户的位置和虚拟用户的虚拟位置之间可能存在映射。用户的位置的变化会产生虚拟用户的虚拟位置的对应变化。虚拟用户的虚拟位置的变化改变了渲染的声音场景并且也改变了渲染的视觉场景。在6dof中，位置的变化可能源自用户的姿势的变化和/或用户通过步行或其他方式进行的平移。在3dof 中，位置的变化可能源于用户的姿势的变化。
165.在某些情况下，当虚拟用户的虚拟视点改变时，可能希望虚拟声音空间的一部分在虚拟空间中保持固定。
166.由放置方法102定义的视口锁定的声音相对于虚拟用户的虚拟视点110被固定，使得当用户改变他们的视点110时，声源50相对于用户的位置不会改变。
167.由放置方法101定义的内容锁定的声音在空间中被固定，使得当用户改变他们的视点110时，声源50相对于用户的位置51也改变。
168.图10a至图13e详细图示了装置10如何使用户70能够指示添加到虚拟声音空间中的由符号40表示的声源50(未示出)是视口锁定的还是内容锁定的示例。
169.图10a至图10e和图12a至图12e图示了在包括声源50的虚拟空间内具有视点110的虚拟用户。如前所述，在第一人称视角中介现实中，虚拟用户和用户之间存在对应关系，并且虚拟用户的视点和用户的视点之间存在对应关系。用户可以通过在佩戴头戴式装置122时改变用户头部的取向来改变视点110。这改变了虚拟视点110。
170.图11a至图11e图示了视口30内的所显示的内容20。所显示的内容20对应于图10a至图10e中相应的由虚拟视点110定义的虚拟视觉场景。
171.在图10a至图11e的示例中，手势60将要添加到虚拟空间的虚拟声音空间的声源50定义为内容锁定的声音。
172.在图11a中，用户70执行初始手势60以将表示声源50的符号40移动到视口30中的期望位置61。在图13a的示例中，用户抓住符号40并将其拖动到对应于所显示的内容20中的虚拟对象71的位置61。
173.在图11b至图11d中，虚拟用户的虚拟视点110改变，改变在视口30中可见的所显示
的内容20。手势60相对于虚拟视点110移动。符号40通过手势60相对于虚拟对象71保持静态。
174.在图11e中，手势终止。然后声源50被锁定到所显示的内容20。在图13e的示例中，声源50被锁定到虚拟对象71。
175.图13a至图13e图示了视口30内的所显示的内容20。所显示的内容20与由相应的图12a至图12e中的虚拟视点110定义的虚拟视觉场景相对应。
176.在图12a至图13e的示例中，手势60将要添加到虚拟空间的虚拟声音空间的声源50定义为视口锁定的声音。
177.在图13a中，用户执行初始手势60以将表示声源50的符号40移动到视口30中的期望位置61。在图13a的示例中，用户抓住符号40并将其拖动到视口30中的位置61。为了比较的目的，该位置与所显示的内容20中的虚拟对象71相对应。
178.在图13b至图13d中，虚拟用户的虚拟视点110改变，改变在视口30中可见的所显示的内容20。手势60随虚拟视点110移动，即随视口30而不是随所显示的内容20。符号40通过手势60相对于视口30/视点110保持静态。
179.在图13e中，手势被终止。然后将声源50锁定到用户的视点110和视口30。
180.声源50可以是内容锁定的或视口锁定的。内容锁定的声源50具有随着所显示的内容20移动的位置。例如，它可以随着视觉场景中相对于用户的移动而相对于用户移动，或者可以例如跟随在所显示的内容内移动的所显示的内容的对象或其他部分。视口锁定的声音的位置具有不随着所显示的内容在视口内移动而移动但相对于视口和用户保持静态的位置。例如，它可以相对于用户保持静止，而视觉场景相对于用户有变化。
181.呈现给用户的声音可以仅包括内容锁定的声音、仅视口锁定的声音或内容锁定的声音和视口锁定的声音的组合。
182.用户可以使用所描述的方法和装置来控制将声音呈现为内容锁定的声音还是视口锁定的声音。
183.可以使用相同或不同的音频输出设备将由放置方法101产生的内容锁定的声源50和由放置方法102产生的视口锁定的声源50呈现给用户。音频输出设备的示例包括耳机和扬声器。
184.当使用扬声器呈现内容锁定的声音时，随着用户的真实取向改变，当虚拟用户的视点改变时，声源50相对于扬声器保持静态。
185.当使用耳机呈现内容锁定的声音时，声源50的位置和/或取向在与虚拟用户的虚拟视点变化相反的意义上需要相对于耳机改变相同的量。声源50的位置和/或取向跟踪与虚拟用户的虚拟视点110的变化相反，使得声源50的位置和/或取向在虚拟空间中保持固定并且不随虚拟用户的虚拟视点110移动。
186.当使用耳机呈现视口锁定的声音时，当虚拟用户的视点改变时，声源50相对于耳机保持静态。
187.当使用扬声器呈现视口锁定的声音时，声源50的位置和/或取向需要以与虚拟用户的虚拟视点的变化相同的意义上相对于扬声器改变相同的量。声源50的位置和/或取向跟踪虚拟用户的虚拟视点110的变化，使得声源50的位置和/或取向在真实空间中保持固定并随着虚拟用户的虚拟视点110移动。
188.可以使用基于声道的音频，例如环绕声(例如5.1、7.1或22.2环绕声)或双耳音频，或者可以使用基于场景的音频，包括关于声场和声源的空间信息。
189.音频内容可以将空间音频编码为音频对象。示例包括但不限于mpeg-4和mpeg saoc。mpeg saoc是元数据辅助的空间音频的示例。
190.音频内容可以将空间音频编码为移动虚拟扬声器形式的音频对象。
191.音频内容可以将空间音频编码为具有参数侧信息或元数据的音频信号。例如，音频信号可以是一阶ambisonics(foa)或其特殊情况b格式、高阶ambisonics(hoa)信号或中侧立体声。对于这样的音频信号，利用音频信号和参数元数据的合成被用于合成音频场景，使得创建期望的空间感知。
192.参数元数据可以通过不同的技术产生。例如，可以使用诺基亚的空间音频捕获(ozo audio)或定向音频编码(dirac)。两者都捕获声场并使用参数元数据表示它。参数元数据例如可以包括：指示每频带方向的方向参数；指示每频带距离的距离参数；指示每频带的扩散与总能量比的能量分裂参数。每个时频图块(tile)可以被视为声源，对于直接版本，方向参数控制基于向量的幅度平移，并且对于间接(去相关)版本，能量分裂参数控制差分增益。
193.目前正在开发的3gpp ivas(3gpp，沉浸式语音和音频服务)有望支持新的沉浸式语音和音频服务，例如中介现实。
194.在一些但不一定是所有示例中，幅度平移技术可用于创建或定位声音对象。例如，已知的基于向量的幅度平移(vbap)方法可用于定位声源。
195.声音对象可以通过将对象的直接形式的一部分(衰减和定向过滤的直接声音)与对象的间接形式(例如，定位的定向早期反射和/或漫反射混响)混合来重新定位。
196.图14图示了方法300的示例，包括：
197.在框302，在视口内显示内容并在视口内显示表示声音的符号；
198.在框304，检测一个或多个手势，该一个或多个手势将所显示的符号放置在所显示的内容中；
199.在框306，消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声音锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声音锁定到不随着所显示的内容在视口内移动而移动的位置，其中第一放置方法包括针对符号的相对于视口的手势，该手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
200.图15a至图15c图示了指示要添加到所显示的内容20的声源50是内容锁定的还是视口锁定的备选示例方法。
201.在图15a中，用户执行初始手势60以将表示声源50的符号40移动到视口30中的期望位置61。
202.在图15b中，提示150显示在视口30中，邀请用户进行指示要添加到所显示的内容20的声源50是内容锁定的声音还是视口锁定的声音的输入。在图15b的示例中，提示是可选图标152的形式，该图标152位于所显示的内容20内靠近声源50的期望位置61的位置。
203.在图15c中，用户进行指示声源50是内容锁定的声音还是视口锁定的声音的输入154。在图15c的示例中，通过选择由提示150显示的可选图标152中的一个来进行用户输入。
然后声源50取决于输入154被定义为内容锁定的或视口锁定的。
204.当所显示的内容20在视口30中是静态的时，图15a至图15c中所示的方法特别有用。在这种情况下，在没有进一步输入的情况下不可能消除第一放置方法与第二放置方法101、102之间的歧义。当所有所显示的内容20没有正在相对于视口30移动时，在没有进一步输入的情况下，将符号40相对于视口30内的所显示的内容20保持静态(放置方法101)并且将符号40相对于视口30保持静态(放置方法102)不能被消除歧义。这是因为在视频是静态的同时跟随视觉对象与保持静止相同。图15a至图15c中所示的方法提供了能够消除歧义的进一步输入。它提示用户通过选择用户希望将哪个效果(视口锁定的声音或内容锁定的声音)用于添加的声源50来提供显式的消歧。
205.图16图示了用于确定是否提供提示150的方法310。
206.在框312，确定所显示的内容20在剩余的持续时间内是否是静态的。如果所显示的内容20在剩余的时间持续时间内是静态的，则方法移动到框312。如果所显示的内容20在剩余的时间持续时间内不是静态的，则方法移动到框316。
207.在框314，声源50被添加到期望位置61(内容锁定的和视口锁定的是相同的)。
208.在框316，确定所显示的内容20在当前时间是否是静态的。
209.如果确定所显示的内容20在当前时间是静态的，则在框318生成提示150。
210.如果确定显示的内容20在当前时间不是静态的，则可以发生如前所述的消歧。
211.虽然方法310被描述为在消歧的过程之前发生，但在其他示例中，它可以在消歧的过程之后发生，如果它失败的话。
212.图17a图示了控制器400的示例。这样的控制器可以用于控制装置10的任何或所有功能的性能和/或执行任何先前描述的方法。
213.控制器400的实现可以是控制器电路系统。控制器400可以单独以硬件实现，具有仅包括固件的软件的某些方面或者可以是硬件和软件(包括固件)的组合。
214.如图17a中所示，控制器400可以使用启用硬件功能的指令来实现，例如，通过使用通用或专用处理器402中的计算机程序412的可执行指令，该可执行指令可以存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器402执行。
215.处理器402被配置为从存储器410读取和向存储器410写入。处理器402还可以包括输出接口和输入接口，数据和/或命令经由输出接口由处理器402输出，并且数据和/或命令经由输入接口被输入到处理器402。
216.存储器410存储包括计算机程序指令(计算机程序代码)的计算机程序412，计算机程序412在加载到处理器402中时控制装置10的操作。计算机程序412的计算机程序指令提供使装置能够执行图1至图15所示方法的逻辑和例程。处理器402通过读取存储器410能够加载和执行计算机程序412。
217.因此装置10包括：
218.至少一个处理器402；以及
219.至少一个存储器410，包括计算机程序代码
220.至少一个存储器410和计算机程序代码被配置为与至少一个处理器402一起使装置10至少执行：
221.在视口内显示内容；
222.在视口内显示表示声音的符号；
223.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
224.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声音锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声音锁定到不随着所显示的内容在视口内移动而移动的位置，
225.其中第一放置方法包括针对符号的相对于视口的手势，该手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
226.因此装置10可以包括计算机程序部件，用于
227.在视口内显示内容；
228.在视口内显示表示声音的符号；
229.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
230.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声音锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声音锁定到不随着所显示的内容在视口内移动而移动的位置，
231.其中第一放置方法包括针对符号的相对于视口的手势，该手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
232.如图17b所示，计算机程序412可以经由任何合适的递送机制420到达装置10。传递机制420可以是例如机器可读介质、计算机可读介质、非瞬态计算机可读存储介质、计算机程序产品、存储器设备、记录介质(诸如光盘只读存储器(cd-rom)或数字多功能光盘(dvd))或固态存储器、包括或有形体现计算机程序412的制品。传递机制可以是被配置为可靠地传送计算机程序412的信号。装置10可以将计算机程序412作为计算机数据信号传播或发送。
233.在至少一些示例中，计算机程序指令被配置为使装置至少执行以下操作：
234.在视口内显示内容；
235.在视口内显示表示声音的符号；
236.检测一个或多个手势，一个或多个手势将所显示的符号放置在所显示的内容中；
237.消除针对符号执行的第一放置方法与针对符号执行的、不同于第一放置方法的第二放置方法之间的歧义，第一放置方法将声音锁定到随着所显示的内容在视口内移动而移动的位置，第二放置方法将声音锁定到不随着所显示的内容在视口内移动而移动的位置，
238.其中第一放置方法包括针对符号的相对于视口的手势，该手势指示符号相对于视口、使第一放置方法与第二放置方法消除歧义的移动。
239.计算机程序指令可以包括在计算机程序、非瞬态计算机可读介质、计算机程序产品、机器可读介质中。在一些但不一定是所有示例中，计算机程序指令可以分布在多于一个的计算机程序上。
240.尽管存储器410被图示为单个组件/电路系统，但它可以被实现为一个或多个分离的组件/电路系统，其中一些或全部组件/电路系统可以是集成的/可移除的和/或可以提供永久/半永久/动态/高速缓存的存储装置。
241.尽管处理器402被图示为单个组件/电路系统，但它可以被实现为一个或多个分离的组件/电路系统，其中一些或全部组件/电路系统可以是集成的/可移除的。处理器402可以是单核或多核处理器。
242.对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应理解为不仅包括具有不同架构(诸如单/多处理器架构和顺序(von neumann)/并行架构)的计算机，但也包括专用电路，诸如现场可编程门阵列(fpga)、专用电路(asic)、信号处理设备和其他处理电路系统。对计算机程序、指令、代码等的引用应理解为涵盖用于可编程处理器或固件的软件，诸如例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备的配置设置、门阵列或可编程逻辑器件等。
243.如在本技术中使用的，术语“电路系统”可以指以下一项或多项或全部：
244.(a)纯硬件电路系统实现(诸如仅在模拟和/或数字电路系统中的实现)和
245.(b)硬件电路和软件的组合，诸如(如适用)：
246.(i)(多个)模拟和/或数字硬件电路与软件/固件的组合，以及
247.(ii)具有软件的(多个)硬件处理器的任何部分(包括(多个)数字信号处理器)、软件和(多个)存储器，它们一起工作以使装置(诸如移动电话或服务器)执行各种功能和
248.(c)(多个)硬件电路和/或(多个)处理器，诸如(多个)微处理器或(多个)微处理器的一部分，需要软件(例如固件)进行操作，但在操作不需要软件时软件可能不存在。
249.电路系统的该定义应用于本技术中该术语的所有使用，包括在任何权利要求中。作为另外的示例，如在本技术中使用的，术语电路系统还涵盖仅硬件电路或处理器及其(或它们的)随附软件和/或固件的实现。例如，如果适用于特定权利要求元素，术语电路系统还涵盖用于手持便携式设备的基带集成电路或服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。
250.图中所示的框可以表示方法中的步骤和/或计算机程序412中的代码段。对框的特定顺序的说明并不一定意味着框具有所需的或优选的顺序，并且框的顺序和布置可以改变。此外，可以省略一些框。
251.在结构特征已经被描述的情况下，它可以被用于执行结构特征的一个或多个功能的部件代替，无论该功能或那些功能是否被显式或隐式地描述。
252.上述示例将应用作为以下的启用组件：
253.汽车系统；电信系统；电子系统，包括消费电子产品；分布式计算系统；用于生成或呈现媒体内容的媒体系统，包括音频、视觉和视听内容以及混合、中介、虚拟和/或增强现实；个人系统，包括个人健康系统或个人健身系统；导航系统；用户接口也称为人机接口；网络，包括蜂窝、非蜂窝和光网络；自组织网络；互联网；物联网；虚拟化网络；以及相关的软件和服务。
254.本文档中使用的术语“包括”具有包容性而非排他性。即任何提及包括y的x指示x可能仅包括一个y或可能包括多于一个的y。如果旨在使用具有排他意义的“包括”，则将在上下文中通过提及“仅包含一个
……”
或使用“由
……
组成”。
255.在本描述中，参考了各种示例。与示例相关的特征或功能的描述指示那些特征或功能存在于该示例中。在文本中使用术语“示例”或“例如”或“可以”或“可能”表示，无论是否明确说明，这些特征或功能至少存在于所描述的示例中，无论是否描述为示例，并且它们可以但不一定存在于某些或所有其他示例中。因此，“示例”、“例如”、“可以”或“可能”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性或类的属性或包括类中的一
些但不是所有实例的类的子类的属性。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下在该另一示例中用作工作组合的一部分，但不一定必须在该另一示例中使用。
256.尽管在前面的段落中已经参考各种示例描述了实施例，但是应当理解，可以在不脱离权利要求的范围的情况下对给出的示例进行修改。
257.前面描述中描述的特征可以以除了上面明确描述的组合之外的组合使用。
258.尽管已经参考某些特征描述了功能，但是这些功能可以由其他特征执行，无论是否描述。
259.尽管已经参考某些实施例描述了特征，但是那些特征也可以存在于其他实施例中，无论是否被描述。
260.本文档中使用的术语“一个”或“该”具有包容性而非排他性的含义。即任何提及包含一个/该y的x指示x可以仅包括一个y或可以包含多于一个y，除非上下文清楚地指示相反。如果旨在使用具有排他含义的“一个”或“该”，则将在上下文中明确说明。在某些情况下，可以使用“至少一个”或“一个或多个”来强调包容性的含义，但不应将这些术语的缺失视为推断和排他性的含义。
261.权利要求中的特征(或特征的组合)的存在是对该特征或特征的组合本身的引用，以及对实现基本相同的技术效果的特征(等效特征)的引用。等效特征包括例如为变体并且以基本相同的方式实现基本相同的结果的特征。等效特征包括例如以基本上相同的方式执行基本相同的功能以实现基本相同的结果的特征。
262.在本说明书中，参考了各种示例，使用形容词或形容词短语来描述示例的特性。与示例相关的特性的这样的描述指示该特性在一些示例中完全如所描述的那样存在并且在其他示例中基本上如所描述的那样存在。
263.在文本中使用术语“示例”或“例如”或“可以”或“可能”表示，无论是否明确说明，这些特征或功能至少存在于所描述的示例中，无论是否描述为示例，并且它们可以但不一定存在于某些或所有其他示例中。因此，“示例”、“例如”、“可以”或“可能”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性或类的属性或包括类中的一些但不是所有实例的类的子类的属性。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下在该另一示例中用作工作组合的一部分，但不一定必须在该另一示例中使用。
264.尽管在前述说明书中努力引起人们对被认为很重要的那些特征的注意，但应当理解，无论是否强调，申请人都可以经由权利要求来就上文提及和/或在附图中显示的任何可专利的特征或特征的组合来寻求保护。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：增强型多连接通信的缓冲区管理技术的制作方法

在内容内放置声音的制作方法

相关文献

最热文献