音频检测和字幕呈现的制作方法

2023-02-01 21:46:56 来源：中国专利 TAG：

音频检测和字幕呈现
优先权要求
1.本技术要求于2020年5月28日提交的美国专利申请序列号第16/886,002号的优先权，该美国专利申请通过引用整体并入本文。

背景技术：

2.消费电子设备例如智能电话和平板设备通常实现了音频播放功能。被配置成使用音频播放功能的应用和设备功能可以请求访问音频播放功能。然后，设备每次可以对一个请求的应用或设备功能准许访问音频播放功能。
附图说明
3.为了容易识别对任何特定元件或动作的讨论，附图标记中的一个或多个最高位数字是指该元件被首次引入时所在的图号。
4.图1是根据一些示例实施方式的可以在其中部署本公开内容的联网环境的图形表示。
5.图2是根据一些示例实施方式的在数据库中维持的数据结构的图形表示。
6.图3是示出根据示例实施方式的示例字幕控制系统的框图300。
7.图4示出了根据本公开内容的用于控制音频播放的示例系统的操作。
8.图5是根据一些示例实施方式的处理环境的图形表示。
9.图6是示出根据一些示例实施方式的可以在其中实现本公开内容的软件架构的框图。
10.图7是根据一些示例实施方式的呈计算机系统形式的机器的图形表示，在该机器中可以执行一组指令以使机器执行所讨论的方法中的任何一种或更多种。
具体实施方式
11.下面的描述包括实施本公开内容的说明性实施方式的系统、方法、技术、指令序列和计算机器程序产品。在下面的描述中，出于说明的目的，阐述了许多具体细节，以提供对本发明主题的各种实施方式的理解。然而，对于本领域技术人员而言将明显的是，可以在没有这些具体细节的情况下实践本发明主题的实施方式。通常，不必详细示出公知的指令实例、协议、结构和技术。
12.消费电子设备例如智能电话和平板设备通常实现了音频播放功能。被配置成使用音频播放功能的应用和设备功能(下文称为“应用”)可以请求访问音频播放功能。然后，设备每次可以对一个请求应用准许访问音频播放功能。
13.在这样的设备同时执行多于一个应用或设备功能并且每个应用或设备功能都请求访问音频播放功能的情况下，则设备可能对非期待或非期望的请求应用或设备功能准许访问。
14.在准许控制音频播放功能时经历了非期待或非期望行为的用户可能不被鼓励完
全使用某些应用。
15.在通过应用和设备功能中的一个生成的音频信号对于用户而言不可理解的情况下或者在期望向音频信号补充信息的情况下，额外的挑战会出现。
16.许多类别的消费电子设备并入有能够根据视频信号使显示屏幕再现的显示设备。针对这样的设备的许多应用固有地在音频信号之外还生成视频信号。已知与音频信号并行地针对视觉再现提供元数据：所述元数据可以是例如多媒体内容中的歌曲的歌词、对话到不同语言的翻译、或动作的隐藏字幕音频描述。元数据可以与多媒体内容的视频部分同步，使得例如歌曲的歌词被布置成大约在同一多媒体内容的音频部分中唱出所述歌曲的歌词时出现在用户显示器上。
17.此外，即使在音频信号由应用生成时，音频播放也并不总是期望的。对于用户而言，消费没有音频播放的多媒体内容以避免打扰所述用户周围环境中的其他人并不罕见。预期这样的操作，已知要播放具有叠加字幕的多媒体内容。
18.本公开内容的实施方式解决了这些问题和其他问题。
19.目标是操作对访问音频播放功能进行管理的更加方便的策略。进一步的目标是确保对元数据的呈现进行管理的策略与对访问音频播放功能进行管理的策略有效地合作。
20.在这样的设备同时执行多于一个应用的情况下，每个应用请求访问音频播放功能，则设备可能以非期待或非期望的方式准许一个或更多个请求应用访问。默认情况下，来自最近实例化的应用的音频信号可以排他性地应用于音频播放功能。由另一应用生成的任何音频信号可以被静音、停止或暂停，以使得来自最近实例化的应用的音频信号能够不被中断地播放。
21.在准许控制音频播放功能时经历了非期待或非期望行为的用户可能不被鼓励完全使用某些应用。例如，用户可能正在播放来自音乐流应用的音乐内容，并且然后打开打算阅读新闻内容的新闻应用，但是，针对由新闻应用呈现的多媒体内容的音频信号可能优先于来自音乐流应用的音频信号给出。
22.本公开内容的实施方式提供了用于确定来自多个应用中的哪个音频信号(或哪些音频信号)被应用于设备中的音频播放功能的方法，所述多个应用包括第一应用和第二应用。第一应用生成第一音频信号，而第二应用生成第二音频信号。
23.在某些实施方式中，第一应用生成包括视频数据的多媒体数据，第一音频信号与视频数据相关联(以及可选地与视频数据同步)。访问策略可以要求当从第二应用接收到第二音频信号时，不再将第一音频信号应用于音频播放功能，即使当来自第一应用的视频数据在设备的显示器上正在再现。
24.在某些实施方式中，第一应用还生成与第一音频信号相关联的元数据。元数据的示例包括字幕、唱词字幕、隐藏字幕/音频描述(“cc”)、翻译等。元数据可以方便地存储在诸如文本格式字幕(srt)文件或视频定时文本(vtt)文件的字幕文件中。除非上下文另有指示，否则本公开内容中使用的术语“字幕”通常是指可以文本地或以其他方式视觉地呈现的、提供针对视频片段的音轨的视觉替选的元数据，例如字幕、唱词字幕和cc。因此，“字幕”不仅是人物、叙述者或其他声音参与者的口语词汇，而且可以附加地是对对白的补充，所述对白包括对需要描述的歌曲的歌词(和分句)、背景噪声、电话铃声以及其他音频提示进行描述的音轨的其他相关部分。字幕同样可以是所使用的词汇的翻译或者适应于用户偏好
(例如，通过移除或替换不敬的言语)的音轨版本。
25.在某些实施方式中，用户可以在无音频或声音的情况下消费由第一应用再现的内容并且特别是视频，并且字幕的呈现增加了内容的整体享受。当在没有音频的情况下消费的这样的内容确实包括诸如字幕的元数据时，仅在由用户具体要求时才呈现字幕。即，为了查看字幕，用户不得不停止内容的播放、浏览若干个菜单、激活字幕的呈现并且然后返回查看带有字幕的内容。这些步骤给用户带来负担，并且使用户体验缺乏无缝感和愉悦感。另外，由于这种额外的负担，用户通常未能访问字幕，这导致专用于提供未消费的字幕的资源浪费。
26.在某些实施方式中，设备可以例如通过将设备的字幕呈现设置置于启用状态来默认启用字幕呈现。然后，当来自带字幕的视频内容的音频播放优于字幕呈现时，撤销该字幕呈现设置的负担会落在用户上。
27.可以限定访问策略，该访问策略指示当从第二应用接收到第二音频信号(即，第二音频输出)时，第一音频信号(即，第一应用的音频输出)不再应用于音频播放功能。访问策略还可以指示来自第一应用的元数据将呈现在设备的屏幕上，而第二音频信号被播放。因此，第一应用可以生成(例如)用于显示的视频数据和字幕，而第二应用生成用于通过音频播放功能播放的音频数据。
28.因此，所公开的实施方式通过提供字幕控制系统提升了使用电子设备的效率，该字幕控制系统向用户提供高效且用户易用的接口以用于在由第二不同的应用播放音频/声音内容时提供用以伴随从第一应用播放的内容的字幕内容。
29.根据所公开的实施方式，通过基于由第二应用进行的音频/声音内容的播放自动控制字幕的呈现(在可用于由第一应用呈现的给定视频时)，字幕控制系统还提高了使用电子设备的效率。特别地，根据所公开的实施方式，提供了简单且直接的用户接口，使得给定用户能够查看来自第一应用的视频内容的可视化构成要素，同时收听由第二应用再现的内容的音频构成要素。在存在合适的元数据的情况下，向给定用户呈现针对所述视频内容的字幕。
30.以这种方式，所公开的实施方式通过使用户在执行具有用于播放的音频内容的多于一个应用时所经历的复杂性降低来提高使用电子设备的效率。在针对播放内容存在字幕的情况下，字幕呈现是自动触发的，从而减少用户不得不浏览的屏幕和界面的数目，以确保来自多个应用的内容播放的期望平衡。这减少了使用设备完成任务所需的设备资源(例如，处理器周期、存储器和电力使用)。
31.在一些实施方式中，基于音量控件作出是否向观看视频的给定用户呈现字幕的决定。即，所公开的实施方式无缝地且无需用户输入地基于设备的音量设置来控制是否呈现针对正在消费的视频的字幕。设备音量控件包括用于增加或降低音量的接口(即，音量“增大”/“减小”控件)并且可以设置有专用的静音开关：这些控件可以以硬件和/或以软件实现。
32.音量控制活动可以用于推断替选地用户播放需求。因此，用户按压音量“增大”按钮可以被解释为触发停止字幕播放和/或将来自第二应用的音频内容源切换至来自第一应用的音频内容源。静音开关的“静音”状态可以用于推断设备的字幕呈现设置应当处于启用状态，但是在执行第一应用时按压静音开关可以如下不同地解释：单次按压可以指示用户
期望字幕而无需更改来自第二应用的音频播放，而两次按压或比预定时间——2秒持续更长时间的按压可以例如使来自所有应用的音频播放静音。
33.在某些实施方式中，设备可以对输入设备的致动进行检测，输入设备的致动可以被解释为用于覆盖默认动作(即，由访问策略默认要求的动作)的请求。例如，在某些实施方式中，设备可以在播放来自第一应用的音频内容和观看由第二应用再现的给定视频时经由音量“增大”/“减小”控件监测用户输入，以确定用户播放需求是否改变。鉴于默认动作会使得来自新打开的应用的音频信号优先于先前执行的应用的音频信号，因此音量按钮的致动可以触发以下替选的操作：针对先前执行的应用的音频信号继续访问音频播放功能，并且新打开的应用执行向显示功能输出视频数据和元数据，而不向音频播放功能输出相对应的音频信号。因此，用户可以继续收听来自先前执行的音乐应用的音乐，同时在无声/字幕模式下执行消息收发客户端应用。
34.以这种方式，所公开的实施方式通过减少用户不得不浏览用以查看(或停止查看)针对给定视频的字幕的屏幕和界面的数目来提高使用电子设备的效率。这减少了使用设备完成任务所需的设备资源(例如，处理器周期、存储器和电力使用)。
35.在某些实施方式中，请求访问音频播放功能的应用中的至少一个是消息收发客户端应用104。
36.图1是示出用于通过网络来交换数据(例如消息和相关联的内容)的示例消息收发系统100的框图。消息收发系统100包括客户端设备102的多个实例，每个实例托管多个应用，包括消息收发客户端应用104。每个消息收发客户端应用104经由网络106(例如，因特网)通信地耦接至消息收发客户端应用104的其他实例和消息收发服务器系统108。
37.消息收发客户端应用104能够经由网络106与另一消息收发客户端应用104以及与消息收发服务器系统108通信和交换数据。在消息收发客户端应用104之间以及在消息收发客户端应用104与消息收发服务器系统108之间交换的数据包括功能(例如，激活功能的命令)以及有效载荷数据(例如，文本、音频、视频或其他多媒体数据)。
38.消息收发服务器系统108经由网络106向特定消息收发客户端应用104提供服务器侧功能。虽然消息收发系统100的某些功能在本文中被描述为由消息收发客户端应用104或由消息收发服务器系统108执行，但是某些功能的位置在消息收发客户端应用104或消息收发服务器系统108内是设计选择。例如，在技术上优选的是：可以最初将某些技术和功能部署在消息收发服务器系统108内，但是稍后将该技术和功能迁移至其中客户端设备102具有足够处理能力的消息收发客户端应用104。
39.消息收发服务器系统108支持向消息收发客户端应用104提供的各种服务和操作。这样的操作包括向消息收发客户端应用104发送数据、从消息收发客户端应用104接收数据以及对由消息收发客户端应用104生成的数据进行处理。作为示例，该数据可以包括：消息内容、客户端设备信息、地理位置信息、媒体注释和叠加、消息内容持久性条件、社交网络信息、纹理图、虚拟效果和实况事件信息。消息收发系统100内的数据交换通过经由消息收发客户端应用104的用户接口(ui)可用的功能来激活和控制。
40.现在具体地转至消息收发服务器系统108，应用程序接口(api)服务器110耦接至应用服务器112并向应用服务器112提供编程接口。应用服务器112通信地耦接至数据库服务器118，这有利于访问其中存储有与由应用服务器112处理的消息相关联的数据的数据库
120。
41.应用程序接口(api)服务器110在客户端设备102与应用服务器112之间接收和发送消息数据(例如，命令和消息有效载荷)。特别地，应用程序接口(api)服务器110提供一组接口(例如，例程和协议)，消息收发客户端应用104可以调用或查询这组接口以激活应用服务器112的功能。应用程序接口(api)服务器110公开由应用服务器112支持的各种功能，包括帐户注册、登录功能、经由应用服务器112将消息从特定消息收发客户端应用104发送至另一消息收发客户端应用104、将媒体文件(例如，图像或视频)从消息收发客户端应用104发送至消息收发服务器应用114、可由另一消息收发客户端应用104访问、媒体数据的集合(例如，故事)的设置、检索客户端设备102的用户的朋友列表、检索这样的集合、检索消息和内容、向社交图添加朋友以及从社交图删除朋友、定位社交图内的朋友、以及打开应用事件(例如，与消息收发客户端应用104有关的应用事件)。
42.应用服务器112托管多个应用和子系统，包括消息收发服务器应用114、位置共享系统116、社交网络系统122和字幕控制系统124。消息收发服务器应用114实现多个消息处理技术和功能，特别是与从消息收发客户端应用104的多个实例接收到的消息中包括的内容(例如，文本和多媒体内容)的聚合和其他处理有关的消息处理技术和功能。如将进一步详细描述的，来自多个源的文本和媒体内容可以聚合成内容集合(例如，被称为故事或图库)。然后，由消息收发服务器应用114使这些集合对消息收发客户端应用104可用。鉴于用于这样的处理的硬件要求，消息收发服务器应用114还可以在服务器侧执行其他处理器和存储器密集型的数据处理。
43.应用服务器112还包括位置共享系统116，位置共享系统116专用于通常相对于在消息收发服务器应用114处的消息的有效载荷内接收的图像或视频执行各种图像处理操作。
44.应用服务器112通信地耦接至数据库服务器118，这有利于访问其中存储有与由消息收发服务器应用114处理的消息相关联的数据的数据库120。
45.社交网络系统122支持各种社交联网功能服务并且使这些功能和服务对消息收发服务器应用114可用。为此，社交网络系统122维护并访问数据库120内的实体图206(如图2所示)。社交网络系统122支持的功能和服务的示例包括识别特定用户与之有关系或“关注”其的消息收发系统100的其他用户，以及还识别特定用户的兴趣和其他实体。
46.社交网络系统122支持的功能和服务的示例还包括生成基于地理的图形用户接口(gui)。该接口在本文可以被称为“图gui”，并且可以与社交媒体应用结合使用。在一些实施方式中，图gui可以包括使用每个相应用户的头像对用户和用户的朋友在由社交媒体应用访问的社交网络图中的至少近似相应位置的表示。
47.社交网络系统122可以接收用户授权以使用或避免使用用户的位置信息。在一些实施方式中，社交网络系统122同样可以选择经由图gui与其他用户共享或不共享用户的位置。在一些情况下，无论用户是否与其他用户共享他或她的位置，都可以在用户的计算设备的显示屏幕上向用户显示用户的头像。
48.在一些实施方式中，用户可以从图gui内关闭或开启用户的位置共享(例如，经由结合图gui呈现的菜单所访问的设置)。在一些实施方式中，社交网络系统122仍然可以在用户关闭位置共享之后在用户自己的设备上的图gui上的用户当前位置处呈现用户的头像。
该模式在本文被称为“假象(ghost)模式”。在一些实施方式中，社交网络系统122可以在用户的计算设备的显示屏幕上呈现图标以指示用户的位置当前没有与其他用户共享。
49.注意，本文描述的假象模式功能可以与关闭移动用户设备上的定位服务不同。因此，在一些实施方式中，当开启假象模式时，设备定位服务仍然在运行，使得仍然可以确定用户的位置。
50.在一些实施方式中，当在用户在先前共享他或她的位置并且用户的头像显示在图上之后开启假象模式时，用户的头像从其他用户的图消失。在一些实施方式中，当处于假象模式下时，用户仍然可以在图上看到选择与用户共享其位置的任何人。在一些实施方式中，还可以向用户提供指定谁将看到他们的位置以及以何种间隔尺寸(granularity)的选项。可以由用户选择的间隔尺寸选项的示例包括“精确”选项(例如，用户的位置将如来自用户的计算设备的位置信息可以提供的那样准确地呈现在图上)；以及基于来自用户计算设备的位置信息在预定区域(例如，城市)内的随机位置。
51.在一些实施方式中，当用户(或用户组)选择随机位置间隔尺寸选项时，用户的头像将显示在图gui中用户当前位置的预定距离内(例如，在预定区域内，如在用户所在城市)，并且如果用户不离开该区域，则用户头像的位置将不会改变。在一些实施方式中，用户的头像可以包括指定用户所在的地理区域(例如，“纽约市”)的标签。
52.在一些实施方式中，用户可以选择将向其显示他/她的位置的其他用户组，并且可以针对不同的相应组或不同的相应个人指定不同的显示属性。在一个示例中，观众选项包括：“最好的朋友”、“朋友”和“自定义”(自定义是人们个人级别的白名单)。在该示例中，如果选择“朋友”，则添加至用户朋友列表中的所有新人都将自动能够看到他们的位置。如果他们已经与用户共享，他们的头像将出现在用户的图上。
53.在一些实施方式中，当查看图gui时，用户能够在图上看到与用户共享他们的位置的他/她的所有朋友的位置，每个朋友由他们各自的头像表示。在一些实施方式中，如果朋友没有头像，则可以使用在朋友的相对应位置处显示的个人资料图片或默认图标来表示朋友。
54.在一些实施方式中，用户可以经由菜单例如转盘在图上的朋友之间进行选择。在一些实施方式中，选择特定朋友会自动将图视图集中在该朋友的头像上。本公开内容的实施方式还可以允许用户从图gui内与用户的朋友采取各种动作。例如，系统可以允许用户在不离开图的情况下与用户的朋友聊天。在一个特定示例中，用户可以从结合图gui呈现的菜单中选择聊天图标以发起聊天会话。
55.字幕控制系统124基于给定用户正在消费的内容的音量控件来控制针对所述内容的字幕的自动呈现。例如，字幕控制系统124呈现允许给定用户观看视频内容(“多个视频”)的简单且直接的图形用户接口。给定用户普遍可以通过将字幕呈现设置切换成启用状态来向视频添加字幕。替选地，用户可以通过将诸如文本格式字幕(srt)文件或视频定时文本(vtt)文件的字幕文件拖动至给定视频的图标或表示上以及/或者通过选择针对给定视频的上传选项来选择性地要求为一个或更多个视频内容添加字幕。一旦添加了字幕，当在消息收发应用上共享视频时，字幕被自动地处理并与给定视频相关联并且使得可用于供其他用户消费。
56.在一些实施方式中，字幕控制系统124基于设备的音量设置控制是否呈现针对正
在消费的给定视频的字幕。特别地，字幕控制系统124确定设备的专用物理静音开关当前是否处于启用位置(意指设备的音频功能被静音)。响应于确定物理静音开关处于启用位置，字幕控制系统124自动地确定字幕文件是否与正在消费的视频相关联，并且如果字幕文件与正在消费的视频相关联，则在设备上自动地呈现字幕和正在消费的视频。此外，字幕控制系统124确定设备的字幕呈现设置当前是否处于默认呈现字幕的状态。响应于确定默认字幕设置处于启用位置，字幕控制系统124在设备上自动地呈现针对用户消费的任何视频的字幕。
57.注意到，虽然图1中的字幕控制系统124被描述为消息收发服务器系统108的部件，但是可以在客户端设备102的消息收发客户端应用104中执行字幕控制系统124的功能中的部分或全部功能。
58.图2是示出根据某些示例实施方式的可以存储在消息收发服务器系统108的数据库120中的数据结构200的示意图。虽然数据库120的内容被示出为包括多个表，但是应当理解，数据可以以其他类型的数据结构存储(例如，作为面向对象的数据库)。
59.数据库120包括存储在消息表212内的消息数据。实体表202存储实体数据，包括实体图206。在实体表202内针对其维护记录的实体可以包括个人(例如，用户)、公司实体、组织、对象、地点、事件等。不管类型如何，关于其消息收发服务器系统108存储数据的任何实体都可以是识别的实体。每个实体都被提供有唯一标识符以及实体类型标识符(未示出)。
60.实体图206还存储关于实体之间的关系和关联的信息。这样的关系可以仅仅例如是社会的、职业的(例如，在共同的公司或组织工作)、基于兴趣的或者基于活动的。
61.消息表212可以存储用户与一个或更多个朋友或实体之间的对话集合。消息表212可以包括每个对话的各种属性，例如参与者列表、对话的规模(例如，用户的数目和/或消息的数目)、对话的聊天颜色、针对对话的唯一标识符以及任何其他的对话相关特征。
62.数据库120还在注释表210中存储呈过滤器(filter)的示例形式的注释数据。数据库120还存储在注释表210中接收到的注释内容。针对其在注释表210内存储数据的过滤器与视频(针对其在视频表214中存储数据)和/或图像(针对其在图像表208中存储数据)相关联并且应用于所述视频和/或图像。在一个示例中，过滤器是在向接收者用户呈现期间被显示为覆盖在图像或视频上的覆盖。过滤器可以是各种类型的，包括当发送方用户正在编写消息时由消息收发客户端应用104向发送方用户呈现的来自过滤器的库中的用户选择的过滤器。其他类型的过滤器包括地理位置过滤器(也称为地理过滤器)，其可以基于地理定位被呈现给发送方用户。例如，可以基于由客户端设备102的全球定位系统(gps)单元确定的地理位置信息，由消息收发客户端应用104在ui内呈现特定于附近或特殊位置的地理位置过滤器。另一种类型的过滤器是数据过滤器，其可以由消息收发客户端应用104基于在消息创建过程期间由客户端设备102收集的其他输入或信息选择性地呈现给发送方用户。数据过滤器的示例包括特定位置处的当前温度、发送方用户行进的当前速度、客户端设备102的电池寿命或当前时间。
63.如上所述，视频表214存储视频数据，在一个实施方式中，该视频数据与针对其在消息表212内维持记录的消息相关联。类似地，图像表208存储与针对其在实体表202中存储消息数据的消息相关联的图像数据。实体表202可以将来自注释表210的各种注释与存储在图像表208和视频表214中的各种图像和视频相关联。
64.字幕216存储针对可用于由消息收发客户端应用104消费的一个或更多个视频的字幕。也就是说，字幕216存储字幕文件(例如，srt文件和/或vtt文件)以及到字幕文件的相关联视频的链接。在一些实现方式中，针对给定视频接收到的字幕以两种格式(例如，srt和vtt)存储。特别地，响应于给定用户上传第一格式的字幕文件(例如，srt文件)，第一格式的字幕文件与相对应的视频关联地存储。此外，第一格式的字幕文件自动转换成第二格式的字幕文件(例如，vtt文件)并且第二格式的字幕文件还与第二格式的视频关联地存储。对于针对给定视频的字幕的给定请求可以指明要在其上呈现字幕的设备的类型，并且检索和返回第一格式或第二格式的相对应字幕以与视频一起呈现。
65.当启用针对正在播放或呈现的给定视频的字幕(例如，由字幕控制系统124作出自动地呈现字幕的决定)时，针对给定视频对字幕216进行访问和检索(例如，通过获得正在消费的给定视频的标题或标识符并且在字幕216中搜索链接至给定视频的标题或标识符的任何字幕)。然后，从字幕216中检索到的链接至正在播放的给定视频的字幕与正在播放的给定视频一起呈现。
66.故事表204存储关于消息和相关联的图像、视频或音频数据的集合的数据，这些数据被编译成集合(例如，故事或图库)。特定集合的创建可以由特定用户(例如，针对其在实体表202中维持记录的每个用户)发起。用户可以以已由该用户创建和发送/广播的内容的集合的形式创建“个人故事”。为此，消息收发客户端应用104的ui可以包括用户可选择的图标，以使得发送方用户能够将特定内容添加至他或她的个人故事。由应用播放的视频内容可以包括这样的故事。
67.集合还可以构成“实况故事”，其是来自多个用户的内容的集合，该集合是手动、自动或使用手动和自动技术的组合创建的。例如，“实况故事”可以构成来自各种位置和事件的用户提交的内容的策展流。其客户端设备启用了位置服务并且在特定时间处于共同位置事件处的用户可以例如经由消息收发客户端应用104的ui被呈现有选项，以将内容贡献给特定实况故事。可以由消息收发客户端应用104基于用户的位置向他或她标识实况故事。最终结果是从社区视角讲述的“实况故事”。
68.另外类型的内容集合被称为“位置故事”，其使得其客户端设备102位于特定地理位置(例如，在学院或大学校园)内的用户能够对特定集合做出贡献。在一些实施方式中，对位置故事的贡献可能需要第二程度的认证来验证最终用户属于特定组织或其他实体(例如，是大学校园中的学生)。
69.图3是示出根据示例实施方式的示例字幕控制系统的框图300。如前所述，字幕控制系统124可以在用户设备(诸如客户端设备102)或服务器设备(如图1所示)中实现。字幕控制系统124包括音量控制模块302、静音开关模块304以及字幕启用和检索模块126。
70.音量控制模块302持续地(或响应于检测到音量按钮的激活)监测用户设备(例如，客户端设备102)的音量控件。音量控件可以包括用户设备上的物理音量“增大”/“减小”按钮。在一些情况中，在由第一应用正在播放音频内容且由第二应用(例如消息收发客户端应用104)正在播放视频时，音量控制模块302监测音量控件。
71.响应于音量控制模块302检测到用户设备上的音量“减小”按钮或音量“增大”按钮的激活(例如，在由第一应用正在播放音频内容且由第二应用正在播放视频连同字幕的情况下)，音量控制模块302与字幕启用和检索模块126进行通信以将字幕的呈现切换至禁用
状态。
72.静音开关模块304类似地监测设备的静音开关处的用户输入。响应于检测到的静音开关处的用户输入，字幕启用和检索模块126进行操作以(在启用静音时)检索和显示字幕以及(在禁用静音时)停止或撤销先前的字幕显示。如果进入静音状态，音量控制模块302可以(例如，通过用户设备显示器的图形用户接口)对由显示功能正在播放的当前多媒体内容项目的标识符进行检索。标识符可以被提供给数据库以在字幕216中搜索正在播放的内容项目的任何可用字幕。如果在字幕216中发现匹配，则检索字幕文件。另外，当前播放位置被检索并用作字幕文件中的索引以访问针对视频的当前播放位置的正确的字幕组(例如，以访问与视频的1:30[分:秒]片段相对应的字幕)。字幕同时呈现在视频的视频帧上面或旁边。在一些情况下，搜索设备的语言以确定是否期望语言是除了默认语言之外的特定语言。如果是，则检索并显示所期望语言的字幕(如果可用的话)。
[0073]
在一些实施方式中，字幕启用和检索模块126可以访问存储在用户设备上的显示特性字段。字幕启用和检索模块126可以修改与正在播放的视频一起呈现的字幕的显示特性(例如，字体的大小、颜色和形状)。字幕可以呈现在屏幕的不妨碍视频内容的任何重要方面的区域上。
[0074]
在一些实施方式中，字幕启用和检索模块126可以在视频正在播放时监测用户交互以确定是否显示或继续显示字幕。例如，字幕启用和检索模块126可以通过接收来自静音开关模块304的指令来检测静音开关已经被移动至其中设备的音频被静音的启用位置(或者由音量控制模块302监测的音量控件逐渐减小至0％的音量水平)。作为响应，字幕启用和检索模块126可以自动检索和显示针对正在播放的视频和任何随后要播放的视频的字幕。
[0075]
在一些实施方式中，字幕启用和检索模块126可以在视频正在播放时检测用户执行触摸和保持动作。例如，字幕启用和检索模块126可以检测用户的手指与正在播放视频的显示器的物理接触。物理接触可以持续达超过阈值时间段(例如，多于3秒)，在该时间段内，手指没有从物理接触显示器抬起或移开。作为响应，字幕启用和检索模块126可以在正在播放的视频上呈现包括选项菜单的覆盖。所述选项可以包括使得用户能够切换(在对图形用户接口打开/激活字幕或关闭/停用字幕的状态之间切换)字幕的激活的字幕选项
[0076]
在一些实施方式中，字幕启用和检索模块126可以访问用户设备的默认全局字幕设置以确定是否显示字幕。响应于确定用户设备的默认全局字幕设置被设置成启用状态，字幕启用和检索模块126可以自动检索和显示针对正在播放的视频和任何随后要播放的视频的字幕。
[0077]
图4示出了根据本公开内容的典型例程400中的主操作块。该例程确定了如何处理由多个应用生成的或以其他方式输出的相应的音频信号的呈现，以及将音频信号中的哪个(或哪些)应用于设备中的音频播放功能。
[0078]
在块402处，执行第一应用。第一应用生成音频数据，所述音频数据由音频播放功能播放。第一应用可以例如是经由音乐播放功能输出音乐的音乐流应用：用户通过耦接至设备的耳机或扬声器收听音乐。不存在其他音频数据源，准许第一应用优先访问音频播放功能。
[0079]
在块404处，启动第二应用。第二应用输出多媒体内容，多媒体内容包括视频数据和音频数据。第二应用可以是多媒体播放应用、相机应用或消息收发客户端应用中的至少
一个。虽然第二应用的某些方面(例如，操作模式)可能对音频播放功能(例如，聊天功能、视觉增强功能或相机功能)的操作不具有影响，但是其他操作模式(例如在多媒体内容具有自己的音轨时)确实会具有影响。可选地，该设备可以检测第二应用的操作模式是否可能对音频播放功能的操作具有影响。
[0080]
在决策块406处，设备可选地确定来自第二应用的多媒体内容是否包括元数据(例如，字幕信息)。
[0081]
如果确定来自第二应用的多媒体内容不包括元数据，则然后设备可以准许第一应用和第二应用中的每一个访问音频播放功能，块408。根据音频混合算法，可以将不具有优先访问的相应音频信号或具有优先访问的相应音频信号混合在一起。
[0082]
如果确定来自第二应用的多媒体内容确实包括元数据，并且可选地确定第二应用的操作模式可能对音频播放功能操作具有影响，则设备使音频播放功能拒绝第二应用访问音频播放功能，以及替代地显示元数据(例如，字幕或音频描述信息)，块410。第二应用在无声/字幕模式下执行。
[0083]
该设备布置成监测键按压输入，并且如果检测到(例如)音量按钮的键按压(决策块412)，则该键按压被解释为请求将第二应用的操作模式切换至默认操作，块314。
[0084]
现在转向图5，示出了处理环境500的图形表示，处理环境500至少包括处理器502(例如，gpu、cpu或其组合)。处理环境500可以在诸如客户端设备102的用户设备中实施，该用户设备被布置成实时捕捉视频帧并且处理和显示增强或虚拟现实3d体验，如下所述。
[0085]
处理器502被示出为耦接至电力源504，并且包括(永久配置或临时实例化的)模块，即位置部件508、gui部件310、消息收发ui部件512和虚拟效果ui部件514。位置部件508在操作上基于位置信息确定用户的位置。gui部件310在操作上生成用户接口并且使用户接口显示在客户端设备上。消息收发ui部件512在操作上生成用户接口并且使用户接口显示在客户端设备上。如所示的，处理器502可以可通信地耦接至另一处理器506。
[0086]
在某些实施方式中，虚拟效果ui部件514对来自图像捕捉设备的图像帧(即，视频流)执行语义分割，如下面详细描述的，并且生成增强或虚拟现实3d体验以在由gui部件510生成的用户接口中呈现。在某些实施方式中，虚拟效果ui部件514在图形处理单元(gpu)中实现。在某些实施方式中，处理器502本身是gpu。
[0087]
图6是示出软件架构604的框图600，该软件架构604可以安装在本文所描述的任何一个或更多个设备上。软件架构604由硬件诸如包括处理器620、存储器626和i/o部件638的机器602支持。在该示例中，软件架构604可以被概念化为层的堆栈，在该层的堆栈中，每个层提供特定的功能。软件架构604包括诸如操作系统612、库610、框架608和应用606的层。在操作上，应用606通过软件堆栈来激活api调用650并响应于api调用650来接收消息652。
[0088]
操作系统612管理硬件资源并且提供公共服务。操作系统612包括例如核614、服务616和驱动器622。核614充当硬件层与其他软件层之间的抽象层。例如，核614提供存储器管理、处理器管理(例如，调度)、部件管理、联网和安全设置以及其他功能。服务616可以针对其他软件层提供其他公共服务。驱动器622负责控制底层硬件或与底层硬件接口连接。例如，驱动器622可以包括显示驱动器、相机驱动器、或低功耗驱动器、闪存驱动器、串行通信驱动器(例如，通用串行总线(usb)驱动器)、驱动器、音频驱动器、电源管理驱动器等。
[0089]
库610提供由应用606使用的低级公共基础设施。库610可以包括系统库618(例如，c标准库)，系统库618提供诸如存储器分配功能、字符串操纵功能、数学功能等的功能。另外，库610可以包括api库624，诸如媒体库(例如，用于支持各种媒体格式的呈现和操纵的库，该媒体格式诸如运动图像专家组4(mpeg4)、高级视频编码(h.264或avc)、运动图像专家组层3(mp3)、高级音频编码(aac)、自适应多速率(amr)音频编解码器、联合图像专家组(jpeg或jpg)或便携式网络图形(png))、图形库(例如，用于在显示器上的图形内容中以二维(2d)和三维(3d)呈现的opengl框架)、数据库库(例如，提供各种关系数据库功能的sqlite)、网页库(例如，提供网页浏览功能的webkit)等。库610还可以包括多种其他库628，以向应用606提供许多其他api。
[0090]
框架608提供由应用606使用的高级公共基础设施。例如，框架608提供各种图形用户接口(gui)功能、高级资源管理和高级位置服务。框架608可以提供可以由应用606使用的广泛的其他api，其中一些api可以特定于特定操作系统或平台。
[0091]
在示例实施方式中，应用606可以包括家庭应用636、联系人应用630、浏览器应用632、书籍阅读器应用634、位置应用642、媒体应用644、消息收发应用646、游戏应用648和诸如第三方应用640的各种各样的其他应用。应用606是执行程序中限定的功能的程序。可以采用各种编程语言来创建以各种方式构造的应用606中的一个或更多个，编程语言例如是面向对象的编程语言(例如，objective-c、java或c )或过程编程语言(例如，c语言或汇编语言)。在特定示例中，第三方应用640(例如，由特定平台的供应商以外的实体使用android
tm
或ios
tm
软件开发工具包(sdk)开发的应用)可以是在诸如ios
tm
、android
tm
、phone的移动操作系统或另一移动操作系统上运行的移动软件。在该示例中，第三方应用640可以激活由操作系统612提供的api调用650以有助于本文中描述的功能。
[0092]
图7是机器700的图形表示，在该机器700中可以执行使机器700执行本文中讨论的方法中的任何一种或更多种的指令708(例如，软件、程序、应用、小程序、app或其他可执行代码)。例如，指令708可以使机器700执行本文中描述的方法中的任何一种或更多种。指令708将通用的未编程的机器700转换成被编程为以所描述的方式执行描述和示出的功能的特定机器700。机器700可以作为独立设备操作，或者可以耦接(例如，联网)至其他机器。在网络部署中，机器700可以在服务器-客户端网络环境中以服务器机器或客户端机器的资格操作，或者在对等(或分布式)网络环境中作为对等机器操作。机器700可以包括但不限于服务器计算机、客户端计算机、个人计算机(pc)、平板计算机、膝上型计算机、上网本、机顶盒(stb)、pda、娱乐媒体系统、蜂窝电话、智能电话、移动设备、可穿戴设备(例如，智能手表)、智能家居设备(例如，智能家用电器)、其他智能设备、web设备、网络路由器、网络交换机、网络桥接器或能够顺序地或以其他方式执行指定机器700要采取的动作的指令708的任何机器。此外，虽然仅示出了单个机器700，但是术语“机器”还应当被视为包括单独地或联合地执行指令708以执行本文中讨论的方法中的任何一种或更多种的机器的集合。
[0093]
机器700可以包括处理器702、存储器704和i/o部件742，处理器702、存储器704和i/o部件742可以被配置成经由总线744彼此通信。在示例实施方式中，处理器702(例如，中央处理单元(cpu)、精简指令集计算(risc)处理器、复杂指令集计算(cisc)处理器、图形处理单元(gpu)、数字信号处理器(dsp)、asic、射频集成电路(rfic)、其他处理器或其任何合
适的组合)可以包括例如执行指令708的处理器706和处理器710。术语“处理器”旨在包括多核处理器，所述多核处理器可以包括可以同时执行指令的两个或更多个独立的处理器(有时称为“核”)。尽管图7示出了多个处理器702，但是机器700可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、多个具有单个核的处理器、多个具有多个核的处理器、或其任何组合。处理器502可以形成如图5所示的处理环境。
[0094]
存储器704包括处理器702可以经由总线744访问的主存储器712、静态存储器714和存储单元716。主存储器704、静态存储器714和存储单元716存储实现本文中描述的方法或功能中的任何一种或更多种的指令708。指令708在其由机器700执行期间还可以完全地或部分地驻留在主存储器712内、在静态存储器714内、在存储单元716内的机器可读介质718内、在处理器702中的至少一个内(例如，在处理器的高速缓存存储器内)或者在其任何合适的组合内。
[0095]
i/o部件742可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、捕获测量结果等的各种各样的部件。包括在特定机器中的特定i/o部件742将取决于机器的类型。例如，诸如移动电话的便携式机器可以包括触摸输入设备或其他这样的输入机构，而无头服务器(headless server)机器将可能不包括这样的触摸输入设备。将认识到，i/o部件742可以包括图7中未示出的许多其他部件。在各种示例实施方式中，i/o部件742可以包括输出部件728和输入部件730。输出部件728可以包括视觉部件(例如，诸如等离子显示板(pdp)的显示器、发光二极管(led)显示器、液晶显示器(lcd)、投影仪或阴极射线管(crt))、声学部件(例如，扬声器)、触觉部件(例如，振动马达、阻力机构)、其他信号发生器等。输入部件730可以包括字母数字输入部件(例如，键盘、被配置成接收字母数字输入的触摸屏、光电键盘或其他字母数字输入部件)、基于点的输入部件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其他指向仪器)、触觉输入部件(例如，物理按钮、提供触摸或触摸手势的位置和/或力的触摸屏、或其他触觉输入部件)、音频输入部件(例如，麦克风)、视频输入部件(例如，相机或其他图像捕捉设备)等。
[0096]
在其他示例实施方式中，i/o部件742可以包括生物计量部件732、运动部件734、环境部件736或定位部件738以及各种其他部件。例如，生物计量部件732包括用于检测表达(例如，手部表达、面部表达、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑电波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的部件。运动部件734包括加速度传感器部件(例如，加速计)、重力传感器部件、旋转传感器部件(例如，陀螺仪)等。环境部件736包括例如照明传感器部件(例如，光度计)、温度传感器部件(例如，检测环境温度的一个或更多个温度计)、湿度传感器部件、压力传感器部件(例如，气压计)、声音传感器部件(例如，检测背景噪声的一个或更多个麦克风)、接近度传感器部件(例如，检测附近对象的红外传感器)、气体传感器(例如，用于检测危险气体的浓度以确保安全或者用于测量大气中的污染物的气体检测传感器)或可以提供与周围物理环境相对应的指示、测量结果或信号的其他部件。定位部件738包括位置传感器部件(例如，gps接收器部件)、海拔传感器部件(例如，检测气压的高度计或气压计，根据气压可以得到海拔)、取向传感器部件(例如，磁力计)等。
[0097]
可以使用各种各样的技术来实施通信。i/o部件742还包括通信部件740，该通信部件740可操作成分别经由耦接724和耦接726将机器700耦接至网络720或设备722。例如，通
信部件740可以包括与网络720接口连接的网络接口部件或其他合适的设备。在其他示例中，通信部件740可以包括有线通信部件、无线通信部件、蜂窝通信部件、近场通信(nfc)部件、部件(例如，低能耗)、部件、和用于经由其他形式提供通信的其他通信部件。设备722可以是其他机器或各种各样的外围设备中的任何外围设备(例如，经由usb耦接的外围设备)。
[0098]
此外，通信部件740可以检测标识符或包括可操作以检测标识符的部件。例如，通信部件740可以包括射频识别(rfid)标签读取器部件、nfc智能标签检测部件、光学读取器部件(例如，用于检测下述的光学传感器：一维条形码，例如，通用产品代码(upc)条形码；多维条形码，例如，快速响应(qr)代码、aztec代码、数据矩阵、数据图示符、麦克斯码(maxicode)、pdf417、超代码、ucc rss-2d条形码和其他光学代码)、或者声学检测部件(例如，用于识别标记的音频信号的麦克风)。另外，可以经由通信部件740得到各种信息，例如经由因特网协议(ip)地理定位的位置、经由信号三角测量的位置、经由检测可以指示特定位置的nfc信标信号的位置等。
[0099]
各种存储器(例如，存储器704、主存储器712、静态存储器714和/或处理器702的存储器)和/或存储单元716可以存储由本文中所描述的方法或功能中的任何一个或更多个实现或使用的一组或更多组指令和数据结构(例如，软件)。这些指令(例如，指令708)在由处理器702执行时使各种操作实现所公开的实施方式。
[0100]
可以经由网络接口设备(例如，通信部件740中包括的网络接口部件)使用传输介质并且使用许多公知的传输协议中的任何一种传输协议(例如，超文本传输协议(http))通过网络720来发送或接收指令708。类似地，可以经由耦接726(例如，对等耦接)使用传输介质向设备722发送或接收指令708。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：链路分配方法、装置和电子设备与流程

音频检测和字幕呈现的制作方法

相关文献

最热文献