基于媒体内容中的语音度来确定光效果的制作方法

2021-08-13 19:37:00 来源：中国专利 TAG：多个所述呈现效果媒体

本发明涉及一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统，所述一个或多个光效果基于对所述媒体内容的分析来确定。

本发明进一步涉及一种确定在媒体内容正被呈现时要呈现的一个或多个光效果的方法，所述一个或多个光效果基于对所述媒体内容的分析来确定。

本发明还涉及一种使得计算机系统能够执行这种方法的计算机程序产品。

背景技术：

连接的光系统（诸如philipshue）的通用性保持增长，向用户提供越来越多的特征。这些新特征包括上下文感知、智能自动化行为、新的光使用形式（诸如娱乐）等。例如，hue娱乐通过使用光脚本或通过基于音频和/或视频分析创建光效果来增强观看电影、听音乐和/或玩游戏的体验。后者是用hue娱乐应用程序huesync实现的，huesync使用颜色提取算法自动创建光效果。

用于娱乐的理想照明系统支持并增强具体内容的体验。当前，聚焦于低层次的图像统计，诸如颜色值和图像运动。然而，这些统计没有考虑场景的语义维度。在统计上几乎相同的两个场景可以传达截然不同的意义。

没有上下文，就不可能判断草地中空长椅的图像的语义（预期）意义，例如，它可以是旨在传达美好夏日或与家人在公园中散步的图像。然而，当一个人考虑到图像的来源是殡仪馆时，图像具有不同的维度，也许是悲伤、或悲痛的维度。在没有媒体内容的上下文的情况下，基于媒体内容呈现光效果经常导致次优的光效果。

wo2007/119277a1公开了一种设备，该设备在视频正被呈现时控制光设备来呈现光效果，并且该设备以视频流派的形式考虑视频的上下文。具体地，wo2007/119277a1公开了一种照明控制数据生成单元，其生成照明控制数据以控制照明设备，使得照明设备根据流派（例如音乐节目、体育赛事等）以及显示在显示设备上的视频数据的特征值来发射照明光。不管特征值如何，当显示的视频具有预定流派时，照明设备都持续发射照明光。

wo2007/119277a1的缺点是，通过仅考虑视频的流派，呈现的光效果仍然是次优的。

技术实现要素：

本发明的第一目的是提供一种系统，该系统能够确定一个或多个光效果，同时以更好的方式考虑媒体内容的上下文，以便创建更适合的光效果。

本发明的第二目的是提供一种方法，该方法能够确定一个或多个光效果，同时以更好的方式考虑媒体内容的上下文，以便创建更适合的光效果。

在本发明的第一方面中，一种用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统，所述一个或多个光效果基于对所述媒体内容的分析来确定，该系统包括至少一个输入接口、至少一个输出接口、和至少一个处理器，该至少一个处理器被配置为：使用所述至少一个输入接口来获得媒体内容信息，所述媒体内容信息包括所述媒体内容和/或通过分析所述媒体内容确定的信息；并且获得指示所述音频部分中的语音度的信息，所述语音度基于对所述媒体内容的音频部分的分析来确定。

至少一个处理器被进一步配置成：确定所述音频部分应该被使用来确定一个或多个光效果的程度，所述程度基于所述确定的语音度来确定；确定在媒体内容正被呈现时要在一个或多个光源上呈现的一个或多个光效果，所述一个或多个光效果根据所述程度而基于对所述音频部分的分析来确定并至少基于对所述媒体内容的视频部分的分析来确定；以及使用所述至少一个输出接口来控制所述一个或多个光源以呈现所述一个或多个光效果和/或输出指定所述一个或多个光效果的光脚本。

通过使用语音度作为场景的语义意义的指标，可以以更好的方式考虑媒体内容的上下文，以便创建更适合的光效果。即使当只考虑语音的频谱组成时，这对于场景的语义意义（例如低语对尖叫或笑对哭）来说仍然可以是高度信息丰富的。包含大量对话的场景将通常比视觉上相似（就整体场景动态、饱和度和颜色而言）但不包括大量对话的场景更受益于微妙的照明效果。

例如，所述语音度可以包括语音量和/或一个或多个语音类别。例如，所述系统可以是包括一个或多个设备的照明系统的一部分，或者可以在包括一个或多个照明设备的照明系统中使用。

所述程度可以指示是否应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。基于媒体内容项目的音频部分的强度和/或响度来改变光效果的亮度和/或色度对于音乐视频剪辑和具有声音效果（诸如爆炸）的场景尤其有益，但是对于具有大量对话的场景不是适当的。音频的强度通常是由声波在垂直于该区域的方向上每单位面积所携带的功率。音频的响度通常是对声压的主观感知。

作为第一示例，可以随着具有高强度和/或响度的一段音频部分而呈现具有高亮度的光效果，并且可以随着具有低强度和/或响度的一段音频部分而呈现具有低亮度的光效果。作为第二示例，可以随着具有高强度和/或响度的音频部分的片段而呈现具有饱和颜色的光效果，并且可以随着具有低强度和/或响度的音频部分的片段而呈现具有去饱和颜色的光效果。

替代地或另外地，所述程度可以指示是否应该基于所述音频部分的一个或多个不同特性来确定所述一个或多个光效果的亮度和/或色度。语音度通常基于除音频强度和/或响度之外的特性来确定。光效果的亮度和/或色度还可以基于这些其他特性而改变：例如基于从叙述和/或歌唱中确定的感知情绪。感知情绪可以被确定，例如，如《isca语音和情绪研讨会论文集》（https://www.isca-speech.org/archive_open/speech_emotion/spem.pdf）中所描述。

所述音频部分中的所述语音度可以通过确定所述音频部分中的语音量并基于所述语音量将所述音频部分分类为主要是语音或主要是非语音来确定。这种分类可以如接下来两段中描述的来使用。

所述至少一个处理器可以被配置为根据所述音频部分被分类为主要是语音而将第一程度确定为所述程度，并且根据所述音频部分被分类为主要是非语音而将第二程度确定为所述程度，所述第二程度指示应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度，并且所述第一程度指示不应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。基于媒体内容项目的音频部分的强度和/或响度来改变光效果的亮度和/或色度对于音乐视频剪辑和具有声音效果（诸如爆炸）的场景尤其有益，但是对于具有大量对话的场景不是适当的。

所述至少一个处理器可以被配置为根据所述音频部分被分类为主要是语音而使用第一亮度和/或色度范围，并且根据所述音频部分被分类为主要是非语音而使用第二亮度和/或色度范围来确定所述一个或多个光效果，所述第一亮度和/或色度范围具有比所述第二亮度和/或色度范围更低的平均亮度和/或色度。通常，被分类为主要是语音的场景聚焦于对话，并且这些场景优选地使用比被分类为主要是非语音的场景（其通常聚焦于视觉方面）更低强度的光，以便不从对话分心。

所述音频部分中的所述语音度可以通过将所述音频部分分类为剧情声音或非剧情声音来确定。非剧情声音通常被定义为来自故事空间之外的来源的声音，例如叙述者的评论、为戏剧效果而添加的声音效果、气氛音乐。剧情声音通常被定义为其来源在屏幕上可见或其来源被暗示为由电影动作呈现的声音，例如角色的嗓音、由故事中的对象制造的声音、来自故事中的乐器的音乐。这种分类通常难以从音频中检测到，并因此可能被手动包括在内容元数据中。检测音频部分中的语音/声音的来源是在屏幕上还是在屏幕外并相应地影响光效果有时可以是可能的。

当音频部分中的语音被分类为剧情或非剧情时，如果语音被分类为非剧情，则这可以用于基于音频分析（和可选的视频分析）来确定光效果，并且如果语音被分类为剧情，则这可以用于仅基于视频分析来确定光效果。剧情/非剧情分类也可以用于例如区分为气氛效果播放的主题歌曲（非剧情）与作为电影的一部分的歌曲、例如由俱乐部中的角色收听的歌曲（剧情）。在前一种情况下，例如，可以仅基于视频分析来确定光效果。在后一种情况下，例如，可以基于音频分析来确定光效果（例如帮助创建正处于俱乐部中的感觉）。

所述音频部分中的所述语音度可以通过将所述音频部分分类为多个类别中的一个类别来确定，所述多个类别包括以下中的至少两种：交谈、低语、尖叫、叙述和歌唱。这种分类可以如接下来两段中描述的来使用。

所述至少一个处理器可以被配置为根据所述音频部分被分类为交谈而将第一程度确定为所述程度，并且根据所述音频部分被分类为歌唱而将第二程度确定为所述程度，所述第二程度指示应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度，并且所述第一程度指示不应该基于所述音频部分的强度和/或响度来确定所述一个或多个光效果的亮度和/或色度。在音频部分被分类为歌唱（而不是被分类为交谈）的情况下，可以呈现正常的光效果，即基于对音频部分的分析来确定光效果。例如，如果音乐视频剪辑由于歌唱的存在而被分类为主要是语音或者如果音频部分没有被分类为主要是语音或者主要是非语音，则这是有益的。

所述一个或多个光效果可以包括多个光效果，并且所述至少一个处理器可以被配置为根据所述类别来确定所述多个光效果之间的转换速度。例如，如果音频部分被分类为尖叫，则光效果的动态可以被调整为高，如果音频部分被分类为交谈，则调整为中，并且如果音频部分被分类为低语，则调整为低。同一转换速度可以用于不同色度设置之间的转换并用于不同亮度设置之间的转换，但是可以替代地使用不同的转换速度。

所述音频部分可以通过分析所述音频部分的频谱组成来分类。例如，通过考虑随意语音和喊叫语音之间的频谱和强度差异，有可能确定人们是在以交谈水平谈话还是在尖叫。

所述一个或多个光效果包括多个光效果，并且所述至少一个处理器可以被配置成确定所述音频部分中的语音量是否超过阈值并根据所述语音量超过所述阈值来确定所述多个光效果之间的转换速度。例如，包括大量交谈的场景可以使用低动态来呈现，而具有大量尖叫的同一场景——即使这个场景的音频部分可以具有相同的强度和/或响度——也可以以更高的动态来呈现。同一转换速度可以用于不同色度设置之间的转换并用于不同亮度设置之间的转换，但是可以替代地使用不同的转换速度。

所述至少一个处理器可以被配置成通过识别所述音频部分中的所述说的词和/或从与所述媒体内容相关联的字幕中获得所述说的词来确定在所述音频部分中说的词。音频部分中说的词可以用于更精确地确定场景的气氛。作为第一示例，可以为充满情绪的场景呈现高度动态的光效果，并且可以为不充满情绪的场景呈现轻微动态的光效果。作为第二示例，在葬礼场景期间用喜气洋洋的绿色呈现光效果可能是不适当的。相反，更柔和的去饱和绿色可能更适用。

所述至少一个处理器可以被配置成通过使用与所述媒体内容相关联的字幕和/或通过聚焦于在所述音频部分中的或从所述音频部分获得的中心声道来确定所述语音度。由于环绕设置中的中心声道通常包括对话，因此这是聚焦于确定语音量和/或识别说的词的最佳声道。尽管立体声音频部分可能不包括中心声道，但是然后可以通过确定两个立体声声道中的公共分量来从音频部分获得这样的中心声道。字幕文件的大小或字幕文件中词的数量可以是媒体内容中的语音量的良好指标。

在本发明的第二方面中，一种确定在媒体内容正被呈现时要呈现的一个或多个光效果的方法，所述一个或多个光效果基于对所述媒体内容的分析来确定，该方法包括：获得媒体内容信息，所述媒体内容信息包括所述媒体内容和/或通过分析所述媒体内容确定的信息；以及获得指示所述音频部分中的语音度的信息，所述语音度基于对所述媒体内容的音频部分的分析来确定。

所述方法进一步包括：确定所述音频部分应该被使用来确定一个或多个光效果的程度，所述程度基于所述确定的语音度来确定；确定在媒体内容正被呈现时要在一个或多个光源上呈现的一个或多个光效果，所述一个或多个光效果根据所述程度而基于对所述音频部分的分析来确定并至少基于对所述媒体内容的视频部分的分析来确定；以及控制所述一个或多个光源来呈现所述一个或多个光效果和/或输出指定所述一个或多个光效果的光脚本。所述方法可以由运行在可编程设备上的软件来执行。这个软件可以作为计算机程序产品来提供。

此外，提供了用于实行本文描述的方法的计算机程序，以及存储该计算机程序的非暂时性计算机可读存储介质。例如，计算机程序可以由现有设备下载或上传到现有设备，或者在制造这些系统时存储。

一种非暂时性计算机可读存储介质存储软件代码部分，当由计算机执行或处理时，该软件代码部分被配置为执行可执行操作，用于确定在媒体内容正被呈现时要呈现的一个或多个光效果，所述一个或多个光效果基于对所述媒体内容的分析来确定。可执行操作包括：获得媒体内容信息，所述媒体内容信息包括所述媒体内容和/或通过分析所述媒体内容确定的信息；以及获得指示所述音频部分中的语音度的信息，所述语音度基于对所述媒体内容的音频部分的分析来确定。

所述可执行操作进一步包括：确定所述音频部分应该被使用来确定一个或多个光效果的程度，所述程度基于所述确定的语音度来确定；确定在媒体内容正被呈现时要在一个或多个光源上呈现的一个或多个光效果，所述一个或多个光效果根据所述程度而基于所述音频部分的分析来确定并至少基于对所述媒体内容的视频部分的分析来确定；以及控制所述一个或多个光源来呈现所述一个或多个光效果和/或输出指定所述一个或多个光效果的光脚本。

如本领域技术人员将领会的，本发明的诸方面可以体现为设备、方法或计算机程序产品。因此，本发明的诸方面可以采取完全硬件实施例、完全软件实施例（包括固件、驻留软件、微代码等）或组合软件和硬件方面的实施例的形式，所述软件和硬件方面在本文中通常都可以被称为“电路”、“模块”或“系统”。本公开中描述的功能可以实现为由计算机的处理器/微处理器执行的算法。此外，本发明的诸方面可以采取在一种或多种计算机可读介质中体现的计算机程序产品的形式，该一种或多种计算机可读介质具有在其上体现（例如，存储）的计算机可读程序代码。

可以利用一种或多种计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于：电子、磁、光学、电磁、红外或半导体系统、装置或设备，或前述的任何适合组合。计算机可读存储介质的更具体示例可以包括但不限于以下内容：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或闪存）、光纤、便携式致密盘只读存储器（cd-rom）、光存储设备、磁存储设备、或前述的任何适合组合。在本发明的上下文中，计算机可读存储介质可以是任何有形介质，其可以包含或存储由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。

计算机可读信号介质可以包括传播的数据信号，该信号具有体现在其中（例如，在基带中或作为载波的一部分）的计算机可读程序代码。这种传播的信号可以采取各种形式中的任何形式，包括但不限于电磁、光学、或其中任何适合的组合。计算机可读信号介质可以是任何计算机可读介质，其不是计算机可读存储介质，并且其可以通信、传播或传输由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序。

在计算机可读介质上体现的程序代码可以使用任何适当的介质传送，包括但不限于无线、有线、光纤、线缆、rf等，或前述的任何适合组合。用于实行本发明的诸方面的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，该一种或多种编程语言包括面向对象的编程语言（诸如java（tm）、smalltalk、c 等）、传统的过程性编程语言（诸如“c”编程语言或相似的编程语言）、和函数式编程语言（诸如scala、haskel等）。程序代码可以作为独立的软件包而完全在用户的计算机上执行、部分地在用户的计算机上执行、部分地在用户的计算机上执行并且部分地在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下，远程计算机可以通过任何类型的网络（包括局域网（lan）或广域网（wan））连接到用户的计算机，或者可以与外部计算机进行连接（例如，通过使用互联网服务提供商的互联网）。

下面参照依据本发明的实施例的方法、装置（系统）和计算机程序产品的流程图示和/或框图来描述本发明的诸方面。将要理解，流程图示和/或框图的每个框以及流程图示和/或框图中的框的组合可以通过计算机程序指令来实施。这些计算机程序指令可以提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器，特别是微处理器或中央处理单元（cpu），以产生机器，使得经由计算机的处理器、其他可编程数据处理装置、或其他设备执行的指令创建用于实施流程图和/或一个或多个框图框中指定的功能/动作的装置。

这些计算机程序指令还可以存储在计算机可读介质中，该计算机可读介质可以指导计算机、其他可编程数据处理装置、或其他设备以特定方式工作，使得存储在所述计算机可读介质中的指令产生制品，该制品包括实施流程图和/或一个或多个框图框中指定的功能/动作的指令。

计算机程序指令还可以加载到计算机、其他可编程数据处理装置、或其他设备上，以使一系列操作步骤在计算机、其他可编程装置、或其他设备上执行，以产生计算机实施的过程，使得在计算机或其他可编程装置上执行的指令提供用于实施流程图和/或一个或多个框图框中指定的功能/动作的过程。

图中的流程图和框图图示了依据本发明的各种实施例的设备、方法和计算机程序产品的可能实现的架构、功能和操作。在这方面，流程图或框图中的每个框可以代表代码的模块、段或部分，其包括用于实施指定的（多个）逻辑功能的一个或多个可执行指令。还应注意，在一些替代实施方式中，框中所述的功能可以不按照图中所述的顺序出现。例如，连续示出的两个框事实上可以基本上同时执行，或者有时可以取决于所涉及的功能以相反的顺序执行这些框。还将注意，框图和/或流程图示的每个框以及框图和/或流程图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或者专用硬件和计算机指令的组合来实施。

附图说明

参考附图，通过示例的方式，本发明的这些和其他方面是清楚的并将被进一步阐明，在附图中：

图1是该系统的实施例的框图；

图2是该方法的第一实施例的流程图；

图3是该方法的第二实施例的流程图；

图4是该方法的第三实施例的流程图；

图5是该方法的第四实施例的流程图；

图6是该方法的第五实施例的流程图；

图7是该方法的第六实施例的流程图；

图8示出了第一媒体项目的音频分类的示例；

图9示出了第二媒体项目的音频分类的示例；以及

图10是用于执行本发明的方法的示例性数据处理系统的框图。

附图中的对应元件由相同的附图标记表示。

具体实施方式

图1示出了用于确定在媒体内容正被呈现时要呈现的一个或多个光效果的系统的实施例：移动设备1。基于对媒体内容的分析来确定一个或多个光效果。这个分析可以由移动设备1或由另一设备来执行。移动设备1连接到无线lan接入点23。桥接器11也例如经由以太网连接到无线lan接入点23。光源13-17例如使用zigbee协议与桥接器11无线通信，并且可以例如通过移动设备1经由桥接器11来控制。例如，桥接器11可以是philipshue桥接器，并且光源13-17可以是philipshue灯。在替代实施例中，光源在没有桥接器的情况下被控制。

tv27也连接到无线lan接入点23。例如，媒体内容可以由移动设备1或由tv27呈现。无线lan接入点23连接到互联网24。互联网服务器25也连接到互联网24。例如，移动设备1可以是移动电话或平板电脑。例如，移动设备1可以运行philipshuesync应用程序。移动设备1包括处理器5、接收器3、传送器4、存储器7和显示器9。在图1的实施例中，显示器9包括触摸屏。移动设备1、桥接器11和光源13-17是照明系统21的一部分。

在图1的实施例中，处理器5被配置成使用接收器4来获得媒体内容信息。媒体内容信息包括媒体内容和/或通过分析媒体内容确定的信息。例如，媒体内容信息可以从互联网服务器25获得。处理器5被进一步配置成获得指示音频部分中的语音度的信息。例如，这个信息可以从媒体内容信息中获得。基于对媒体内容的音频部分的分析来确定语音度。处理器5被进一步配置成确定音频部分应该被使用来确定一个或多个光效果的程度。该程度基于所确定的语音度来确定。

处理器5被进一步配置成确定在媒体内容正被呈现时要在一个或多个光源——例如光源13-17或还未被标识的光源中的一个或多个——上呈现的一个或多个光效果。一个或多个光效果根据该程度而基于对音频部分的分析来确定并至少基于对媒体内容的视频部分的分析来确定。处理器5被进一步配置成使用传送器4来控制光源13-17中的一个或多个以呈现一个或多个光效果和/或使用内部接口（未示出）来将指定一个或多个光效果的光脚本输出到存储器7。

例如，该程度可以指示是否应该基于音频部分的强度和/或响度来确定一个或多个光效果的亮度和/或色度。取决于用于光效果创建的算法，可以设想应用语音分类的不同方式：

转换速度。如果用于光效果创建的颜色从屏幕上内容内的预定义分析区域提取（例如，如在huesync中完成的），则语音分类然后可以用于影响呈现提取的颜色的光效果之间的转换速度。

色度。当转变为光效果时，从屏幕提取的颜色可能去饱和为更淡的颜色、或者饱和为更鲜艳的颜色。

亮度。类似于上面，可以适配亮度但不是饱和度。

提取算法。代替修改从屏幕上提取的颜色，语音分类可以控制使用什么算法来选择颜色、选择什么颜色、以及来自哪个分析区域。

音频输入：常常，选择光的强度和色度的主要方式是基于视频信号的强度和色度。然而，除那之外，常常基于音频强度和/或响度添加一些附加的强度（即亮度）调制。这将通过加强效果或提供任何效果（因为它们可能在音频上可检测，但在视频中不可检测）来使某些效果（诸如爆炸）格外戏剧化。然而，对于语音，清晰的是，这种基于音频信号的强度变化是非常不希望的。因此，这个音频输入然后将取决于是否检测到语音而被启用/禁用。

在图1中所示的移动设备1的实施例中，移动设备1包括一个处理器5。在替代实施例中，移动设备1包括多个处理器。移动设备1的处理器5可以是通用处理器（例如来自高通或基于arm）或专用处理器。例如，移动设备1的处理器5可以运行android或ios操作系统。存储器7可以包括一个或多个存储器单元。例如，存储器7可以包括固态存储器。例如，存储器7可以用于存储操作系统、应用程序、和应用程序数据。

例如，接收器3和传送器4可以使用一种或多种无线通信技术——诸如wi-fi（ieee802.11）——来与无线lan接入点23通信。在替代实施例中，使用多个接收器和/或多个传送器来代替单个接收器和单个传送器。在图1中所示的实施例中，使用了单独的接收器和单独的传送器。在替代实施例中，接收器3和传送器4被组合成收发器。例如，显示器9可以包括lcd或oled面板。移动设备1可以包括移动设备的其他典型组件，诸如电池和电源连接器。本发明可以使用运行在一个或多个处理器上的计算机程序来实施。

在图1的实施例中，本发明的系统是移动设备。在替代实施例中，本发明的系统是不同的设备（例如pc或视频模块），或者包括多个设备。例如，视频模块可以是可以放在tv和提供hdmi输入的设备之间的专用的hdmi模块，以便它可以分析hdmi输入。

在图1的实施例中，本发明的系统在照明系统中使用，以说明该系统既可以用于创建光脚本，又可以用于实时呈现光效果。然而，该系统不一定是照明系统的一部分。例如，系统可能是只用于创建光脚本的pc。在这种情况下，通常不为具体光源创建光效果。可以为房间的某个部分（例如tv的左边）中的一个或多个光源或为任何光源创建光效果。

在图1的实施例中，照明系统中的光源可以用于在照明系统的正常使用期间实时呈现光效果，或者可以用于测试光脚本。如果本发明的系统不在照明系统中使用，则也可以测试光脚本。在这种情况下，一个或多个光源可以是虚拟的/模拟的。也可以模拟设备之间的桥接和通信。此外，媒体内容的呈现不需要tv。例如，媒体内容可以在用于创建光脚本（例如用于测试目的）的pc上呈现。例如，pc可能运行类似于adobepremier的软件，并且用户可能得到：额外窗口，显示具有光的虚拟环境；或者甚至更简单的代表，以示出如果以某种方式调整参数，则效果看起来会怎么样。

图2中示出了该方法的第一实施例。该方法用于确定在媒体内容正被呈现时要呈现的一个或多个光效果。基于对媒体内容的分析来确定一个或多个光效果。在图2的实施例中，一个或多个光效果包括多个光效果。步骤101包括获得媒体内容信息。媒体内容信息包括媒体内容和/或通过分析媒体内容确定的信息。

步骤103和109包括获得指示音频部分中的语音度的信息。基于对媒体内容的音频部分的分析来确定语音度。步骤107和113包括确定音频部分应该被使用来确定一个或多个光效果的程度。该程度基于在步骤103和109中确定的语音度来确定。

在图2的实施例中，步骤103包括子步骤141和143。步骤141包括确定音频部分中的语音量。在图2的实施例中，这是通过频谱分析音频部分——聚焦于人类语音的典型频率区（即从大约300到3400hz）——来实现的。语音检测可以通过例如检测内容中的字幕，或者通过聚焦于音频部分中或从音频部分获得的中心声道来进一步增强。包括中心声道的音频部分通常在环绕声音设置中呈现。另外地，在线字幕库可以包含包含语音的场景的时间戳，并且这个信息可以用于进一步优化语音检测。

步骤143包括通过确定多于50%的音频部分中是否有语音，基于语音量将音频部分分类为主要是语音或主要是非语音。接下来，执行步骤105。步骤105包括确定音频部分已经被分类为主要是语音还是已经被分类为主要是非语音。如果音频部分已经被分类为主要是语音，则执行步骤151。如果音频部分已经被分类为主要是非语音，则执行步骤153。步骤151和153是步骤107的子步骤。

步骤151包括确定第一程度。第一程度指示一个或多个光效果的亮度和/或色度不应该基于音频部分的强度和/或响度来确定，并且一个或多个光效果应该使用第一亮度和/或色度范围。步骤109在步骤151之后执行。步骤153包括确定第二程度。第二程度指示一个或多个光效果的亮度和/或色度应该基于音频部分的强度和/或响度来确定，并且一个或多个光效果应该使用第二亮度和/或色度范围。第一亮度和/或色度范围具有比第二亮度和/或色度范围更低的平均亮度和/或色度。步骤115在步骤153之后执行。

步骤109包括将音频部分分类为多个类别中的一个类别。多个类别包括以下中的至少两种：交谈、低语、尖叫、叙述和歌唱。在图2的实施例中，通过分析音频部分的频谱组成来分类音频部分。因此，频谱组成的差异被用来确定动态照明系统的适当行为可能是什么。通过考虑随意语音和喊叫语音之间的频谱和强度差异，有可能确定人们是在以交谈水平谈话还是在尖叫。这将导致照明系统能够以与内容的意义和语义一致的方式支持和增强内容。

接下来，步骤111包括确定所述音频部分已经被分类在哪个类别中，并且步骤161和162包括根据这个类别确定多个光效果之间的转换的速度。如果音频部分被分类为交谈或低语（组1），则执行步骤161。如果音频部分被分类为尖叫（组2），则执行步骤163。如果音频部分被不同地分类（组3），则在步骤151中确定的程度不被修改。在这种情况下，在步骤111之后执行步骤115。如步骤161中确定的程度中所指示的，使用低动态呈现包括大量交谈或母亲对她的婴儿低语的场景，而具有大量尖叫或一对夫妇具有喊叫争论的同一场景——即使这个场景的音频部分可能具有相同的强度和/或响度——也以如步骤163中确定的程度中所指示的更高动态呈现。

在已经确定了程度之后——即已经执行了步骤151和153之一，并且已经有条件地执行了步骤161和163之一——执行步骤115。步骤115包括例如通过执行颜色提取来分析媒体内容的视频部分，并且如果已经执行了步骤153则分析媒体内容的音频部分。

因此，步骤143的结果是要么1）音频主要是语音，要么2）音频主要是非语音。基于这个分类，在步骤151和153中进行第一水平的光效果动态调整。一般来说，聚焦于对话的场景应该比聚焦于视觉方面的场景导致更低强度的光效果（否则光效果实际上可能从对话分心）。此外，用于语音的音频信号的动态不应该被认为是用于调制光效果强度的输入，而对于非语音这很可能更适当。如果在步骤105中确定音频部分已经被分类为语音，则在步骤109中频谱内容被进一步分析并在多个种类（例如交谈、低语和尖叫）中分类。基于这种分类，在步骤161和163中进一步调整系统的动态。

步骤117包括确定在媒体内容正被呈现时要在一个或多个光源上呈现的一个或多个光效果。如果已经执行了步骤153，则基于在步骤115中执行的对音频部分的分析来确定一个或多个光效果，但是它们至少是基于在步骤115中执行的对视频部分的分析来确定的。步骤119包括控制一个或多个光源来呈现一个或多个光效果。步骤121包括输出指定一个或多个光效果的光脚本。

以此方式，该方法基于对音频内容的频谱分析来优化动态照明系统的行为。低层次的频谱分析允许标识语音特性，诸如“常规”交谈、低语、尖叫等。然后，系统将使用和应用这个信息来自适配地更改光的动态，以与场景内容对应。因此，系统通过以有意义的方式调整光来增强媒体内容，从而与内容的语义对应。

图3中示出了该方法的第二实施例。在图3的实施例中，图2的步骤101已经用步骤201替换，图2的步骤103已经用步骤203替换，并且图2的步骤109已经用步骤209替换。步骤201与步骤101的不同之处在于，不仅获得了媒体内容本身，而且获得了与媒体内容相关联的元数据。类似于步骤103和109，步骤203和209包括获得指示音频部分中的语音度的信息。然而，在步骤203和209中，这个信息不是通过分析媒体内容、而是从元数据获得的。元数据可以包括媒体内容的每个时间间隔的一个或多个分类和/或语音量和/或频谱分析信息。

在图3的实施例中，步骤203包括从元数据确定（当前）音频部分主要是语音还是主要是非语音。步骤209包括从元数据确定（当前）音频部分是否属于多个类别中的一个或多个，所述多个类别包括以下中的至少两种：交谈、低语、尖叫、叙述和歌唱。音频部分也可以被分类为非语音类别，例如音乐或自然声音。

图4中示出了该方法的第三实施例。在图4的实施例中，图3的步骤201已经用步骤301替换，图3的步骤217已经用步骤317替换，并且图3的步骤115已经被省略。步骤301与步骤201的不同之处在于，不再获得媒体内容本身，而是仅获得与媒体内容相关的元数据。除了关于图3描述的信息之外，元数据进一步包括从媒体内容的视频部分和音频部分提取的允许光效果被确定的信息，例如从视频部分的帧提取的颜色或从音频部分提取的响度/强度信息。因为分析媒体内容来获得这个信息不再必要，所以省略步骤115。步骤317相似于图3的步骤217，除了在步骤301中获得的信息用于确定一个或多个光效果和一个或多个另外的光效果。

图5中示出了该方法的第四实施例。在图5的实施例中，图2的步骤103、105、107、109、111和113已经用步骤401、403和405替换。类似于图2的步骤103，图5的步骤401包括步骤141，但是步骤401不包括图2的步骤143。因此，步骤401不包括将语音分类为主要是语音或主要是非语音。步骤141包括例如使用频谱分析来确定音频部分中的语音量。

步骤403包括确定步骤141中确定的语音量是否超过阈值。例如，这个阈值可以是百分比。如果这个阈值被设置为50%，那么这导致确定音频部分包括主要是语音还是主要是非语音。然而，阈值可以有益地设置为低于或高于50%的百分比。

步骤405在步骤403之后执行。步骤405包括子步骤407和409。如果在步骤403中确定已经超过阈值，则执行步骤407。如果在步骤403中确定尚未超过阈值，则执行步骤409。步骤407包括确定第一程度。步骤409包括确定第二程度。

第一程度指示多个光效果之间的第一转换速度（即第一动态性）。第二程度指示多个光效果之间的第二转换速度。第二转换速度高于第一转换速度。因此，伴随包含多于一定量的语音的场景的光效果是使用低动态呈现的，而伴随具有少于该一定量的语音的同一场景的光效果——即使这个场景的音频部分可能具有相同的强度和/或响度——也是以更高的动态呈现的。

图6中示出了该方法的第五实施例。在图6的实施例中，图2的步骤109、111和113已经用步骤421、427、429和431替换。在这个第五实施例中，不仅考虑了频谱内容，而且也执行了语音的语义分析。步骤421在步骤151之后执行，如果音频部分被分类为主要是语音，则执行步骤151。在步骤421中，说的词被获得。步骤423包括通过识别音频部分中的说的词来确定音频部分中说的词。步骤423包括从与媒体内容相关联的字幕中获得说的词。在替代实施例中，仅执行步骤421和423之一。

在步骤427中，根据在步骤421中确定的说的词来确定场景的气氛。在步骤429中，确定场景的气氛是否是充满情绪的。如果场景的气氛是充满情绪的，则在步骤433中选择多个光效果之间的较高转换速度作为程度。如果场景的气氛不是充满情绪的，则在步骤435中选择多个光效果之间的较低转换速度作为程度。步骤433和435是步骤431的子步骤。

图7中示出了该方法的第六实施例。在图7的实施例中，图2的步骤113已经用步骤451替换。步骤111包括确定音频部分是否已经被分类为叙述或歌唱或者已经被不同地分类。如果音频部分已经被分类为叙述或歌唱（组4），则执行步骤451。步骤153作为步骤451的子步骤执行。因此，该程度被确定，如同音频部分被分类为主要是非语音并且应用了正常的光效果一样。如果音频部分已经被不同地分类——例如被分类为交谈或尖叫（组5）——那么该程度不被修改，并且接下来执行步骤115。

图8以图表的形式示出了第一媒体内容项目的音频分类的示例，该第一媒体内容项目是tv剧的一集。时间沿着图表的x轴描绘。沿着图表的y轴示出了四种可能的类别。在图8中所描绘的音频分类中，具有一秒的持续时间的音频部分被分类。该图表示出了在30秒的时段内检测到的类别。从一到六秒，检测到音乐类别53。从七到十四秒，检测到交谈类别57。从十五到二十秒，检测到尖叫类别55。从二十一到三十秒，再次检测到交谈类别57。在这个音频部分中没有检测到歌唱类别51。基于这些分类，从0到30秒的时间间隔可以被分类为主要是语音，因为尖叫和交谈是语音类别。

虽然在图8的示例中，每秒仅检测一个类别，但是在图9的示例中在同一时间检测多个类别。图9以图表的形式示出了第二媒体内容项目的音频分类的示例，该第二媒体内容项目是音乐视频剪辑。从0到30秒，检测到音乐类别53。从4到10秒、12到18秒、和23到30秒，检测到歌唱类别51。基于这些分类，从0到30秒的时间间隔可以被分类为主要是非语音，因为检测到30秒的音乐类别53，并且检测到22秒的歌唱类别51。

图10描绘了说明可以执行如参考图2至图7所描述的方法的示例性数据处理系统的框图。

如图10中所示，数据处理系统500可以包括通过系统总线506耦合到存储器元件504的至少一个处理器502。如此，数据处理系统可以将程序代码存储在存储器元件504内。进一步，处理器502可以执行经由系统总线506从存储器元件504访问的程序代码。在一个方面中，数据处理系统可以实现为适合于存储和/或执行程序代码的计算机。然而，应当领会，数据处理系统500可以以包括处理器和存储器的任何系统的形式来实现，该处理器和存储器能够执行本说明书内描述的功能。

存储器元件504可以包括一个或多个物理存储器设备，诸如例如本地存储器508和一个或多个大容量存储设备510。本地存储器可以指代通常在程序代码的实际执行期间使用的随机存取存储器或（多个）其他非持久性存储器设备。大容量存储设备可以实现为硬盘驱动器或其他持久性数据存储设备。处理系统500也可以包括一个或多个高速缓冲存储器（未示出），该一个或多个高速缓冲存储器提供至少一些程序代码的临时存储，以便减少在执行期间必须从大容量存储设备510检索程序代码的次数。例如，如果处理系统500是云计算平台的一部分，则处理系统500还可能能够使用另一处理系统的存储器元件。

可选地，描绘为输入设备512和输出设备514的输入/输出（i/o）设备可以耦合到数据处理系统。输入设备的示例可以包括但不限于键盘、诸如鼠标的指向设备、麦克风（例如用于嗓音和/或语音识别）等。输出设备的示例可以包括但不限于监视器或显示器、扬声器等。输入和/或输出设备可以直接或通过中间的i/o控制器耦合到数据处理系统。

在实施例中，输入和输出设备可以实现为组合的输入/输出设备（在图10中以围绕输入设备512和输出设备514的虚线示出）。这种组合的设备的示例是触敏显示器，有时也称为“触摸屏显示器”或简单地称为“触摸屏”。在这样的实施例中，可以通过物理对象（诸如例如用户的手指或手写笔）在触摸屏显示器上或附近的移动来提供对设备的输入。

网络适配器516还可以耦合到数据处理系统以使其能够通过中间的专用或公共网络耦合到其他系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可以包括用于接收由所述系统、设备和/或网络传送到数据处理系统500的数据的数据接收器，以及用于将数据从数据处理系统500传送到所述系统、设备和/或网络的数据传送器。调制解调器、线缆调制解调器和以太网卡是可以与数据处理系统500一起使用的不同类型的网络适配器的示例。

如图10中所示，存储器元件504可以存储应用程序518。在各种实施例中，应用程序518可以存储在本地存储器508、一个或多个大容量存储设备510中，或者与本地存储器和大容量存储设备分开。应当领会，数据处理系统500可以进一步执行可以促进应用程序518的执行的操作系统（图10中未示出）。以可执行程序代码的形式实现的应用程序518可以由数据处理系统500（例如由处理器502）执行。响应于执行该应用程序，数据处理系统500可以被配置成执行本文描述的一个或多个操作或方法步骤。

本发明的各种实施例可以实现为与计算机系统一起使用的程序产品，其中程序产品的（多个）程序定义实施例的功能（包括本文描述的方法）。在一个实施例中，（多个）程序可以包含在各种非暂时性计算机可读存储介质上，其中，如本文所使用的，表述“非暂时性计算机可读存储介质”包括所有计算机可读介质，唯一的例外是暂时性传播信号。在其他实施例中，（多个）程序可以包含在各种暂时性计算机可读存储介质上。说明性计算机可读存储介质包括但不限于：（i）其上永久存储信息的不可写存储介质（例如，计算机内的只读存储器设备，诸如由cd-rom驱动器可读的cd-rom盘、rom芯片、或任何类型的固态非易失性半导体存储器）；和（ii）其上存储可更改信息的可写存储介质（例如，闪存、软盘驱动器或硬盘驱动器内的软盘、或任何类型的固态随机存取半导体存储器）。计算机程序可以在本文描述的处理器502上运行。

本文使用的术语仅用于描述特定实施例的目的，并且不旨在限制本发明。如本文所使用的，单数形式“一”（“a”或“an”）和“所述”旨在也包括复数形式，除非上下文另有清晰指示。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作、元件和/或组件的存在，但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件、和/或其组合。

以下权利要求中的所有装置或步骤加功能元件的对应结构、材料、动作和等同物旨在包括用于与具体要求保护的其他所要求保护的元件组合地执行功能的任何结构、材料或动作。出于说明的目的已经呈现了本发明的实施例的描述，但不旨在穷尽或局限于所公开形式中的实施方式。在不脱离本发明的范畴和精神的情况下，许多修改和变型对于本领域普通技术人员将是清楚的。选取和描述实施例是为了最好地解释本发明的原理和一些实际应用，并且使得本领域的其他普通技术人员能够针对具有适合于考虑的特定用途的各种修改的各种实施例理解本发明。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于拓展训练的新型鼓的制作方法

基于媒体内容中的语音度来确定光效果的制作方法

相关文章

最热文献