一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

识别媒体的方法和装置与流程

2022-04-14 05:11:35 来源:中国专利 TAG:


1.本公开总体上涉及签名,并且更具体地,涉及识别媒体的方法和装置。


背景技术:

2.媒体(例如,声音、讲话、音乐、视频等)可以表示为数字数据(例如,电子的、光学的,等等)。(例如,经由麦克风和/或摄像头)捕获的媒体可以被数字化、以电子方式存储、处理和/或编目。对媒体(例如,音频信息)进行编目的一种方法是生成签名(例如,指纹、水印、音频签名、音频指纹、音频水印等)。签名是通过对媒体信号的一部分进行采样而创建的媒体数字摘要。在过去,签名被用于识别媒体和/或验证媒体的真实性。
附图说明
3.图1是包括示例中央设施和示例应用的示例环境的框图。
4.图2是示出图1的示例中央设施的进一步细节的框图。
5.图3是示出图1的示例应用的进一步细节的框图。
6.图4a和图4b例示了由图2和图3的指纹生成器生成的示例频谱图。
7.图4c例示了由图2和图3的指纹生成器生成的示例经归一化的频谱图。
8.图4d例示了由图2和图3的指纹生成器基于经归一化的频谱图生成的示例指纹的示例子指纹。
9.图5例示了示例音频样本和对应的指纹。
10.图6a和图6b是表示运行与音高偏移的、时间偏移的和/或重采样的媒体相关联的查询的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施的机器可读指令来实现。
11.图7是表示识别广播和/或呈现媒体的趋势的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施的机器可读指令来实现。
12.图8是表示对指纹进行音高偏移的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施的机器可读指令来实现。
13.图9是表示对指纹进行时间偏移的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施的机器可读指令来实现。
14.图10是表示传送与音高偏移、时间偏移和/或重采样率相关联的信息的处理的流程图,该处理可以利用可被执行以实现图1和图3的应用的机器可读指令来实现。
15.图11是被构造为执行图6a、图6b、图7、图8和图9的处理以实现图1和图2的中央设施的示例处理平台的框图。
16.图12是被构造为执行图10的处理以实现图1和图3的应用的示例处理平台的框图。
17.附图不是按比例绘制的。通常,贯穿附图和所附书面描述,将使用相同的附图标记来指代相同或相似的部分。对连接的提及(例如,附接、联接、连接和结合)将被广义地解释,并且可以包括要素集合之间的中间构件和要素之间的相对移动,除非另有说明。因此,对连
接的提及不一定推断两个要素直接连接并且彼此具有固定关系。
18.当标识可单独提及的多个元件或组件时,本文使用描述词“第一”、“第二”、“第三”等。除非根据其使用上下文另有说明或理解,否则此类描述词并非旨在赋予任何优先级、物理顺序或列表中的排列或时间排序的含义,而仅用作分别引用多个元件或组件的标签,以便于理解所公开的示例。在一些示例中,描述词“第一”可以用于指代具体实施方式中的要素,而在权利要求中可以使用不同的描述词来指代同一要素,例如“第二”或“第三”。在这种情况下,应该理解,这些描述词仅用于方便引用多个元件或组件。
具体实施方式
19.基于指纹或签名的媒体监测技术通常利用监测时间间隔期间被监测的媒体的一个或更多个固有特性,以生成针对该媒体的基本上唯一的代理(proxy)。这样的代理称为签名或指纹,并且可以采取表示媒体信号(例如,形成正被监测的媒体呈现的音频信号和/或视频信号)的任何方面的任何形式(例如,一系列数字值、波形等)。签名可以是在时间间隔内连续收集的一系列签名。术语“指纹”和“签名”在本文中可互换地使用,并且在本文中被定义成意指用于识别媒体的、根据该媒体的一个或更多个固有特性生成的代理。
20.基于签名的媒体监测通常涉及:确定(例如,生成和/或收集)表示由被监测的媒体设备输出的媒体信号(例如,音频信号和/或视频信号)的签名,并且将被监测的签名与已知的(例如,参考)媒体源所对应的一个或更多个参考签名进行比较。可以评估各种比较标准(诸如互相关值、hamming距离等),以确定被监测的签名是否匹配特定参考签名。
21.当发现被监测的签名与参考签名之一之间的匹配时,可以将被监测的媒体识别为对应于由与被监测的签名匹配的参考签名表示的特定参考媒体。由于诸如媒体标识符、呈现时间、广播频道等的属性是针对参考签名收集的,于是可以将这些属性与被监测的媒体(所述被监测的媒体的被监测的签名与参考签名匹配)相关联。基于代码和/或签名来识别媒体的示例系统是早就已知的,并且在thomas的美国专利5,481,294中首次公开,该美国专利的全部内容通过引用并入本文。
22.在过去,音频指纹识别技术使用音频信号的最响亮的部分(例如,能量最大的部分等)来在一时间段中创建指纹。例如,一些音频指纹识别技术使用具有最大能量的一个和/或多个频率范围来在一时间段中创建指纹。然而,在一些情况下,该方法具有多个严重局限性。在一些示例中,音频信号的最响亮的部分可能与噪声(例如,不想要的音频)相关联,而不是来自感兴趣的音频。例如,如果用户试图在嘈杂的餐厅中对歌曲进行指纹识别,则捕获的音频信号的最响亮的部分可能是餐厅顾客之间的对话,而不是要识别的歌曲或媒体。在该示例中,音频信号的许多采样部分将具有背景噪声而不具有音乐,这降低了所生成的指纹的有用性。
23.此外,媒体制作方(例如,无线电播音室、电视演播室、录音工作室等)在广播之前和/或在广播时间调整和/或以其他方式操纵媒体。调整可以对应于变换、音高偏移、时间偏移、重采样和/或以其他方式操纵媒体。例如,无线电播音室可以增加和/或降低音频的回放速度,以增加和/或减少在某个时间段内可以播放的媒体量。在一些示例中,如果艺术家录制另一首歌曲的翻唱,则录音工作室可以增加和/或降低所录制音频的音高,以允许艺术家以对该艺术家来说更舒适的音域来录制音乐。在附加或另选示例中,无线电播音室可以重
采样和/或以其他方式重新混合音频以调整媒体。重采样可以指在音频的音高调整与回放调整之间创建依赖关系的音频调整。例如,在重采样时,提高记录的回放速度不仅会提高音频的回放速度,还会提高音频的音高。
24.此外,唱片骑师(dj)可以在播放之前和/或在播放时调整和/或以其他方式操纵媒体。dj可以出于广播目的(例如,无线电广播、电视广播等)和/或娱乐(例如,夜总会)来调整和/或以其他方式操纵媒体。例如,dj会更改歌曲的音高和/或回放速度以获得戏剧效果、以平滑歌曲之间的过渡、和/或创建一个或更多个音频文件的组合和/或排列。例如,一些dj可以将音频的音高调整多达12%。在其他示例中,dj可以将音频的音高调整6%。此外,dj可以重采样音频以更改音频的音高和/或回放速度。如本文所用,dj是为现场听众播放音乐的人。例如,dj可以是经常在一组表演中表演的专业人士(例如,拉斯维加斯的dj、洛杉矶的dj等)。另外或另选地,dj可以是比全职dj表演频率低的半专业人士(例如,婚礼dj、为舞蹈而雇用的dj等)。在一些示例中,dj可以是为自己或有限用途混合音频的个人。
25.虽然上述对音频的音高和/或回放速度的调整可以使人听得悦耳,但对音频音高和/或回放速度的调整会更改与音频相关联的指纹和/或签名,从而对媒体识别实体的基于签名和/或指纹识别媒体的能力产生不利影响。例如,常规的指纹和/或签名生成技术不够鲁棒,无法基于已经音高偏移的、时间偏移的和/或重采样的音频来检测指纹(例如,检测音高偏移的、时间偏移的和/或重采样的音频)。相反,为了检测音高偏移的、时间偏移的和/或重采样的音频,常规技术依赖于调整音频样本以补偿猜想的音高偏移、时间偏移和/或重采样率,以便基于音高偏移的、时间偏移的和/或重采样的音频来检测指纹。例如,常规技术可以重新处理音频样本,生成调整后的样本指纹和/或调整后的样本签名,并将调整后的样本指纹和/或调整后的样本签名与一个或更多个参考指纹、参考签名和/或参考音频样本进行比较。
26.尽管检测音高偏移的音频的常规技术依赖于调整音频样本并针对调整后的音频样本生成指纹和/或签名,但本文公开的示例避免了这种处理开销并增加了音频检测。本文公开的示例不是调整音频样本以匹配参考音频样本,而是生成样本指纹和/或样本签名,然后调整样本指纹和/或样本签名以检测音高偏移的、时间偏移的和/或重采样的音频。例如,本文公开的示例可以调整样本指纹和/或样本签名以调整与样本指纹和/或样本签名相关联(例如,样本指纹和/或样本签名的、样本指纹和/或样本签名中的,等等)的仓值以适应音高偏移。另外或另选地,本文公开的示例可以调整样本签名和/或样本指纹中的帧数以适应时间偏移。
27.此外,本文公开的示例可以在一段时间内监测媒体以确定与常见的音高偏移、时间偏移和/或重采样率相关联的趋势和/或模式。例如,本文公开的示例可以基于音高偏移、时间偏移和/或重采样率的音乐性来识别音高偏移、时间偏移和/或重采样率。例如,由于百分之一到百分之五的音高偏移的音乐性,百分之一到百分之五的音高偏移可能比百分之五十的音高偏移更常见。因此,本文公开的示例可以识别音乐的音高偏移、时间偏移和/或重采样率。
28.在本文公开的一些示例中,用户设备运行从获得的音频生成样本指纹的应用。本文公开的示例进一步指示外部设备(例如,服务器、中央设施、基于云的处理器等)基于样本指纹运行查询。例如,查询可以包括对应于对与样本指纹相关联的音频信号的猜想更改的
一个或更多个音高偏移值、一个或更多个时间偏移值、以及一个或更多个重采样率。此外,本文公开的示例将调整指令(例如,查询)以及生成的(例如,样本)指纹发送到外部设备。调整指令标识外部设备应在查询中执行以尝试找到与样本指纹的匹配的一个或更多个音高偏移、时间偏移和/或重采样率。当外部设备将样本指纹与存储在外部设备处的参考指纹(例如,参考媒体指纹)匹配时,和/或将根据调整指令调整的调整后的样本指纹(例如,调整后的样本媒体指纹)与存储在外部设备处的参考指纹匹配时,外部设备发送与该匹配相对应的信息(例如,音频的作者、艺术家、标题等)。此外,如果调整后的样本指纹与参考指纹匹配,则外部设备将基于样本指纹被如何调整以与参考指纹匹配来向用户设备发送音频是如何进行音高偏移、时间偏移和/或重采样的。本文所公开的示例可以报告匹配的音频如何被音高偏移、时间偏移和/或重采样,和/或基于匹配的音频如何被音高偏移、时间偏移和/或重采样来调整后续调整指令。
29.在一些示例中,外部设备可以调整参考指纹以便将参考指纹与样本指纹匹配。例如,外部设备可以将音高偏移、时间偏移或重采样率应用于参考指纹,以便添加猜想的音高偏移、时间偏移和/或重采样率,从而外部设备可以将参考指纹与样本指纹进行比较和/或匹配。在这样的示例中,外部设备将调整后的指纹生成为(a)一个或更多个经音高偏移的参考指纹,(b)一个或更多个经时间偏移的参考指纹,和/或(c)一个或更多个经重采样的参考指纹。
30.图l是示例环境100的框图。示例环境100包括示例客户端设备102、示例网络104、示例无线通信系统106、示例最终用户设备108、示例媒体广播方110和示例中央设施112。示例客户端设备102和示例最终用户设备108中的每一者包括示例应用114。
31.在图1的示例中,客户端设备102是膝上型计算机。例如,客户端设备102可以是公司员工的工作用膝上型计算机,该公司拥有歌曲或其他媒体的主许可证的权利(例如,发行方、唱片公司等)。在附加或另选示例中,客户端设备102可以是任何数量的台式计算机、膝上型计算机、工作站、移动电话、平板计算机、服务器、任何合适的计算设备或其组合。客户端设备102包括应用114。
32.在图1所示的示例中,客户端设备102在通信上联接到网络104和无线通信系统106。例如,客户端设备102可以经由示例客户端设备通信链路116与无线通信系统106通信。客户端设备102被配置为与最终用户设备108、媒体制作方110、中央设施112和/或被配置为经由网络104和/或无线通信系统106通信的任何其他设备中的一者或更多者通信。
33.在图1所示的示例中,客户端设备102可以收集和/或以其他方式获得音频信号(例如,音频样本)。例如,客户端设备102可以收集从媒体制作方110(例如,通过无线电)发送的音频信号和/或与媒体制作方110播放的音乐(例如,由夜总会、舞会和其他活动中的dj播放的音乐)相对应的音频信号。客户端设备102可以被配置为执行应用114以生成一个或更多个指纹和/或签名以及包括对音频信号的猜想音高偏移、时间偏移和/或混合的查询。
34.在图1所示的示例中,网络104是因特网。在其他示例中,网络104可以使用任何合适的有线和/或无线网络来实现,包括例如一个或更多个数据总线、一个或更多个局域网(lan)、一个或更多个无线lan、一个或更多个蜂窝网络、一个或更多个专用网络、一个或更多个公共网络等。网络104联接到客户端设备102、无线通信系统106、媒体制作方110和中央设施112。网络104另外经由客户端设备通信链路116和无线通信系统106联接到客户端设备
102。网络104还经由示例最终用户设备通信链路118和无线通信系统106联接到最终用户设备108。
35.在图1的示例中,示例网络104使客户端设备102、最终用户设备108、媒体制作方110和中央设施112中的一者或更多者能够与客户端设备102、最终用户设备108、媒体制作方110和中央设施112中的一者或更多者通信。如本文所使用的,短语“进行通信”(包括其变型)涵盖直接通信和/或通过一个或更多个中间组件的间接通信,并且不需要直接的物理(例如,有线)通信和/或持续通信,而是另外地包括按照定期或非定期间隔以及一次性事件的选择性通信。
36.在图1所示的示例中,最终用户设备108是蜂窝电话。例如,最终用户设备108可以是用于个人和/或专业用途的蜂窝电话。在附加或另选示例中,最终用户设备108可以是任何数量的台式计算机、膝上型计算机、工作站、移动电话、平板计算机、服务器、任何合适的计算设备或其组合。最终用户设备108包括应用114。
37.在图1所示的示例中,最终用户设备108在通信上联接到无线通信系统106。例如,最终用户设备108可以经由最终用户设备通信链路118与无线通信系统106通信。最终用户设备108被配置为与客户端设备102、媒体制作方110、中央设施112和/或被配置为经由网络104和/或无线通信系统106通信的任何其他设备中的一者或更多者通信。
38.在图1所示的示例中,最终用户设备108可以收集和/或以其他方式获得音频信号(例如,音频样本)。例如,最终用户设备108可以收集从媒体制作方110(例如,通过无线电)发送的音频信号和/或与媒体制作方播放的音乐(例如,由夜总会、舞会和其他活动中的dj播放的音乐)相对应的音频信号。最终用户设备108可以被配置为执行应用114以生成一个或更多个指纹和/或签名以及包括对音频信号的猜想音高偏移、时间偏移和/或混合的查询。在一些示例中,最终用户设备108可以实现为客户端设备102。在附加或另选示例中,客户端设备102可以实现为最终用户设备108。
39.在图1所示的示例中,媒体制作方110是制作一种或更多种媒体形式(例如,音频信号、视频信号等)的实体。例如,媒体制作方110可以是无线电播音室、电视演播室、录音工作室、dj和/或任何其他媒体制作实体。媒体制作方110可以在播放之前和/或在播放时调整和/或以其他方式操纵媒体。例如,媒体制作方110可以更改媒体的音高和/或回放速度。例如,媒体制作方110可以将音频的音高调整多达12%。在其他示例中,媒体制作方110可以将音频的音高调整6%。此外,媒体制作方110可以重采样音频以更改音频的音高和/或回放速度。
40.在图1的示例中,中央设施112是服务器,其收集和处理来自客户端设备102、最终用户设备108和/或媒体制作方110的媒体,以生成与从客户端设备102、最终用户设备108和媒体制作方110中的一者或更多者接收到的媒体中包括的音频信号相关的度量和/或其他报告。例如,中央设施112可以从客户端设备102和/或最终用户设备108接收一个或更多个指纹和/或签名和/或包括猜想的音高偏移、时间偏移和/或重采样率的查询。查询可以指示客户端设备102和/或最终用户设备108的用户猜想可能对应于从客户端设备102和/或最终用户设备108接收到的一个或更多个指纹和/或签名的音高偏移、时间偏移和/或重采样率的列表。
41.在这样的示例中,中央设施112可以调整来自客户端设备102和/或最终用户设备
108的一个或更多个指纹和/或签名,和/或可以调整一个或更多个参考指纹和/或参考签名,以识别猜想的音高偏移、时间偏移和/或重采样率中的一者或更多者是否被应用于音频。例如,中央设施112可以调整来自客户端设备102和/或最终用户设备108的一个或更多个指纹和/或签名,以确定来自客户端设备102和/或最终用户设备108的一个或更多个指纹和/或签名是否匹配一个或更多个参考指纹和/或签名。在一些示例中,中央设施112可以调整一个或更多个参考指纹和/或参考签名,以确定一个或更多个参考指纹和/或签名是否匹配来自客户端设备102和/或最终用户设备108的一个或更多个指纹和/或签名。在一些示例中,中央设施112可以串行地处理查询。例如,中央设施112可以测试包括在查询中的每个猜想音高偏移直到找到匹配,然后测试包括在查询中的每个猜想时间偏移直到找到匹配,然后测试包括在查询中的每个猜想重采样率直到找到匹配。在附加或另选示例中,中央设施112可以并行处理查询。例如,中央设施112可以同时或以基本相似的时间处理包括在查询中的每个猜想音高偏移、每个猜想时间偏移和每个猜想重采样率。
42.在这样的示例中,在处理指纹和/或签名以及从客户端设备102和/或最终用户设备108接收的查询之后,中央设施112可以生成指示以下项的报告:(a)匹配与查询相关联的音频信号的音频信号,以及(b)当被应用于来自客户端设备102和/或最终用户设备108的一个或更多个指纹和/或签名时,猜想音高偏移、猜想时间偏移和/或猜想重采样率中的哪一个(如果有的话)对应于中央设施112的任何参考指纹和/或参考签名。在附加或另选示例中,报告可以指示:(a)匹配与查询相关联的音频信号的音频信号,以及(b)当被应用于中央设施112的一个或更多个参考指纹和/或参考签名时,导致一个或更多个参考指纹和/或参考签名匹配来自客户端设备102和/或最终用户设备108的一个或更多个指纹和/或签名的猜想音高偏移、猜想时间偏移和/或猜想重采样率中的哪一个(如果有的话)对应于任何参考指纹和/或参考签名。
43.在附加或另选示例中,中央设施112可以从媒体制作方110接收媒体(例如,音频信号)以生成一个或更多个指纹和/或签名。在这样的示例中,中央设施112可以分析媒体(例如,音频信号)以生成一个或更多个样本指纹和/或样本签名。此外,中央设施112可以调整一个或更多个样本指纹和/或样本签名以适应一个或更多个音高偏移、一个或更多个时间偏移和/或一个或更多个重采样率。在一些示例中,中央设施112可以调整一个或更多个参考指纹和/或参考签名,以适应一个或更多个音高偏移、一个或更多个时间偏移和/或一个或更多个重采样率。此外,对于生成的每个样本指纹和/或样本签名,中央设施112可以将从接收自媒体制作方110的媒体生成的调整后的样本指纹和/或样本签名与一个或更多个参考指纹和/或参考签名进行比较。中央设施112可以识别从接收自媒体制作方110的媒体生成的与参考指纹和/或参考签名匹配的那些调整后的样本指纹和/或样本签名,以及调整后的样本指纹和/或样本签名的音高偏移、时间偏移和/或重采样率。
44.在一些示例中,中央设施112可以调整一个或更多个参考指纹和/或参考签名,以适应一个或更多个音高偏移、一个或更多个时间偏移和/或一个或更多个重采样率。此外,对于生成的每个样本指纹和/或样本签名,中央设施112可以将调整后的参考指纹和/或参考签名与从接收自媒体制作方110的媒体生成的一个或更多个样本指纹和/或样本签名进行比较。中央设施112可以识别由中央设施112生成的与样本指纹和/或样本签名匹配的那些调整后的参考指纹和/或参考签名,以及调整后的参考指纹和/或参考签名的音高偏移、
时间偏移和/或重采样率。
45.在阈值时间段过去之后,中央设施112可以处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率,以生成报告,该报告将各个音高偏移、时间偏移和/或重采样率的出现频率进行比较。在附加或另选示例中,中央设施112可以连续地处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率。在一些示例中,中央设施112可以在已经接收到阈值量的数据之后处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率。
46.为了处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率,中央设施112可以例如生成一个或更多个直方图,该直方图标识每个音高偏移的出现频率、每个时间偏移的出现频率,和/或每个重采样率的出现频率(例如,一个或更多个出现频率)。例如,中央设施112可以生成包括以下项的报告:分别比(a)一个或更多个另外的音高偏移值、(b)一个或更多个另外的时间偏移值、或(c)一个或更多个另外的重采样率具有更高出现频率的(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值、或(c)一个或更多个重采样率。
47.在附加或另选示例中,中央设施112可以生成一个或合适的图形分析工具以识别每个音高偏移、时间偏移和/或重采样率的出现频率。例如,中央设施112可以生成时间线,该时间线标识每个音高偏移、时间偏移和/或重采样率随时间的出现频率。在这样的示例中,时间线可以为在一段时间内使用的音高偏移、时间偏移和/或重采样率的类型提供便利。
48.在图1所示的示例中,中央设施112可以接收和/或获得包括媒体(例如,音频信号)、指纹、签名和/或查询的因特网消息(例如,超文本传输协议(http)请求)。附加地或另选地,可以使用任何其他方法来接收和/或获得计量信息,例如http安全协议(https)、文件传输协议(ftp)、安全文件传输协议(sftp)),等等。
49.在一些示例中,中央设施112可以调整参考指纹以便将参考指纹与样本指纹匹配。例如,中央设施112可以将音高偏移、时间偏移或重采样率应用于参考指纹,以便添加猜想的音高偏移、时间偏移和/或重采样率,使得中央设施112可以将参考指纹与样本指纹进行比较和/或匹配。在这样的示例中,中央设施112将调整后的指纹生成为(a)一个或更多个经音高偏移的参考指纹,(b)一个或更多个经时间偏移的参考指纹,和/或(c)一个或更多个经重采样的参考指纹。
50.在这样的示例中,如果查询指示客户端和/或用户猜想参考指纹对应于已被音高上移的音频信号,则中央设施112可以基于(例如,通过等)猜想的音高偏移值来增加与参考指纹相关联(例如,参考指纹的、在参考指纹中的,等等)的仓值。如果查询指示客户端和/或用户猜想参考指纹对应于已被音高下移的音频信号,则中央设施112可以基于(例如,通过等)猜想的音高偏移值来减少与参考指纹相关联(例如,参考指纹的、在参考指纹中的,等等)的仓值。
51.在附加或另选示例中,如果查询指示客户端和/或用户猜想参考指纹对应于已被时间上移的音频信号,则中央设施112可以在参考指纹中的对应于时间偏移值的位置处删除参考指纹的帧。如果查询指示客户端和/或用户猜想参考指纹对应于已被时间下移的音频信号,则中央设施112可以在参考指纹中对应于时间偏移值的位置处复制参考指纹的帧。
52.在图1的示例中,应用114可以由一个或更多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、图形处理单元(gpu)、数字信号处理器(dsp)、专用集成电路(asic)、
可编程逻辑器件(pld)和/或现场可编程逻辑器件(fpld)来实现。应用114被配置为获得一个或更多个音频信号(例如,来自媒体制作方110的音频信号和/或来自麦克风的环境音频),从一个或更多个音频信号生成一个或更多个样本指纹和/或样本签名,以及响应于来自客户端设备102和/或最终用户设备108的用户的一个或更多个指示而发送一个或更多个样本指纹和/或样本签名和调整指令(例如,包括被猜想在一个或更多个音频信号中实现的一个或更多个音高偏移、时间偏移和/或重采样率的查询)。在一些示例中,查询指示该查询要被串行还是并行处理。应用114还被配置为接收对查询的响应,并且当样本指纹和/或样本签名中的一者或更多者匹配一个或更多个音高偏移、时间偏移和/或重采样率时,应用114可以生成标识以下项的报告:(a)匹配与查询相关联的音频信号的音频信号,以及(b)猜想音高偏移、猜想时间偏移和/或猜想重采样率中的哪一个匹配与查询相关联的音频信号。示例应用114可以向用户显示报告(例如,经由最终用户设备108的用户界面),在本地存储报告,和/或将报告发送到示例客户端设备102。
53.在一些示例中,应用114可以实现中央设施112的功能。在附加或另选示例中,中央设施112可以实现应用114的功能。在一些示例中,中央设施112的功能和应用114的功能可以以适合于应用的方式分散在中央设施112与应用114之间。例如,中央设施112可以将应用114从中央设施112发送到客户端设备102和/或最终用户设备108以安装在客户端设备102和/或最终用户设备108上。
54.在一些示例中,客户端设备102和最终用户设备108可能无法经由网络104向中央设施112发送信息。例如,客户端设备102和/或最终用户设备108上游的服务器可能不向中央设施112提供功能性路由能力。在图1所示的示例中,客户端设备102包括经由客户端设备通信链路116通过无线通信系统106(例如,蜂窝通信系统)发送信息的附加能力。最终用户设备108包括经由最终用户设备通信链路118通过无线通信系统106发送信息的附加能力。
55.图1所示示例的客户端设备通信链路116和最终用户设备通信链路118是蜂窝通信链路。然而,可以附加地或另选地使用任何其他通信方法和/或通信系统,例如以太网连接、蓝牙连接、wi-fi连接等。此外,图1的客户端设备通信链路116和最终用户设备通信链路118实现经由全球移动通信系统(gsm)的蜂窝连接。然而,可以使用用于通信的任何其他系统和/或协议,例如时分多址(tdma)、码分多址(cdma)、微波接入全球互操作性(wimax)、长期演进(lte),等等。
56.图2是示出图1的示例中央设施112的进一步细节的框图。示例中央设施112包括示例网络接口202、示例指纹音高调谐器204、示例指纹速度调谐器206、示例查询比较器208、示例指纹生成器210、示例媒体处理器212、示例报告生成器214、和示例数据库216。
57.在图2的示例中,网络接口202被配置为从图1的网络104获得信息和/或向网络104发送信息。网络接口202实现从客户端设备102、最终用户设备108或媒体制作方110中的一者或更多者接收指纹、签名、媒体(例如,音频信号)、查询和/或其他信息的web服务器。指纹、签名、媒体(例如,音频信号)、查询和/或其他信息可以被格式化为http消息。然而,可以附加地或另选地使用任何其他消息格式和/或协议,例如ftp、smtp、https协议等。附加地或另选地,媒体(例如,音频信号)可以作为无线电波形、mp3文件、mp4文件和/或任何其他合适的音频格式来接收。
58.在图2所示的示例中,网络接口202被配置为从设备(例如,客户端设备102、最终用
户设备108、媒体制作方110)获得一个或更多个指纹、签名、查询和/或媒体。网络接口202还可以被配置为识别何时选择以并行方式或串行方式处理查询。此外,网络接口202还被配置为识别查询是否包括猜想音高偏移、猜想时间偏移和/或猜想重采样率。当查询包括一个或更多个猜想音高偏移、一个或更多个猜想时间偏移和/或一个或更多个猜想重采样率时,网络接口202可以选择:(a)一个或更多个猜想音高偏移之一供中央设施112处理,(b)一个或更多个猜想时间偏移之一供中央设施112处理,和/或(c)一个或更多个猜想重采样率之一供中央设施112处理。
59.在图2的示例中,网络接口202还可以被配置为识别查询中是否存在另外的猜想音高偏移、查询中是否存在另外的猜想时间偏移和/或查询中是否存在另外的猜想重采样率。此外,网络接口202可以识别中央设施112是否已经从网络104中的其他设备(例如,客户端设备102、最终用户设备108等)接收和/或以其他方式获得了另外的查询。网络接口202还可以向网络104中的设备(例如,客户端设备102、最终用户设备108等)发送报告和/或其他信息。
60.在一些示例中,示例网络接口202实现用于接口的示例手段。该接口手段通过诸如至少由图6a的框602、604、606、608、610、616、620、622、628、632、634、642、646和650实现的可执行指令之类的可执行指令实现。附加地或另选地,该接口手段通过诸如至少由图6b的框652、654、662、664、674、676、684和688实现的可执行指令之类的可执行指令实现。在一些示例中,该接口手段通过诸如至少由图7的框702、732、736和744实现的可执行指令之类的可执行指令实现。图6a、图6b和图7的框602、604、606、608、610、616、620、622、628、632、634、642、646、650、652、654、662、664、674、676、684、688、702、732、736和744的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该接口手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
61.在图2的示例中,指纹音高调谐器204是一种可以调整一个或更多个样本指纹和/或样本签名和/或一个或更多个参考指纹和/或参考签名的音高的装置。例如,指纹和/或签名可以表示为音频信号的频谱图。该频谱图可以包括具有对应的仓值的一个或更多个仓。为了调整样本指纹和/或样本签名的音高,指纹音高调谐器204可以从数据库216和/或经由网络接口202从网络104获得一个或更多个样本指纹和/或样本签名。此外,指纹音高调谐器204可以识别由网络接口202识别的猜想音高偏移是增加还是减小对应于样本指纹的音频信号的音高。
62.在图2所示的示例中,如果猜想的音高偏移增加了音频信号的音高,则指纹音高调谐器204可以基于(例如,通过等)猜想的音高偏移来减小与样本指纹和/或样本签名相关联的(例如,样本指纹和/或样本签名的、样本指纹和/或样本签名中的,等等)仓值。例如,如果猜想的音高偏移是5%的音高增加,则指纹音高调谐器204可以将样本指纹和/或样本签名的仓值乘以95%(例如,0.95)。如果猜想的音高偏移减小了音频信号的音高,则指纹音高调谐器204可以基于(例如,通过等)猜想的音高偏移来增加与样本指纹和/或样本签名相关联的(例如,样本指纹和/或样本签名的、样本指纹和/或样本签名中的,等等)仓值。例如,如果猜想的音高偏移是5%的音高降低,则指纹音高调谐器204可以将样本指纹和/或样本签名的仓值乘以105%(例如,1.05)。另外,响应于包括一个或更多个重采样率的查询,指纹音高调谐器204或指纹速度调谐器206中的至少一者可以通过将重采样率应用于样本指纹来生
成调整后的样本指纹。
63.在一些示例中,当调整与样本指纹相关联的仓值时,指纹音高调谐器204可以四舍五入到最接近的仓值。例如,样本指纹可以在仓值100、250、372、491、522、633、725、871、905和910中包含数据值1。如果指纹音高调谐器204将对应于样本指纹的音频信号的音高增加10%的猜想音高偏移应用于样本指纹,则调整后的仓值可以是90、225、334.8、441.9、469.8、569.7、652.5、783.9、814.5和819。在这样的示例中,指纹音高调谐器204可以向上舍入仓值,使得经音高偏移的样本指纹在仓值90、225、335、442、470、570、653、784、815和819处包含数据值1。
64.在附加或另选示例中,样本指纹可以在仓值100、250、372、491、522、633、725、871、905和910中包含数据值1。如果指纹音高调谐器204将对应于样本指纹的音频信号的音高降低10%的猜想音高偏移应用于样本指纹,则调整后的仓值可以是110、275、409.2、540.1、574.2、696.3、797.5、958.1、995.5和1,001。在这样的示例中,指纹音高调谐器204可以向上舍入仓值,使得经音高偏移的样本指纹在仓值110、275、409、540、574、696、798、958、996和1,001处包含数据值1。
65.在一些示例中,中央设施112可以调整参考指纹以便将参考指纹与样本指纹匹配。例如,中央设施112可以对参考指纹应用音高偏移、时间偏移或重采样率,以便添加猜想的音高偏移、时间偏移和/或重采样率,使得中央设施112可以将参考指纹与样本指纹进行比较和/或匹配。在这样的示例中,中央设施112将调整后的指纹生成为(a)一个或更多个经音高偏移的参考指纹,(b)一个或更多个经时间偏移的参考指纹,和/或(c)一个或更多个经重采样的参考指纹。
66.例如,如果猜想的音高偏移增加了音频信号的音高,则指纹音高调谐器204可以基于(例如,通过等)猜想的音高偏移来增加与参考指纹和/或参考签名相关联的(例如,参考指纹和/或参考签名的、参考指纹和/或参考签名中的,等等)仓值。例如,如果猜想的音高偏移是5%的音高增加,则指纹音高调谐器204可以将参考指纹和/或参考签名的仓值乘以105%(例如,1.05)。如果猜想的音高偏移降低了音频信号的音高,则指纹音高调谐器204可以基于(例如,通过等)猜想的音高偏移来降低与参考指纹和/或参考签名相关联的(例如,参考指纹和/或参考签名的、参考指纹和/或参考签名中的,等等)仓值。例如,如果猜想的音高偏移是5%的音高降低,则指纹音高调谐器204可以将参考指纹和/或参考签名的仓值乘以95%(例如,0.95)。在附加或另选示例中,如果查询指示客户端和/或用户猜想样本指纹对应于已经时间上移的音频信号,则中央设施112可以在参考指纹中的对应于时间偏移值的一个或更多个位置处删除参考指纹的帧。
67.在一些示例中,示例指纹音高调谐器204实现用于音高调谐的示例手段。音高调谐手段通过诸如至少由图6a的框612和636实现的可执行指令之类的可执行指令实现。附加地或另选地,该音高调谐手段通过诸如至少由图6b的框656和666实现的可执行指令之类的可执行指令实现。在一些示例中,该音高调谐手段通过诸如至少由图7的框708和720实现的可执行指令之类的可执行指令实现。在一些示例中,该音高调谐手段通过诸如至少由图8的框802、804、806、808和810实现的可执行指令之类的可执行指令实现。图6a、图6b、图7和图8的框612、636、656、666、708、720、802、804、806、808和810的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该音高调谐手段由硬件逻辑、硬件
实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
68.在图2所示的示例中,指纹速度调谐器206是一种可以调整一个或更多个样本指纹和/或样本签名的和/或一个或更多个参考指纹和/或参考签名的回放速度的装置。例如,指纹和/或签名可以表示为音频信号的频谱图。该频谱图可以包括可被称为子指纹的一个或更多个帧。该频谱图可以包括针对给定音频样本长度的预定义数量的子指纹。本文公开的示例基于指纹和/或签名中子指纹的间距来识别经时间偏移的媒体。为了调整样本指纹和/或样本签名的回放速度,指纹速度调谐器206可以从数据库216和/或经由网络接口202从网络104获得一个或更多个样本指纹和/或样本签名。此外,指纹速度调谐器206可以识别由网络接口202识别的猜想时间偏移增加还是降低了对应于样本指纹的音频信号的回放速度。
69.在图2所示的示例中,如果猜想的时间偏移增加了音频信号的回放速度,则指纹速度调谐器206可以基于增加的回放速度来修改样本指纹和/或样本签名。例如,如果猜想的时间偏移增加了回放速度,则指纹速度调谐器206可以在样本指纹和/或样本签名中的对应于1除以时间偏移的百分比的一个或更多个位置处将子指纹添加到样本指纹和/或样本签名。例如,如果猜想的时间偏移对应于回放速度增加5%,则指纹速度调谐器206可以在样本指纹和/或样本签名的每20个帧处(例如,100%
÷
5%),针对样本指纹和/或样本签名的长度,将一个或更多个帧添加(例如,复制)到样本指纹和/或样本签名中(例如,复制样本指纹和/或样本签名的第20个、第40个、第60个、第80个、第100个、第120个子指纹,等等)。在这样的示例中,如果猜想回放速度增加了5%的样本指纹和/或样本签名最初包括400帧,则经时间偏移的样本指纹和/或经时间偏移的样本签名可以包括420帧(例如,400 (400*0.05))。
70.在一些示例中,当适应猜想的音高偏移时,指纹速度调谐器206可以四舍五入到最近的帧。例如,样本指纹可以包括帧(例如,子指纹)1、2、3、4、5、6、7、8、9和10。如果指纹速度调谐器206对样本指纹应用了与样本指纹的音频信号的回放时间增加10%相对应的猜想时间偏移,则指纹速度调谐器206可以将帧数乘以基于猜想的时间偏移的百分比。例如,回放速度提高10%可以对应于倍增因子1.1。当指纹速度调谐器206应用了这种时间偏移时,调整后的帧值可以是1.1、2.2、3.3、4.4、5.5、6.6、7.7、8.8、9.9和11。在这样的示例中,指纹速度调谐器206可以将帧向上舍入,使得经时间偏移的样本指纹包括帧1、2、3、4、5、6、7、8、9、10和11。在这样的示例中,可以复制第5帧。在一些示例中,指纹速度调谐器206可以通过在第4帧与第6帧之间内插来生成第5帧。
71.在附加或另选示例中,回放速度增加10%可以对应于倍增因子1.1。当指纹速度调谐器206应用了这种时间偏移时,调整后的帧值可以是1.1、2.2、3.3、4.4、5.5、6.6、7.7、8.8、9.9和11。在这样的示例中,指纹速度调谐器206可以将帧向上舍入,使得经时间偏移的样本指纹包括具有帧1、2、3、4、5、7、8、9、10和11处的数据的帧。
72.在图2的示例中,如果猜想的时间偏移降低了音频信号的回放速度,则指纹速度调谐器206可以基于降低的回放速度来修改样本指纹和/或样本签名。例如,如果猜想的时间偏移降低了回放速度,则指纹速度调谐器206可以在样本指纹和/或样本签名中的对应于1除以时间偏移的百分比的一个或更多个位置处从样本指纹和/或样本签名去除子指纹。例如,如果猜想的时间偏移对应于回放速度降低5%,则指纹速度调谐器206可以在样本指纹和/或样本签名的每20个帧(例如,100%
÷
5%)处,针对样本指纹和/或样本签名的长度,从样本指纹和/或样本中去除(例如,删除)一个或更多个帧(例如,从样本指纹和/或样本中去
除第20个、第40个、第60个、第80个、第100个、第120个子指纹,等等)。在这样的示例中,如果猜想回放速度降低了5%的样本指纹和/或样本签名最初包括400帧,则经时间偏移的样本指纹和/或经时间偏移的样本签名可以包括380帧(例如,400-(400*0.05))。另外,响应于包括一个或更多个重采样率的查询,指纹音高调谐器204或指纹速度调谐器206中的至少一者可以通过将重采样率应用于样本指纹来生成调整后的样本指纹。
73.在一些示例中,当适应猜想的音高偏移时,指纹速度调谐器206可以四舍五入到最近的帧。例如,样本指纹可以包括帧(例如,子指纹)1、2、3、4、5、6、7、8、9和10。如果指纹速度调谐器206对样本指纹应用了与样本指纹的音频信号的回放时间减少10%相对应的猜想时间偏移,则指纹速度调谐器206可以将帧数乘以基于猜想的时间偏移的百分比。例如,回放速度降低10%可以对应于倍增因子0.9。当指纹速度调谐器206应用了这种时间偏移时,调整后的帧值可以是0.9、1.8、2.7、3.6、4.5、5.4、6.3、7.2、8.1和9.1。在这样的示例中,指纹速度调谐器206可以将帧向上舍入,使得经时间偏移的样本指纹包括帧1、2、3、4、5、6、7、8和9。在这样的示例中,可以删除原始样本指纹的第5帧,因为在调整时,原始样本指纹的第4帧现在占据了经时间偏移的样本指纹的第5帧。
74.在一些示例中,中央设施112可以调整参考指纹以便将参考指纹与样本指纹匹配。例如,中央设施112可以将音高偏移、时间偏移或重采样率应用于参考指纹,以便添加猜想的音高偏移、时间偏移和/或重采样率,使得中央设施112可以将参考指纹与样本指纹(例如,样本媒体指纹)进行比较和/或匹配。在这样的示例中,中央设施112将调整后的指纹生成为(a)一个或更多个经音高偏移的参考指纹,(b)一个或更多个经时间偏移的参考指纹,和/或(c)一个或更多个经重采样的参考指纹。
75.在图2所示的示例中,如果猜想的时间偏移增加了音频信号的回放速度,则指纹速度调谐器206可以基于增加的回放速度来修改参考指纹和/或参考签名。例如,如果猜想的时间偏移增加了回放速度,则指纹速度调谐器206可以在参考指纹和/或参考签名中的对应于1除以时间偏移的百分比的一个或更多个位置处从参考指纹和/或参考签名中去除(例如,删除)子指纹。例如,如果猜想的时间偏移对应于回放速度增加5%,则指纹速度调谐器206可以在参考指纹和/或参考签名的每20个帧(例如,100%
÷
5%)处,针对参考指纹和/或参考签名的长度,从参考指纹和/或参考签名中去除(例如,删除)一个或更多个帧(例如,从参考指纹和/或参考签名中去除第20个子指纹)。
76.在图2的示例中,如果猜想的时间偏移降低了音频信号的回放速度,则指纹速度调谐器206可以基于降低的回放速度来修改参考指纹和/或参考签名。例如,如果猜想的时间偏移降低了回放速度,则指纹速度调谐器206可以在参考指纹和/或参考签名中的对应于1除以时间偏移的百分比的一个或更多个位置处重复(例如,复制)参考指纹和/或参考签名的子指纹。例如,如果猜想的时间偏移对应于回放速度降低5%,则指纹速度调谐器206可以在参考指纹和/或参考签名的每20个帧(例如,100%
÷
5%)处,针对参考指纹和/或参考签名的长度,重复(例如,复制)参考指纹和/或参考签名的一个或更多个帧(例如,从参考指纹和/或参考签名中去除第20个子指纹)。
77.在一些示例中,示例指纹速度调谐器206实现用于速度调谐的示例手段。速度调谐手段通过诸如至少由图6a的框624和638实现的可执行指令之类的可执行指令实现。附加地或另选地,该速度调谐手段通过诸如至少由图6b的框668和678实现的可执行指令之类的可
执行指令实现。在一些示例中,该速度调谐手段通过诸如至少由图7的框714和722实现的可执行指令之类的可执行指令实现。在一些示例中,该速度调谐手段通过诸如至少由图9的框902、904、906、908和910实现的可执行指令之类的可执行指令实现。图6a、图6b、图7和图9的框624、638、668、678、714、722、902、904、906、908和910的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该速度调谐手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
78.在附加或另选示例中,中央设施112可以包括实现指纹音高调谐器204和指纹速度调谐器206的功能的任何数量的指纹调谐器(例如,一指纹调谐器、多个指纹调谐器等)。
79.在图2所示的示例中,查询比较器208是将调整后的样本指纹和/或调整后的样本签名与参考指纹和/或参考签名进行比较和/或将调整后的参考指纹和/或调整后的参考签名与样本指纹和/或样本签名进行比较的装置。另外或另选地,查询比较器208可以将一个或更多个经音高偏移的样本指纹与参考指纹进行比较。响应于确定经音高偏移的样本指纹与参考指纹匹配,查询比较器208可以指示与参考指纹匹配的猜想音高偏移。在一些示例中,查询比较器208可以将一个或更多个经时间偏移的样本指纹与参考指纹进行比较,并且响应于确定经时间偏移的样本指纹与参考指纹匹配,查询比较器208可以指示与参考指纹匹配的猜想时间偏移。
80.在一些示例中,查询比较器208可以将一个或更多个经音高偏移的参考指纹与样本指纹进行比较。响应于确定经音高偏移的参考指纹与样本指纹匹配,查询比较器208可以指示与样本指纹匹配的猜想的音高偏移。在一些示例中,查询比较器208可以将一个或更多个经时间偏移的样本指纹与样本指纹进行比较,并且响应于确定经时间偏移的参考指纹与样本指纹匹配,查询比较器208可以指示与样本指纹匹配的猜想时间偏移。
81.在一些示例中,指纹音高调谐器204和指纹速度调谐器206可以结合使用以适应猜想的重采样率。例如,重采样率可以指示音高偏移值和/或时间偏移值。在这样的示例中,查询比较器208可以将一个或更多个经重采样的样本指纹和/或经重采样的参考指纹分别与参考指纹和/或样本指纹进行比较。响应于确定经重采样的样本指纹(例如,经重采样的样本媒体指纹)匹配参考指纹和/或经重采样的参考指纹匹配样本指纹,查询比较器208可以分别指示与参考指纹和/或样本指纹匹配的猜想重采样率。例如,查询比较器208可以指示与参考指纹匹配的重采样率的音高偏移和时间偏移。
82.在一些示例中,示例查询比较器208实现用于比较的示例手段。该比较手段通过诸如至少由图6a的框614、618、626、630、640和644实现的可执行指令之类的可执行指令实现。附加地或另选地,该比较手段通过诸如至少由图6b的框658、660、670、672、680和682实现的可执行指令之类的可执行指令实现。在一些示例中,该比较手段通过诸如至少由图7的框710、712、716、718、724和726实现的可执行指令之类的可执行指令实现。图6a、图6b和图7的框614、618、626、630、640、644、658、660、670、672,680,682,710,712,716,718,724和726的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该比较手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
83.在图2的示例中,指纹生成器210是可以从采样媒体(例如,音频信号)生成一个或更多个样本指纹和/或一个或更多个样本签名的装置。例如,指纹生成器210可以将音频信
号(例如,经数字化的音频信号)分成时间-频率仓和/或音频信号频率分量。例如,指纹生成器210可以对音频信号执行快速傅立叶变换(fft),以将音频信号变换到频域。
84.另外地,示例指纹生成器210可以将变换后的音频信号分成两个或更多个频率仓(例如,使用hamming函数、hann函数等)。在该示例中,各个音频信号频率分量与两个或更多个频率仓中的频率仓相关联。另外地或另选地,指纹生成器210可以将音频信号聚合成一个或更多个时间段(例如,音频的持续时间、六秒的时段、1秒的时段等)。在其它示例中,指纹生成器210可以使用任何合适的技术来变换音频信号(例如,离散傅立叶变换、滑动时间窗口傅立叶变换、小波变换、离散hadamard变换、离散walsh hadamard、常数q变换、离散余弦变换等)。在一些示例中,指纹生成器210可以包括一个或更多个带通滤波器(bpf)。在一些示例中,处理后的音频信号可以由频谱图表示。下面结合图4a至图4b讨论生成频谱图的指纹生成器210的处理。
85.在图2的示例中,指纹生成器210可以确定音频信号的一部分(例如,音频信号频率分量、时间-频率仓周围的音频区域等)的音频特性。例如,指纹生成器210可以确定音频信号频率分量中的一个或更多个音频信号频率分量的均值能量(例如,平均功率等)。另外地或另选地,指纹生成器210可以确定音频信号的一部分的其它特性(例如,众数能量、中值能量、众数功率、中值能量、均值能量、均值幅度等)。
86.在图2的所示示例中,指纹生成器210按周围音频区域的关联的音频特性对一个或更多个时间-频率仓进行归一化。例如,指纹生成器210可以按周围音频区域的均值能量对时间-频率仓进行归一化。在其它示例中,指纹生成器210按关联的音频特性对音频信号频率分量中的一些音频信号频率分量进行归一化。例如,指纹生成器210可以使用与音频信号频率分量相关联的均值能量来对该音频信号频率分量的各个时间-频率仓进行归一化。在一些示例中,处理后的仓(例如,经归一化的时间-频率仓、经归一化的音频信号频率分量等)可以表示为频谱图。下面结合图4c讨论生成经归一化的频谱图的指纹生成器210的处理。
87.在图2的所示示例中,指纹生成器210可以从经归一化的音频信号选择要被用于生成指纹和/或签名的一个或更多个点。例如,指纹生成器210可以选择经归一化的音频信号的多个能量最大值。在其它示例中,指纹生成器210可以选择经归一化的音频的任何其它合适的点。下面结合图4d和图5讨论生成指纹的指纹生成器210的处理。
88.另外地或另选地,指纹生成器210可以基于音频信号的类别来对点的选择进行加权。例如,如果音频信号的类别是音乐,则指纹生成器210可以将点的选择侧重到音乐的常见频率范围(例如,低音、高音等)中。在一些示例中,指纹生成器210可以确定音频信号的类别(例如,音乐、讲话、音效、广告等)。示例指纹生成器210使用所选择的点来生成指纹和/或签名。示例指纹生成器210可以使用任何合适的方法根据所选择的点生成指纹。在coover等人的美国专利申请16/453,654中公开了经由归一化对音频信号进行指纹识别的示例方法和装置,该专利申请的全部内容通过引用并入本文。
89.在一些示例中,示例指纹生成器210实现用于指纹生成的示例手段。该指纹生成手段通过诸如至少由图7的框704和706实现的可执行指令之类的可执行指令实现。图7的框704和706的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该指纹生成手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/
或固件的任何其他组合来实现。
90.在图2的示例中,媒体处理器212是处理一个或更多个指纹、一个或更多个签名和/或匹配音高偏移、匹配时间偏移和/或匹配重采样率的一个或更多个指示的装置。例如,在阈值时间段过去之后,媒体处理器212可以处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率。例如,媒体处理器212可以识别每个音高偏移、时间偏移和/或重采样率的出现频率。在附加或另选示例中,媒体处理器212可以连续地处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率。在一些示例中,媒体处理器212可以在已经接收到阈值量的数据之后处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率。
91.为了处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率,媒体处理器212可以例如生成一个或更多个直方图,该直方图标识每个音高偏移的出现频率、每个时间偏移的出现频率,和/或每个重采样率的出现频率(例如,一个或更多个出现频率)。例如,报告生成器214可以生成包括以下项的报告:分别比(a)一个或更多个另外的音高偏移值、(b)一个或更多个另外的时间偏移值、或(c)一个或更多个另外的重采样率具有更高出现频率的(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值、或(c)一个或更多个重采样率,如由媒体处理器212识别的。
92.在附加或另选示例中,媒体处理器212可以生成一个或合适的图形分析工具以识别每个音高偏移、时间偏移和/或重采样率的出现频率。例如,媒体处理器212可以生成时间线,该时间线标识每个音高偏移、时间偏移和/或重采样率随时间的出现频率。在这样的示例中,时间线可以为在一段时间内使用的音高偏移、时间偏移和/或重采样率的类型提供便利。
93.在一些示例中,示例媒体处理器212实现用于处理的示例手段。该处理手段通过诸如至少由图7的框728、730和742实现的可执行指令之类的可执行指令实现。图7的框728、730和742的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该处理手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
94.在图2所示的示例中,报告生成器214是被配置为生成和/或准备报告的装置。报告生成器214准备指示常用的音高偏移、时间偏移和/或重采样率中的一个或更多个的报告。此外,报告生成器214可以向客户端和/或最终用户建议在查询中指示的一个或更多个音高偏移、时间偏移和/或重采样率。此外,报告生成器214可以标识与匹配一个或更多个样本指纹的一个或更多个参考指纹和/或参考签名相对应的一个或更多个音频信号。在一些示例中,报告生成器214生成包括一个或更多个图形分析工具的报告,该图形分析工具用于识别每个音高偏移、时间偏移和/或重采样率的出现频率。由报告生成器214生成的报告可以包括具有比由中央设施112测试的其他音高偏移值、时间偏移值和/或重采样率更高的出现频率的一个或更多个音高偏移值、一个或更多个时间偏移值和/或一个或更多个时间重采样率。
95.在图2的示例中,报告生成器214可以准备将一个或更多个参考指纹与一个或更多个样本指纹相关联的报告。例如,报告生成器214可以准备标识以下项的报告:(a)对应于参考指纹的歌曲,以及(b)中央设施112用来将样本指纹和/或样本签名与参考指纹匹配的音高偏移、时间偏移和/或重采样率。例如,报告生成器214可以生成这样的报告:该报告指示
音频样本是老鹰乐队的“take it easy”的样本,并且指示该样本音高被下移5%并且时间偏移使回放速度增加5%(例如,指示与参考指纹和调整(例如,变换、音高偏移、时间偏移等)相关联的信息的报告)。
96.在一些示例中,示例报告生成器214实现用于报告生成的示例手段。该报告生成手段通过诸如至少由图6a的框648实现的可执行指令之类的可执行指令实现。附加地或另选地,该报告生成手段通过诸如至少由图6b的框686实现的可执行指令之类的可执行指令实现。在一些示例中,该报告生成手段通过诸如至少由图7的框734和740实现的可执行指令之类的可执行指令实现。图6a、图6b和图7的框648、686、734和740的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该报告生成手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
97.在图2所示的示例中,数据库216被配置为记录数据(例如,获得的信息、生成的消息等)。例如,数据库216可以存储一个或更多个文件,该文件指示造成一个或更多个调整后的样本指纹与一个或更多个参考指纹匹配的一个或更多个音高偏移、时间偏移和/或重采样率。另外,数据库216可以存储由报告生成器214生成的一个或更多个报告、由指纹生成器210生成的一个或更多个样本指纹、和/或在网络接口202处接收的一个或更多个样本指纹和/或查询。在附加或另选示例中,数据库216可以存储一个或更多个调整后的参考指纹。在这样的附加或另选示例中,中央设施112可以将样本指纹与调整后的参考指纹进行比较以确定匹配。调整后的参考指纹和/或参考签名可以对应于指定时间段期间、某些无线电台上的最高数字(例如,40、100等),和/或对应于通常被音高偏移、时间偏移和/或重采样的某些电视节目。在这样的示例中,调整后的参考指纹和/或参考签名降低了对样本指纹进行分析以获取音高偏移、时间偏移和/或重采样的计算强度,因为可以将样本指纹与预定的调整值进行比较。例如,可以将参考指纹调整预定义值。预定义的音高偏移值和/或预定义的时间偏移值可以对应于例如媒体制作方应用于媒体的音高偏移和时间偏移(例如,iheart将前40名流行广播歌曲音高偏移和/或时间偏移了2.5%)。
98.在图2的示例中,数据库216可以由易失性存储器(例如,同步动态随机存取存储器(sdram)、动态随机存取存储器(dram)、rambus动态随机存取存储器(rdram)等)和/或非易失性存储器(例如,闪存存储器)来实现。数据库216可以另外地或另选地由一个或更多个双倍数据速率(ddr)存储器(诸如,ddr、ddr2、ddr3、ddr4、移动ddr(mddr)等)来实现。数据库216可以另外地或另选地由一个或更多个大容量存储设备(诸如,硬盘驱动器、光盘驱动器、数字通用盘驱动器、固态盘驱动器等)来实现。虽然在所示示例中,数据库216被例示为单个数据库,但是数据库216可以通过任何数量和/或任何类型的数据库来实现。此外,被存储在数据库216中的数据可以采用任何数据格式,诸如像二进制数据、逗号分隔数据、制表符分隔数据、结构化查询语言(sql)结构等。
99.在本文公开的示例中,网络接口202、指纹音高调谐器204、指纹速度调谐器206、查询比较器208、指纹生成器210、媒体处理器212、报告生成器214和数据库216中的每一者都与中央设施112的其他元件进行通信。例如,网络接口202、指纹音高调谐器204、指纹速度调谐器206、查询比较器208、指纹生成器210、媒体处理器212、报告生成器214和数据库216经由示例通信总线218进行通信。在本文公开的一些示例中,网络接口202、指纹音高调谐器204、指纹速度调谐器206、查询比较器208、指纹生成器210、媒体处理器212、报告生成器214
和数据库216可以经由任何合适的有线和/或无线通信系统进行通信。此外,在本文公开的一些示例中,网络接口202、指纹音高调谐器204、指纹速度调谐器206、查询比较器208、指纹生成器210、媒体处理器212、报告生成器214和数据库216中的每一者可以经由任何合适的有线和/或无线通信系统与中央设施112外部的任何组件进行通信。
100.图3是示出图1的示例应用114的进一步细节的框图。示例应用114包括示例组件接口302、示例指纹生成器304、示例网络接口306、示例用户界面308和示例报告生成器310。
101.在图3所示的示例中,组件接口302被配置为从包括应用114的设备(例如,客户端设备102、最终用户设备108等)上的组件获得信息和/或向其发送信息。例如,组件接口302可以被配置为与摄像头和/或麦克风通信以获得视频和/或音频信号。
102.在一些示例中,示例组件接口302实现用于组件接口的示例手段。该组件接口手段通过诸如至少由图10的框1102实现的可执行指令之类的可执行指令实现。图107的框1002的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,该组件接口手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
103.在图3的示例中,指纹生成器304是可以从采样媒体(例如,音频信号)生成一个或更多个样本指纹和/或一个或更多个样本签名的装置。例如,指纹生成器304可以将音频信号(例如,经数字化的音频信号)分成时间-频率仓和/或音频信号频率分量。例如,指纹生成器304可以对音频信号执行快速傅立叶变换(fft),以将音频信号变换到频域。
104.另外地,示例指纹生成器304可以将变换后的音频信号分成两个或更多个频率仓(例如,使用hamming函数、hann函数等)。在该示例中,各个音频信号频率分量与两个或更多个频率仓中的频率仓相关联。另外地或另选地,指纹生成器304可以将音频信号聚合成一个或更多个时间段(例如,音频的持续时间、六秒的时段、1秒的时段等)。在其它示例中,指纹生成器304可以使用任何合适的技术来变换音频信号(例如,离散傅立叶变换、滑动时间窗口傅立叶变换、小波变换、离散hadamard变换、离散walsh hadamard、常数q变换、离散余弦变换等)。在一些示例中,指纹生成器304可以包括一个或更多个带通滤波器(bpf)。在一些示例中,处理后的音频信号可以由频谱图表示。下面结合图4a至图4b讨论生成频谱图的指纹生成器304的处理。
105.在图3的示例中,指纹生成器304可以确定音频信号的一部分(例如,音频信号频率分量、时间-频率仓周围的音频区域等)的音频特性。例如,指纹生成器304可以确定音频信号频率分量中的一个或更多个音频信号频率分量的均值能量(例如,平均功率等)。另外地或另选地,指纹生成器304可以确定音频信号的一部分的其它特性(例如,众数能量、中值能量、众数功率、中值能量、均值能量、均值幅度等)。
106.在图3所示的示例中,指纹生成器304可以按周围音频区域的关联的音频特性对一个或更多个时间-频率仓进行归一化。例如,指纹生成器304可以按周围音频区域的均值能量对时间-频率仓进行归一化。在其它示例中,指纹生成器304按关联的音频特性对音频信号频率分量中的一些音频信号频率分量进行归一化。例如,指纹生成器304可以使用与音频信号频率分量相关联的均值能量来对该音频信号频率分量的各个时间-频率仓进行归一化。在一些示例中,处理后的仓(例如,经归一化的时间-频率仓、经归一化的音频信号频率分量等)可以表示为频谱图。下面结合图4c讨论生成经归一化的频谱图的指纹生成器304的
处理。
107.在图3所示的示例中,指纹生成器304可以从经归一化的音频信号选择要被用于生成指纹和/或签名的一个或更多个点。例如,指纹生成器304可以选择经归一化的音频信号的多个能量最大值。在其它示例中,指纹生成器304可以选择经归一化的音频的任何其它合适的点。下面结合图4d和图5讨论生成指纹的指纹生成器304的处理。
108.另外地或另选地,指纹生成器304可以基于音频信号的类别来对点的选择进行加权。例如,如果音频信号的类别是音乐,则指纹生成器304可以将点的选择侧重到音乐的常见频率范围(例如,低音、高音等)中。在一些示例中,指纹生成器304可以确定音频信号的类别(例如,音乐、讲话、音效、广告等)。示例指纹生成器304使用所选择的点来生成指纹和/或签名。示例指纹生成器304可以使用任何合适的方法根据所选择的点生成指纹。
109.在一些示例中,示例指纹生成器304实现用于指纹生成的示例手段。该指纹生成手段通过诸如至少由图10的框1004实现的可执行指令之类的可执行指令实现。图10的框1004的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,该指纹生成手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
110.在图3的示例中,网络接口306被配置为从图1的网络104获得信息和/或向网络104发送信息。网络接口306从中央设施112和/或示例客户端设备102接收和/或发送报告、媒体和/或其他信息。报告、媒体和/或其他信息可以被格式化为数据包、http消息、文本、pdf等。然而,可以附加地或另选地使用任何其他消息格式和/或协议,例如ftp、smtp、https协议等。附加地或另选地,媒体(例如,音频信号)可以作为无线电波形、mp3文件、mp4文件和/或任何其他合适的音频格式来接收。
111.在图3所示的示例中,网络接口306被配置为识别客户端是否已经为查询定义了猜想音高偏移、猜想时间偏移和/或猜想重采样率。网络接口306还可以被配置为将一个或更多个指纹和/或一个或更多个签名以及包括音高偏移、时间偏移和/或重采样率的查询发送到中央设施112。此外,网络接口306还被配置为从中央设施112接收对查询的响应。网络接口306还可以被配置为识别对查询的响应是否包括对应于与猜想音高偏移、猜想时间偏移和/或猜想重采样率的一个或更多个匹配的信息。
112.在一些示例中,示例网络接口306实现用于网络接口的示例手段。该网络接口手段通过诸如至少由图10的框1006、1012、1014、1022实现的可执行指令之类的可执行指令实现。图10的框1006、1012、1014、1022的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,该网络接口手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
113.在图3的示例中,用户界面308被配置为从包括应用114的设备的用户获得信息和/或向其发送信息。例如,用户界面308可以实现图形用户界面(gui)或任何其他合适的界面。用户界面308可以接收和/或发送来自最终用户设备108的用户的报告、音高偏移、时间偏移、重采样率和/或其他信息。例如,用户界面308可以向用户显示标识调整指令的提示,该调整指令对应于要对一个或更多个样本指纹执行多少和/或什么类型的音高偏移、时间偏移和/或重采样率以尝试识别与样本指纹关联的音频。附加地或另选地,用户界面308可以向最终用户显示查询的结果(例如,对应于音频的艺术家、歌曲、标识信息、音高偏移信息、
时间偏移信息、重采样信息等)。报告、音高偏移、时间偏移、重采样率和/或其他信息可以被格式化为http消息。然而,可以附加地或另选地使用任何其他消息格式和/或协议,例如ftp、smtp、https协议等。
114.在一些示例中,示例用户界面308实现用于用户界面的示例手段。该用户界面手段通过诸如至少由图10的框1008实现的可执行指令之类的可执行指令实现。图10的框1008的可执行指令可以在诸如图12的示例处理器1212的至少一个处理器上执行。在其他示例中,该用户界面手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
115.在图3所示的示例中,报告生成器310是被配置为生成和/或准备报告的装置。报告生成器310准备指示常用的音高偏移、时间偏移和/或重采样率中的一个或更多个的报告和/或提示。此外,报告生成器310可以基于由外部设备(例如,中央设施112)生成的一个或更多个报告,向客户端和/或最终用户建议在查询中指示的一个或更多个音高偏移、时间偏移和/或重采样率。此外,报告生成器310可以识别与匹配一个或更多个样本指纹的一个或更多个参考指纹和/或参考签名相对应的一个或更多个音频信号。在一些示例中,报告生成器310生成包括一个或更多个图形分析工具的报告,该图形分析工具用于识别每个音高偏移、时间偏移和/或重采样率的出现频率。
116.在图3的示例中,报告生成器310可以准备将一个或更多个参考指纹与一个或更多个样本指纹相关联的报告。例如,报告生成器310可以准备标识以下项的报告:(a)对应于参考指纹的歌曲,以及(b)中央设施112用来将样本指纹和/或样本签名与参考指纹匹配的音高偏移、时间偏移和/或重采样率。例如,报告生成器310可以生成这样的报告:该报告指示音频样本是老鹰乐队的“take it easy”的样本,并且指示该样本音高被下移5%并且时间偏移使回放速度增加5%(例如,指示与参考指纹和调整(例如,变换、音高偏移、时间偏移等)相关联的信息的报告)。
117.在一些示例中,报告可以是本地存储和/或发送到外部设备(例如,示例客户端设备102)的数据和/或数据包。在一些示例中,应用114和/或另一设备可以使用存储的报告来调整用于后续查询的调整指令。例如,如果调整指令标识了与x个查询内的匹配不对应的特定音高偏移(例如,如果调整指令中包括40hz音高偏移,并且在100次查询之后,从未有与40hz音高偏移的匹配),则应用114和/或另一设备可以对调整指令进行调整,以去除用于后续查询的特定音高偏移(例如,从调整指令中去除40hz的音高偏移)。在另一个示例中,如果客户端选择了对应于大量匹配的特定时间偏移,则应用114和/或另一设备可以对调整指令进行调整,以使中央设施112在多个不同偏移的后续查询(例如,后续指纹识别)期间首先执行该特定时间偏移。
118.在一些示例中,示例报告生成器310实现用于报告生成的示例手段。该报告生成手段通过诸如至少由图10的框1016、1018、1020实现的可执行指令之类的可执行指令实现。图10的框1016、1018、1020的可执行指令可以在诸如图11的示例处理器1112的至少一个处理器上执行。在其他示例中,该报告生成手段由硬件逻辑、硬件实现的状态机、逻辑电路、和/或硬件、软件和/或固件的任何其他组合来实现。
119.在本文公开的示例中,组件接口302、指纹生成器304、网络接口306、用户界面308和报告生成器310中的每一者与应用114的其他要素通信。例如,组件接口302、指纹生成器
304、网络接口306、用户界面308和报告生成器310经由示例通信总线312进行通信。在本文公开的一些示例中,组件接口302、指纹生成器304、网络接口306、用户界面308和报告生成器310可以经由任何合适的有线和/或无线通信系统进行通信。另外,在本文公开的一些示例中,组件接口302、指纹生成器304、网络接口306、用户界面308和报告生成器310中的每一者可以经由任何合适的有线和/或无线通信系统与应用114外部的任何组件进行通信。
120.图4a和图4b例示了由图2的指纹生成器210和图3的指纹生成器304生成的示例频谱图400。在图4a的所示示例中,示例未经处理的频谱图400包括由示例第一音频区域408包围的示例第一时间-频率仓406。在图4b的所示示例中,示例未经处理的频谱图包括由示例音频区域412包围的示例第二时间-频率仓410。图4a和图4b的示例未经处理的频谱图400、图4c的经归一化的频谱图402以及图4d的子指纹404各自包括表示频率仓的示例纵轴414和表示时间仓的示例横轴416。图4a和图4b例示了示例音频区域408和412,指纹生成器210和/或指纹生成器304从该示例音频区域获得了归一化音频特性,并且指纹生成器210和/或指纹生成器304使用该归一化音频特性来分别对第一时间-频率仓406和第二时间-频率仓410进行归一化。在所示示例中,对未经处理的频谱图400的各个时间-频率仓进行归一化,以生成经归一化的频谱图402。在其它示例中,可以对未经处理的频谱图400的任何合适数量的时间-频率仓进行归一化,以生成图4c的经归一化的频谱图402。
121.示例纵轴414具有通过快速傅立叶变换(fft)生成的频率仓单位,并且具有1024个fft仓的长度。在其它示例中,可以通过度量频率的任何其它合适技术(例如,赫兹、另一变换算法等)来度量示例纵轴414。在一些示例中,纵轴414涵盖音频信号的整个频率范围。在其它示例中,纵轴414可以涵盖音频信号的一部分。
122.在所示示例中,示例横轴416表示未经处理的频谱图400的总长度为11.5秒的时间段。在所示示例中,横轴416具有六十四毫秒(ms)间隔作为单位。在其它示例中,可以以任何其它合适的单位(例如,1秒等)来度量横轴416。例如,横轴416涵盖音频的完整持续时间。在其它示例中,横轴416可以涵盖音频信号的持续时间的一部分。在所示示例中,频谱图400、402的各个时间-频率仓的大小为64ms
×
1fft仓。
123.在图4a的所示示例中,第一时间-频率仓406与未经处理的频谱图400的频率仓和时间仓的交点以及音频信号的与该交点相关联的一部分相关联。示例第一音频区域408包括距示例第一时间-频率仓406预定义距离内的时间-频率仓。例如,指纹生成器210和/或指纹生成器304可以基于设定数量的fft仓(例如,5个仓、11个仓等)来确定第一音频区域408的垂直长度(例如,第一音频区域408沿着纵轴414的长度,等等)。类似地,指纹生成器210和/或指纹生成器304可以确定第一音频区域408的水平长度(例如,第一音频区域408沿着横轴416的长度,等等)。在所示示例中,第一音频区域408是方形的。另选地,第一音频区域408可以是任何合适的大小和形状,并且可以包含未经处理的频谱图400内的时间-频率仓的任何合适的组合(例如,任何合适的时间-频率仓组等)。示例指纹生成器210和/或指纹生成器304然后可以确定被包含在第一音频区域408内的时间-频率仓的音频特性(例如,均值能量等)。使用所确定的音频特性,指纹生成器210和/或指纹生成器304可以对第一时间-频率仓406的关联值进行归一化(例如,可以按第一音频区域408内的各个时间-频率仓的均值能量对第一时间-频率仓406的能量进行归一化)。
124.在图4b的所示示例中,第二时间-频率仓410与未经处理的频谱图400的频率仓和
时间仓的交点以及音频信号的与该交点相关联的一部分相关联。示例第二音频区域412包括距示例第二时间-频率仓410预定义距离内的时间-频率仓。类似地,指纹生成器210和/或指纹生成器304可以确定第二音频区域412的水平长度(例如,第二音频区域412沿着横轴416的长度,等等)。在所示示例中,第二音频区域412是方形的。另选地,第二音频区域412可以是任何合适的大小和形状,并且可以包含未经处理的频谱图400内的时间-频率仓的任何合适的组合(例如,任何合适的时间-频率仓组等)。在一些示例中,第二音频区域412可以与第一音频区域408重叠(例如,包含一些相同的时间-频率仓、在横轴416上移位、在纵轴414上移位等)。在一些示例中,第二音频区域412可以具有与第一音频区域408相同的大小和形状。在其它示例中,第二音频区域412可以具有与第一音频区域408不同的大小和形状。然后,指纹生成器210和/或指纹生成器304可以确定第二音频区域412所包含的时间-频率仓的音频特性(例如,均值能量等)。使用所确定的音频特性,指纹生成器210和/或指纹生成器304可以对第二时间-频率仓410的关联值进行归一化(例如,可以按位于第二音频区域412内的仓的均值能量对第二时间-频率仓410的能量进行归一化)。
125.图4c例示了由图2的指纹生成器210和/或图3的指纹生成器304生成的经归一化的频谱图402的示例。可以由指纹生成器210和/或指纹生成器304通过对图4a至图4b的未经处理的频谱图400的多个时间-频率仓进行归一化而生成经归一化的频谱图402。例如,可以以与对时间-频率仓404a和404b进行归一化的方式类似的方式对未经处理的频谱图400的时间-频率仓中的一些或所有时间-频率仓进行归一化。现在已按所述区域周围的局部区域内的局部均值能量对图4c的所得频率仓进行了归一化。结果,较黑的区域是在其各自的局部区域中具有最大能量的区域。这使得指纹能够包含甚至比通常较响的低音频率区域能量低的区域中的相关音频特征。
126.图4d例示了基于经归一化的频谱图402的、由图2的指纹生成器210和/或图3的指纹生成器304生成的示例指纹的示例子指纹404。子指纹404是音频信号的一部分的表示。指纹生成器210和/或指纹生成器304可以通过从经归一化的频谱图402中滤除低能量仓值来生成子指纹404。例如,指纹生成器210和/或指纹生成器304可以生成针对经归一化的频谱图402的64ms帧的子指纹404。在其他示例中,指纹生成器210和/或指纹生成器304可以通过任何合适的指纹生成技术来生成子指纹404。在本文公开的示例中,指纹音高调谐器204可以调整指纹(例如,指纹的一个或更多个子指纹(例如,子指纹404)),以通过基于猜想的音高偏移倍增指纹(例如,指纹的一个或更多个子指纹(例如,子指纹404))的仓值(例如,仓的关联能量值)来适应音高偏移。图4d的示例子指纹404包括代表音频信号的一部分期间的极值的20个仓值。在附加或另选示例中,子指纹404中的仓值的数量可以是可变的。例如,子指纹404中的仓值的数量可以基于仓值的阈值数量。在一些示例中,子指纹404中的仓值的数量可以基于经训练的神经网络来确定哪些极值最有可能有助于匹配。
127.在图4d的示例中,子指纹404以图形化设置例示。在一些示例中,指纹可以由包括数据值(例如,0、1、逻辑高值、逻辑低值等)的数组来表示。例如,数组可以是1024行
×
94列。例如,各个列可以对应于子指纹和/或帧(例如,子指纹404),各个行可以对应于仓值。在这样的示例中,每个仓值可以包括关联的数据值(例如,0、1、逻辑高值、逻辑低值等),每个子指纹可以包括20个数据值1和/或逻辑高值。
128.图5例示了示例音频样本502和示例指纹504。在图5的示例中,指纹504对应于音频
样本502。在图5的示例中,音频样本502是一段音频记录。例如,音频样本502可以是歌曲、讲话、音乐会等的简短片段。音频样本502可以由包括指纹504在内的多个指纹表示(例如,由音频样本上的虚线矩形指示的)。
129.在图5所示的示例中,示例指纹504是音频样本502的特征的表示。例如,指纹504包括表示音频样本502针对指纹504的时间帧的特性的数据。例如,指纹504可以是音频样本502的压缩数字摘要,包括音频样本502的若干最高输出值、若干最低输出值、频率值、其他特性等。
130.在图5所示的示例中,示例子指纹506是指纹504的分割部分。例如,指纹504可以被划分为指定数量的子指纹506(例如,十个、五十个、一百个等),然后可以单独处理这些子指纹506。例如,子指纹506可以对应于指纹504的帧。在本文公开的示例中,指纹速度调谐器206可以通过从指纹(例如,子指纹506)复制和/或删除帧(例如,子指纹506)来调整指纹(例如,指纹504)以适应时间偏移。
131.虽然图2例示了实现图1的中央设施112的示例方式并且图3例示了实现图1的应用114的示例方式,但是图2和/或图3所例示的要素、处理和/或设备中的一个或更多个要素、处理和/或设备可以组合、划分、重新布置、省略、消除和/或按任何其它方式来实现。此外,图2的示例网络接口202、示例指纹音高调谐器204、示例指纹速度调谐器206、示例查询比较器208、示例指纹生成器210、示例媒体处理器212、示例报告生成器214、示例数据库216和/或(更一般地)示例中央设施112,和/或图3的示例组件接口302、示例指纹生成器304、示例网络接口306、示例用户界面308、示例报告生成器310和/或示例应用114可以通过硬件、软件、固件和/或硬件、软件和/或固件的任何组合来实现。因此,例如,图2的示例网络接口202、示例指纹音高调谐器204、示例指纹速度调谐器206、示例查询比较器208、示例指纹生成器210、示例媒体处理器212、示例报告生成器214、示例数据库216和/或(更一般地)示例中央设施112,和/或图3的示例组件接口302、示例指纹生成器304、示例网络接口306、示例用户界面308、示例报告生成器310和/或(更一般地)示例应用114中的任一者可以由一个或更多个模拟或数字电路、逻辑电路、可编程处理器、可编程控制器、图形处理单元(gpu)、数字信号处理器(dsp)、专用集成电路(asic)、可编程逻辑器件(pld)和/或现场可编程逻辑器件(fpld)来实现。当将本专利的装置或系统权利要求中的任一项理解成覆盖纯软件和/或固件实现方式时,图2的示例网络接口202、示例指纹音高调谐器204、示例指纹速度调谐器206、示例查询比较器208、示例指纹生成器210、示例媒体处理器212、示例报告生成器214、示例数据库216和/或(更一般地)示例中央设施112,和/或图3的示例组件接口302、示例指纹生成器304、示例网络接口306、示例用户界面308、示例报告生成器310和/或(更一般地)示例应用114中的至少一者由此被明确地定义成包括具有软件和/或固件的非暂时性计算机可读存储设备或存储盘(诸如存储器、数字通用盘(dvd)、光盘(cd)、蓝光盘等)。更进一步地,图2的示例中央设施112和/或图3的示例应用114可以包括除了图2和/或图3所例示的要素、处理和/或设备以外的或者代替图2和/或图3所例示的要素、处理和/或设备的一个或更多个要素、处理和/或设备,和/或可以包括任何或全部所例示的要素、处理和设备中的不止一个。如本文所使用的,短语“进行通信”(包括其变型)涵盖直接通信和/或通过一个或更多个中间组件的间接通信,并且不需要直接的物理(例如,有线)通信和/或持续通信,而是另外地包括按照定期间隔、计划间隔、非周期性间隔和/或一次性事件的选择性通信。
132.图6a、图6b、图7、图8和/或图9示出了表示用于实现中央设施112的示例硬件逻辑、机器可读指令、硬件实现状态机和/或其任何组合的流程图,图10示出了表示用于实现应用114的示例硬件逻辑、机器可读指令、硬件实现状态机和/或其任何组合的流程图。机器可读指令可以是供计算机处理器(诸如下面结合图11和/或图12讨论的示例处理器平台1100、1200中示出的处理器1112、1212)执行的一个或更多个可执行程序或可执行程序的一个或多个部分。可以在存储在非暂时性计算机可读存储介质(诸如cd-rom、软盘、硬盘驱动器、dvd、蓝光盘或者与处理器1112、1212相关联的存储器)上的软件中具体实施所述程序,但是全部程序和/或其部分可以另选地由除了处理器1112、1212以外的设备来执行,和/或在固件或专用硬件中具体实施。此外,尽管参照图6a、图6b、图7、图8、图9和/或图10所例示的流程图对示例程序进行了描述,但是可以另选地使用实现示例中央设施112和/或示例应用114的许多其它方法。例如,可以改变框的执行顺序,和/或可以改变、消除或组合所述框中的一些框。另外地或者另选地,任何或所有框都可以由被构造成执行对应的操作而不执行软件或固件的一个或更多个硬件电路(例如,分立的和/或集成的模拟和/或数字电路、fpga、asic、比较器、运算放大器(op-amp)、逻辑电路等)来实现。
133.本文所述的机器可读指令可以以压缩格式、加密格式、分段格式、编译格式、可执行格式、打包格式等中的一种或更多种存储。如本文所述的机器可读指令可以存储为可用于创建、制造和/或产生机器可执行指令的数据(例如,指令的部分、代码、代码的表示等)。例如,机器可读指令可以被分段并存储在一个或更多个存储设备和/或计算设备(例如,服务器)上。机器可读指令可能需要安装、修改、改编、更新、组合、补充、配置、解密、解压缩、解包、分发、重新分配、编译等中的一种或更多种,以使其直接可读、可解释和/或可由计算设备和/或其他机器执行。例如,机器可读指令可以存储在多个部分中,这些部分被单独压缩、加密并存储在单独的计算设备上,其中这些部分在解密、解压缩和组合时形成实现了本文描述的程序的一组可执行指令。
134.在另一个示例中,机器可读指令可以被存储在它们可以被计算机读取的状态下,但是需要添加库(例如,动态链接库(dll))、软件开发工具包(sdk)、应用编程接口(api)等,以便在特定计算设备或其他设备上执行指令。在另一个示例中,可能需要在机器可读指令和/或对应的程序可以全部或部分执行之前配置机器可读指令(例如,存储的设置、数据输入、记录的网络地址等)。因此,所公开的机器可读指令和/或对应的程序旨在涵盖这样的机器可读指令和/或程序,而不管机器可读指令和/或程序在被储存或以其他方式静止或运输时的特定格式或状态。
135.本文描述的机器可读指令可以由任何过去、现在或将来的指令语言、脚本语言、编程语言等来表示。例如,机器可读指令可以使用以下任何语言来表示:c、c 、java、c#、perl、python、javascript、超文本标记语言(html)、结构化查询语言(sql)、swift等。
136.如上所述,可以使用存储在非暂时性计算机和/或机器可读介质(诸如硬盘驱动器、闪速存储器、只读存储器、光盘、数字通用盘、缓存、随机存取存储器和/或任何其它存储设备或存储盘,其中信息存储长达任何持续时间(例如,用于延长的时间段、永久地、用于简单的实例、用于临时缓冲和/或用于缓存信息))上的可执行指令(例如,计算机和/或机器可读指令)来实现图6a、图6b、图7、图8、图9和/或图10的示例处理。如本文所使用的,术语非暂时性计算机可读介质被明确定义成包括任何类型的计算机可读存储设备和/或存储盘,并
且排除传播信号以及排除传输介质。
[0137]“包括”和“包含”(及其所有形式和时态)在本文中用作开放式用语。因此,每当权利要求采用任何形式的“包括”或“包含”(例如,包含(comprises)、包括(includes)、包含(comprising)、包括(including)、具有等)作为前序部分或在任何种类的权利要求记载内时,将理解,在不落在对应权利要求或记载的范围之外的情况下,可以存在附加要素、用语等。如本文所使用的,当短语“至少”用作权利要求的例如前序部分中的过渡用语时,其以与用语“包含”和“包括”是开放式相同的方式是开放式的。当例如以诸如a、b和/或c的形式使用时,用语“和/或”是指a、b、c的任何组合或子集,诸如(1)单独的a,(2)单独的b,(3)单独的c,(4)a与b,(5)a与c,(6)b与c以及(7)a和b和c。如本文所使用的,在描述结构、组件、项、对象和/或事物的上下文中,短语“a和b中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个a、(2)至少一个b和(3)至少一个a和至少一个b。类似地,如本文所使用的,在描述结构、组件、项、对象和/或事物的上下文中,短语“a或b中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个a、(2)至少一个b和(3)至少一个a和至少一个b。如本文所使用的,在描述处理、指令、动作、活动和/或步骤的执行的上下文中,短语“a和b中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个a、(2)至少一个b和(3)至少一个a和至少一个b。类似地,如本文所使用的,在描述处理、指令、动作、活动和/或步骤的执行的上下文中,短语“a或b中的至少一个”旨在表示包括以下任一项的实现方式:(1)至少一个a、(2)至少一个b和(3)至少一个a和至少一个b。
[0138]
如本文所用,单数引用(例如,“一”、“第一”、“第二”等)不排除复数。如本文所用,用语“一”实体是指一个或更多个该实体。用语“一”、“一个或更多个”和“至少一个”在本文中可以互换使用。此外,虽然单独列出,但多个装置、元件或方法动作可以通过例如单个单元或处理器来实现。此外,虽然单独的特征可能包含在不同的示例或权利要求中,但这些特征可以被组合,并且包含在不同的示例或权利要求中并不意味着特征的组合是不可行的和/或有利的。
[0139]
图6a和图6b是表示运行与音高偏移的、时间偏移的和/或重采样的媒体相关联的查询的处理600的流程图,该处理600可以利用可被执行以实现图1和图2的中央设施112的机器可读指令来实现。处理600开始于框602,其中网络接口202获得样本指纹。例如,网络接口202可以经由网络104从客户端设备102和/或最终用户设备108接收和/或以其他方式获得样本指纹。在框604,网络接口202从外部设备获得查询。例如,网络接口202可以从客户端设备102和/或最终用户设备108获得包括猜想音高偏移、猜想时间偏移和/或猜想重采样率的查询。
[0140]
在图6a所示的示例中,在框606,网络接口202确定查询是否包括要串行运行的指示。如果网络接口202确定查询包括要串行运行的指示(框606:是),则处理600进行到框608。如果网络接口202确定查询不包括要串行运行的指示(框606:否),则处理600进行到图6b的框652、662和674。在框608,网络接口202确定查询是否包括猜想的音高偏移。
[0141]
在图6a的示例中,如果网络接口202确定查询包括猜想的音高偏移(框608:是),则处理600进行到框610。如果网络接口202确定该查询不包括猜想的音高偏移(框608:否),则处理600进行到框620。在框610,网络接口202选择猜想的音高偏移值供中央设施112分析。在框612,指纹音高调谐器204基于所选音高偏移来对一个或更多个样本指纹进行音高偏
移。在框614,查询比较器208确定一个或更多个经音高偏移的样本指纹是否匹配一个或更多个参考指纹。
[0142]
在图6a所示的示例中,如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹匹配(框614:是),则处理600进行到框618。如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹不匹配(框614:否),则处理600进行到框616。在框616,网络接口202确定在要由中央设施112分析的查询中是否存在另外的猜想音高偏移。
[0143]
在图6a的示例中,如果网络接口202确定在查询中存在另外的猜想音高偏移(框:是),则处理600进行到框610。如果网络接口202确定在查询中不存在另外的猜想音高偏移(框:616:否),则处理600进行到框620。在框618,查询比较器208指示这样的猜想音高偏移:当该猜想音高偏移被应用于样本指纹时,造成样本指纹匹配一个或更多个参考指纹。例如,查询比较器208可以将匹配的音高偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0144]
在图6a所示的示例中,在框620,网络接口202确定查询是否包括猜想的时间偏移。如果网络接口202确定查询包括猜想的时间偏移(框620:是),则处理600进行到框622。如果网络接口202确定查询不包括猜想的时间偏移(框620:否),则处理600进行到框632。在框622,网络接口202选择猜想的时间偏移值供中央设施112分析。在框624,指纹速度调谐器206基于所选的时间偏移对一个或更多个样本指纹进行时间偏移。在框626,查询比较器208确定一个或更多个经时间偏移的样本指纹是否匹配一个或更多个参考指纹。
[0145]
在图6a所示的示例中,如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个或更多个参考指纹匹配(框626:是),则处理600进行到框630。如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个或更多个参考指纹不匹配(框626:否),则处理600进行到框628。在框628,网络接口202确定在要由中央设施112分析的查询中是否存在另外的猜想时间偏移。
[0146]
在图6a的示例中,如果网络接口202确定在查询中存在另外的猜想时间偏移(框:628:是),则处理600进行到框622。如果网络接口202确定在查询中不存在另外的猜想时间偏移(框:628:否),则处理600进行到框632。在框630,查询比较器208指示这样的猜想时间偏移:当该猜想时间偏移被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以将匹配的时间偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0147]
在图6a所示的示例中,在框632,网络接口202确定查询是否包括猜想的重采样率。如果网络接口202确定查询包括猜想的重采样率(框632:是),则处理600进行到框634。如果网络接口202确定查询不包括猜想的重采样率(框632:否),则处理600进行到框646。在框634,网络接口202选择猜想的重采样率供中央设施112分析。在框636,指纹音高调谐器204基于所选的重采样率对一个或更多个样本指纹进行音高偏移。在框638,指纹速度调谐器206基于所选的重采样率对在框636处由指纹音高调谐器204进行了音高偏移的一个或更多个样本指纹进行时间偏移。在框640,查询比较器208确定一个或更多个经重采样的样本指纹是否匹配一个或更多个参考指纹。
[0148]
在图6a所示的示例中,如果查询比较器208确定一个或更多个经重采样的样本指
纹与一个或更多个参考指纹匹配(框640:是),则处理600进行到框644。如果查询比较器208确定一个或更多个经重采样的样本指纹与一个或更多个参考指纹不匹配(框640:否),则处理600进行到框642。在框642,网络接口202确定在要由中央设施112分析的查询中是否存在另外的猜想重采样率。
[0149]
在图6a的示例中,如果网络接口202确定在查询中存在另外的猜想重采样率(框:642:是),则处理600进行到框634。如果网络接口202确定在查询中不存在另外的猜想重采样率(框:642:否),则处理600进行到框646。在框644,查询比较器208指示这样的猜想重采样率:当该猜想重采样率被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以在数据库216中存储匹配的音高偏移值、时间偏移值和/或关于匹配的参考指纹的其他信息。
[0150]
在图6a所示的示例中,在框646,网络接口202确定中央设施112是否已经接收到另外的查询。如果网络接口202确定中央设施112已接收到另外的查询(框646:是),则处理600进行到框606。如果网络接口202确定中央设施112没有接收到另外的查询(框646:否),则处理600进行到框648。在框648,报告生成器214基于匹配的音高偏移、匹配的时间偏移和/或匹配的重采样率中的一者或更多者生成报告。在框650,网络接口202将报告发送到一个或更多个外部设备(例如,客户端设备102、最终用户设备108等)。在框650之后,处理600终止。
[0151]
图6b描绘了查询的并行处理。图6b的处理600开始于框652、662和674。在框652,网络接口202确定查询是否包括猜想的音高偏移。如果网络接口202确定查询包括猜想的音高偏移(框652:是),则处理600进行到框654。如果网络接口202确定该查询不包括猜想的音高偏移(框652:否),则处理600进行到框684。在框654,网络接口202选择包括在查询中的每个猜想音高偏移值。在框656,指纹音高调谐器204基于所选音高偏移来对一个或更多个样本指纹进行音高偏移。在框658,查询比较器208确定一个或更多个经音高偏移的样本指纹是否匹配一个或更多个参考指纹。
[0152]
在图6b所示的示例中,如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹匹配(框658:是),则处理600进行到框660。如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹不匹配(框658:否),则处理600进行到框684。在框660,查询比较器208指示这样的猜想音高偏移:当该猜想音高偏移被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以将匹配的音高偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0153]
在图6b所示的示例中,在框662,网络接口202确定查询是否包括猜想的重采样率。如果网络接口202确定查询包括猜想的重采样率(框662:是),则处理600进行到框664。如果网络接口202确定查询不包括猜想的重采样率(框662:否),则处理600进行到框684。在框664,网络接口202选择查询中的每个猜想重采样率来分析。在框666,指纹音高调谐器204基于所选的重采样率来对一个或更多个样本指纹进行音高偏移。在框668,指纹速度调谐器206基于所选的重采样率对在框666由指纹音高调谐器204进行了音高偏移的一个或更多个样本指纹进行时间偏移。在框670,查询比较器208确定一个或更多个经重采样的样本指纹是否匹配一个或更多个参考指纹。
[0154]
在图6b所示的示例中,如果查询比较器208确定一个或更多个经重采样的样本指纹与一个或更多个参考指纹匹配(框670:是),则处理600进行到框672。如果查询比较器208
确定一个或更多个经重采样的样本指纹与一个或更多个参考指纹不匹配(框670:否),则处理600进行到框684。在框672,查询比较器208指示这样的猜想重采样率:当该猜想重采样率被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以在数据库216中存储匹配的音高偏移值、时间偏移值和/或关于匹配的参考指纹的其他信息。
[0155]
在图6b所示,在框674,网络接口202确定查询是否包括猜想的时间偏移。如果网络接口202确定查询包括猜想的时间偏移(框674:是),则处理600进行到框676。如果网络接口202确定该查询不包括猜想的时间偏移(框674:否),则处理600进行到框684。在框676,网络接口202选择包括在查询中的每个猜想时间偏移值进行分析。在框678,指纹速度调谐器206基于所选择的时间偏移对一个或更多个样本指纹进行时间偏移。在框680,查询比较器208确定一个或更多个经时间偏移的样本指纹是否匹配一个或更多个参考指纹。
[0156]
在图6b所示的示例中,如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个或更多个参考指纹匹配(框680:是),则处理600进行到框682。如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个更多个参考指纹不匹配(框680:否),则处理600进行到框684。在框682,查询比较器208指示这样的猜想时间偏移:当该猜想时间偏移被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以将匹配的时间偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0157]
在图6b所示的示例中,在框684,网络接口202确定中央设施112是否已经接收到另外的查询。如果网络接口202确定中央设施112已接收到另外的查询(框684:是),则处理600进行到框606。如果网络接口202确定中央设施112没有接收到另外的查询(框684:否),则处理600进行到框686。在框686,报告生成器214基于匹配的音高偏移、匹配的时间偏移和/或匹配的重采样率中的一者或更多者生成报告。在框688,网络接口202将报告发送到一个或更多个外部设备(例如,客户端设备102、最终用户设备108等)。在框688之后,处理600终止。
[0158]
图7是表示识别广播和/或呈现媒体的趋势的处理700的流程图,该处理700可以利用可被执行以实现图1和图2的中央设施112的机器可读指令来实现。处理700开始于框702,其中网络接口202收集广播媒体。例如,网络接口202可以收集由媒体制作方110广播的媒体。在框704,指纹生成器210基于所收集的广播媒体生成一个或更多个经归一化的频谱图。在框706,指纹生成器210从经归一化的频谱图生成一个或更多个样本指纹。在框708,指纹音高调谐器204基于预定义的一组音高偏移值来对一个或更多个样本指纹进行音高偏移。例如,预定义的音高偏移值可以对应于音高偏移的范围(例如,-10%到10%)。在框710,查询比较器208确定一个或更多个经音高偏移的样本指纹是否匹配一个或更多个参考指纹。
[0159]
在图7所示的示例中,如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹匹配(框710:是),则处理700进行到框712。如果查询比较器208确定一个或更多个经音高偏移的样本指纹与一个或更多个参考指纹不匹配(框710:否),则处理700进行到框714。在框712,查询比较器208指示这样的猜想音高偏移:当该猜想音高偏移被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以将匹配的音高偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0160]
在图7所示的示例中,在框714,指纹速度调谐器206基于预定义的一组时间偏移值对一个或更多个样本指纹进行时间偏移。例如,预定义的时间偏移值可以对应于时间偏移
的范围(例如,-10%到10%)。在框716,查询比较器208确定一个或更多个经时间偏移的样本指纹是否匹配一个或更多个参考指纹。
[0161]
在图7所示的示例中,如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个或更多个参考指纹匹配(框716:是),则处理700进行到框718。如果查询比较器208确定一个或更多个经时间偏移的样本指纹与一个或更多个参考指纹不匹配(框716:否),则处理700进行到框720。在框718,查询比较器208指示这样的猜想时间偏移:当该猜想时间偏移被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以将匹配的时间偏移值和/或关于匹配的参考指纹的其他信息存储在数据库216中。
[0162]
在图7的示例中,在框720,指纹音高调谐器204基于预定义的一组音高偏移值来对一个或更多个样本指纹进行音高偏移。例如,预定义的音高偏移值可以对应于音高偏移的范围(例如,-10%到10%)。在框722,指纹速度调谐器206基于对应的预定义的一组时间偏移值对在框720由指纹音高调谐器204进行了音高偏移的一个或更多个样本指纹进行时间偏移。例如,预定义的时间偏移值可以对应于时间偏移的范围(例如,-10%到10%)。在框724,查询比较器208确定一个或更多个经重采样的样本指纹是否与一个或更多个参考指纹匹配。
[0163]
在图7所示的示例中,如果查询比较器208确定一个或更多个经重采样的样本指纹与一个或更多个参考指纹匹配(框724:是),则处理700进行到框726。如果查询比较器208确定一个或更多个经重采样的样本指纹与一个或更多个参考指纹不匹配(框724:否),则处理700进行到框728。在框726,查询比较器208指示这样的猜想重采样率:当该猜想重采样率被应用于样本指纹时,造成样本指纹匹配一个或多个参考指纹。例如,查询比较器208可以在数据库216中存储匹配的音高偏移值、时间偏移值和/或关于匹配的参考指纹的其他信息。
[0164]
在图7的示例中,在框728,媒体处理器212确定中央设施122是否已经监测广播媒体达阈值时间段。如果媒体处理器212确定中央设施112已经监测广播媒体达阈值时间段(框728:是),则处理700前进到框730。如果媒体处理器212确定中央设施112尚未监测广播媒体达阈值时间段(框728:否),则处理700进行到框702。在框730,媒体处理器212处理这些匹配和/或对应的音高偏移、时间偏移和/或重采样率以识别每个音高偏移、时间偏移和/或重采样率的出现频率。
[0165]
在图7所示的示例中,在框732,网络接口202确定中央设施112是否已经接收到对推荐的请求,该推荐包括可以包括在查询中的一个或更多个音高偏移、时间偏移和/或重采样率。如果网络接口202确定中央设施112已经接收到请求(框732:是),则处理700进行到框734。如果网络接口202确定中央设施112没有接收到请求(框732:否),则处理700进行到框732。在框734,报告生成器214基于处理后的匹配生成报告。
[0166]
在图7的示例中,在框736,网络接口202确定中央设施112是否已经接收到查询。如果网络接口202确定中央设施112已接收到查询(框736:是),则处理700进行到框738。如果网络接口202确定中央设施112没有接收到查询(框736:否),处理700进行到框736。在框738,中央设施112处理该查询。例如,中央设施112可以根据图6a和图6b的处理600来处理该查询。
[0167]
在图7所示的示例中,在框740,报告生成器214基于查询生成报告。在框742,媒体处理器212确定是否存在要分析的另外的媒体。例如,媒体处理器212可以使中央设施112以
预定义频率(例如,每2个月)再次处理广播媒体。如果媒体处理器212确定存在要分析的另外的广播媒体(框742:是),则处理700进行到框702。如果媒体处理器212确定不存在要分析的另外的广播媒体(框742:否),则处理700进行到框744。
[0168]
在图7的示例中,在框744,网络接口202确定中央设施112是否要继续操作。如果网络接口202确定中央设施112将继续操作(框744:是),则处理700进行到框732。如果网络接口202确定中央设施112不继续操作(框744:否),则处理700终止。
[0169]
图8是表示调整指纹的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施112的机器可读指令来实现。例如,图8的处理可以实现图6a、图6b和/或图7的框612、636、656、666、708和/或720。
[0170]
在图8的示例中,该处理开始于框802,其中指纹音高调谐器204获得样本指纹。例如,指纹音高调谐器204可以从数据库216和/或经由网络接口202从网络104访问一个或更多个指纹。在框804,指纹音高调谐器204确定音高偏移是否增加了与样本指纹相关联的音频的音高。如果指纹音高调谐器204确定音高偏移增加了与样本指纹相关联的音频的音高(框804:是),则图8的处理进行到框806。如果指纹音高调谐器204确定音高偏移并未增加与样本指纹相关联的音频的音高(框804:否),则图8的处理进行到框808。
[0171]
在图8所示的示例中,在框806,指纹音高调谐器204基于(例如,通过等)所指示的音高偏移来减小与样本指纹相关联(例如,样本指纹的、样本指纹中的,等等)的仓值。在框808,指纹音高调谐器204基于(例如,通过等)所指示的音高偏移来增加与样本指纹相关联(例如,样本指纹的、样本指纹中的,等等)的仓值。在框810,指纹音高调谐器204基于调整后的仓值生成一个或更多个调整后的指纹。在框810之后,图8的处理返回到框614、638、656、668、710和/或720。
[0172]
图9是表示调整指纹的处理的流程图,该处理可以利用可被执行以实现图1和图2的中央设施112的机器可读指令来实现。例如,图9的处理可以实现图6a、图6b和/或图7的框624、638、668、678、714和/或722。
[0173]
在图9的示例中,该处理开始于框902,其中指纹速度调谐器206获得样本指纹。例如,指纹速度调谐器206可以从数据库216和/或经由网络接口202从网络104访问一个或更多个样本指纹。在框904,指纹速度调谐器206确定时间偏移是否增加了与样本指纹相关联的音频的回放速度。如果指纹速度调谐器206确定时间偏移增加了与样本指纹相关联的音频的回放速度(框904:是),则图9的处理进行到框906。如果指纹速度调谐器206确定时间偏移并未增加与样本指纹相关联的音频的回放速度(框904:否),则图9的处理进行到框908。
[0174]
在图9所示的示例中,在框906,指纹速度调谐器206基于增加的回放速度修改样本指纹。在框908,指纹速度调谐器206基于增加的回放速度修改样本指纹。在框910,指纹速度调谐器206基于这些修改生成一个或更多个调整后的指纹。在框910之后,图9的处理返回框626、640、670、680、716和/或722。
[0175]
图10是表示传送与音高偏移、时间偏移和/或重采样率相关联的信息的处理1000的流程图,该处理1000可以利用可被执行以实现图1和图3的应用的机器可读指令来实现。
[0176]
在框1002,示例组件接口302获得音频信号。例如,示例组件接口302可以从嵌入和/或附接到示例最终用户设备108的麦克风获得音频信号。附加地或另选地,示例组件接口302可以与处理组件和/或另一应用连接以获得由示例最终用户设备108输出的音频信
号。例如,组件接口302可以从示例最终用户设备108上运行的正在输出音频的不同应用(例如,因特网广播应用、浏览器、播客、流媒体音乐服务等)获得音频信号。
[0177]
在框1004,示例指纹生成器304从音频信号生成一个或更多个指纹,如上面结合图3所描述的。在框1006,示例网络接口306确定对应于音高偏移、时间偏移和/或重采样率的调整指令(例如,查询)是否已经由客户端定义(例如,经由图1的示例客户端设备102)。例如,当应用114由客户端拥有时,该应用可能伴随这样的调整指令:该调整指令对应于对指纹执行多少和/或什么类型的音高偏移、时间偏移和/或重采样率以尝试识别音频。如果示例网络接口306确定与音高偏移、时间偏移和/或重采样率相对应的调整指令已经由客户端定义(框1006:是),则控制继续到框1012,如下文进一步描述。如果示例网络接口306确定调整指令不对应于已经由客户端定义的音高偏移、时间偏移和/或重采样率(框1006:否),则示例用户界面308向示例最终用户设备108的最终用户显示调整指令提示(框1008)。该提示向用户提示选择在中央设施112处尝试识别音频时对指纹执行多少和/或哪种类型的音高偏移、时间偏移和/或重采样率。
[0178]
在框1010,示例组件接口302经由示例用户界面308从用户接收调整指令。在框1012,示例网络接口306将指纹随来自客户端和/或示例最终用户设备108的最终用户的调整指令/查询(例如,音高偏移、时间偏移和/或重采样率查询指令)一起发送到示例中央设施112。如上所述,示例中央设施112基于调整指令(例如,音高偏移、时间偏移和/或重采样率查询指令)调整指纹,并将接收到的指纹和/或调整后的指纹与带有标识信息的指纹数据库进行比较,以识别匹配。中央设施112经由示例网络接口306将查询结果返回给示例应用114。例如,如果该查询导致识别出已经音高偏移的音频,则中央设施112返回与所识别的音频相对应的信息,以及该音频被音高偏移以及该音频被音高偏移了多少的指示。
[0179]
在框1014,示例网络接口306接收对指纹查询的响应(例如,指纹是否对应于匹配、对应于匹配音频的信息、音频是否被音高偏移、时间偏移和/或重采样,和/或音频是如何进行音高偏移、时间偏移和/或重采样的)。在框1016,示例报告生成器310确定响应是否对应于被音高偏移、时间偏移和/或重采样的匹配音频。如果示例报告生成器310确定响应对应于被音高偏移、时间偏移和/或重采样的匹配音频(框1016:是),则示例报告生成器310生成报告,该报告标识对应于所匹配的音频的信息(例如、歌曲名称、专辑名称、艺术家、发行方等)以及音高偏移、时间偏移和/或重采样信息(例如,基于指纹查询,音频是如何被音高偏移、时间偏移和/或重采样的)(框1020)。例如,如果音频的指纹与jason isbell的“cover me up”的加速版本匹配(例如,对应于时间和音高偏移),则报告生成器310生成包括标识信息(例如,标识获得的音频对应于歌曲、艺术家、唱片公司等)的报告,并标识歌曲已被音高和时间偏移以及音高偏移和时间偏移增加了多少。报告可以是采用可显示的形式的报告(例如,pdf、word文档、照片、文本、图片等)和/或可被存储和/或发送到另一个组件或设备(例如,本地或外部)的包括标识信息的一个或更多个数据包。
[0180]
如果示例报告生成器310确定响应不对应于被音高偏移、时间偏移和/或重采样的匹配音频(框1016:否),则示例报告生成器310生成标识对应于所匹配的音频的信息的报告或者生成标识指纹不匹配的报告(框1018)。在框1022,示例组件接口302和/或示例网络接口306发送报告。在一些示例中,网络接口306可以将报告发送到本地存储部(例如,图12的示例本地存储器1213、示例易失性存储器1214和/或示例非易失性存储器1216)以进行存
储。在这样的示例中,示例应用114和/或另一组件可以利用存储的信息来调整后续的调整指令。例如,如果特定音高偏移、时间偏移和/或重采样率触发大量匹配或很少或没有匹配,则特定音高偏移、时间偏移和/或重采样率可以在随后的查询中被优先化、减少和/或消除。附加地或另选地,示例组件接口302可以将报告发送到用户界面308以将报告和/或报告中的信息显示给最终用户。附加地或另选地,示例网络接口306可以将报告作为数据包发送到示例客户端设备102和/或客户端的另一设备(例如,服务器),以向客户端提供关于音频在被获得时是如何调整的信息。以这种方式,客户端拥有了可用于修改用于后续查询的调整指令的信息。
[0181]
图11是被构造为执行图6a、图6b、图7、图8和/或图9的指令以实现图2的中央设施112的示例处理器平台1100的框图。例如,处理器平台1100可以是服务器、个人计算机、工作站、自学习机器(例如,神经网络)、移动设备(例如,手机、智能电话、诸如ipad
tm
的平板计算机)、个人数字助理(pda)、因特网设备、dvd播放器、cd播放器、数字视频录像机、蓝光播放器、游戏机、机顶盒、头戴设备或其它可穿戴设备或者任何其它类型的计算设备。
[0182]
所示示例的处理器平台1100包括处理器1112。所示示例的处理器1112是硬件。例如,处理器1112可以由来自任何期望系列或制造商的一个或更多个集成电路、逻辑电路、微处理器、gpu、dsp或控制器来实现。硬件处理器可以是基于半导体的(例如,基于硅的)器件。在该示例中,处理器1112实现图2的示例网络接口202、示例指纹音高调谐器204、示例指纹速度调谐器206、示例查询比较器208、示例指纹生成器210、示例媒体处理器212和示例报告生成器214。
[0183]
所示示例的处理器1112包括本地存储器1113(例如,缓存)。所示示例的处理器1112经由总线1118与包括易失性存储器1114和非易失性存储器1116的主存储器进行通信。易失性存储器1114可以由同步动态随机存取存储器(sdram)、动态随机存取存储器(dram)、动态随机存取存储器和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器1116可以由闪存存储器和/或任何其它期望类型的存储器设备来实现。对主存储器1114、1116的访问由存储器控制器来控制。在该示例中,本地存储器1113实现图2的示例数据库216。另外或另选地,示例易失性存储器1114和示例非易失性存储器1116可以实现图2的示例数据库216。
[0184]
所示示例的处理器平台1100还包括接口电路1120。接口电路1120可以通过任何类型的接口标准(诸如,以太网接口、通用串行总线(usb)、接口、近场通信(nfc)接口和/或pci express接口)来实现。
[0185]
在所示示例中,一个或更多个输入设备1122连接至接口电路1120。输入设备1122允许用户将数据和/或命令输入到处理器1112中。例如,输入设备可以通过音频传感器、麦克风、摄像头(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、isopoint和/或语音识别系统来实现。
[0186]
一个或更多个输出设备1124也连接至所示示例的接口电路1120。输出设备1124可以例如由显示设备(例如,发光二极管(led)、有机发光二极管(oled)、液晶显示器(lcd)、阴极射线管显示器(crt)、平面转换(ips)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此,所示示例的接口电路1120通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。
[0187]
所示示例的接口电路1120还包括通信设备(诸如,发送器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口),以促进经由网络1126与外部机器(例如,任何种类的计算设备)交换数据。例如,所述通信可以经由以太网连接、数字订户线(dsl)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等。
[0188]
所示示例的处理器平台1100还包括用于存储软件和/或数据的一个或更多个大容量存储设备1128。这样的大容量存储设备1128的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光盘驱动器、独立磁盘冗余阵列(raid)系统和数字通用盘(dvd)驱动器。
[0189]
图6a、图6b、图7、图8和/或图9的机器可执行指令1132可以存储在大容量存储设备1128、易失性存储器1114、非易失性存储器1116中和/或可移除非暂时性计算机可读存储介质(诸如,cd或dvd)上。
[0190]
图12是被构造为执行图10的指令以实现图3的应用114的示例处理器平台1200的框图。例如,处理器平台1200可以是服务器、个人计算机、工作站、自学习机器(例如,神经网络)、移动设备(例如,手机、智能电话、诸如ipad
tm
的平板计算机)、个人数字助理(pda)、因特网设备、dvd播放器、cd播放器、数字视频录像机、蓝光播放器、游戏机、机顶盒或者任何其它类型的计算设备。
[0191]
所示示例的处理器平台1200包括处理器1212。所示示例的处理器1212是硬件。例如,处理器1212可以由来自任何期望系列或制造商的一个或更多个集成电路、逻辑电路、微处理器、gpu、dsp或控制器来实现。硬件处理器可以是基于半导体的(例如,基于硅的)器件。在该示例中,处理器实现图3的示例组件接口302、示例指纹生成器304、示例网络接口306、示例用户界面308和示例报告生成器310。
[0192]
所示示例的处理器1212包括本地存储器1213(例如,缓存)。所示示例的处理器1212经由总线1218与包括易失性存储器1214和非易失性存储器1216的主存储器进行通信。易失性存储器1214可以由同步动态随机存取存储器(sdram)、动态随机存取存储器(dram)、动态随机存取存储器和/或任何其它类型的随机存取存储器设备来实现。非易失性存储器1216可以由闪存存储器和/或任何其它期望类型的存储器设备来实现。对主存储器1214、1216的访问由存储器控制器来控制。
[0193]
所示示例的处理器平台1200还包括接口电路1220。接口电路1220可以通过任何类型的接口标准(诸如,以太网接口、通用串行总线(usb)、接口、近场通信(nfc)接口和/或pci express接口)来实现。
[0194]
在所示示例中,一个或更多个输入设备1222连接至接口电路1220。输入设备1222允许用户将数据和/或命令输入到处理器1212中。例如,输入设备可以通过音频传感器、麦克风、摄像头(静态或视频)、键盘、按钮、鼠标、触摸屏、触控板、轨迹球、isopoint和/或语音识别系统来实现。
[0195]
一个或更多个输出设备1224也连接至所示示例的接口电路1220。输出设备1224可以例如由显示设备(例如,发光二极管(led)、有机发光二极管(oled)、液晶显示器(lcd)、阴极射线管显示器(crt)、平面转换(ips)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实现。因此,所示示例的接口电路1220通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。
[0196]
所示示例的接口电路1220还包括通信设备(诸如,发送器、接收器、收发器、调制解
调器、住宅网关、无线接入点和/或网络接口),以促进经由网络1226与外部机器(例如,任何种类的计算设备)交换数据。例如,所述通信可以经由以太网连接、数字订户线(dsl)连接、电话线连接、同轴电缆系统、卫星系统、直线对传式无线系统、蜂窝电话系统等。
[0197]
所示示例的处理器平台1200还包括用于存储软件和/或数据的一个或更多个大容量存储设备1228。这样的大容量存储设备1228的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光盘驱动器、独立磁盘冗余阵列(raid)系统和数字通用盘(dvd)驱动器。
[0198]
图10的机器可执行指令1232可以存储在大容量存储设备1228、易失性存储器1214、非易失性存储器1216中和/或可移除非暂时性计算机可读存储介质(诸如,cd或dvd)上。
[0199]
根据前述内容,将理解,已经公开了识别媒体的示例方法、装置和制品。示例方法、装置和制品减少了用于处理媒体和识别与媒体相关联的信息的计算周期的数量。用于识别媒体的一些技术更改和/或以其他方式调整音频信号,而本文公开的示例调整样本指纹和/或参考指纹以识别媒体。因为本文公开的示例调整样本指纹和/或参考指纹,所以本文公开的示例在媒体的音高偏移、时间偏移和/或重采样方面是鲁棒的。所公开的方法、装置和制品通过减少识别更改的媒体的计算负担来提高使用计算设备的效率。所公开的方法、装置和制品通过在识别媒体时降低计算设备的功耗来提高使用计算设备的效率。此外,所公开的方法、装置和制品通过减少用于识别媒体的处理开销来提高使用计算设备的效率。所公开的方法、装置和制品因此针对计算机功能的一个或更多个改进。
[0200]
本文公开了用于识别媒体的示例方法、装置、系统和制品。进一步的示例及其组合包括以下内容:示例1包括一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使一个或更多个处理器至少:响应于查询,通过对样本媒体指纹应用调整来生成调整后的样本媒体指纹;将所述调整后的样本媒体指纹与参考媒体指纹进行比较;以及响应于所述调整后的样本媒体指纹与所述参考媒体指纹匹配,发送与所述参考媒体指纹和所述调整相关联的信息。
[0201]
示例2包括示例1的非暂时性计算机可读存储介质,其中,所述查询包括以下项中的至少一项:(1)音高偏移值,(2)时间偏移值,或(3)重采样率,所述音高偏移值、所述时间偏移值和所述重采样率对应于对与所述样本媒体指纹相关联的音频信号的猜想更改。
[0202]
示例3包括示例2的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:确定所述音高偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的音高;响应于所述音高偏移值增加了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来减小与所述样本媒体指纹相关联的一个或更多个仓值;响应于所述音高偏移值降低了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来增加与所述样本媒体指纹相关联的所述一个或更多个仓值;以及生成所述调整后的样本媒体指纹。
[0203]
示例4包括示例2的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的回放速度;响应于所述时间偏移值增加了与所述样本媒体指纹相关联的所述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处将第一帧添加到所述样本媒体指纹;响应于所述时间偏移值降低了与所述样本媒体指纹相关联的所
述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处删除所述样本媒体指纹的第二帧;以及生成所述调整后的样本媒体指纹。
[0204]
示例5包括示例2的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:通过将所述音高偏移值应用于所述样本媒体指纹来生成第一调整后样本媒体指纹;通过将所述时间偏移值应用于所述样本媒体指纹来生成第二调整后样本媒体指纹;通过将所述重采样率应用于所述样本媒体指纹来生成第三调整后样本媒体指纹;以及将所述第一调整后样本媒体指纹、所述第二调整后样本媒体指纹和所述第三调整后样本媒体指纹与所述参考媒体指纹进行比较。
[0205]
示例6包括示例2的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:选择所述重采样率;通过将所述重采样率应用于所述样本媒体指纹来生成经音高偏移的样本媒体指纹;以及通过将所述重采样率应用于所述经音高偏移的样本媒体指纹来生成所述调整后的样本媒体指纹。
[0206]
示例7包括示例1的非暂时性计算机可读存储介质,其中,与所述参考媒体指纹相关联的信息标识以下项中的至少一项:与所述参考媒体指纹相关联的歌曲的标题,或者与所述参考媒体指纹相关联的歌曲的艺术家。
[0207]
示例8包括一种装置:指纹调谐器,所述指纹调谐器响应于查询,通过对样本媒体指纹应用调整来生成调整后的样本媒体指纹;比较器,所述比较器将所述调整后的样本媒体指纹与参考媒体指纹进行比较;以及网络接口,所述网络接口响应于所述调整后的样本媒体指纹与所述参考媒体指纹匹配而发送与所述参考媒体指纹和所述调整相关联的信息。
[0208]
示例9包括示例8的装置,其中,所述查询包括以下项中的至少一项:(1)音高偏移值,(2)时间偏移值,或(3)重采样率,所述音高偏移值、所述时间偏移值和所述重采样率对应于对与所述样本媒体指纹相关联的音频信号的猜想更改。
[0209]
示例10包括示例9的装置,所述装置还包括:指纹音高调谐器,所述指纹音高调谐器:确定所述音高偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的音高;响应于所述音高偏移值增加了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来减小与所述样本媒体指纹相关联的一个或更多个仓值;响应于所述音高偏移值降低了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来增加与所述样本媒体指纹相关联的所述一个或更多个仓值;以及生成所述调整后的样本媒体指纹。
[0210]
示例11包括示例9的装置,所述装置还包括:指纹速度调谐器,所述指纹速度调谐器:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的回放速度;响应于所述时间偏移值增加了与所述样本媒体指纹相关联的所述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处将第一帧添加到所述样本媒体指纹;响应于所述时间偏移值降低了与所述样本媒体指纹相关联的所述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处删除所述样本媒体指纹的第二帧;以及生成所述调整后的样本媒体指纹。
[0211]
示例12包括示例9的装置,所述装置还包括:指纹音高调谐器,所述指纹音高调谐器通过将所述音高偏移值应用于所述样本媒体指纹来生成第一调整后样本媒体指纹;指纹速度调谐器,所述指纹速度调谐器通过将所述时间偏移值应用于所述样本媒体指纹来生成
第二调整后样本媒体指纹;所述指纹音高调谐器或所述指纹速度调谐器中的至少一者通过将所述重采样率应用于所述样本媒体指纹来生成第三调整后样本媒体指纹;并且所述比较器将所述第一调整后样本媒体指纹、所述第二调整后样本媒体指纹和所述第三调整后样本媒体指纹与所述参考媒体指纹进行比较。
[0212]
示例13包括示例9的装置,所述装置还包括:网络接口,所述网络接口选择所述重采样率;指纹音高调谐器,所述指纹音高调谐器通过将所述重采样率应用于所述样本媒体指纹来生成经音高偏移的样本媒体指纹;以及指纹速度调谐器,所述指纹速度调谐器通过将所述重采样率应用于所述经音高偏移的样本媒体指纹来生成所述调整后的样本媒体指纹。
[0213]
示例14包括示例8的装置,其中,与所述参考媒体指纹相关联的信息标识以下项中的至少一项:与所述参考媒体指纹相关联的歌曲的标题,或者与所述参考媒体指纹相关联的歌曲的艺术家。
[0214]
示例15包括一种方法,所述方法:响应于查询,通过对样本媒体指纹应用调整来生成调整后的样本媒体指纹;将所述调整后的样本媒体指纹与参考媒体指纹进行比较;以及响应于所述调整后的样本媒体指纹与所述参考媒体指纹匹配,发送与所述参考媒体指纹和所述调整相关联的信息。
[0215]
示例16包括示例15的方法,其中,所述查询包括以下项中的至少一项:(1)音高偏移值,(2)时间偏移值,或(3)重采样率,所述音高偏移值、所述时间偏移值和所述重采样率对应于对与所述样本媒体指纹相关联的音频信号的猜想更改。
[0216]
示例17包括示例16的方法,所述方法还包括:确定所述音高偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的音高;响应于所述音高偏移值增加了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来减小与所述样本媒体指纹相关联的一个或更多个仓值;响应于所述音高偏移值降低了与所述样本媒体指纹相关联的所述音频信号的音高,基于所述音高偏移值来增加与所述样本媒体指纹相关联的所述一个或更多个仓值;以及生成所述调整后的样本媒体指纹。
[0217]
示例18包括示例16的方法,所述方法还包括:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的所述音频信号的回放速度;响应于所述时间偏移值增加了与所述样本媒体指纹相关联的所述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处将第一帧添加到所述样本媒体指纹;响应于所述时间偏移值降低了与所述样本媒体指纹相关联的所述音频信号的回放速度,在所述样本媒体指纹中与所述时间偏移值对应的位置处删除所述样本媒体指纹的第二帧;以及生成所述调整后的样本媒体指纹。
[0218]
示例19包括示例16的方法,所述方法还包括:通过将所述音高偏移值应用于所述样本媒体指纹来生成第一调整后样本媒体指纹;通过将所述时间偏移值应用于所述样本媒体指纹来生成第二调整后样本媒体指纹;通过将所述重采样率应用于所述样本媒体指纹来生成第三调整后样本媒体指纹;以及将所述第一调整后样本媒体指纹、所述第二调整后样本媒体指纹和所述第三调整后样本媒体指纹与所述参考媒体指纹进行比较。
[0219]
例示20包括示例16的方法,所述方法还包括:选择所述重采样率;通过将所述重采样率应用于所述样本媒体指纹来生成经音高偏移的样本媒体指纹;以及通过将所述重采样
率应用于所述经音高偏移的样本媒体指纹来生成所述调整后的样本媒体指纹
[0220]
示例21包括一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使一个或更多个处理器至少:从音频信号生成指纹;将指纹和调整指令发送到中央设施以促进查询,调整指令标识音高偏移、时间偏移或重采样率中的至少一者;接收包括音频信号的标识符和与音频信号被如何调整相对应的信息的响应;以及将指示标识符的信息和所述信息存入数据库。
[0221]
示例22包括示例21的非暂时性计算机可读存储介质,其中,所述指令使一个或更多个处理器向用户发送对调整指令进行标识的提示。
[0222]
示例23包括示例21的非暂时性计算机可读存储介质,其中,所述调整指令由客户端定义。
[0223]
示例24包括示例21的非暂时性计算机可读存储介质,其中,所述信息被包括在发送到客户端的数据包中。
[0224]
示例25包括示例21的非暂时性计算机可读存储介质,其中,所述信息可以显示在用户界面上。
[0225]
示例26包括示例21的非暂时性计算机可读存储介质,其中,所述指令使一个或更多个处理器基于所述信息来修改调整指令,以供后续指纹识别。
[0226]
示例27包括示例21的非暂时性计算机可读存储介质,其中,所述指令使所述一个或更多个处理器将包括所述信息的数据包发送到客户端。
[0227]
示例28包括一种装置,所述装置包括用于从音频信号生成指纹的指纹生成器,以及网络接口,所述网络接口:将指纹和调整指令发送到中央设施以促进查询,调整指令标识音高偏移或时间偏移中的至少一者;接收包括音频信号的标识符和与音频信号被如何调整相对应的信息的响应;以及将指示标识符的信息和所述信息存入数据库。
[0228]
示例29包括示例28的装置,所述装置还包括用户界面,所述用户界面向用户显示对调整指令进行标识的提示。
[0229]
示例30包括示例28的装置,其中,所述调整指令由客户端定义。
[0230]
示例31包括示例28的装置,其中,所述网络接口用于将包括所述信息的数据包发送到客户端。
[0231]
示例32包括示例28的装置,所述装置还包括用于向用户显示所述信息的用户界面。
[0232]
示例33包括示例28的装置,其中,所述信息用于修改所述调整指令以供后续指纹识别。
[0233]
示例34包括示例28的装置,其中,所述网络接口用于将包括所述信息的数据包发送到客户端。
[0234]
示例35包括一种方法,所述方法包括:通过利用处理器执行指令,从音频信号生成指纹;将指纹和调整指令发送到中央设施以促进查询,调整指令标识音高偏移或时间偏移中的至少一者;接收包括音频信号的标识符和与音频信号被如何调整相对应的信息的响应;以及将指示标识符的信息和所述信息存入数据库。
[0235]
示例36包括示例35的方法,所述方法还包括向用户发送对调整指令进行标识的提示。
[0236]
示例37包括示例35的方法,其中,所述调整指令由客户端定义。
[0237]
示例38包括示例35的方法,所述方法还包括将所述信息作为数据包发送到客户端。
[0238]
示例39包括示例35的方法,所述方法还包括向用户显示所述信息。
[0239]
示例40包括示例35的方法,其中,所述信息用于修改调整指令,以供后续指纹识别。
[0240]
示例41包括一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质包括指令,所述指令在被执行时使一个或更多个处理器至少:将(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者与参考媒体指纹进行比较;响应于(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的任一者与参考媒体指纹之间的匹配,生成造成匹配的(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个指示;响应于收集广播媒体达阈值时间段,处理一个或更多个指示;以及响应于对与查询相关联的信息的推荐的请求,发送包括(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个出现频率的在内的推荐。
[0241]
示例42包括示例41的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:收集广播媒体;基于所述广播媒体生成样本媒体指纹;以及通过对样本媒体指纹应用(a)音高偏移值、(b)时间偏移值或(c)重采样率中的至少一者,生成(a)经音高偏移的样本媒体指纹(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者。
[0242]
示例43包括示例42的非暂时性计算机可读存储介质,其中,所述指令在被执行时使一个或更多个处理器:确定音高偏移值是否增加了与样本媒体指纹相关联的音频信号的音高;响应于音高偏移值增加了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来减小与样本媒体指纹相关联的一个或更多个仓值;响应于音高偏移值降低了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来增加与样本媒体指纹相关联的一个或更多个仓值;以及生成经音高偏移的样本媒体指纹。
[0243]
示例44包括示例42的非暂时性计算机可读存储介质,其中,所述指令在被执行时使所述一个或更多个处理器:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的音频信号的回放速度;响应于时间偏移值增加了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处将第一帧添加到样本媒体指纹;响应于时间偏移值降低了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处删除样本媒体指纹的第二帧;以及生成经时间偏移的样本媒体指纹。
[0244]
示例45包括示例42的非暂时性计算机可读存储介质,其中,所述指令在被执行时使一个或更多个处理器:选择重采样率;通过将重采样率应用于样本媒体指纹来生成经音高偏移的样本媒体指纹;以及通过将重采样率应用于经音高偏移的样本媒体指纹来生成经重采样的样本媒体指纹。
[0245]
示例46包括示例41的非暂时性计算机可读存储介质,其中,所述推荐包括分别具有比(a)一个或更多个另外的音高偏移值、(b)一个或更多个另外的时间偏移值或(c)一个
或更多个另外的重采样率更高的出现频率的(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值或(c)一个或更多个重采样率。
[0246]
示例47包括示例46的非暂时性计算机可读存储介质,其中,所述指令在被执行时使一个或更多个处理器:响应于包括推荐的查询,将样本媒体指纹与(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值或(c)一个或更多个重采样率进行比较。
[0247]
示例48包括一种装置,所述装置包括比较器,所述比较器:将(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者与参考媒体指纹进行比较;响应于(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的任一者与参考媒体指纹之间的匹配,生成造成匹配的(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个指示;处理器,所述处理器:响应于收集广播媒体达阈值时间段,处理一个或更多个指示;以及网络接口,所述网络接口响应于对与查询相关联的信息的推荐的请求,发送包括(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个出现频率的在内的推荐。
[0248]
示例49包括示例48的装置,其中,所述网络接口收集广播媒体;所述装置还包括基于所述广播媒体生成样本媒体指纹的指纹生成器,以及指纹调谐器,所述指纹调谐器:通过对样本媒体指纹应用(a)音高偏移值、(b)时间偏移值或(c)重采样率中的至少一者,生成(a)经音高偏移的样本媒体指纹(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者。
[0249]
示例50包括示例49的装置,所述装置还包括指纹音高调谐器,所述指纹音高调谐器:确定音高偏移值是否增加了与样本媒体指纹相关联的音频信号的音高;响应于音高偏移值增加了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来减小与样本媒体指纹相关联的一个或更多个仓值;响应于音高偏移值降低了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来增加与样本媒体指纹相关联的一个或更多个仓值;以及生成经音高偏移的样本媒体指纹。
[0250]
示例51包括示例49的装置,所述装置还包括指纹速度调谐器,所述指纹速度调谐器:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的音频信号的回放速度;响应于时间偏移值增加了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处将第一帧添加到样本媒体指纹;响应于时间偏移值降低了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处删除样本媒体指纹的第二帧;以及生成经时间偏移的样本媒体指纹。
[0251]
示例52包括示例49的装置,所述装置还包括:所述网络接口选择重采样率;指纹音高调谐器通过将重采样率应用于样本媒体指纹来生成经音高偏移的样本媒体指纹;并且指纹速度调谐器或指纹音高调谐器中的至少一者通过将重采样率应用于经音高偏移的样本媒体指纹来生成经重采样的样本媒体指纹。
[0252]
示例53包括示例49的装置,其中,所述推荐包括分别具有比(a)一个或更多个另外的音高偏移值、(b)一个或更多个另外的时间偏移值或(c)一个或更多个另外的重采样率更高的出现频率的(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值或(c)一个或更多个重采样率。
[0253]
示例54包括示例53的装置,其中,所述比较器被配置为:响应于包括推荐的查询,
将样本媒体指纹与(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值或(c)一个或更多个重采样率进行比较。
[0254]
示例55包括一种方法,所述方法包括:将(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者与参考媒体指纹进行比较;响应于(a)经音高偏移的样本媒体指纹、(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的任一者与参考媒体指纹之间的匹配,生成造成匹配的(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个指示;响应于收集广播媒体达阈值时间段,处理一个或更多个指示;以及响应于对与查询相关联的信息的推荐的请求,发送包括(a)音高偏移值、(b)时间偏移值或(c)重采样率的一个或更多个出现频率的在内的推荐。
[0255]
示例56包括示例55的方法,所述方法还包括:收集广播媒体;基于所述广播媒体生成样本媒体指纹;以及通过对样本媒体指纹应用(a)音高偏移值、(b)时间偏移值或(c)重采样率中的至少一者,生成(a)经音高偏移的样本媒体指纹(b)经时间偏移的样本媒体指纹或(c)经重采样的样本媒体指纹中的至少一者。
[0256]
示例57包括示例56的方法,所述方法还包括:确定音高偏移值是否增加了与样本媒体指纹相关联的音频信号的音高;响应于音高偏移值增加了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来减小与样本媒体指纹相关联的一个或更多个仓值;响应于音高偏移值降低了与样本媒体指纹相关联的音频信号的音高,基于音高偏移值来增加与样本媒体指纹相关联的一个或更多个仓值;以及生成经音高偏移的样本媒体指纹。
[0257]
示例58包括示例56的方法,所述方法还包括:确定所述时间偏移值是否增加了与所述样本媒体指纹相关联的音频信号的回放速度;响应于时间偏移值增加了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处将第一帧添加到样本媒体指纹;响应于时间偏移值降低了与样本媒体指纹相关联的音频信号的回放速度,在样本媒体指纹中与时间偏移值对应的位置处删除样本媒体指纹的第二帧;以及生成经时间偏移的样本媒体指纹。
[0258]
示例59包括示例56的方法,所述方法还包括:选择重采样率;通过将重采样率应用于样本媒体指纹来生成经音高偏移的样本媒体指纹;以及通过将重采样率应用于经音高偏移的样本媒体指纹来生成经重采样的样本媒体指纹。
[0259]
示例60包括示例59的方法,其中,所述推荐包括分别具有比(a)一个或更多个另外的音高偏移值、(b)一个或更多个另外的时间偏移值或(c)一个或更多个另外的重采样率更高的出现频率的(a)一个或更多个音高偏移值、(b)一个或更多个时间偏移值或(c)一个或更多个重采样率。
[0260]
尽管本文已经公开了某些示例方法、装置和制品,但本专利的覆盖范围不限于此。相反,本专利涵盖了完全落入本专利权利要求范围内的所有方法、装置和制品。
[0261]
所附权利要求通过引用并入本具体实施方式中,每个权利要求作为本公开的单独实施方式独立存在。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献