媒体播放设备中的内容过滤的制作方法

2021-10-24 07:19:00 来源：中国专利 TAG：人工智能过滤改变宠物媒体

1.本技术涉及人工智能领域，尤其涉及媒体过滤和宠物行为改变的领域。

背景技术：

2.消费者在播放音频媒体和视频媒体的设备上观察到很多内容。很多消费者希望某些内容将不被呈现在他们的设备上。例如，很多儿童的家长希望色情图像、猥亵言词、以及暴力图像将不被呈现。
3.诸如谷歌(google)和脸书(facebook)的由很多第三方机构创建的媒体的提供商应用一般公认的标准来阻挡或去除具有中度色情或极端暴力内容的媒体。他们甚至可以利用诸如安全搜索(safesearch)模式的特征来提供可选的媒体阻挡等级。但是，一些消费者，尤其是家长，可能更偏好与媒体提供商设置的标准不同的标准。
4.例如，一些家长可能想要允许裸体作为高雅艺术或科学教育媒体的一部分被呈现，而其他家长可能并不同意这样做。一些家长可能发现枪声或枪的图像不适合，其他家长可能发现拳击的声音和视频不适合。一些家长可能认为某些单词的集合不适合。
5.提供有限数量的策划媒体的提供商(例如，提供电影和电视节目的netflix和提供有声读物的audible)为不同账户类型提供不同的访问权限。消费者可以注册特殊账户(例如，给孩子的账户)，这些特殊账户提供相比一般账户可得到的节目有更多限制的节目。
6.诸如广播电视节目的一些媒体被利用诸如美国电影协会(mpaa)电影分级系统的分级进行编码。一些电视机可以检测这样的编码。这种电视机允许用户设置家长控制设置，这些家长控制设置能够防止分级在某个等级以上的媒体被播放。
7.所有以上内容控制系统在完整视频或音频节目的级别上进行操作，这意味着消费者不能访问大量媒体，即使只有一小部分具有大型机构认为不适合的内容。
8.在其他重要示例中，很多真实的狗在看到显示器上的狗或者听见狗咆哮或吠叫的声音时将开始吠叫。这会打扰到邻居。一些狗主人可能想要阻止狗的图像和声音被呈现在他们的媒体设备上。主要内容提供商都没有提供阻止他们的用户访问具有狗的视频或音频的媒体的任何解决方案。
9.在又一示例中，当消费者之间进行音频或视频聊天时，不存在内容控制。呈现音频或视频的用户有可能呈现收听或收看的观察者将发现不期望看到或听到的内容。传统的系统没有提供防止这种情况的机制。
10.本技术将要解决的一些问题包括：
11.(a)不期望的内容的呈现，
12.(b)媒体访问控制的粗粒度，
13.(c)无法控制直播媒体中的内容，以及
14.(d)缺少对于内容阻挡类型的选项。

技术实现要素：

15.本技术通过在媒体播放设备中不考虑媒体源地执行内容过滤，来解决上述问题。内容过滤可以被进行精细粒度的控制，例如在相关音频帧或视频帧的组块级别上、在单独的帧上、或者具体地在帧内的有限区域上执行内容过滤。内容过滤可以在直播媒体上实时进行。另外，对于不同类型的内容，内容过滤可以是高度可配置的。
16.过滤的实现方式可以包括以下步骤：从输入缓冲器读取原始媒体；处理原始媒体，以创建经过滤媒体；以及将经过滤媒体写入输出缓冲器。与可能从已经经过过滤的来源(例如，netflix或迪士尼(disney)媒体流传输服务)读取所缓存媒体的设备不同，媒体播放设备中的媒体过滤的实现方式可以对包含一种或多种不期望的内容类型的原始媒体进行操作。另外，与执行其他类型的过滤(诸如，锐度增强、抖动、以及对比度控制)的媒体播放设备不同，媒体播放设备中的媒体过滤处理产生其中不期望类型的内容对于经过滤媒体的观察者来说不可辨认的结果。过滤可能产生伪像，并且仔细检查伪像可能提供关于经过滤媒体已经被过滤的事实的线索。但是，不期望的内容本身是不可辨认的。
17.一些方法可以提供这样的优点。诸如经过适当训练的神经网络的分类模型可以检测具有不期望的内容的帧的组块或独立帧，并且包含这种内容的视频帧或音频帧的序列可以被消隐或者被诸如哔哔声的特定音频分段或诸如雪花或图标的图像信号替换。狗是可能被过滤的特定内容类型的示例。裸体、暴力、亵渎行为等是其他示例。
18.识别诸如暴力动作或亵渎话语的某些种类的内容需要利用时间信息进行训练后的模型，诸如循环神经网络、长短期记忆(lstm)神经网络、或门控循环单元(gru)神经网络。
19.在一些方法中也可能对包含识别不期望的内容所需要的的信息的视频图像或音频频谱范围进行分割。这可以包括音频中的源标识和源分离以及视频中的对象识别和矢量化。可以执行诸如视频像素化或音频混音的擦除或其他信号降级技术。这使得观察者能够在没有不期望的内容的条件下理解与故事有关的内容，不期望的内容例如视频中的攻击性或分散注意力的对象或音频中的背景或干扰音。
20.也可以执行不期望的内容的替换。这可以通过例如在不期望的内容的区域中覆盖诸如视频中的笑脸或音频中的喇叭声的对象来实现。另外，可以擦除不期望的内容的分割区域，并使用神经网络模型执行修补，以预测可能存在于被擦除区域中的信息。这可以利用诸如经过逆向训练的生成型神经网络(gan)的生成型模型来执行。生成型神经网络预测原始媒体中提供使得观察者能够辨认不期望的内容的特征的点处的替换数据。
21.还可以使用自动编码器来执行媒体帧或组块的语义分析，在存在一个或多个不期望的内容特征时替换这些内容特征，并且根据其编码重新生成媒体。
22.本技术还提供了多个可选择且可配置的过滤器。这可以通过例如利用有条件地使能不同类型的内容的过滤的一个或多个输入在多个内容类型上训练神经网络来实现。这将使用相对较少的设备中计算，但是训练将更加复杂并且不能针对不同的内容类型独立配置(在没有完成重新训练时)。可选择的过滤器也可以通过依次包括多个过滤器模型来实现。这要求设备中相对更多的处理能力，但是允许内容过滤器的独立改变和重新训练，从而潜在地提供了适合用户口味的数百或数千个用户可选择的过滤器的菜单。
23.一个或多个过滤器参数可以被存储在媒体播放设备中的非易失性存储器中。如果例如经过更好训练的过滤器在未来变得可用，则这些过滤器可以被更新。这相当于固件升
级或者是固件升级的一部分，其中固件升级甚至可以在用户不知道的情况下进行。
24.也可以利用过滤器参数的一个或多个配置(例如，具有标准架构的神经网络的权重和偏差参数)对媒体进行编码。因此，媒体提供商可以提供具有经过编码的完整原始内容的媒体，但是存在供用户选择他们想要如何对内容进行过滤的选项。这比向不同受众发送基本相同的媒体的经过不同编码的版本简单得多。
25.包含或执行创造性组件或方法步骤的媒体播放设备可以包括诸如专用神经网络处理单元的专用媒体处理芯片。类似地，这些专用功能可以被包括在片上系统中。这些专用功能可以在处理流水线的所有其他步骤之后直接在视频显示缓冲器或音频输出缓冲器上执行。
附图说明
26.图1a示出了根据实施例的具有信号替换的音频帧的频谱图。
27.图1b示出了根据实施例的具有帧替换的视频帧序列。
28.图2示出了根据实施例的视频对象替换过程。
29.图3示出了狗对着电视吠叫。
30.图4示出了根据实施例的狗安静地收看具有降级内容的电视。
31.图5示出了根据实施例的视频内容擦除和修补过程。
32.图6示出了根据实施例的音频对象替换和修补过程。
33.图7示出了根据实施例的可选内容过滤器的菜单。
34.图8a示出了根据实施例的视频封包(packet)格式。
35.图8b示出了根据实施例的视频封包报头格式。
36.图9示出了根据实施例的具有对象替换的视频会议安排。
37.图10示出了根据实施例的电视机。
38.图11示出了根据实施例的移动手持设备。
39.图12a示出了根据实施例的具有媒体过滤功能的芯片。
40.图12b示出了根据实施例的能够进行媒体过滤的芯片的示意图。
41.图13示出了根据实施例的非暂态计算机可读介质。
具体实施方式
42.下面描述与本技术有关的相关方面的各种设计选项。除非另有说明，针对不同方面的设计选项彼此独立并且以任意组合一起工作。
43.媒体播放设备从存储装置或者从网络连接(例如通过诸如以太网的有线网络、诸如wi
‑
fi的无线网络、蓝牙、移动服务、或卫星通信网络)获取媒体。取决于媒体类型和传输协议，媒体播放设备可以执行流解复用、误差校正、对压缩比特流的解码、诸如缩放和锐度增强的图像增强算法、诸如分层边框、标题和其他文本的合成、定时同步以及其他技术，以准备用于在屏幕上显示的视频媒体或用于通过扬声器输出的音频媒体。这些类型的处理可以基于媒体类型、不同的行业标准协议、以及媒体播放设备中的软件栈而以不同顺序进行。另外，每个这样的功能可以由通用中央处理单元(cpu)上的软件、图形处理单元(gpu)中的软件、专用数字信号处理器(dsp)上的软件、或专用硬件逻辑功能执行。任意功能组合可以
在单个芯片上或者多个芯片中执行。
44.一般而言，过滤发生在离输出扬声器或显示器越近的位置，越多不同的内容源可以被过滤，并且内容过滤设备可以针对用户进行越精细和越大的控制。根据本技术的内容过滤可以应用于处理链中的不同点，包括应用于音频缓冲器或视频帧缓冲器中的最终输出(在其被呈现给观察者之前)。
45.神经网络是一种常见的媒体内容分类模型。支持向量机(svm)和朴素贝叶斯是可以适用于某些情境的其他机器学习模型。使用svm或朴素贝叶斯进行内容过滤要求一定数量的特征工程表现良好，而利用深度学习，训练创建经学习的特征。对于朴素贝叶斯，即使在设计了一种从视频或音频提取特征的方法之后，也存在每个特征是有条件的独立的隐含假定(这种假定很少是真的)。svm也创建决策边界，所以它们往往最适合用于很少有异常值的小数据集。因此，经过机器学习的神经网络，尤其是卷积神经网络(cnn)，是当前最常用的方法。但是，其他分类器或生成模型也是可能的。
46.在很多情况中，包括诸如具有门控循环单元(gru)的循环神经网络(rnn)或lstm的时间循环模型是有用的。尽管这些模型对于静止图像处理可能并不是必需的，但是它们检测跨时间特征的能力使得它们能够识别出音频和视频中相对难以通过非循环模型识别的特征。
47.rnn通常会同时查看音频或视频组块。组块通常是某个帧及其一个或两个左边和右边的相邻帧。lstm对与检测时间关联特征相关的历史信息进行编码，但是仍然能够逐帧地生成输出，从而向媒体处理流水线添加一帧多一点或几帧的延时。
48.信号替换
49.一种使不期望的内容不可辨认的方式是在不可辨认的内容尚能辨认的时段期间替换整个媒体信号。在视频的上下文中，信号替换是视频帧的替换。在音频的上下文中，信号替换可以是时域中的一系列音频样本的替换或者频域中的音频帧中的所有频率分量的替换。
50.图1a示出了包含语音的经过滤音频的频域谱图。时间从音频帧0到音频帧156按从左向右的顺序推移。频率从低到高。该谱图示出了每帧的频率分量的密度。常见的音频帧速率(尤其是语音处理的帧速率)是每秒100帧。因此，图1a的谱图示出了1.56秒的语音。一般的语速是大约5个单词每秒，因此该谱图示出了大约8个平均长度的单词。
51.被训练以识别不期望的声音内容的lstm内容过滤器在该谱图中示出的数据上运行。在帧77，其识别出大约为两个单词长的不期望的亵渎短语。过滤器使得该语音不可辨认。在本示例中，过滤器利用单个频率替换帧77至111中的所有音频。这可以从在这一系列帧期间的水平线看出。这将在这些帧期间产生正弦波输出。语音范围中间的正弦波通常被称为哔哔声。图1a示出了神经内容过滤器针对不期望的音频内容自动发出哔哔声。
52.不是必需创建哔哔声。另一个合理的行为是静音。这将产生具有空白矩形的谱图。另一个合理的行为是创建白噪声，这将在谱图中创建均匀填充的矩形。其他类型的填充信息作为对于包含原始媒体中的不期望的声音内容的帧的替换是合理的。也可以保留来自原始媒体的一些声音，但去除听者认为是不期望的单词的可听信息。下面将更详细地讨论这一点。
53.图1b示出了包含人的图像的经过滤的视频内容的帧序列。时间从帧0到帧15按从
左到右的顺序推移。以每秒30帧的常见帧速率，这表示0.533秒的视频。被训练以识别不期望的视觉内容的lstm内容过滤器在这些帧中的数据上运行。在帧3，它识别出针对6个帧(0.2秒)示出的不期望的视觉元素，例如，做出淫秽手势或执行暴力动作的手。在该示例中，内容过滤器通过将帧3到8替换为在整个帧上具有简单图案的帧来屏蔽它们。
54.不一定使用简单图案。单一的颜色(例如，黑色、白色、或蓝色)也可以，雪(随机的黑白像素)、经典的电影电视工程师协会(smpte)的彩条也可以，可识别的图标也可以。也可以保留来自原始媒体的一些视频图像，而只使得观看者将认为是不期望的内容不可分辨。下面将更详细地讨论这一点。
55.替换对象
56.图1a和图1b所示的帧替换的示例可以使用具有一个或少量输出的分类器神经网络实现。这是一种相对简单的过滤方法，其使用的处理资源相对较少。因此，多个过滤器可以在电池供电设备可接受的电源范围内运行，并且可以以消费者愿意支付的价位启用设备中的内容过滤。
57.然而，在略高的价位和略高的功耗下，更复杂的过滤是可能的。cnn不仅能够识别媒体中存在不期望的内容的事实，而且能够识别媒体中的不期望的内容的位置和大小。在音频的上下文中，将识别哪些频带包含对识别不期望的内容有用的信息。在视频的上下文中，将识别不期望的内容存在于帧内的水平和垂直方向上的位置和范围。在数码相机领域，检测人脸的位置和大小是众所周知的，可以实现更精确的聚焦和图像增强。
58.一种识别不期望的内容的位置和大小的方法是使用分类器cnn，从最高层开始向下找出下一层中对分类结果贡献最大的特征。在最底层，对分类结果的贡献高于阈值的输入特征的中点和范围定义了不期望的内容的位置和大小。做出贡献的输入功能可能是非连续的。对于音频频率分量尤其如此。可能期望忽略异常值以避免不合理大的替换对象。还可能期望将大小和位置结果与多个先前帧的结果进行比较，期望它们具有表示合理一致的运动轨迹的增量。这避免了替换对象在大小和运动上的跳跃。在替换对象的边缘使用混合(blending)算法可以使其位置看起来更自然。混合可以通过图像中的模糊和/或锐化或音频帧中的频率分量幅度匹配的过程来实现。
59.为了实现内容过滤，可以使用不期望的内容的位置和大小信息来应用替换对象作为补丁覆盖。为此，过滤器从替换对象数据库中读取表示替换对象的数据。这将是用不作为不期望的内容的对象来覆盖。可以定义特定类型的不期望的内容和特定覆盖对象之间的映射。例如，单词“fuck”可以被替换为单词“fun”，或者枪的视频图像可以被替换为冰淇淋筒。
60.图2示出了视频上下文中的对象替换的示例。在视频图像21中，两块内容可见。一块内容是独角兽22，其是期望的内容。一块内容是手中的枪23，其是不期望的内容。图像由cnn 24处理以产生视频帧25，在视频帧25中，枪被指示不期望的内容的位置和大小的边界框26包围。通过对象替换27来处理帧25。对象替换使用不期望的内容是枪的信息来映射到作为适当的替换对象的冰淇淋筒。冰淇淋筒的图像数据是从替换对象数据库中读取的。图像被缩放到枪的大小并被覆盖在枪的位置。对象替换产生了视频帧28，在视频帧28中，独角兽22可见并且没有改变，但是冰淇淋筒对象29被以不期望的内容23的大小覆盖在不期望的内容23的位置处。
61.生成型过滤器(generative filters)
62.然而，在略高的价位和略高的功耗下，更复杂的生成型过滤器是可能的。生成型过滤器，例如，建立在生成型神经网络上的过滤器是一种产生作为输出的媒体的过滤器。一种常见的训练生成型神经网络的方法是对抗训练，该训练会产生生成型对抗网络(gan)。
63.如果不存在不期望的内容，则生成型过滤器可以产生与其输入相同的可辨认的输出；但是，如果存在不期望的内容，则生成型过滤器可以产生与输入不同的输出，其中，不期望的内容是不可辨认的。
64.分割和降级
65.分割是分离出图像中的哪些部分是特定内容的一部分的过程。结果可以是对于图像的每个像素指示其是否是诸如色情或暴力图像之类的感兴趣内容片段的一部分的数据帧。在音频的上下文中，分割可以针对音频数据帧中的每个频率分量提供其是否是感兴趣的内容片段(例如，攻击性语音或暴力声音)的一部分的信息。
66.信号处理方法长期以来一直被用来执行分割。然而，神经网络现在能够有效地进行分割。基于神经网络的内容过滤器可以识别出媒体中的哪些数据表示不期望的内容部分。这样的过滤器随后可以仅对该数据执行处理以降低其质量并使内容不可辨认。
67.一种可能的降级类型是轮廓化(silhoueting)。这是通过用恒定值替换不期望的内容的所有数据(例如，音频帧频率分量或视频帧像素)实现的。另一种可能的方法是模糊化。这本质上是去除高频信息的过程。在视频的上下文中，这将表现为帧的经模糊分段。在音频的上下文中，这将是对帧中的不同的相邻频率分量进行混合。注意，这并不意味着相对于低频分量而言更多地减少帧内的高频分量。
68.另一种可能的降级类型是像素化(pixelation)。这本质上是在分段内部局部模糊化，但分段之间是独立的。在视频图像中，这使得不期望的内容看起来是由像素大矩形构成的，从而使得其特定细节不可辨认。在音频的上下文中，像素化具有增强频率分量的某些子范围并削弱频率分量的另一些子范围的效果，这将给出音频的总体感觉但没有完全的可懂性。这意味着对于语音音频来说，可以分辨出音频有语音，但不可能分辨出说话人在说什么。这有时被称为使得语音含糊不清。
69.另一种可能的降级类型是消音。在音频中，这是降低具体用于识别内容的频率分量的等级的过程。例如，降低人声范围内的频率的等级会使语音难以理解。在视频的上下文中，这将表现为视频图像中的不期望的内容的灰色化，类似于轮廓化或模糊化，但是即使无法完全可理解也会留下给出内容要点的信息。
70.狗可以识别出视频中的狗的图像和音频中的狗的声音。通常，真实的狗会在遇到这样的图像或声音时变得兴奋，并且有时会大声吠叫。这种吠叫会打扰一些人，比如，附近公寓里脾气暴躁的老太太。狗也可以识别出视频中的树，但是大多数狗通常不会对着树吠叫。图3示出了宠物行为控制领域中的特定问题。平板电视机30具有显示狗内容31和树内容32的内容。真实的狗33看到有狗内容31的媒体时会咆哮和吠叫。
71.图4示出了具有电视机30的类似场景，但是在该场景中，生成型过滤器处理视频媒体，分割包含狗内容的数据，并且像素化狗内容41。过滤器不改变树内容32，因为树不是不期望的内容。由于分割和降级，真实的狗33无法识别出媒体中的狗内容，因此真实的狗安静地观察树内容32和不可分辨的像素化片段41。
72.尽管分割和降级技术已经存在了很长时间，但到目前为止，尚未实际在消费设备
中进行分割和降级。这样做的好处是：无论媒体来源如何都可运行，为用户提供对过滤行为的精细控制，针对直播媒体可以实时地运行，可以针对音频和视频运行，并且尤其是对于狗和狗主人而言可以很好地运行。
73.修补
74.另一种依赖于生成型过滤器和分割的方法是擦除和修补所预测的数据。这从分割开始。分割可以简单地作为大分段而被执行，例如视频图像中的矩形或音频帧中的固定范围。分割也可以具体地勾勒出表示媒体中的不期望的内容的特征的数据。
75.擦除不期望的内容的特征的数据之后，生成型神经网络使用在没有不期望的内容的情况下训练得到的模型、针对每个数据点预测该数据点在图像中应当是什么内容。擦除不一定需要(例如使用零值)覆写所存储的数据。它只需要识别要替换的数据。
76.图5示出了应用于图2的输入视频的修补示例。在视频帧21中，期望的内容“独角兽22”和不期望的内容“手里的枪23”都是可分辨的。内容过滤器执行分割不期望的特征的步骤。对经分割的视频帧55的表示示出了不期望的内容的区域的边界56。内容过滤器执行擦除步骤57。擦除了不期望的内容的视频帧的表示58示出了分割后的边界56，其中，被擦除的不期望内容的像素被显示为黑色。接下来，过滤器执行修补步骤59。这可能使用各种技术。在由计算机视觉基金会(computer vision foundation)出版的赵阳(chao yang)等人撰写的论文“high
‑
resolution image inpainting using multi
‑
scale neural patch synthesis”中描述了一个示例。得到的视频帧60显示期望的独角兽内容22不变，但是不期望的手中的枪的内容23被指尖61替换。
77.当在包含类似内容(例如，手)但是不包含不期望的内容(例如，拿枪的手)的足够多的样本视频上训练产生被擦除区域内的像素的生成型神经网络时，这种修补效果很好。如果训练内容包括具有指尖的手，则修补神经网络可能会发现指尖与手上没有被擦除的部分最匹配。因此，它将预测在枪被擦除的区域内的填充像素值，该像素值产生看起来像指尖的媒体。
78.在音频的上下文中，可以使用类似于上述方法的方法进行分割、擦除、和修补。被公开为arxiv:1810.12138v2的由andr
é
s marafioti等人撰写的“acontext encoer for audio inpainting”提供了示例。然而，用黑白线条的附图难以示出。图6示出了示例。通过分割不期望的特征的步骤64来处理音频信号62。识别不期望的音频内容通常需要跨多个帧识别特征。这对于视频图像来说是如此，但对于音频来说更是如此。因此，用于音频分割的神经网络应该是某种rnn。分割通常发生在频域表示的音频帧上。这通常是通过对变化的空气压力波的时间序列样本阵列执行快速傅里叶变换(fft)或类似函数产生的。这种过滤器对帧内的频率分量值执行分割，并且通常以微小的变化从一帧传播到下一帧，其中频率被包括在分割中。
79.最佳的音频分割技术因要过滤的内容类型而异。例如，枪声很短，所有频率的能量都很大。因为枪声短，所以没有太多的时间信息来增强识别概率。由于它听起来类似于树枝折断、书本掉落、或某人说出字母k，所以如果过滤器接收到来自对相应视频执行图像分类的模型的输入，则针对枪声的分割可以变得更准确。类似地，最近的音频特征，例如包含枪声之前出现的单词的已识别语音，也可以为在音频中分割枪声提供有用的输入。
80.相反，单词往往跨越许多音频帧。通过收集重要的时间信息，识别和分割单词以例
如去除不期望的亵渎内容会相对容易。缺点是：要收集足够的时间信息以便及时返回进行修补以使得亵渎变得不可辨认，需要将音频的输出延迟足够的时间来识别单词。这可以利用准确的音素声学模型和准确的统计语言模型来改善。
81.在图6中，在步骤67中，经分割的音频使得其在相关帧中的区别频率分量被擦除。接下来，过滤器执行修补被擦除特征的步骤69，以产生不期望的内容变得不可辨认的结果输出音频63。
82.例如，为了消除不期望的语音，分割不需要在单词的持续时间内选择人声范围内的每个频率分量。它只需要分割足够的信息，替换该信息使得不期望的语音不可辨认。如果没有分割出足够数量的音频信息，则在不包括不期望的单词的语音上经良好训练的修补神经网络将生成具有训练数据中的最接近的相似发音单词的语音音频。
83.自动编码
84.另一种去除不期望的内容的方法是使用自动编码器神经网络。这通常是利用在输入端包含一个或多个cnn层的深度网络来实现的。将在标记有不期望的内容的音频或视频上训练基于自动编码器方法的过滤器。理想的标记会特别突出经标记的媒体中的不期望的内容。这将允许训练以学习卷积过滤器，该过滤器可以很好地识别不期望的内容。然而，简单地将媒体的短片段标记为具有或不具有不期望的内容而不具体地对内容进行分割可以为神经网络提供信息，以便通过学习被标记为包含不期望的内容的媒体之间的相似性来学习什么内容是不期望的。
85.经过训练以识别媒体中的不期望的内容后，经过适当训练的自动编码器以特征向量(特征的向量)包括表示不期望的内容的特征的方式对媒体进行编码。通过对媒体进行编码，然后将不期望的内容的特征值设置为零对其进行解码，所生成的经过滤的媒体将不具有不期望的内容。为了避免编码和解码之间的信息损失，自动编码器不会进行太多压缩。换言之，经编码的媒体将大致与输入和经解码的媒体一样宽。关键要素是存在表示一种或多种类型的不期望的内容的特征值。
86.这种自动编码器方法可以很好地用于视频和音频数据。它通常包括一些cnn层，也可能有一些循环层。在编码中包括时间信息可以允许以较小的编码特征向量大小进行更准确的解码。这有助于减少达到所需精度所需的训练时间。
87.多个过滤器
88.媒体播放设备的不同用户对过滤有不同的偏好。有些人可能想过滤裸体内容。有些人可能想过滤暴力内容。有些人可能想过滤两者或对两者都不过滤。有些人可能特别想过滤狗内容。有几种方法可以提供多个独立配置的过滤器。
89.图7示出了电视机(例如，图3和图4中的电视机30)中可用的菜单71。该菜单可以由红外遥控器使用上/下和回车按钮控制。上和下在可过滤内容类型列表中的项目之间移动突出显示。回车切换是启用还是禁用过滤器。菜单71列出了9种类型的内容：裸体，暴力，麻醉品，狗，律师，小丑，亵渎文字，闪光，和大声喧哗。图7示出了针对除律师以外的内容选择的所有过滤器。对于喜欢观看有关律师们的精彩生活的电视节目的用户来说，这些过滤器都是典型选择。
90.有条件的神经网络
91.在一些实现方式中，希望启用过滤器的神经网络实现，以根据用户设置确定的输
入参数来调节其输出。
92.一种可能的方法是训练神经网络识别多种类型的不期望的内容。具有多个输出的基于cnn的分类器神经网络是可能的。神经网络被训练为针对每个输出计算一种类型的不期望的内容的概率。设备用户对要过滤的内容类型的设置可以作为输出的掩码而被应用，从而有效地迫使将不被过滤的内容类型的概率为零。对于要过滤的任何类型的内容，如果未经屏蔽概率超过阈值，则可以进行过滤。然后，该设备可以应用针对要过滤的类型的内容训练的一个或多个过滤器。过滤可以使用上面描述的方法中的任何一种，例如，帧替换、替换对象、降级分割、修补分割、组合、或其他合理的方法来使不期望的内容不可辨认。
93.一种过滤方法是训练单个或少量的互补神经网络，例如，cnn、分类器、dnn、和生成型神经网络，这些神经网络作为一个单元来过滤设备被设计处理的所有类型的内容。对所有类型的内容使用具有用于条件处理的输入参数的单一神经网络配置使用设备内的最小处理需求量，从而最小化设备中的计算能力和功耗的成本。但是，每次改进和更新都需要相对大量的训练处理。
94.对神经网络分层
95.媒体播放设备中的内容过滤的许多可能实现都使用神经网络。任何给定的神经网络都可以具有一层或多层。dnn可以具有多个层，一些用于高分辨率媒体的cnn具有很多层。简单的分类器可能需要一个或只需要少量的层，这些层可以对作为上游神经网络(例如，cnn)的输出的输入特征向量进行操作。也可以将不同类型的神经网络层组合在一个神经网络中。例如，通常在卷积层和下游分类器之间包括循环层。甚至可以在cnn层中包含循环，这有助于在识别特征时使用时间信息。一些内容在移动或更改时比在帧内为静态时更容易识别。这对于跨帧的语音识别非常重要，但也与视频处理相关，例如，高草中的条纹狗在移动之前很难识别，或者裸体的科学描述和色情描述之间的差异可能只能通过其运动来识别。
96.此外，使不期望的内容不可辨认可以使用生成型神经网络，该生成型神经网络可以被实现在用于识别不期望的内容的神经网络的下游。它们可以具有介入逻辑。替代地，用于识别的神经网络和用于使不期望的内容不可辨认的生成型神经网络可以被实现为比任何一个单独的神经网络更深的单个神经网络。
97.模块化的过滤器
98.一些消费者媒体播放设备可以被设计为支持多个独立的过滤器，每个过滤器针对特定类型的内容进行训练。设备制造商或他们的生态系统合作伙伴可能会以例如可以提供非常大量的定制内容过滤器的应用商店的方式提供过滤器。有些过滤器是免费的，但有些过滤器可以出售。拥有大量训练数据的第三方开发人员可以通过以下方式来用这些训练数据赚钱：使用这些训练数据来训练专门的过滤器，然后通过过滤器商店销售这些过滤器。例如，过滤器提供商可以使用不同上下文中的罗马数字的示例图像来训练过滤器，该过滤器在视频中用相应的阿拉伯数字自动替换罗马数字。再如，拥有单词“alexa”的大量语音记录的公司可以提供音频过滤器，该音频过滤器在音频媒体中将单词“alexa”替换为短语“okay hound”。又如，过滤器提供商可以提供用树的图像和树叶沙沙作响的声音替换狗的图像和声音的过滤器。
99.基于媒体播放设备的处理能力，它可以被设计为具有其支持的过滤器的最大限制。如果过滤器是利用标准神经网络架构实现的，那么设备可以被设计为具有对于过滤器
的数量的非常具体的最大限制。如果过滤器生态系统允许过滤器第三方提供商在精度和处理要求之间进行权衡的更大的灵活性，那么设备制造商必须对允许用户同时包括的过滤器的最大数量设计更保守的限制。过滤器可以被实现为在媒体播放设备的操作系统的控制下的动态链接库(dll)。
100.对于用户选择的过滤器，在媒体内容通过扬声器或视频显示器被呈现之前，媒体播放设备将在处理流水线中的适当点将所有过滤器应用于媒体内容。如果可以实现影响帧内所有数据(像素或音频频率分量)的过滤器，则噪声可能通过一系列多个过滤器累积。如果过滤器执行分割并且只在分割区域内使得不期望的内容不可辨认，则噪声将不会在未过滤区域内累积。在能够允许在未过滤区域内引入噪声的系统中，期望对过滤器的数目设计相对较低的限制，以防止可能导致消费者对媒体播放设备不满意的显著信号劣化。
101.模块化过滤器的另一个优点是，它们可以被独立更换或升级，而无需训练新的整体过滤器。与用于手机和平板电脑的应用程序一样，过滤器提供商可以在获取到更多数据或改进训练算法时提供升级，以提供更准确和精准的过滤器。如果用于提供过滤器的设备和基础设施被设计为提供升级，则可以不需要任何用户干预地进行此类升级。
102.模块化过滤器的一种可能方法是将其定义为容器化软件。这可以使过滤器提供商能够灵活地选择针对他们过滤的特定类型的内容在性能和准确性之间提供适当的权衡的神经网络架构。这可以包括不同数量和组织的层、每层的节点、循环路径、卷积过滤器等。将过滤器提供为容器化软件还允许其他软件编程定制，而不仅仅是神经过滤功能。这可以包括dsp算法，甚至进一步包括用户特定的定制。
103.模块化过滤器的另一种可能方法是定义一种或少量特定的神经网络架构。利用这种方法，过滤器只是用于该过滤器的权值和偏差的常数值的固定大小的集合。这类似于联邦学习如何封装并传递用于联合训练的模型的参数或梯度。固定该架构可以确保消费者设备可以处理过滤器模型而不必过度设计。如果该模型架构被固定在专用的不可编程的硬件中，这将特别有用。
104.在可编程处理器上，eigen是一种常用的并行计算工具。在默认情况下，eigen跨行并行计算(用于矩阵乘法)。对于8核cpu，如果计算都是矩阵乘法，则每个过滤器的处理时间可减少8倍。对于n个过滤器，即使过滤器模型很小，在过滤器之间进行上下文切换也很昂贵。在使用整体模型而不是针对不同内容类型的模块化过滤器的方法中这种开销更小。
105.还可以定义一起启用多组过滤器的模式，例如，将过滤掉狗吠声、狗的图像、以及视频暴力的狗模式。提供模式而不是独立选择的模块化过滤器，可以为技术上不太相关的设备用户提供更简单的用户界面。
106.设备上的存储装置
107.媒体播放设备通常具有通用可编程应用程序处理器，这些处理器运行存储在非易失性存储器(例如，闪存芯片)中的软件。这种芯片还可以存储包括静态信息(例如，设备型号和序列号)的数据。它还可以存储用户信息，例如，帐户名和密码。它还可以存储设置信息，例如，显示器的对比度和亮度。另一种设置信息是输入源的选择。很多显示设备具有多个输入端口，这些输入端口使用诸如高清媒体接口(hdmi)、通用串行总线(usb)和无线hdmi之类的信令传送标准。此外，设备上的存储装置可以存储关于启用哪些可用过滤器的信息、用于媒体过滤器的神经网络参数值、用于媒体过滤器的容器化软件、用于替换不期望的内
容的覆盖替换对象、以及其他有关使用哪种方法来使不期望的内容不可辨认的信息。
108.一些设备允许更新设备上的存储装置，包括有关过滤器的信息。这些更新可以是设备供应商提供的固件更新的一部分。它们可以是来自生态系统过滤器提供商(例如，过滤器商店)的例行更新的一部分。它们可以从用户插入设备的便携式媒体进行更新。通过更新设备上的存储装置，可以改进媒体播放设备内的过滤性能或能力。通过覆写诸如非易失性存储器芯片之类的存储设备内的所存储的参数来执行更新所存储的参数的处理。
109.媒体嵌入
110.过滤器参数或容器化软件也可以进入设备中，嵌入在文件或媒体信息流中。存在创建用于媒体传输的实际标准(例如，mpeg传输流格式、第三代合作伙伴计划(3gpp)、微软音频视频交织(avi)、苹果quicktime、和波形音频文件格式(wav)等)的许多标准组织(例如，运动图像专家组(mpeg)、国际标准组织(iso)、以及大型公司)。
111.所有此类传输流和文件格式的共同点是，它们具有报头信息以及跟在报头信息后面的音频和视频数据的有效载荷。图8a示出了封包的媒体传输协议81的封包内的信息组织的示例。
112.报头携带与应该如何处理媒体有效载荷相关的信息。图8b示出了将存在于传输协议报头格式82中的一些类型的信息的示例。报头包括用于同步回放和检测丢弃的分组的时间代码、关于媒体的信用(例如，标题、创建者、和版权所有者)、可以防止在没有适当权限的设备上播放媒体的数字版权管理(drm)信息、一些误差校正代码(ecc)信息、和过滤器参数。过滤器参数可以是诸如权重和偏差之类的神经网络参数的简单集合，可以包括容器化的可执行软件，并且可以包括关于将在有效载荷媒体上执行的其它dsp功能的选择的定义。一些格式可以仅在程序或文件的开头提供过滤器参数。一些格式可以利用所有分组中的每个分组或分组子集来对过滤器参数进行编码，以支持观察者在节目中间加入。一些系统可以在用户开始请求播放媒体时提供过滤器参数，而不管用户选择在媒体流或文件中的哪个点开始。
113.虽然电影或电视节目的提供商可以创建节目的两个或更多版本(每个版本具有适合不同观众的内容)，但是他们只能创建若干版本并且不得不在演播室级别对每个版本中出现的内容类型进行判断。这给了用户很少的控制权限。对于用户生成的内容提供商(例如youtube)，在本地网络集线器处存储、流传输、和缓存每种类型的媒体的许多副本基本上是不切实际的。
114.通过为媒体流中相对大量的过滤器提供信息，允许用户对媒体中哪些内容是可辨认的、哪些内容是不可辨认的进行精细控制。利用所存储、缓存、和流传输的媒体的单个副本，允许实现精细控制。还允许媒体创作者根据自己的艺术选择适当地控制哪些过滤器可用。允许任何用户从过滤器商店中选择过滤器的缺点是，用户能够创建改变故事的含义的内容过滤器。例如，用和平标志替换十字记号图像或者用长号“哇哇”声替换枪声的用户选择的过滤器会使关于二战的纪录片让观察者感到困惑。
115.实时过滤
116.媒体播放设备中的内容过滤的另一个优点是，它可以对实时直播内容进行操作。此外，尽管诸如体育和总统辩论等直播活动的播放会有短暂的延迟，编辑人员会监控节目来源中的不期望的内容，但这对于用户生成或用户对用户的内容(例如，facebook或
youtube上的实时视频广播、或者使用诸如apple facetime、microsoft teams、google hangouts、或zoom视频聊天或企业会议呼叫服务等服务的视频聊天)而言是不可能的。
117.通过在诸如电视机、宝利通类型(polycom
‑
type)的会议电话、移动手持设备或平板电脑、或者甚至汽车娱乐系统等的媒体播放设备中执行内容过滤，可以实时过滤直播内容。这在媒体处理流水线的末端附近执行过滤，例如，在音频输出或视频输出帧缓冲器中执行过滤的情况下尤其如此。这样，一旦枪足够可见以将内容识别为枪，就可以用图2所示的冰淇淋筒覆盖枪视频内容。类似地，可以将单词“fuck”变成“fun”，所增加的延迟比输出音素k所需的时间要少。
118.由于过滤音频或视频图像序列需要观察多帧信息，因此有必要稍微延迟输出以执行分析。这种设备可以具有启用和禁用一种或多种类型的过滤的模式。在过滤被禁用时，没有延迟。
119.但是，执行过滤所需要的延迟量取决于对于输入数据上的每个正向传递而言过滤器所需要的上下文的量。对于音频，数十毫秒对于很多设备来说应该是足够的。对于处理单个图像而言，不需要延迟。对于利用过滤器使用帧之间的时间信息处理视频而言，需要多个帧。对于大多数过滤器来说，8个帧就足够了。因此，每秒30帧的帧速率大约需要0.25秒的延迟。
120.一种方法是在视频的缓冲帧上运行过滤器。然而，在缓冲视频的很多帧中存在大量的冗余信息。通过训练过滤器在经编码的所预测的视频帧(p或b)上运行，可以节省帧缓冲器存储空间和带宽。存储很多在先视频帧的经编码预测信息(可选地，还包括残差)比存储和操作经解码的帧以供显示要便宜得多。
121.在捕捉视频或音频媒体并发送它的设备的上下文中，可以在发送之前在设备中执行内容过滤。因此，例如，家长可以配置设备，使得孩子不能使用该设备向其他人显示或说不期望的内容。在这种配置中，在编码和发送之前，在靠近媒体处理流水线的开始处对原始捕捉的媒体执行过滤。
122.图9示出了正在操作的示例双向视频聊天系统。视频显示设备91输出视频，而捕捉设备92捕捉视频。视频会议系统将所捕捉的视频从捕捉设备92发送到视频显示设备93。同时，捕捉设备94捕捉视频并通过网络发送该视频以提供用于视频显示器91的媒体输出。捕捉设备94捕捉用户爱丽丝95的视频。她出现在视频显示器91上。捕捉设备92捕捉鲍勃96的视频。他出现在视频显示器93上。
123.当爱丽丝95掏出枪97时，捕捉设备94或视频显示设备91中的媒体过滤识别出枪97为不期望的内容。它估计枪在视频图像中的位置和大小(以像素为单位)。接着，如上文针对图2所述，用冰淇淋筒对象98来替换枪。
124.这是一个用于说明的示例。它也可以使用进行帧替换的过滤器，使得视频在爱丽丝拔出枪时对于鲍勃来说看上去是关闭的。过滤器也可以模糊或像素化枪的图像。过滤器还可以擦除枪并修补枪的位置的像素，使得图像将显示一只手而没有枪。如上所述的其它过滤技术是可能的。
125.此外，针对图9所示的示例中的视频描述的技术具有在音频中使用的等同物(难以在黑白线条的附图中进行说明)。例如，枪声可能会被静音，被喇叭声代替，失真，或者在枪声前后的周围环境中使其听起来像音频中的背景声音。类似的方法也适用于不期望的口语
单词，这些单词可能会被静音，被覆盖以哔哔声，被扭曲，或者被另一个发音相似、根据语言模型在上下文中出现的概率很高或两者兼有的单词所替代。
126.媒体播放设备
127.内容过滤可以应用于多种媒体播放设备。图10示出了电视机30的示例。这个后视图主要包括大型平板显示器。它还包括用于连接到立式或壁挂支架的安装机构101。电视机30还具有连接到背面的i/o控制器盒102。该盒包括用于接口的连接器，例如，hdmi视频和音频输出插孔。它还包含媒体处理器芯片或多个适当芯片的组合，如将在下面更详细地描述。
128.由于电视机的大小接近人和狗的大小，因此经常引起狗的不安。然而，媒体过滤不仅仅适用于大型固定显示器(例如，电视机)。即使是像移动手持设备和平板电脑这样的小屏幕设备，在呈现声音和图像时也会刺激狗或呈现其他类型的不期望的内容。图11示出了执行内容过滤的智能电话110的示例。它包括显示流视频的显示屏111。流视频包含作为期望内容的独角兽112和作为不期望的内容的枪。智能电话内的芯片对视频执行媒体过滤，识别视频媒体中枪的位置和大小。然后，芯片从存储器中读取替换对象，根据枪的大小对替换对象进行缩放，在枪内容的位置处合成替换对象的像素以覆盖枪并使得枪不可辨认。然后，智能电话110在屏幕111上输出经过滤视频媒体，在屏幕111上可以辨别的不是枪而是冰淇淋筒113。
129.内容过滤在包括消费品在内的应用中非常有用。例如，在办公环境中，会议呼叫系统或视频会议系统可能需要过滤会造成骚扰或敌对工作环境的内容。在另一示例中，无人机的远程操作员的视频显示系统需要查看视频图像来决定在何处操纵飞机以及何时从飞机上投放物体。这样的决定是生命攸关的。有时，视频媒体中的内容可能会分散注意力，甚至令人困惑。经过良好训练的用于内容过滤的神经网络可以实时处理图像并进行对象替换，以指示用于投放对象的目标位置、不投放对象的位置、或者简单地从视频中去除分散注意力的信息。在另一示例中，用于礼堂或音乐厅的放大声音系统可以具有被训练以识别指示反馈的音频特征的过滤器。每当检测到反馈时，声音系统即可执行帧替换，该反馈带有不那么烦人的声音，该声音表示用户的麦克风离扬声器太近。
130.芯片
131.现代媒体播放设备由片上系统(soc)半导体设备(芯片)(例如，高通的snapdragon系列、苹果设计的处理器、三星设计的处理器等)控制。它们还可以包括执行特定功能的外围半导体设备，例如，专用媒体处理芯片、已编程现场可编程门阵列(fpga)、专用集成电路(asic)、专用神经网络处理芯片、和控制物理接口(例如，显示控制器、数模转换器、和电压调节器)的芯片。
132.图12a示出了具有用于表面贴装焊接到印刷电路板的球栅阵列的封装片上系统设备120的底侧。各种封装形状和尺寸可用于各种芯片实现。
133.图12b示出了soc 120的框图。它包括计算机处理器(cpu)内核121的多核集群和图形处理器(gpu)内核122的多核集群。处理器通过片上网络123连接到用于易失性程序和数据存储的片外动态随机存取存储器(dram)接口124和用于将计算机程序代码、用户设置、以及过滤器参数非易失性存储在闪存ram非暂态计算机可读介质中的闪存接口125。soc 120还具有用于向视频显示面板输出视频并向扬声器输出音频的i/o接口126。i/o接口126还根据系统的不同外围设备的需要提供到各种i/o接口设备的连接。i/o接口支持传感器(例如，
触摸屏传感器)、地理定位接收器、麦克风、扬声器、蓝牙外围设备、和usb设备(例如，键盘和鼠标等)。soc 120还包括网络接口128，以允许处理器通过诸如wifi、3g、4g长期演进(lte)、5g、和其他无线接口标准无线电以及以太网连接硬件等有线或无线连接来访问因特网。通过执行通过接口124存储在ram设备中或通过接口125存储在闪存设备中的指令，cpu 121和gpu 122执行本文描述和请求保护的方法的步骤。
134.用于媒体过滤的芯片从输入缓冲器读取原始媒体，并将经过滤的媒体写入输出缓冲器。缓冲器可以在芯片内实现(例如，使用片上静态ram(sram)实现)，或者在外部存储器中实现(例如，在dram芯片中实现)。片上存储器(例如，sram)通常要快得多，但是由于逻辑芯片的制造过程不允许像专用dram制造过程那样大的存储器密度，片上缓冲器通常只容纳相对较小的数据块。这些可能更适合于降低分辨率的音频处理或视频处理。
135.专用处理器
136.媒体播放设备中的内容过滤可以通过设备中的芯片组合或处理器组合来实现。这些芯片中的一个可以是用于媒体过滤的专用处理器、通用ai加速器(例如，nvidia volta、intel nervana、perceive ergo或google张量处理单元(tensor processing unit,tpu)芯片)、或fpga。可选地，媒体播放设备中的内容过滤可以完全在单个芯片内实现。在任何情况下，都可以使用专门的处理器以更好的成本和毫瓦方面的性能来执行。这种专用处理器可被设计为内核，并由诸如arm之类的半导体ip公司或以硬件描述语言(hdl)设计芯片部分但不自己制造或销售芯片的其他公司提供许可。cadence xtensa和synopsys arc处理器的优化配置是其他示例。
137.一些专用过滤芯片或内核对由多媒体解码器写入共享ram的数据进行操作。过滤芯片读取经解码的内容并写入该内容的新的经过滤副本。这与媒体流技术领域的专用解调器、drm、和解码器芯片和内核以及机器学习领域的视觉和自然语言处理(nlp)芯片和内核相当。
138.内容过滤甚至可以作为将像素驱动到显示器之前的最后步骤在视频显示控制器芯片或内核中执行。这将使得过滤对所有应用程序、操作系统、和数据源都有效。
139.软件
140.媒体播放设备中的内容过滤的很多实现方式通过在可编程处理器上运行软件而工作。软件一般作为二进制可执行或解析代码或其组合而被存储。处理器执行以实现内容过滤的方法和系统功能的软件一般被存储在诸如穿孔卡、旋转磁盘的非暂态计算机可读介质、或者诸如闪存芯片的非易失性半导体随机存取存储器(ram)设备中。
141.图13示出了作为闪存ram芯片的示例非暂态计算机可读介质130。数据中心通常使用闪存来存储用于服务器处理器的数据和代码。移动和静止消费者设备通常使用闪存来存储用于片上芯片设备中的处理器的数据和代码。非暂态计算机可读介质130存储包括指令的代码，这些指令在由一个或多个计算机执行时将使得该一个或多个计算机执行本文描述的方法的步骤。用引线或焊锡球封装的其他非移动存储介质也是可能的。
142.本文描述和请求保护的物理机器的一些实施例是可以利用很多变量进行编程的，这些变量的组合提供了基本上无限多样的操作行为。本文的一些实施例由提供大量参数的软件工具配置，这些参数的组合提供了所描述和请求保护的本技术的基本上无限多样的物理机器实施例。使用这些软件工具来配置硬件描述语言表示的方法体现了所描述和请求保
护的本技术。物理机器可以体现本文描述和请求保护的机器(例如，半导体芯片)、根据所描述和请求保护的本技术的机器的逻辑或功能行为的硬件描述语言表示、以及被布置为存储这些硬件描述语言表示的一个或多个非暂态计算机可读介质。
143.硬件块、自定义处理器指令、协处理器、以及硬件加速器以非常高的性能和功率效率执行神经网络处理或神经网络处理算法的部分。这为电池供电设备提供了长电池寿命，并且降低了同时为很多客户端设备服务的数据中心中的散热成本。
144.文件范例
145.本领域技术人员将认识到很多变形和改变。这些变形和改变包括所公开的特征的任何相关组合。
146.各种实施例是使用人类和机器中的任一者或者它们二者的组合的行为的方法。一些实施例是被布置为存储用于本文描述的方法的指令的一个或多个非暂态计算机可读介质的系统。一些实施例是诸如半导体芯片的物理设备；这些设备的逻辑或功能行为的硬件描述语言表示；以及被布置为存储这些硬件描述语言表示的一个或多个非暂态计算机可读介质。
147.本文引述原理、特征、和实施例的描述覆盖了其结构和功能的等同物。
148.人类和狗都会受益于本技术的优点。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：无线网路动态设定权限方法与装置与流程

媒体播放设备中的内容过滤的制作方法

相关文献

最热文献