用于盲源分离和再混音的装置、方法和计算机程序与流程

2021-08-20 20:37:00 来源：中国专利 TAG：混音总体上音频处理装置分离

本公开总体上涉及音频处理领域，尤其涉及用于盲源分离和再混音或上混音的装置、方法和计算机程序。

背景技术：

存在许多可用的音频内容，例如以光盘(cd)、磁带、可以从因特网下载的音频数据文件的形式，但也以视频的音轨的形式，例如存储在数字视频磁盘等上。通常，音频内容已经混音，例如用于单声道或立体声设置，而无需保留来自已经用于音频内容的产生的原始音频源的原始音频源信号。然而，存在设想音频内容的再混音或上混音的情况或应用。例如，在音频内容应在具有比音频内容提供的更多可用音频声道的装置上播放的情况下，例如，单声道音频内容将在立体声装置上播放、立体声音频内容将在具有六个音频声道的环绕声装置上播放等。

尽管通常存在用于再混音音频内容的技术，但是通常期望改进用于再混音或上混音音频内容的装置和方法。

技术实现要素：

根据第一方面，本公开提供一种电子装置，其包括电路，该电路被配置为：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中至少一个分离源执行时域滤波以获得至少一个滤波分离源；并且基于至少一个滤波分离源且基于分离源执行再混音或上混音以获得再混音或上混音信号。

根据另一方面，本公开提供一种方法，包括：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中的至少一个分离源执行时域滤波以获得至少一个滤波分离源；并且基于至少一个滤波分离源且基于分离源执行再混音或上混音以获得再混音或上混音信号。

根据另一方面，本公开提供一种包括指令的计算机程序，当在处理器上执行时，该指令使处理器执行以下步骤：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中的至少一个分离源执行时域滤波以获得至少一个滤波分离源；并且基于至少一个滤波分离源且基于分离源执行再混音或上混音以获得再混音或上混音信号。

在从属权利要求、下面的描述和附图中阐述了进一步的方面。

附图说明

参考附图通过示例的方式解释实施例，在附图中：

图1示意性地示出了通过音频源分离(bss)的音频上混音/再混音的一般方法；

图2示意性地示出了基于时域滤波方法的再混音/上混音的过程；

图3示意性地示出了两者都以对数标度表示的“声乐”分离的波形和“声乐”真值的波形的示例；

图4示出了可视化时域滤波方式的方法的流程图；

图5示意性地示出了时域滤波方法的图示；

图6示出了基于与混响时间(t60时间)有关的参数s，w可视化时域滤波方法的流程图；

图7示意性地示出了基于带限滤波并且基于时域滤波方法的再混音/上混音的过程；

图8示出了可视化包括具有参数τ、s、w的“声乐”、“鼓声”、“低音”和“其他”的分离源的相关性的图表；

图9a示出了当在“鼓声”分离源中检测到“鼓声”信号时基于参数τ可视化时域滤波方法的流程图；

图9b示意性地示出了“鼓声”音频信号的示例；

图10示出了基于根据与所接收的输入信号相关的短时能量计算出的参数τ′可视化时域滤波方法的流程图；并且

图11示意性地描述了可以用作再混音/上混音系统的电子装置的实施例。

具体实施方式

在参考图1至图11给出实施例的详细描述之前，进行一些一般解释。

实施例公开了一种电子装置，其包括电路，该电路被配置为：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中的至少一个分离源执行时域滤波(202)以获得至少一个滤波分离源；并且基于至少一个滤波分离源执行再混音或上混音。

电子装置的电路可以包括处理器，例如可以是cpu、内存(ram、rom等)、内存和/或存储器、接口等。电路可以包括输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如，液晶、(有机)发光二极管等)、扬声器等、(无线)接口等，或者可以与输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如，液晶、(有机)发光二极管等)、扬声器等、(无线)接口等连接，如电子装置(计算机、智能电话等)通常已知的。此外，电路可以包括用于感测静止图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)、用于感测环境参数(例如，雷达、湿度、光、温度)等的传感器，或者可以与用于感测静止图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)、用于感测环境参数(例如，雷达、湿度、光、温度)等的传感器连接。

在音频源分离中，包括多个源(例如，乐器、语音等)的输入信号被分解为分离。音频源分离可以是无监督(称为“盲源分离”，bss)或部分监督的。“盲”是指盲源分离不必具有关于原始源的信息。例如，可能不必知道原始信号包含多少个源或者输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在不知道之前分离的情况下分解原始信号分离。盲源分离单元可以使用技术人员已知的任何盲源分离技术。在(盲)源分离中，可以搜索在概率或信息论意义上最小相关或最大独立的源信号，或者基于非负矩阵因式分解，可以找到对音频源信号的结构约束。用于执行(盲)源分离的方法是技术人员已知的，并且基于例如主成分分析、奇异值分解、(非)相关成分分析、非负矩阵因式分解、人工神经网络等。

尽管一些实施例使用盲源分离来生成分离的音频源信号，但是本公开不限于未使用进一步的信息来分离音频源信号的实施例，而是在一些实施例中，使用进一步的信息来生成分离的音频源信号。这种进一步的信息可以例如是关于混音过程的信息、关于包括在输入音频内容中的音频源的类型的信息、关于包括在输入音频内容中的音频源的空间位置的信息等。

输入信号可以是任何类型的音频信号，可以是模拟信号、数字信号的形式，可以来源于光盘、数字视频盘等，可以是数据文件，诸如波形文件、mp3文件等，并且本公开不限于输入音频内容的特定格式。输入音频内容可以例如是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号，而本公开不限于具有两个音频声道的输入音频内容。在其他实施例中，输入音频内容可以包括任何数量的声道，诸如5.1音频信号的再混音等。

输入信号可以包括一个或多个源信号。具体地，输入信号可以包括若干音频源。音频源可以是产生声波的任何实体，例如，音乐乐器、语音、声乐、人工生成的声音(例如，源于合成器)等。

输入音频内容可以表示或包括混音音频源，这意味着声音信息不是单独可用于输入音频内容的所有音频源，而是不同音频源的声音信息例如至少部分重叠或混合。

电路可以被配置为基于至少一个滤波分离源并且基于通过盲源分离获得的其他分离源执行再混音或上混音以获得再混音信号或上混音信号。再混音或上混音可以被配置为执行分离源(此处为“声乐”、“低音”、“鼓声”和“其他”)的再混音或上混音以产生可以被发送至扬声器系统的再混音信号或上混音信号。再混音或上混音可以被进一步配置为执行一个或多个分离源的再混音或上混音以产生可以被发送至扬声器系统的一个或多个输出声道的再混音信号或上混音信号。

通过盲源分离从输入信号产生的分离可以例如包括“声乐”分离、“低音”分离、“鼓声”分离和“其他”分离。在“声乐”分离中，可以包括属于声乐的所有声音，在“低音”分离中，可以包括低于预定阈值频率的所有噪声，在“鼓声”分离中，可以包括属于歌曲/音乐中的“鼓声”的所有噪声，并且在“其他”分离中，可以包括所有剩余的声音。

通过音乐源分离(mss)系统获得的源分离可以导致诸如干扰的伪影、串扰或噪声。可以对通过盲源分离产生的分离源执行时域滤波以减小这种伪影、串扰或噪声的影响。

执行时域滤波可以提高分离源的信号失真比(sdr)。即，执行时域滤波可以减少在乐器的静音部分中发生的伪影和/或干扰。因此，可以提高分离源的客观性能以及主观质量。尤其是如果单独收听分离源，则可以显著提高分离源的性能和质量。如技术人员已知的，尤其是当涉及频域方法时，mss系统从不输出真正的零值。因此，时域滤波可以包括查看mss系统的输出并且检查是否发生长时间段的“真零”。

此外，分离还可以包括残余，该残余包括不能清晰地识别为特定乐器或源的“其他”声音。

电路可以被配置为通过处理当前样本周围的窗口并且如果该窗口中不存在振幅大于或等于阈值的样本则将当前样本设置为零来执行时域滤波。因此，执行时域滤波可以包括将窗口周围并且不超过预定阈值的所有信号样本设置为零。

时域滤波中使用的阈值可以基于预定阈值系数并且基于从分离源确定的最大信号。

电路可以被配置为基于窗口大小执行时域滤波。

此外，电路可以被配置为基于窗口移位执行时域滤波。执行时域滤波可以例如包括将窗口向左移位以查看过去的样本；或者可以包括将窗口向右移位以更多地查看未来的样本。

本公开不限于可以实现所有类型的再混音、上混音和下混音的特定数量的音频声道。

在一些实施例中，电路可以被配置为执行自适应时域滤波。

例如，电路可以被配置为基于混响时间执行自适应时域滤波。电路可以例如被配置为基于所检索的混响时间确定窗口大小和/或窗口移位。混响时间可以例如是t60时间，其是在声音源已经停止之后声音在封闭区域中“逐渐消失”所需的时间的量度。

此外或可选地，电路可以被配置为基于第二分离源中的检测信号执行第一分离源的自适应时域滤波。这解决了上混音/再混音的质量可以取决于源分离的质量的事实。将源分离为诸如“低音”、“鼓声”、“其他”和“声乐”的乐器的一个常见问题是“鼓声”和“声乐”未明显分离。例如，“鼓声”信号的一部分可以被错误地分离为“声乐”。如果再混音/上混音系统未意识到分离失败，则收听者将感知到令人讨厌的伪影。例如，如果将“声乐”放置在收听者的前面并且将“其他”放置在收听者的后面，则可以感知到鼓声正在前后之间移动。“鼓声”和“声乐”未明显分离是源分离的常见问题。如果再混音/上混音系统未意识到分离失败，则收听者将感知到令人讨厌的伪影。

基于第二分离源中的检测信号执行第一分离源的自适应时域滤波可以解决该问题。具体地，电路可以被具体地配置为基于在“鼓声”分离源中检测到的“鼓声”信号设置阈值系数。例如，可以通过检测“鼓声”分离源中的“鼓声”信号并且基于检测到的“鼓声”信号对“声乐”分离执行时域滤波来感知信号。

在一些实施例中，执行时域滤波可以包括基于参数τ对分离源“声乐”和“鼓声”执行时域滤波。

在一些实施例中，电路可以被进一步配置为基于所接收的输入信号计算短时能量，并且被进一步配置为基于所计算的短时能量确定参数τ′。

电路可以被进一步配置为将再混音信号或上混音信号输出至扬声器系统。

在一些实施例中，电路可以被进一步配置为执行带限滤波。可以通过使用滤波器组等执行带限滤波以获得带限信号。例如，可以对每个分离源执行带限滤波，并且可以获得带限信号。可以对每个带限分离源信号单独地执行时域滤波。

在一些实施例中，执行带限滤波可以包括对分离源“声乐”和“鼓声”执行带限滤波以获得带限“声乐”和带限“鼓声”。

在一些实施例中，执行时域滤波可以包括对带限“声乐”和带限“鼓声”执行时域滤波以获得滤波“声乐”和滤波“鼓声”。

执行分离源中的一个或多个分离源的再混音或上混音可以包括分离源中的一个选定源或分离源中的选定子组的再混音或上混音。例如，执行分离源中的一个或多个分离源的再混音或上混音可以包括将选定分离与分离源隔离。可选地，执行再混音或上混音可以包括从分离源中去除特定分离源。例如，执行分离源中的一个或多个分离源的再混音或上混音可以包括隔离或去除声乐分离。这可能有助于收听单个源分离或使其静音，例如在卡拉ok设置中。

实施例还公开了一种方法，包括：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中的至少一个分离源执行时域滤波以获得至少一个滤波分离源；并且基于至少一个滤波分离源执行再混音或上混音。

根据另一方面，本公开提供了一种包括指令的计算机程序，当在处理器上执行时，该指令使处理器执行以下操作：基于所接收的输入信号执行盲源分离以获得分离源；对分离源中的至少一个分离源执行时域滤波以获得至少一个滤波分离源；并且基于至少一个滤波分离源执行再混音或上混音。

本文所使用的术语“信号”不限于任何特定格式，并且可以是模拟信号、数字信号或存储在数据文件、数据流或任何其他格式中的信号。

现在参考附图描述实施例。

通过盲源分离(bss)的音频上混音/再混音

图1示意性地示出了通过盲源分离(bss)的音频上混音/再混音的一般方法。

首先，执行源分离(也称为“降级”)，其将包括多个声道i和来自多个音频源源1、源2…源k(例如，乐器、语音等)的音频的源音频信号1分解为“分离”，这里分解为每个声道i的源估计2a至2d，其中，k是整数，并且表示音频源的数量。在这里的实施例中，源音频信号1是具有两个声道i＝1和i＝2的立体声信号。因为音频源信号的分离可能是不完美的，例如，由于音频源的混音，因此除了分离音频信号2a至2d之外，还生成残余信号3(r(n))。残余信号可以例如表示输入音频内容与所有分离音频源信号的和之间的差。由每个音频源发射的音频信号在输入音频内容1中由其相应记录的声波表示。对于具有一个以上音频声道的输入音频内容(诸如立体声或环绕声输入音频内容)，音频源的空间信息通常还由输入音频内容包括或表示，例如通过包括在不同音频声道中的音频源信号的比例。基于盲源分离或能够分离音频源的其他技术，将输入音频内容1分离为分离音频源信号2a至2d和残余3。

在第二步中，分离2a至2d和可能的残余3被再混音并呈现为新的扬声器信号4，这里是包括5个声道4a至4e(即，5.0声道系统)的信号。基于分离音频源信号和残余信号，通过基于空间信息混音分离音频源信号和残余信号来生成输出音频内容。输出音频内容在图1中示例性地示出，并且用参考数字4表示。

在下文中，输入音频内容的音频声道的数量被称为min，并且输出音频内容的音频声道的数量被称为mout。由于图1的示例中的输入音频内容1具有两个声道i＝1和i＝2，并且图1的示例中的输出音频内容4具有5个声道4a至4e，因此min＝2并且mout＝5。图1中的方法通常被称为再混音，并且具体地，如果min＜mout，则被称为上混音。在图1的示例中，输入音频内容1的音频声道的数量min＝2小于输出音频内容4的音频声道的数量mout＝5，因此，这是从立体声输入音频内容1到5.0环绕声输出音频内容4的上混音。

基于时域滤波的再混音/上混音

图2示意性地示出了基于时域滤波方法的再混音/上混音的过程。该过程包括盲源分离201、时域滤波202和再混音/上混音203。包含多个源(参见图1中的源1、2…k)的具有多个声道(如，min＝2)的输入信号(参见图1中的输入信号1)被输入至盲源分离201，并且被分解为如上面参考图1所述的分离(参见图1中的分离源2a至2d)，此处被分解为“声乐”、“鼓声”、“低音”和“其他”。分离源(参见图1中的分离信号2)(此处为“声乐”、“鼓声”、“低音”和“其他”)被传送至时域滤波202和再混音/上混音203。具体地，“声乐”分离源和“鼓声”分离源被传送至时域滤波202，而“低音”分离源和“其他”分离源被传送至再混音/上混音203。

时域滤波202被配置为对“声乐”和“鼓声”执行时域滤波以产生滤波“声乐”和滤波“鼓声”(参见图4中的403、图5和相应描述)。时域滤波202例如正在提高“声乐”和“鼓声”的信号失真比(sdr)。所产生的滤波“声乐”和滤波“鼓声”被传送至再混音/上混音203。另外，“低音”和“其他”也被传送至再混音/上混音203。再混音/上混音203再混音/上混音滤波“声乐”和滤波“鼓声”、“低音”和“其他”。此外，再混音/上混音203将再混音/上混音信号发送至扬声器系统204。

图3示意性地示出了两者都以对数标度表示的声乐分离的波形和声乐“真值”的波形的示例。上面的波形是音乐源分离(mss)系统的声乐分离输出的波形，而下面的波形是与声乐分离相关的真值波形。在这两个波形(上面的波形和下面的波形)中，x轴表示以秒为单位的时间，其从0秒延伸到210秒，并且y轴表示信号的相应振幅(此处以db为单位)。声乐“真值”波形是独立于所有乐器记录的声乐的波形。声乐“真值”波形是声乐在其与乐器混音以获得一个音频信号并且然后对该音频信号(参见图1和图2中的输入信号1)执行盲源分离之前的波形。声乐分离的波形是对音频信号(参见图1和图2中的输入信号1)执行盲源分离之后获得的波形。如可以从这两个波形取得的，通过mss系统获得的分离(参见上面的波形)是有噪声的。具体地，在声乐真值表示静音的位置，声乐分离包括噪声。该噪声表示由mss产生的伪影和/或干扰，例如从“鼓声”到“声乐”的串扰。

图4示出了可视化基于时域滤波的盲源分离方法的流程图。该方法可以例如通过由处理器(图11中的1201)执行的软件来实施。在400处，接收输入信号。在401处，将所接收的输入信号存储在缓冲器中。在402处，基于所接收的输入信号执行盲源分离(例如，参见图1、以及图2中的201)以获得包括“声乐”、“低音”、“鼓声”和“其他”的分离源。在403处，对“声乐”和“鼓声”执行时域滤波以获得滤波“声乐”和滤波“鼓声”。在404处，基于在403处获得的滤波“声乐”和滤波“鼓声”并且基于在402处获得的“低音”和“其他”执行再混音/上混音以获得再混音/上混音信号(参见图2)。在405处，将再混音/上混音信号输出至扬声器系统(图2中的204)。

在下文中，更详细地描述对“声乐”和“鼓声”执行的时域滤波403以获得滤波“声乐”和滤波“鼓声”。时域滤波403的思想是利用以下事实：分离(此处为“声乐”和“鼓声”)中的许多小振幅样本是噪声并且因此可以安全地设置为零。由于时域滤波403在时域中起作用，因此可以利用该知识。

用表示分离源(此处例如为“声乐”和“鼓声”)的波形，其中，i＝1，…，i是声道索引。例如，1＝2对应于参考图1更详细地描述的立体声情况。

在时域滤波中，考虑在时间实例n处当前样本周围的窗口并且如果窗口中不存在振幅大于或等于的样本，其中，τ表示阈值系数，即，如果

其中，w表示窗口长度，s表示窗口移位，并且m表示窗口w中的样本，则对于i＝1，…，i，将设置为零。

如果(公式1)为真，则将设置为零。

窗口移位s将窗口w移位移位s。在时域滤波方法中，混响尾不应被截断。混响尾是声音产生之后的声音的持续性，即，声音的反射继续，振幅减小，直到达到零振幅。混响尾是非常重要的，尤其是对于“声乐”。即，窗口可以向左移位，允许更多地查看过去的样本而不是未来的样本。如果s＜0，则窗口向左移位，并且如果s＞0，则窗口向右移位。如果窗口向左移位，则窗口中包括更多过去的样本(即，“更多地查看过去的样本”)。类似地，如果窗口向右移位，则窗口中包括更多未来的样本(即，“更多地查看未来的样本”)。

即，时域滤波403充当“门”，其仅当窗口内的信号超过阈值时允许信号通过。

图5示意性地示出了这种时域滤波方法的图示。示出了分离源(此处例如为“声乐”和“鼓声”)的波形其中，i＝1，…，i表示声道索引，n表示当前样本的时间实例(分别为样本数量)，w表示窗口长度，s表示窗口移位。

技术人员可以根据特定使用情况选择参数w、s和τ。例如，可以使用验证集并且找到使信号失真比(sdr)最大化的值来找到这些参数w、s和τ的示例值，如“e.vincent，rgribonvalandc.févotte，performancemeasurementinblindaudiosourceseparation，ieeetrans.audio，speechandlanguageprocessing，14(4)，pp14621489，2006”中所定义的。

图6示出了可视化自适应时域滤波方法的流程图，其中，参数s、w适合于混响时间(t60时间)。该方法可以例如通过由处理器(图11中的1201)执行的软件来实现。在600处，接收输入信号。在601处，将所接收的输入信号存储在缓冲器中。在602处，基于所接收的输入信号执行盲源分离以获得包括“声乐”、“低音”、“鼓声”和“其他”的分离源。在603处，检索混响时间(t60时间)，并且该过程在604处继续。在604处，基于所检索的混响时间确定用于时域滤波的参数s、w。在605处，基于在604处确定的用于时域滤波的参数s、w，对“声乐”和“鼓声”执行时域滤波以获得滤波“声乐”和滤波“鼓声”。在606处，基于在605处获得的滤波“声乐”和滤波“鼓声”并且基于在602处获得的“低音”和“其他”执行再混音/上混音以获得再混音/上混音信号(参见图2)。在607处，将再混音/上混音信号输出至扬声器系统204(参见图2)。

在下文中，更详细地描述在603处如何检索混响时间。混响时间是在声音源已经停止之后声音在封闭区域中“逐渐消失”所需的时间的量度。混响时间可以例如定义为声音逐渐衰减至低于其原始水平60db的水平的时间(t60时间)。该混响时间t60由萨宾(sabine)方程给出：

其中，c20是房间中(在20摄氏度下)的声速，v是以m³为单位的房间的体积，s是以m²为单位的房间的总表面积，a是房间表面的平均吸收系数，并且乘积sa是总吸收。即，在房间的参数v、s、a已知的情况下(例如，在记录情况下)，可以如上定义的那样确定t60时间。

可选地，可以通过分析波形来确定混响时间，如ramaratnam等人在“blindestimationofreverberationtime”，j.acoust.soc.am.114(5)，november2003”中所定义的。

又可选地，可以从关于产生输入信号的音频处理链的知识获得混响时间(例如，混响时间可以是在混响处理器中设置的预定参数，例如，在处理链中使用的算法或卷积混响)。

在下文中，更详细地描述在604处如何基于混响时间(t60时间)自适应地确定参数s、w。检索参数s、w，使得混响尾(参见图5)不被截断。即，“门”可以在超过阈值(参见图4中的403)的每个分离源信号已经被传送之后并且直到混响低于特定阈值“打开”至少同样长。选择阈值使得防止混响尾的截断。即，“门”将是适应于混响时间(t60时间)的自适应“门”。

图7示意性地示出了基于带限滤波并且基于时域滤波的再混音/上混音的过程。图7的过程类似于图2的过程，不同之处在于，在时域滤波之前，对分离源执行带限滤波。该过程包括盲源分离201、时域滤波202、再混音/上混音203和带限滤波205。包含多个源(参见图1中的源1、2…k)的具有多个声道(如，min＝2)的输入信号(参见图1中的输入信号1)被输入至盲源分离201，并且被分解为如上面参考图1所述的分离(参见图1中的分离源2a至2d)，此处被分解为“声乐”、“鼓声”、“低音”和“其他”。分离源(参见图1中的分离信号2)(此处为“声乐”、“鼓声”、“低音”和“其他”)被传送至带限滤波205和再混音/上混音203。具体地，“声乐”和“鼓声”被传送至带限滤波205，而“低音”和“其他”被传送至再混音/上混音203。

带限滤波205被配置为使用滤波器组对“声乐”和“鼓声”执行带限滤波以获得带限信号，即带限“声乐”和带限“鼓声”。技术人员可以根据特定使用情况选择滤波器组的参数。时域滤波202可以被配置为对带限“声乐”和带限“鼓声”执行时域滤波以产生滤波“声乐”和滤波“鼓声”。所产生的滤波“声乐”和滤波“鼓声”被传送至再混音/上混音203。再混音/上混音203再混音/上混音滤波“声乐”、滤波“鼓声”、“低音”和“其他”。此外，再混音/上混音203将再混音/上混音信号发送至扬声器系统204。时域滤波方法的思想是利用以下事实：时域滤波将提高“声乐”和“鼓声”的信号失真比(sdr)。由于对带限分离源信号(此处为带限“声乐”和带限“鼓声”)中的每一个单独地执行时域滤波，因此可以提高带限“声乐”和带限“鼓声”的sdr。

可以根据乐器选择参数τ、s、w。

图8示出了可视化包括具有参数τ、s、w的“声乐”、“鼓声”、“低音”和“其他”的分离源的可能相关性的示例性图表。参数τ表示阈值系数，参数s表示窗口移位，并且参数w表示窗口长度。参数τ、s、w取决于乐器，并且当输入信号被分离为“声乐”、“鼓声”、“低音”和“其他”时，参数τ、s、w取决于上述分离源中的每一个。可以例如通过验证数据集来确定用于参数τ、s、w的最佳值，如上面图5所述。在该实施例中，例如，对于“声乐”，参数τ为0.3，参数s为0.3并且参数w为2。对于“鼓声”，参数τ为0.4，参数s为0.3并且参数w为3。对于“低音”，参数τ为0.2，参数s为-0.3并且参数w为4。对于“其他”，参数τ为0.1，参数s为-0.3并且参数w为5。

盲源分离(bss)通常不完美。例如，串扰可以导致分离源中出现干扰。具体地，已经认识到从鼓声到声乐发生串扰。

图9a示出了可视化时域滤波方法的流程图，其中，使参数τ自适应于“鼓声”分离中的鼓声信号的检测。在该实施例中，如果在“鼓声”分离中检测到“鼓声”信号，则可以提高用于“声乐”分离源的阈值系数τ以避免从“鼓声”到“声乐”的串扰。在900处，接收输入信号。在901处，将所接收的输入信号存储在缓冲器中。在902处，对所接收的输入信号执行盲源分离以获得包括“声乐”、“低音”、“鼓声”和“其他”的分离源。在903处，检测“鼓声”分离中是否存在鼓声信号。如果在“鼓声”分离中检测到鼓声信号，则该方法在904处继续。如果在“鼓声”分离中未检测到鼓声信号，则该方法在905处继续。在904处，将参数τ设置为1，并且该方法在906处继续。在905处，将参数τ设置为0.2，并且该方法在906处继续。在906处，基于在904或905处确定的参数τ，对“声乐”和“鼓声”执行时域滤波以获得滤波“声乐”和滤波“鼓声”。在907处，基于在906处获得的滤波“声乐”和滤波“鼓声”并且基于在902处获得的“低音”和“其他”执行再混音/上混音以获得再混音/上混音信号(参见图2)。在908处，将再混音/上混音信号输出至扬声器系统204(参见图2)。

关于图9b，更详细地描述在903处如何在检测“鼓声”分离中是否存在鼓声信号。图9b示意性地示出了“鼓声”音频信号(此处为军鼓的信号)的示例。军鼓导致鼓声信号中的强信号峰值和混响尾。在903中，检测在“鼓声”分离中当前是否检测到军鼓事件。在该实施例中，y轴表示信号(此处为军鼓)的振幅，并且x轴表示时间。具体地，时间t1表示在“鼓声”分离中检测到声音“攻击”的时间，其中，声音“攻击”是强信号峰值，例如，具有高振幅的信号。时间t2表示检测到“鼓声”分离中的释放的时间，其中，当信号的振幅低于预定阈值时检测到释放。信号的振幅可以例如与信号的短时能量有关。“鼓声”信号x(n)的短时能量由以下公式给出：

其中，x(n)是信号，并且k是计算短时能量的时间窗口[-k，k]中的索引。

图10示出了基于根据与所接收的输入信号相关的短时能量计算出的参数τ可视化时域滤波方法的流程图。在1000处，接收输入信号。在1001处，将所接收的输入信号存储在缓冲器中。在1002处，对所接收的输入信号执行盲源分离以获得包括“声乐”、“低音”、“鼓声”和“其他”的分离源。在1003处，基于所接收的输入信号计算短时能量(参见上面的公式2)。在1004处，基于计算出的短时能量确定参数τ′。在1005处，基于在1004处确定的参数τ′，对“声乐”和“鼓声”执行时域滤波以获得滤波“声乐”和滤波“鼓声”。在1006处，基于在1005处获得的滤波“声乐”和滤波“鼓声”并且基于在1002处获得的“低音”和“其他”执行再混音/上混音以获得再混音/上混音信号(参见图2)。在1007处，将再混音/上混音信号输出至扬声器系统204(参见图2)。

即，当阈值超过阈值时，“门”可以是“打开”的(参见图4中的403)，并且反映短时能量的新阈值τ′由以下公式给出：

其中，τ表示阈值系数，并且i表示声道索引。

即，“门”可以动态变化。

实现方式

图11示意性地描述了可以实现如上所述的基于时域滤波的再混音/上混音过程的电子装置的实施例。电子装置1200包括作为处理器的cpu1201。电子装置1200进一步包括连接至处理器1201的麦克风阵列1210、扬声器阵列1211和卷积神经网络单元1220。处理器1201可以例如实施盲源分离201、再混音/上混音203、时域滤波202和/或带限滤波205，其实现参考图2和图7更详细地描述的过程。cnn单元可以例如是硬件形式的人工神经网络，例如，gpu上的神经网络或专用于实现人工神经网络目的的任何其他硬件。扬声器阵列1211由分布在预定空间中的一个或多个扬声器(参见图2和图7中的204)组成，并且被配置为呈现3d音频，如以上实施例所述。电子装置1200进一步包括连接至处理器1201的用户界面1212。该用户界面1212充当人机界面，并且使得能够在管理员与电子系统之间进行对话。例如，管理员可以使用该用户界面1212对系统进行配置。电子装置1200进一步包括以太网接口1221、蓝牙接口1204和wlan接口1205。这些单元1204、1205充当用于与外部装置进行数据通信的i/o接口。例如，具有以太网、wlan或蓝牙连接的附加扬声器、麦克风和相机可以经由这些接口1221、1204和1205耦合至处理器1201。

电子装置1200进一步包括数据存储器1202和数据内存1203(此处为ram)。数据内存1203被布置为临时存储或高速缓存数据或计算机指令以供处理器1201处理。数据存储器1202被布置为长期存储器，例如用于记录从麦克风阵列1210获得并提供给cnn单元1220或从cnn单元1220检索到的传感数据。数据存储器1202还可以存储表示音频消息的音频数据，公共广播系统可以将其传送给在预定空间移动的人。

应注意，以上描述仅是示例配置。可选配置可以用附加的或其他传感器、存储装置、接口等来实现。

应当认识到，实施例描述了具有方法步骤的示例性顺序的方法。然而，方法步骤的特定顺序仅出于说明性目的而给出，并且不应被解释为是有约束力的。

还应注意，将图11的电子系统划分为单元仅出于说明性目的，并且本公开不限于特定单元中的任何特定功能划分。例如，电路的至少一部分可以由分别编程的处理器、现场可编程门阵列(fpga)、专用电路等来实现。

如果没有另外说明，则本说明书中描述和所附权利要求中要求保护的所有单元和实体例如可以在芯片上实现为集成电路逻辑，并且如果没有另外说明，则由这样的单元和实体提供的功能可以由软件来实现。

就上述本公开的实施例至少部分地使用软件控制的数据处理设备来实现而言，应当理解，提供这种软件控制的计算机程序和提供这种计算机程序的传输、存储器或其他介质被设想为本公开的各方面。

注意，本技术也可以如下所述进行配置：

(1)一种电子装置，包括电路，该电路被配置为：

基于所接收的输入信号(1)执行(402；602；902；1002)盲源分离(201)以获得分离源；

对分离源中的至少一个分离源执行(403；605；906；1005)时域滤波(202)以获得至少一个滤波分离源；并且

基于至少一个滤波分离源执行(404；606；907；1006)再混音或上混音(203)。

(2)根据(1)的电子装置，其中，电路被配置为通过处理当前样本周围的窗口(w，s)并且如果窗口(w，s)中不存在振幅大于或等于阈值的样本则将当前样本设置为零来执行时域滤波。

(3)根据(1)或(2)的电子装置，其中，电路被配置为基于阈值系数(τ)并且基于最大信号确定阈值。

(4)根据(1)至(3)中任一项的电子装置，其中，电路被配置为基于至少一个滤波分离源并且基于通过盲源分离(201)获得的分离源执行(404；606；907；1006)再混音或上混音(203)以获得再混音信号或上混音信号。

(5)根据(1)至(4)中任一项的电子装置，其中，电路被配置为基于窗口大小(w)执行时域滤波(202)。

(6)根据(2)的电子装置，其中，电路被配置为基于窗口移位(s)执行时域滤波(202)。

(7)根据(1)至(6)中任一项的电子装置，其中，盲源分离(201)的结果包括声乐分离或鼓声分离，并且其中，电路被配置为分别对声乐分离和鼓声分离执行时域滤波(202)以获得滤波声乐或滤波鼓声。

(8)根据(1)至(7)中任一项的电子装置，其中，电路被进一步配置为将再混音信号或上混音信号输出(405；607；908；1007)至扬声器系统(204)。

(9)根据(1)至(8)中任一项的电子装置，其中，电路被进一步配置为对分离源执行带限滤波(205)以获得带限分离源。

(10)根据(1)至(9)中任一项的电子装置，其中，电路被配置为执行自适应时域滤波(202)。

(11)根据(10)的电子装置，其中，电路被配置为基于混响时间执行自适应时域滤波(202)。

(12)根据(11)的电子装置，其中，电路被配置为基于混响时间确定窗口大小和/或窗口移位。

(13)根据(10)的电子装置，其中，电路被配置为基于第二分离源中的检测信号执行第一分离源的自适应时域滤波(202)。

(14)根据(13)的电子装置，其中，第二信号是鼓声分离源中的鼓声信号。

(15)根据(1)至(14)中任一项的电子装置，其中，电路被进一步配置为基于所接收的输入信号(1)计算(1003)短时能量，并且被进一步配置为基于所计算的短时能量确定(1004)用于时域滤波(202)的阈值系数(τ′)。

(16)根据(1)至(15)中任一项的电子装置，其中，分离源中的一个或多个分离源的再混音或上混音(203)包括分离源中的一个选定源或分离源中的选定子组的再混音或上混音。

(17)根据(16)的电子装置，其中，分离源中的一个或多个分离源的再混音或上混音(203)包括将特定分离源与分离源隔离。

(18)根据(16)的电子装置，其中，分离源中的一个或多个分离源的再混音或上混音(203)包括从分离源中去除特定分离源。

(19)一种方法，包括：

基于所接收的输入信号(1)执行(402；602；902；1002)盲源分离(201)以获得分离源；

对分离源中的至少一个分离源执行(403；605；906；1005)时域滤波(202)以获得至少一个滤波分离源；并且

基于至少一个滤波分离源执行(404；606；907；1006)再混音或上混音(203)。

(20)一种包括指令的计算机程序，当在处理器上执行时，该指令使处理器执行以下步骤：

基于所接收的输入信号(1)执行(402；602；902；1002)盲源分离(201)以获得分离源；

对分离源中的至少一个分离源执行(403；605；906；1005)时域滤波(202)以获得至少一个滤波分离源；并且

基于至少一个滤波分离源执行(404；606；907；1006)再混音或上混音(203)。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：家电设备的主动降噪装置及家电设备的制作方法

用于盲源分离和再混音的装置、方法和计算机程序与流程

相关文章

最热文献