一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

电子设备、方法和计算机程序与流程

2021-09-04 01:59:00 来源:中国专利 TAG:总体上 音频处理 分离 用于 公开


1.本公开总体上涉及音频处理领域,具体地涉及用于源分离和混合的设备、方法和计算机程序。


背景技术:

2.许多音频内容可用,例如以光盘(cd)、磁带、可以从互联网下载的音频数据文件的形式,以及例如以视频音轨(例如,存储在数字视频盘等)的形式。通常,音频内容已经混合,例如用于单声道或立体声设置,而不保留来自已用于产生音频内容的原始音频源的原始音频源信号。然而,存在设想混合音频内容的情形或应用。
3.虽然普遍存在用于混合音频内容的技术,但是通常期望改进用于混合音频内容的设备和方法。


技术实现要素:

4.根据第一方面,本公开提供一种包括电路的电子设备,该电路被配置为:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;并且基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
5.根据第二方面,本发明提供一种方法,该方法包括:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;以及基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
6.根据第三方面,本公开提供一种包括指令的计算机程序,指令当在处理器上执行时使处理器:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;并且基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
7.在从属权利要求、以下描述以及附图中阐述了进一步方面。
附图说明
8.参考附图,通过实例解释实施方式,其中:
9.图1示意性地示出借助于盲源分离(bss)的音频上混合/再混合的一般方法;
10.图2示意性地示出基于起始检测增强通过源分离获得的分离源的过程;
11.图3在图中示意性地示出起始检测信号以及基于起始检测信号的分别待应用于延时补偿分离源和延时补偿音频信号的增益g
dnn
和g
original

12.图4示出将用于基于起始检测信号将信号混合以便获得增强的分离源的方法可视化的流程图;
13.图5示意性地示出原始分离信号、增强的分离信号以及起始检测的实例;
14.图6示意性地示出增强通过基于起始检测和包络增强的源分离获得的分离源的过程;
15.图7示出将用于基于起始检测信号将延时补偿音频信号混合到包络增强的分离源
以获得增强的分离源的方法可视化的流程图;
16.图8示意性地示出基于起始检测和基于与节奏分析结果相关的动态均衡增强分离源的过程;
17.图9示意性示出将音频信号平均以得到音频信号的若干节拍的平均值以便得到混合到分离源的延时补偿音频信号的更稳定频谱的过程;
18.图10示出将用于基于与平均参数有关的动态均衡将信号混合以获得增强的分离源的方法可视化的流程图;
19.图11示意性地示出在动态均衡之前和在动态均衡之后以节奏演奏的具有低音鼓和踩镲(hi

hat)的鼓回路的时间表示;并且
20.图12示意性地描述可以基于起始检测实现混合过程的电子设备的实施方式。
具体实施方式
21.在参考图1至图12详细描述实施方式之前,做出总体解释。
22.实施方式公开一种包括电路的电子设备,该电路被配置为:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;并且基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
23.电子设备的电路可以包括处理器,可以例如是cpu、存储器(ram、rom等)、存储器和/或存储装置、接口等。电路可以包括输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如,液晶、(有机)发光二极管等))、扬声器等、(无线)接口等,或者可以与输入装置(鼠标、键盘、相机等)、输出装置(显示器(例如,液晶、(有机)发光二极管等))、扬声器等、(无线)接口等连接,其通常用于电子设备(计算机、智能电话等)。此外,电路可以包括用于感测静态图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)、用于感测环境参数(例如,雷达、湿度、光、温度)等的传感器,或者可以与用于感测静态图像或视频图像数据的传感器(图像传感器、相机传感器、视频传感器等)、用于感测环境参数(例如,雷达、湿度、光、温度)等的传感器连接。
24.在音频源分离中,将包括多个源(例如,乐器、语音等)的输入信号分解成分离。音频源分离可以是无监督的(称为“盲源分离”,bss)或部分监督的。“盲”是指盲源分离不一定具有关于原始源的信息。例如,可能不一定知道原始信号包含多少个源或输入信号的哪些声音信息属于哪个原始源。盲源分离的目的是在不知道之前分离的情况下分解原始信号分离。盲源分离单元可以使用本领域技术人员已知的盲源分离技术中的任一种。在(盲)源分离中,可以搜索在概率意义或信息论意义上最小相关或最大独立的源信号,或者可以基于音频源信号上的非负矩阵分解结构约束找到源信号。用于执行(盲)源分离的方法是本领域技术人员已知的,并且基于例如主成分分析、奇异值分解、(独立)成分分析、非负矩阵分解、人工神经网络等。
25.尽管一些实施方式使用盲源分离用于生成分离的音频源信号,但是本公开不限于其中没有进一步信息用于分离音频源信号的实施方式,而是在一些实施方式中,进一步信息用于生成分离的音频源信号。这样的进一步信息可以是例如关于混合处理的信息、关于在输入音频内容中包括的音频源的类型的信息、关于在输入音频内容中包括的音频源的空间位置的信息等。
26.输入信号可以是任何类型的音频信号。其可以是模拟信号、数字信号的形式,其可以来自光盘、数字视频磁盘等,其可以是数据文件(诸如,波文件、mp3文件等),并且本公开不限于输入音频内容的具体格式。在本公开不限于具有两个音频声道的输入音频内容的情况下,输入音频内容可以例如是具有第一声道输入音频信号和第二声道输入音频信号的立体声音频信号。在其他实施方式中,输入音频内容可以包括任何数量的声道,诸如,5.1音频信号的再混合等。输入信号可以包括一个或多个源信号。具体地,输入信号可以包括若干音频源。音频源可以是产生声波的任何实体,例如,音乐乐器、语音、人声(vocals)、(例如来自合成器的)人工生成的声音。
27.输入音频内容可以表示或包括混合音频源,这意味着声音信息不是分离地可用于输入音频内容的所有音频源,而是例如用于不同音频源的声音信息至少部分地重叠或混合。
28.由盲源分离从输入信号产生的分离可以例如包括人声分离、低音分离、鼓分离以及其他分离。在人声分离中,可以包括属于人类语音的所有声音,在低音分离中,可以包括低于预定阈值频率的所有噪声,在鼓分离中,可以包括属于歌曲/乐曲片段中的鼓的所有噪声,并且在其他分离中,可以包括所有剩余的声音。由音乐源分离(mss)系统获得的源分离可能导致诸如干扰、串扰或噪声的人为因素。
29.起始检测可以例如是时域操纵,该时域操纵可以对选自源分离的分离源执行以获得起始检测信号。起始可以指音符或其他声音的开始。它可能涉及(但不同于)瞬态的概念:所有音符具有起始,但不一定包括初始瞬态。
30.起始检测是活跃的研究领域。例如,mirex年度比赛以音频起始检测竞赛为特征。起始检测的方法可以在时域、频域、相位域或复域中操作,并且可以包括寻找谱能量的增加、谱能量分布(谱通量)或相位的变化、检测的音高的变化

例如,使用复调音高检测算法、由机器学习技术(诸如,神经网络)可识别的频谱模式等。或者,可以存在更简单的技术,例如,检测时域振幅的增加可能导致不令人满意的大量的假阳性或假阴性等。
31.起始检测信号可以指示声音(例如,低音、踩镲、军鼓(snare))的起音(attack)阶段,此处为鼓。由于分析分离源可能需要一些时间,因此起始检测可以检测比其实际情况晚的起始。即,可能存在起始检测信号的预期延时δt。预期时间延迟δt可以是已知的预定义参数,其可以在延时补偿中设置为预定义参数。
32.电路可以被配置为基于起始检测信号将音频信号与分离源混合以获得增强的分离源。混合可以被配置为执行分离源(此处为人声、低音、鼓和其他)中的一个(例如,鼓分离)的混合以产生增强的分离源。基于起始检测执行混合可以增强分离源。
33.在一些实施方式中,电路可以进一步被配置为:基于接收的音频输入,执行延时补偿以获得延时补偿音频信号;并且对分离源执行延时补偿以获得延时补偿分离源。
34.在一些实施方式中,基于起始检测信号,将音频信号与分离源混合可以包括将延时补偿音频信号与延时补偿分离源混合。
35.在一些实施方式中,电路可以进一步被配置为:基于起始检测信号,生成待应用于延时补偿分离源的增益g
dnn
;并且基于起始检测信号,生成待应用于延时补偿音频信号的增益g
original

36.在一些实施方式中,电路可以进一步被配置为:基于延时补偿分离源,生成增益修
正的延时补偿分离源;并且基于延时补偿音频信号,生成增益修正的延时补偿音频信号。
37.在一些实施方式中,对分离源执行延时补偿可以包括在起始检测中将分离源延迟预期延时。
38.在一些实施方式中,对接收的音频输入执行延时补偿可以包括在起始检测中将接收的音频输入延迟预期延时。
39.在一些实施方式中,电路可以进一步被配置为:对延时补偿分离源执行包络增强以获得包络增强的分离源。该包络增强可以例如是具有从现有技术已知的起音、延音(sustain)和释音(release)参数的任何种类的增益包络发生器。
40.在一些实施方式中,将音频信号与分离源混合可以包括将延时补偿音频信号混合到包络增强的分离源。
41.在一些实施方式中,电路可以进一步被配置为对延时补偿音频信号执行平均以获得平均音频信号。
42.在一些实施方式中,电路可以进一步被配置为对平均音频信号执行节奏分析以获得节奏分析结果。
43.在一些实施方式中,电路可以进一步被配置为对延时补偿音频信号和节奏分析结果执行动态均衡以获得动态均衡音频信号。
44.在一些实施方式中,将音频信号混合到分离源包括将动态均衡音频信号与延时补偿分离源混合。
45.实施方式还公开一种方法,该方法包括:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;以及基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
46.根据进一步方面,本公开提供一种包括指令的计算机程序,指令当在处理器上执行时使处理器:基于接收的音频输入,执行源分离以获得分离源;对分离源执行起始检测以获得起始检测信号;并且基于起始检测信号,将音频信号与分离源混合以获得增强的分离源。
47.现在参考附图来描述实施方式。
48.图1示意性地示出借助于盲源分离(bss)的音频上混合/再混合的一般方法。
49.首先,执行源分离(也称为“解混合”),其将包括多个声道i的源音频信号1和来自多个音频源源1、源2、...源k(例如,乐器、语音等)的音频分解成“分离”,此处分解成用于每个声道i的源估计2a

2d,其中,k是整数并且表示音频源的数量。在此处的实施方式中,源音频信号1是具有两个声道i=1和i=2的立体声信号。由于音频源信号的分离可能是不完美的,例如,由于音频源的混合,因此除了分离的音频源信号2a

2d之外,还生成残差信号3(r(n))。残差信号可以例如表示输入音频内容与所有分离的音频源信号的和之间的差。由每个音频源发射的音频信号在输入音频内容1中由其相应记录的声波表示。对于具有超过一个音频声道的输入音频内容(例如,立体声输入音频内容或环绕声音输入音频内容),用于音频源的空间信息通常由输入音频内容包括或表示,例如,按在不同音频声道中包括的音频源信号的比例。基于盲源分离或能够分离音频源的其他技术,执行将输入音频内容1分离成分离的音频源信号2a

2d和残差3。
50.在第二步骤中,将分离2a

2d和可能的残差3再混合并且呈现为新的扬声器信号4,
此处的信号包括五个声道4a

4e,即,5.0声道系统。基于分离的音频源信号和残差信号,通过基于空间信息将分离的音频源信号和残差信号混合来生成输出音频内容。输出的音频内容是示例性的,并且在图1中用附图标记4表示。
51.在下文中,输入音频内容的音频声道的数量被称为m
in
,并且输出音频内容的音频声道的数量被称为m
out
。由于图1的实例中的输入音频内容1具有两个声道i=1且i=2,并且图1的实例中的输出音频内容4具有五个声道4a

4e,因此m
in
=2并且m
out
=5。图1中的方法通常被称为再混合,特别是如果m
in
<m
out
则其称为上混合。在图1的实例中,输入音频内容1的音频声道的数量m
in
=2小于输出音频内容4的音频声道的数量m
out
=5,因此,其是从立体声输入音频内容1到5.0环绕声音输出音频内容4的上混合。
52.图2示意性地示出增强通过基于起始检测的源分离获得的分离源的过程。该过程包括源分离201、起始检测202、延时补偿203、增益发生器204、延时补偿205、放大器206、放大器207、以及混频器208。如以上关于图1所描述的,将具有多个声道(例如,m
in
=2)的包含多个源(参见图1中的源1、2、

k)的音频输入信号(参见图1中的输入信号1)输入到源分离201并且分解成分离(参见图1中的分离源2a

2d),并且选择分离中的一种,此处为鼓分离(鼓输出)。将所选择的分离源(参见图1中的分离信号2)(此处为鼓分离)传送到起始检测202。在起始检测202处,对分离源进行分析以产生起始检测信号(参见图3中的“起始”)。起始检测信号指示声音(例如,低音、踩镲、军鼓)的起音阶段,此处为鼓。由于分析分离源需要一些时间,因此起始检测202将检测比其实际情况晚的起始。即,存在起始检测信号的预期延时δt。预期时间延时δt是已知的预定义参数,其可以在延时补偿203和205中设置为预定义参数。
53.将在源分离201(此处为鼓分离)期间获得的分离源也传送到延时补偿203。在延时补偿203处,将鼓分离延迟起始检测信号的预期延时δt以生成延时补偿鼓分离。这具有由鼓分离的相应延迟来补偿起始检测信号的延时δt的效果。与源分离201同时,将音频输入传送到延时补偿205。在延时补偿205处,将音频输入延迟起始检测信号的预期延时δt以生成延时补偿音频信号。这具有由音频输入的相应延迟来补偿起始检测信号的延时δt的效果。
54.增益发生器204被配置为基于起始检测信号生成待应用于延时补偿的分离源的增益g
dnn
和待应用于延时补偿音频信号的增益g
original
。增益发生器204的功能将在图3中更详细地描述。放大器206基于延时补偿鼓分离并且基于由增益发生器生成的增益g
dnn
生成增益修正的延时补偿鼓分离。放大器207基于延时补偿音频信号并且基于由增益发生器生成的增益g
original
生成增益修正的延时补偿音频信号。混合器208将增益修正的延时补偿音频信号混合到增益修正的延时补偿鼓分离以获得增强的鼓分离。
55.本发明不限于该实例。源分离201还可以输出其他分离源,例如,人声分离、低音分离、其他分离等。虽然在图2中,仅一个分离源(此处为鼓分离)通过起始检测增强,但是多个分离源可以通过相同过程增强。增强的分离源可以例如用于再混合/上混合(参见图1的右侧)。
56.图3在图中示意性地示出起始检测信号以及基于起始检测信号分别待应用于延时补偿分离源和延时补偿音频信号的增益g
dnn
和g
original
。起始检测信号显示在图3的上部分中。根据该实施方式,起始检测信号是二进制信号,其指示声音的开始。本领域技术人员已
知的在源分离(图2中的201)的分离输出(例如,鼓分离)上运行的任何现有技术起始检测算法可以用于获得“乐器”的正确起始开始的洞察。例如,collins,n.(2005)“声音起始检测算法与心理声学激励检测函数的比较(a comparison of sound onset detection algorithms with emphasis on psychoacoustically motivated detection function)”,aes118会议记录(proceedings of aes118 convention),描述了这样的起始检测算法。具体地,起始指示声音(例如,低音、踩镲、军鼓)的起音阶段,此处为鼓。起始检测信号用作触发信号以开始如图3的中间部分和下部分所示的增益g
dnn
和g
original
中的变化。在图3的中间部分和下部分中更详细地描述了根据实施方式的增益g
dnn
和g
original
。横坐标显示时间,并且纵坐标显示在0至100%的间隔中的相应增益g
dnn
和g
original
的值。在图3中,水平虚线表示振幅的最大值,并且垂直虚线表示时间示例t0、t1、t2、t3。增益g
dnn
和g
original
分别修正延时补偿分离源和延时补偿音频信号。即,增益发生器204具有“门(gate)”的功能,其在“实际”起始之前“打开”预定义时间δt。
57.在图3的中间部分中,将增益g
original
基于起始检测信号应用于延时补偿音频信号。具体地,在时间t0之前,即在检测起始之前,增益g
original
设置为0。因而,在此阶段中不存在到分离源的原始音频信号的混合。在时间间隔t0到t1(“起音阶段”)期间,增益g
original
从0线性地增加到100%。即,越来越多的原始音频信号被混合到分离源。在时间间隔t1至t2(“延音阶段”)期间,增益g
original
设置为延时补偿音频信号的100%。在时间间隔t2至t3(“释放阶段”)期间,增益g
original
从100%线性地减小到0。即,逐渐较少的原始音频信号被混合到分离源。
58.在图3的下部分中,将增益g
dnn
基于起始检测信号应用于延时补偿分离源。具体地,在时间t0之前,即在检测起始之前,增益g
dnn
设置为100%。因此,在该阶段中,分离源在没有任何修正的情况下通过门。在时间间隔t0到t1(“起音阶段”)期间,增益g
dnn
从100%线性地减小到0。即,逐渐较少的分离源通过门。在时间间隔t1至t2(“延音阶段”)期间,增益g
dnn
设置为延时补偿分离源的0。在该阶段期间,分离源完全由原始音频信号替代。在时间间隔t2到t3(反向“释音阶段”)期间,增益g
dnn
从0线性地增加到100%。即,越来越多的分离源通过门。
59.基于这些增益g
dnn
和g
original
,放大器和混频器(图2中的206、207和208)生成如以上关于图2所描述的增强的分离源。上述过程将通过牺牲串扰创建具有正确起始的分离,因为其使其他乐器在过渡阶段期间通过。在图3的实施方式中,选择增益g
dnn
和g
original
,使得原始音频信号以系统的总能量保持相同的方式混合到分离源。然而,本领域技术人员可以根据具体使用情况的需要以其他方式选择g
dnn
和g
original

60.起音阶段t0至t1、延音阶段t1至t2、以及释音阶段t2至t3的长度由本领域技术人员根据所讨论的乐器的具体要求设置为预定义参数。
61.图4示出将用于基于起始检测信号将信号混合以便获得增强的分离源的方法可视化的流程图。在400处,源分离201(参见图2)接收音频输入。在401处,对接收的音频输入执行延时补偿205以获得延时补偿音频信号(参见图2)。在402处,基于接收的音频输入执行源分离201以获得分离源(参见图2)。在403处,对分离源(例如,鼓分离)执行起始检测202以获得起始检测信号。在404处,对分离源执行延时补偿203以获得延时补偿分离源(参见图2)。在405处,基于起始检测信号,执行将延时补偿音频信号混合到延时补偿分离源以获得增强的分离源(参见图2)。
62.图5示意性地示出原始分离信号、增强的分离信号以及起始检测的实例。从图5中可以看出,将原始分离与增强的分离进行比较,在起始检测时间处,原始分离信号具有比增强的分离信号低的振幅,该振幅是基于起始检测信号执行将延时补偿音频信号与延时补偿分离源进行混合以获得增强的分离源的结果,如图2和图4中详细描述的。因此,该过程产生改进的分离源信号的声波质量,并且将系统微调到最佳声波质量。
63.图6示意性地示出增强通过基于起始检测和包络增强的源分离获得的分离源的过程。该过程包括源分离201、起始检测202、延时补偿203、增益发生器204、延时补偿205、放大器206、放大器207、混频器208、以及包络增强209。如以上关于图1所描述的,将具有多个声道(例如,m
in
=2)的包含多个源(参见图1中的源1、2、

k)的音频输入信号(参见图1中的输入信号1)输入到源分离201并且分解成分离(参见图1中的分离源2a

2d),并且选择分离中的一种,此处为鼓分离(鼓输出)。将所选择的分离源(参见图1中的分离信号2)(此处为鼓分离)传送到起始检测202。在起始检测202处,对分离源进行分析以产生起始检测信号(参见图3中的“起始”)。起始检测信号指示声音(例如,低音、踩镲、军鼓)的起音阶段,此处为鼓。由于分析分离源需要一些时间,因此起始检测202将检测比其实际情况晚的起始。即,存在起始检测信号的预期延时δt。预期时间延迟δt是已知的预定义参数,其可以在延时补偿203和205中设置为预定义参数。
64.将在源分离201(此处为鼓分离)期间获得的分离源也传送到延时补偿203。在延时补偿203处,将鼓分离延迟起始检测信号的预期延时δt以生成延时补偿鼓分离。这具有由鼓分离的相应延迟来补偿起始检测信号的延时δt的效果。将在延时补偿203期间获得的延时补偿鼓分离传送到包络增强209。在包络增强209处,基于从起始检测202获得的起始检测信号进一步增强延时增强的分离源(此处为鼓分离)以产生包络增强的分离源(此处为鼓分离)。包络增强209进一步增强例如鼓分离的起音,并且通过将包络增强应用于鼓输出(原始dnn输出)进一步增强起始的能量。该包络增强209可以例如是从现有技术已知的具有起音、延音和释音参数的任何种类的增益包络发生器。
65.与源分离201同时,将音频输入传送到延时补偿205。在延时补偿205处,将音频输入延迟起始检测信号的预期延时δt以生成延时补偿音频信号。这具有由音频输入的相应延迟来补偿起始检测信号的延时δt的效果。
66.增益发生器204被配置为基于起始检测信号生成待应用于起始增强的分离源的增益g
dnn
和待应用于延时补偿音频信号的增益g
original
。增益发生器204的功能在图3中更详细地描述。放大器206基于包络增强的鼓分离并且基于由增益发生器生成的增益g
dnn
生成增益修正的包络增强鼓分离。
67.放大器207基于延时补偿音频信号并且基于由增益发生器生成的增益g
original
生成增益修正的延时补偿音频信号。混合器208将增益修正的延时补偿音频信号混合到增益修正的包络增强的鼓分离以获得增强的鼓分离。本发明不限于该实例。源分离201还可以输出其他分离源,例如,人声分离、低音分离、其他分离等。虽然在图2中,仅一个分离源(此处为鼓分离)通过起始检测增强,但是多个分离源可以通过相同过程增强。增强的分离源可以例如用于再混合/上混合(参见图1的右侧)。
68.图7示出将用于基于起始检测信号将延时补偿音频信号混合到包络增强的分离源以获得增强的分离源的方法可视化的流程图。在700处,源分离201(参见图2和图6)接收音
频输入。在701处,对接收的音频输入执行延时补偿205以获得延时补偿音频信号(参见图2和图6)。在702处,基于接收的音频输入,执行源分离201以获得分离源(参见图2和图6)。在703处,对分离源(例如,鼓分离)执行起始检测202以获得起始检测信号。在704处,对分离源执行延时补偿203以获得延时补偿分离源(参见图2和图6)。在705处,基于起始检测信号,对延时补偿分离源执行包络增强209以获得包络增强的分离源(参见图6)。在705处,基于起始检测信号,执行到包络增强的分离源的延时补偿音频信号的混合以获得增强的分离源(参见图6)。
69.图8示意性地示出基于起始检测和基于与节奏分析结果相关的动态均衡增强分离源的过程。该过程包括源分离201、起始检测202、延时补偿203、增益发生器204、延时补偿205、放大器206、放大器207、混频器208、平均210、以及动态均衡211。如以上关于图1所描述的,将具有多个声道(例如,m
in
=2)的包含多个源(参见图1中的源1、2、

k)的音频输入信号(参见图1中的输入信号1)输入到源分离201并且分解成分离(参见图1中的分离源2a

2d),并且选择分离中的一种,此处为鼓分离(鼓输出)。将所选择的分离源(参见图1中的分离信号2)(此处为鼓分离)传送到起始检测202。在起始检测202处,对分离源进行分析以产生起始检测信号(参见图3中的“起始”)。起始检测信号指示声音(例如,低音、踩镲、军鼓)的起音阶段,此处为鼓。由于分析分离源需要一些时间,因此起始检测202将检测比其实际情况晚的起始。即,存在起始检测信号的预期延时δt。预期时间延迟δt是已知的预定义参数,其可以在延时补偿203和205中设置为预定义参数。
70.将在源分离201(此处为鼓分离)期间获得的分离源也传送到延时补偿203。在延时补偿203处,将鼓分离延迟起始检测信号的预期延时δt以生成延时补偿鼓分离。这具有由鼓分离的相应延迟来补偿起始检测信号的延时δt的效果。与源分离201同时,将音频输入传送到延时补偿205。在延时补偿205处,音频输入延迟起始检测信号的预期延迟δt以产生延时补偿音频信号。这具有由音频输入的相应延迟来补偿起始检测信号的延时δt的效果。将延时补偿音频信号传送到平均210。在平均210处,对延时补偿音频信号进行分析以产生平均参数。平均210被配置为对延时补偿音频信号执行平均以获得平均参数。通过对延时补偿音频信号的若干节拍进行平均以获得延时补偿205(混合缓冲器)的更稳定频谱来获得平均参数。平均210的过程将在图9中更详细地描述。
71.将在延时补偿205期间获得的延时补偿音频信号也传送到动态均衡211。在动态均衡211处,基于在平均210期间计算的平均参数来动态均衡延时补偿音频信号以获得动态均衡音频信号。
72.增益发生器204被配置为基于起始检测信号生成待应用于延时补偿的分离源的增益g
dnn
和待应用于动态均衡音频信号的增益g
original
。增益发生器204的功能在图3中更详细地描述。放大器206基于延时补偿鼓分离并且基于由增益发生器生成的增益g
dnn
生成增益修正的延时补偿鼓分离。放大器207基于动态均衡音频信号并且基于由增益发生器生成的增益g
original
生成增益修正的动态均衡音频信号。混合器208将增益修正的动态均衡音频信号混合到增益修正的延时补偿鼓分离混合以获得增强的鼓分离。
73.本发明不限于该实例。源分离201还可以输出其他分离源,例如,人声分离、低音分离、其他分离等。虽然在图2中,仅一个分离源(此处为鼓分离)通过起始检测增强,但是多个分离源可以通过相同过程增强。增强的分离源可以例如用于再混合/上混合(参见图1的右
侧)。图9示意性示出将音频信号平均以得到音频信号的若干节拍的平均值以便得到混合到分离源的延时补偿音频信号的更稳定频谱的过程。图9的部分a)示出包括长度为t的若干节拍的音频信号,其中,每一节拍包括若干声音。第一节拍在时刻0处开始并且在时刻t处结束。第一节拍之后的第二节拍在时刻t处开始并且在时刻2t处结束。第二节拍之后的第三之在时刻2t处开始并且在时刻3t处结束。
74.平均210(参见图8)(其在图9中由部分a)与部分b)之间的箭头指示)计算节拍的平均音频信号。在图9的部分b)中显示节拍的平均音频信号。由部分b)与部分c)之间的箭头显示的节奏分析过程分析平均音频信号以识别图9的声音(低音、踩镲、以及军鼓)以获得节奏分析结果,其在部分c)中显示。节奏分析结果包括节拍的八个部分。节奏分析结果标识节拍的第一部分(1/4)上的低音声音、节拍的第二部分上的踩镲声音、节拍的第三部分(2/4)上的踩镲声音、节拍的第四部分上的踩镲声音、节拍的第五部分(3/4)上的踩镲声音、节拍的第六部分上的踩镲声音、节拍的第七部分(4/4)上的踩镲声音、以及节拍的第八部分上的踩镲声音。
75.基于节奏分析结果,动态均衡(图8中的211)通过相应地改变低音、踩镲和军鼓的低频、中频和高频来对音频信号执行动态均衡。例如,通过增加低音的低频(例如, 5db)并且降低低音的中频和高频(例如,

5db)。此外,通过增加踩镲的高频(例如, 5db)并且降低踩镲的中频和低频(例如,

5db)。此外,通过增加军鼓的中频(例如, 5db)并且降低军鼓的低频和高频(例如,

5db)。该过程产生基于节奏分析过程的动态均衡音频信号。即,如果演奏低音鼓,则动态均衡211充当低通以抑制混合中的其他乐器的高频。在踩镲或钹的情况下,滤波器充当高通,从而抑制其他乐器的较低频率。
76.图10示出将用于基于与平均参数有关的动态均衡将信号混合以获得增强的分离源的方法可视化的流程图。在1000处,源分离201(参见图2和图8)接收音频输入。在1001处,对接收的音频输入执行延时补偿205以获得延时补偿音频信号(参见图2和图8)。在1002处,对延时补偿音频信号执行平均210以获得平均音频信号。在1003处,对平均音频信号执行节奏分析以获得节奏分析结果。在1004处,基于节奏分析结果,对平均音频信号执行动态均衡化211以获得动态均衡音频信号(参见图8)。在1005处,基于接收的音频输入,执行源分离201以获得分离源(参见图2和图8)。在1006处,对分离源(例如,鼓分离)执行起始检测202以获得起始检测信号。在1007处,对分离源执行延时补偿203以获得延时补偿分离源(参见图2和图8)。在1008处,基于起始检测信号,执行将动态均衡音频信号混合到延时补偿分离源以获得增强的分离源(参见图8)。
77.图11示意性地示出在图11的动态均衡之前(部分a)和在图11的动态均衡之后(部分b)以节奏演奏的具有低音鼓和踩镲的鼓回路的时间表示。如可以从图11的部分a)的频谱图看出,低音鼓的频谱包含低频和中频。如从图11的部分b)可以看出,低音鼓的高频和踩镲的低频中的串扰减小。低音鼓的频谱包含低频和中频。动态均衡(图8中的211以及相应的描述)在该部分充当低通,并且在踩镲区域它具有高通特性。当增益发生器(图8中的204)将动态均衡音频信号(原始信号)混合到分离源(分离输出)时,这导致最小化的频谱串扰。这具有将串扰限制在不需要的频带中的效果。动态均衡充当滤波器,其学习音乐的节奏以确定演奏的乐器的类型。
78.如上述,图12示意性地描述可以基于起始检测实现混合过程的电子设备的实施方
式。电子设备1200包括作为处理器的cpu 1201。电子设备1200还包括与处理器1201连接的麦克风阵列1210、扬声器阵列1211和卷积神经网络单元1220。处理器1201可以例如实现源分离201、起始检测203、增益发生器204和/或延时补偿203和205,其实现关于图2、图6和图8更详细描述的过程。cnn单元可以例如是硬件中的人工神经网络,例如,gpu上的神经网络或专用于实现人工神经网络目的的任何其他硬件。扬声器阵列1211由分布在预定义空间上方并且被配置为呈现3d音频的一个或多个扬声器组成。电子设备1200还包括连接到处理器1201的用户接口1212。用户接口1212用作人机接口,并且实现管理员与电子系统之间的对话。例如,管理员可以使用用户接口1212对系统进行配置。电子设备1200还包括以太网接口1221、蓝牙接口1204和wlan接口1205。这些单元1204、1205用作与外部设备进行数据通信的i/o接口。例如,具有以太网、wlan或蓝牙连接的附加扬声器、麦克风和摄像机可以经由这些接口1221、1204和1205耦合到处理器1201。
79.电子系统1200还包括数据存储装置1202和数据存储器1203(此处为ram)。数据存储器1203布置为暂时存储或缓存用于由处理器1201处理的数据或计算机指令。数据存储装置1202布置为长期存储装置,例如,用于记录从麦克风阵列1210获得并且提供给cnn单元1220或从cnn单元1220检索的传感器数据。数据存储装置1202还可以存储表示音频消息的音频数据,公共宣告系统可以将该音频数据传送给在预定义空间中移动的人们。
80.应当注意,以上描述仅是示例配置。替代配置可以用附加或其他传感器、存储设备、接口等来实现。
81.应当认识到,实施方式描述了具有方法步骤的示例性序列的方法。然而,方法步骤的特定序列仅是用于说明的目的,并且不应解释为具有约束力。
82.还应注意,将图12的电子系统划分成单元仅用于说明目的,并且本公开不限于特定单元中的功能的任何特定划分。例如,电路的至少部分可以由分别编程的处理器、现场可编程门阵列(fpga)、专用电路等来实现。
83.如果没有另外说明,则在本说明书中所描述的和在所附权利要求中要求保护的所有单元和实体可以作为集成电路逻辑在例如芯片上实现,并且如果没有另外说明,则由这种单元和实体提供的功能可以由软件实现。
84.迄今为止,以上描述的本公开的实施方式至少部分使用软件控制的数据处理装置实现,将认识到,设置这种软件控制的计算机程序以及提供这种计算机程序的传输、存储或者其他介质设想为本公开的方面。
85.应当注意,本技术也可以如上述配置。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜