一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

乐器源分离和再现的方法和系统与流程

2023-02-19 05:53:58 来源:中国专利 TAG:


1.本公开总体上涉及音频源分离及播放。更具体地,本公开涉及混合音乐音频源的乐器分离和传输以及分别在多扬声器上再现的方法和系统。


背景技术:

2.在需要获得较佳的音频效果的场景中通常可以采用多扬声器播放的方式来增强现场的聆听体验。现在很多的扬声器都可以支持广播音频功能。例如,jbl的多款便携式扬声器都有广播音频功能connect ,这也可以称为派对增强“party boost”功能。通过无线连接多达上百个启用了connect 的扬声器,使得多个扬声器同步播放相同的信号,可以将用户的聆听体验放大到史诗级水平并完美地获得震撼性的派对效果。
3.但是,现有扬声器广播功能最多只能支持立体声信号传输,甚至主设备只能向其它从设备广播单声道信号。这虽然有助于明显提高声压级,但无助于增强声场的深度感,例如在通过扬声器播放由多种乐器演奏音乐时主要再现了旋律声部,因此用户聆听的感受更偏重音乐横向的流动而不易辨查到不同乐器之间的音色。另一方面,基于目前扬声器音频传输的特性,其音频编解码和单通道传输机制并不能满足多通道、低延迟的音频传输要求。
4.因此,目前需要一种实用的方法以更好的音质、更高的带宽效率和数据吞吐量,来实现通过多扬声器再现音频源的不同声道的音色。


技术实现要素:

5.本公开提供了一种混合音频源乐器分离并再现的方法,包括:首先将选定的音乐的混合音频源转换为混合音频源声谱图,其中混合音频源包括至少一种乐器的声音;然后将声谱图放入乐器分离模型,从而依次获得混合音频源中至少一种乐器各自的乐器特征掩码,并基于乐器各自的乐器特征掩码获得该种乐器的乐器声谱图;接下来基于该乐器的声谱图确定出该乐器的乐器音频源;最后,将至少一种乐器各自的乐器音频源分别馈送至至少一个扬声器,并由至少一个扬声器再现相应的一种乐器的乐器音频源。
6.本公开还提供了一种包括指令的非暂时性计算机可读介质,其可以由处理器执行时实施上述混合音频源乐器分离并再现的方法。
7.本公开还提供了一种混合音频源乐器分离并再现的系统,包括声谱图转换模块、乐器分离模块、乐器提取模块和乐器音频源重组模块。其中,声谱图转换模块配置成将所接收到的包括至少一种乐器的声音的混合音频源转换成混合音频源声谱图;乐器分离模块中包括乐器分离模型,乐器分离模型配置成依次提取出混合音频源中所包括的至少一种乐器各自的乐器特征掩码,并且在乐器提取模块中将乐器特征掩码再次施加到原输入的混合音频源声谱图,从而基于至少一种乐器中各乐器特征掩码获得该种乐器的乐器声谱图;然后由乐器音频源重组模块基于该种乐器声谱图确定该种乐器的乐器音频源,最后将分别确定的至少一种乐器各自的乐器音频源分别馈送至至少一个扬声器,并由至少一个扬声器再现相应的一种乐器的乐器音频源。
附图说明
8.在参考附图阅读以下的详细说明后将更好地理解本发明的这些和/或其它特征、方面和优点,贯穿这些附图,其中相同的字符代表相同的部件,其中:
9.图1示出了依据本公开一个或多个实施例的混合音频源乐器分离及多扬声器分别再现的方法的示例性流程图;
10.图2示出了依据本公开一个或多个实施例的乐器分离模型结构的示意图;
11.图3示出了依据本公开一个或多个实施例的升级的乐器分离模型结构示意图;
12.图4示出了依据本公开的一个或多个实施例的混合音频源乐器分离和再现的系统框图;
13.图5示出了依据本公开的一个或多个实施例的将多扬声器置于指定位置的示意图。
具体实施方式
14.本发明实施例的详细描述如下;然而,应当理解,所公开的实施例仅仅是示例,其可以以各种可替代形式体现。附图不一定按比例描绘;某些特征可能会被扩大化或最小化以显示特定组件的细节。因此,此处公开的具体结构和功能细节不应被解释为限制性的,而仅作为教导本领域技术人员以各种方式实施本公开的代表性基础。
15.通过无线连接可使多个扬声器互相连接起来,将例如音乐音频流通过这些扬声器同时播放出来,可以获得立体声效果。然而这种多扬声器同时播放混合音乐音频流的机制可能不能满足多通道、低延迟的音频传输要求,而是仅提高了声压级,但无助于增强声场的深度感。
16.伴随用户对于聆听多种乐器音乐演奏要求的提高,用户可能希望即使使用便携式设备也能够实现例如多声道音响系统那样的更好音质、更高带宽效率和数据吞吐量,同时以低延迟和可靠同步连接多个扬声器来还原出音乐录制时原始声场的效果,这可以通过例如将多个扬声器相应地视为多声道系统,然后通过不同的扬声器再现不同声道中还原出的各种乐器的音频源来实现。
17.因此,本公开提供了将选定的音乐首先经过乐器分离模型处理获得分离后各种乐器单独的音频源,然后通过多声道广播音频馈送至不同的多个扬声器播放,来实现重现音乐录制时原始声场效果的方法。
18.图1示出了本公开的乐器分离及多扬声器再现音乐的方法的示例性流程图100。由于不同物体振动具有的不同特征,声音的基础三要素(即音调、音量和音色)分别与声波的频率、幅度和频谱结构有关。一首音乐可通过音乐音频声谱图来表示某时间点某个频率下幅度的大小,而将声音在媒介中传播的波形数据通过二维图像表示出来就是声谱图。不同乐器之间的能量分布不同可体现在该乐器发出的声音在不同频率上的辐射能力。声谱图是以时间维度和频率维度表示的二维图形,可以通过例如以时间单位为横坐标和以频率单位为纵坐标将声谱图划分为多个像素,各像素上分布颜色深浅的不同就可体现该时频处不同的幅度,例如幅度用亮色表示高,用深色表示低。
19.因此参考图1所示的乐器分离和再现的方法流程图中,首先在s102将选定的混合音乐音频源转换为混合音乐声谱图。对于选定的一首音乐通过以下方式组合成其混合声谱
图图像:
20.x(t)=overlap(input,50%)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
21.xn(t)=windowing(x(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
22.xn(f)=fft(xn(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
23.x
nb
(f)=[|x1(f)|,|x2(f)|,

,|xn(f)|]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0024]
其中包括:
[0025]
x(t):输入选定音乐的混合音频信号的时域;
[0026]
x(f):经过快速傅立叶变换为混合音频信号的频域表示;
[0027]
xn(f):从时间帧n开始输入信号的声谱图;
[0028]
overlap(*)和windowing(*)分别是重叠和加窗处理,其中重叠系数依据实验值,例如采取实验值50%;fft表示快速傅立叶变换;|*|是绝对值算子,这里相当于取声波的幅度值。因此xn(f)的buffer x
nb
(f)是表示将被输入到乐器分离模型中的音乐x(t)的混合音频的声谱图。
[0029]
接下来在s104中,将混合音频声谱图的幅度图像输入乐器分离模型中对各种乐器单独提取音频特征。
[0030]
本公开提供了乐器分离模型,通过机器学习该乐器分离模型可实现从所选定的原始混合音乐音频中分离出不同的音乐元素,例如通过机器学习并结合乐器识别和掩码从混合的音乐音频中分离出不同乐器音频的声谱图幅度特征掩码。虽然在本公开中涉及多种乐器演奏的音乐的分离,但是并不排除将混合音频中的声乐部分视为相当于一种乐器包含在其中。
[0031]
本公开所提供用于音乐音频源中乐器分离的机器学习模型如图2所示,该乐器分离模型例如可以搭建成一种基于卷积神经网络生成的乐器声源分离模型。卷积神经网络的网络模型多种多样,在图像处理中,卷积神经网络由于特殊的组织结构,能提取出图像中较好的特征。因此,通过基于本公开中卷积神经网络的乐器声源分离模型来处理音乐音频声谱图,能够提取出各种乐器的特征,从而实现从混合器乐演奏的音乐音频中分离出某一种以及多种乐器,并有利于后续单独再现。
[0032]
在图2所示的本公开的乐器声源分离模型分成两个部分,即卷积层部分和反卷积层部分,卷积层部分包括至少一个二维(2d)卷积层,反卷积层部分包括至少一个二维(2d)反卷积层。卷积层以及反卷积层的作用是提取图像的特征,在卷积层之间还可搭配采用池化层(未示出)对特征进行抽样以使得训练参数减少,同时还可以减轻网络模型的过拟合程度。在本公开的乐器声源分离模型的示例中,在卷积层部分设置了六个2d卷积层(表示为卷积层_0到卷积层_5),且在反卷积层部分相应地设置了六个2d卷积转置层(表示为卷积转置层_0到卷积转置层_5)。反卷积层部分的第一个2d卷积转置层级联在卷积层部分的最后一个2d卷积层之后。
[0033]
在反卷积层部分中,每次2d卷积转置的结果在进入下一个2d卷积转置之前还通过concatenate函数处理与卷积层部分中相对应的前一个2d卷积提取的特征结果拼接。如图所示,反卷积层部分中第一次2d卷积转置_0的结果与卷积层部分中第五次2d卷积_4的结果拼接,反卷积层部分中第二次2d卷积转置_1的结果拼接卷积层部分中第四次2d卷积_3的结果,第三次2d卷积转置_2的结果与第三次2d卷积_2结果拼接,第四次2d卷积转置_3与第二
次2d卷积_1的结果拼接,第五次2d卷积转置_4的结果与第一次2d卷积_0的结果拼接。
[0034]
在卷积层部分中的每一个2d卷积层之间以及在反卷积层部分的每一个2d卷积转置层之间都分别加入了批归一化层用于对每一层的结果进行重新归一化,以便为通过下一层神经网络提供良好的数据。另外,在每一个2d卷积层之间还加入了带泄露的修正线性单元,其中包括leaky_relu函数处理,其函数表示为f(x)=max(kx,0);在每个2d卷积转置层之间同样分别加入relu函数处理的修正线性单元,其函数表示为f(x)=max(0,x)。两种修正线性单元的作用均在于防止乐器分离模型中的梯度消失问题。在图2的示例中还加入了三个丢弃层进行dropout函数处理,这是为了防止乐器分离模型的过度拟合。然后,在最后一次2d卷积转置_5之后为1~2层全连接层,全连接层负责把提取的音频特征连接起来,并在模型的最后在输出层得到输出。在图1构建的乐器分离模型的示例中,输入层输入的是混合音乐音频声谱图幅度图形,通过模型中深度卷积神经网络的处理提取各乐器的声谱图图形特征,输出端则可设置softmax函数分类器作为输出层,其作用是将实数输出归一化层多类型的概率,从而在乐器分离模型的输出层可提取出乐器的音频声谱图掩码。
[0035]
对于新建立的机器学习模型,首先需要使用一些数据库作为训练数据集对模型进行训练来调整模型中的参数。如图2所示的乐器分离模型搭建好之后,可以从例如数据库中选取由多种乐器合奏的且其中已存有各乐器分别的单独音轨录音的音频作为训练数据集用来训练乐器分离模型。在这种情况下,可以从已公开的公共音乐数据库中找到一些训练数据,例如已公开使用的音乐数据库“musdb18”就包含150多首不同流派的完整长度的音乐(持续时间约10小时),以及这些音乐相应的分别单独录制的人声、钢琴、鼓、贝司等,还有该音乐包含的其他声音的音频源。此外,其它的一些专门的数据库中带有多音轨分别录制的声乐、钢琴和吉他等的音乐也可以用作训练数据集。
[0036]
在训练模型时选取一组训练数据集送入神经网络,根据网络的实际输出与期望输出间的差别来调整模型参数。也就是说,在本示例中,可从已知的音乐数据库中选取音乐,将这首音乐的混合音频转换为混合音频声谱图图像放到输入,将该音乐的各种乐器音频分别转换为该乐器的特征声谱图图像作为期望输出放在乐器分离模型的输出,通过机器学习不断尝试,可以训练该乐器分离模型并修改模型特征。对于基于2d卷积神经网络的乐器分离模型,模型训练过程中机器学习的模型特征可主要包括卷积核的权重和偏置,以及批归一化矩阵的参数等。
[0037]
模型的训练时间通常基于离线处理,因此可不考虑运算资源而是以提供最佳性能的模型为目的。训练可以按照训练数据集种选定的音乐中包含的各种乐器一个一个进行训练来获取该乐器的特征,也可以将多种乐器的期望输出同时放在模型的输出来同时获取多种乐器各自的特征,因此经过训练的乐器分离模型具有固定的模型特征和参数。例如,可以将从音乐数据库“musdb18”中选定的音乐的混合音乐音频的声谱图输入乐器分离模型的输入层,将数据库中包括的该音乐的人声音轨的声谱图、钢琴音轨的声谱图、鼓音轨的声谱图、贝司音轨的声谱图放在乐器分离模型的输出层,则可同时训练该模型的人声特征模型参数、钢琴特征模型参数、鼓特征模型参数、贝司特征模型参数。
[0038]
将训练好的乐器分离模型用于处理新的音乐音频声谱图幅度输入,可以相应地得到各种乐器的乐器特征掩码,也就是该乐器的声谱图占原混合音乐音频声谱图的幅度的概率。训练后的模型应有望实现更多的实时处理能力和更好的性能。
[0039]
在对图2所建立的乐器分离模型进行训练之后,就可以将这个训练好的乐器分离模型加载到用户的智能设备上(例如用户的智能手机,或其他移动设备、音频播放设备等)来实现音乐声源的分离。
[0040]
回到图1所示流程图,在s104将选定音乐的混合音频声谱图输入乐器分离模型中可以提取出该乐器的特征掩码,乐器特征掩码可以在声谱图上的每个像素中标记该乐器所占的概率,相当于该乐器的声音与原混合音乐的幅度的比值,因此乐器特征掩码可以是0到1之间的实数,将某一种乐器音频从混合音频源中区别出来。然后在s106将该乐器特征掩码再施加到原混合音乐音频的声谱图以获得该乐器比其它乐器更突出的像素并拼接成该乐器的特征声谱图,将该乐器的声谱图进行快速傅立叶逆变换就能够分离出该乐器单独的声音信号,由此获得乐器独自的音频源。
[0041]
以上过程可以描述为:将一首选定的音乐x(t)的混合音频声谱图的幅度图像x
nb
(f)输入乐器分离模型中进行处理得到乐器特征掩码x
nbp
(f),乐器的种类取决于该次输入的乐器分离模型中当前所设置的乐器特征模型参数。例如,乐器分离模型中当前所设置的模型特征参数为训练好的钢琴特征模型参数,则所输入的混合音频声谱图经处理所得到的输出为钢琴特征掩码;然后更换模型特征参数为例如贝斯特征模型参数,再次输入混合音频的声谱图则得到输出为贝斯特征掩码,由此可依次更换不同的乐器特征掩码,每次输入这首音乐的混合音频声谱图则可依次获得各种乐器各自的乐器特征掩码。对于音乐音频中无法由乐器分离模型分离出的声音则可归入其它声音特征输出通道。
[0042]
此外,使用乐器分离模型处理的原始混合音频源可以是单声道音频源,也可以是双声道,甚至是多声道的立体声混合音频源。如图2所示的示例中,在乐器分离模型的输入层输入的两幅声谱图分别表示双声道混合音乐立体声音频的左声道音频的声谱图图像和右声道音频的声谱图图像。对于乐器分离模型的处理,一方面左右声道的音频可以分别处理,从而分别获得左声道乐器特征掩码和右声道乐器特征掩码。另一方面左右声道的音频也可以混合起来再提取乐器特征掩码。
[0043]
接下来,参考图1中流程图,在s106中将获得的乐器特征掩码x
nbp
(f)再施加到原始输入模型的音乐的音频混合声谱图,例如,先经过平滑处理以防止失真,并将乐器分离模型预测的乐器特征掩码与原始输入音乐的混合音频声谱图相乘,然后输出获得该乐器声音的声谱图。该处理可表示为:
[0044]ynb
=x
nb
(f)*(1-α(f)) x
nbp
(f)*α(f)
ꢀꢀꢀ
(5)
[0045]
其中平滑系数α(f)=sigmoid(乐器特征掩码)*(感知频率加权)。
[0046]
sigmoid函数的定义为其中参数之一乐器特征掩码为乐器分离模型的输出,另一参数感知频率加权由实验值确定。最后再通过使用快速傅立叶逆变换和重叠相加的方法将该乐器声谱图变换回时域,从而获得重建的该乐器声音的音频源,如下所示:
[0047][0048]
yb(t)=ifft(y
nbc
(f))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0049]yn
(t)=windowing(yb(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)
[0050]
y(t)=overlap_add(yn(t),50%)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0051]
其中ifft是快速傅立叶逆变换,overlap_add(*)是重叠相加函数。
[0052]
备选地,以上的乐器分离过程中包括的由混合音乐时域信号x(t)提取其声谱图的声谱图图像,以及将乐器分离模型处理输出的乐器特征掩码再次施加到原始输入的混合音乐声谱图获得乐器单独声音的声谱图,以及重建处理得到该乐器声音的音频源y(t)等也可以看作是该乐器分离模型以外新增的神经网络层,从而使上述所提供的乐器分离模型得到升级。升级后的乐器分离模型可以描述为包括基于2d卷积神经网络的乐器分离模型和上述新增层,如图3所示。因此这个升级后的乐器分离模型中包含的音乐信号处理特性,例如窗口形状、频率分辨率、时间缓冲和重叠百分比,均可以通过机器学习进行修改。在将升级后的乐器分离模型转换为实时可执行模型后,直接将选定的音乐输入升级的乐器分离模型则可输出从混合音乐的音频源中分别重组的各种乐器各自最大化的多个分离的乐器音频源。
[0053]
得到多个分离的乐器音频源之后,通过不同通道的信号分别将各个分离的乐器音频源馈送至多个扬声器,每个通道包括一种乐器声,然后同步播放各种乐器音频源可以为用户再现或重建沉浸式声场的聆听体验。
[0054]
例如在用户的智能设备上将要播放的一首音乐输入乐器分离模型重建出各个乐器单独的音频源之后,接下来可通过无线技术将多个扬声器连接到该智能设备,以分声道的方式同时播放各乐器的音频源,使得通过多个扬声器同时播放该乐曲的用户能够获得具有更佳深度效果的聆听体验。
[0055]
在一个示例中,对于经常与用户智能设备搭配使用的便携式蓝牙音箱来说,与通过例如经典蓝牙将一个主扬声器连接到用户的智能设备,再由主扬声器以单声道信号广播至其它多个从扬声器的单声道立体声音频流传输方式不同,本公开中采用例如低功耗蓝牙(ble)音频技术,可将多个扬声器(组)视为多声道系统,用户的智能设备能够以低延迟和可靠同步连接多扬声器,将经分离后的各个乐器声由多个通道信号传输到启用广播音频功能的扬声器组,然后不同的扬声器接收由智能设备通过多通道播送的广播音频信号,调制解调出不同的声道音源并分别同步再现各种乐器,以再现或还原出具有沉浸式聆听效果的声场。
[0056]
图4示出了依据本公开的一个或多个实施例的混合音频源乐器分离和再现的系统框图400。在本公开的示例中,混合音频源乐器分离和再现的系统位于用户的智能设备上,系统包括混合源转换模块402、乐器分离模块404、乐器提取模块406和乐器源重组模块408。系统400首先从例如智能设备的存储器(未示出)中获取混合音乐的音频源,混合音频源在混合源转换模块402中经过例如重叠和加窗、快速傅立叶变换等处理转换为混合音频源声谱图。混合音频源声谱图然后被送入在其中包括乐器分离模型的乐器分离模块404,通过乐器分离模型对混合音频源声谱图进行特征提取后依次获得混合音频源中各种乐器的乐器特征掩码,并将各种乐器特征掩码输出至乐器提取模块406。在乐器提取模块406中将乐器特征掩码再次施加到混合音频源声谱图上,其中可包括例如进行平滑处理后将乐器特征掩码与原混合音频源声谱图相乘,从而得到各种乐器源各自的声谱图。最后在乐器源重组模块408中对各种乐器各自的声谱图进行例如快速傅立叶逆变换、重叠和加窗等处理转换为各个乐器的音频源。在图4所示的示例中,在智能设备上经由乐器源重组模块408确定出的各种乐器的乐器音频源可通过ble连接支持将多种乐器相应的多个音频流调制到多个通道上,并以多通道信号的形式通过广播音频功能向多个扬声器(组)播送。可以理解的是,对于
乐器分离模块不能分离出的乐器源或声音,也可以调制到一个或多个通道上,并发送给相应的扬声器(组)播放。如图4所示,启用广播音频功能的多个扬声器(例如扬声器1、扬声器2、扬声器3、扬声器4、
……
,扬声器n)分别接收来自智能设备发送的广播音频信号(信号x1、信号x2、信号x3、信号x4、
……
、信号xn),并相应地解调出各种乐器音频流。
[0057]
由于ble技术采用低功耗大发射频率,可支持更宽的带宽传输实现更快的同步,并且采用数字调制技术或直接序列扩频,因此可实现多通道广播音频。此外,ble技术可支持大于100米的传输距离,扬声器能够在用户智能设备周围较大的范围内接收并同步再现音频源。参考图1所示方法流程图中s108,作为本公开的示例,可通过ble无线连接将上百个扬声器连接到用户的智能设备,智能设备通过多通道广播音频将重建出各种乐器各自的音频源播送给具有广播音频功能的各个扬声器。例如,可对混合录制的交响乐音乐分离出其种各种乐器的单独的音频源,采用足够多个的扬声器分别再现其所接收到并解调出的各种乐器的音频源,可以将用户的聆听体验放大到史诗般的水平并达到完美的声场震撼效果。
[0058]
在一些情况下,如图1中的步骤s110所示,为了再现或重建乐队现场表演的或者达到恢宏的声场效果,可以将分别播放不同乐器音频源的扬声器放置到相对于收听者的指定位置。图5示出了由多个扬声器按照例如交响乐团的布局来排列扬声器并再现交响乐的示例。在该示例中示出了包括由多个扬声器分别再现不同乐器演奏甚至不同声部的交响乐作品,其中所再现的音乐已经首先在用户的智能设备上经由乐器分离模型分离出不同乐器及其各声部并调制成多通路声音信号,并通过音频广播传送至多个扬声器(组),每一个或每一组扬声器接收音频广播信号解调出各种乐器的音频源信号并因此可分别重现各种乐器以及各个声部。例如,乐器分离模型中已知各种乐器分离的顺序固定不变,则可以将分离出的各乐器单独的音频源对应地传送到每个指定位置的扬声器。
[0059]
在这种情况下,如本公开前述内容提到的,当原混合音乐是分为例如左声道音频源和右声道音频源输入乐器分离模型的情况,乐器分离模型分离出后重建的各乐器的音频源分别被调制到广播音频信号的不同通道,此时每个通道也可以是例如但不限于单声道或左右双声道的。扬声器接收信号并解调出乐器的音频源信号,其中也可以例如在同一个音箱里区分出左右声道的音频源,或者例如来自同一个乐器的多个声道的音频源也可以分配给多个扬声器播放。
[0060]
此外,如图5所示,一种情况下,在例如交响乐团的编制中包括第一小提琴和第二小提琴,它们在混合音乐音频源被输入乐器分离模型中可能被分离为同一种乐器,但可以例如用两个或更多个扬声器来播放同一种乐器的音频源。另外一种情况是,对于例如弦乐部分例如中提琴和大提琴演奏的声音,以及由同一种乐器演奏和弦或者由多个同一种乐器演奏不同声部的情况,这些乐器或声部也可以分配给多个扬声器播放,这是因为乐器分离模型可以区分开频率成分的不同,虽然分离的效果可能不如对来自完全不同类型的乐器发出声音的分离效果好,但仍不影响馈送至一个或多个扬声器进行播放。
[0061]
通过以上的说明,本领域技术人员可以理解的是,以上实施方式可以借助于软件施加到硬件平台的方式来实现。因此,一种或多种计算机可读介质的任意组合可用于执行本公开中提供的方法。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如,但不限于,电子、磁性、光、电磁、红外或半导体系统、装置或设备,或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)
将例如包括以下内容:具有一根或多根电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、读取-只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、光纤、便携式光盘只读存储器(cd-rom)、光存储设备、磁存储设备或任何前述的适当组合。在本公开的上下文中,计算机可读存储介质可以是可以包括或存储由指令执行系统、装置或设备使用或与其结合使用的程序的任何有形介质。
[0062]
如在本公开中所使用的以单数形式引用并以单词“一”或“一个”修饰的元件或步骤应被理解为不排除具有复数个所述元件或步骤,除非特别说明了这种例外。此外,对本公开的“实施例”或“示例”的引用并不旨在被解释为排他性的,也包括所列举特征的其它实施例的存在。术语“第一”、“第二”、“第三”等仅用作标识,并不旨在对其对象强调个数要求或定位顺序。
[0063]
本公开提及用于环绕声音响系统的自动环绕配对和校准包括以下内容:
[0064]
第1项:在一个或多个实施例中,本公开提供的一种混合音频源乐器分离并再现的方法,包括但不限于以下步骤:
[0065]
基于混合音频源获得混合音频源声谱图,其中所述混合音频源包括至少一种乐器的声音;
[0066]
采用乐器分离模型依次获得所述混合音频源中所述至少一种乐器各自的乐器特征掩码;
[0067]
基于所述至少一种乐器各自的所述乐器特征掩码获得所述至少一种乐器各自的所述乐器声谱图;
[0068]
基于所述乐器声谱图确定所述至少一种乐器各自的乐器音频源;
[0069]
将所述至少一种乐器各自的所述乐器音频源分别馈送至至少一个扬声器,并由所述至少一个扬声器相应地再现所述至少一种乐器各自的所述乐器音频源。
[0070]
第2项:如第1项所述的方法,其中,所述乐器分离模型基于2d卷积神经网络,其包括多次2d卷积层以及多次2d卷积转置层,以提取所述至少一种乐器的乐器特征掩码。
[0071]
第3项:如第1项至第2项所述的方法,其中,所述乐器分离模型预先通过已知的包括混合音频及其中至少一种乐器相应的乐器分离音频组成的训练数据集进行预先训练。
[0072]
第4项:如第1项至第3项所述的方法,其中,所述混合音频源可以是包括至少一个声道的立体声音频源,所述乐器分离模型可以分别处理所述立体声音频源的所述至少一个声道中的每一个声道。
[0073]
第5项:如第1项至第4项所述的方法,其中,获得所述至少一种乐器各自的所述乐器声谱图包括将获得的所述至少一种乐器的乐器特征掩码分别与所述混合音频源声谱图相乘。
[0074]
第6项:如第1项至第5项所述的方法,其中,将所述至少一种乐器各自的所述乐器音频源相应地馈送至至少一个扬声器包括将所述至少一种乐器各自的乐器音频源分别调制成相应的至少一个广播音频信号,以多通道的形式广播至所述至少一个扬声器,并且所述至少一个扬声器相应地解调出所述至少一种乐器中一种乐器相应的乐器音频源。
[0075]
第7项:如第1项至第6项所述的方法,其中,所述至少一个广播音频信号分别包括所述至少一种乐器中相应的一种乐器的所述乐器音频源。
[0076]
第8项:如第1项至第7项所述的方法,其中,所述至少一个广播音频信号可以是单
声道音频信号,也可以是立体声音频信号。
[0077]
第9项:如第1项至第8项所述的方法,还包括将所述至少一个扬声器分别布置到指定位置并分别再现其解调出的所述至少一种乐器中的一种乐器相应的所述乐器音频源。
[0078]
第10项:如第1项至第9项所述的方法,其中,将所述至少一个扬声器分别布置到指定位置包括按照交响乐团位置排列布置所述至少一个扬声器的位置。
[0079]
第11项:在一个或多个实施例中,本公开提供的一种包括指令的非暂时性计算机可读介质,所述指令在由处理器执行时执行以下步骤,包括:
[0080]
基于混合音频源获得混合音频源声谱图,其中所述混合音频源包括至少一种乐器的声音;
[0081]
通过乐器分离模型依次获得所述混合音频源中所述至少一种乐器各自的乐器特征掩码;
[0082]
基于所述至少一种乐器各自的所述乐器特征掩码获得所述至少一种乐器各自的所述乐器声谱图;
[0083]
基于所述乐器声谱图确定所述至少一种乐器各自的乐器音频源;
[0084]
将所述至少一种乐器的所述乐器音频源分别馈送至至少一个扬声器再现。
[0085]
第12项:如第11项所述的非暂时性计算机可读介质,其中,所述乐器分离模型基于2d卷积神经网络,其包括多次2d卷积层以及多次2d卷积转置层,以提取所述至少一种乐器的乐器特征掩码。
[0086]
第13项:如第11项至第12项所述的非暂时性计算机可读介质,其中,所述乐器分离模型预先通过已知的包括混合音频及其中至少一种乐器相应的乐器分离音频组成的训练数据集进行预先训练。
[0087]
第14项:如第11项至第13项所述的非暂时性计算机可读介质,其中,所述混合音频源可以是包括至少一个声道的立体声音频源,所述乐器分离模型可以分别处理所述立体声音频源的所述至少一个声道中的每一个声道。
[0088]
第15项:如第11项至第14项所述的非暂时性计算机可读介质,其中,获得所述至少一种乐器各自的所述乐器声谱图包括将获得的所述至少一种乐器的乐器特征掩码分别与所述混合音频源声谱图相乘。
[0089]
第16项:如第11项至第15项所述的非暂时性计算机可读介质,其中,将所述至少一种乐器各自的所述乐器音频源相应地馈送至至少一个扬声器包括将所述至少一种乐器各自的乐器音频源分别调制成相应的至少一个广播音频信号,以多通道的形式广播至所述至少一个扬声器。
[0090]
第17项:如第11项至第16项所述的非暂时性计算机可读介质,其中,所述至少一个广播音频信号分别包括所述至少一中乐器中的一种乐器相应的所述乐器音频源。
[0091]
第18项:如第11项至第17项所述的非暂时性计算机可读介质,其中,所述至少一个广播音频信号可以是单声道音频信号,也可以是立体声音频信号。
[0092]
第19项:在一个或多个实施例中,本公开提供的一种混合音频源乐器分离并再现的系统,包括:
[0093]
声谱图转换模块,配置成基于混合音频源获得混合音频源声谱图,其中所述混合音频源包括至少一种乐器的声音;
[0094]
乐器分离模块,其包括乐器分离模型,所述乐器分离模型配置成依次获得所述混合音频源中所述至少一种乐器各自的乐器特征掩码;
[0095]
乐器提取模块,配置成基于所述至少一种乐器各自的所述乐器特征掩码获得所述至少一种乐器各自的所述乐器声谱图;和
[0096]
乐器音频源重组模块,配置成基于所述乐器声谱图确定所述至少一种乐器各自的乐器音频源,所述至少一种乐器各自的所述乐器音频源分别被馈送至至少一个扬声器,并由所述至少一个扬声器相应地再现所述至少一种乐器各自的所述乐器音频源。
[0097]
第20项:如第19项所述的系统,其中,所述乐器分离模型基于2d卷积神经网络,其包括多次2d卷积层以及多次2d卷积转置层,以提取所述至少一种乐器的乐器特征掩码。
[0098]
第21项:如第19项至第20项所述的系统,其中,所述乐器分离模型预先通过已知的包括混合音频及其中至少一种乐器相应的乐器分离音频组成的训练数据集进行预先训练。
[0099]
第22项:如第19项至第21项所述的系统,其中,所述混合音频源可以是包括至少一个声道的立体声音频源,所述乐器分离模型可以分别处理所述立体声音频源的所述至少一个声道中的每一个声道。
[0100]
第23项:如第19项至第22项所述的系统,其中,获得所述至少一种乐器各自的所述乐器声谱图包括将获得的所述至少一种乐器的乐器特征掩码分别与所述混合音频源声谱图相乘。
[0101]
第24项:如第19项至第23项所述的系统,其中,将所述至少一种乐器各自的所述乐器音频源相应地馈送至至少一个扬声器包括将所述至少一种乐器各自的乐器音频源分别调制成相应的至少一个广播音频信号,以多通道的形式广播至所述至少一个扬声器,并且所述至少一个扬声器相应地解调出所述至少一种乐器中相应的乐器音频源。
[0102]
第25项:如第19项至第24项所述的系统,其中,所述至少一个广播音频信号分别包括所述至少一种乐器中对应的一种乐器的所述乐器音频源。
[0103]
第26项:如第19项至第25项所述的系统,其中,所述至少一个广播音频信号可以是单声道音频信号,也可以是立体声音频信号。
[0104]
第27项:如第19项至第26项所述的系统,还包括将所述至少一个扬声器分别布置到指定位置并分别再现其解调出的所述至少一种乐器中所述一种乐器相应的所述乐器音频源。
[0105]
第28项:如第19项至第27项所述的系统,将所述至少一个扬声器分别布置到指定位置包括按照交响乐团位置排列布置所述至少一个扬声器的位置。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献