用户音乐演奏时预录制音乐伴奏的经改进同步的制作方法

2022-11-14 12:23:43 来源：中国专利 TAG：

用户音乐演奏时预录制音乐伴奏的经改进同步
1.本公开涉及提供人类音乐家与提供人类音乐家的伴奏的预录制音乐数据之间的实时音乐同步的数据处理。
2.目标是掌握表演者的音乐意图，并且将其映射到预录制伴奏的音乐意图，以实现可接受的音乐行为。
3.已知一些系统能处理音乐家与伴奏之间的实时音乐同步的问题。
4.文件d1：克里斯托弗
·
拉斐尔(christopher raphael)(2010)：“音乐加一和机器学习(music plus one and machine learning)”，在第27届机器学习国际会议(international conference on machine learning，icml)的会议记录中，海法(haifa)，以色列，21-28，
5.涉及学习系统，其中音乐家的意图是从根据同一表演者的实际表演训练的模型预测。尽管存在训练的数据可用性的问题，但同步在此处取决于高级音乐参数(例如音乐学数据)而非事件的概率参数。此外，统计或概率预测破坏了演奏会之间(以及同一表演者)的表演的极端可变性。此外，此方法依赖于使音乐家事件与计算机动作同步。计算机动作并不对高级音乐参数进行建模，并且因此是不切实际的。
6.文件d2：罗杰
·b·
丹能伯格(roger b dannenberg)(1997)：“复合事件和信号的抽象时间扭曲(abstract time warping of compound events and signals)”，在计算机音乐杂志(computer music journal)中，61-70，
7.采用音乐家速度是连续的且保持在两个事件之间的基本假设，从而产生用于同步的音乐位置的分段线性预测。在任何现实世界设置中，速度不连续性是导致此类近似失败的事实。此外，此方法仅考虑了音乐家时间图(time-map)且破坏了预录制伴奏时间图(假设其固定)，并且因此遗失了重要高级音乐知识。
8.文件d3：阿希亚
·
康特(arshia cont)、何塞
·
埃切维斯特(jose echeveste)、让
·
路易斯
·
贾维托(jean-louis giavitto)和弗洛伦特
·
雅克马尔(florent jacquemard)(2012)：“正确自动伴奏，不管antescofo中的机器收听或人为错误(correct automatic accompaniment despite machine listening or human errors in antescofo)”，在国际计算机音乐会议(international computer music conference，icmc)的会议记录中，卢布尔雅那(ljubljana)(斯洛文尼亚(slovenia))，
9.将预期概念与大脑的认知模型结合以估计音乐家时间图。为了并入高级音乐知识以用于伴奏同步，其引入两种类型的同步：紧密同步(tight synchronization)用于确保某些关键位置紧密地同步。
10.虽然适当，但其技术方案在所得时间图中引入了不连续性。在使连续音频或视频流同步时，应避免此类不连续性。平滑同步(smooth synchronization)尝试通过假设所得伴奏速度等于音乐家的速度且使用所述值预测其位置来产生所得连续时间图。
11.尽管存在此适当速度检测，但实时速度容易出错且可能导致不可预测的不连续性。此外，两种策略在同一演奏会中的共存会在所得时间图中造成进一步不连续性。
12.文件d4：梁大文(dawen liang)、夏广宇(guangyu xia)和罗杰
·b·
丹能伯格
(2011)：“媒体协调和同步的框架(a framework for coordination and synchronization of media)”，在音乐表达新界面国际会议(international conference on new interfaces for musical expression)的会议记录中(p.167-172)，
13.提议在例如以上紧密(tight)的偶发性同步与例如松散(loose)的仅速度同步之间进行折衷，以使时间图动态地同步，以实现将值收敛到参考伴奏时间图的目标。使用横跨音乐持续时间w到未来的恒定窗口，以迫使伴奏补偿时间t处的偏差，使得其在t w处收敛。这引起在音乐位置输出上呈分段线性的连续曲线。
14.然而，此策略具有两个缺点：
[0015]-尽管位置连续，但仍存在速度不连续性。此类不连续性导致对音乐家的错误反馈，因为在音乐家速度不正确时，伴奏速度可能会改变，
[0016]-恒定开窗口与中间更新不一致。一个实例是在时间t处存在初始滞后，所述初始滞后将不会更改所预测音乐家时间图，从而导致持续滞后。
[0017]
本公开旨在改进这种情形。
[0018]
为此目的，提议用于使预录制音乐伴奏与用户音乐演奏同步的方法，
[0019]
所述用户音乐演奏由至少一个麦克风捕获，所述至少一个麦克风递送输入声学信号以馈入处理单元，
[0020]
所述处理单元包括用于存储预录制音乐伴奏的数据的存储器，且基于预录制音乐伴奏数据而提供输出声学信号以馈入至少一个扬声器，所述至少一个扬声器为所述用户播放音乐伴奏，
[0021]
其中所述处理单元：
[0022]-分析输入声学信号以检测输入声学信号中的音乐事件且确定所述用户音乐演奏中的速度，
[0023]-将所检测音乐事件与预录制音乐伴奏数据进行比较以确定所检测音乐事件的时序与所播放音乐伴奏的音乐事件的时序之间的至少一个滞后diff，所述滞后diff将被补偿，
[0024]-基于以下而调适输出声学信号的时序：
[0025]
*所述滞后diff，以及
[0026]
*由下式给出的同步函数f：
[0027][0028]
其中x是时间变量，$tempo是用户音乐演奏中的确定的速度，并且w是所述滞后diff的补偿的持续时间。
[0029]
因此，“时间图”的概念可用于相较于预录制伴奏对从人类音乐家传入的音乐意图进行建模。时间图是将物理时间t映射到音乐时间p(以节拍为单位)的函数。
[0030]
在非实时(或离线)设置中，并且在给定来自装置的速度估计正确的强假设的情况下，时间图位置p是从时间0到t的节拍乘以此速度的积。
[0031]
然而，在音乐家不遵循乐谱中设置的速度时，需要在由补偿持续时间w定义的不久的未来调适伴奏的当前播放中的所估计速度，并且同步函数f的使用确保在所述补偿持续时间之后收敛达到当前用户速度。
[0032]
在实施例中，音乐伴奏数据定义乐谱，并且其中变量x是对应于所述乐谱的可变节拍数的持续时间的时间值。
[0033]
在实施例中，所述补偿持续时间w具有由音乐伴奏数据定义的乐谱上的至少一个节拍的持续时间。
[0034]
在实施例中，选择所述补偿持续时间w。
[0035]
优选地，其可根据用户选择设置成一个节拍持续时间，但可能更多，所述用户选择可例如通过所述处理单元的输入来输入。
[0036]
在伴奏数据定义乐谱的实施例中，所述乐谱上音乐家演奏的位置pos由经定义为pos(x)＝$tempo*x的线性关系预告，其中x是在所述乐谱上计数的音乐节拍数，并且如果检测到滞后diff，则使用同步函数f(x)，以定义对应于所述滞后时间diff的节拍数x
diff
，使得：
[0037]
f(x
diff
)-pos(x
diff
)＝diff。
[0038]
在此实施例中，通过应用变换函数a(t)基于所述同步函数f(x)而确定预测直到下一节拍x
diff
w为止，所述变换函数由下式给出：
[0039][0040]
其中p是在当前时间t0处在乐谱上音乐家演奏的当前位置。
[0041]
在伴奏数据定义乐谱的实施例中，处理单元进一步估计在未来同步时间t
sync
处在所述乐谱上音乐家演奏的未来位置，并且确定音乐伴奏的速度(在下文呈现的图3的编号e2)以应用于输出声学信号直到所述未来同步时间t
sync
为止。
[0042]
在此实施例中，并且在使用变换函数a(t)时，应用于输出声学信号的音乐伴奏的速度确定为当前时间t0处的a(t)的导数：
[0043]
速度＝a'(t0)＝f'(x
diff
)
[0044]
(其在分析上是已知的)。
[0045]
在实施例中，所述输入声学信号中的音乐事件的确定包括：
[0046]-从所述输入声学信号提取声学特征(例如声学压力，或随时间推移的所辨识谐波频率)，
[0047]-使用预录制音乐伴奏的所存储数据来确定至少在伴奏中的音乐事件，以及
[0048]-基于从所述所存储数据确定的音乐事件，将音乐事件(例如具体音符的起音时间)分配到输入声学特征。
[0049]
实际上，音乐事件的分配可在乐谱上进行，并且例如在独奏部分上进行，并且因此由此确定，而不是“伴奏”自身。这些可呈符号音乐符号格式，例如通常midi。因此，措辞“伴奏乐谱的所存储数据”将被广泛地解释，并且可涵盖此类数据进一步包括不是伴奏自身的独奏轨迹的乐谱时的情形。
[0050]
乐谱事件的关联更一般地在预录制伴奏(时间图)中执行。
[0051]
本公开还旨在一种用于使预录制音乐伴奏与用户音乐演奏同步的装置，其包括处理单元以执行上文所呈现的方法。
[0052]
其还旨在一种计算机程序，其包括指令，所述指令在处理单元执行程序时致使处理单元执行上文所呈现的方法。
[0053]
其还旨在一种计算机可读介质，其包括指令，所述指令在由处理单元执行时致使
计算机执行方法。
[0054]
因此，为了实现音乐家与预录制伴奏之间的实时同步，本公开具体地说解决了现有技术中的以下缺点：
[0055]-音乐家时间图不是从装置传入，并且考虑高级音乐知识，例如预录制伴奏中的固有时间图来预测；
[0056]-在预测用于伴奏输出的时间图时，速度中的不连续性(且不一定是位置)在音乐上(由音乐家)和在技术上(对于例如音频或视频流的连续媒体)都是不可接受的。仅此一项就可取消所有基于分段线性预测的现有技术方法的资格；
[0057]-用于驱动预录制伴奏的所得实时时间图取决于音乐家时间图(掌握意图)和预录制伴奏时间图(高级音乐知识)两者。
[0058]
实施例的更多细节和优点在下文的详细说明中给出且在附图中呈现，在所述附图中：
[0059]-图1示出了执行前述方法的装置的实施例的实例，
[0060]-图2是包括根据实施例的前述方法的步骤的算法的实例，
[0061]-图3a和3b示出了使用同步函数f(x)和对应音乐家时间图的同步时间图的实例。
[0062]
本公开提议解决预录制伴奏与音乐家的实时同步问题。为此目的，使用装置dis(如下文中所描述的图1的实例中所展示)。
[0063]
在实施例中，装置dis包括至少：
[0064]-输入接口inp，
[0065]-处理单元pu，其包含存储性存储器mem和与存储器mem配合的处理器proc，以及
[0066]-输出接口out。
[0067]
存储器mem可尤其存储根据本公开的计算机程序的指令数据。
[0068]
此外，音乐伴奏数据存储在处理单元中(例如存储在存储器mem中)。因此，音乐伴奏数据由处理器proc读取，以驱动输出接口out以基于预录制音乐伴奏数据向至少一个扬声器spk(隔板或耳机)馈送输出声学信号。
[0069]
装置dis进一步包括机器收听模块mlm，其可包含独立硬件(如图1中以虚线展示)，或替代地，可由与处理单元pu(即同一处理器和可能同一存储器单元)共享的硬件制成。
[0070]
用户us可听到由扬声器spk播放的伴奏音乐，并且可根据伴奏音乐演奏音乐器材，因此发出由连接到输入接口inp的麦克风mic捕获的声音。麦克风mic可并入在用户器材中(例如在电吉他中)或分离(用于语音或声学器材记录)。所捕获声音数据接着由机器收听模块mlm且更一般来说由处理单元pu处理。
[0071]
更确切地说，处理所捕获声音数据，以识别由用户演奏的音乐相较于伴奏音乐的延迟或提前，并且接着使伴奏音乐的播放速度适应用户演奏。举例来说，可相应地调适伴奏音乐的速度。由模块mlm检测到的在伴奏音乐与由用户演奏的音乐之间的时间差在下文中被称作当前时间t处的“滞后”且被标注为diff。
[0072]
更确切地说，可由机器收听模块mlm实时检测音乐家事件，所述机器收听模块接着输出音乐事件的连音和关于根据乐谱实时检测此类事件的速度数据。此实施例可类似于例如康特(2010)中所公开的实施例。在机器收听模块mlm具有与处理单元pu分离的硬件的实施例中，模块mlm因此是可交换的，并且可因此是通过收听音乐家演奏来在给定乐谱上实时
提供“事件”和任选地在下文中的速度的任何模块。
[0073]
如上文所指示，机器收听模块mlm优选地“实时”操作，理想地具有小于15毫秒的滞后，其对应于大多数当前常见收听算法中的感知阈值(对事件作出反应的能力)。
[0074]
一方面由于预录制伴奏音乐数据，并且另一方面由于音乐家演奏中的速度辨识，处理单元pu执行动态同步。在每一实时例子t处，所述处理单元(pu)将其自身在先前时间t-ε处的先前预测和来自机器收听的传入事件和速度作为输入。所得输出是含有时间t处的预测的伴奏时间图。
[0075]
由于时间t处的预测输出，基于动态计算的滞后相关窗口(下文标注为w)，同步是动态和自适应的。引入动态同步策略，并且在数学上保证其值在稍后时间t_sync处收敛。同步预期水平线t_sync自身取决于时间t处的滞后时间，所述滞后时间与先前例子和来自环境的反馈有关。
[0076]
自适应同步策略的结果将是一致的(相同的设置产生相同的同步预测)。自适应同步策略还应适应交互式情境。
[0077]
装置dis采用音乐家事件和速度作为现场输入，并且输出对预录制伴奏的预测，在启动之前预录制伴奏和乐谱两者可供使用。装置dis的作用是采用音乐家时间图(作为现场输入的结果)且动态地构造对应同步时间图。
[0078]
代替依赖于恒定窗口长度(如在现有技术中)，参数w在此处解释为刚度参数。通常，w可对应于乐谱的固定节拍数(例如一个节拍，对应于4/4小节的四分音符)。其时间当前值tv可以伴奏的真实速度(tv＝w*真实速度)给出，然而，这不一定对应于当前音乐家速度。预测窗口长度w是动态确定的(如下文参考图3详述)，作为时间t处的当前滞后diff的函数，并且确保收敛，直到稍后同步时间t_sync为止。
[0079]
在实施例中，引入同步函数f，其作用是帮助构造同步时间图且补偿理想设置中的滞后diff，其中假设速度在短时间帧中是恒定值。给出时间t处的音乐家位置p(在乐谱上)和音乐家速度，所述音乐家速度在下文中被标注为“$tempo”，f是将时间图点(0,1)接合到(w,w*$tempo)且检查其导数等于参数$tempo的二次函数。在乐谱上的音乐家实时音乐位置与同一乐谱上的伴奏轨迹的实时音乐位置(两者以节拍为单位)之间的时间t处的滞后标示为diff。因此，参数diff准确反映了实时检测到的音乐家事件的乐谱上的以节拍为单位的位置与待同步的伴奏音乐的乐谱上的位置(以节拍为单位)之间的差。
[0080]
在此处展示同步函数f可表达如下：
[0081][0082]
并且如果diff＝0，则f(x)简单地变成f(x)＝$tempo*x
[0083]
其中$tempo是由模块mlm提供的真实速度值，w是最终对应于补偿滞后diff直到音乐家演奏时音乐伴奏的下一次调整所花费的时间的预测窗口。
[0084]
此外展示了，对于在时间t处检测到的任何事件，并且伴奏滞后diff节拍提前，存在等式f(x)-$tempo*x＝diff的单个解x
diff
。此唯一解定义了其上计算预测的自适应情境且将伴奏图的部分从x
diff
重新定义为：
[0085]
[0086]
下文给出自适应函数a(t)的详细解释。
[0087]
通过构造，同步伴奏时间图在时间t_sync＝t w
–
x
diff
处的位置和速度上收敛到音乐家时间图。此数学构造确保速度的连续性，直到同步时间t_sync为止。
[0088]
图3展示用于在时间t处更新伴奏时间图的自适应动态同步，其中检测到事件且伴奏的初始滞后是diff节拍提前(图3a)。根据t的伴奏图经定义为函数f的经转换部分。在图(3a)中描绘由f(x)构造的同步时间图，并且其转换成图(3b)上的音乐家时间图。假设音乐家速度在所述间隔中保持恒定，位置和速度在时间t_sync处收敛。在系统与人类音乐家的每一交互处持续地重新评估此时间图。可注意到直到时间t_sync的速度的连续性。
[0089]
可如下给出图3的简单解释。根据先前预测，音乐家演奏应具有的预告位置pos(以节拍x计数)由诸如pos(x)＝$tempo*x的线性关系确定。这对应于图3a的倾斜虚线。然而，在音乐家演奏的位置p与预告位置pos之间检测到滞后diff。按上文所定义计算同步函数f(x)，并且计算x
diff
，使得f(x
diff
)-pos(x
diff
)＝diff。接着可基于f(x)确定预测，直到下一节拍x
diff
w。这对应于图3a的虚线矩形。图3a的此“矩形”实际上导入图3b的音乐家时间图中，并且通过应用变换函数a(t)来进行转换，所述变换函数由下式给出：
[0090][0091]
其中p是音乐家演奏在当前时间t0处在乐谱上的当前位置。接着可计算a(t)以给出音乐家演奏应在未来时间t
sync
中具有的正确位置。在至少此同步时间t
sync
之前，调适伴奏的速度。其对应于新斜率e2(图3b的倾斜虚线)，以与先前斜率e1进行比较。经校正速度ctempo可因此给出为当前时间t0处的a(t)的导数或：
[0092]
ctempo＝a'(t0)＝f'(x
diff
)
[0093]
其在分析上是已知的。
[0094]
现参考图2，步骤s1开始接收与音乐家演奏有关的输入信号。在步骤s2中，从输入信号提取声学特征，以识别音乐家演奏中与预录制音乐伴奏数据中定义的乐谱中的事件有关的音乐事件。在步骤s3中，将最新检测到的事件的时序与乐谱中的对应一者的时序进行比较，并且确定对应于时序差的时间滞后diff。
[0095]
基于所述时间滞后和所选择持续时间w(通常乐谱中所选择节拍数的持续时间)，在步骤s4中，可确定同步函数f(x)。接着，在步骤s5中，x
diff
可为由f(x
diff
)-$tempo*x
diff
＝diff给出的唯一解。
[0096]
x
diff
的确定接着使得有可能使用在步骤s6中确定的变换函数a(t)，以从同步图移位到音乐家时间图，如上文参考图3a和图3b所解释。在音乐家时间图中，在步骤s7中，可校正基于预录制伴奏数据演奏的输出信号的速度(从图3b的斜率el到斜率e2)，以将输出信号的乐谱上的位置平滑地调整到未来下一同步时间t
sync
处的输入信号的位置，如图3b上所展示。在步骤s8中的同步时间t
sync
(来自测试s8的箭头y)之后，可通过从输入信号提取新特征来再次实施过程。
[0097]
定性地，此实施例有助于达到以下优点：
[0098]
·
其解决了现有技术中的一致性问题。其自动地适应初始滞后且基于情境而调适其水平线。数学形式与解是双射的。这意谓相同的音乐家时间图导致相同的同步轨迹，而在传统恒定窗口中，此值将基于情境和参数而不同。
[0099]
·
方法确保时间t_sync处的速度连续性，其中现有技术展现所有可用方法中的不
连续性。
[0100]
·
自适应策略在上文描述为紧密和松散的两个极值之间提供折衷，并且在单个框架内。紧密策略对应于刚度参数w的低值，而松散策略对应于w的较高值。
[0101]
·
策略在计算上是高效的：只要预测时间图不改变，伴奏同步仅使用伴奏时间图来计算一次。现有技术要求在交互的每一个阶段处进行计算和预测，而不管如何改变。
[0102]
此外，高级音乐知识可集成到呈时间图形式的同步机构中。为此目的，预测延伸到时间图上的非线性曲线。此延伸允许形式用于集成音乐表现力，例如渐速音(accelerandi)和延音(fermata)(即，具有自适应速度)和表演者时序的其它常见表现音乐规范。此添加还实现从现有数据自动学习此类参数的可能性。
[0103]
·
其使得能够使用具有收敛证明的数学形式将高级音乐知识(如果存在)添加到现有框架中，从而克服通常现有技术中的手工功能方法。
[0104]
·
其将导致分段线性预测的通常现有技术中的“恒定速度”近似延伸到更真实非线性速度预测。
[0105]
·
其实现自动地学习来自音乐家或预录制伴奏的预测时间图以充分利用表现力的可能性。
[0106]
通常由硬件实施方案和网络通信强加额外时延。在交互式设置中补偿此时延可不简化为读取头的简单转化(如在空中音频/视频流同步中所见)。此类时延的值可从100毫秒变化到1秒，这远远超出人耳的可接受心理声学极限。同步策略将此值任选地作为输入，并且基于交互式情境而预期所有输出预测。因此且对于相对较小的时延值(在对应于大多数蓝牙和航美传媒(airmedia)流格式的300ms的中间范围中)，用户不必在表演之前调整滞后。在此处以“音乐时间”而非“物理时间”表达的一般方法允许对此类参数的自动调整。
[0107]
更一般来说，本公开不限于上文作为实施例的实例呈现的详细特征；其涵盖另外实施例。
[0108]
通常，将广泛地解释与在“扬声器”上“播放伴奏”有关的措辞和“预录制音乐伴奏”的概念。实际上，方法适用于包含例如音频和视频的任何“连续”媒体。实际上，视频音频内容还可使用与上文所呈现的方法相同的方法来同步。通常，前述“扬声器”可由自动视频投影替换，并且视频帧可因此以如上文所呈现简单地基于用于同步的预测的位置输出而进行内插。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种用于通话语音的噪声实时消除的方法与流程

用户音乐演奏时预录制音乐伴奏的经改进同步的制作方法

相关文献

最热文献