一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音信号合成方法、生成模型的训练方法、音信号合成系统及程序与流程

2021-09-18 01:48:00 来源:中国专利 TAG:音源 音信 合成 技术


1.本发明涉及将音信号进行合成的音源技术。


背景技术:

2.提出有专利文献1所示的nsynth、或者非专利文献1所示的npss(neural parametric singing synthesizer)等使用神经网络(下面,称为“nn”)而生成与条件输入相对应的声音波形的音源(下面,称为“dnn(deep neural network)音源”)。nsynth与嵌入(embedding/嵌入向量)相应地,针对每个采样周期而生成音信号的样本。npss的timbre模型与音调及定时信息相应地,针对每个帧而生成音信号的频谱。
3.专利文献1:美国专利第10068557号说明书
4.非专利文献1:merlijn blaauw,jordi bonada,、“a neural parametric singing synthesizer modeling timbre and expression from natural songs”,appl.sci.2017,7,1313


技术实现要素:

5.在专利文献1的nsynth或者非专利文献1的npss等dnn音源中,通过对期望的1个音阶进行指定的音高数据,对所要合成的音信号的音高进行控制。没有考虑关于从音调包络或者颤音(vibrato)等对音符等进行指定的音阶起的音高的动态偏移进行控制
6.在dnn音源的训练阶段,将音高数据作为输入,对推定表示音信号或者波形谱的输出数据的nn进行训练。dnn音源如果通过带有颤音的音信号进行训练,则生成带有颤音的音信号,如果通过带有弯音(pitch bend)的音信号进行训练,则生成带有弯音的音信号。但是,无法将如颤音或者弯音那样的动态地变化的音高的偏移(弯音量)通过时间变化的数值进行控制。
7.本发明的目的在于,通过时间变化的数值对所要合成的音信号的动态的音调变化进行控制。
8.本发明的一个方式所涉及的音信号合成方法是由计算机实现的,生成表示应该合成的第1音信号的音高的第1音高数据,使用对表示第2音信号的音高的第2音高数据和所述第2音信号之间的关系进行了学习的生成模型,对表示与所述第1音高数据相对应的所述第1音信号的输出数据进行推定,在该音信号合成方法中,所述第1音高数据包含与不同的音名相对应的多个音名数据,在所述第1音高数据的生成时,将所述多个音名数据之中的与所述第1音信号的音高相对应的音名数据设定为与该音名数据相对应的音名的基准音高和该第1音信号的音高之间的差异所对应的热值。
9.本发明的一个方式所涉及的训练方法是由计算机实现的生成模型的训练方法,准备表示应该合成的音信号的音高的音高数据,以针对所述音高数据的输入而将表示所述音信号的输出数据输出的方式对生成模型进行训练,在该训练方法中,所述音高数据包含与
不同的音名相对应的多个音名数据,在所述音高数据的准备时,将所述多个音名数据之中的与所述音信号的音高相对应的音名数据,设定为与该音名数据相对应的音名的基准音高和该音信号的音高之间的差异所对应的热值。
10.本发明的一个方式所涉及的音信号合成系统具有1个以上的处理器和1个以上的存储器,在该音信号合成系统中,所述1个以上的存储器对生成模型进行存储,该生成模型对表示第2音信号的音高的第2音高数据和所述第2音信号之间的关系进行了学习,所述1个以上的处理器生成表示应该合成的第1音信号的音高的第1音高数据,使用所述生成模型,对表示与所述第1音高数据相对应的所述第1音信号的输出数据进行推定,所述第1音高数据包含与不同的音名相对应的多个音名数据,所述1个以上的处理器在所述第1音高数据的生成时,将所述多个音名数据之中的与所述第1音信号的音高相对应的音名数据,设定为与该音名数据相对应的音名的基准音高和该第1音信号的音高之间的差异所对应的热值。
11.本发明的一个方式所涉及的程序使计算机作为处理部及生成部起作用,该处理部生成表示应该合成的第1音信号的音高的第1音高数据,该生成部使用对表示第2音信号的音高的第2音高数据和所述第2音信号之间的关系进行了学习的生成模型,对表示与所述第1音高数据相对应的所述第1音信号的输出数据进行推定,在该程序中,所述第1音高数据包含与不同的音名相对应的多个音名数据,在所述第1音高数据的生成时,将所述多个音名数据之中的与所述第1音信号的音高相对应的音名数据,设定为与该音名数据相对应的音名的基准音高和该第1音信号的音高之间的差异所对应的热值。
附图说明
12.图1是表示音信号合成系统的硬件结构的框图。
13.图2是表示音信号合成系统的功能结构的框图。
14.图3是音高数据的说明图。
15.图4是通过训练部和生成部进行的处理的说明图。
16.图5是按照1热度记法的音高数据的说明图。
17.图6是准备处理的流程图。
18.图7是音生成处理的流程图。
19.图8是按照2热度记法的音高数据的说明图。
20.图9是按照4热度记法的音高数据的说明图。
21.图10是表示各音名和音信号的音高的接近度的变形例的图。
具体实施方式
22.a:第1实施方式
23.图1是例示本发明的音信号合成系统100的结构的框图。音信号合成系统100是通过具有控制装置11、存储装置12、显示装置13、输入装置14和放音装置15的计算机系统实现的。音信号合成系统100例如为移动电话、智能手机或者个人计算机等信息终端。音信号合成系统100除了由单体的装置实现以外,也由相互地分体构成的多个装置(例如服务器-客户端系统)实现。
24.控制装置11是对构成音信号合成系统100的各要素进行控制的单个或者多个处理
器。具体地说,例如通过cpu(central processing unit)、spu(sound processing unit)、dsp(digital signal processor)、fpga(field programmable gate array)或者asic(application specific integrated circuit)等1种以上的处理器而构成控制装置11。控制装置11生成表示合成音的波形的时间区域的音信号v。
25.存储装置12是对由控制装置11执行的程序和控制装置11所使用的各种数据进行存储的单个或者多个存储器。存储装置12例如由磁记录介质或者半导体记录介质等公知的记录介质,或者多种记录介质的组合而构成。此外,也可以准备与音信号合成系统100分体的存储装置12(例如云储存器),控制装置11经由移动体通信网或者互联网等通信网而执行相对于存储装置12的写入及读出。即,存储装置12可以从音信号合成系统100被省略。
26.显示装置13对由控制装置11执行的程序的运算结果进行显示。显示装置13例如为显示器。显示装置13可以从音信号合成系统100被省略。
27.输入装置14接受用户的输入。输入装置14例如为触摸面板。输入装置14可以从音信号合成系统100被省略。
28.放音装置15对由控制装置11生成的音信号v所表示的声音进行播放。放音装置15例如为扬声器或者耳机。此外,关于将由控制装置11生成的音信号v从数字变换为模拟的d/a变换器和对音信号v进行放大的放大器,为了方便起见而省略了图示。另外,在图1中,例示出将放音装置15搭载于音信号合成系统100的结构,但也可以将与音信号合成系统100分体的放音装置15通过有线或者无线而与音信号合成系统100连接。
29.图2是表示音信号合成系统100的功能结构的框图。控制装置11通过执行在存储装置12中存储的程序,从而实现音生成功能(处理部121、生成部122及合成部123),即,使用生成模型而生成表示歌手的歌唱音或者乐器的演奏音等声音波形的时间区域的音信号v。另外,控制装置11通过执行在存储装置12中存储的程序,从而实现准备功能(解析部111、时间匹配部112、处理部113及训练部114),即,进行在音信号v的生成中使用的生成模型的准备。此外,也可以通过多个装置的集合(即系统)而实现控制装置11的功能,也可以将控制装置11的功能的一部分或者全部由专用的电子电路(例如信号处理电路)实现。
30.首先,对音高数据x1、与音高数据x1相应地生成输出数据的生成模型、以及在生成模型的训练中使用的参照信号r进行说明。
31.音高数据x1是表示音信号(参照信号r或者音信号v)的音高(下面,称为“目标音高”)p的数据。图3是音高数据x1的例子。音高数据x1具有与不同的音名(
…“
g#3”、“a3”、“a#3”、“b3”、“c4”、“c#4”、“d4
”…
)相对应的多个(m个)音名数据(m为2以上的自然数)。此外,即使是表示音名的记号(c、d、e、

)共通的音名,相差八度的音名也作为不同的音名进行区分。
32.构成音高数据x1的m个音名数据之中的与目标音高p相对应的1个音名数据(下面,称为“有效音名数据”),设定为与该有效音名数据的音名所对应的规定的音高(下面,称为“基准音高”)q和目标音高p之间的音高差(偏差)相对应的偏差值。偏差值是热值(hot value)的一个例子。与1个音名相对应的基准音高q是与该音名相对应的标准的音高(音调)。另一方面,构成音高数据x1的m个音名数据之中的除了有效音名数据以外的(m-1)个音名数据,设定为表示与目标音高p无关的常数值(例如0)。表示与目标音高p无关的常数值是冷值的一个例子。如根据以上的说明所理解那样,音高数据x1对与音信号(参照信号r或
者音信号v)的目标音高p相对应的音名和目标音高p相对于该音名的基准音高q的偏差值这两者进行指定。
33.生成模型是与包含音高数据x1的控制数据x相应地,用于生成音信号v的波形谱(例如,梅尔谱图或者基本频率等的特征量)的时间序列的统计模型。控制数据x是对应该合成的音信号v的条件进行指定的数据。生成模型的生成特性由在存储装置12中存储的多个变量(系数及偏离率等)规定。统计模型是对波形谱进行推定的神经网络。其神经网络例如可以是基于如wavenet(tm)这样的音信号v的过去的多个样本,对当前的样本的概率密度分布进行推定的回归类型。另外,其算法也是任意的,例如可以是cnn(convolutional neural network)类型,也可以是rnn(recurrent neural network)类型,也可以是其组合。并且,可以是具有lstm(long short

term memory)或者attention等附加要素的类型。生成模型的多个变量通过使用后面记述的准备功能所涉及的训练数据的训练而建立。建立了多个变量的生成模型在后面记述的音生成功能中用于音信号v的生成。
34.存储装置12为了生成模型的训练,记录有多个表示由播放器对某乐谱进行了演奏的时间区域的波形的音信号(下面,称为“参照信号”)r和表示该乐谱的乐谱数据。各乐谱数据包含音符的时间序列。与各乐谱数据相对应的参照信号r包含与该乐谱数据所表示的乐谱的音符的系列相对应的部分波形的时间序列。各参照信号r是由针对每个采样周期(例如,48khz)的样本的时间序列构成,表示音的波形的时间区域的信号。演奏并不限定于由人进行的乐器的演奏,也可以是由歌手进行的歌唱、或者乐器的自动演奏。为了通过机器学习而生成良好的音,通常要求充分数量的训练数据,因此关于设为目标的乐器或者播放器等,事先收录很多演奏的音信号,作为参照信号r而存储于存储装置12。
35.对在图2的上部图示的准备功能进行说明。解析部111关于与多个乐谱各自对应的多个参照信号r,分别针对时间轴上的每个帧(时间帧)对频率区域的频谱(下面,称为波形谱)进行计算。在计算参照信号r的波形谱时,例如使用离散傅立叶变换等公知的频率解析。在波形谱中还包含基本频率等的音响的特征量。
36.时间匹配部112基于通过解析部111得到的波形谱等信息,使各参照信号r所对应的乐谱数据中的多个发音单位的开始时刻和结束时刻,与参照信号r中的该发音单位所对应的部分波形的开始时刻和结束时刻对齐。在这里,发音单位例如是指定出音高和发音期间的1个音符。此外,也可以将1个音符以音色等的波形的特征变化的点进行分割而分为多个发音单位。
37.处理部113基于与各参照信号r时间对齐的乐谱数据的各发音单位的信息,针对以帧为单位的每个时刻t,生成与参照信号r之中的该时刻t的部分波形相对应的控制数据x。由处理部113生成的控制数据x如前述那样,对参照信号r的条件进行指定。
38.控制数据x如图4所例示那样,包含音高数据x1、开始停止数据x2、以及关联性数据x3。音高数据x1表示参照信号r的部分波形中的目标音高p。开始停止数据x2表示各部分波形的开始期间(起音)和结束期间(释音)。与1个音符相当的部分波形内的1个帧的关联性数据x3是表示该音符和前后的音符之间的音高差或者乐谱内的该音符的相对位置的信息等,表示与多个发音单位之间的关系(即关联性)。在控制数据x中,还可以包含乐器、歌手或者演奏方法等其他信息。
39.如前述那样,构成音高数据x1的m个音名数据之中的与音信号(参照信号r或者音
信号v)的目标音高p相对应的1个有效音名数据,设定为与目标音高p相对于该音名所对应的基准音高q的音高差相对应的偏差值。将按照该记法的音高数据x1称为1热度记法的音高数据x1。处理部113(控制装置11)将音高数据x1的m个音名数据之中的与参照信号r的目标音高p相对应的1个有效音名数据设定为与该音名所对应的基准音高q和目标音高p之间的音高差相对应的偏差值。在图5中示出该设定例。
40.在图5的上部,在设定有时间轴(横轴)和音高轴(纵轴)的2维平面图示出构成乐谱数据所表示的乐谱的音符的时间序列和演奏该乐谱的演奏音的音高(目标音高p)。在图5的例子中,音符f#、音符f、休止符、音符f、音符f#、音符f依次被演奏。图5中的目标音高p例如是从音高连续地变化的乐器发出的演奏音的音高。
41.如图5所例示那样,音高轴被划分为与不同的音名相对应的多个范围(下面,称为“单位范围”)u。与各音名相对应的基准音高q例如相当于与该音名相对应的单位范围u的中点。例如,与音名f#相对应的基准音高q(f#)是与该音名f#相对应的单位范围u(f#)的中点。如根据图5所理解那样,以目标音高p与各音符的基准音高q接近的方式对乐曲进行演奏。与各音名相对应的基准音高q在音高轴上离散地设定,与此相对,目标音高p随着时间的经过而连续地变化。因此,目标音高p相对于基准音高q而偏离。
42.图5的中部是表示音高数据x1的各音名数据所表示的数值的时间变化的图形。图5的中部的纵轴的数值0是指与各音名相对应的基准音高q。在目标音高p处于1个音名的单位范围u内的情况下,音高数据x1的m个音名数据之中的与该音名相对应的1个音名数据作为有效音名数据被选择,该有效音名数据被设定为相对于基准音高q的偏差值。
43.有效音名数据所表示的偏差值是目标音高p相对于该有效音名数据的音名所对应的基准音高q(=0)的相对值。与1个音名相对应的单位范围u的宽度为100音分(cents)(半音分),因此目标音高p相对于基准音高q的音高差收敛于
±
50音分的范围。另一方面,在有效音名数据设定的偏差值取0至1的范围的任意值。音高差和偏差值的关联性是任意的,例如偏差值的0至1的范围与音高差的-50音分至 50音分相关联。例如,偏差值的0与音高差的-50音分相对应,偏差值的0.5与音高差的0音分相对应,偏差值的1与音高差的 50音分相对应。
44.如图5中例示那样,在时间轴上的时刻t1,目标音高p处于与音名f#相对应的单位范围u(f#)内,且与该音名f#所对应的基准音高q(f#)之间的音高差为 40音分。因此,在时刻t1,音高数据x1的m个音名数据之中的与音名f#相对应的1个有效音名数据设定为与 40音分的音高差相对应的偏差值0.9,剩余的(m-1)个音名数据设定为0(冷值)。
45.另外,在时刻t2,目标音高p处于与音名f相对应的单位范围u(f)内,且与该音名f所对应的基准音高q(f)之间的音高差为 20音分。因此,在时刻t2,音高数据x1的m个音名数据之中的与音名f相对应的1个有效音名数据设定为与 20音分的音高差相对应的偏差值0.7。
46.此外,音高差和偏差值的对应关系并不限定于上述情况,例如,可以将偏差值的0.2至1的范围与音高差的-50音分至 50音分的范围相关联。例如,偏差值的0.2与音高差的-50音分相对应,偏差值的0.6与音高差的0音分相对应,偏差值的1与音高差的 50音分相对应。或者,也可以将偏差值的正负和音高差的正负之间的关系反转,将偏差值的0.2至1的范围与音高差的 50音分至-50音分相关联。
47.准备用于根据通过解析部111及处理部113进行的处理的结果、多个参照信号r和多个乐谱数据对生成模型进行训练的多个发音单位数据。各发音单位数据是控制数据x和波形谱的数据集。多个发音单位数据在通过训练部114进行训练之前,分为用于生成模型的训练的训练数据和用于生成模型的测试的测试数据。将多个发音单位数据的大部分设为训练数据,将一部分设为测试数据。通过训练数据进行的训练是将多个发音单位数据以每规定数量的帧为一批次(batch)进行分割,以批次单位在全部批次范围而依次进行。
48.训练部114如图4的上部例示那样,接收训练数据,依次使用其各批次的多个发音单位的波形谱和控制数据x而对生成模型进行训练。生成模型针对每个帧(时刻t),对表示波形谱的输出数据进行推定。输出数据可以是对构成波形谱的多个成分各自的概率密度分布进行表示的数据,也可以是各成分的值。训练部114通过将1个批次量的各发音单位数据中的控制数据x输入至生成模型,由此对与该控制数据x相对应的输出数据的时间序列进行推定。训练部114基于推定出的输出数据和训练数据之中的相对应的波形谱(即正确值)对损失函数l(对应于1个批次量的累积值)进行计算。而且,训练部114将生成模型的多个变量进行优化,以使得其损失函数l最小化。例如,作为损失函数l,在输出数据为概率密度分布的情况下使用交叉熵函数等,在输出数据为波形谱的值的情况下使用平方误差函数等。训练部114直至关于测试数据而计算的损失函数l的值变得充分小、或者相前后的损失函数l的变化变得充分小为止反复进行利用训练数据的上述的训练。这样建立的生成模型掌握了在各时刻t的控制数据x和与参照信号r之中的该时刻t相对应的波形谱之间潜在的关系。通过使用该生成模型,从而生成部122关于未知的音信号v的控制数据x,也能够生成品质良好的波形谱。
49.图6是准备处理的流程图。准备处理例如是以来自音信号合成系统100的利用者的指示为契机而开始的。
50.如果准备处理开始,则控制装置11(解析部111)根据多个参照信号r的各个而分别生成各部分波形的波形谱(sa1)。接下来,控制装置11(时间匹配部112及处理部113)根据与其部分波形相对应的乐谱数据,创建包含与其部分波形相对应的发音单位的音高数据x1的控制数据x(sa2)。控制装置11(训练部114)使用各发音单位的各时刻t的控制数据x和与该发音单位相对应的波形谱而对生成模型进行训练,建立生成模型的多个变量(sa3)。
51.在这里,将包含表示相对于各音名的基准音高q的偏差值的音高数据x1在内的控制数据x作为输入而对生成模型进行训练。因此,通过其训练而建立的生成模型,掌握在控制数据x所示的音高的偏差值和音信号(参照信号r)的波形谱之间潜在的关系。由此,如果将包含对音名和偏差值进行指定的音高数据x1在内的控制数据输入至生成模型,则能够生成与其指定出的音名的偏差相对应的音高的音信号v。
52.本技术的发明人作为对比例,将并行地包含表示音信号的音名的现有的one

hot(独热)的音高数据和表示音信号相对于该音名的基准音高q的音高偏差的弯音数据在内的控制数据作为输入而对生成模型进行了训练。但是,在使用通过该训练而建立的生成模型的情况下,生成的音信号的音高虽然追随音高数据所示的音高,但没有稳定地追随弯音数据所表示的偏差。其原因被认为是,由于试图通过音高数据及弯音数据这样的不同的2种数据对由生成模型生成的音信号的1个特征量即音高进行控制。
53.接下来,对在图2的下部图示的、使用生成模型而生成音信号v的音生成功能进行
说明。处理部121与处理部113同样地,基于应该播放的乐谱数据所表示的一系列的发音单位,生成控制数据x而输出至生成部122。控制数据x表示乐谱数据的各时刻t的发音单位的条件(即,应该合成的音信号v的条件)。具体地说,控制数据x包含音高数据x1、开始停止数据x2和关联性数据x3。由处理部113生成的音高数据x1表示参照信号r的目标音高p,与此相对,由处理部121生成的音高数据x1表示应该合成的音信号v的目标音高p。但是,由处理部113执行的处理和由处理部121执行的处理实质上是共通的,由处理部113生成的音高数据x1的形式和由处理部121生成的音高数据x1的形式是共通的。此外,控制数据x可以还包含乐器、歌手或者演奏方法等其他信息。
54.生成部122如图4的下部例示那样,使用建立有多个变量的生成模型,生成与控制数据x相对应的波形谱的时间序列。生成部122使用生成模型,针对每个帧(时刻t),对表示与控制数据x相对应的波形谱的输出数据进行推定。在推定的输出数据表示构成波形谱的多个成分各自的概率密度分布的情况下,生成部122生成按照其成分的概率密度分布的随机数,将该随机数作为波形谱的成分值而输出。在推定的输出数据表示多个成分的值的情况下,输出其成分值。
55.合成部123对频率区域的波形谱的时间序列进行接收,将与其波形谱的时间序列相对应的时间区域的音信号v进行合成。合成部123为所谓的声码器。例如,合成部123根据波形谱而求出最小相位谱,通过针对这些波形谱和相位频谱执行逆傅立叶变换而将音信号v进行合成。或者,使用对在波形谱和音信号v之间潜在的关系进行了学习的神经声码器,从波形谱直接地合成音信号v。
56.图7是各发音单位的音生成处理的流程图。该音生成处理例如以来自音信号合成系统100的利用者的指示为契机,针对每个时刻t,为了生成与该时刻相对应的帧的音信号v而被执行。时刻t的行进速度可以是与实际时间的行进速度相同的位,也可以快或者慢,即,可以与实际时间不同。
57.如果某时刻t的音生成处理开始,则控制装置11(处理部121)基于乐谱数据,生成该时刻t的控制数据x(sb1)。接下来,控制装置11(生成部122)使用生成模型,生成与所生成的控制数据x相对应的该时刻t的音信号v的波形谱(sb2)。接下来,控制装置11(合成部123)与所生成的波形谱相应地,将与该时刻t相对应的帧的音信号v进行合成(sb3)。以上的处理关于乐谱数据的各时刻t依次进行,由此生成与乐谱数据相对应的音信号v。
58.在第1实施方式中,1个音高数据x1对应该合成的音信号v的目标音高p和与该音名的基准音高q之间的音高差所对应的偏差值进行指定。而且,生成部122使用将包含该音高数据x1的控制数据x设为输入的生成模型,生成与由音高数据x1指定出的音名和偏差值相对应的音高的音信号v。因此,所生成的音信号v的音高良好地追随由音高数据x1指定的音名和从该音名的基准音高q起的偏差值的变化。例如,通过使音高数据x1所表示的偏差值动态地变化,从而能够对所要生成的音信号v例如赋予颤音或者弯音等动态的音调变化。
59.b:第2实施方式
60.在第2实施方式中,作为向生成模型的输入,取代第1实施方式的1热度记法的音高数据x1,而是使用在图8中例示的2热度记法的音高数据x1。第2实施方式的音信号合成系统100的结构及控制装置11的功能结构基本上与第1实施方式相同。
61.在2热度记法的音高数据x1中,对与不同的音名相对应的m个音名数据之中的音信
号(参照信号r或者音信号v)的目标音高p所对应的2个有效音名数据各自设定与该有效音名数据的音名相对应的基准音高q和目标音高p之间的音高差所对应的热值。处理部113或者处理部121(控制装置11)将音高数据x1的m个音名数据之中的隔着音信号(参照信号r或者音信号v)的目标音高p的2个基准音高q各自所对应的音名数据作为有效音名数据进行选择,将2个有效音名数据各自设定为目标音高p和该音名数据的音名所对应的基准音高q之间的接近度(热值的一个例子)。即,2热度记法是下述记述方法,即,将构成音高数据x1的m个音名数据之中的2个有效音名数据设定为热值(接近度),将剩余的(m-2)个音名数据设定为冷值(例如0)。
62.在图8的上部,在设定有时间轴(横轴)和音高轴(纵轴)的2维平面,图示出构成乐谱数据所表示的乐谱的音符的时间序列和演奏该乐谱的演奏音的音高(目标音高p)。如根据图8所知那样,构成音高数据x1的m个音名数据之中的与目标音高p最接近的基准音高q所对应的音名的音名数据和第二接近的基准音高q所对应的音名的音名数据作为有效音名数据被选择。
63.在图8的中部,示出与各音名数据的音名相对应的基准音高q和目标音高p之间的接近度。在这里,接近度取0至1的范围的任意值。具体地说,在目标音高p和某音名的基准音高q一致时接近度为1。另外,在目标音高p和其音名的基准音高q之间的音高差为x音分时,接近度为(100-x)/100。即,目标音高p和基准音高q之间的音高差越大则接近度成为越小的数值。例如,如果目标音高p从某音名的基准音高q分离半音以上,则接近度成为0。
64.在图8的时刻t3,目标音高p位于与音名g相对应的基准音高q(g)和与音名f#相对应的基准音高q(f#)之间。因此,将音高数据x1的m个音名数据之中的与音名g相对应的音名数据和与音名f#相对应的音名数据作为有效音名数据进行选择。在时刻t3,基准音高q(g)和目标音高p之间的音高差为50音分,因此与音名g相对应的有效音名数据设定为接近度0.5。另外,在时刻t3,基准音高q(f#)和目标音高p之间的音高差也为50音分,因此与音名f#相对应的有效音名数据也设定为接近度0.5。如上所述,第2实施方式的处理部113或者处理部121在时刻t3,将构成音高数据x1的m个音名数据之中的与音名g相对应的有效音名数据设定为0.5,将与音名f#相对应的有效音名数据设定为0.5,将剩余的(m-2)个音名数据设定为0(冷值)。
65.另一方面,在图8的时刻t4,目标音高p位于与音名f相对应的基准音高q(f)和与音名f#相对应的基准音高q(f#)之间。因此,将音高数据x1的m个音名数据之中的与音名f相对应的音名数据和与音名f#相对应的音名数据作为有效音名数据进行选择。在时刻t4,基准音高q(f)和目标音高p之间的音高差为80音分,因此与音名f相对应的有效音名数据设定为接近度0.2。另外,在时刻t4,基准音高q(f#)和目标音高p之间的音高差为20音分,因此与音名f#相对应的有效音名数据设定为接近度0.8。如上所述,第2实施方式的处理部113或者处理部121在时刻t4,将构成音高数据x1的m个音名数据之中的与音名f相对应的有效音名数据设定为0.2,将与音名f#相对应的有效音名数据设定为0.8,将剩余的(m-2)个音名数据设定为0(冷值)。
66.训练部114将包含2热度标记的音高数据x1在内的控制数据x作为输入,以生成表示与其控制数据x相对应的波形谱的输出数据的方式对生成模型进行训练。建立了多个变量的生成模型掌握了在多个发音单位数据中的各控制数据x和参照信号r的波形谱之间潜
在的关系。
67.生成部122使用所建立的生成模型,针对每个时刻t而生成与包含2热度标记的音高数据x1在内的控制数据x相对应的波形谱。合成部123与第1实施方式同样地,将与由生成部122生成的波形谱的时间序列相对应的时间区域的音信号v进行合成。
68.在第2实施方式中,使用生成模型,能够生成良好地追随2热度标记的音高数据x1所表示的目标音高p的变化的音信号v。
69.c:第3实施方式
70.在第2实施方式中,与目标音高p相对应的2个有效音名数据被设定为热值,但构成音高数据x1的m个音名数据之中的设定为热值的有效音名数据的个数是任意的。在第3实施方式中,取代第2实施方式的2热度记法的音高数据x1,而是将在图9中例示的4热度记法的音高数据x1利用为针对生成模型的输入。第3实施方式的音信号合成系统100的结构及控制装置11的功能结构基本上与第1实施方式及第2实施方式相同。
71.在4热度记法的音高数据x1中,将与不同的音名相对应的m个音名数据之中的音信号(参照信号r或者音信号v)的目标音高p所对应的4个音名数据作为有效音名数据进行选择。具体地说,隔着目标音高p的2个基准音高q各自所对应的2个音名数据和与该2个音名数据相邻的2个音名数据作为有效音名数据被选择。也可以换言之是将与目标音高p接近的4个音名数据作为有效音名数据进行选择。4个有效音名数据各自设定为目标音高p和该有效音名数据的音名所对应的基准音高q之间的接近度(热值)。即,4热度记法是下述记述方法,即,将构成音高数据x1的m个音名数据之中的4个音名数据设定为热值(接近度),将剩余的(m-4)个音名数据设定定位冷值(例如0)。处理部113或者处理部121(控制装置11)生成以上说明的音高数据x1。
72.在图9的上部,与第2实施方式同样地,在设定有时间轴(横轴)和音高轴(纵轴)的2维平面,图示出构成乐谱数据所表示的乐谱的音符的时间序列和演奏该乐谱的演奏音的音高(目标音高p)。如根据图9所理解那样,将构成音高数据x1的m个音名数据之中的与目标音高p接近的4个基准音高q各自所对应的4个音名数据作为有效音名数据进行选择。
73.在图9的中部,示出与各音名数据的音名相对应的基准音高q和目标音高p之间的接近度。在这里,接近度与第2实施方式同样地,取0至1的范围的任意值。具体地说,在目标音高p和某音名的基准音高q一致时接近度为1。另外,在目标音高p和其音名的基准音高q之间的音高差为x音分时,接近度为(200-x)/200。即,与第2实施方式同样地,目标音高p和基准音高q之间的音高差越大则接近度成为越小的数值。例如,如果目标音高p从某音名的基准音高q分离全音以上,则接近度成为0。
74.在图9的时刻t5,目标音高p位于与音名g相对应的基准音高q(g)和与音名f#相对应的基准音高q(f#)之间。因此,将音高数据x1的m个音名数据之中的音名g及音名f#、与音名g的高位侧相邻的音名g#和与音名f#的低位侧相邻的音名f所对应的4个音名数据作为有效音名数据进行选择。在时刻t5,基准音高q(g)和目标音高p之间的音高差为50音分,因此与音名g相对应的有效音名数据设定为接近度0.75。同样地,基准音高q(f#)和目标音高p之间的音高差为50音分,因此与音名f#相对应的有效音名数据设定为接近度0.75。另外,基准音高q(f)和目标音高p之间的音高差为150音分,因此与音名f相对应的有效音名数据设定为接近度0.25。同样地,基准音高q(g#)和目标音高p之间的音高差为150音分,因此与音名
g#相对应的有效音名数据设定为接近度0.25。如上所述,第3实施方式的处理部113或者处理部121在时刻t5,将构成音高数据x1的m个音名数据之中的与音名g及音名f#相对应的2个有效音名数据设定为0.5,将与音名f及音名g#相对应的2个有效音名数据设定为0.25,将剩余的(m-4)个音名数据设定为0(冷值)。
75.在时刻t6,目标音高p位于与音名f#相对应的基准音高q(f#)和与音名f相对应的基准音高q(f)的音之间。因此,将音高数据x1的m个音名数据之中的音名f#及音名f、与音名f#的高位侧相邻的音名g和与音名f的低位侧相邻的音名e所对应的4个音名数据作为有效音名数据进行选择。在时刻t6,基准音高q(f#)和目标音高p之间的音高差为25音分,因此与音名f#相对应的有效音名数据设定为接近度0.875。基准音高q(f)和目标音高p之间的音高差为75音分,因此与音名f相对应的有效音名数据设定为接近度0.625。基准音高q(g)和目标音高p之间的音高差为125音分,因此与音名g相对应的有效音名数据设定为接近度0.375。另外,基准音高q(e)和目标音高p之间的音高差为175音分,因此与音名e相对应的有效音名数据设定为接近度0.125。如上所述,第3实施方式的处理部113或者处理部121在时刻t6,将构成音高数据x1的m个音名数据之中的与音名f#相对应的有效音名数据设定为0.875,将与音名f相对应的有效音名数据设定为0.625,将与音名g相对应的有效音名数据设定为0.375,将与音名e相对应的有效音名数据设定为0.125,将剩余的(m-4)个音名数据设定为0(冷值)。
76.训练部114将包含4热度标记的音高数据x1在内的控制数据x作为输入,以生成表示与其控制数据x相对应的波形谱的输出数据的方式对生成模型进行训练。建立了多个变量的生成模型掌握了在多个发音单位数据中的各控制数据x和参照信号r的波形谱之间潜在的关系。
77.生成部122使用所建立的生成模型,针对每个时刻t而生成与包含2热度标记的音高数据x1在内的控制数据x相对应的波形谱。合成部123与第1实施方式同样地,将与由生成部122生成的波形谱的时间序列相对应的时间区域的音信号v进行合成。
78.在第3实施方式中,使用生成模型,能够生成良好地追随4热度标记的音高数据x1所表示的目标音高p的变化的音信号v。
79.第1实施方式所例示出的1热度记法、第2实施方式所例示出的2热度记法和第3实施方式所例示出的4热度记法通常是将音高数据x1内的有效音名数据的个数设为n的n热度记法(n为1以上的自然数)。在n热度记法中,将构成音高数据x1的m个音名数据之中的与目标音高p相对应的n个有效音名数据设定为与该音名的基准音高q和目标音高p之间的音高差相对应的热值(偏差值或者接近度),将剩余的(m-n)个音名数据设定为冷值(例如0)。在目标音高p和某音名的基准音高q之间的音高差为x音分时,接近度表示为(50
×
n-x)/50
×
n。但是,用于对接近度进行计算的运算式并不限定于以上的例示。如上所述,为了表示目标音高p而使用的有效音名数据的个数n是任意的。
80.d:第4实施方式
81.第1、第2及第3实施方式的生成部122生成波形谱,但在第4实施方式中,生成部122使用生成模型而生成音信号v。第4实施方式的功能结构与图2基本相同,但不需要合成部123。训练部114使用参照信号r对生成模型进行了训练,生成部122使用该生成模型而生成音信号v。第4实施方式中的训练用的发音单位数据是各发音单位的控制数据x和参照信号r
的部分波形(即参照信号r的样本)的数据集。
82.第4实施方式的训练部114对训练数据进行接收,依次使用其各批次的多个发音单位的部分波形和控制数据x对生成模型进行训练。生成模型针对每个采样周期(时刻t),对表示音信号v的样本的输出数据进行推定。训练部114基于根据控制数据x而推定出的输出数据的时间序列和训练数据之中的相对应的部分波形而对损失函数l(对应于1个批次量的累积值)进行计算,将生成模型的多个变量进行优化以使得其损失函数l最小化。这样建立的生成模型对在多个发音单位数据中的各控制数据x和参照信号r的部分波形之间潜在的关系进行了学习。
83.第4实施方式的生成部122使用所建立的生成模型,生成与控制数据x相对应的音信号v。生成部122使用生成模型,针对每个采样周期(时刻t),对表示与控制数据x相对应的音信号v的样本的输出数据进行推定。在输出数据表示多个样本各自的概率密度分布的情况下,生成部122生成按照其成分的概率密度分布的随机数,将该随机数作为音信号v的样本而输出。在输出数据表示样本的值的情况下,将其样本的时间序列作为音信号v进行输出。
84.e:第5实施方式
85.在图2所图示的实施方式的音生成功能中,基于乐谱数据的一系列的发音单位的信息而生成音信号v,但也可以基于从键盘等供给的发音单位的信息而实时地生成音信号v。在该情况下,处理部121基于直至该时刻t为止所供给的发音单位的信息,生成各时刻的控制数据x。在这里,在控制数据x所包含的关联性数据x3中,基本上无法包含未来的发音单位的信息,但可以根据过去的信息而预测未来的发音单位的信息,使得包含未来的发音单位的信息。
86.f:变形例
87.在第1实施方式中,将构成音高数据x1的m个音名数据之中的与目标音高p接近的基准音高q所对应的音名的音名数据作为有效音名数据而选择出,但也可以将从目标音高p远离的基准音高q所对应的音名的音名数据作为有效音名数据进行选择。在该情况下,第1实施方式的偏差值进行缩放以使得能够表现超过
±
50音分的音高差。
88.在第2及第3实施方式中,目标音高p和基准音高q之间的接近度与音分标度中的两者间的音高差相应地在从0至1为止的范围内线性地变化,但也可以取代其,而是按照图10那样的正态分布等概率分布或者余弦曲线等任意的曲线或者折线而从1减小至0。
89.在第1及第2实施方式中,通过音分标度进行了音名的关联,但也可以通过赫兹标度等表现其他音高的任意的标度进行关联。此时,偏差值将各标度上的适当的值插入。
90.在第1、第2实施方式中,在处理部113或者处理部121中从0缩放至1,但关于缩放可以通过任意的值进行。例如,可以从-1缩放至 1。
91.此外,由音信号合成系统100进行合成的音信号并不限定于乐器音或者语音,也可以是动物的鸣叫声或者风声及波浪声这样的自然界的音,在希望进行其音高的动态控制的情况下,能够应用本发明。
92.标号的说明
93.100

音信号生成装置,11

控制装置,12

存储装置,13

显示装置,14

输入装置,15

放音装置,111

解析部,112

时间匹配部,113

处理部,114

训练部,121

处理
部,122

生成部,123

合成部。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜