一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

音频生成方法和系统与流程

2023-02-10 18:27:33 来源:中国专利 TAG:


1.本发明涉及用于生成音频的方法和系统,例如用于视频游戏环境中的音频资产(asset)。


背景技术:

2.随着当前视频游戏规模的增长,音频内容生成是一项具有挑战性的任务。声音设计师被要求为每个游戏制作越来越多的声音和音频资产。例如,在视频游戏领域,可能需要用于声音效果的巨大音频资产库,特别是用于表达声音效果。每个音频文件可能需要类似的资产,但略有变化,以适应视频游戏事件的需要。例如,脚步声音频资产可能需要脚步声上的多个变化,以模仿实际生活中脚步声的变化,并考虑由于游戏中的动作(诸如当玩家奔跑、行走、爬行等时)而影响脚步声的声学特性(诸如音量、音高、音调、音色)的某些因素。在创建这样的声音时,每个这样的资产通常需要手工制作以具有从基本音频资产的适当变化。这通常耗时、昂贵(计算和财务上都是如此),并给音频创作者带来沉重的脑力负担。
3.此外,在某些应用中(诸如在视频游戏中),能够动态生成新的音频资产是有利的。这样的过程很难实现,因为音频不能在游戏发行后由录音师生成,而必须借助于计算机过程来生成。在这种情况下,通常很难生成具有所需的从原始资产的变化,但在总体主题上仍然与原始资产足够相似以便观众能够识别它们的音频资产。已经尝试提供计算性音频资产生成,但它们通常复杂且过程密集,导致过程缓慢且昂贵。这种计算解决方案通常也是单输出的,这意味着每个新的音频资产必须逐个生成,这进一步增加了时间和处理成本。
4.本发明寻求减轻上述问题中的至少一些问题。


技术实现要素:

5.根据本公开的一个方面,提供了一种生成音频资产的方法,包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像,将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示,从每个输出多通道图像提取输出图形表示,并将每个输出图形表示转换为输出音频资产。
6.使用音频的图形表示(诸如声谱图)来训练生成模型允许相对容易和自主地生成音频资产。此外,使用多通道图形表示来生成音频的批处理方法允许在短时间内并以降低的所需计算能力来创建多个音频资产。
7.优选地,生成模型是单一图像生成模型。与其他生成模型相比,使用声谱图制造新声音的单一图像生成显著减少了所需的数据量和计算能力。在单一输入图像上训练单一图像生成模型以生成输入图像的新变体。这通常是通过使用具有有限感受野的全卷积判别器(例如,马尔可夫判别器(patch discriminator))和渐进增长结构来实现的。这些单一图像模型的一个实用问题是,每次生成新图像时都必须对它们进行训练。换句话说,如果需要产生两个不同图像的新版本,就必须训练两个不同的模型(每个图像一个模型)。这通常是耗
时和昂贵的操作和维护。本发明允许在短时间内通过使用一种使用生成模型批量生成声音的新方法来生成多个音频资产。以此方式,可以在单通道图形表示的小数据集上训练单一图像生成模型,并且可以有能够产生不同训练声音的变体的单一模型。这使得能够轻松地并且以相对较小的所需计算能力来生成大量新的音频资产。
8.本发明可以利用音频资产的许多不同类型的图形表示中的任何一种。例如,音频资产也可以被转换为音频波形表示或光谱仪表示或从音频波形表示或光谱仪表示转换而来。优选地,音频资产被转换为音频声谱图和从音频声谱图转换而来。在这种情况下,将每个音频资产转换为图形表示的步骤可以包括对每个音频资产执行傅立叶变换,并绘制图形表示中的频域振幅以产生声谱图。声谱图是有利的,因为它们在显示关于声音的特征信息的频率空间中表示音频资产。例如,单一声谱图可以表示单声道音频,并且可以通过对音频进行短时傅立叶变换来获得。声谱图通常有一个通道(如果使用幅度或复数表示)或两个通道(如果使用幅度和相位)。已经发现,单通道声谱图在频域中提供了音频的特别好的表示,其可用于在音频资产的图形和声学表示之间快速和有效地转换,而没有明显的细节损失。当使用多声道音频时,例如当使用立体声或环绕立体声和3d音频时,也可以使用多通道。
9.虽然声谱图通常是通过傅立叶变换(和相关的逆变换)获得和解析的,但任何合适的函数都可以用于向声谱图表示的转换和从声谱图表示的转换。例如,解析每个输出多通道图像的步骤可以包括以下步骤:从多通道图像的每个通道中分离输出图形图像,以及对每个输出图形图像执行逆傅立叶变换以从每个输出图形图像中检索一个或多个输出音频资产。可替代地或除了声谱图之外,可以类似地考虑其他可逆变换来生成音频资产的图形表示,诸如小波变换而不是傅立叶变换。
10.单一图像生成模型可以是具有马尔可夫判别器的生成对抗网络gan。马尔可夫判别器可以是一种用于gan的判别器,其仅在局部图像块(patch)的尺度上判别结构损失,并且将输入图像中的每个块分类为是真还是假。马尔可夫判别器可以在图像上卷积地运行,平均所有响应以提供判别器的最终输出。在使用这种gan的情况下,生成一个或多个输出多通道图像的步骤可以包括在输入多通道图像上训练gan。
11.通常,输出多通道图像可以包括多通道图像的每个通道中的输出图形表示。每个图形表示可以是具有一个通道的声谱图。
12.本文描述的技术可以特别适合于在视频游戏应用中使用,其中需要大量的音频资产,并且具有轻微变化的大量类似声音特别有利。接收多个输入音频资产的步骤可以包括从视频游戏环境接收视频游戏信息,并且生成一个或多个输出多通道图像的步骤可以包括将视频游戏信息馈送到单一图像生成模型中,使得输出多通道图像受到视频游戏信息的影响。
13.在一些示例中,输入音频资产可以是从麦克风输入直接接收的。也就是,接收多个输入音频资产的步骤可以包括从麦克风源接收输入音频片段。
14.根据本公开的另一方面,提供了一种计算机程序,该计算机程序包括计算机实现的指令,当在计算机上运行时,该指令使计算机实现根据第一方面的方法,该方法具有本文公开的任何一个或多个特征。
15.可以理解,本文描述的方法可以通过软件指令或通过包含或替代专用硬件在适用时适当地适配的传统硬件上来执行。
16.因此,对传统等效设备的现有部分的所需适配可以以计算机程序产品的形式实现,该计算机程序产品包括存储在诸如软盘、光盘、硬盘、固态盘、prom、ram、闪存或这些或其他存储介质的任何组合上的处理器可实现指令,或者以硬件实现为asic(专用集成电路)或fpga(现场可编程门阵列)或适合用于适配传统等效设备的其他可配置电路。另外,这样的计算机程序可以经由网络(诸如以太网、无线网络、互联网或这些或其他网络的任何组合)上的数据信号来发送。
17.根据本发明的另一方面,提供了一种用于生成音频资产的系统,该系统包括:资产输入单元,其被配置为接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,并通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像;以及图像生成单元,其被配置为实现生成模型以基于输入多通道图像来生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示;以及资产输出单元,其被配置为从每个多通道图像中分离输出图形表示并将每个输出图形表示转换为输出音频资产。
18.应当理解,前述一般描述和以下详细描述两者都是本公开的示例性的,但不是限制性的。
附图说明
19.当结合附图考虑时,通过参考以下详细描述将更好地理解本公开及其伴随的许多优点,将容易获得对本公开的更完整的理解,其中:
20.图1示意性地示出了批量生成音频文件的示例工作流。
21.图2示意性地示出了根据本公开的一个方面的方法的示例流程图。
22.图3示意性地示出了根据本公开的一个方面的声学和视觉形式之间转换的示例工作流。
23.图4示意性地示出了根据本公开的一个方面的示例系统。
具体实施方式
24.现在参考附图,其中在多个视图中相同的参考数字表示相同或对应的部分,本发明提供了一种用于有效和高效地产生许多音频资产的方法。该技术一般包括接收音频片段,将音频片段转换为诸如声谱图形式的图形表示,在该声谱图上训练单一图像生成模型以生成新的变体声谱图,以及将新的变体声谱图转换为新的变体音频资产。在图1中示意性地示出了一般方法,其概述了音频文件101的输入集如何被转换为组合成单一多通道图像103的一批声谱图102,如何被传递到神经网络104,神经网络104被训练以生成新的多通道图像105,然后该新的多通道图像105被分离成一批输出声谱图106以被转换为新的音频文件107。如图1中示意性地所示,该过程接收一批音频样本101,并输出一批新的音频文件107,该新的音频文件107一般不同于输入批101。
25.本公开的一个方面是一种用于生成音频资产的方法。图2中示出了示例性方法的流程图,其中该方法包括以下步骤。
26.步骤201:接收输入音频资产。
27.在第一步骤中,准备并接收输入音频资产以进行处理。输入音频资产可以由正在负责该方法和新音频资产的生成的处理器接收。输入资产也可以由这样的处理器可以访问
的存储器接收,使得该处理器可以在需要时检索音频资产。
28.输入音频资产是形成通过本文所描述的生成技术生成新的音频资产的基础的音频资产。也就是,生成模型要在其上进行训练的资产。该方法通常用于生成新的音频资产,其是(或每个)输入资产的可识别变体,尽管在一些其他示例中,该方法可以生成不可被识别为与输入音频资产不同的新资产。来自输入资产的输出的变化和可变性可以由用户来控制。例如,在此步骤中,该方法还可以包括接收用于控制该方法的输出的输入控制信息。输入控制信息中的一个参数可以是可变性值,该可变性值由执行该方法的处理器读取,以改变输出音频文件与输入文件的不同程度。可变性值可以具体地与输出声音的音调、频率、长度、音高、音色、节奏、粗糙度、响度和亮度中的一个或多个相关。输入控制信息还可以包括一个或多个控制声音文件,使得生成模型被制作成产生与控制声音文件具有不同影响的新的声音。例如,输入音频文件可以全部具有第一节奏(或该批中的所有文件具有不同节奏),并且具有例如100bpm的第二节奏的控制声音文件与控制信息一起输入,使得输出声音文件与输入文件相似,但全部具有100bpm的第二节奏。当在视频游戏应用中执行该方法时,输入控制信息可以是从视频游戏环境接收的,或者从视频游戏中的一个或多个事件导出的。视频游戏信息可以与输入控制信息分离,或者构成输入控制信息的全部或部分。本文描述的各种控制信息也可以被输入到预先训练的系统。例如,可以保存没有控制的在单一图像上训练的生成模型以供以后使用,并且当访问训练的模型以生成新图像时,可以将控制图像作为输入噪声向量或其他约束因素输入,以便通过生成模型影响生成。
29.例如,可以从预定的声音库中选择输入音频资产,以生成特定输出或输出集。例如,可以从预定库中选择输入音频资产。可以基于多个选择标准中的一个或多个标准来选择要输入到该方法中的特定音频资产。例如,可以访问大量可用音频资产库,并且可以基于需求集(例如,期望的环境、音量级别、音高、持续时间)来选择子集。可替代地,输入音频资产本身可以通过过程性或生成性方法来随机生成。可以根据来自另一过程的输入来从音频资产库或数据库中进行选择。在视频游戏应用中,视频游戏环境中的对象或玩家可以触发事件,并且该事件可以输出可以被接收并用于输入音频资产的选择的信号。在一些情况下,例如,多个输入资产中的音频资产的数量可以由与游戏中事件相关联的信号来控制。
30.在一些示例中,可以直接从诸如麦克风的外部输入接收输入音频资产。可以实时地接收资产:也就是说,可以使用动态地返回输出音频文件的方法接收和处理输入音频资产。通常,多个音频资产中的每一个彼此不同。然而,在一些示例中,一个或多个音频资产可以是复制文件。
31.步骤202:将输入音频资产转换为输入图形表示。
32.所谓

图形表示’是指记录和描述相应音频资产的特征,而不会有音频信息损失的可视化数据形式。换句话说,音频资产被转换为其中资产的声学特性以可视形式记录的形式,由此可以进行反转以将可视形式转换回音频形式以检索原始声音。
33.在该示例中,每个输入音频资产被转换为输入声谱图,该声谱图通过绘制音频频率和幅度与时间的关系以图形方式表示音频信息。图3示意性地示出了将每个输入音频资产转换为输入声谱图的示例过程。单声道音频样本301是具有持续时间l和维度1
×
l的音频文件。对音频样本301执行变换操作以从声学形式转换为图形表示-在这种情况下转换为单通道灰度声谱图。在该示例中,执行短时傅立叶变换(stft)以将音频样本301转换为维度1
×1×
hxw的对数幅度(log-mag)声谱图302。这个声谱图根据声音的持续时间绘制了每个频率的频率和振幅。其他傅立叶形式和stft的变体也可用于获得类似的声谱图。通过执行逆短时傅立叶变换(istft)以检索重建的音频样本303,可以将该声谱图302转换回音频文件。当应用逆变换以检索重建的音频文件时,也可以应用griffin-lim算法例如从幅度声谱图来重建相位,从而可以同时进行相位和幅度的逆傅立叶变换。理想情况下,在输入301被变换为声谱图形式302并逆变换回音频形式303之后,输入音频301和重建音频303应该是相同的—也就是说,当在声学形式和视觉形式之间转换时,音频信息没有损失。
34.在步骤s202中应用图3中一般示出的stft技术以将每个输入音频资产转换为声谱图,以获得多个输入声谱图。如本文其他地方所述,可以类似地使用诸如小波变换的其他变换。
35.步骤203:通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像。
36.在此步骤中,在步骤s201和s202之后获得的多个输入声谱图被组合成单一多通道图像。该步骤将图1中的批102转换为单一图像103。在此示例情况下,每个输入声谱图是单通道图像—典型的声谱图显示傅立叶变换的幅度或复数表示之一。然而,在其他示例中,输入声谱图可以是多通道图像:例如,如果选择幅度和相位两者,则为双通道图像。输入音频文件中的声道数也可以影响声谱图的通道数。
37.然后可以将输入声谱图堆叠在一起以形成多通道图像,其中每个输入声谱图在多通道图像中被分配不同的通道。可以使用rgb图像来示出三个输入音频文件的输入批的简单示例。用于三个输入文件的每个单通道声谱图可以被放置在单独的通道中:红色通道中的第一声谱图、绿色通道中的第二声谱图和蓝色通道中的第三声谱图,以生成rgb(三通道)图像,该rgb图像包括在单独的通道中堆叠的每个声谱图。该概念可以扩展到多通道图像的任意数量通道中堆叠的任意数量的声谱图。
38.以此方式,生成了输入对数幅度(log-mag)声谱图的批102。在一些其他示例实现中,音频文件可以在被整理成批102之前首先被转换为声谱图形式。
39.步骤204:将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示。
40.然后,在执行步骤s201、s202和s203之后获得的多通道图像被馈送到生成模型中,该生成模型被配置为生成新的多通道图像,该新的多通道图像是输入多通道图像的变体。生成模型(或包含在其中的神经网络)是在多通道图像上训练的。该模型通常被配置为生成像类似于输入声谱图的声谱图的多通道图像。如前所述,可以经由接收到系统中的输入控制信息来控制输出声谱图与输入声谱图的相似性或可变性。在此步骤中,在步骤s201中接收到的任何输入控制信息都可以被馈送到生成模型,以便在生成输出声谱图时影响生成模型的性能和输出。
41.此步骤中使用的生成模型通常是单一图像生成模型。这种生成模型通常包括具有一个或多个生成神经网络和一个或多个判别器网络的生成对抗网络(gan)。这种模型中的判别器网络通常获取从生成器网络接收的生成的块图像,并在较大图像内的小图像块的尺度上判别结构损失,并在整个图像上卷积地分类每个块(例如真/假),平均所有响应以提供判别器的总体输出。单一图像生成模型的示例包括singan和consingan。这样的生成模型特
别适合于本文所述的方法和系统,因为它们可以仅将单一图像作为训练数据,并且一旦训练后使用马尔可夫判别器来生成任意大小的图像。虽然本发明一般使用单一图像生成模型来描述,但批处理方法可以使用其他生成技术应用于音频生成,包括诸如变分自动编码器(vae)、自回归模型和其他神经网络和gan技术的模型。
42.在步骤201中(或在任何先前步骤中)接收到输入控制信息的情况下,则该信息可以被馈送到生成模型以控制输出图像的方面。输入控制信息可以被馈送到gan的生成器以影响生成器生成图像或块图像的方式。例如,可以首先将输入控制信息转换为噪声向量,并将该向量用作输入噪声向量进入生成器。可替代地,或者组合地,输入控制信息可以被馈送到判别器中,例如,以影响判别器在每个步骤中计算(和/或输出)损失分数的方式。通过加载存储在存储器上的训练模型并在使用该模型生成新音频时输入控制信息,该技术可以被应用于预先训练的网络和生成模型。
43.在该输出多通道图像的每个通道中,存在一个图像,该图像是(或表示)声谱图(或音频资产的其他图形表示)。在此步骤中获得的任何输出多通道图像都可以被发送到并存储在存储单元中,以便长期存储或随机访问。存储该方法的输出的这种形式可以提供压缩文件大小,直到当可以执行步骤s405以检索音频文件时需要音频形式为止。
44.步骤205:从每个多通道图像中分离输出图形表示,并将每个输出图形表示转换为输出音频资产。
45.在此步骤中,从多通道图像的每个通道提取单通道图像,以获得多个输出声谱图。例如,如果输出多通道图像包括三个通道,那么简单的一对一提取结果是三个单通道声谱图的取回。在输入声谱图是多通道声谱图的情况下,则可以将来自输出多通道图像的几个通道的灰度图像组合以形成输出声谱图。例如,在输入声谱图是双通道声谱图的情况下,来自输出多通道图像中的成对通道的单通道图像可以被组合以形成输出声谱图。
46.应当理解,虽然在多通道图像内堆叠声谱图是有效的,但可选地,仅一个声谱图可以由一个图像来表示,或者作为一个通道上的灰度声谱图,或者作为本身占据多个通道的彩色声谱图(例如,不同信号强度由一系列颜色表示)。因此,虽然堆叠是特别有利的,但它不是必要的。
47.一旦提取了输出声谱图,就可以通过适当地执行逆变换(诸如逆傅立叶变换istft或逆小波变换)来将每个声谱图转换为音频文件。逆变换将输出声谱图中的每一个从视觉或图形表示转换为音频文件。结果是,每个声谱图被转换为新生成的音频文件。每个音频文件可以被发送到并存储在存储单元中,以便长期存储或随机访问,或者它们可以被发送和处理以便立即使用—例如在视频游戏环境中播放。
48.在一些示例中,在此步骤中可以生成分层的声音。在此步骤中通过转换每个输出声谱图而获得的音频片段可以被分层在一起以生成分层的声音文件。音频片段可以简单地相互堆叠以同时回放,或者在其他情况下,所有或一些片段可以在时间上偏移以具有延迟回放。这种分层声音中的片段之间的延迟可以是可变的或预先确定的。例如,在脚步声的情况下,输入声音资产(训练声音)可以包括:(i)脚后跟着地的声音,(ii)脚尖着地的声音,(iii)拟声声音。在上述输入声音资产上训练的生成模型可以输出新的脚后跟、脚尖和拟声声音,每个声音可以在分层声音中组合以生成新的整体脚步声资产。由于脚后跟通常先着地,分层声音可能会在脚后跟声音之后延迟脚尖声音(但在持续时间上重叠),并且与拟声
声音类似。
49.一旦训练完成,所使用的生成模型就可以被储存起来,并“离线”使用来生成新的声音。虽然训练单一图像生成模型的过程可能需要一些时间,但一旦模型被训练完,从该模型生成新的声音可以非常快地完成。因此,生成模型可以针对特定声音或声音类型进行训练,并存储在存储器中,在存储器中可以访问该生成模型以快速生成类似于训练声音的新声音。例如,生成模型可以在脚步声的一个或多个训练声音上以本文描述的方式进行训练。然后,该“脚步声模型”可以被存储并例如在视频游戏上下文中使用:每当视频游戏中的角色四处移动时(例如响应于用户输入控制),可以从该模型产生新的脚步声并相应地回放,以便每当角色迈出一步时提供稍微不同的脚步声。视频游戏环境中的事件可以向生成模型触发信号以生成某种类型的新声音。多个不同的生成模型可以被存储在存储器或处理器上,用于生成各种不同的声音。在“离线”生成模型被用于生成分层声音的情况下,请求生成新声音的信号可以包括关于各种声音之间的延迟的信息。例如,在分层脚步声的情况下,脚后跟声和脚尖声之间的延迟可以取决于视频游戏环境中角色移动的速度。如果生成模型是响应于条件的,则可以将诸如视频游戏数据的其他数据发送到已训练的生成模型,以用本文描述的方式影响结果。
50.本公开的一个方面还提供了一种系统,其示意图如图4中所示。系统40包括存储器、资产输入单元、图像生成单元和资产输出单元。资产输入单元、图像生成单元和资产输出单元中的每一个可以位于单一处理器上,或者位于单独的处理器上。可替代地,这些单元可以远距离地位于单独的存储器上,并由连接到主存储器的处理器访问(和操作)。在该示例中,每个单元位于处理器42上。
51.资产输入单元43被配置为以关于步骤s201描述的方式接收多个输入音频资产。图像生成单元44被配置为从资产输入单元43接收输入的多通道图像,并访问生成模型以基于输入的多通道图像来生成新的多通道图像。具体地,图像生成单元44被配置为应用在输入多通道图像上训练的生成模型,通常是基于神经网络的机器学习模型,以按照关于步骤s203描述的方式来生成新图像。图像生成单元44生成包括输出多通道图像的每个通道中的输出图形表示的输出多通道图像。资产输出单元45被配置为从图像生成单元44接收输出多通道图像,并提取每个通道中的输出图形表示。资产输出单元45还被配置为将每个提取的图形表示转换为输出音频资产,以形成输出的多个音频资产。
52.在一些示例中,该系统还可以包括由资产输入单元43和资产输出单元45之一或两者访问的傅立叶变换单元,用于在音频资产和图形表示格式之间进行转换。傅立叶变换单元被配置为对音频资产执行傅立叶变换操作(诸如stft),以将音频文件转换为诸如声谱图的图形表示,并且还被配置为执行逆傅立叶变换操作(诸如istft),以将声谱图从图形表示转换为音频资产。
53.在一些示例中,该系统还可以包括视频游戏数据处理单元。视频游戏数据处理单元被配置为处理从视频游戏环境导出(或与视频游戏环境相关)的数据,并将该数据馈送到资产输入单元、图像生成单元和资产输出单元中的一个或多个单元。在一个示例中,视频游戏数据处理单元基于虚拟环境来生成视频游戏信息,并将视频游戏信息传递给图像生成单元44。然后,图像生成单元使用视频游戏信息作为输入之一,例如通过使用视频游戏信息作为对正在使用的生成模型的条件输入来实现生成模型。在其他示例中,视频游戏数据处理
单元简单地从单独的视频游戏处理器接收视频游戏信息,并将视频游戏信息传递给系统中的一个或多个其他单元。
54.前述讨论仅公开并描述了本发明的示例性实施例。如本领域技术人员将理解的,本发明可以在不脱离其精神或本质特性的情况下以其他特定形式具体体现。因此,本发明的公开旨在说明而不是限制本发明以及其他权利要求的范围。本公开,包括本文教学的任何易于辨别的变体,部分地定义了前述权利要求术语的范围,使得没有任何发明主题是专用于公开的。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献