一种基于可视语义的音效生成方法和装置与流程

2022-04-27 07:51:07 来源：中国专利 TAG：

1.本发明涉及一种基于可视语义的音效生成方法和装置，属于数字媒体和人机交互的交叉领域。

背景技术：

2.音效指的是声音所制造的效果，为增进某一场景的真实感或气氛感而加于声轨上的声音。对于电影、游戏、绘本等多种数字媒体应用来说，在原声和背景音乐的基础上加入与视频内容对应的音效，将极大程度地提升观众的沉浸式体验。拟音是音效创作的其中一种方式，通常是由拟音设计师在无声环境中使用道具创造出来的，这一过程需要利用他们的专业知识来制作与视频中出现的内容同步的拟音，不仅依赖于设计师的思维想象，同时也受到环境条件的限制，创作过程极为费时费力。
3.目前，大部分影视剧的音效依旧按照上述方法完成，音效自动生成技术在影视行业尚未得到广泛应用。这主要是由于现有的音效自动生成方案大都存在以下问题：(1)现有的音效生成技术方案生成的音频音质仍然较差，在音频质量方面仍然有待提升；(2)现有的音效生成技术方案在生成的音效与视频画面同步方面，仍然会出现缺失、冗杂和时间不匹配等现象。
4.从研究上来说，现有的音效自动生成工作都是基于lstm(long short-term memory，长短期记忆网络)的自回归模型，存在训练速度慢，易过拟合，模型不鲁棒等问题。

技术实现要素：

5.本发明的主要目的在于提出一种基于可视语义的音效生成方法和装置，以解决现有的音效生成方案存在的音质较差，音效与视频画面难以完全同步，模型训练速度慢、易过拟合、模型不鲁棒等问题。
6.为解决上述问题，本发明一方面提出了如下技术方案：
7.一种基于可视语义的音效生成方法，包括如下步骤：s1、从待拟音的无声视频中提取包含颜色信息和动作信息在内的视觉特征；s2、利用训练好的并行化非自回归声学模型将所述视觉特征转换为与之匹配的声学特征；s3、利用声码器从所述声学特征中恢复出声音波形，即得到用于拟音的音频文件。
8.进一步地，步骤s1包括：对所述无声视频的每一帧，分别提取所述颜色信息和所述动作信息，然后将所述颜色信息和所述动作信息拼接作为对应帧的所述视觉特征。
9.进一步地，步骤s1中利用预训练好的resnet-50网络作为任务提取器，来分别提取所述颜色信息和所述动作信息；其中，读取当前帧的rgb三通道图像，作为resnet-50网络的三通道输入，得到所述颜色信息；将当前帧以及当前帧的上一帧与下一帧分别提取为灰度图，作为resnet-50网络的三通道输入，得到连续三帧中包含的连续动作，并扩展到每一帧，得到所述动作信息。
10.进一步地，所述并行化非自回归声学模型包含基于transformer模型的编码器和
解码器；其中，基于transformer模型的所述编码器的输入为所述视觉特征，基于transformer模型的所述解码器的输入为所述编码器的输出、类别嵌入和位置编码三者的叠加，所述解码器的输出即为所述声学特征。
11.进一步地，所述声学特征采用线性谱或梅尔谱；所述声码器是基于傅里叶逆变换的声码器或者基于神经网络的声码器。
12.为解决前述问题，本发明另一方面提出了如下技术方案：
13.一种基于可视语义的音效生成装置，包括：视觉特征提取模型，接收待拟音的无声视频作为输入，用于从所述无声视频中提取包含颜色信息和动作信息在内的视觉特征；并行化非自回归声学模型，连接于所述视觉特征提取模型的输出端，用于将所述视觉特征转换为与之匹配的声学特征；以及，声码器，连接于所述并行化非自回归声学模型的输出端，用于从所述声学特征中恢复出声音波形，获得用于拟音的音频文件。
14.进一步地，所述视觉特征提取模型采用预训练好的resnet-50网络来实现，通过resnet-50网络来分别提取所述颜色信息和所述动作信息；再通过将每一帧的所述颜色信息和所述动作信息拼接而形成对应帧的所述视觉特征。
15.进一步地，所述并行化非自回归声学模型包含基于transformer模型的编码器和解码器；其中，基于transformer模型的所述编码器的输入为所述视觉特征，基于transformer模型的所述解码器的输入为所述编码器的输出、类别嵌入和位置编码三者的相加，所述解码器的输出即为所述声学特征。
16.进一步地，所述编码器包括第一线性层和第一transformer模块，其中，所述第一线性层接收所述视觉特征作为输入，其输出加上位置编码后作为所述第一transformer模块的输入，所述第一transformer模块的输出即所述编码器的输出；所述解码器包括第二transformer模块、第二线性层和后处理网络，其中，所述第二transformer模块的输入即所述解码器的输入，所述第二transformer模块的输出作为所述第二线性层的输入，所述第二线性层的输出作为所述后处理网络的输入，所述后处理网络的输出、所述第二线性层的输出与类别平均频谱三者相加作为所述解码器的输出；其中，所述后处理网络由多层卷积层和多层批标准化层组成。
17.进一步地，所述声学特征采用线性谱或梅尔谱；所述声码器是基于傅里叶逆变换的声码器或者基于神经网络的声码器。
18.本发明技术方案的有益效果在于：1)本发明采用并行化的非自回归声学模型，该模型可并行化，极大地提升了训练速度。2)本发明使用的并行化非自回归声学模型结构复杂、参数多，相比于自回归的lstm等模型，学习能力更强，能够更好地拟合视觉特征与声学特征，合成质量更好、更真实的音效。3)本发明使用了类别嵌入信息来实现多类别训练，将各类别数据的标签作为一个查询表，映射到类别嵌入空间，并扩展到编码器、解码器隐层状态的维度，加到编码器的输出上提供类别信息。相比现有的模型自己预测类别信息，本发明避免了预测类别错误而生成错误类别的音效。最终，使得本发明的音效生成方案具备模型训练速度快、音效音质更好、模型鲁棒性好的优点。
附图说明
19.图1是本发明实施例基于可视语义的音效生成过程示意图；
20.图2是本发明实施例基于可视语义的音效生成装置的实际应用流程图；
21.图3是本发明实施例视觉特征提取模型的示意图；
22.图4是本发明实施例基于transformer的非自回归声学模型示意图；
23.图5是transformer模型的结构示意图；
24.图6是本发明实施例后处理网络的结构示意图。
具体实施方式
25.下面结合附图和具体的实施方式对本发明作进一步说明。
26.本发明实施例提出一种基于可视语义的音效生成方法，用于从无声视频中生成出用于视频拟音的音效。本发明实施例同时还提出与该音效生成方法相适应的基于可视语义的音效生成装置。图1为本发明实施例基于可视语义的音效生成过程示意图。请参考图1，所述基于可视语义的音效生成方法，其步骤主要包括：s1、从待拟音的无声视频中提取包含颜色信息和动作信息在内的视觉特征；s2、利用训练好的并行化非自回归声学模型将所述视觉特征转换为与之匹配的声学特征；s3、利用声码器从所述声学特征中恢复出声音波形，即得到用于拟音的音频文件。在此基础上，用户只需将得到的音频文件同步到原始视频的音轨上，即完成原始视频的拟音。也就是说，本发明实施例的音效生成方法，可实现从无声视频中基于可视语义而生成出拟音文件。请继续参考图1，所述基于可视语义的音效生成装置，其网络架构主要由三大部分构成：视觉特征提取模型10、并行化非自回归声学模型20和声码器30；其中，视觉特征提取模型接收待拟音的无声视频作为输入，并可从所述无声视频中提取包含颜色信息和动作信息在内的视觉特征；所述并行化非自回归声学模型连接于所述视觉特征提取模型的输出端，可将所述视觉特征转换为与该视觉特征所含特征内容匹配的声学特征；声码器连接于所述声学模型的输出端，可从所述声学特征中恢复出声音波形，获得用于拟音的音频文件。
27.请参考图1和图3，本发明实施例的视觉特征提取模型，是采用在大规模图像数据集如imagenet预训练好的resnet-50网络来实现。resnet-50作为视觉任务中常用的任务提取器，在图像分类等基础视觉任务上取得了非常好的效果。对于视觉特征的构建，本发明实施例中采用了基于动作帧的动作信息和基于rgb帧的颜色信息两部分来表征连续的视频帧中的内容信息。首先通过cv2等工具，读取完整的视频每一帧图像序列。对于动作信息，本发明实施例将当前视频帧及其上一帧和下一帧均提取为灰度图，作为resnet-50网络的三通道输入，得到连续三帧中包含的连续动作，并扩展到每一帧。对于颜色信息，本发明实施例读取当前视频帧的rgb图像，作为resnet-50网络的三通道输入，得到每一帧的颜色信息。最后将得到的每一帧动作信息和颜色信息拼接，作为每一帧最终的视觉特征。应当理解的是，对于每一帧而言，其rgb帧和动作帧分别通过resnet-50网络提取到的颜色信息和动作信息，其维度是相同的。比如，图3中所示，对同一帧提取出的颜色信息和动作信息，特征维度均为：860
×
2048，进行拼接后得到该帧最终的视觉特征，长度不变仍为860帧，而维度变为两者的叠加，即4096。
28.现有的视觉特征构建是提取了第一帧视频的颜色，而本发明实施例所提出的视觉特征提取模型是在每一个时间步(每一帧)均提取颜色，引入了更多的信息。
29.请参考图1和图4，本发明实施例的并行化非自回归声学模型，可建立在
transformer模型的基础上，该声学模型的编码器和解码器均基于transformer模型来实现。具体而言，如图4所示，该声学模型的输入即为所述视觉特征，视觉特征提取模型所输出的视觉特征，先进入编码器的线性层(全连接层)21，以将视觉特征映射到编码器的隐层维度，然后加上位置编码一同作为编码器中transformer模块22的输入，经过transformer模块22后，学习得到一个从视觉特征编码的中间表示，这个中间表示学习了所输入的视觉特征中包含的视觉信息。该transformer模块22的主要作用在于学习视觉特征中包含的视觉信息，并且将所学到的信息重新编码到新的特征空间，编码后的特征空间是更适合后级解码器进行学习的。所述位置编码采用了正余弦的方式。类别嵌入是数据类别作查表操作，然后扩展到编码器输出的维度，并与编码器的输出(即transformer模块22的输出)和所述位置编码相加，作为解码器的输入。在解码器内，输入首先经过的是解码器的transformer模块23，然后经过另一个线性层24以将特征映射到声学特征的维度(即线性谱或者梅尔谱的维度)，线性层24的输出进入一个后处理网络25，后处理网络25提供了一种残差连接的方式，即线性层24的输出一方面连接到后处理网络25的输入，另一方面还同时连接到后处理网络25的输出端并与后处理网络25的输出相加，再加上类别平均频谱后作为解码器的输出。
30.现有的音效生成工作的声学模型都是自回归模型，而本发明实施例提出了可并行化的非自回归声学模型，该声学模型学习能力更强，并且可以做到并行化，提高了模型的速度；并且，所提出的声学模型基于类别嵌入，引入了类别信息，不需要模型自己预测类别，可以完成多类别音效生成。该并行化的非自回归声学模型，除采用基于transformer模型来实现，还可以采用一些变体形式诸如conformer，或基于变分自编码器(vae)的变体形式等模型来实现。
31.transformer模型的网络结构如图5所示，包括：多头注意力机制模块01，连接于多头注意力机制模块01输出端的加&标准化模块02，连接于加&标准化模块02输出端的一维卷积03，以及连接于一维卷积03输出端的另一个加&标准化模块04。对于transformer模型而言，其输入一方面分为多路进入多头注意力机制模块01、另一方面还同时输入至加&标准化模块02。此外，加&标准化模块02的输出除了送入一维卷积03，还同时送入另一加&标准化模块04。
32.后处理网络25的网络结构如图6所示，主要由多层卷积层和多层批标准化层组成。具体而言，共由5个重复的单元进行串联，每个单元均由一维卷积05和批标准化模块06串联而成；其中，中间三个重复的单元具有相同的参数；而首尾两个单元起到维度变换的作用，具有与中间三个单元不同的参数。对于整个后处理网络25而言，网络输入一方面进入第一个重复单元的一维卷积，另一方面还与最后一个重复单元的批标准化模块的输出进行相加，相加结果作为整个后处理网络的输出。
33.在本发明一种实施例中，对于声学模型所输出的声学特征，采用的是线性谱，也就是频谱，维度为513，即声学模型输出预测频谱；相应地，声码器采用的是傅里叶逆变换的声码器，因为傅里叶逆变换的声码器运行速度快，计算量少，可以快速地把频谱还原成声音信号(声音波形)，得到音频文件。当然，在另一些实施例中，声学特征也可以采用梅尔谱，声码器也可以采用基于神经网络的声码器来恢复出声音波形。
34.继续参考图4，在本发明实施例中，额外引入了每一个类别的平均频谱，作为一个
条件，加在后处理网络25的输出上，然后和真实频谱之间计算平滑l1损失，平滑l1损失如下：下：其中，x表示声学模型生成的频谱(即所述声学特征)，y表示从原始音频中提取的真实频谱，n表示每一个输入模型的迷你批次所包含视频的数量，i表示第i个样本，xi表示第i个样本输入模型后输出得到的频谱，yi表示第i个样本对应的真实频谱。
35.通过加上类别平均频谱，声学模型仅仅预测平均频谱和真实频谱之间的残差损失，该损失作为频谱重构的损失，最小化该损失来使模型生成的频谱更接近真实频谱。最后将生成的频谱通过逆傅里叶变换的声码器恢复成声音信号，完成整个音效生成的流程。其中，真实频谱是从原始视频中提取音频特征而得到。在模型训练阶段，从原始视频中提取的音频特征作为真实频谱即标签来使用，即模型学习的目标。训练的目标是生成与该真实频谱足够接近的频谱。本发明的模型训练，包括视觉特征提取模型和声学模型，采用深度学习框架(如tensorflow、pytorch等)训练即可。
36.本发明实施例基于可视语义的音效生成装置，其产品侧的使用过程非常简单，仅需要用户上传不包含拟音的视频(无声视频)作为输入，在fastfoley系统内，通过本发明的装置即可输出拟音的音频文件，用户将生成的音频文件与输入的无声视频进行同步，即完成拟音。
37.以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种自动降噪装置、座椅及交通工具的制作方法

一种基于可视语义的音效生成方法和装置与流程

相关文献

最热文献