一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于可视语义的音效生成方法和装置与流程

2022-04-27 07:51:07 来源:中国专利 TAG:

技术特征:
1.一种基于可视语义的音效生成方法,其特征在于,包括如下步骤:s1、从待拟音的无声视频中提取包含颜色信息和动作信息在内的视觉特征;s2、利用训练好的并行化非自回归声学模型将所述视觉特征转换为与之匹配的声学特征;s3、利用声码器从所述声学特征中恢复出声音波形,即得到用于拟音的音频文件。2.如权利要求1所述的基于可视语义的音效生成方法,其特征在于,步骤s1包括:对所述无声视频的每一帧,分别提取所述颜色信息和所述动作信息,然后将所述颜色信息和所述动作信息拼接作为对应帧的所述视觉特征。3.如权利要求2所述的基于可视语义的音效生成方法,其特征在于:步骤s1中利用预训练好的resnet-50网络作为任务提取器,来分别提取所述颜色信息和所述动作信息;其中,读取当前帧的rgb三通道图像,作为resnet-50网络的三通道输入,得到所述颜色信息;将当前帧以及当前帧的上一帧与下一帧分别提取为灰度图,作为resnet-50网络的三通道输入,得到连续三帧中包含的连续动作,并扩展到每一帧,得到所述动作信息。4.如权利要求1所述的基于可视语义的音效生成方法,其特征在于:所述并行化非自回归声学模型包含基于transformer模型的编码器和解码器;其中,基于transformer模型的所述编码器的输入为所述视觉特征,基于transformer模型的所述解码器的输入为所述编码器的输出、类别嵌入和位置编码三者的相加,所述解码器的输出即为所述声学特征。5.如权利要求1所述的基于可视语义的音效生成方法,其特征在于:所述声学特征采用线性谱或梅尔谱;所述声码器是基于傅里叶逆变换的声码器或者基于神经网络的声码器。6.一种基于可视语义的音效生成装置,其特征在于,包括:视觉特征提取模型,接收待拟音的无声视频作为输入,用于从所述无声视频中提取包含颜色信息和动作信息在内的视觉特征;并行化非自回归声学模型,连接于所述视觉特征提取模型的输出端,用于将所述视觉特征转换为与之匹配的声学特征;以及,声码器,连接于所述并行化非自回归声学模型的输出端,用于从所述声学特征中恢复出声音波形,获得用于拟音的音频文件。7.如权利要求6所述的基于可视语义的音效生成装置,其特征在于:所述视觉特征提取模型采用预训练好的resnet-50网络来实现,通过resnet-50网络来分别提取所述颜色信息和所述动作信息;再通过将每一帧的所述颜色信息和所述动作信息拼接而形成对应帧的所述视觉特征。8.如权利要求6所述的基于可视语义的音效生成装置,其特征在于:所述并行化非自回归声学模型包含基于transformer模型的编码器和解码器;其中,基于transformer模型的所述编码器的输入为所述视觉特征,基于transformer模型的所述解码器的输入为所述编码器的输出、类别嵌入和位置编码三者的相加,所述解码器的输出即为所述声学特征。9.如权利要求8所述的基于可视语义的音效生成装置,其特征在于:所述编码器包括第一线性层和第一transformer模块,其中,所述第一线性层接收所述视觉特征作为输入,其输出加上位置编码后作为所述第一transformer模块的输入,所述第一transformer模块的输出即所述编码器的输出;所述解码器包括第二transformer模块、第二线性层和后处理网络,其中,所述第二transformer模块的输入即所述解码器的输入,所述第二transformer模
块的输出作为所述第二线性层的输入,所述第二线性层的输出作为所述后处理网络的输入,所述后处理网络的输出、所述第二线性层的输出与类别平均频谱三者相加作为所述解码器的输出;其中,所述后处理网络由多层卷积层和多层批标准化层组成。10.如权利要求6所述的基于可视语义的音效生成装置,其特征在于:所述声学特征采用线性谱或梅尔谱;所述声码器是基于傅里叶逆变换的声码器或者基于神经网络的声码器。

技术总结
本发明公开了一种基于可视语义的音效生成方法和装置,包括:视觉特征提取模型,接收待拟音的无声视频作为输入,用于从所述无声视频中提取包含颜色信息和动作信息在内的视觉特征;声学模型,连接于所述视觉特征提取模型的输出端,用于将所述视觉特征转换为与之匹配的声学特征;以及,声码器,连接于所述声学模型的输出端,用于从所述声学模型中恢复出声音波形,获得用于拟音的音频文件。获得用于拟音的音频文件。获得用于拟音的音频文件。


技术研发人员:吴志勇 张露文 李思磐 董宸宇 孙立发 李坤 薛媛
受保护的技术使用者:深圳市声希科技有限公司 杭州星合尚世影视传媒有限公司
技术研发日:2021.12.20
技术公布日:2022/4/26
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献