有声视频生成方法、装置、电子设备及存储介质

2023-08-04 06:00:20 来源：中国专利 TAG：

技术特征：
1.一种有声视频生成方法，其特征在于，包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。2.根据权利要求1所述的有声视频生成方法，其特征在于，所述将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频，包括：步骤21，将所述文本标识序列输入至所述自回归音视频序列生成模型，生成所述文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列；步骤22，将所述视频图像帧离散标识序列和音频频谱离散标识序列输入至所述音视频向量量化自编码器的解码器，生成视频图像帧以及音频梅尔频谱；步骤23，将所述生成视频图像帧输入至所述视频插帧模型，合成无声视频；步骤24，将所述音频梅尔频谱输入至所述音频转换模型，合成音频信号；所述无声视频的时长与所述音频信号的时长相匹配；步骤25，将所述无声视频和所述音频信号输入至所述音视频处理工具，生成所述有声视频。3.根据权利要求1所述的有声视频生成方法，其特征在于，所述自回归音视频序列生成模型为自回归式三模态联合transformer神经网络decoder模型；和/或，所述音视频向量量化自编码器为svg-vqgan模型；和/或，所述音频转换模型为hifigan解码器；和/或，所述音视频处理工具为ffmpeg多媒体处理工具；和/或，所述视频插帧模型是基于帧插值神经网络模型构建的。4.根据权利要求2所述的有声视频生成方法，其特征在于，所述音频转换模型，是采用以下步骤训练得到的：步骤101，对每一文本样本对应的音视频样本进行预处理，获取各音视频样本对应的音频信号样本以及视频图像帧样本，并获取各音频信号样本对应的音频梅尔频谱样本；步骤102，将任一所述音频梅尔频谱样本作为待训练音频转换模型的输入，将与所述任一所述音频梅尔频谱样本对应的所述音频信号样本，作为所述待训练音频转换模型的输出标签，对所述待训练音频转换模型进行预训练；迭代执行步骤102，直至完成对所述待训练音频转换模型的预训练，获取训练好的所述音频转换模型。5.根据权利要求4所述的有声视频生成方法，其特征在于，所述步骤101，具体包括：采用预设的采样帧率，对所述音视频样本进行稀疏采样，随机选取多个连续的视频帧构成视频片段，作为所述视频图像帧样本；采用预设的音频采样率，对所述音视频样本进行采样，获取所述音频信号样本；获取所述音频信号样本对应的梅尔频谱；对所述梅尔频谱进行归一化处理，根据所述随机选取多个连续的视频帧的时间戳信息，截取所述梅尔频谱，得到与所述随机选取多个连续的视频帧时间对齐的梅尔频谱片段，
构建所述音频梅尔频谱样本。6.根据权利要求4所述的有声视频生成方法，其特征在于，所述音视频向量量化自编码器的编码器包括视觉编码器和音频编码器，所述音视频向量量化自编码器的解码器包括视觉解码器和音频解码器；所述音视频向量量化自编码器，是采用以下步骤训练得到的：步骤201，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本；步骤202，将所述音频梅尔频谱样本输入至所述音频编码器，获取音频量化编码；将所述音频量化编码输入至所述音频解码器，获取音频梅尔频谱重构样本；步骤203，将所述视频图像帧样本输入至所述视觉编码器，获取视觉量化编码；将所述视觉量化编码输入至所述视觉解码器，获取视频图像帧重构样本；步骤204，利用所述音频梅尔频谱重构样本与所述音频梅尔频谱样本、所述视频图像帧重构样本与所述视频图像帧样本之间的损失，对所述音视频向量量化自编码器进行预训练；迭代执行步骤201至步骤204，直至完成对所述音视频向量量化自编码器的预训练，获取训练好的所述音视频向量量化自编码器；所述损失包括重构损失、量化编码损失、感知损失、对抗损失。7.根据权利要求6所述的有声视频生成方法，其特征在于，在获取所述音频量化编码和获取所述视觉量化编码之前，还包括：获取由所述视觉编码器提取的视觉特征以及由所述音频编码器提取的音频特征；通过跨模态注意力模块关联所述视觉特征和所述音频特征，获取视频图像帧全局特征和音频频谱帧全局特征；利用所述视频图像帧全局特征与所述视觉特征、所述音频频谱帧全局特征与所述音频特征之间的混合对比学习损失，训练所述视觉编码器和所述音频编码器。8.根据权利要求4-7任一项所述的有声视频生成方法，其特征在于，所述自回归音视频序列生成模型，是采用以下步骤训练得到的：步骤301，获取任一文本样本对应的音频梅尔频谱样本以及视频图像帧样本，并获取所述任一文本样本对应的文本标识序列样本；步骤302，将所述音频梅尔频谱样本和所述视频图像帧样本输入至所述音视频向量量化自编码器，获取视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本；步骤303，由所述文本标识序列样本、所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，构建一个三模态联合训练样本；步骤304，利用所述三模态联合训练样本对所述自回归音视频序列生成模型进行自回归训练；迭代执行步骤301至步骤304，直至完成对所述自回归音视频序列生成模型的预训练，获取训练好的所述自回归音视频序列生成模型。9.根据权利要求8所述的有声视频生成方法，其特征在于，所述步骤303，具体包括：按照时间顺序，对所述视频图像帧离散标识序列样本和所述音频频谱离散标识序列样本，进行按帧拼接处理，得到拼接后的双模态标识序列；将所文本标识序列样本和所述双模态标识序列，进行拼接处理，得到拼接后的三模态
标识序列；基于所述拼接后的三模态标识序列和预设序列长度，获取所述三模态联合训练样本。10.根据权利要求1所述的有声视频生成方法，其特征在于，所述对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列，具体包括：基于字节对编码方法，对所述对待推理文本进行编码，得到所述对待推理文本对应的文本标识序列。11.一种有声视频生成装置，其特征在于，包括：文本处理模块，用于对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；视频生成模块，用于将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10任一项所述有声视频生成方法。13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述有声视频生成方法。14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述有声视频生成方法。

技术总结
本发明提供一种有声视频生成方法、装置、电子设备及存储介质，属于计算机技术领域，包括：对待推理文本进行预处理，得到待推理文本对应的文本标识序列；将文本标识序列输入至有声视频生成模型，生成待推理文本对应的有声视频；其中，有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。本发明通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。有效满足用户的使用需求。有效满足用户的使用需求。

技术研发人员：刘静王卫宁刘佳伟
受保护的技术使用者：中国科学院自动化研究所
技术研发日：2023.03.23
技术公布日：2023/8/2

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：有声视频生成方法、装置、电子设备及存储介质

有声视频生成方法、装置、电子设备及存储介质

最热文献