视频文本生成方法、装置、设备及存储介质与流程

2021-11-09 21:27:00 来源：中国专利 TAG：

技术特征：
1.一种视频文本生成方法，其特征在于，所述视频文本生成方法包括：获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。2.根据权利要求1所述的视频文本生成方法，其特征在于，所述获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧，包括：从预置的视频数据库中查找待处理的目标视频；按照预设目标值对所述目标视频进行分帧，得到多个原始视频帧；基于预置变化率函数对所述多个原始视频帧进行变化率计算，得到目标变化率；根据所述目标变化率对所述多个原始视频帧进行动态调整，得到多个初始视频帧。3.根据权利要求1所述的视频文本生成方法，其特征在于，所述计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧，包括：调用预置的包含关系函数对多个初始视频帧进行计算，得到多个初始视频帧之间的包含关系；获取每一初始视频帧的条目，得到每一视频帧对应的目标条目；基于每一视频帧对应的目标条目和所述包含关系，对所述多个视频帧进行去重，得到多个标准视频帧。4.根据权利要求1所述的视频文本生成方法，其特征在于，所述调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息，包括：通过预置的文字识别模型分别对所述多个标准视频帧进行文本框标注，得到每一标准视频帧对应的文本框；通过预置的文字识别模型对每一标准视频帧对应的文本框进行文本提取，得到每一标准视频帧对应的文字信息。5.根据权利要求1所述的视频文本生成方法，其特征在于，所述对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据，包括：通过预置的语言模型对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据；对所述初始文本数据进行去除重复内容，得到无重复文本数据；对所述无重复文本数据进行分类，得到标准文本数据。6.根据权利要求1所述的视频文本生成方法，其特征在于，所述提取所述目标视频的音
频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据，包括：通过预置的自动语音识别模型对所述目标视频进行音频提取，得到目标音频数据；将所述目标音频数据进行文本转换，得到多个短句文本；对所述多个短句文本进行拼接，得到语音文本数据。7.根据权利要求1
‑
6中任一项所述的视频文本生成方法，其特征在于，所述对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据，包括：获取所述语音文本数据对应的时间戳，并根据所述时间戳中的时间信息对所述标准文本数据和所述语音文本数据进行拼接，得到拼接文本数据；基于预置的段落信息，对所述拼接文本数据进行去重，得到目标文本数据。8.一种视频文本生成装置，其特征在于，所述视频文本生成装置包括：获取模块，用于获取待处理的目标视频，并对所述目标视频进行预处理，得到多个初始视频帧；去重模块，用于计算所述多个初始视频帧之间的包含关系，并根据所述包含关系对所述多个初始视频帧进行去重，得到多个标准视频帧；提取模块，用于调用预置的文字识别模型分别对每个所述标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；处理模块，用于对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对所述初始文本数据进行标准化处理，得到标准文本数据；转换模块，用于提取所述目标视频的音频数据，得到目标音频数据，并对所述目标音频数据进行文本转换，得到语音文本数据；融合模块，用于对所述语音文本数据和所述标准文本数据进行文本融合，得到目标文本数据。9.一种视频文本生成设备，其特征在于，所述视频文本生成设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述视频文本生成设备执行如权利要求1
‑
7中任一项所述的视频文本生成方法。10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1
‑
7中任一项所述的视频文本生成方法。

技术总结
本发明涉及人工智能领域，公开了一种视频文本生成方法、装置、设备及存储介质，用于提高视频文本生成的准确率。所述视频文本生成方法包括：调用预置的文字识别模型分别对每个标准视频帧进行信息提取，得到每一标准视频帧对应的文字信息；对每一标准视频帧对应的文字信息进行拼接，得到初始文本数据，并对初始文本数据进行标准化处理，得到标准文本数据；提取目标视频的音频数据，得到目标音频数据，并对目标音频数据进行文本转换，得到语音文本数据；对语音文本数据和标准文本数据进行文本融合，得到目标文本数据。此外，本发明还涉及区块链技术，目标文本数据可存储于区块链节点中。目标文本数据可存储于区块链节点中。目标文本数据可存储于区块链节点中。

技术研发人员：王异秀
受保护的技术使用者：平安国际智慧城市科技股份有限公司
技术研发日：2021.08.11
技术公布日：2021/11/8

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于数字化设计的变电站逻辑模型移交方法与流程

视频文本生成方法、装置、设备及存储介质与流程

相关文献

最热文献