摘要视频的生成方法、装置、设备及存储介质与流程

2022-03-19 23:04:30 来源：中国专利 TAG：

1.本发明涉及数据处理技术领域，尤其涉及一种摘要视频的生成方法、装置、设备及计算机可读存储介质。

背景技术：

2.随着短视频的普及和多媒体处理技术的不断发展，通过短视频进行产品讲解和推广，逐渐成为一种主流的手段。其中，基于幻灯片讲解的短视频是目前使用者较多的一种方式。基于幻灯片讲解的短视频不需要有讲解者的出镜，只需在后台播放幻灯片过程中配合文字或语音进行讲解。但是，基于幻灯片讲解的短视频存在待讲解的幻灯片内容冗余，重点不够突出的问题。因此，为了上述问题，主要通过人工筛查和基于计算机技术的自动筛查两种短视频摘要生成方式。其中，通过人工逐段进行视频筛查的生成方式，生成的短视频摘要内容准确，但摘要生成成本较高，生成效率较低；自动筛查主要基于幻灯片中的文本或语音的语义理解为主，该生成方式的成本较低、生成效率较高，但该方式生成的短视频摘要内容较多，产生了较多冗余信息。因此，如何在提高摘要视频生成效率的同时减少摘要视频的冗余信息成为了目前亟待解决的技术问题。

技术实现要素：

3.本发明的主要目的在于提供一种摘要视频的生成方法、装置、设备及计算机可读存储介质，旨在在提高摘要视频生成效率的同时减少摘要视频的冗余信息的技术问题。
4.为实现上述目的，本发明提供一种摘要视频的生成方法，所述摘要视频的生成方法包括：基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。
5.此外，为实现上述目的，本发明还提供一种摘要视频的生成装置，所述摘要视频的生成装置包括：关联图像筛选模块，用于基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；候选图像筛选模块，用于获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；关键图像筛选模块，用于基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；摘要视频生成模块，用于根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。
6.此外，为实现上述目的，本发明还提供一种摘要视频的生成设备，所述摘要视频的生成设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的摘要视
频的生成程序，其中所述摘要视频的生成程序被所述处理器执行时，实现如上述的摘要视频的生成方法的步骤。
7.此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有摘要视频的生成程序，其中所述摘要视频的生成程序被处理器执行时，实现如上述的摘要视频的生成方法的步骤。
8.本发明提供一种摘要视频的生成方法，所述方法基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。通过上述方式，本发明基于各帧图像之间的相似度，删除关联图像中除首帧图像以及尾帧图像之外的冗余图像，然后基于候选帧图像，即各个关联图像集中首帧图像以及尾帧图像，对应的文案信息，进一步筛选出关键帧图像，根据摘要形态中的主要时间节点以及关键帧图像即可形成摘要视频。由此，避免人工进行视频摘要提取，在提高摘要视频的生成效率的同时，同时减少了摘要视频的冗余图像信息，提升用户体验。
附图说明
9.图1为本发明实施例方案中涉及的摘要视频的生成设备的硬件结构示意图；
10.图2为本发明摘要视频的生成方法第一实施例的流程示意图；
11.图3为本发明摘要视频的生成方法第二实施例的流程示意图；
12.图4为本发明摘要视频的生成方法第三实施例的流程示意图；
13.图5为本发明摘要视频的生成装置第一实施例的功能模块示意图。
14.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
15.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
16.本发明实施例涉及的摘要视频的生成方法主要应用于摘要视频的生成设备，该摘要视频的生成设备可以是pc、便携计算机、移动终端等具有显示和处理功能的设备。
17.参照图1，图1为本发明实施例方案中涉及的摘要视频的生成设备的硬件结构示意图。本发明实施例中，摘要视频的生成设备可以包括处理器1001(例如cpu)，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)；网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)；存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。
18.本领域技术人员可以理解，图1中示出的硬件结构并不构成对摘要视频的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
19.继续参照图1，图1中作为一种计算机可读存储介质的存储器1005可以包括操作系
统、网络通信模块以及摘要视频的生成程序。
20.在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的摘要视频的生成程序，并执行本发明实施例提供的摘要视频的生成方法。
21.本发明实施例提供了一种摘要视频的生成方法。
22.参照图2，图2为本发明摘要视频的生成方法第一实施例的流程示意图。
23.本实施例中，所述摘要视频的生成方法包括以下步骤：
24.步骤s10，基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；
25.本实施例中，可基于待处理视频的视频链接，下载待处理视频，或直接在线上对所述待处理视频进行处理。首先将所述待处理视频按时间轴分离为各帧图像，然后去除各帧图像中的冗余帧图像，从去除冗余帧图像的剩余帧图像进行光学文字识别，提取剩余帧图像中各帧图像的文案信息，并根据各帧图像的文案信息，在剩余帧图像中确定关键帧图像。将关键帧图像插入预设摘要形态中的各个主要时间节点，由此生成所述待处理视频的摘要视频。
26.具体地，将所述待处理视频按照视频播放时间轴分离为各帧图像，并将相似图像作为一个关联图像集。
27.其中，所述步骤s10包括：
28.基于视频帧提取算法，将所述待处理视频按照所述视频播放时间轴进行分离，并生成至少两帧图像；
29.计算各帧图像两两之间的相似度，将相似度超过预设相似度阈值的各帧图像作为关联图像集，并生成各个所述关联图像集。
30.具体地，通过预先训练好的深度学习模型，例如，深度卷积神经网络vggnet、深度残差网络resnet、深度级可分离卷积网络mobilenet等)，提取各帧图像的图像级别特征，然后通过加权结合欧式距离或切比雪夫距离等距离函数，结合实际场景设置的加权权重设定距离函数公式，分别计算各帧图像中两两图像的图像级别特征之间的相似度。
31.在两帧图像之间的相似度不大于预设相似度阈值时，则将该两帧图像添加至一关联图像集中，例如，第一帧图像与第二帧图像的相似度不大于预设相似度阈值，则将第一帧图像与第二帧图像添加至第一关联图像集；第一帧图像与第三帧图像的相似度不大于预设相似度阈值，则将所述第三帧图像添加至所述第一关联图像集，依次类推，直至将相似度不大于预设相似度阈值的各帧图像添加至同一关联图像集。由此，生成各帧图像对应的各个关联图像集。
32.进一步地，所述步骤s10之前，还包括：
33.获取所述待处理视频，并基于所述待处理视频的时长，判断所述待处理视频是否属于有效视频；
34.在所述待处理视频不属于所述有效视频时，获取下一视频，作为所述待处理视频；
35.在所述待处理视频属于所述有效视频时，执行：基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成至少一个关联图
像集。
36.具体地，在获取到所述待处理视频时，判断所述待处理视频是否属于有效视频，即将所述待处理视频的时长与预设有效视频时长进行比对。时长低于有效视频时长(不小于摘要视频时长)的视频，即为无效视频。在所述待处理视频属于有效视频时，则按照视频播放时间轴，将所述待处理视频分离为各帧图像。由此，直接过滤掉时长不足以生成摘要视频的视频，提高摘要视频的生成效率。
37.步骤s20，获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；
38.本实施例中，关联图像集中存储的为多帧相似图像，可保留各个关联图像集中的首帧图像以及尾帧图像，并删除各个关联图像集中的冗余帧图像，即除首帧图像以及尾帧图像之外的其他帧图像。然后获取各个关联图像集中的首帧图像以及尾帧图像，作为候选帧图像。其中，根据一个关联图像集的各帧图像在视频播放时间轴中的播放顺序，将第一个播放的图像作为首帧图像，将最后一个播放的图像作为尾帧图像。
39.步骤s30，基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；
40.本实施例中，根据光学文字识别技术ocr对各个候选帧图像进行文字识别，例如，通过在聊天通讯软件中长按图片进行文字识别提取，或办公软件office中的onenote插件进行图片中的文字提取，还可以直接在微信小程序中搜索图片文字识别小程序，通过识别小程序进行文字识别与提取，还可以通过ocr文字识别软件进行文字识别提取。提取各帧图像的文案信息后，如文案中的文字个数以及文字大小等。删除没有文案信息及文案文字个数低于预设个数阈值的候选帧，并将其他文字个数超过预设个数阈值的各帧图像作为相关帧图像。将文字大小超过预设预设大小阈值的相关帧图像，作为关键帧图像。
41.步骤s40，根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。
42.本实施例中，根据实际需求和预设摘要形态，对关键帧图像进行重新组合，生成所述待处理对应的摘要视频。
43.本实施例提供一种摘要视频的生成方法，所述方法基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。通过上述方式，本实施例基于各帧图像之间的相似度，删除关联图像中除首帧图像以及尾帧图像之外的冗余图像，然后基于候选帧图像，即各个关联图像集中首帧图像以及尾帧图像，对应的文案信息，进一步筛选出关键帧图像，根据摘要形态中的主要时间节点以及关键帧图像即可形成摘要视频。由此，避免人工进行视频摘要提取，在提高摘要视频的生成效率的同时，同时减少了摘要视频的冗余图像信息，提升用户体验。
44.参照图3，图3为本发明摘要视频的生成方法第二实施例的流程示意图。
45.基于上述图2所示实施例，本实施例中，所述步骤s30具体包括：
46.步骤s31，对所述候选帧图像进行文字识别，并获取各个所述候选帧图像对应的各个文案信息，其中，所述文案信息包括文字个数以及文字大小；
47.步骤s32，在各个所述候选帧图像中，确定文字个数超过预设个数阈值的相关帧图像；
48.步骤s33，在各个所述相关帧图像中，确定文字大小超过预设大小阈值的关键帧图像。
49.本实施例中，根据光学文字识别技术，对各个候选帧图像进行文字识别，提取各帧图像的文案信息，如文案中的文字个数以及文字大小等。在各个关键帧图像中确定超过预设大小阈值的字体文案对应的关键帧图像，例如，在各个关键帧图像中确定文字个数最多、字体最大的图像，作为关键帧图像。具体实施例中，可具体根据上述关键帧图像的文案关键字确定引言起始帧、标题帧(即主要内容大标题帧)及总结结束帧，作为所述关键帧图像。
50.参照图4，图4为本发明摘要视频的生成方法第三实施例的流程示意图。
51.基于上述图3所示实施例，本实施例中，所述步骤s30还包括：
52.步骤s34，对所述候选帧图像进行文字识别，并获取各个所述候选帧图像对应的关键字、文字位置以及文字重复率，作为所述文案信息；
53.步骤s35，根据各个所述候选帧图像的关键字、文字位置以及文字重复率，在各个所述关键帧图像中，确定引言起始帧图像、标题帧图像以及总结结束帧图像，作为所述关键帧图像。
54.本实施例中，在各个关键帧图像中确定引言起始帧、标题帧(即主要内容大标题帧)及总结结束帧后，将剩余的关键帧根据图像中的文案关键字与引言起始帧、标题帧(即主要内容大标题帧)及总结结束帧进行匹配，并结合剩余关键帧在视频播放时间轴中的播放顺序，依次确定剩余关键帧，即引言起始帧图像、标题帧图像或总结结束帧图像之一。如文字位于图像顶部或中部等位置，且文案包括欢迎等关键字的关键帧图像，作为引言起始帧图像；包括重复率较高的文字，且包括第一章、第二章等关键字的图像，作为标题帧图像；文字位于图像顶部或中部等位置，且文案包括谢谢等关键字的关键帧图像，作为总结结束帧。
55.进一步地，在各个标题帧图像中，根据字体大小，确定各级标题帧图像，如最大字体对应的图像，作为主要内容大标题帧图像，第二大字体对应的图像，作为下一级分节的小标题帧图像等。
56.进一步地，所述步骤s40具体包括：
57.将各个所述关键帧图像插入所述主要时间节点，并在相邻节点的所述关键帧图像之间，插入预设过渡帧图像，生成所述摘要视频。
58.其中，所述将各个所述关键帧图像插入所述主要时间节点，并在相邻节点的所述关键帧图像之间，插入预设过渡帧图像，生成所述摘要视频具体包括：
59.在所述主要时间节点中的引言节点插入所述引言起始帧图像，在所述主要时间节点中的标题节点插入标题帧图像，并在所述主要时间节点中的总结节点插入所述总结结束帧图像；
60.在相邻的引言起始帧图像与标题帧图像之间和/或相邻的标题帧图像与总结结束帧图像之间插入所述过渡帧图像。
61.本实施例中，首先确定摘要形态，包括但不限于ppt讲解视频形式、h5动画视频形式等，在确定的摘要形态对应的各个主要时间节点，包括但不限于摘要的总体引言节点、摘要主要内容的引入节点(包括主要内容的各个分节节点)、各分节的开始和结束节点以及摘要的总结和结束节点。在各个主要时间节点，分别插入对应的关键帧图像(即摘要的总体引言节点插入引言起始帧图像，摘要主要内容的引入节点以及各个分节节点插入标题帧图像以及各分解标题帧图像，摘要的总结和结束节点插入总结结束帧图像等)。
62.具体实施例中，还可以在相邻的关键帧之间(如引言起始帧图像之间、标题帧图像之间、总结结束帧图像之间、引言起始帧图像与标题帧图像之间、引言起始帧图像与总结结束帧图像之间和/或标题帧图像与总结结束帧图像之间)插入过渡帧图像，包括但不限于过长动画图像或其他非关键帧图像等，由此，生成所述摘要视频。
63.此外，本发明实施例还提供一种摘要视频的生成装置。
64.参照图5，图5为本发明摘要视频的生成装置第一实施例的功能模块示意图。
65.本实施例中，所述摘要视频的生成装置包括：
66.关联图像筛选模块10，用于基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成关联图像集，其中，所述关联图像集中各帧图像之间的相似度超过预设相似度阈值；
67.候选图像筛选模块20，用于获取各个所述关联图像集中的首帧图像以及尾帧图像，作为候选帧图像；
68.关键图像筛选模块30，用于基于各个所述候选帧图像对应的各个文案信息，在各个所述候选帧图像中确定关键帧图像；
69.摘要视频生成模块40，用于根据预设摘要形态中的主要时间节点以及所述关键帧图像，生成所述待处理视频的摘要视频。
70.进一步地，所述关联图像筛选模块10具体包括：
71.视频分离提取单元，用于基于视频帧提取算法，将所述待处理视频按照所述视频播放时间轴进行分离，并生成至少两帧图像；
72.第一图像筛选单元，用于计算各帧图像两两之间的相似度，将相似度超过预设相似度阈值的各帧图像作为关联图像集，并生成各个所述关联图像集。
73.进一步地，所述关键图像筛选模块30具体包括：
74.图像文字识别单元，用于对所述候选帧图像进行文字识别，并获取各个所述候选帧图像对应的各个文案信息，其中，所述文案信息包括文字个数以及文字大小；
75.相关图像筛选单元，用于在各个所述候选帧图像中，确定文字个数超过预设个数阈值的相关帧图像；
76.关键图像筛选单元，用于在各个所述相关帧图像中，确定文字大小超过预设大小阈值的关键帧图像。
77.进一步地，所述关键图像筛选模块30具体包括：
78.文案信息提取单元，用于对所述候选帧图像进行文字识别，并获取各个所述候选帧图像对应的关键字、文字位置以及文字重复率，作为所述文案信息；
79.第二图像筛选单元，用于根据各个所述候选帧图像的关键字、文字位置以及文字重复率，在各个所述关键帧图像中，确定引言起始帧图像、标题帧图像以及总结结束帧图
像，作为所述关键帧图像。
80.进一步地，所述摘要视频生成模块40具体包括：
81.摘要视频生成单元，用于将各个所述关键帧图像插入所述主要时间节点，并在相邻节点的所述关键帧图像之间，插入预设过渡帧图像，生成所述摘要视频。
82.进一步地，所述摘要视频生成单元具体包括：
83.图像插入子单元，用于在所述主要时间节点中的引言节点插入所述引言起始帧图像，在所述主要时间节点中的标题节点插入标题帧图像，并在所述主要时间节点中的总结节点插入所述总结结束帧图像；
84.视频生成子单元，用于在相邻的引言起始帧图像与标题帧图像之间和/或相邻的标题帧图像与总结结束帧图像之间插入所述过渡帧图像。
85.进一步地，所述摘要视频的生成装置还包括视频筛选模块，所述视频筛选模块具体包括：
86.有效视频判断单元，用于获取所述待处理视频，并基于所述待处理视频的时长，判断所述待处理视频是否属于有效视频；
87.无效视频过滤单元，用于在所述待处理视频不属于所述有效视频时，获取下一视频，作为所述待处理视频；
88.有效视频处理单元，用于在所述待处理视频属于所述有效视频时，转入所述关联徒刑筛选模块，用于执行：基于视频播放时间轴将待处理视频进行分离，生成至少两帧图像，并基于各帧图像两两之间的相似度，生成至少一个关联图像集。
89.其中，上述摘要视频的生成装置中各个模块与上述摘要视频的生成方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。
90.此外，本发明实施例还提供一种计算机可读存储介质。
91.本发明计算机可读存储介质上存储有摘要视频的生成程序，其中所述摘要视频的生成程序被处理器执行时，实现如上述的摘要视频的生成方法的步骤。
92.其中，摘要视频的生成程序被执行时所实现的方法可参照本发明摘要视频的生成方法的各个实施例，此处不再赘述。
93.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
94.上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
95.本技术可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境
中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
96.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。
97.以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种数字孪生模型多时空尺度融合方法和系统与流程

摘要视频的生成方法、装置、设备及存储介质与流程

相关文献

最热文献