确定关键帧的方法、装置、存储介质及电子设备与流程

2022-05-06 06:02:40 来源：中国专利 TAG：

1.本公开涉及图像处理技术领域，尤其涉及一种确定关键帧的方法、装置、存储介质及电子设备。

背景技术：

2.随着信息技术的不断发展，视频也成为了现代生活中不可或缺的一种媒体。在视频比较长的情况下，可以为视频内容制作摘要，以方便用户浏览和查找。相关技术中，提取视频中最具代表性的关键帧作为视频摘要是一种直观而有效的方式，因此，如何提取视频中的关键帧成为亟待解决的问题。

技术实现要素：

3.为克服相关技术中存在的问题，本公开提供一种确定关键帧的方法、装置、存储介质及电子设备。
4.根据本公开实施例的第一方面，提供一种确定关键帧的方法，所述方法包括：
5.提取待确定视频中的音频数据；
6.确定所述音频数据对应的文本数据；
7.从所述文本数据中确定多个关键词；
8.确定所述待确定视频对应的多个关键词；
9.从所述待确定视频中，确定与每个所述关键词对应的视频片段；
10.确定每个所述视频片段中的目标帧，并将多个所述目标帧作为所述待确定视频对应的关键帧。
11.在一些实施例中，所述从所述文本数据中确定多个关键词包括：
12.对所述文本数据进行分句处理，得到所述文本数据对应的多个子文本数据；
13.确定每个所述子文本数据对应的至少一个所述关键词。
14.在一些实施例中，在所述从所述待确定视频中，确定与每个所述关键词对应的视频片段前，所述方法还包括：
15.针对每个所述子文本数据，从所述子文本数据对应的至少一个所述关键词中确定目标关键词，以得到所述待确定视频对应的多个所述目标关键词；
16.所述从所述待确定视频中，确定与每个所述关键词对应的视频片段包括：
17.从所述待确定视频中，确定与每个所述目标关键词对应的视频片段。
18.在一些实施例中，所述从所述子文本数据对应的至少一个所述关键词中确定目标关键词包括：
19.针对每个所述关键词，在所述关键词与待定关键词相同的情况下，从至少一个所述关键词中删除所述关键词，以得到所述子文本数据对应的目标关键词，所述待定关键词为所述关键词之前与所述关键词相邻的关键词。
20.在一些实施例中，所述从所述待确定视频中，确定与每个所述关键词对应的视频
片段包括：
21.确定每个所述关键词对应的时间信息；
22.针对每个所述关键词，按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段。
23.在一些实施例中，所述时间信息包括所述关键词在所述待确定视频中的起始时刻和终止时刻；在所述按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段前，所述方法还包括：
24.根据所述起始时刻和所述终止时刻，确定与所述关键词对应的时间段；
25.所述按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段包括：
26.在确定所述时间段大于或等于预设时间段阈值的情况下，按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段。
27.在一些实施例中，所述方法还包括：
28.在确定所述时间段小于所述预设时间段阈值的情况下，根据所述时间段和所述预设时间段阈值之间的差值，确定第一预设时间段和第二预设时间段；
29.根据所述起始时刻和所述第一预设时间段，确定目标起始时刻；
30.根据所述终止时刻和所述第二预设时间段，确定目标终止时刻；
31.所述按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段包括：
32.按照所述目标起始时刻和所述目标终止时刻，确定与所述关键词对应的视频片段。
33.根据本公开实施例的第二方面，提供一种确定关键帧的装置，所述装置包括：
34.音频数据提取模块，被配置为提取待确定视频中的音频数据；
35.文本数据确定模块，被配置为确定所述音频数据对应的文本数据；
36.关键词确定模块，被配置为从所述文本数据中确定多个关键词；
37.视频片段确定模块，被配置为从所述待确定视频中，确定与每个所述关键词对应的视频片段；
38.关键帧确定模块，被配置为确定每个所述视频片段中的目标帧，并将多个所述目标帧作为所述待确定视频对应的关键帧。
39.在一些实施例中，所述关键词确定模块，还被配置为：
40.对所述文本数据进行分句处理，得到所述文本数据对应的多个子文本数据；
41.确定每个所述子文本数据对应的至少一个所述关键词。
42.在一些实施例中，所述装置还包括：
43.目标关键词确定模块，被配置为针对每个所述子文本数据，从所述子文本数据对应的至少一个所述关键词中确定目标关键词，以得到所述待确定视频对应的多个所述目标关键词；
44.所述视频片段确定模块，还被配置为：
45.从所述待确定视频中，确定与每个所述目标关键词对应的视频片段。
46.在一些实施例中，所述目标关键词确定模块，还被配置为：
47.针对每个所述关键词，在所述关键词与待定关键词相同的情况下，从至少一个所述关键词中删除所述关键词，以得到所述子文本数据对应的目标关键词，所述待定关键词
为所述关键词之前与所述关键词相邻的关键词。
48.在一些实施例中，所述视频片段确定模块，还被配置为：
49.确定每个所述关键词对应的时间信息；
50.针对每个所述关键词，按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段。
51.在一些实施例中，所述时间信息包括所述关键词在所述待确定视频中的起始时刻和终止时刻；所述装置还包括：
52.时间段确定模块，被配置为根据所述起始时刻和所述终止时刻，确定与所述关键词对应的时间段；
53.所述视频片段确定模块，还被配置为：
54.在确定所述时间段大于或等于预设时间段阈值的情况下，按照所述关键词对应的时间信息，确定与所述关键词对应的视频片段。
55.在一些实施例中，所述装置还包括：
56.预设时间段确定模块，被配置为在确定所述时间段小于所述预设时间段阈值的情况下，根据所述时间段和所述预设时间段阈值之间的差值，确定第一预设时间段和第二预设时间段；
57.目标起始时刻确定模块，被配置为根据所述起始时刻和所述第一预设时间段，确定目标起始时刻；
58.目标终止时刻确定模块，被配置为根据所述终止时刻和所述第二预设时间段，确定目标终止时刻；
59.所述视频片段确定模块，还被配置为：
60.按照所述目标起始时刻和所述目标终止时刻，确定与所述关键词对应的视频片段。
61.根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所提供的确定关键帧的方法的步骤。
62.根据本公开实施例的第四方面，提供一种电子设备，包括：
63.存储器，其上存储有计算机程序；
64.处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面所提供的确定关键帧的方法的步骤。
65.本公开的实施例提供的技术方案可以包括以下有益效果：通过提取待确定视频中的音频数据；确定所述音频数据对应的文本数据；从所述文本数据中确定多个关键词；从所述待确定视频中，确定与每个所述关键词对应的视频片段；确定每个所述视频片段中的目标帧，并将多个所述目标帧作为所述待确定视频对应的关键帧。也就是说，本公开可以根据待确定视频对应的多个关键词，确定该待确定视频对应的关键帧，这样，无需人工标注，能够更加快速准确地确定视频中的关键帧。
66.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
67.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
68.图1是根据本公开一示例性实施例示出的一种确定关键帧的方法的流程图；
69.图2是根据本公开一示例性实施例示出的另一种确定关键帧的方法的流程图；
70.图3是根据本公开一示例性实施例示出的一种确定关键帧的装置的框图；
71.图4是根据本公开一示例性实施例示出的第二种确定关键帧的装置的框图；
72.图5是根据本公开一示例性实施例示出的第三种确定关键帧的装置的框图；
73.图6是根据本公开一示例性实施例示出的第四种确定关键帧的装置的框图；
74.图7是根据本公开一示例性实施例示出的一种电子设备的框图。
具体实施方式
75.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
76.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
77.首先，对本公开的应用场景进行说明。目前，可以采用纯视觉方法提取视频中的关键帧，示例地，可以对视频中的图像信息进行建模，基于深度学习的方法通过设计深度神经网络来进行视频中图像内容特征的提取，最终根据标注数据进行训练，预测出哪一帧属于关键帧。但是，本公开发明人发现，这种方法缺乏对不同模态信息的利用，往往需要大量的人工标注来进行辅助，成本较高。
78.为了克服以上相关技术中存在的技术问题，本公开提供了一种确定关键帧的方法、装置、存储介质及电子设备，可以根据待确定视频对应的多个关键词，确定该待确定视频对应的关键帧，这样，无需人工标注，能够更加快速准确地确定视频中的关键帧。
79.下面结合具体实施例对本公开进行说明。
80.图1是根据本公开一示例性实施例示出的一种确定关键帧的方法的流程图，可以应用于电子设备，该电子设备可以包括移动设备，例如智能手机，智能可穿戴设备，智能音箱，智能平板，个人计算机等，也可以包括服务器，例如本地服务器或云服务器。如图1所示，该方法可以包括：
81.s101、提取待确定视频中的音频数据。
82.其中，该待确定视频可以是影视剧、体育赛事视频，也可以是视频平台上线的自制视频(长视频、短视频等等)，本公开对该待确定视频的类型不作限定。该音频数据可以是该待确定视频对应的音轨信息。
83.在本步骤中，可以先获取该待确定视频，之后，通过现有技术的方法提取该待确定视频中的音轨信息
84.s102、确定该音频数据对应的文本数据。
85.在本步骤中，在提取该待确定视频中的音轨信息后，可以通过语音识别(asr)中的
wavenet算法将该音轨信息转换为文本数据。
86.s103、从该文本数据中确定多个关键词。
87.在本步骤中，在确定该音频数据对应的文本数据后，可以对该文本数据进行分句处理，得到该文本数据对应的多个子文本数据，并确定每个子文本数据对应的至少一个关键词。示例地，可以通过现有技术的方法对该文本数据进行分句处理，将该文本数据中的每句话作为一个场景，得到该文本数据对应的多个子文本数据。之后，可以通过nlp(natural language processing，自然语言处理)技术中的textrank算法确定每个子文本数据对应的至少一个关键词。
88.s104、从该待确定视频中，确定与每个关键词对应的视频片段。
89.在本步骤中，在确定该待确定视频对应的多个关键词后，可以确定每个关键词对应的时间信息，针对每个关键词，按照该关键词对应的时间信息，确定与该关键词对应的视频片段。
90.s105、确定每个视频片段中的目标帧，并将多个目标帧作为该待确定视频对应的关键帧。
91.在本步骤中，在确定与每个关键词对应的视频片段后，针对每个视频片段，可以提取该视频片段中的任一帧作为该目标帧，得到多个目标帧，之后，将多个目标帧作为该待确定视频对应的关键帧。
92.采用上述方法，可以根据待确定视频对应的多个关键词，确定该待确定视频对应的关键帧，这样，无需人工标注，能够更加快速准确地确定视频中的关键帧。
93.图2是根据本公开一示例性实施例示出的另一种确定关键帧的方法的流程图，如图2所示，该方法可以包括：
94.s201、提取该待确定视频中的音频数据。
95.其中，该待确定视频可以是影视剧、体育赛事视频，也可以是视频平台上线的自制视频(长视频、短视频等等)，本公开对该待确定视频的类型不作限定。该音频数据可以是该待确定视频对应的音轨信息。
96.s202、确定该音频数据对应的文本数据。
97.s203、从该文本数据中确定多个关键词。
98.在一种可能的实现方式中，从该文本数据中确定多个关键词后，可以按照多个关键词在该文本数据中的先后顺序，得到该待确定视频对应的关键词序列。
99.s204、确定每个关键词对应的时间信息。
100.其中，该时间信息可以包括该关键词在该待确定视频中的起始时刻和终止时刻。
101.在本步骤中，从该文本数据中确定多个关键词后，针对每个关键词，可以根据该关键词所属的音频数据的播放时间，确定该关键词在该待确定视频中的起始时刻和终止时刻。示例地，针对每个关键词，可以先根据该关键词序列，确定该关键词所属的目标子文本数据，再确定该目标子文本数据对应的待定时间信息，之后，再根据该待定时间信息确定该关键词在该待确定视频中的起始时刻和终止时刻。
102.s205、针对每个关键词，按照该关键词对应的时间信息，确定该关键词对应的视频片段。
103.需要说明的是，该待确定视频对应的多个关键词中可能存在连续重复的关键词，
根据这两个连续重复的关键词得到的两个连续的目标帧的相似度也比较高，导致最终得到的该待确定视频对应的关键帧存在冗余现象。另外，在该待确定视频对应的关键词序列中，也可能存在与该待确定视频的主题相关性不强的关键词，例如“怎么”、“或者”等关键词，若根据该相关性不强的关键词确定该待确定视频对应的关键帧，则可能会导致得到的该待确定视频对应的关键帧的准确率比较低。基于上述可能出现的情况下，针对每个子文本数据，可以从该子文本数据对应的至少一个关键词中确定目标关键词，以得到该待确定视频对应的多个目标关键词，之后，从该待确定视频中，确定与每个目标关键词对应的视频片段。
104.针对该待确定视频对应的多个关键词中可能存在连续重复的关键词的情况，在第一种可能的实现方式中，针对每个关键词，在该关键词与待定关键词相同的情况下，从至少一个关键词中删除该关键词，以得到该子文本数据对应的目标关键词，该待定关键词为该关键词之前与该关键词相邻的关键词。示例地，若该待确定视频对应的关键词序列中第二个关键词和第三个关键词均为“小猫”，则可以从该关键词序列中删除第三个关键词。。
105.需要说明的是，在该子文本数据包括多个关键词的情况下，也可以将多个关键词输入预先训练的目标关键词确定模型，以获取该目标关键词确定模型输出的该子文本数据对应的目标关键词，其中，该目标关键词确定模型可以通过现有技术的模型训练方法训练得到，此处不再赘述。
106.针对该待确定视频对应的关键词序列中，可能存在与该待确定视频的主题相关性不强的关键词的情况，在一种可能的实现方式中，可以将该待确定视频对应的关键词序列和该待确定视频输入预先训练的关键词权重获取模型，以获取该关键词权重获取模型输出的该关键词序列中的每个关键词对应的关键词权重，之后，可以获取该关键词序列中关键词权重大于或等于预设权重阈值的关联关键词，并按照该关联关键词在该文本数据中的先后顺序，得到该待确定视频对应的目标关键词序列。其中，该关键词权重获取模型可以通过现有技术的模型训练方法训练得到，此处不再赘述。
107.在另一种可能的实现方式中，可以通过预设关键词词表，从该待确定视频对应的关键词序列中滤除与该待确定视频的主题相关性不强的关键词，得到该待确定视频对应的目标关键词序列，其中，该预设关键词词表可以根据该待确定视频的类型预先设置。
108.在本步骤中，在确定每个关键词在该待确定视频中的起始时刻和终止时刻后，可以根据该起始时刻和该终止时刻，确定与该关键词对应的时间段，在确定该时间段大于或等于预设时间段阈值的情况下，按照该关键词对应的时间信息，确定与该关键词对应的视频片段。其中，该预设时间段阈值可以根据试验预先测试得到，示例地，该预设时间段阈值可以是1s。在该时间段大于或等于该预设时间段阈值的情况下，表示该关键词对应的视频片段足够长，可以直接按照该关键词对应的时间信息，确定与该关键词对应的视频片段。
109.在确定该时间段小于该预设时间段阈值的情况下，表示该关键词对应的视频片段比较短，不能够准确反映该关键词对应的场景，导致从该视频片段中提取的关键帧的准确率比较低。在这种情况下，可以增加该视频片段的长度，根据该时间段和该预设时间段阈值之间的差值，确定第一预设时间段和第二预设时间段。
110.示例地，若确定该时间段小于该预设时间段阈值，则可以获取该时间段和该预设时间段阈值之间的差值，根据该差值确定该第一预设时间段和该第二预设时间段，该第一预设时间段和该第二预设时间段可以相同，该第一预设时间段和该第二预设时间段也可以
不同，示例地，若该差值为200ms，则可以将该第一预设时间段和该第二预设时间段均设置为100ms，也可以将该第一预设时间段设置为50ms，将该第二预设时间段设置为150ms，本公开对该第一预设时间段和该第二预设时间段的设置方式不作限定。
111.进一步地，在确定该第一预设时间段和该第二预设时间段后，可以根据该起始时刻和该第一预设时间段，确定目标起始时刻，根据该终止时刻和该第二预设时间段，确定目标终止时刻，之后，按照该目标起始时刻和该目标终止时刻，确定与该关键词对应的视频片段。
112.s206、确定每个视频片段中的目标帧，并将多个目标帧作为该待确定视频对应的关键帧。
113.采用上述方法，可以根据待确定视频对应的多个关键词，确定该待确定视频对应的关键帧，这样，无需人工标注，能够更加快速准确地确定视频中的关键帧，并且该关键词能够区分该待确定视频中不同场景的关键画面，使得确定的该待确定视频的关键帧更加精细，避免了重要信息的遗漏和多余信息的重复处理，进一步提高了关键帧确定的效率。进一步地，在确定该待确定视频对应的多个关键词后，可以从多个关键词中确定目标关键词，并根据该目标关键词确定该待确定视频对应的关键帧，使得确定的关键帧更加准确。
114.图3是根据本公开一示例性实施例示出的一种确定关键帧的装置的框图，如图3所示，该装置可以包括：
115.音频数据提取模块301，被配置为提取待确定视频中的音频数据；
116.文本数据确定模块302，被配置为确定该音频数据对应的文本数据；
117.关键词确定模块303，被配置为从该文本数据中确定多个关键词；
118.视频片段确定模块304，被配置为从该待确定视频中，确定与每个该关键词对应的视频片段；
119.关键帧确定模块305，被配置为确定每个该视频片段中的目标帧，并将多个该目标帧作为该待确定视频对应的关键帧。
120.在一些实施例中，该关键词确定模块302，还被配置为：
121.对该文本数据进行分句处理，得到该文本数据对应的多个子文本数据；
122.确定每个该子文本数据对应的至少一个该关键词。
123.在一些实施例中，图4是根据本公开一示例性实施例示出的第二种确定关键帧的装置的框图，如图4所示，该装置还包括：
124.目标关键词确定模块306，被配置为针对每个该子文本数据，从该子文本数据对应的至少一个该关键词中确定目标关键词，以得到该待确定视频对应的多个该目标关键词；
125.该视频片段确定模块303，还被配置为：
126.从该待确定视频中，确定与每个该目标关键词对应的视频片段。
127.在一些实施例中，该目标关键词确定模块305，还被配置为：
128.针对每个该关键词，在该关键词与待定关键词相同的情况下，从至少一个该关键词中删除该关键词，以得到该子文本数据对应的目标关键词，该待定关键词为该关键词之前与该关键词相邻的关键词。
129.在一些实施例中，该视频片段确定模块303，还被配置为：
130.确定每个该关键词对应的时间信息；
server
tm
，mac os x
tm
，unix
tm
，linux
tm
，freebsd
tm
或类似。
148.本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
149.应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：CSS编译方法、样式更新方法、装置、介质及设备与流程

确定关键帧的方法、装置、存储介质及电子设备与流程

相关文献

最热文献