一种视频的生成方法和计算机设备与流程

2022-06-05 21:05:48 来源：中国专利 TAG：

1.本技术涉及视频处理技术领域，特别是涉及一种视频的生成方法和计算机设备。

背景技术：

2.视频制作是一个复杂的过程，想要得到一个质量高的视频，需要整理图像，选择合适的音频，再确定图像的插入点。这个过程对制作人的技术能力有比较很高的要求。
3.对于不具备视频制作技术的普通人来说，通常是手动选择图像，加上背景音频以幻灯片的形式进行播放，通过这种方式得到的视频，表现力差，质量不高。
4.因此，现有技术有待改进。

技术实现要素：

5.本发明提供了一种视频的生成方法和计算机设备，以实现让相似的图像连续播放，并且每一张图像均在音频的节拍点插入，可以提高视频的表现力，得到质量更好的视频。
6.第一方面，本发明实施例提供了一种视频的生成方法，包括：
7.获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
8.基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
9.在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
10.在进一步的改进方案中，所述基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点，具体包括：
11.基于所述图像集中任意两张图像之间的相似度，对所述若干图像进行排序，以得到图像插入序列；
12.获取所述音频的若干节拍点；
13.根据所述图像插入序列、所述若干节拍点和所述音频确定所述图像插入序列中每张图像各自对应的目标节拍点，其中，所述目标节拍点是所述音频的若干节拍点中用于插入图像的节拍点。
14.在进一步的改进方案中，所述基于所述图像集中任意两张图像之间的相似度，对所述若干图像进行排序，以得到图像插入序列，具体包括：
15.在所述图像集中选取一张起始图像，将所述起始图像的插入序号设定为第一序号；
16.确定所述起始图像对应的非起始图像集，其中，所述非起始图像集包括若干非起始图像；
17.基于每一张非起始图像与所述起始图像之间的相似度确定所述起始图像对应的候选图像，将所述候选图像的插入序号设定为所述起始图像的插入序号的后一序号；
18.将所述候选图像作为起始图像，并继续执行所述确定所述起始图像对应的非起始
图像集的步骤，直至确定所述图像集中所有图像各自对应的插入序号；
19.根据所述图像集中所有图像各自对应的插入序号确定所述图像集对应的图像插入序列。
20.在进一步的改进方案中，所述确定所述起始图像对应的非起始图像集，具体包括：
21.对于所述起始图像，在所述图像集中选取所有未确定插入序号的图像，以得到所述起始图像对应的非起始图像集。
22.在进一步的改进方案中，所述基于所述非起始图像集中每一张非起始图像与所述起始图像之间的相似度确定所述起始图像对应的候选图像，具体包括：
23.分别计算所述非起始图像集中每一张非起始图像与所述起始图像之间的相似度，以得到相似度集；
24.在所述相似度集中选取最大相似度，并将所述最大相似度对应的图像作为所述起始图像对应的候选图像。
25.在进一步的改进方案中，所述根据所述图像插入序列、所述若干节拍点和所述音频确定所述图像插入序列中每张图像各自对应的目标节拍点，具体包括：
26.获取所述音频对应的音频时长，以及所述若干图像的图像数量；
27.根据所述图像数量和所述音频时长确定所述图像插入序列中每每张图像各自对应的图像插入点，其中，所述相邻两个图像插入点之间的时长为根据所述音频时长与所述图像数量所确定的；
28.根据所述若干图像插入点和所述若干节拍点确定所述若干图像各自对应的目标节拍点。
29.在进一步的改进方案中，所述根据所述若干图像插入点和所述若干节拍点确定所述若干图像各自对应的目标节拍点，具体包括：
30.对于每一个图像插入点，在所述若干节拍点中确定与该图像插入点距离最近的节拍点，并将所述与该图像插入点距离最近的节拍点作为该图像插入点对应的图像的目标节拍点。
31.在进一步的改进方案中，所述在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频，具体包括：
32.对于每个目标节拍点，在所述音频的播放时刻到达该目标节拍点处时，插入该目标节拍点对应的图像，并将该图像作为该目标节拍点和下一目标节拍点之间播放的图像帧。
33.在进一步的改进方案中，所述获取待处理的图像集，并基于所述图像集中任意两张图像之间的相似度确定图像插入序列之前，还包括：
34.获取原始图像集，其中，所述原始图像集中包括多张原始图像，所述多张原始图像中包括至少一张模板图像；
35.确定提取所述原始图像集中每张原始图像对应的目标特征图；
36.基于确定的所有目标特征图将所述原始图像集划分为不同类别的原始图像子集；
37.将包括所述模板图像的任意一个原始图像子集作为所述待处理的图像集。
38.第二方面，本发明提供了一种视频生成装置，包括：
39.获取单元，用于获取待处理的图像集和待处理的音频，其中，所述图像集包括若干
图像；
40.目标节拍点确定单元，用于基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
41.视频生成单元，用于在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
42.第三方面，本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
43.获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
44.基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
45.在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
46.第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
47.获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
48.基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
49.在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
50.与现有技术相比，本发明实施例具有以下优点：
51.本发明提供了一种视频的生成方法，包括：获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。在本发明中，每一张图像均在音频的节拍点插入，可以提高视频的表现力，得到质量更好的视频。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
53.图1为本发明实施例中一种视频的生成方法的流程示意图；
54.图2为本发明实施例中特征提取网络的示意图；
55.图3为本发明实施例中一种视频生成装置的结构示意图；
56.图4为本发明实施例中计算机设备的内部结构图。
具体实施方式
57.为了使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
58.本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一
个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
59.本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
60.发明人经过研究发现，视频制作是一个复杂的过程，想要得到一个质量高的视频，需要整理图像，选择合适的音频，再确定图像的插入点。这个过程对制作人的技术能力有比较很高的要求。对于不具备视频制作技术的普通人来说，通常是手动选择图像，加上背景音频以幻灯片的形式进行播放，通过这种方式得到的视频，表现力差，质量不高。
61.为了解决上述问题，在本发明实施例中，获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。在本发明中，每一张图像均在音频的节拍点插入，可以提高视频的表现力，得到质量更好的视频。
62.本发明实施例提供的一种视频的生成方法可以应用于电子设备，所述电子设备可以包括：包括pc机、电视机、服务器、手机、平板电脑、掌上电脑、个人数字助理(personal digital assistant，pda)等。
63.下面结合附图，通过对实施例的描述，对发明内容作进一步说明。
64.参阅图1，本实施例提供了一种视频的生成方法，包括：
65.s1、获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像。
66.在本发明实施例中，所述待处理的图像集中包括用于生成视频的若干图像。所述待处理的图像集可以是执行所述视频的生成方法的终端采集的，或者所述待处理的图像集可以是从第三方设备获取的，或者所述待处理的图像集中的图像部分来自于第三方设备，部分为终端采集。
67.在本发明实施例中，所述音频用于生成视频，为了得到更好的视频效果，所述音频可以是音乐对应的音频，将音频作为视频的背景音乐。
68.在本发明实施例中，为了使待处理的图像集中的图像风格相似，得到画面更和谐的视频，可以限定所述图像集中的图像属于同一类别。具体的，可以在原始图像集中选择属于同一类别的图像，将选取的属于同一类别的图像作为待处理的图像集。
69.具体的，在步骤s1之前，包括：
70.m1、获取原始图像集，其中，所述原始图像集中包括多张原始图像，所述多张原始图像中包括至少一张模板图像。
71.在本发明实施例中，所述原始图像集中包括多张原始图像，同样的，所述原始图像
可以是从网络获取的，或者原始图像可以是终端采集的。多张原始图像中包括至少一张模板图像。在多张原始图像中选取用于生成视频的图像时，模板图像的优先级高于非模板图像的优先级，所述非模板图像是指多张原始图像中除了模板图像以外的其他原始图像；也就是说，对于一张模板图像和一张非模板图像，可以选择模板图像作为生成视频的图像。
72.所述模板图像可以是用户自定义选择，即用户在多张原始图像中指定模板图像，模板图像可以是用户最喜欢的原始图像，表示用户最希望视频中出现模板图像。所述模板图像可以是多张。
73.m2、确定所述原始图像集中每张原始图像对应的目标特征图。
74.在本发明实施例中，可以通过神经网络模型确定每张原始图像对应的目标特征图。所述目标特征图是图像尺寸为1*1的多通道图像(只有一个像素点)，所述目标特征图可以通过向量表示，向量的维度与目标特征图的通道数相同，向量中一个维度的数值为像素点在该维度对应的通道中的像素值。
75.将一张原始图像输入将神经网络模型，神经网络模型的输出项则是该原始图像对应的目标特征图。所述神经网络模型包括特征提取模块和全连接模块；将原始图像输入通过特征提取模块，以得到原始图像对应的特征图，将特征图输入全连接模块，全连接模块的输出项为目标特征图。
76.在本发明实施例中，输入神经网络模型的原始图像的图像尺寸需要满足神经网络模型的输入要求，需要预先将所有原始图像的图像尺寸调整为预设尺寸。例如，所述预设尺寸为224*224。
77.在具体实施时，所述神经网络模型可以是vgg16网络模型。用于生成特征图集的特征提取网络如图2所示，所述神经网络模型包括五个特征提取模块和一个全连接模块，其中，五个特征提取模块包括：第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块和第五特征提取模块。
78.第一特征提取模块包括：第一卷积层c1、第二卷积层c2和第一池化层p1；c1和c2的卷积核的大小均为3*3*3，c1和c2的卷积核的个数均为64，p1的参数为2*2；所述第一特征提取模块的输入项为一原始图像，所述第一特征提取模块提取原始图像的特征，以得到第一特征图。
79.第二特征提取模块包括：第三卷积层c3、第四卷积层c4和第二池化层p2；c3和c4的卷积核的大小均为3*3*3，c3和c4的卷积核的个数均为128，p2的参数为2*2；所述第二特征提取模块的输入项为第一特征图，所述第二特征提取模块提取所述第一特征图的特征，以得到第二特征图。
80.第三特征提取模块包括：第五卷积层c5、第六卷积层c6、第七卷积层c7和第三池化层p3；c5、c6和c7的卷积核的大小均为3*3*3，c5、c6和c7的卷积核的个数均为256，p3的参数为2*2；所述第三特征提取模块的输入项为第二特征图，所述第三特征提取模块提取所述第二特征图的特征，以得到第三特征图。
81.第四特征提取模块包括：第八卷积层c8、第九卷积层c9、第十卷积层c10和第四池化层p4；c8、c9和c10的卷积核的大小均为3*3*3，c8、c9和c10的卷积核的个数均为512，p4的参数为2*2；所述第四特征提取模块的输入项为第三特征图，所述第四特征提取模块提取所述第三特征图的特征，以得到第四特征图。
82.第五特征提取模块包括：第十一卷积层c11、第十二卷积层c12、第十三卷积层c13和第五池化层p5；c10、c11和c12的卷积核的大小均为3*3*3，c11、c12和c13的卷积核的个数均为512，p5的参数为2*2；所述第五特征提取模块的输入项为第四特征图，所述第五特征提取模块提取所述第四特征图的特征，以得到第五特征图。
83.全连接模块包括第一全连接层fc1、第二全连接层fc2和第三全连接层fc3，第一全连接层的参数为：1*1*4096，第二全连接层的参数为1*1*4096，第三全连接层的参数为1*1*1000。将所述第五特征图输入全连接模块，得到原始图像对应的目标特征图。所述目标特征图可以通过向量形式表示，例如，目标特征图可以表示为：{x1,x2,
…
,xn}。
84.m3、基于确定的所有目标特征图将所述原始图像集划分为不同类别的原始图像子集。
85.在本发明实施例中，采用分类方法将原始图像集划分为多个原始图像子集，每个原始图像子集对应的类别互不相同。例如，可以通过k均值算法将所述原始图像集划分为不同类别的原始图像子集。一个原始图像子集包括的原始图像的风格相似。
86.具体的，在所有目标特征图中随机选取k个目标特征图作为初始质心，例如设定k为3，则可以得到初始质心分别为：u1、u2和u3。将所有目标特征图中除了初始质心以外的目标特征图记为待分类特征图，对于每一个待分类特征图，分别计算该待分类特征图与每个初始质心：u1、u2和u3之间的距离，将最小距离对应的初始质心与该待分类特征图划分为同一类，以得到若干分类集。
87.例如，有10个目标特征图，包括：t1,t2,
…
,t10，在10个目标特征图随机选取三个目标特征图为：t1,t2和t3，将t1记为初始质心u1，将t2记为初始质心u2，将t3记为初始质心u3。待分类特征图包括：t4,t5,
…
,t10，对于每一个待分类特征图，计算该待分类特征图与每一个初始质心的距离。如，对于t4，计算t4和u1之间的距离，得到d41，计算t4和u2之间的距离，得到d42，计算t4和u3之间的距离，得到d43，假设d43最小，则将t4对应的原始图像和u3对应的原始图像划分为一类。对所有的待分类特征图进行上述计算，得到3个分类集。
88.在本发明实施例中，对于若干分类集中的每一个分类集，再确定该分类集对应的分类质心，对于上述待分类特征图中的每一个待分类特征图，再计算待分类特征图与每一个分类质心之间的距离，将最小距离对应的分类质心与该待分类特征图划分为同一类，以得到若干更新后的分类集。
89.通过公式(1)可以确定分类集对应的分类质心。
[0090][0091]
其中，cj是分类集，t是属于分类集cj的目标特征图，uj是分类质心。
[0092]
在本发明实施例中，重复执行：计算分类集对应的分类执行：“对于若干分类集中的每一个分类集，再确定该分类集对应的分类质心”的步骤，直至分类质心与上一次计算的分类质心相同，则将若干分类集作为不同类别的原始图像子集。
[0093]
m4、将包括所述模板图像的任意一个原始图像子集作为所述待处理的图像集。
[0094]
在本发明实施例中，在若干原始图像子集中确定包括模板图像的原始图像子集，若包括模板图像的原始图像子集的数量大于1，则在多个包括模板图像的原始图像子集中
随机确定一个为待处理的图像集。或者若干模板图像有各自对应分别的喜爱度，喜爱度可以是用户设定的，将包括喜爱度最高的模板图像的原始图像子集作为待处理的图像集。或者结合喜爱度和原始图像子集中原始图像的数量，在若干包括模板图像的原始图像子集中确定待处理的图像集。
[0095]
s2、基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点。
[0096]
在本发明实施例中，对所述音频对应的信号进行分析，可以确定音频对应的若干节拍点，所述节拍点是乐器演奏某个特定音符的时刻，如鼓点。音频中包括大量的节拍点，任意两个不同的节拍点对应的播放时刻不同。所述目标节拍点实质是音频中的节拍点，所述目标节拍点是所述音频的若干节拍点中用于插入图像的节拍点。
[0097]
在本发明实施例中，首先确定所述若干图像的播放顺序，进而按照若干图像的播放顺序确定图像的目标节拍点。可以基于若干图像中任意两张图像之间的相似度确定视频中图像的播放顺序，可以设定相似的图像连续播放，这样，在视频播放时，不会出现相邻播放的图像风格太跳跃的情况。
[0098]
具体的，步骤s2包括：
[0099]
s21、基于所述图像集中任意两张图像之间的相似度，对所述若干图像进行排序，以得到图像插入序列。
[0100]
在本发明实施例中，所述图像插入序列包括若干图像，以及每张图像各自分别对应的插入序号，所述图像插入序列中的若干图像可以按照插入序号进行排列。在生成视频时，按照插入序号从小到大的顺序将若干图像依次插入到音频中。
[0101]
在本发明实施例中，对于所述图像插入序列中的两张相邻图像，两张图像分别为第一图像和第二图像，其中，第一图像排列在第二图像之前，则第一图像与所述第二图像之间的相似度，大于任意一张排列在所述第二图像之后的图像与所述第一图像之间的相似度。
[0102]
具体的，步骤s21包括：
[0103]
s211、在所述图像集中选取一张起始图像，将所述起始图像的插入序号设定为第一序号。
[0104]
在本发明实施例中，所述起始图像可以随机选择，将所述起始图像对应的插入序号设定为第一序号，所述第一序号可以用数字表示，例如，通过数字1表示第一序号。
[0105]
s212、确定所述起始图像对应的非起始图像集，其中，所述非起始图像集包括若干非起始图像。
[0106]
在本发明实施例中，对于所述起始图像，在所述图像集中选取所有未确定插入序号的图像，将所述未确定插入序号的图像作为非起始图像，并基于所有非起始图像得到所述起始图像对应的非起始图像集。也就是说，所述非起始图像集中包括若干非起始图像，所述非起始图像是未设定插入序号的图像。
[0107]
例如，所述图像集中包括图像：r1,r2,r3,
…
,r8。在前述步骤中已经确定r1的插入序号为第一序号，则r2,r3,
…
,r8未确定插入序号，因此r2,r3,
…
,r8为非起始图像，非起始图像集为：{r2,r3,
…
,r8}。
[0108]
s213、基于每一张非起始图像与所述起始图像之间的相似度确定所述起始图像对
应的候选图像，将所述候选图像的插入序号设定为所述起始图像的插入序号的后一序号。
[0109]
在本发明实施例中，“将所述候选图像的插入序号设定为所述起始图像的插入序号的后一序号”是指，候选图像在所述图像插入序列中位于所述起始图像的下一位。对于每一张非起始图像，计算该非起始图像与起始起始图像之间的相似度。
[0110]
具体的，步骤s213包括：
[0111]
s2131、分别计算所述非起始图像集中每一张非起始图像与所述起始图像之间的相似度，以得到相似度集。
[0112]
在本发明实施例中，对于每张非起始图像，获取该非起始图像对应的目标特征图，以及所述起始图像的目标特征图，计算每张非起始图像与所述起始图像之间的相似度，得到每张非起始图像对应的相似度，进而得到相似度集。
[0113]
具体的，通过公式(2)可以计算该非起始图像与起始图像之间的相似度。
[0114][0115]
其中，起始图像rx的特征为tx＝{x1,x2,
…
,xn}，非起始图像ry的特征为ty＝{y1,y2,
…
yn}，sim(x,y)是起始图像rx与非起始图像ry之间的相似度。
[0116]
s2132、在所述相似度集中选取最大相似度，并将所述最大相似度对应的图像作为所述起始图像对应的候选图像。
[0117]
在本发明实施例中，所述相似度通过数值表示，数值越小，则相似度越小，数值越大，则相似度越大。所述最大相似度是指所有相似度中，数值最大的相似度。将最大相似度对应的图像作为起始图像对应的候选图像。
[0118]
例如，r1为起始图像，r2,r3,
…
,r8为非起始图像，其中，r3与r1之间的相似度为相似度集中的最大相似度，则将r3作为r1的候选图像，r3对应的插入序号为r1的插入序号的后一序号。假设r1对应的插入序号为1，表示第一个插入的图像为r1，则r3对应的插入序号为2，表示第二个插入的图像为r3，其中，插入序号“2”是插入序号“1”的下一位。在图像插入序列中，图像r3排列在图像r1的后一位。
[0119]
s214、将所述候选图像作为起始图像，并继续执行所述确定所述起始图像对应的非起始图像集的步骤，直至确定所述图像集中所有图像各自对应的插入序号。
[0120]
在本发明实施例中，经过步骤s211至步骤s213后，仅确定了两张图像的插入序号，还需确定待处理的图像集中其他图像的插入序号，为了便于说明，将候选图像作为起始图像，并继续执行步骤s212，以确定起始图像对应的候选图像。
[0121]
例如，经过步骤s211至步骤s123后，确定了r1的插入序号为1，r3的插入序号为2，接下来需要确定r3对应的候选图像，即在播放时，r3的下一张图像。将r3作为起始图像，首先确定r3(起始图像)对应的非起始图像，在前述已经解释非起始图像是所有未确定插入序号的图像，在此例中，由于r1和r3已经确定插入序号，因此r3对应的非起始图像包括：r2,r4,r5,
…
,r8。分别计算r3与每一个非起始图像(r2,r4,r5,
…
,r8)之间的相似度，确定r3对应的候选图像，假设r3对应的候选图像为r7，则r7的插入序号为r3对应的插入序号的后一位，在所述图像插入序列中，r7排列在r3的后一位。再执行步骤s212，确定r7对应的候选图像，直至确定所述图像集中所有图像各自对应的插入序号。
[0122]
s215、根据所述图像集中所有图像各自对应的插入序号确定所述图像集对应的图
像插入序列。
[0123]
在本发明实施例中，确定所有图像各自对应的插入序号后，按照所有图像各自对应的插入序号对所有图像进行排序，以得到图像插入序列。对于图像插入序列中的一张图像，该图像与排列在该图像后一位的图像之间的相似度，大于该图像与排列在该图像后两位的图像之间的相似度。
[0124]
例如，图像集包括的图像分别为：r1,r2,r3,
…
,r8，经过步骤s211至步骤s214，可以得到r1,r2,r3,
…
,r8中每张图像各自对应的插入序号，进而得到图像插入序列为：r1,r3,r7,r6,r2,r8,r5,r4。其中，r7与r6之间的相似度大于r7与r2(r8，r5，r4)之间的相似度。
[0125]
在本发明实施例中，两张图像之间的相似度越大，表示两张图像之间的风格越相似。通过所述图像集中任意两张图像之间的相似度确定的图像插入序列，按照图像插入序列的顺序播放图像，可以让风格相似的图像连续播放，视频画面更和谐。
[0126]
s22、获取所述音频的若干节拍点。
[0127]
在本发明实施例中，对所述音频对应的信号进行分析，可以确定音频对应的若干节拍点。所述节拍点是乐器演奏某个特定音符的时刻，如鼓点。音频中包括大量的节拍点，任意两个不同的节拍点对应的播放时刻不同。
[0128]
具体的，步骤s22包括：
[0129]
s221、获取所述音频对应的初始信号。
[0130]
在本发明实施例中，所述初始信号是所述音频对应的时域信号，所述初始信号的横坐标为时间，初始信号的纵坐标为音频信号的能量。
[0131]
在本发明实施例中，初始信号中存在一些噪声，为了后续步骤中得到更准确得的节拍点，以及为了而减少后续步骤中处理的数据量，可以先对所述初始信号进行预处理，以消除所述初始信号中干扰信号以及减少数据量。
[0132]
对所述初始信号进行预处理的过程包括：
[0133]
确定所述初始信号中的多个中心时刻，对于每个中心时刻，计算该中心时刻的邻域内的所有能量的累加值，将所述累加值作为该中心时刻对应的幅值，进而得到预处理后的初始信号，并采用预处理后的初始信号代替所述初始信号。其中，多个中心时刻中的任意两个中心时刻可以相交。
[0134]
在本发明实施例中，中心时刻的邻域可以是：从该中心时刻前的预设时长至该时刻后的邻域时长内。例如，该中心时刻为t0，t0的邻域为[t0-tr,t0 tr]，所述邻域时长可以为10ms。
[0135]
具体的，通过公式(3)对所述初始信号进行预处理。
[0136][0137]
其中，在预处理后的初始信号中，wt是中心时刻为t时对应的幅值；tr为邻域时长，tr可以设定为10ms；an是时刻n对应的幅值；t＝t 10ms，即，每间隔10ms确定t时刻对应的幅值。例如，确定预处理后的初始信号中10ms对应的幅值，可以根据[0,20ms]中所有采样点各自对应的幅值确定；由于t＝t 10ms，则再确定预处理后的初始信号中20ms对应的幅值，可以根据[10ms,30ms]中所有采样点各自对应的幅值确定。
[0138]
其中，时刻n对应的幅值可以通过采样频率f0确定，时刻n对应的采样点为n*f0。可
以在第n*f0个采样点对应的幅值作为时刻n对应的幅值。所述采样频率可以为50hz。
[0139]
s222、对所述初始信号进行低通滤波处理，以得到所述音频对应的第一信号。
[0140]
在本发明实施例中，在理论上，音乐中的节拍通常由低频乐器产生，如打击乐器中(大鼓、手鼓等)。因此对音频对应的低频信号进行分析，更容易确定若干节拍点。首先对初始信号进行低通滤波处理，以滤除大于低频阈值的信号，所述低频阈值可以是：200hz。可以通过高斯低通滤波器对所述初始信号进行处理，以得到所述第一信号。
[0141]
s223、根据所述第一信号确定若干目标幅值。
[0142]
在本发明实施例中，将所述第一信号划分为多个信号段，获取每个信号段各自对应的最大幅值，将获取的每个信号段各自对应的最大幅值，将所述获取获取每个信号段各自对应的最大幅值的步骤执行预设数值次；对于每个信号段，若预设数值次获取的该信号段的最大幅值均相同，则将该信号段的最大幅值作为该信号段的目标幅值。
[0143]
对于每一次执行所述获取每个信号段各自对应的最大幅值的具体过程如下：
[0144]
通过设定预设时长的窗口确定信号段，具体的，根据所述预设时长确定多个信号段，每个信号段对应的时长为所述预设时长。例如，设定窗口对应的预设时长为l，则每个信号段对应的时长为l。
[0145]
窗口按照预设步长在第一信号上滑动以确定信号段，确定每个信号段中的最大幅值。所述预设步长是时间维度上的步长，所述预设步长可以大于或等于所述预设时长，当所述预设步长可以大于或等于所述预设时长时，所述多个信号段中的任意两个信号段不相交；所述预设步长可以小于所述预设时长，当预设步长小于所述预设时长时，所述多个信号段中的任意两个相邻信号段相交。
[0146]
在本发明实施例中，所述预设数值可以设定为20次。也就是说，对于每个信号段，需要重复预设数值次确定该信号段对应的最大幅值，若预设数值次确定得到的预设数值个最大幅值均相同，将所述最大幅值作为该信号段对应的目标幅值；若预设数值次确定得到的预设数值个最大幅值中，存在任意两个不同的最大幅值，则该信号段没有目标幅值。
[0147]
s224、对于所述若干目标幅值中的每一个目标幅值，将所述目标幅值对应的时刻作为所述目标幅值对应的节拍点。
[0148]
在本发明实施例中，对于一个目标幅值，该目标幅值是第一信号(滤除高频后的低频信号)的一个信号段中的最大幅值；低频信号中节拍点的响度最大(幅值最大)，因此，可以根据目标幅值确定节拍点。所述节拍点是乐器演奏某个特定音符的时刻，将所述目标幅值对应的时刻作为所述目标幅值对应的节拍点。
[0149]
s23、根据所述图像插入序列、所述若干节拍点和所述音频确定所述图像插入序列中每张图像各自对应的目标节拍点。
[0150]
在本发明实施例中，所述图像插入序列包括若干按照插入顺序排列的图像，根据若干节拍点、所述音频和所述图像插入序列确定每张图像的目标节拍点。对于图像插入序列中的任意两张相邻图像，任意两张相邻图像包括先播放的第一图像和后播放的第二图像，在视频的播放时刻到达第一图像对应的目标节拍点时，插入第一图像，直至视频的播放时刻达到第二图像对应的目标节拍点时，插入第二图像。
[0151]
具体的，步骤s23包括：
[0152]
s231、获取所述音频对应的音频时长，以及所述若干图像的图像数量；根据所述图
像数量和所述音频时长确定所述图像插入序列中每每张图像各自对应的图像插入点，其中，所述相邻两个图像插入点之间的时长为根据所述音频时长与所述图像数量所确定的。
[0153]
在本发明实施例中，所述音频时长是音频的时长，在生成视频后，视频播放的时长等于所述音频时长。所述图像数量是指图像插入序列中图像的数量，也就是待处理的图像集中的图像的数量。可以计算所述音频时长和所述图像数量的比值，以得到每张图像的平均播放时长。根据平均播放时长和所述音频时长可以每张图像对应的图像插入点。其中，可以设定所述图像插入序列中排在第一位的图像对应的图像插入点为音频的播放起始时刻。
[0154]
例如，音频时长为20秒，所述图像插入序列中包括4张图像，则每张图像播放的时长为5秒，假设图像插入序列包括：g1,g2,g3和g4，可以确定g1对应的图像插入点为t＝0秒，g2对应的图像插入点为t＝5秒，g3对应的图像插入点为t＝10秒，g4对应的图像插入点为t＝15秒。
[0155]
s232、根据所述若干图像插入点和所述若干节拍点确定所述若干图像各自对应的目标节拍点。
[0156]
在本发明实施例中，对于每一个图像插入点，在所述若干节拍点中确定与该图像插入点距离最近的节拍点，并将所述与该图像插入点距离最近的节拍点作为该图像插入点对应的图像的目标节拍点。
[0157]
在本发明实施例中，所谓“距离最近”指的是：目标节拍点对应的时刻和图像插入点对应的时刻之间的距离最近。
[0158]
例如，若干节拍点分别为：{j1,j2,j3,
…
,j20}，若干图像插入点分别为：{c1,c2,
…
,c5}，对于cm，若cm＝jn，则将jn作为cm对应的图像的目标节拍点，其中，1≦m≦5，1≦n≦20；若cm≠jn，则确定与cm距离最近的jn，将jn作为cm对应的图像的目标节拍点。
[0159]
例如，g3对应的图像插入点为t＝10秒，若存在一个节拍点为：t＝10秒，则将t＝10秒作为g3对应的图像的目标节拍点。g3对应的图像插入点为t＝10秒，若干节拍点中距离t＝10秒最近的节拍点为t＝11秒，则将t＝11秒作为g3对应的图像的目标节拍点。
[0160]
s3、在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
[0161]
在本发明实施例中，对于每个目标节拍点，在所述音频的播放时刻到达该目标节拍点处时，插入该目标节拍点对应的图像，并将该图像作为该目标节拍点和下一目标节拍点之间播放的图像帧。
[0162]
例如，音频时长为20秒，所述图像插入序列中包括4张图像，则每张图像播放的时长为5秒，假设图像插入序列包括：g1,g2,g3和g4，可以确定g1对应的目标节拍点为t＝0秒，g2对应的目标节拍点为t＝5.5秒，g3对应的目标节拍点为t＝9.5秒，g4对应的目标节拍点为t＝16秒。在音频的播放时刻为0秒时，插入g1，并在播放时刻为0秒至5.5秒中的每一帧均插入g1；在音频的播放时刻为5.5秒时，插入g2，并在播放时刻为5.5秒至9.5秒中的每一帧均插入g2；在音频的播放时刻为9.5秒时，插入g3，并在播放时刻为9.5秒至16秒中的每一帧均插入g3；在音频的播放时刻为16秒时，插入g4，并在播放时刻为16秒至20秒中的每一帧均插入g4。
[0163]
在本发明实施例中，生成的视频可以实现：在视频播放时，两个目标节拍点之间持续播放同一张图像，并且每个目标节拍点均为节拍点。例如，在上例中，0秒至5.5秒中持续播放g1，在5.5秒时切换为g2，并在5.5秒至9.5秒中持续播放g2，其中，5.5秒为节拍点，即实
现在节拍点处切换播放的图像。
[0164]
基于上述一种视频的生成方法，参见图3，本发明实施例还提供了一种视频生成装置，包括：
[0165]
获取单元，用于获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
[0166]
目标节拍点确定单元，用于基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
[0167]
视频生成单元，用于在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
[0168]
在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络模型接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络模型接口用于与外部的终端通过网络模型连接通信。该计算机程序被处理器执行时以实现视频的生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。
[0169]
本领域技术人员可以理解，图4所示的仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0170]
本发明实施例提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：
[0171]
获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
[0172]
基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
[0173]
在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
[0174]
本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：
[0175]
获取待处理的图像集和待处理的音频，其中，所述图像集包括若干图像；
[0176]
基于所述图像集和所述音频，确定所述若干图像中每张图像各自对应的目标节拍点；
[0177]
在所述音频中的每个目标节拍点插入该目标节拍点对应的图像，以生成视频。
[0178]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0179]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护
范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：帧内预测模式的译码方法和装置与流程

一种视频的生成方法和计算机设备与流程

相关文献

最热文献