一种音视频处理方法及装置与流程

2022-04-24 19:18:50 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，特别涉及一种音视频处理方法及装置、计算设备和计算机可读存储介质。

背景技术：

2.近年来，随着多媒体信息技术的快速发展，用户根据录制的视频进行剪辑已经越来越大众化，越来越多的人通过对视频进行剪辑制作一些个性化的视频来满足各自的需求。
3.音视频匹配是视频剪辑中的一个重要环节，影响最终视频的质量和效果，在制作视频的过程中，视频剪辑者需要去选择待剪辑的视频和要匹配的背影音乐，而对视频剪辑通常是需要一定的技术知识和一定的剪辑经验，费时费力，对于没有经验的剪辑者来说非常不友好，导致失去了剪辑的信息，对于一些有经验的剪辑者来说也需要耗费时间选择素材，同样也会费时费力，同时，现有的机器自动剪辑方法或非人工的剪辑方法也比较简单，如获得预设的音频，并将视频根据预设音频的时长进行切割，此方法会可能会导致视频片段逻辑不完整、音视频风格不匹配等问题，并且简单的音视频时长匹配无法凸显剪辑手段的重要性，剪辑出的视频效果也比较差。
4.基于此，急需一种音视频处理方法解决上述问题。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种音视频处理方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的视频切割时，根据预设音频时长进行切割导致的视频片段逻辑不完整，在音视频匹配时，费时费力、音频和视频风格不匹配、剪辑出的视频效果差的问题。
6.根据本技术实施例的第一方面，提供了一种音视频处理方法，包括：
7.获取待处理音频和待处理视频；
8.通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；
9.基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；
10.根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频。
11.根据本技术实施例的第二方面，提供了一种音视频处理装置，包括：
12.获取模块，被配置为获取待处理音频和待处理视频；
13.确定模块，被配置为通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；
14.切割模块，被配置为基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；
15.匹配模块，被配置为根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频。
16.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述音视频处理方法的步骤。
17.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述音视频处理方法的步骤。
18.本技术实施例中，通过获取待处理音频和待处理视频；通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频，通过本技术提供的音视频处理方法可以自动识别输入音频切换点和视频切割点，根据视频切割点将视频进行切割，将视频片段和音频进行匹配，依据匹配结果调整视频播放速度，最终合成视频，无需用户具备剪辑基础，降低音视频剪辑门槛，提升剪辑出的视频效果，提升用户体验。
附图说明
19.图1是本技术实施例提供的音视频处理方法的流程图；
20.图2是本技术实施例提供的音视频处理方法中待处理音视频和待处理视频的切割点示意图；
21.图3是本技术实施例提供的音视频处理方法中音频和视频的匹配示意图；
22.图4是本技术实施例提供的音视频处理方法的流程示意图；
23.图5是本技术实施例提供的音视频处理装置的结构示意图；
24.图6是本技术实施例提供的计算设备的结构框图；
具体实施方式
25.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
26.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
·
27.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
28.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
29.音频节奏点：音色转换、或者振幅激增处为音频节奏点。
30.视频节奏点：视频图像切换、爆发或者视频制作者设立的关键帧为视频的节奏点。
31.在本技术中，提供了一种音视频处理方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。
32.图1示出了本技术一实施例提供的一种音视频处理方法的流程图，具体包括步骤102至步骤108。
33.步骤102：获取待处理音频和待处理视频。
34.待处理音频为需要进行匹配的音频，待处理视频为需要进行匹配的视频，在实际应用中，待处理音频的个数为一个，待处理视频的个数不做限定，可以为一个、两个或多个。
35.在本技术提供的一实施例中，以获取待处理音频a和两个待处理视频x、y为例对本技术提供的音视频处理方法进行解释说明。
36.步骤104：通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点。
37.在实际应用中，需要先确定待处理视频的音频切换点和每个待处理视频对应的视频切割点，音频切换点为音频中音色转换、或者振幅激增处，视频切割点即为视频节奏点，即视频中图像切换、爆发或视频制作者设立的关键帧。
38.可选的，通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，包括：
39.提取所述待处理音频的音频波形；
40.基于所述音频波形确定音频声谱；
41.基于所述音频波形和所述音频声谱确定所述待处理音频的音频节奏点；
42.在所述音频波形中选择距离所述音频节奏点最近的波谷作为音频切换点。
43.音频波形是采集声音的机械振动而得到的数字文件，其数据是按时间顺序组织的，将音频波形通过傅里叶变换后可以获得所述待处理音频的音频声谱，音频声谱图表示了待处理音频的起点强度，再结合音频波形和音频声谱对声音起点位置进行修正，根据修正后的声音起点确定所述待处理音频的音频节奏点，再根据音频波形中，选择距离音频节奏点最近的波谷作为音频切换点，在实际应用中，确定音频切割点的方式有很多，如声音起点的强度超过预设阈值的节点作为音频切割点，或者将声音起点按照强度进行排序，选择预设数量的节点作为音频切割点。
44.在实际应用中，检测音频节奏点的方法有很多，如音频节奏检测法(onset detection)等，可以利用现有的音频节奏通用工具包对待处理音频进行处理获得待处理音频的节奏点。
45.可选的，确定所述待处理视频的至少一个视频切割点，包括：
46.对所述待处理视频进行解码，获得所述待处理视频对应的多个视频帧；
47.计算相邻两个视频帧的差异值；
48.将所述差异值大于预设阈值的两个相邻视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点。
49.具体的，在获得待处理视频后，要对待处理视频进行解码，获得所述待处理视频的
多个视频帧，计算相邻两个视频帧的画面像素的差异值，在实际应用中为了使相邻两个视频帧的差异值更加准确，通常会根据相邻两个视频帧的前后两个时间窗口(即前n个视频帧和后m个视频帧)的差异值，前一个时间窗口即为前n个视频帧，后一个时间窗口即为后m个视频帧，将差异值大于预设阈值的两个视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点，在实际应用中，也可以将相邻两个视频帧的差异值进行排序，获取预设数量的差异值对应的视频帧作为视频切割点，比如待处理视频需要3个切割点，则将视频中差异值最大的三个节点作为所述待处理视频的视频切割点。视频切割点可以是视频切换转场、视频爆发点、视频制作者设立的关键帧。
50.在实际应用中，有些视频切割点之间的距离太近，切割的视频片段不具备使用价值，匹配完成最终的视频时也无法使用，因此所述方法在将所述差异值大于预设阈值的两个相邻视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点之后，还包括：
51.计算相邻两个视频切割点之间的时间间隔；
52.在所述时间间隔小于预设阈值的情况下，删除前一个视频切割点或后一个视频切割点。
53.在获取待处理视频对应的视频切割点后，还需要计算每个视频相邻的两个视频切割点之间的时间间隔，将时间间隔小于预设阈值的两个视频切割点之间的前一个视频切割点或后一个视频切割点删除，保留一个视频切割点，进而确保视频片段的完整性。
54.在本技术提供的一实施例中，沿用上例，参见图2，图2示出了待处理音频的音频切换点和待处理视频的视频切割点的示意图，通过音频节奏检测法对待处理音频a进行节奏点检测，确定8个音频切换点ap1至ap8，待处理视频x检测到3个视频切割点xp1、xp2和xp3，待处理视频y检测到4个视频切割点yp1、yp2、yp3和yp4。
55.步骤106：基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段。
56.在实际应用中，基于视频切割点可以对所述待处理视频进行切割，生成多个待处理视频片段。
57.在本技术提供的一实施例中，沿用上例，参见图2，待处理视频x被切割为x1、x2、x3、x4，待处理视频y被切割为y1、y2、y3、y4、y5。
58.步骤108：根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频。
59.在实际应用中，基于音频切换点完成待处理音频和多个待处理视频片段的匹配，具体的，保持音频的顺序和速度不变，将多个待处理视频片段根据相同的视频来源依次填充到相邻的两个音频切换点之间，比如，以图2所示为例，可以将x1与a1匹配，x2与a2匹配，x3与a3匹配，x4与a4匹配，y1与a5匹配，y2与a6匹配
……
依次类推，直至待处理视频匹配完成或待处理音频匹配完成。
60.可选的，根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，包括：
61.在所述至少一个音频切换点中确定一个目标音频切换点，进而确定所述待处理音频对应的多个连续的音频片段；
62.将所述目标音频切换点作为起点，匹配所述多个待处理视频片段和所述多个连续
的音频片段。
63.在实际应用中，可以在至少一个音频切换点中确定一个目标音频切换点，作为生成的音视频的起点，再将多个待处理视频片段和多个连续的音频片段向匹配，依然以图2为例，可以选择音频切换点ap4为目标音频切换点，则从音频切换点ap4开始，x1与a5匹配、x2与a6匹配
……
依次类推，直至待处理视频匹配完成或待处理音频匹配完成。
64.具体的，在所述至少一个音频切换点中确定一个目标音频切换点，包括：
65.确定所述待处理音频的音频时长；
66.根据时长阈值在所述音频时长中确定目标时间区间；
67.在所述目标时间区间中确定一个音频切换点为目标音频切换点。
68.为了保证最终生成的音视频的质量，确定的目标音频切换点在待处理音频种的位置不能太靠后，这样最终生成的音视频时长就会比较短，因此，需要先确定待处理音频的音频时长，时长阈值可以是一个固定的时长，比如20秒或30秒，也可以是一个百分比的值，时长阈值为音频时长的百分之10，从待处理音频的开始计时，根据时长阈值确定目标时间区间，比如时长阈值为20秒，则确定所述音频时长的前20秒为目标时间区间，若时长阈值为音频时长的百分之10，则对于一段100秒的音频来说，目标时间区间为前10秒，对于一段200秒的音频来说，目标时间区间为前20秒。在目标时间区间内选择一个音频切换点为目标音频切换点，以此保证最终生成的音视频的时长不会很短，进而保证最终的音视频的质量。
69.具体的，匹配所述多个待处理视频片段和所述多个连续的音频片段，包括：
70.根据所述待处理音频的音频切换点确定目标音频片段，同时确定与所述目标音频片段对应的目标待处理视频片段；
71.根据所述目标音频片段的时长和所述目标待处理视频片段的时长的关系匹配所述目标音频片段和所述目标待处理视频片段。
72.在实际应用中，根据音频切换点确定的多个音频片段的时长是不固定的，根据视频切割点切割完成的待处理视频片段的时长也是不固定的，并且相互匹配的音频片段和待处理视频片段之间的时长也是不匹配的，在对音频片段和待处理视频片段进行匹配时，需要根据两者之间的时长关系确定如何匹配，具体为先根据待处理音频的音频切换点确定目标音频片段，同时确定与所述目标音频片段对应的目标处理视频片段，再根据目标音频片段的时长和目标待处理视频片段的时长的关系来对目标音频片段和目标待处理视频片段进行匹配。
73.具体的，根据所述目标音频片段的时长和所述目标待处理视频片段的时长的关系匹配所述目标音频片段和所述目标待处理视频片段，包括：
74.根据所述目标音频片段的时长确定匹配时长区间；
75.根据所述目标待处理视频片段的时长和所述匹配时长区间的关系，匹配所述目标音频片段和所述目标待处理视频片段。
76.匹配时长区间为目标音频片段和目标待处理视频片段之间可以匹配的范围区间，比如待处理视频片段的时长最短不能短于目标音频片段时长的三分之一，最长不能长于目标视频片段的三倍，则目标音频片段时长的三分之一至目标音频片段时长的三倍就是匹配时长区间，在实际应用中，匹配时长区间可以自行设定，如果以目标音频片段的时长为t举例，则匹配时长区间可以为[1/2t，2t]，也可以为[1/3t，3t]，在本技术对如何确定匹配时长
区间不做过多限定，以实际应用为准，当确定匹配时长区间后，根据目标待处理视频片段的时长和所述匹配时长区间的关系，匹配所述目标音频片段和所述目标待处理视频片段。
[0077]
可选的，根据所述目标待处理视频片段的时长和所述匹配时长区间的关系，匹配所述目标音频片段和所述目标待处理视频片段，包括：
[0078]
在所述目标待处理视频片段的时长大于所述匹配时长区间的最大值的情况下，匹配连续至少两个音频片段和所述目标待处理视频片段；
[0079]
在所述目标待处理视频片段的时长小于所述匹配时长区间的最小值的情况下，匹配所述目标音频片段和连续至少两个待处理视频片段；
[0080]
在所述目标待处理视频片段的时长在所述匹配时长区间的情况下，匹配所述目标音频片段和所述目标待处理视频片段。
[0081]
在具体的应用中，目标待处理视频片段的时长与所述匹配时长区间的关系一般有三种，当目标待处理视频片段的时长大于所述匹配时长区间的最大值的情况下，说明待处理视频片段的太长，如果对其应用剪辑手段进行快速播放，会导致视频不和谐，因此可以选择在至少两个连续的音频片段和所述目标待处理视频进行匹配，比如，待处理视频片段的时长为30秒，目标音频片段1的时长为5秒，匹配时长区间为[2秒，15秒]，此时，确定目标音频片段1的下一个目标音频片段2的时长为10秒，此时目标音频片段1和目标音频片段2的时长总和为15秒，其对应的匹配时长区间为[5秒，45秒]，此时将待处理视频片段与目标音频片段1和目标音频片段2进行匹配。
[0082]
当目标待处理视频片段的时长小于所述匹配时长区间的最小值的情况下，说明待处理视频片段太短，对其应用剪辑手段进行慢速播放，也会导致视频不和谐，因此可以选择至少两个连续的待处理视频片段和所述目标音频片段进行匹配，比如，目标音频片段的时长为30秒，其对应的匹配时长区间为[10秒，90秒]，目标待处理视频片段1的时长为5秒，小于匹配时长区间的最小值10秒，则再确定目标待处理视频片段1的后一个待处理视频片段2的时长为15秒，此时待处理视频片段1和待处理视频片段2的总时长为20秒，符合匹配时长区间，因此可以将目标音频片段与待处理视频片段1和待处理视频片段2进行匹配。
[0083]
在所述目标待处理视频片段的时长在所述匹配时长区间的情况下，匹配所述目标音频片段和所述目标待处理视频片段，比如，目标待处理视频片段的时长为25秒，目标音频片段的时长为20秒，目标音频片段对应的匹配时长区间为[10秒，40秒]，此时可以将目标待处理视频片段与目标音频片段进行匹配。
[0084]
可选的，在匹配所述目标音频片段和所述目标待处理视频片段之后，还包括：
[0085]
通过预设的剪辑手段调整所述目标待处理视频片段的时长，以使所述目标待处理视频片段的时长等于所述目标音频片段的时长。
[0086]
在实际应用中，待处理视频片段与音频片段进行匹配后，两者的时长还是不同的，因此还需要预设的剪辑手段调整所述目标待处理视频片段的时长，以使目标待处理视频片段的时长等于所述目标音频片段的时长，比如目标待处理视频片段的时长为25秒，目标音频片段的时长为20秒，则需要对目标待处理视频片段进行视频快速播放，使25秒的视频片段在20秒播放完成，依次实现目标音频片段与目标待处理视频片段的最终匹配。
[0087]
最后，再对生成的匹配音视频的只有音频没有视频的部分和只有视频没有音频的部分做裁剪，生成最终的匹配音视频。
[0088]
在本技术提供的实施例中，沿用上例，参见图3，图3示出了本技术实施例提供的音视频处理方法中音频和视频的匹配示意图，如图所示，选中ap2为目标音频切换点，从音频片段a3开始匹配，a3和a4与x1匹配，a5与x2匹配，a6与x3匹配，a7与x4匹配，a8与y1匹配，a9与y2匹配，另外a1至a2部分只有音频没有视频，y3至y5部分只有视频没有音频，还需要将a1至a2部分和y3至y5部分进行裁剪，生成最终的匹配音视频“a3x1-a4x1-a5x2-a6x3-a7x4-a8y1-a9y2”。
[0089]
本技术实施例提供的音视频处理方法，通过获取待处理音频和待处理视频；通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频，通过本技术提供的音视频处理方法可以自动识别输入音频切换点和视频切割点，根据视频切割点将视频进行切割，将视频片段和音频进行匹配，依据匹配结果调整视频播放速度，最终合成视频，无需用户具备剪辑基础，降低音视频剪辑门槛，提升剪辑出的视频效果，提升用户体验。
[0090]
图4示出了本技术一实施例的音视频处理方法的流程示意图，该音视频处理方法，包括步骤402至步骤416。
[0091]
步骤402：获取待处理音频。
[0092]
在本技术提供的一具体实施例中，获取待处理音频m。
[0093]
步骤404：节奏检测法识别确定音频节奏点和音频切换点。
[0094]
在本技术提供的一具体实施例中，根据节奏检测法识别出音频的节奏点和对应的音频切换点mp1、mp2、mp3
……
mp9。
[0095]
步骤406：获得音频片段。
[0096]
在本技术提供的一具体实施例中，根据音频切换点mp1、mp2、mp3
……
mp9，获得对应的音频片段m1、m2
……
m10。
[0097]
步骤408：获取待处理视频。
[0098]
在本技术提供的一具体实施例中，获取待处理视频p、q。
[0099]
步骤410：计算视频某一节点前n帧和后m帧的差别，确定视频切割点。
[0100]
在本技术提供的一具体实施例中，确定待处理视频p对应的视频切割点为pp1、pp2、pp3、pp4，待处理视频q对应的视频切割点为qp1、qp2、qp3。
[0101]
步骤412：获得待处理视频片段。
[0102]
在本技术提供的一具体实施例中，根据视频切割点pp1、pp2、pp3、pp4对待处理视频p进行切割，获得待处理视频片段p1、p2、p3、p4、p5，根据视频切割点qp1、qp2、qp3对待处理视频q进行切割，获得待处理视频q1、q2、q3、q4。
[0103]
需要注意的是，在实际应用中，步骤402至步骤406和步骤408至步骤412之间没有必然的先后顺序，为了提高音视频处理效率，步骤402至步骤406和步骤408至步骤412可以同时进行。
[0104]
步骤414：随机选择一个音频切换点作为填充起点，从填充起点起将待处理视频片段逐个填入音频的切换点之间。
[0105]
在本技术提供的一具体实施例中，选取音频切割点mp3做为填充起点从填充起点
起将待处理视频逐个填入音频的切换点之间，当将音频切换点mp3做为填充起点时，对应的音频片段为m4、m5、m6
……
m10，将待处理视频片段p1、p2、p3、p4、p5、q1、q2、q3、q4依次与音频片段进行匹配，获得的匹配音视频为“m4p1-m5p2-m6p3-m7p4-m8p5-m9q1-m10q1”。
[0106]
步骤416：对填入音频片段的视频进行变速调整，使得音频和视频的时长相等，合成最终视频。
[0107]
在本技术提供的一具体实施例中，再将获得匹配音视频中每个视频片段进行变速调整，使得对应的音频和视频的时长相等，如m4与p1的时长相等、m5与p2的时长相等、m6与p3的时长相等、m7与p4的时长相等
……
，当完成变速调整之后，合成的音视频即为最终的匹配音视频。
[0108]
本技术实施例提供的音视频处理方法，通过获取待处理音频和待处理视频；通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频，通过本技术提供的音视频处理方法可以自动识别输入音频切换点和视频切割点，根据视频切割点将视频进行切割，将视频片段和音频进行匹配，依据匹配结果调整视频播放速度，最终合成视频，无需用户具备剪辑基础，降低音视频剪辑门槛，提升剪辑出的视频效果，提升用户体验。
[0109]
与上述音视频处理方法实施例相对应，本技术还提供了音视频处理装置实施例，图5示出了本技术一个实施例的音视频处理装置的结构示意图。如图5所示，该装置包括：
[0110]
获取模块502，被配置为获取待处理音频和待处理视频；
[0111]
确定模块504，被配置为通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；
[0112]
切割模块506，被配置为基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；
[0113]
匹配模块508，被配置为根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频。
[0114]
可选的，所述确定模块504，进一步被配置为：
[0115]
提取所述待处理音频的音频波形；
[0116]
基于所述音频波形确定音频声谱；
[0117]
基于所述音频波形和所述音频声谱确定所述待处理音频的音频节奏点；
[0118]
在所述音频波形中选择距离所述音频节奏点最近的波谷作为音频切换点。
[0119]
可选的，所述确定模块504，进一步被配置为：
[0120]
对所述待处理视频进行解码，获得所述待处理视频对应的多个视频帧；
[0121]
计算相邻两个视频帧的差异值；
[0122]
将所述差异值大于预设阈值的两个相邻视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点。
[0123]
可选的，所述确定模块504，进一步被配置为：
[0124]
计算相邻两个视频切割点之间的时间间隔；
[0125]
在所述时间间隔小于预设阈值的情况下，删除前一个视频切割点或后一个视频切
割点。
[0126]
可选的，所述匹配模块508，进一步被配置为：
[0127]
在所述至少一个音频切换点中确定一个目标音频切换点，进而确定所述待处理音频对应的多个连续的音频片段；
[0128]
将所述目标音频切换点作为起点，匹配所述多个待处理视频片段和所述多个连续的音频片段。
[0129]
可选的，所述匹配模块508，进一步被配置为：
[0130]
确定所述待处理音频的音频时长；
[0131]
根据时长阈值在所述音频时长中确定目标时间区间；
[0132]
在所述目标时间区间中确定一个音频切换点为目标音频切换点。
[0133]
可选的，所述匹配模块508，进一步被配置为：
[0134]
根据所述待处理音频的音频切换点确定目标音频片段，同时确定与所述目标音频片段对应的目标待处理视频片段；
[0135]
根据所述目标音频片段的时长和所述目标待处理视频片段的时长的关系匹配所述目标音频片段和所述目标待处理视频片段。
[0136]
可选的，所述匹配模块508，进一步被配置为：
[0137]
根据所述目标音频片段的时长确定匹配时长区间；
[0138]
根据所述目标待处理视频片段的时长和所述匹配时长区间的关系，匹配所述目标音频片段和所述目标待处理视频片段。
[0139]
可选的，所述匹配模块508，进一步被配置为：
[0140]
在所述目标待处理视频片段的时长大于所述匹配时长区间的最大值的情况下，匹配连续至少两个音频片段和所述目标待处理视频片段；
[0141]
在所述目标待处理视频片段的时长小于所述匹配时长区间的最小值的情况下，匹配所述目标音频片段和连续至少两个待处理视频片段；
[0142]
在所述目标待处理视频片段的时长在所述匹配时长区间的情况下，匹配所述目标音频片段和所述目标待处理视频片段。
[0143]
可选的，所述匹配模块508，进一步被配置为：
[0144]
通过预设的剪辑手段调整所述目标待处理视频片段的时长，以使所述目标待处理视频片段的时长等于所述目标音频片段的时长。
[0145]
本技术实施例提供的音视频处理装置，通过获取待处理音频和待处理视频；通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频，通过本技术提供的音视频处理装置可以自动识别输入音频切换点和视频切割点，根据视频切割点将视频进行切割，将视频片段和音频进行匹配，依据匹配结果调整视频播放速度，最终合成视频，无需用户具备剪辑基础，降低音视频剪辑门槛，提升剪辑出的视频效果，提升用户体验。
[0146]
上述为本实施例的一种音视频处理装置的示意性方案。需要说明的是，该音视频处理装置的技术方案与上述的音视频处理方法的技术方案属于同一构思，音视频处理装置
的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0147]
图6示出了根据本说明书一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。
[0148]
计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
[0149]
在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
[0150]
计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
[0151]
其中，处理器620用于执行如下计算机可执行指令：
[0152]
获取待处理音频和待处理视频；
[0153]
通过预设的节奏检测法确定所述待处理音频的至少一个音频切换点，并确定所述待处理视频的至少一个视频切割点；
[0154]
基于所述至少一个视频切割点将所述待处理视频切割为多个待处理视频片段；
[0155]
根据所述至少一个音频切换点将所述多个待处理视频片段和所述待处理音频进行匹配，获得目标匹配音视频。
[0156]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0157]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0158]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述音视频处理方法的步骤。
[0159]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0160]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行
并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0161]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0162]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0163]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0164]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：同步信号块的测量方法、装置和移动终端与流程

一种音视频处理方法及装置与流程

相关文献

最热文献