一种音视频处理方法及装置与流程

2022-04-24 19:20:07 来源：中国专利 TAG：

1.本技术涉及互联网技术领域，特别涉及一种音视频处理方法及装置、计算设备和计算机可读存储介质。

背景技术：

2.近年来，随着多媒体信息技术的快速发展，用户根据录制的视频进行剪辑已经越来越大众化，越来越多的人通过对视频进行剪辑制作一些个性化的视频来满足各自的需求。
3.音视频匹配是视频剪辑中的一个重要环节，影响最终视频的质量和效果，在制作视频的过程中，视频剪辑者需要去选择待剪辑的视频和要匹配的背影音乐，而对视频剪辑通常是需要一定的技术知识和一定的剪辑经验，费时费力，对于没有经验的剪辑者来说非常不友好，导致失去了剪辑的信息，对于一些有经验的剪辑者来说也需要耗费时间选择素材，同样也会费时费力，同时，现有的机器自动剪辑方法或非人工的剪辑方法也比较简单，如获得预设的音频，并将视频根据预设音频的时长进行切割，此方法会可能会导致视频片段逻辑不完整、音视频风格不匹配等问题，并且简单的音视频时长匹配无法凸显剪辑手段的重要性，剪辑出的视频效果也比较差。
4.基于此，急需一种音视频处理方法解决上述问题。

技术实现要素：

5.有鉴于此，本技术实施例提供了一种音视频处理方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的视频切割时，根据预设音频时长进行切割导致的视频片段逻辑不完整，在音视频匹配时，费时费力、音频和视频风格不匹配、剪辑出的视频效果差的问题。
6.根据本技术实施例的第一方面，提供了一种音视频处理方法，包括：
7.获取至少一个待处理音频和至少一个待处理视频；
8.确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；
9.基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；
10.按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；
11.根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频。
12.根据本技术实施例的第二方面，提供了一种音视频处理装置，包括：
13.获取模块，被配置为获取至少一个待处理音频和至少一个待处理视频；
14.确定模块，被配置为确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；
15.切割模块，被配置为基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；
16.匹配模块，被配置为按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；
17.生成模块，被配置为根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频。
18.根据本技术实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述音视频处理方法的步骤。
19.根据本技术实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述音视频处理方法的步骤。
20.本技术实施例中，通过获取至少一个待处理音频和至少一个待处理视频；确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频，本技术提供的音视频处理方法，可以快速完成音频和视频的匹配剪辑流程，用户只需提供任意数量的音频和视频，通过本技术提供的音视频处理方法即可自动识别音频和视频的切割点，并将音频和视频切割为多个音频片段和视频片段，然后生成多个可行的剪辑方案，最后选择最佳剪辑方案合成最终的目标音视频，无需用户具备剪辑基础，降低了音视频剪辑门槛，提升了剪辑出的视频效果，提高了用户体验。
附图说明
21.图1是本技术实施例提供的音视频处理方法的流程图；
22.图2是本技术实施例提供的音视频处理方法中待处理音视频和待处理视频的切割点示意图；
23.图3是本技术实施例提供的音视频处理方法的流程示意图；
24.图4是本技术实施例提供的音视频处理装置的结构示意图；
25.图5是本技术实施例提供的计算设备的结构框图。
具体实施方式
26.在下面的描述中阐述了很多具体细节以便于充分理解本技术。但是本技术能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本技术内涵的情况下做类似推广，因此本技术不受下面公开的具体实施的限制。
27.在本技术一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本技术一个或多个实施例。在本技术一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本技术一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
28.应当理解，尽管在本技术一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本技术一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
29.首先，对本发明一个或多个实施例涉及的名词术语进行解释。
30.音频节奏点：音色转换、或者振幅激增处为音频节奏点。
31.视频节奏点：视频图像切换、爆发或者视频制作者设立的关键帧为视频的节奏点。
32.视频爆发点：视频画面中有节点意义的视频帧，如一个闭眼视频，前一视频帧眼睛尚未闭合，后一个视频帧眼睛闭合了，则眼睛闭合的视频帧为视频爆发点，又比如枪炮射击视频，枪炮的射击视频帧也是视频爆发点。
33.音频切割点：将音频的节奏点作为音频切割点。
34.视频切割点：将视频的节奏点作为视频的切割点。
35.匹配子音视频：音频片段和视频片段完成匹配后生成的音视频为匹配子音视频。
36.匹配音视频：多个匹配子音视频组成的整段音视频为匹配音视频。
37.在本技术中，提供了一种音视频处理方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。
38.图1示出了本技术一实施例提供的一种音视频处理方法的流程图，具体包括步骤102至步骤110。
39.步骤102：获取至少一个待处理音频和至少一个待处理视频。
40.待处理音频为进行匹配的音频，待处理视频为进行匹配的视频，在实际应用中，待处理音频和待处理视频的个数不做限定，待处理音频的个数可以为一个、两个或多个，待处理视频的个数也可以为一个、两个或多个。
41.在本技术提供的一实施例中，以获取两个待处理音频a和b，两个待处理视频x和y为例对本技术提供的音视频处理方法进行解释说明。
42.步骤104：确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点。
43.在实际应用中，需要先确定每个待处理音频的音频切割点和每个待处理视频的视频切割点，所述音频切割点即音频节奏点，即音频中音色转换、或者振幅激增处，所述视频切割点即为视频节奏点，即视频中图像切换、爆发或视频制作者设立的关键帧。
44.可选的，确定所述至少一个待处理音频的至少一个音频切割点，包括：
45.提取所述至少一个待处理音频中目标待处理音频的音频波形；
46.基于所述音频波形确定音频声谱；
47.基于所述音频波形和所述音频声谱确定所述目标待处理音频的音频切割点。
48.目标待处理音频是被当前执行提取音频波形的待处理音频，音频波形是采集声音的机械振动而得到的数字文件，其数据是按时间顺序组织的，将音频波形通过傅里叶变换后可以获得所述待处理音频的音频声谱，音频声谱图表示了待处理音频的强度，再结合音频波形和音频声谱对声音起点位置进行修正，根据修正后的声音起点确定所述待处理音频的音频切割点，在实际应用中，确定音频切割点的方式有很多，如声音起点的强度超过预设阈值的节点作为音频切割点，或者将声音起点按照强度进行排序，选择预设数量的节点作为音频切割点。
49.在实际应用中，检测音频节奏点的方法有很多，如音频节奏检测法(onset detection)等，可以利用现有的音频节奏通用工具包对待处理音频进行处理获得待处理音频的节奏点。
50.可选的，确定所述至少一个待处理视频的至少一个视频切割点，包括：
51.对所述至少一个待处理视频中目标待处理视频进行解码，获得所述目标待处理视频对应的多个视频帧；
52.计算相邻两个视频帧的差异值；
53.将所述差异值大于预设阈值的两个相邻视频帧中的前一帧或后一帧作为所述目标待处理视频的视频切割点。
54.目标待处理视频是被当前执行解码的待处理视频，具体的，在获得待处理视频后，要对待处理视频进行解码，获得所述待处理视频的多个视频帧，计算相邻两个视频帧的画面像素的差异值，在实际应用中为了使相邻两个视频帧的差异值更加准确，通常会根据相邻两个视频帧的前后两个时间窗口(即前n个视频帧和后m个视频帧)的差异值，前一个时间窗口即为前n个视频帧，后一个时间窗口即为后m个视频帧，将差异值大于预设阈值的两个视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点，在实际应用中，也可以将相邻两个视频帧的差异值进行排序，获取预设数量的差异值对应的视频帧作为视频切割点，比如待处理视频需要3个切割点，则将视频中差异值最大的三个节点作为所述待处理视频的视频切割点。视频切割点可以是视频切换转场、视频爆发点、视频制作者设立的关键帧。
55.在本技术提供的一实施例中，沿用上例，参见图2，图2示出了待处理音视频和待处理视频的切割点示意图，通过音频节奏检测法对待处理音频a和b进行节奏点检测，如图2所示，待处理音频a检测到两个音频切割点ap1和ap2，待处理音频b检测到两个音频切割点bp1和bp2，待处理视频x检测到两个视频切割点xp1和xp2，待处理视频y检测到两个视频切割点yp1和yp2。
56.步骤106：基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段。
57.在实际应用中，基于确定的音频切割点对待处理音频进行切割，生成多个待处理音频片段，基于确定的视频切割点对待处理视频进行切割，生成多个待处理视频片段。
58.在本技术提供的一实施例中，沿用上例，参见图2，待处理音频a被切割为待处理音频片段a1、a2、a3，待处理音频b被切割为待处理音频片段b1、b2、b3，待处理视频x被切割为待处理视频片段x1、x2、x3，待处理视频y被切割为待处理视频片段y1、y2、y3。
59.步骤108：按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频。
60.实际应用中可以将任意的待处理音频片段和任意的待处理视频片段进行匹配，预设的匹配规则有很多，比如为了提升匹配音视频的灵活性，可以根据待处理音频片段和待处理视频片段任意匹配生成匹配子音视频。
61.在匹配过程中，可以规定同一个待处理音频片段或待处理视频片段最多只出现一次，也可以规定同一个待处理音频片段或待处理视频片段可以出现多次，在本技术提供的音视频处理方法中，对于待处理视频和待处理音频的匹配组合不做过多限定，以实际应用为准。
62.需要注意的是，在实际应用中，待处理音频和待处理视频在经过切割之后，获得多个待处理音频片段和多个待处理视频片段，他们之间的时长、大小并不完全匹配，为了使待处理音频片段和待处理视频片段可以吻合，还需要对待处理音频片段和/或待处理视频片段进行剪辑，因此，按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频，包括：
63.在所述多个待处理音频片段中确定目标待处理音频片段，在所述多个待处理视频片段中确定目标待处理视频片段；
64.通过第一剪辑方法调整所述目标待处理音频片段和所述目标待处理视频片段，以使所述目标待处理音频片段的时长等于所述目标待处理视频片段的时长；
65.通过所述第二剪辑方法将调整后的所述目标待处理音频片段和所述目标待处理视频片段进行匹配，获得所述目标待处理音频片段和所述目标待处理视频片段对应的匹配子音视频。
66.具体的，在获得多个待处理音频片段和多个待处理视频片段后，在多个待处理音频片段中确定一个目标待处理音频片段，在多个待处理视频片段中确定一个目标待处理视频片段。
67.之后要先通过第一剪辑方法调整目标待处理音频片段和所述目标待处理视频片段的时长，第一剪辑方法及用于调整时长的剪辑手段，如变速，过渡等等，比如目标待处理音频片段的时长比目标待处理视频片段的时长要长，可以通过加速播放目标待处理音频片段或减速播放所述目标待处理视频片段的方式使得所述目标待处理音频片段的时长等于所述目标待处理视频片段的时长。
68.在实际应用中，第二剪辑方法为对待处理音频片段和待处理视频片段进行优化的剪辑手段，如为待处理音频片段增加或减小音量，为待处理视频片段增加滤镜，对待处理视频进行旋转、缩放等等，使得待处理音频片段和/或待处理视频片段更加丰富有趣。第二剪辑方法的具体方案有很多，可以根据用户输入的信息进行选择，也可以从预设的方案中随机选择，在基于音频的剪辑方法可以根据预先设置的规则读取音频的波形，在音频振幅激增时运用增强特效，基于视频的剪辑方法可以在视频爆发点时运用视频特效等等，在本技术中对此不做限制，以实际应用为准。
69.一个待处理音频片段和一个待处理视频片段经过第一剪辑方法和第二剪辑方法后获得匹配子音视频，多个待处理音频和多个待处理视频片段可以获得多个匹配子音视频。
70.在本技术提供的一具体实施例中，沿用上例，根据待处理音频片段a1、a2、a3、b1、b2、b3和待处理视频片段x1、x2、x3、y1、y2、y3可以获得多个匹配子音视频，比如a1x2、a2y1、a1y1、b2x1、b1x3
……
，在此就不一一列举。
71.步骤110：根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频。
72.具体的，在获得多个匹配子音视频后，匹配子音视频之间具备一定的独立性，是可以相互匹配的，因此，多个匹配子音视频也会组合生成多个匹配音视频，在实际应用中，为了视频逻辑的连贯性，优选的将来源于同一个待处理音频的待处理音频片段或同一个待处理视频的待处理视频片段连续出现。
73.可选的，根据所述多个匹配子音视频生成多个匹配音视频，包括：
74.根据预设的音视频生成规则将所述多个匹配子音视频进行匹配，生成多个匹配音视频。
75.预设的音视频生成规则可以有很多，如为了最终生成的音视频的逻辑性，(逻辑性高的音视频最终的整体得分就会比较高)，同一个原始待处理音频的待处理音频片段要尽可能的连续出现，同一个原始待处理视频的待处理视频片段尽可能连续出现。
76.完成一个匹配音视频的规则也可以有多种，比如匹配音视频的时长超过预设阈值，或者每个待处理音频片段仅可匹配一次并且待处理音频片段已经匹配完，或者每个待处理视频片段仅可匹配一次并且待处理视频片段已经匹配完等等，对此在本技术中不做限制。
77.在本技术提供的一具体实施例中，沿用上例，以匹配音视频的时长超过预设阈值1分钟为例，获得匹配音视频有：1、a1x1-a2x2-b1y3-b3y2-a3x3；2、a3x2-a1x2-b3y1-b2y1-a3x1；3、a2y1-a1x2-b1x3-a3y3-b3x3等若干个匹配音视频，每个匹配音视频的时长都超过1分钟。
78.在本技术提供的另一具体实施方式中，以待处理音频片段的顺序为例，获得匹配音视频有1、a1x1-a2x3-a3y1-b1y3-b2x2-b3x3；2、a1x2-a2x1-a3y3-b1y2-b2x3-b3y3；3、a1x1-a2x3-a3y3-b1y3-b2y3-b3y1等若干个匹配音视频，每个匹配音视频的音频片段的顺序是与原待处理音频的顺序相同。
79.在本技术提供的又一具体实施方式中，以待处理视频片段的顺序为例，获得匹配音视频有1、a2x1-b2x2-a3x3-b1y1-b1y2-b3y3；2、a1x1-a3x2-b3x1-a1y1-a2y2-b3y3；3、b3x1-b1x2-a3x3-a2y1-a2y2-b3y3等若干个匹配音视频，每个匹配音视频的音频片段的顺序是与原待处理音频的顺序相同。
80.以上，在根据所述多个匹配子音视频生成多个匹配音视频后，由于匹配规则的原因，必然会导致多个匹配音视频中会有一些视频不符合逻辑的匹配音视频，比如一段激烈的音频匹配到了一段画面安静的视频，或者一段柔和的音频匹配到了一段激烈打斗的视频等等，因此还需要在多个匹配音视频中选取一个匹配效果最佳、音视频逻辑效果最好的匹配音视频作为最终的目标匹配音视频，基于此，在所述多个匹配音视频中确定目标匹配音视频，包括：
81.为每个匹配音视频进行评分，获得每个匹配音视频对应的音视频得分；
82.确定音视频得分最高的匹配音视频为目标匹配音视频。
83.在实际应用中，匹配生成多个匹配音视频后，还需要对每个匹配音视频进行评分，所述评分用来评价匹配音视频的视频效果，最终选择音视频得分最高的匹配音视频最为最终的目标匹配音视频，可选的，在实际应用中，也可以选择音视频得分前几名的匹配音视频展示给用户，由用户在展示的几个匹配音视频中选择最终的目标匹配音视频。
84.具体的，为每个匹配音视频进行评分，获得每个匹配音视频对应的音视频得分，包括：
85.确定每个匹配音视频对应的局部得分和整体得分；
86.基于每个匹配音视频对应的局部得分和整体得分确定每个匹配音视频对应的音视频得分。
87.对每个匹配音视频进行评分分为两个部分，一个是对匹配音视频的局部匹配效果进行评分，一个是对匹配音视频的整体匹配效果进行评分，在获得匹配音视频的局部得分或整体得分之后，根据两者的和确定最终的音视频得分。
88.具体的，确定每个匹配音视频对应的局部得分和整体得分，包括：
89.在所述多个匹配音视频中确定待评分匹配音视频，并确定所述待评分匹配音视频对应的待评分匹配子音视频；
90.为每个所述待评分匹配子音视频进行评分并求和，获得所述待评分匹配音视频对应的局部得分；
91.为所述待评分匹配音视频进行评分，获得所述待评分匹配音视频对应的整体得分。
92.在实际应用中，要对每个匹配音视频进行评分，先在多个匹配音视频中确定一个待评分匹配音视频，并确定待评分匹配音视频对应的多个待评分匹配子音视频，即组成所述待评分匹配音视频的多个匹配子音视频，再分别对每个匹配子音视频进行打分，获得每个匹配子音视频的评分，并将每个匹配子音视频的评分求和即可得到所述待评分匹配音视频的局部得分。
93.可选的，为每个所述待评分匹配子音视频进行评分并求和，包括：
94.确定目标待评分匹配子音视频，并确定所述目标待评分匹配子音视频对应的目标待评分音频片段和目标待评分视频片段；
95.计算所述目标待评分音频片段和所述目标待评分视频片段的相似度；
96.根据所述相似度和预设的音视频片段相似度得分表确定所述目标待评分匹配子音视频的得分。
97.在实际应用中，对每个待评分匹配子音视频进行评分时，先确定待评分子音视频对应的目标待评分音频片段和目标待评分视频片段，所述目标待评分音频片段和所述目标待评分视频片段是经过剪辑手段调整后的片段，再计算所述目标待评分音频片段的音频特征与所述待评分视频片段的视频特征的相似度，音频特征包括但不限于音频波形、音色种类等，视频特征包括但不限于视频内容、视频色彩变化等等，例如，一段振幅变化较激烈的音频与一段描述风景的视频匹配后获得的得分较低，而与一段描述战斗的视频匹配后获得的得分较高，又比如音频振幅最高点和视频画面爆发点的时间差越短，评分越高，在实际应用中，会有一个用来换算相似度和得分的音视频片段相似度得分表，在计算相似度之后，根据所述音视频片段相似度得分表即可得到所述目标待评分匹配子音视频的得分。
98.在除去为待评分匹配音视频进行局部评分外，还需要对待评分匹配音视频进行整体评分，对待评分匹配音视频进行整体评分即主要评价整个音视频的匹配方案的流畅性，待评分匹配音视频越流畅、画面和声音越和谐，则其评分越高。在实际应用中，还可以设置一个色彩色调变化范围，当待评分匹配音视频的色彩色调变化值超出预设范围时，待评分匹配音视频对应的整体评分也会有所降低，来自同一个源音频或源视频的片段连续播出，其待评分匹配音视频对应的整体评分也会相应增加。
99.最终，根据每个匹配音视频对应的局部评分和整体评分获得每个匹配音视频对应的音视频得分。再将得分最高的音视频得分对应的匹配音视频作为最终的目标匹配音视频输出。
100.在本技术提供的一实施例中，沿用上例，确定多个匹配音视频及其对应的得分分别为如下表1所示：
101.表1
102.序号匹配音视频得分1a1x1-a2x2-b1y3-b3y2-a3x3702a3x2-a1x2-b3y1-b2y1-a3x1723a2y1-a1x2-b1x3-a3y3-b3x3684a2x1-b2x2-a3x1-b1y1-b1y2-b3y3785a1x1-a3x2-b3x1-a1y1-a2y2-b3y3846b1x1-b2x2-a3x1-a1y1-a2y2-b3y3867a2x1-b2x2-a3x1-b1y1-b1y2-b3y3888a1x1-a3x2-b3x1-a1y1-a2y2-b3y3819a1x1-a2x2-a3x3-b1y1-b2y2-b3y395
103.如表1所示，得分最高的匹配音视频为序号9的匹配音视频，因此最终的目标匹配音视频为“a1x1-a2x2-a3x3-b1y1-b2y2-b3y3”。
104.本技术提供的音视频处理方法，通过获取至少一个待处理音频和至少一个待处理视频；确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频，本技术提供的音视频处理方法，可以快速完成音频和视频的匹配剪辑流程，用户只需提供任意数量的音频和视频，通过本技术提供的音视频处理方法即可自动识别音频和视频的切割点，并将音频和视频切割为多个音频片段和视频片段，然后生成多个可行的剪辑方案，最后选择最佳剪辑方案合成最终的目标音视频，无需用户具备剪辑基础，降低了音视频剪辑门槛，提升了剪辑出的视频效果，提高了用户体验。
105.图3示出了本技术一实施例的音视频处理方法的流程示意图，该音视频处理方法，包括步骤302至步骤318。
106.步骤302：获取待处理音频。
107.在本技术提供的实施例中，获取待处理音频m和n。
108.步骤304：确定音频切割点。
109.在本技术提供的实施例中，根据节奏检测法对所述待处理音频m和待处理音频n进行识别，确定待处理音频m的音频切割点mp1、mp2、mp3，确定待处理音频n的音频切割点np1、np2。
110.步骤306：获得待处理音频片段。
111.在本技术提供的实施例中，根据音频切割点mp1、mp2、mp3对所述待处理音频m进行切割，获得待处理音频片段m1、m2、m3、m4，根据音频切割点np1、np2对所述待处理音频n进行切割，获得待处理音频片段n1、n2、n3。
112.步骤308：获取待处理视频。
113.在本技术提供的实施例中，获取待处理视频p、q和t。
114.步骤310：计算视频某一节点前n帧和后m帧的差别，确定视频切割点。
115.在本技术提供的实施例中，对于待处理视频p，计算待处理视频p中某相邻两个视频帧对应的前n帧和后m帧画面像素的差异值，确定差异值大于预设阈值的节点为视频切割点，确定待处理视频p的视频切割点为pp1、pp2、pp3，同理，确定待处理视频q的视频切割点为qp1、qp2，确定待处理视频t的视频切割点为tp1、tp2、tp3、tp4。
116.步骤312：获得待处理视频片段。
117.在本技术提供的实施例中，根据音频切割点pp1、pp2、pp3对所述待处理音频p进行切割，获得待处理音频片段p1、p2、p3、p4，根据音频切割点qp1、qp2对所述待处理音频q进行切割，获得待处理音频片段q1、q2、q3，根据音频切割点tp1、tp2、tp3、tp4对所述待处理音频t进行切割，获得待处理音频片段t1、t2、t3、t4、t5。
118.需要注意的是，在实际应用中，步骤302至步骤306和步骤308至步骤312之间没有必然的先后顺序，为了提高音视频处理效率，步骤302至步骤306和步骤308至步骤312可以同时进行。
119.步骤314：任意待处理音频片段和任意待处理视频片段匹配，选用剪辑方法库的剪辑手段和参数完成匹配，获得多个匹配子音视频。
120.在本技术提供的实施例中，获得待处理音频片段m1、m2、m3、m4、n1、n2、n3。获得待处理视频片段p1、p2、p3、p4、q1、q2、q3、t1、t2、t3、t4、t5，剪辑方法库为预先保存的多种剪辑手法，比如倍速播放、慢速播放、增加滤镜、视频缩放、视频旋转、音频增加音量、音频减小音量等等，任取一个待处理音频片段和一个待处理视频片段并根据剪辑方法库中的剪辑手法和参数进行匹配，使得待处理音频片段和待处理视频片段组合成一个匹配子音视频视为一次匹配。如m1 q3、m2 p1、m4 q1、n3 t5等等，可以获得多个相互独立的匹配子音视频。
121.步骤316：多个匹配子音视频相互匹配达到匹配结束条件，获得多个匹配音视频。
122.在本技术提供的实施例中，以达到预设的时长为例，对多个匹配子音视频进行匹配，预设时长为5分钟，获得多个匹配音视频参见下表2：
123.表2
[0124][0125][0126]
步骤318：对多个匹配音视频进行评分，确定评分最高的匹配音视频为最终的目标匹配音视频。
[0127]
在本技术提供的实施例中，每个匹配音视频进行评分，具体评分结果参见表3：
[0128]
表3
[0129]
序号匹配音视频得分1m1q1-n2p2-m3t3-n3p2-n1q3-n1q3782n3p2-n1t2-m3t1-m2q1-n3p1-n3t3853m2q1-n1q2-m1p3-n3t3-m3t3-n1p3654m2t1-m2t2-n3p1-n1q1-m1t2-m3q3755n1p1-n3t2-m3t5-n1q1-n2t2-m3p3926m1t1-n2t2-n3q1-n1t2-m2p2-m3p3607n2q1-n2p2-m3p1-n1t4-m1t2-n3q3888m1p1-m3t2-n3p1-m1t5-m2q2-n3q3979n1q1-m2t2-n3q3-m1t1-n2p2-m3p365
………………
[0130]
参见上述表3，可以确定最终的目标匹配音视频为“m1p1-m3t2-n3p1-m1t5-m2q2-n3q3”。
[0131]
本技术提供的音视频处理方法，通过获取至少一个待处理音频和至少一个待处理视频；确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视
频的至少一个视频切割点；基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频，本技术提供的音视频处理方法，可以快速完成音频和视频的匹配剪辑流程，用户只需提供任意数量的音频和视频，通过本技术提供的音视频处理方法即可自动识别音频和视频的切割点，并将音频和视频切割为多个音频片段和视频片段，然后生成多个可行的剪辑方案，最后选择最佳剪辑方案合成最终的目标音视频，无需用户具备剪辑基础，降低了音视频剪辑门槛，提升了剪辑出的视频效果，提高了用户体验。
[0132]
与上述音视频处理方法实施例相对应，本技术还提供了音视频处理装置实施例，图4示出了本技术一个实施例的音视频处理装置的结构示意图。如图4所示，该装置包括：
[0133]
获取模块402，被配置为获取至少一个待处理音频和至少一个待处理视频；
[0134]
确定模块404，被配置为确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；
[0135]
切割模块406，被配置为基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；
[0136]
匹配模块408，被配置为按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；
[0137]
生成模块410，被配置为根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频。
[0138]
可选的，所述确定模块404，进一步被配置为：
[0139]
提取所述待处理音频的音频波形；
[0140]
基于所述音频波形确定音频声谱；
[0141]
基于所述音频波形和所述音频声谱确定所述待处理音频的音频切割点。
[0142]
可选的，所述确定模块404，进一步被配置为：
[0143]
对所述待处理视频进行解码，获得所述待处理视频对应的多个视频帧；
[0144]
计算相邻两个视频帧的差异值；
[0145]
将所述差异值大于预设阈值的两个相邻视频帧中的前一帧或后一帧作为所述待处理视频的视频切割点。
[0146]
可选的，所述匹配模块408，进一步被配置为：
[0147]
在所述多个待处理音频片段中确定目标待处理音频片段，在所述多个待处理视频片段中确定目标待处理视频片段；
[0148]
通过第一剪辑方法调整所述目标待处理音频片段和所述目标待处理视频片段，以使所述目标待处理音频片段的时长等于所述目标待处理视频片段的时长；
[0149]
通过所述第二剪辑方法将调整后的所述目标待处理音频片段和所述目标待处理视频片段进行匹配，获得所述目标待处理音频片段和所述目标待处理视频片段对应的匹配子音视频。
[0150]
可选的，所述生成模块410，进一步被配置为：
[0151]
根据预设的音视频生成规则将所述多个匹配子音视频进行匹配，生成多个匹配音视频。
[0152]
可选的，所述生成模块410，进一步被配置为：
[0153]
为每个匹配音视频进行评分，获得每个匹配音视频对应的音视频得分；
[0154]
确定音视频得分最高的匹配音视频为目标匹配音视频。
[0155]
可选的，所述生成模块410，进一步被配置为：
[0156]
确定每个匹配音视频对应的局部得分和整体得分；
[0157]
基于每个匹配音视频对应的局部得分和整体得分确定每个匹配音视频对应的音视频得分。
[0158]
可选的，所述生成模块410，进一步被配置为：
[0159]
在所述多个匹配音视频中确定待评分匹配音视频，并确定所述待评分匹配音视频对应的待评分匹配子音视频；
[0160]
为每个所述待评分匹配子音视频进行评分并求和，获得所述待评分匹配音视频对应的局部得分；
[0161]
为所述待评分匹配音视频进行评分，获得所述待评分匹配音视频对应的整体得分。
[0162]
可选的，所述生成模块410，进一步被配置为：
[0163]
确定目标待评分匹配子音视频，并确定所述目标待评分匹配子音视频对应的目标待评分音频片段和目标待评分视频片段；
[0164]
计算所述目标待评分音频片段和所述目标待评分视频片段的相似度；
[0165]
根据所述相似度和预设的音视频片段相似度得分表确定所述目标待评分匹配子音视频的得分。
[0166]
本技术提供的音视频处理装置，通过获取至少一个待处理音频和至少一个待处理视频；确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频，本技术提供的音视频处理装置，可以快速完成音频和视频的匹配剪辑流程，用户只需提供任意数量的音频和视频，通过本技术提供的音视频处理方法即可自动识别音频和视频的切割点，并将音频和视频切割为多个音频片段和视频片段，然后生成多个可行的剪辑方案，最后选择最佳剪辑方案合成最终的目标音视频，无需用户具备剪辑基础，降低了音视频剪辑门槛，提升了剪辑出的视频效果，提高了用户体验。
[0167]
上述为本实施例的一种音视频处理装置的示意性方案。需要说明的是，该音视频处理装置的技术方案与上述的音视频处理方法的技术方案属于同一构思，音视频处理装置的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0168]
图5示出了根据本说明书一实施例提供的一种计算设备500的结构框图。该计算设
备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接，数据库550用于保存数据。
[0169]
计算设备500还包括接入设备540，接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(nic))中的一个或多个，诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口，等等。
[0170]
在本说明书的一个实施例中，计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图5所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。
[0171]
计算设备500可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或pc的静止计算设备。计算设备500还可以是移动式或静止式的服务器。
[0172]
其中，处理器520用于执行如下计算机可执行指令：
[0173]
获取至少一个待处理音频和至少一个待处理视频；
[0174]
确定所述至少一个待处理音频的至少一个音频切割点，确定所述至少一个待处理视频的至少一个视频切割点；
[0175]
基于所述至少一个音频切割点将所述至少一个待处理音频切割为多个待处理音频片段，基于所述至少一个视频切割点将所述至少一个待处理视频切割为多个待处理视频片段；
[0176]
按照预设的匹配规则将所述多个待处理音频片段和所述多个待处理视频片段进行匹配，获得多个匹配子音视频；
[0177]
根据所述多个匹配子音视频生成多个匹配音视频，并在所述多个匹配音视频中确定目标匹配音视频。
[0178]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0179]
本技术一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的音视频处理方法的步骤。
[0180]
上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音视频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0181]
本技术一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述音视频处理方法的步骤。
[0182]
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音视频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音视频处理方法的技术方案的描述。
[0183]
上述对本技术特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0184]
所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0185]
需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本技术所必须的。
[0186]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。
[0187]
以上公开的本技术优选实施例只是用于帮助阐述本技术。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本技术的内容，可作很多的修改和变化。本技术选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种消息的展示方法及显示设备与流程

一种音视频处理方法及装置与流程

相关文献

最热文献