音频处理方法、装置、电子设备及存储介质与流程

2022-06-30 02:18:00 来源：中国专利 TAG：

1.本公开涉及音频处理领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术：

2.在音频编辑过程中，通常会涉及到对一段完整的音频进行截取，以短视频制作为例，短视频的时长一般在10秒到60秒之间，当需要利用一首歌曲对短视频进行配乐时，无法使用整首歌曲，需要选取歌曲的一部分，一般来说是选取主观理解的音频的高亮部分，例如，歌曲的副歌部分等。
3.现有的音频片段选取通常是依靠人工对完整的音频进行切分，例如，在短视频配乐的场景中，可能需要人工听辨歌曲的副歌部分，然后将副歌部分切分出来，作为短视频的配乐。然而，在这样的人工选取中，无法实现精确的选取，可能出现截取的音频不连续、破音等情况。

技术实现要素：

4.本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决相关技术中人工选取音频片段的标准不同且无法实现精确选取的问题。本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供一种音频处理方法，所述音频处理方法包括：获取原始音频以及从所述原始音频选取的音频片段；确定所述原始音频中与所述音频片段的起始时刻对齐的起始位置；基于所述起始位置，确定所述原始音频中距离所述起始位置最近的参考节拍所在的第一节拍时刻；基于所述第一节拍时刻，调整所述音频片段的起始时刻。
6.可选地，确定所述原始音频中与所述音频片段的起始时刻对齐的起始位置的步骤包括：确定所述原始音频在频域上的每个音频帧与所述音频片段在频域上的每个音频帧之间的相关性；将所述原始音频中的最大相关音频帧所对应的时刻确定为所述起始位置，其中，所述最大相关音频帧为所述原始音频的所有音频帧中与所述相关性的最大值对应的音频帧。
7.可选地，确定所述原始音频在频域上的每个音频帧与所述音频片段在频域上的每个音频帧之间的相关性的步骤包括：将所述原始音频和所述音频片段分别转换为在频域上的幅度谱，其中，所述幅度谱表示音频的每个帧的中心频率上的幅度值；将所述原始音频的幅度谱和所述音频片段的幅度谱分别转换为一维幅度谱；基于所述原始音频的一维幅度谱和所述音频片段的一维幅度谱之间的自相关系数，确定所述原始音频的每个音频帧与所述音频片段的每个音频帧之间的相关性。
8.可选地，所述音频处理方法还包括：基于所述音频片段的时长和所述起始位置，确定所述原始音频中与所述音频片段的结束时刻对齐的结束位置；基于所述结束位置，确定所述原始音频中距离所述结束位置最近的参考节拍所在的第二节拍时刻；基于所述第二节
拍时刻，调整所述音频片段的结束时刻，其中，所述参考节拍为所述原始音频的重拍。
9.可选地，所述音频处理方法还包括：检测所述原始音频的节拍；基于所述节拍的间隔时间，对调整后的所述音频片段中在起始时刻之后在所述间隔时间内的音频进行弱化，并对调整后的所述音频片段中在结束时刻之前在所述间隔时间内的音频进行弱化。
10.可选地，所述音频片段通过以下方式从所述原始音频选取：对所述原始音频进行分轨处理，得到至少一个轨道音频；根据所述至少一个轨道音频的特征参数的变化信息，确定所述至少一个轨道音频的音频内容发生转折的转折时刻；基于所述至少一个轨道音频的转折时刻，从所述原始音频中选取所述音频片段。
11.可选地，根据所述至少一个轨道音频的特征参数的变化信息，确定所述至少一个轨道音频的音频内容发生转折的转折时刻的步骤包括：针对所述至少一个轨道音频中的每个轨道音频，确定该轨道音频的特征参数的变化曲线，并检测该轨道音频的单位时间内的节拍数；根据所述单位时间内的节拍数，对所述变化曲线进行平滑处理，得到平滑曲线；基于所述平滑曲线中的峰值位置，确定该轨道音频的转折时刻。
12.可选地，基于所述平滑曲线中的峰值位置，确定该轨道音频的转折时刻的步骤包括：基于所述峰值位置，确定该轨道音频中在所述峰值位置所对应的峰值时刻之前，距所述峰值时刻最近的重拍时刻；将所述重拍时刻作为该轨道音频的转折时刻。
13.可选地，通过以下方式确定所述峰值位置：对所述平滑曲线进行差分处理，基于差分处理后得到的差分曲线中的差分值，确定所述峰值位置。
14.可选地，基于所述至少一个轨道音频的转折时刻，从所述原始音频中选取音频片段的步骤包括：针对所述至少一个轨道音频中的每个轨道音频的每个转折时刻，基于该轨道音频的预设权重值，对该轨道音频的特征参数值进行加权；针对每个轨道音频的每个转折时刻，确定所有轨道音频的加权后的特征参数值的和值；将所述和值最大的转折时刻确定为所述原始音频在时序上的转折点，并基于所述转折点从所述原始音频中选取音频片段，其中，所述音频片段的起始时刻或结束时刻为在所述转折点之前或之后与所述转折点间隔预定数量个小节的时刻。
15.根据本公开实施例的第二方面，提供一种音频处理装置，其特征在于，所述音频处理装置包括：获取单元，被配置为获取原始音频以及从所述原始音频选取的音频片段；第一确定单元，被配置为确定所述原始音频中与所述音频片段的起始时刻对齐的起始位置；第二确定单元，被配置为基于所述起始位置，确定所述原始音频中距离所述起始位置最近的参考节拍所在的第一节拍时刻；调整单元，被配置为基于所述第一节拍时刻，调整所述音频片段的起始时刻。
16.可选地，所述第一确定单元还被配置为：确定所述原始音频在频域上的每个音频帧与所述音频片段在频域上的每个音频帧之间的相关性；将所述原始音频中的最大相关音频帧所对应的时刻确定为所述起始位置，其中，所述最大相关音频帧为所述原始音频的所有音频帧中与所述相关性的最大值对应的音频帧。
17.可选地，所述第一确定单元还被配置为：将所述原始音频和所述音频片段分别转换为在频域上的幅度谱，其中，所述幅度谱表示音频的每个帧的中心频率上的幅度值；将所述原始音频的幅度谱和所述音频片段的幅度谱分别转换为一维幅度谱；基于所述原始音频的一维幅度谱和所述音频片段的一维幅度谱之间的自相关系数，确定所述原始音频的每个
音频帧与所述音频片段的每个音频帧之间的相关性。
18.可选地，所述调整单元还被配置为：基于所述音频片段的时长和所述起始位置，确定所述原始音频中与所述音频片段的结束时刻对齐的结束位置；基于所述结束位置，确定所述原始音频中距离所述结束位置最近的参考节拍所在的第二节拍时刻；基于所述第二节拍时刻，调整所述音频片段的结束时刻，其中，所述参考节拍为所述原始音频的重拍。
19.可选地，所述音频处理装置还包括弱化单元，所述弱化单元被配置为：检测所述原始音频的节拍；基于所述节拍的间隔时间，对调整后的所述音频片段中在起始时刻之后在所述间隔时间内的音频进行弱化，并对调整后的所述音频片段中在结束时刻之前在所述间隔时间内的音频进行弱化。
20.可选地，所述获取单元还被配置为：对所述原始音频进行分轨处理，得到至少一个轨道音频；根据所述至少一个轨道音频的特征参数的变化信息，确定所述至少一个轨道音频的音频内容发生转折的转折时刻；基于所述至少一个轨道音频的转折时刻，从所述原始音频中选取所述音频片段。
21.可选地，所述获取单元还被配置为：针对所述至少一个轨道音频中的每个轨道音频，确定该轨道音频的特征参数的变化曲线，并检测该轨道音频的单位时间内的节拍数；根据所述单位时间内的节拍数，对所述变化曲线进行平滑处理，得到平滑曲线；基于所述平滑曲线中的峰值位置，确定该轨道音频的转折时刻。
22.可选地，所述获取单元还被配置为：基于所述峰值位置，确定该轨道音频中在所述峰值位置所对应的峰值时刻之前，距所述峰值时刻最近的重拍时刻；将所述重拍时刻作为该轨道音频的转折时刻。
23.可选地，所述获取单元还被配置为通过以下方式确定所述峰值位置：对所述平滑曲线进行差分处理，基于差分处理后得到的差分曲线中的差分值，确定所述峰值位置。
24.可选地，所述获取单元还被配置为：针对所述至少一个轨道音频中的每个轨道音频的每个转折时刻，基于该轨道音频的预设权重值，对该轨道音频的特征参数值进行加权；针对每个轨道音频的每个转折时刻，确定所有轨道音频的加权后的特征参数值的和值；将所述和值最大的转折时刻确定为所述原始音频在时序上的转折点，并基于所述转折点从所述原始音频中选取音频片段，其中，所述音频片段的起始时刻或结束时刻为在所述转折点之前或之后与所述转折点间隔预定数量个小节的时刻。
25.根据本公开实施例的第三方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器可执行指令在被所述处理器运行时，促使所述处理器执行根据本公开所述的音频处理方法。
26.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行根据本公开所述的音频处理方法。
27.根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令被处理器执行时实现根据本公开所述的音频处理方法。
28.本公开的实施例提供的技术方案至少带来以下有益效果：
29.对于从原始音频中选取的音频片段，可以通过将音频片段的起始时刻与原始音频对齐并且根据原始音频的参考节拍的位置，实现对音频片段的切分时刻的精确调整，解决
了人工无法实现精确的选取，避免了可能出现截取的音频不连续、破音等情况。
30.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
31.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
32.图1是根据一示例性实施例示出的一种音频处理方法的一示例的流程图。
33.图2是根据一示例性实施例示出的一种音频处理方法中获取起始位置的步骤的流程图。
34.图3是根据一示例性实施例示出的一种音频处理方法中确定原始音频与音频片段的音频帧之间的相关性的步骤的流程图。
35.图4是根据一示例性实施例示出的一种音频处理方法中从原始音频中选取音频片段的步骤的流程图。
36.图5是根据一示例性实施例示出的一种音频处理方法中确定轨道音频的转折时刻的步骤的流程图。
37.图6是根据一示例性实施例示出的一种音频处理方法中基于转折时刻选取音频片段的步骤的流程图。
38.图7是根据一示例性实施例示出的一种音频处理方法中选取音频片段的示意性框架图。
39.图8是根据一示例性实施例示出的一种音频处理方法中检测节奏和重拍的一示例的示意图。
40.图9是根据一示例性实施例示出的一种音频处理方法中检测节奏和重拍的另一示例的示意图。
41.图10是根据一示例性实施例示出的一种音频处理方法中音频分离的示意图。
42.图11是根据一示例性实施例示出的一种音频处理装置的框图。
43.图12是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
44.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
45.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
46.在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的
情况。例如“包括a和b之中的至少一个”即包括如下三种并列的情况：(1)包括a；(2)包括b；(3)包括a和b。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。
47.还需要说明的是，根据本公开的示例性实施例的音频处理方法可以应用于服务端，也可以应用于用户端，例如，服务端可以响应于用户端的音频处理请求执行上述音频处理方法，用户端也可以直接执行上述音频处理方法。
48.这里，服务端可以是指任何可以执行下面描述的音频处理方法的执行主体，例如服务器。服务器可以包括一个独立运行的服务器，也可以是分布式服务器，或者由多个服务器组成的服务器集群，还可以是云计算平台或虚拟化中心。应用端可以是与服务端相对应的概念，其可以为用户提供本地服务，这里的应用端例如可以为终端设备，具体可包括智能手机、平板电脑、笔记本电脑、数字助理、可穿戴设备、车载终端等的实体设备，也可以包括诸如网页浏览器、虚拟机、应用程序客户端等的运行于实体设备的软体，其通过从服务端接收相应的服务信息等来为用户提供服务。
49.如前面所述，在现有的音频选取方法中，主要是人工操作，然而，一方面，由于每个人对高亮的理解不同，使得人工选取诸如高亮部分的音频片段会存在选取逻辑不清晰和选取标准不一致的情况，这会导致即使对相同的音频进行选取，得到的音频片段也可能不同；另一方面，人工截取的部分无法保证完美，例如，可能会出现没有按照整小节截取导致的音频不连续、破音等。此外，在对音频的高亮部分进行截取时，可能存在没有按照重拍截取而导致音频的歌词意思上不连续的情况。
50.鉴于上述问题，下面将参考附图提供根据本公开示例性实施例的音频处理方法、音频处理装置、电子设备、计算机可读存储介质及计算机程序产品。
51.图1是根据一示例性实施例示出的一种音频处理方法的流程图，如图1所示，该音频处理方法可以包括以下步骤：
52.在步骤s11，可以获取原始音频以及从原始音频选取的音频片段。
53.这里，原始音频可以为用于选取音频片段的音频，其可以是诸如歌曲、乐曲等音乐形式，尽管下文中将以原始音频为歌曲为例进行描述，但本公开不限于此，原始音频可以为任何具有节奏的音频。音频片段可以是原始音频中的至少一部分音频。
54.需要说明的是，在本文中，原始音频与音频片段为相对的概念，不表示二者本身的音频长度和音频内容，例如，原始音频可以是完整的歌曲或乐曲，也可以是完整的歌曲或乐曲中的一部分，音频片段可以是原始音频的一部分，在一些实施例中，其也可以与原始音频相同，即，可以将整段原始音频作为选取的音频片段。
55.在该步骤中，音频片段可以是经由任意方式获得的，在此不作特别限制。
56.在一示例中，音频片段可以是经由人工从原始音频中选取的。例如，可以利用现有的人工方式从原始音频中选取出音频片段。
57.在另一示例中，音频片段也可以是通过对原始音频进行算法分析而自动选取出的，这里，从原始音频自动选取音频片段的具体操作步骤将在下文中参照图4详细描述。
58.在步骤s12，可以确定原始音频中与音频片段的起始时刻对齐的起始位置。
59.在该步骤中，可以通过将音频片段的起始时刻与原始音频中的相应起始位置对齐，来找到通过人工或自动的方式选取出的音频片段在原始音频中的位置。
60.作为示例，如图2所示，步骤s12可以包括以下步骤：
61.在步骤s121，可以确定原始音频在频域上的每个音频帧与音频片段在频域上的每个音频帧之间的相关性。
62.在该步骤s121中，可以将音频片段在频域上与原始音频进行对齐，并且在频域上确定原始音频的每个音频帧和音频片段的每个音频帧之间的相关性，如此，可以避免人工或自动选取的音频片段由于经过转码或滤波等操作后产生的音频质量损失使得对齐不准确。这里，每个音频帧的时长可以等于采样个数除以采样频率，也就是说，每个音频帧可以包含多个采样时间点。
63.作为示例，如图3所示，步骤s121可以包括：步骤s1211、将原始音频和音频片段分别转换为在频域上的幅度谱，其中，幅度谱表示音频的每个帧的中心频率上的幅度值；步骤s1212、将原始音频的幅度谱和音频片段的幅度谱分别转换为一维幅度谱；步骤s1213、基于原始音频的一维幅度谱和音频片段的一维幅度谱之间的自相关系数，确定原始音频的每个音频帧与音频片段的每个音频帧之间的相关性。
64.具体来说，在步骤s1211，可以分别对时域表示的原始音频和音频片段进行傅立叶变换并且取绝对值，从而得到原始音频和音频片段的时频域的幅度谱。
65.例如，若长度为t的原始音频信号x
raw
在时域上表示为x
raw
(t)，其中，t代表时间，0《t≤t，则经过短时傅里叶变换(short-time fourier transform，stft)后，x
raw
(t)在时频域可以表示为下面的式(1)：
66.x
raw
(n,k)＝stft(x
raw
(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
67.其中，n为原始音频的音频帧的帧序列，0《n≤ns，ns为原始音频的总帧数，k为音频帧的中心频率序列，0《k≤k，k为原始音频的总频点数，stft()表示短时傅里叶变换。
68.类似地，若长度为t
′
的音频片段信号x
section
在时域上表示为x
section
(t)，其中，t代表时间，0《t≤t
′
，则经过短时傅里叶变换后，x
section
(t)在时频域可以表示为下面的式(2)：
69.x
section
(n,k)＝stft(x
section
(t))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
70.其中，n为音频片段的音频帧的帧序列，0《n≤ns′
，ns′
为音频片段的总帧数，k
′
为音频帧的中心频率序列，0《k
′
≤k，k
′
为音频片段的总频点数，stft()表示短时傅里叶变换。
71.通过上面式(1)和式(2)获得的原始音频x
raw
(n,k)和音频片段x
section
(n,k)分别为二维的幅度谱，即，横轴为帧的时间，纵轴为每个帧的幅度值，在步骤s1212，可以将原始音频的幅度谱和音频片段的幅度谱分别转换为一维幅度谱。例如，可以通过flatten函数将二维的幅度谱折叠为一维数组的形式。
72.在步骤s1213，可以基于原始音频的一维幅度谱和音频片段的一维幅度谱，计算二者的每个音频帧之间的自相关系数。
73.具体来说，原始音频的幅度谱和音频片段的幅度谱的自相关系数ac可通过下面的式(3)来确定：
74.ac＝autocorrelation(flatten(x
raw
(n,k)),flatten(x
section
(n,k)))
ꢀꢀꢀ
(3)
75.其中，autocorrelation()表示自相关运算，flatten()表示一维数组运算。
76.由此，可以得到原始音频中的每个音频帧与音频片段中的每个音频帧之间的自相关系数ac，从而可以确定原始音频的每个音频帧和音频片段的每个音频帧之间的相关性。
77.在步骤s122，可以将原始音频中的最大相关音频帧所对应的时刻确定为起始位
置。
78.在步骤中，可以基于上面计算的原始音频的每个音频帧和音频片段的每个音频帧之间的相关性，确定原始音频中的最大相关音频帧，这里，最大相关音频帧可以指的是原始音频的所有音频帧中与相关性的最大值对应的音频帧。
79.在原始音频中，最大相关音频帧所对应的时刻可以为与音频片段的起始时刻对齐的位置，即，上述起始位置。
80.在确定音频片段在原始音频中的起始位置的情况下，可以基于音频片段的时长和起始位置，确定原始音频中与音频片段的结束时刻对齐的结束位置。
81.如此，可以通过音频片段的起始时刻和结束时刻分别与原始音频的起始位置和结束位置对齐，而在原始音频中定位音频片段，从而允许基于原始音频对音频片段的起始时刻和结束时刻进行调整。需要说明的是，也可以仅对齐音频片段的起始时刻与原始音频的起始位置，而不对音频片段的结束时刻进行调整。
82.在步骤s13，可以基于起始位置，确定原始音频中距离起始位置最近的参考节拍所在的第一节拍时刻。
83.在该步骤中，参考节拍可以为原始音频的重拍，但其不限于此，参考节拍可以根据实际应用需要而设定，其可以是原始音频中的任意一种节拍，例如也可以为弱拍。
84.如此，可以将原始音频中距离起始位置最近的重拍时刻作为第一节拍时刻，这里，第一节拍时刻可以在起始位置之前或之后，也可以为起始位置。
85.这里，可以基于任何方法来确定原始音频的参考节拍所在的时刻，在下文中将参照图8和图9给出检测原始音频的节奏和重拍的两个示例，但是本公开不对检测原始音频的节奏和重拍作特别限制。
86.在步骤s14，可以基于第一节拍时刻，调整音频片段的起始时刻。
87.具体来说，可以将音频片段的起始时刻调整到第一节拍时刻，如此，可以解决通过人工或自动选取的音频片段的起始时刻没有精确落在节拍上的问题，从而将音频片段的起始时刻调整到第一节拍时刻，实现对音频片段选取的精调。
88.这里，在第一节拍时刻为起始位置的情况下，第一节拍时刻与音频片段的起始时刻对齐，因此，将音频片段的起始时刻调整到第一节拍时刻可以指的是将音频片段的起始时刻保持在当前时刻。
89.类似地，在确定原始音频中与音频片段的结束时刻对齐的结束位置的情况下，可以基于结束位置，确定原始音频中距离结束位置最近的参考节拍所在的第二节拍时刻，并且可基于第二节拍时刻，调整音频片段的结束时刻，具体来说，可以将音频片段的结束时刻调整到第二节拍时刻。
90.根据上面描述的示例性实施例的音频处理方法，在确定音频片段的起始时刻后，考虑到音频节奏的完整度，可以将音频片段的起始时刻调整到诸如重拍的参考节拍处，例如，可以将参考节拍前一个节拍的结尾作为音频片段的起始时刻。
91.如此，根据本公开示例性实施例的音频处理方法，通过节拍和重拍检测算法找到原始音频的重拍和节拍的时刻，并找到与选取的音频片段的起始时刻和结束时刻最近的节拍(例如，重拍)，以分别作为新的音频片段的起始时刻和结束时刻，这样可以在一定程度上保证音频片段的节奏完整度，从而避免音频片段的不规则截取带来的听感上的错乱。
92.在调整音频片段的起始时刻和/或结束时刻后，根据本公开示例性实施例的音频处理方法还可以包括：检测原始音频的节拍；基于节拍的间隔时间，对调整后的音频片段中在起始时刻之后在间隔时间内的音频进行弱化，并对调整后的音频片段中在结束时刻之前在间隔时间内的音频进行弱化。
93.具体来说，可以对起始时刻到起始时刻之后的第一个节拍之间的音频以及结束时刻之前的第一个节拍到结束时刻之间的音频进行弱化处理，使得对音频片段实现淡入和淡出的效果，防止音频片段的开头和结尾出现爆破音。
94.下面将参照图4详细描述从原始音频选取音频片段的步骤。
95.如图4所示，从原始音频选取音频片段的步骤可以包括：
96.在步骤s21，可以对获取到的原始音频进行分轨处理，得到至少一个轨道音频。
97.这里，可以按照预定的轨道对原始音频进行分轨，预定的轨道可以包括人声轨道和乐器轨道，乐器轨道可以包括鼓轨道、贝斯轨道和混合音频轨道中的至少一者，混合音频轨道为除了人声轨道、鼓轨道和贝斯轨道之外的音频轨道。
98.这里，可以基于任何方法对原始音频进行分轨，在下文中将参照图10给出对原始音频进行分轨的示例，但是本公开不对原始音频分轨的方法作特别限制。
99.在步骤s22，可以根据至少一个轨道音频的特征参数的变化信息，确定至少一个轨道音频的音频内容发生转折的转折时刻。
100.这里，特征参数可以是表征轨道音频的特性的参数，其可以是预先设定的。例如，与人声轨道的轨道音频对应的特征参数可以为音高，与乐器轨道的轨道音频对应的特征参数可以为声音能量。例如，对于人声轨道的轨道音频，可以从原始音频中的基频中提取出音高。
101.作为示例，如图5所示，步骤s22可以具体包括以下步骤：
102.在步骤s221，可以针对至少一个轨道音频中的每个轨道音频，确定该轨道音频的特征参数的变化曲线，并检测该轨道音频的单位时间内的节拍数。
103.在该步骤中，可以针对每个轨道音频确定其相应的特征参数的变化曲线，例如，对于人声轨道的轨道音频，可以确定轨道音频的音高变化曲线。对于乐器轨道的轨道音频，可以确定轨道音频的声音能量变化曲线。
104.在该步骤中，可以基于任何方法来确定原始音频的单位时间内的节拍数，在下文中将参照图8和图9给出检测原始音频的节奏和重拍的两个示例，但是本公开不对检测原始音频的单位时间内的节拍数作特别限制。
105.在步骤s222，可以根据单位时间内的节拍数，对变化曲线进行平滑处理，得到平滑曲线。
106.在该步骤中，单位时间内的节拍数例如可以是每分钟节拍数(bpm)。具体来说，可以根据单位时间内的节拍数设定对变化曲线进行平滑处理的平滑因子，平滑因子与单位时间内的节拍数可以呈反比关系，单位时间内的节拍数越大，平滑因子可设置得越小；单位时间内的节拍数越小，平滑因子可设置得越大。这里，平滑因子的具体数值可以根据实际需要和所选择的平滑算法来设定，平滑算法可以是诸如中值滤波、平均值平滑等的任意的曲线平滑算法。
107.在步骤s223，可以基于平滑曲线中的峰值位置，确定该轨道音频的转折时刻。
108.一般来说，可以认为轨道音频的特征参数的峰值位置靠近或者为音频的转折时刻，例如，对于歌曲而言，副歌的音高会比主歌明显高，副歌的鼓的声音能量比主歌显著大。
109.如此，可以根据平滑曲线中的峰值位置，确定该轨道音频中在峰值位置所对应的峰值时刻之前，距峰值时刻最近的重拍时刻，并将重拍时刻作为该轨道音频的转折时刻。例如，可以将在峰值时刻之前距离峰值时刻最近的重拍时刻作为轨道音频的转折时刻，例如，主歌和副歌之间的转折时刻。
110.在该步骤中，可以通过对平滑曲线进行诸如一阶差分的差分处理，基于差分处理后得到的差分曲线中的差分值，确定峰值位置，例如进行峰值检测，从而找到轨道音频的转折时刻，例如，找到音高明显变高的时间位置、声音能量明显变大的时间位置。
111.这里，每个轨道音频可以具有一个或多个转折时刻。
112.在步骤s23，可以基于至少一个轨道音频的转折时刻，从原始音频中选取音频片段。
113.作为示例，如图6所示，步骤s23可以包括以下步骤：
114.在步骤s231，可以针对至少一个轨道音频中的每个轨道音频的每个转折时刻，基于该轨道音频的预设权重值，对该轨道音频的特征参数值进行加权。
115.这里，预设权重值可以是预先设定的，例如，可以根据原始音频中不同轨道音频的能量占比来分配。具体来说，在该步骤中，可以在每个轨道音频的每个转折时刻处，将所有轨道音频的特征参数的值归一化，并利用相应轨道音频的预设权重值对归一化后的特征参数进行加权。
116.例如，第一轨道音频具有第一转折时刻，第二轨道音频具有第二转折时刻，可以针对第一转折时刻，利用第一轨道音频的预设权重值，对第一轨道音频的在第一转折时刻的特征参数进行加权，并且利用第二轨道音频的预设权重值，对第二轨道音频的在第一转折时刻的特征参数进行加权；可以针对第二转折时刻，利用第一轨道音频的预设权重值，对第一轨道音频的在第二转折时刻的特征参数进行加权，并且利用第二轨道音频的预设权重值，对第二轨道音频的在第二转折时刻的特征参数进行加权。
117.在步骤s232，可以针对每个轨道音频的每个转折时刻，确定所有轨道音频的加权后的特征参数值的和值。
118.以上面的示例为例，可以计算在第一转折时刻，第一轨道音频的加权后的特征参数值与第二轨道音频的加权后的特征参数值的第一和值；并且可以计算在第二转折时刻，第一轨道音频的加权后的特征参数值与第二轨道音频的加权后的特征参数值的第二和值。
119.在步骤s233，可以将和值最大的转折时刻确定为原始音频在时序上的转折点，并基于转折点从原始音频中选取音频片段。
120.以上面的示例为例，可以将第一和值和第二和值中的最大值所对应的转折时刻作为原始音频在时序上的转折点。
121.选取的音频片段的起始时刻或结束时刻可以为在转折点之前或之后与转折点间隔预定数量个小节的时刻。
122.以原始音频为歌曲为例，在获得原始音频的主歌与副歌之间的转折点后，可以节选副歌的高亮部分，即，转折点往后若干小节(一般选择为4个或8个小节)；可以节选转场的高亮部分，即，转折点前后若干小节(一般选择为4个或8个小节)。
123.根据本公开示例性实施例的音频处理方法，对于通过人工或自动的方式选取的音频片段，可以基于节奏检测及重音检测的结果对音频片段实现切分时刻精度调整。
124.可以通过对原始音频内容的自动理解和分析，实现诸如歌曲高亮部分的音乐片段切分的目的，具体来说，对于原始音频，可以通过分析诸如主歌副歌转折点的转折时刻的方法自动提取诸如副歌高亮部分和转场高亮部分的音频片段，实现了音频片段的自动提取。
125.下面将参照图7描述根据一示例性实施例的一种音频处理方法中选取音频片段的示意性框架图。
126.如图7所示，可以通过对输入的原始音频进行节奏检测得到原始音频的节奏(beats)，即，节拍时刻，可以通过对原始音频进行重拍检测得到原始音频的重拍(downbeats)时刻，可以通过对原始音频进行音频分离得到不同轨道的轨道音频，例如人声轨道音频、贝斯轨道音频、鼓轨道音频和其他轨道音频，然后可基于得到的节拍、重拍和轨道音频来选取音频片段，具体的选取过程已在上文中描述。在本公开的音频处理方法中，可以利用深度神经网络对于原始音频的各个维度的理解，结合乐理、传统信号处理的知识，实现节奏检测、重拍检测和音频分离，从而对不同场景下的音乐片段进行自动选取，这将在下文中详细描述。
127.首先将参照图8和图9描述根据一示例性实施例示出的一种音频处理方法中检测节奏和重拍的一示例和另一示例的示意图。
128.具体来说，可以将原始音频输入到预先训练好的第一机器学习模型中，基于第一机器学习模型的输出，确定原始音频中的节奏和重拍，其中，第一机器学习模型用于检测音频中的节奏和重拍。
129.这里，节拍(beat)是音乐中表示固定单位时值和强弱规律的组织形式，其定义了音乐作品的韵律结构。在音乐中，节拍所形成的节奏以重拍和非重拍的重复序列为特征，其中，重拍(downbeat)是指音乐中的强拍。
130.节奏检测算法可以通过分析音频数据自动识别节拍位置。作为示例，可以使用不同的神经网络分别进行节奏和重拍检测，或者使用同一个神经网络同时进行节奏和重拍检测。
131.图8所示的第一机器学习模型可以包括彼此独立的节奏检测网络和重拍检测网络。图9所示的第一机器学习模型可以包括彼此连接的节奏检测子网络和重拍检测子网络。
132.图8和图9所示的第一机器学习模型可以包括卷积神经网络(convolutional neural networks，cnn)、双向长短期记忆网络(bilateral long short-term memory，blstm)、拼接网络(concat)以及全连接网络(dense)。在图8和图9中，cnn(c)为卷积核数量为c的二维卷积层；blstm(l)为节点数为l的双向长短时记忆循环神经网络；concat可以执行合并操作，例如一个5
×
2的矩阵和一个5
×
4的矩阵对第二维进行合并操作得到一个5
×
6的矩阵；dense(d)为节点数为d的全链接层。
133.每个网络的输入为信号的时频谱，例如短时傅里叶谱。具体来说，信号的短时傅里叶谱可以通过下面的操作得到：
134.例如，若长度为t的原始音频信号x
raw
在时域上表示为x
raw
(t)，其中，t代表时间，0《t≤t，则经过短时傅里叶变换后，x
raw
(t)在时频域可以表示为：
135.x
raw
(n,k)＝stft(x
raw
(t))
136.其中，n为原始音频的音频帧的帧序列，0《n≤ns，ns为原始音频的总帧数，k为音频帧的中心频率序列，0《k≤k，k为原始音频的总频点数，stft()表示短时傅里叶变换。
137.或者，每个网络的输入可以为信号的梅尔谱。具体来说，信号的梅尔谱可以通过下面式(4)的操作得到：
138.m(n,k)＝mel(x
raw
(n,m))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
139.其中，n为原始音频的音频帧的帧序列，k为音频帧的中心频率序列，0《k≤k，m为梅尔谱映射后的频率序列，mel()表示梅尔谱特征。
140.可以分别通过节奏检测网络和重拍检测网络得到节拍概率p1(n)和重拍概率p2(n)，结合预先标注的节拍标注信息b1(n)和重拍标注信息b2(n)，如此，可以计算节奏检测的目标损失函数l1(n)＝loss(p1(n),b1(n))以及重拍检测的目标损失函数l2(n)＝loss(p2(n),b2(n))，从而可以通过将两个神经网络的目标损失函数相加得到第一机器学习模型的总损失函数l(n)＝l1(n) l2(n)，这里，loss()损失函数例如可以为加权交叉熵(weighted cross entropy)损失函数。
141.图10是据一示例性实施例示出的一种音频处理方法中音频分离的示意图。
142.具体来说，可以将原始音频输入到预先训练好的第二机器学习模型中，利用第二机器学习模型从原始音频中分离出与预设的音频轨道对应的轨道音频，其中，第二机器学习模型用于从音频中分离出与预设的音频轨道对应的轨道音频。
143.如图10所示，第二机器学习模型可以是深度音频分离网络，其可以将音频中的人声和各种乐器声分离。例如，输入的音频信号x可以为带噪语音(noisy speech)，第二机器学习模型可以将输入的音频信号x按照人声轨道、鼓轨道、贝斯轨道和混合音频轨道分离出4个轨道音频。可以将输入的音频信号x经由短时傅里叶变换(stft)转换为混合信号短时傅里叶频谱，通过第二机器学习模型估计的掩蔽处理(例如，掩蔽矩阵)和输入信号相乘得到输出的分离信号的短时傅里叶频谱然后经过短时傅里叶逆变换(short-time fourier inverse transformation，istft)，得到时域的轨道音频这里，针对不同的轨道，可以使用不同的深度音频分离网络，例如，可以使用4个网络将原始音频的混合信号分离为人声轨道音频、鼓轨道音频、贝斯轨道音频和混合轨道音频。
144.第二机器学习模型可以基于u形网络(u-net网络)构建。如图10所示，u-net网络具有编码-解码(encoder-decoder)架构。u-net网络的encoder包含多个卷积块，每个卷积块包含一个二维卷积(conv2d)层、一个批标准化(batch normalization)层、一个丢弃(dropout)层和leakyrelu激活函数。u-net网络的decoder包含8个反转卷积块，每个反转卷积块与对应的卷积块唯一的不同之处在于将conv2d层替换为二维卷积转置(conv2dtranspose)层。下面的表1示出了在8层的encoder中每个conv2d层的超参数。
145.表1
[0146][0147]
图11是根据一示例性实施例示出的一种音频处理装置的框图。参照图11，该音频处理装置1000包括获取单元100、第一确定单元200、第二确定单元300和调整单元400。
[0148]
获取单元100可以被配置为获取原始音频以及从原始音频选取的音频片段。
[0149]
第一确定单元200可以被配置为确定原始音频中与音频片段的起始时刻对齐的起始位置。
[0150]
第二确定单元300可以被配置为基于起始位置，确定原始音频中距离起始位置最近的参考节拍所在的第一节拍时刻。
[0151]
调整单元400可以被配置为基于第一节拍时刻，调整音频片段的起始时刻。
[0152]
作为示例，第一确定单元200还可以被配置为：确定原始音频在频域上的每个音频帧与音频片段在频域上的每个音频帧之间的相关性；将原始音频中的最大相关音频帧所对应的时刻确定为起始位置，其中，最大相关音频帧为原始音频的所有音频帧中与相关性的最大值对应的音频帧。
[0153]
作为示例，第一确定单元200还可以被配置为：将原始音频和音频片段分别转换为在频域上的幅度谱，其中，幅度谱表示音频的每个帧的中心频率上的幅度值；将原始音频的幅度谱和音频片段的幅度谱分别转换为一维幅度谱；基于原始音频的一维幅度谱和音频片段的一维幅度谱之间的自相关系数，确定原始音频的每个音频帧与音频片段的每个音频帧之间的相关性。
[0154]
可选地，调整单元还被配置为：
[0155]
基于音频片段的时长和起始位置，确定原始音频中与音频片段的结束时刻对齐的结束位置；
[0156]
基于结束位置，确定原始音频中距离结束位置最近的参考节拍所在的第二节拍时刻；
[0157]
基于第二节拍时刻，调整音频片段的结束时刻，
[0158]
其中，参考节拍为原始音频的重拍。
[0159]
作为示例，音频处理装置1000还包括弱化单元500，弱化单元500可以被配置为：检测原始音频的节拍；基于节拍的间隔时间，对调整后的音频片段中在起始时刻之后在间隔时间内的音频进行弱化，并对调整后的音频片段中在结束时刻之前在间隔时间内的音频进行弱化。
[0160]
作为示例，获取单元100还可以被配置为：对原始音频进行分轨处理，得到至少一个轨道音频；根据至少一个轨道音频的特征参数的变化信息，确定至少一个轨道音频的音频内容发生转折的转折时刻；基于至少一个轨道音频的转折时刻，从原始音频中选取音频片段。
[0161]
作为示例，获取单元100还可以被配置为：针对至少一个轨道音频中的每个轨道音频，确定该轨道音频的特征参数的变化曲线，并检测该轨道音频的单位时间内的节拍数；根据单位时间内的节拍数，对变化曲线进行平滑处理，得到平滑曲线；基于平滑曲线中的峰值位置，确定该轨道音频的转折时刻。
[0162]
作为示例，获取单元100还可以被配置为：基于峰值位置，确定该轨道音频中在峰值位置所对应的峰值时刻之前，距峰值时刻最近的重拍时刻；将重拍时刻作为该轨道音频的转折时刻。
[0163]
作为示例，获取单元100还可以被配置为通过以下方式确定峰值位置：对平滑曲线进行差分处理，基于差分处理后得到的差分曲线中的差分值，确定峰值位置。
[0164]
作为示例，获取单元100还可以被配置为：针对至少一个轨道音频中的每个轨道音频的每个转折时刻，基于该轨道音频的预设权重值，对该轨道音频的特征参数值进行加权；针对每个轨道音频的每个转折时刻，确定所有轨道音频的加权后的特征参数值的和值；将和值最大的转折时刻确定为原始音频在时序上的转折点，并基于转折点从原始音频中选取音频片段，其中，音频片段的起始时刻或结束时刻为在转折点之前或之后与转折点间隔预定数量个小节的时刻。
[0165]
关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0166]
图12是根据一示例性实施例示出的一种电子设备的框图。如图12所示，电子设备10包括处理器101和用于存储处理器可执行指令的存储器102。这里，处理器可执行指令在被处理器运行时，促使处理器执行如上述示例性实施例所述的音频处理方法。
[0167]
作为示例，电子设备10并非必须是单个的设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备10还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的服务器。
[0168]
在电子设备10中，处理器101可包括中央处理器(cpu)、图形处理器(gpu)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器101还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
[0169]
处理器101可运行存储在存储器102中的指令或代码，其中，存储器102还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。
[0170]
存储器102可与处理器101集成为一体，例如，将ram或闪存布置在集成电路微处理器等之内。此外，存储器102可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器102和处理器101可在操作上进行耦合，或者可例如通过i/o端口、网络连接等互相通信，使得处理器101能够读取存储在存储器102中的文件。
[0171]
此外，电子设备10还可以包括视频显示器(诸如，液晶显示器)和用户交互接口(诸
如，键盘、鼠标、触摸输入装置等)。电子设备10的所有组件可经由总线和/或网络而彼此连接。
[0172]
在示例性实施例中，还可提供一种计算机可读存储介质，当计算机可读存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如上述示例性实施例所述的音频处理方法。计算机可读存储介质例如可以是包括指令的存储器，可选地，计算机可读存储介质可以是：只读存储器(rom)、随机存取存储器(ram)、随机存取可编程只读存储器(prom)、电可擦除可编程只读存储器(eeprom)、动态随机存取存储器(dram)、静态随机存取存储器(sram)、闪存、非易失性存储器、cd-rom、cd-r、cd r、cd-rw、cd rw、dvd-rom、dvd-r、dvd r、dvd-rw、dvd rw、dvd-ram、bd-rom、bd-r、bd-r lth、bd-re、蓝光或光盘存储器、硬盘驱动器(hdd)、固态硬盘(ssd)、卡式存储器(诸如，多媒体卡、安全数字(sd)卡或极速数字(xd)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
[0173]
在示例性实施例中，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被处理器执行时实现如上述示例性实施例所述的音频处理方法。
[0174]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。
[0175]
应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：歌曲处理方法、装置、电子设备和存储介质与流程

音频处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献