音频处理方法、装置、设备和存储介质与流程

2022-02-21 08:00:45 来源：中国专利 TAG：

1.本技术涉及计算机技术领域，特别涉及一种音频处理方法、装置、设备和存储介质。

背景技术：

2.随着科技的发展，对于包含人声和伴奏的歌曲音频，人们可以对其进行一定的数据处理，使得人声和伴奏分离，得到歌曲音频对应的人声音频和伴奏音频。一些音乐应用程序通过对歌曲音频分离出的人声音频和伴奏音频这两个元素的音频进行设置，为用户提供更加丰富多样的音乐娱乐方式，例如，对于k歌应用程序来说，用户在k歌时可以选择原唱模式和伴奏模式，其中，原唱模式即是为用户播放包含人声音频和伴奏音频的歌曲音频，而伴奏模式即是只为用户播放伴奏音频，再例如，对于听歌应用程序来说，用户可以通过操作选择只播放人声音频或者只播放伴奏音频，等等。
3.传统的从歌曲中分离出人声音频或者伴奏音频的方法为使用两个不同的机器学习模型，分别对人声音频和伴奏音频进行提取。
4.然而通过机器学习模型提取出的人声音频或者伴奏音频，其响度值与歌曲音频中人声或者伴奏的实际的响度值存在一定差别，且人声音频中的每个人声音频帧的响度值的变化均不相同，伴奏音频中的每个伴奏音频帧同理，从而导致提取出的人声音频或者伴奏音频的音频质量较差。

技术实现要素：

5.本技术实施例提供了一种音频处理方法，能够解决现有技术中由歌曲元素提取模型提取出的人声音频或者伴奏音频的音频质量较差的技术问题。
6.第一方面，提供了一种音频处理方法，所述方法包括：
7.将目标歌曲的多帧歌曲音频帧输入到训练完成的歌曲元素提取模型中，得到所述歌曲元素提取模型输出的所述歌曲音频帧对应的第一类元素的初始音频帧，其中，所述第一类元素为人声或伴奏；
8.使用不同的增益系数分别对所述初始音频帧进行增益处理，得到不同的所述增益系数对应的增益处理后的初始音频帧；
9.分别确定所述歌曲音频帧与每个增益处理后的初始音频帧的差值音频帧，并确定每个增益系数对应的差值音频帧的响度值；
10.基于每个增益系数对应的差值音频帧的响度值，在所述不同的增益系数中确定与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，并将所述目标增益系数对应的增益处理后的初始音频帧，确定为所述歌曲音频帧对应的第一类元素的目标音频帧；
11.将各帧所述歌曲音频帧对应的第一类元素的目标音频帧组成所述目标歌曲对应的第一类元素的音频片段。
12.在一种可能的实现方式中，所述不同的增益系数是在预设数值范围内等差值分布的多个增益系数。
13.在一种可能的实现方式中，所述确定每个增益系数对应的差值音频帧的响度值，包括：
14.对于每个增益系数对应的差值音频帧，确定所述差值音频帧中各采样点的响度值的均方根，作为所述差值音频帧的响度值。
15.在一种可能的实现方式中，所述基于每个增益系数对应的差值音频帧的响度值，在所述不同的增益系数中确定与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，包括：
16.将增益系数对应的差值音频帧的响度值中最小的响度值对应的增益系数，确定为与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数。
17.在一种可能的实现方式中，在所述将所述目标增益系数对应的增益处理后的初始音频帧，确定为所述歌曲音频帧对应的第一类元素的目标音频帧之后，所述方法还包括：
18.将所述目标增益系数对应的差值音频帧，确定为所述歌曲音频帧对应的第二类元素的目标音频帧，其中，所述第二类元素为人声或伴奏，且所述第二类元素与所述第一类元素不相同；
19.将各帧所述歌曲音频帧对应的第二类元素的目标音频帧组成所述目标歌曲对应的第二类元素的音频片段。
20.在一种可能的实现方式中，所述方法还包括：
21.对于每个歌曲音频帧，基于所述歌曲音频帧与所述目标歌曲的开始时间点之间的时间间隔，确定所述歌曲音频帧对应的目标调整系数，其中，所述歌曲音频帧的目标调整系数与所述时间间隔正相关或负相关；
22.使用所述歌曲音频帧对应的目标调整系数和所述歌曲音频帧对应的目标增益系数，对所述歌曲音频帧对应的第一类元素的初始音频帧进行增益处理，得到所述歌曲音频帧对应的第一类元素的调整音频帧；
23.分别确定所述多帧歌曲音频帧与对应的第一类元素的调整音频帧的差值音频帧，组成所述目标歌曲对应的调整音频片段。
24.第二方面，提供了一种音频处理方法，所述方法包括：
25.显示目标歌曲对应的响度调节界面，在所述响度调节界面中设置有人声响度调节控件和伴奏响度调节控件；
26.获取通过所述人声响度调节控件输入的目标人声调节系数和通过所述伴奏响度调节控件输入的目标伴奏调节系数；
27.向服务器发送调节请求，其中，所述调节请求中携带有所述目标歌曲的标识信息、所述目标人声调节系数和所述目标伴奏调节系数；
28.接收所述服务器发送的所述目标歌曲对应的调节音频。
29.第三方面，提供了一种音频处理方法，所述方法包括：
30.接收目标终端发送的调节请求，其中，所述调节请求中携带有目标歌曲的标识信息、目标人声调节系数和目标伴奏调节系数；
31.基于所述目标歌曲的标识信息，获取所述目标歌曲的多帧歌曲音频帧；
32.确定所述多帧歌曲音频帧对应的人声音频帧和对应的伴奏音频帧；
33.分别使用所述目标人声调节系数对每个歌曲音频帧对应的人声音频帧进行增益处理，得到每个歌曲音频帧对应的增益处理后的人声音频帧；
34.分别使用所述目标伴奏调节系数对所述每个歌曲音频帧对应的伴奏音频帧进行增益处理，得到每个歌曲音频帧对应的增益处理后的伴奏音频帧；
35.将各帧所述歌曲音频帧对应的增益处理后的人声音频帧和对应的增益处理后的伴奏音频帧组成所述目标歌曲对应的调节音频；
36.向目标终端发送所述目标歌曲对应的调节音频。
37.第四方面，提供一种音频处理装置，所述装置包括：
38.第一确定模块，用于将目标歌曲的多帧歌曲音频帧输入到训练完成的歌曲元素提取模型中，得到所述歌曲元素提取模型输出的所述歌曲音频帧对应的第一类元素的初始音频帧，其中，所述第一类元素为人声或伴奏；
39.增益模块，用于使用不同的增益系数分别对所述初始音频帧进行增益处理，得到不同的所述增益系数对应的增益处理后的初始音频帧；
40.第二确定模块，用于分别确定所述歌曲音频帧与每个增益处理后的初始音频帧的差值音频帧，并确定每个增益系数对应的差值音频帧的响度值；
41.第三确定模块，用于基于每个增益系数对应的差值音频帧的响度值，在所述不同的增益系数中确定与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，并将所述目标增益系数对应的增益处理后的初始音频帧，确定为所述歌曲音频帧对应的第一类元素的目标音频帧；
42.组成模块，用于将各帧所述歌曲音频帧对应的第一类元素的目标音频帧组成所述目标歌曲对应的第一类元素的音频片段。
43.在一种可能的实现方式中，所述不同的增益系数是在预设数值范围内等差值分布的多个增益系数。
44.在一种可能的实现方式中，所述第二确定模块，用于：
45.对于每个增益系数对应的差值音频帧，确定所述差值音频帧中各采样点的响度值的均方根，作为所述差值音频帧的响度值。
46.在一种可能的实现方式中，所述第三确定模块，用于：
47.将增益系数对应的差值音频帧的响度值中最小的响度值对应的增益系数，确定为与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数。
48.在一种可能的实现方式中，所述装置还包括第四确定模块，用于：
49.将所述目标增益系数对应的差值音频帧，确定为所述歌曲音频帧对应的第二类元素的目标音频帧，其中，所述第二类元素为人声或伴奏，且所述第二类元素与所述第一类元素不相同；
50.将各帧所述歌曲音频帧对应的第二类元素的目标音频帧组成所述目标歌曲对应的第二类元素的音频片段。
51.在一种可能的实现方式中，所述装置还包括第五确定模块，用于：
52.对于每个歌曲音频帧，基于所述歌曲音频帧与所述目标歌曲的开始时间点之间的时间间隔，确定所述歌曲音频帧对应的目标调整系数，其中，所述歌曲音频帧的目标调整系
数与所述时间间隔正相关或负相关；
53.使用所述歌曲音频帧对应的目标调整系数和所述歌曲音频帧对应的目标增益系数，对所述歌曲音频帧对应的第一类元素的初始音频帧进行增益处理，得到所述歌曲音频帧对应的第一类元素的调整音频帧；
54.分别确定所述多帧歌曲音频帧与对应的第一类元素的调整音频帧的差值音频帧，组成所述目标歌曲对应的调整音频片段。
55.本技术实施例提供的技术方案带来的有益效果是：本技术实施例可以先基于歌曲元素提取模型，提取出歌曲音频帧对应的第一类元素的初始音频帧，然后根据使用不同增益系数进行增益处理后的差值音频帧的响度值，确定出与歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，基于该目标增益系数，得到响度值更接近于实际响度值的第一类元素的目标音频帧，从而可以得到音频质量较好的第一类元素的音频片段。
附图说明
56.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
57.图1是本技术实施例提供的一种音频处理方法流程图；
58.图2是本技术实施例提供的一种音频处理方法流程图；
59.图3是本技术实施例提供的一种增益系数与差值音频帧的响度值之间变化关系的示意图；
60.图4是本技术实施例提供的一种确定调整音频片段的方法流程图；
61.图5是本技术实施例提供的一种音频处理方法流程图；
62.图6是本技术实施例提供的一种音频处理方法流程图；
63.图7是本技术实施例提供的一种音频处理方法流程图；
64.图8是本技术实施例提供的一种音频处理装置的结构示意图；
65.图9是本技术实施例提供的一种终端的结构框图；
66.图10是本技术实施例提供的一种服务器的结构框图。
具体实施方式
67.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
68.本技术实施例提供了一种音频处理方法，该方法可以由计算机设备实现。计算机设备可以是用于对目标歌曲音频进行人声音频提取或者伴奏音频提取的设备，还可以是对目标歌曲音频有提取人声音频或者伴奏音频需求的设备，例如，可以是一个音乐应用程序的后台服务器，还可以是可以听音乐的用户的终端。计算机设备可以是终端和服务器等，终端可以是台式计算机、笔记本计算机、平板电脑、手机等。计算机设备可以包括处理器、存储器和通信部件等。
69.处理器可以是中央处理器(central processing unit，cpu)，处理器可以用于基
于歌曲元素提取模型确定歌曲音频帧对应的第一类元素的初始音频帧、确定每个增益系数对应的差值音频帧的响度值、确定目标增益系数、确定歌曲音频帧对应的第一类元素的目标音频帧，等等。
70.存储器可以是各种易失性存储器或非易失性存储器，如固态硬盘(solid state disk，ssd)、动态随机存取存储器(dynamic random access memory，dram)内存等。存储器可以用于数据存储，例如，对歌曲音频帧的数据存储、对歌曲元素提取模型的数据存储、对确定出的歌曲音频帧对应的第一类元素的初始音频帧的数据存储、对确定出的不同的增益系数对应的差值音频帧的数据存储、对每个增益系数对应的差值音频帧的响度值的数据存储、对确定出的歌曲音频帧对应的第一类元素的目标音频帧的数据存储，等等。
71.通信部件可以是有线网络连接器、无线保真(wireless fidelity，wifi)模块、蓝牙模块、蜂巢网通信模块等。通信部件可以用于与其他设备进行数据传输，例如，通信部件可以用于向某指定的设备发送确定出的第一类元素的音频片段或者第二类元素的音频片段，等等。
72.图1和图2是本技术实施例提供的一种音频处理方法的流程图。参见图1和图2，该实施例包括：
73.101、将目标歌曲的多帧歌曲音频帧输入到训练完成的歌曲元素提取模型中，得到歌曲元素提取模型输出的歌曲音频帧对应的第一类元素的初始音频帧。
74.其中，第一类元素为人声或伴奏。
75.在实施中，当需要对某歌曲音频进行处理时，为了便于描述可以将待处理的该歌曲音频称为目标歌曲，目标歌曲包含的音频帧可以称为歌曲音频帧。目标歌曲中包含人声音频和伴奏音频，可以使用歌曲元素提取模型对目标歌曲中的人声音频或者伴奏音频进行提取，得到目标歌曲对应的人声音频或者伴奏音频。本技术实施例中的第一类元素可以是人声或者伴奏，第一类元素的音频则可以是人声音频或者伴奏音频，歌曲元素提取模型对应的可以包括人声提取模型和伴奏提取模型。当第一类元素为人声时，可以使用人声提取模型对目标歌曲中的人声音频进行提取，得到目标歌曲对应的人声音频。当第一类元素为伴奏时，可以使用伴奏提取模型对目标歌曲中的伴奏音频进行提取，得到目标歌曲对应的伴奏音频。
76.可选的，通过歌曲元素提取模型对目标歌曲中的第一类元素的音频进行提取的方法可以有多种，以下为其中的一种：
77.将目标歌曲的至少一个歌曲音频帧，输入到训练完成的歌曲元素提取模型中，得到至少一个歌曲音频帧中每个歌曲音频帧对应的第一类元素的初始音频帧。
78.在实施中，可以将目标歌曲的歌曲音频输入到训练完成的歌曲元素提取模型中，歌曲元素提取模型对歌曲音频帧进行处理后输出处理后的音频帧，为了便于与其他音频帧区分，可以将歌曲元素提取模型输出的音频帧称为初始音频帧，初始音频帧组成的音频即目歌曲音频对应的第一类元素的初始音频。
79.或者，也可以每次向歌曲元素提取模型中输入预设音频帧数目个歌曲音频帧，即将歌曲音频按照预设音频帧数目分为多成多个输入数据，若最后一个输入数据中歌曲音频帧的数目小于预设音频帧数目，则可以使用静音音频帧补全，然后可以分别将输入数据输入到训练完成的歌曲元素提取模型中，可以得到对应的多个输出数据，每个输出数据为输
入数据中的歌曲音频帧对应的第一类元素的初始音频帧。将最后一个输入数据中静音音频帧对应的输出数据中的初始音频帧删除，剩下的输出数据即为歌曲音频中的每个歌曲音频帧对应的第一类元素的初始音频帧。
80.102、使用不同的增益系数分别对初始音频帧进行增益处理，得到不同的增益系数对应的增益处理后的初始音频帧。
81.在实施中，对于每个初始音频帧，均使用不同的增益系数对初始音频帧中每个时域采样点的的幅值进行增益处理，将幅值乘以增益系数，得到不同的增益系数对应的增益处理后的初始音频帧。
82.103、分别确定歌曲音频帧与每个增益处理后的初始音频帧的差值音频帧，并确定每个增益系数对应的差值音频帧的响度值。
83.在实施中，用歌曲音频帧中每个时域采样点的幅值减去增益处理后的初始音频帧对应的时域采样点的幅值，得到歌曲音频帧与进行增益处理后的初始音频帧之间的差值音频帧。对于每个不同的增益系数，可以通过上述方式得到每个初始音频帧对应的差值音频帧。若歌曲音频帧可以用y表示，初始音频帧可以用x表示，差值音频帧可以用r表示，增益系数可以用a表示，则差值音频帧的公式可以表示为：r＝y-ax。
84.由于使用了多个不同的增益系数对初始音频帧进行增益处理，所以可以得到多个根据增益系数进行增益处理后的初始音频帧，从而得到多个不同的增益系数对应的差值音频帧。可选的，这多个不同的增益系数可以设定为多个递增或者递减的数值，从而可以通过对比得到不同的增益系数对于差值音频帧的响度值的影响，则对不同的增益系数的设定可以是：不同的增益系数是在预设数值范围内等差值分布的多个增益系数。
85.由于初始音频帧的响度值可能与歌曲音频帧中的第一类元素的实际响度值有偏差，所以对于增益系数的取值可以预先设定预设数值范围，增益系数的取值可以是在预设数值范围内等差值分布的多个增益系数。在本技术实施例中，增益系数的可以是在[0,2]的预设数值范围内，以0.01的差值均匀分布的多个取值，即增益系数的取值可以是0、0.01、0.02、0.03
……
1.98、1.99、2，当然，增益系数的预设数值范围也可以是其他范围，本技术实施例对此不做限定。
[0086]
可选的，在得到多个不同的增益系数对应的差值音频帧后，可以计算每个差值音频帧的响度值。计算差值音频帧的响度值的方法可以有多种，以下为其中的一种：
[0087]
对于每个增益系数对应的差值音频帧，确定差值音频帧中各采样点的响度值的均方根，作为差值音频帧的响度值。
[0088]
在实施中，通过多个不同的增益系数对初始音频帧进行增益处理，可以得到多个不同的增益系数对应的增益处理后的初始音频帧，则可以对应得到多个不同的增益系数对应的差值音频帧。对于每个增益系数对应的差值音频帧，可以获取差值音频帧中的各个采样点的响度值，然后计算该差值音频帧的多个采样点的响度值的均方根，来作为该差值音频帧的响度值，对应的公式可以如下：
[0089]
rms(r)＝10lg(sum(r2/n))
[0090]
sum(r2/n)＝(r
12
r
22

……
r
n2
)/n
[0091]
其中，r为差值音频帧，rms(r)为差值音频帧的响度值，n为采样点序号。
[0092]
可选的，还可以选取其他的计算方式来表示差值音频帧的响度值，本技术实施例
对此不做限定。
[0093]
104、基于每个增益系数对应的差值音频帧的响度值，在不同的增益系数中确定与歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，并将目标增益系数对应的增益处理后的初始音频帧，确定为歌曲音频帧对应的第一类元素的目标音频帧。
[0094]
在实施中，在得到多个不同的增益系数对应的差值音频帧的响度值后，可以在这多个响度值中，确定出与歌曲音频帧中的第一类元素的实际响度值相等或者最相近的响度值，将确定出的与实际响度值相等或者最相近的响度值对应的增益系数，确定其为目标增益系数。
[0095]
可选的，本技术实施例中的确定目标增益系数的处理过程可以如下：
[0096]
将增益系数对应的差值音频帧的响度值中最小的响度值对应的增益系数，确定为与歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数。
[0097]
在实施中，不同的增益系数对应不同差值音频帧的响度值。当确定出的多个不同的增益系数对应的差值音频帧的响度值中，响度值达到最小值，则代表着使用最小响度值对应的增益系数对初始音频帧进行了增益处理后，得到的增益处理后的初始音频帧的响度值，最接近于在歌曲音频帧中的第一类元素的实际响度值。
[0098]
当选取的增益系数小于目标增益系数时，该增益系数对应的差值音频帧的响度值还未达到最小值，说明差值音频帧中还存在较多的第一类元素的声音。
[0099]
当选取的增益系数大于目标增益系数时，使用该增益系数进行增益处理后的初始音频帧的响度值会大于在歌曲音频帧中的第一类元素的实际响度值，那么，用歌曲音频帧减去增益处理后的初始音频帧得到的差值音频帧就是歌曲音频帧减去自身包含的第一类元素的音频帧后，再加上幅值反向的第一类元素的音频帧，此时，差值音频帧中还会存有第一类元素的声音，并且随着增益系数越来越大，差值音频帧中第一类元素的响度值反而会逐渐增大。
[0100]
因此，当选取的增益系数不等于目标增益系数时，使用该增益系数进行增益处理后的初始音频帧的响度值，与歌曲音频帧中的第一类元素的实际响度值之间的差值会较为明显，说明此时差值音频帧中还包含有第一类元素的声音。因此，将最小的响度值对应的增益系数，确定为目标增益系数，则使用了该目标增益系数进行增益处理后的初始音频帧的响度值，与歌曲音频帧中的第一类元素的实际响度值相等或者最为接近。
[0101]
例如，如图3所示，横坐标为在预设数值范围为[0,2]内等差值分布的多个增益系数，纵坐标为不同取值的增益系数对应的差值音频帧的响度值，由图3可以看出，在增益系数为1.52时，差值音频帧的响度值最小，为-18.63db，则可以确定目标增益系数为1.52。
[0102]
由上可知，使用目标增益系数进行增益处理后的初始音频帧的响度值，最接近歌曲音频帧中的第一类元素的实际响度值，所以，可以将目标增益系数对应的增益处理后的初始音频帧，确定为歌曲音频帧对应的第一类元素的目标音频帧。
[0103]
第一类元素为人声时，则通过上述步骤可以得到在歌曲音频帧对应的人声音频帧；第一类元素为伴奏时，则通过上述步骤可以得到在歌曲音频帧对应的伴奏音频帧。
[0104]
可选的，当确定了歌曲音频帧对应的第一类元素的目标音频帧后，还可以确定出第一类元素的目标音频帧对应的差值音频帧，对应的处理可以如下：
[0105]
将目标增益系数对应的差值音频帧，确定为歌曲音频帧对应的第二类元素的目标
音频帧，其中，第二类元素为人声或伴奏，且第二类元素与第一类元素不相同。
[0106]
在实施中，在确定出目标增益系数之后，还可以将目标增益系数对应的差值音频帧，确定为歌曲音频帧对应的第二类元素的音频帧，即将歌曲音频帧与第一类元素的目标音频帧的差值音频帧，确定为第二类元素的音频帧。当第一类元素为人声时，第一类元素的目标音频帧为歌曲音频帧中的人声音频帧，则第二类元素的音频帧为歌曲音频帧中的伴奏音频帧；当第一类元素为伴奏时，第一类元素的目标音频帧为歌曲音频帧中的伴奏音频帧，则第二类元素的音频帧为歌曲音频帧中的人声音频帧。
[0107]
105、将各帧歌曲音频帧对应的第一类元素的目标音频帧组成目标歌曲对应的第一类元素的音频片段。
[0108]
在实施中，在得到多帧歌曲音频帧中每个歌曲音频帧对应的第一类元素的目标音频帧后，可以将这多帧歌曲音频帧对应的第一类元素的目标音频帧按照歌曲音频帧在目标歌曲中的顺序排列组合，组成目标歌曲对应的第一类元素的音频片段。
[0109]
同样的，对于得到的多帧歌曲音频帧对应的第二类元素的目标音频帧，也可以按照多帧歌曲音频帧在目标歌曲中的排列顺序组合起来，组成目标歌曲对应的第二类元素的音频片段。
[0110]
对于通过上述方式得到的人声音频和伴奏音频，除了可以单独使用以外，还可以通过对目标增益系数进行调整，得到一种人声逐渐出现的动态歌曲效果、或者一种人声逐渐消失的动态歌曲效果、甚至是得到一种人声忽隐忽现的动态歌曲效果，同理，还可以得到一种伴奏逐渐出现的动态歌曲效果、或者一种伴奏逐渐消失的动态歌曲效果、甚至是得到一种伴奏忽隐忽现的动态歌曲效果。
[0111]
如图4所示，对应的处理流程可以如下：
[0112]
401、对于每个歌曲音频帧，基于歌曲音频帧与目标歌曲的开始时间点之间的时间间隔，确定歌曲音频帧对应的目标调整系数。
[0113]
其中，歌曲音频帧的目标调整系数与时间间隔正相关或负相关。
[0114]
在实施中，在确定了每个初始音频帧对应目标增益系数后，还可以确定出每个歌曲音频帧对应的目标调整系数，该目标调整系数可以是[0，1]范围内的一个数值，并与时间间隔呈正相关或者呈负相关，即多个连续的歌曲音频帧对应的目标调整系数，可以在距离目标歌曲的开始时间点越远的时候数值越大，或者，也可以在距离目标歌曲的开始时间点越远的时候数值越小。
[0115]
402、使用歌曲音频帧对应的目标调整系数和歌曲音频帧对应的目标增益系数，对歌曲音频帧对应的第一类元素的初始音频帧进行增益处理，得到歌曲音频帧对应的第一类元素的调整音频帧。
[0116]
在实施中，对于一个歌曲音频帧，使用该歌曲音频帧对应的目标调整系数、该歌曲音频帧对应的第一类元素的初始音频帧对应的目标增益系数，对该歌曲音频帧对应的第一类元素的初始音频帧进行增益处理，可以得到该歌曲音频帧对应的第一类元素的调整音频帧。通过上述方式，对每个歌曲音频帧进行增益处理，即可得到多个歌曲音频帧中每个歌曲音频帧对应的第一类元素的调整音频帧。
[0117]
403、分别确定多帧歌曲音频帧与对应的第一类元素的调整音频帧的差值音频帧，组成目标歌曲对应的调整音频片段。
[0118]
在实施中，用歌曲音频帧中每个时域采样点的幅值减去该歌曲音频帧对应的调整音频帧的时域采样点的幅值，得到该歌曲音频帧与对应的调整音频帧之间的差值音频帧。使用上述方式对每个歌曲音频帧进行处理，即可以得到多个歌曲音频帧中每个调整音频帧的差值音频帧。
[0119]
将这多个调整音频帧对应的差值音频帧按照歌曲音频帧在目标歌曲中的排列顺序进行排列，可以得到一个音频频段，即为目标歌曲对应的调整音频片段。
[0120]
当歌曲音频帧对应的目标调整系数与时间间隔正相关时，即当多个歌曲音频帧对应的目标调整系数在距离开始时间点越远数值越大时，得到的多个歌曲音频帧对应的第一类元素的调整音频帧的响度则会越来越大，但由于目标调整系数的取值范围是[0，1]，因此，调整音频帧的响度的最大值也不会大于该调整音频帧对应的第一类元素的目标音频帧的响度。
[0121]
则在基于歌曲音频帧和调整音频帧确定出的调整音频频段中，由于减去的第一类元素的调整音频帧的响度越来越大，得到的调整音频频段中的第一类元素的响度会越来越小。以第一类元素是人声为例，若歌曲音频帧对应的目标调整系数与时间间隔正相关，则在最终得到的调整音频片段中，随着时间的变化，人声会越来越小，即可以得到一种人声逐渐消失的动态歌曲效果。
[0122]
同样的，当歌曲音频帧对应的目标调整系数与时间间隔负相关时，得到的第一类元素的调整音频帧的响度会越来越小，进而，得到的调整音频片段中的第一类元素的响度则会越来越大。以第一类元素是人声为例，若歌曲音频帧对应的目标调整系数与时间间隔负相关，则在最终得到的调整音频片段中，随着时间的变化，人声会越来越大，既可以得到一种人声逐渐出现的动态歌曲效果。
[0123]
还可以先将目标歌曲分为多段音频频段，对奇数段音频片段进行人声逐渐消失的处理，对偶数段音频片段进行人声逐渐出现的处理，或者，对偶数段音频片段进行人声逐渐消失的处理，对奇数段音频片段进行人声逐渐出现的处理，则会得到一种人声忽隐忽现的动态歌曲效果。
[0124]
当第一类元素是伴奏时，处理方法同上，也同样可以得到一种伴奏逐渐出现的动态歌曲效果、或者一种伴奏逐渐消失的动态歌曲效果、或者是得到一种伴奏忽隐忽现的动态歌曲效果，处理方法在此不再赘述。
[0125]
本技术实施例还提供了一种音频处理方法，参见图5，对应的处理流程如下：
[0126]
501、显示目标歌曲对应的响度调节界面，在响度调节界面中设置有人声响度调节控件和伴奏响度调节控件。
[0127]
在实施中，用户的目标终端上安装有音乐应用程序，用户可以打开该音乐应用程序，并进入到目标歌曲的响度调节界面(也可以称为音量调节界面)中。在该响度调节界面中，设置有人声响度调节控件和伴奏响度调节控件，响度调节控件可以是滑动控件，在该滑动控件中的最小可选值是0，最大可选值是1。用户可以通过滑动对应的人声响度调节控件的按钮来控制目标歌曲中的人声响度，通过滑动对应的伴奏响度调节控件的按钮来控制目标歌曲中的伴奏响度。
[0128]
502、获取通过人声响度调节控件输入的目标人声调节系数和通过伴奏响度调节控件输入的目标伴奏调节系数。
[0129]
在实施中，当用户调节人声响度调节控件或者伴奏响度调节控件后，目标终端可以获取通过人声响度调节控件输入的目标人声调节系数和通过伴奏响度调节控件输入的目标伴奏调节系数。
[0130]
503、向服务器发送调节请求。
[0131]
其中，调节请求中携带有目标歌曲的标识信息、目标人声调节系数和目标伴奏调节系数。
[0132]
504、接收服务器发送的目标歌曲对应的调节音频。
[0133]
在实施中，在向服务器发送了调节请求后，服务器会基于目标人声调节系数和目标伴奏调节系数对目标歌曲中的多个歌曲音频帧进行处理，并将处理完成后得到的目标歌曲对应的调节音频发送回目标终端，目标终端接收该调节音频并进行播放。
[0134]
本技术实施例还提供了一种音频处理方法，参见图6，对应的处理流程如下：
[0135]
601、接收目标终端发送的调节请求。
[0136]
其中，调节请求中携带有目标歌曲的标识信息、目标人声调节系数和目标伴奏调节系数。
[0137]
602、基于目标歌曲的标识信息，获取目标歌曲的多帧歌曲音频帧。
[0138]
603、确定多帧歌曲音频帧对应的人声音频帧和对应的伴奏音频帧。
[0139]
在实施中，可以通过步骤101-105得到目标歌曲的所有的歌曲音频帧对应的人声的目标音频帧和对应的伴奏的目标音频帧，即为歌曲音频帧对应的人声音频帧和伴奏音频帧。
[0140]
604、分别使用目标人声调节系数对每个歌曲音频帧对应的人声音频帧进行增益处理，得到每个歌曲音频帧对应的增益处理后的人声音频帧。
[0141]
605、分别使用目标伴奏调节系数对每个歌曲音频帧对应的伴奏音频帧进行增益处理，得到每个歌曲音频帧对应的增益处理后的伴奏音频帧。在实施中，步骤604和步骤605没有先后顺序。
[0142]
606、将各帧歌曲音频帧对应的增益处理后的人声音频帧和对应的增益处理后的伴奏音频帧组成目标歌曲对应的调节音频。
[0143]
607、向目标终端发送目标歌曲对应的调节音频。
[0144]
本技术实施例还提供了一种音频处理方法，参见图7，对应的处理流程如下：
[0145]
701、目标终端显示目标歌曲对应的响度调节界面，在响度调节界面中设置有人声响度调节控件和伴奏响度调节控件。
[0146]
702、目标终端获取通过人声响度调节控件输入的目标人声调节系数和通过伴奏响度调节控件输入的目标伴奏调节系数。
[0147]
703、目标终端向服务器发送调节请求。
[0148]
其中，调节请求中携带有目标歌曲的标识信息、目标人声调节系数和目标伴奏调节系数。
[0149]
704、服务器接收目标终端发送的调节请求。
[0150]
705、服务器基于目标歌曲的标识信息，获取目标歌曲的多帧歌曲音频帧。
[0151]
706、服务器确定多帧歌曲音频帧对应的人声音频帧和对应的伴奏音频帧。
[0152]
707、服务器分别使用目标人声调节系数对每个歌曲音频帧对应的人声音频帧进
行增益处理，得到每个歌曲音频帧对应的增益处理后的人声音频帧。
[0153]
708、服务器分别使用目标伴奏调节系数对每个歌曲音频帧对应的伴奏音频帧进行增益处理，得到每个歌曲音频帧对应的增益处理后的伴奏音频帧。
[0154]
709、服务器将各帧歌曲音频帧对应的增益处理后的人声音频帧和对应的增益处理后的伴奏音频帧组成目标歌曲对应的调节音频。
[0155]
710、服务器向目标终端发送目标歌曲对应的调节音频。
[0156]
711、目标终端接收服务器发送的目标歌曲对应的调节音频。
[0157]
上述所有可选技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
[0158]
本技术实施例中提到的方案，可以先基于歌曲元素提取模型，提取出歌曲音频帧对应的第一类元素的初始音频帧，然后根据使用不同增益系数进行增益处理后的差值音频帧的响度值，确定出与歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，基于该目标增益系数，得到响度值更接近于实际响度值的第一类元素的目标音频帧，从而可以得到音频质量较好的第一类元素的音频片段。
[0159]
本技术实施例提供了一种音频处理装置，该装置可以是上述实施例中的计算机设备，如图8所示，所述装置包括：
[0160]
第一确定模块810，用于将目标歌曲的多帧歌曲音频帧输入到训练完成的歌曲元素提取模型中，得到所述歌曲元素提取模型输出的所述歌曲音频帧对应的第一类元素的初始音频帧，其中，所述第一类元素为人声或伴奏；
[0161]
增益模块820，用于使用不同的增益系数分别对所述初始音频帧进行增益处理，得到不同的所述增益系数对应的增益处理后的初始音频帧；
[0162]
第二确定模块830，用于分别确定所述歌曲音频帧与每个增益处理后的初始音频帧的差值音频帧，并确定每个增益系数对应的差值音频帧的响度值；
[0163]
第三确定模块840，用于基于每个增益系数对应的差值音频帧的响度值，在所述不同的增益系数中确定与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数，并将所述目标增益系数对应的增益处理后的初始音频帧，确定为所述歌曲音频帧对应的第一类元素的目标音频帧；
[0164]
组成模块850，用于将各帧所述歌曲音频帧对应的第一类元素的目标音频帧组成所述目标歌曲对应的第一类元素的音频片段。
[0165]
在一种可能的实现方式中，所述不同的增益系数是在预设数值范围内等差值分布的多个增益系数。
[0166]
在一种可能的实现方式中，所述第二确定模块830，用于：
[0167]
对于每个增益系数对应的差值音频帧，确定所述差值音频帧中各采样点的响度值的均方根，作为所述差值音频帧的响度值。
[0168]
在一种可能的实现方式中，所述第三确定模块840，用于：
[0169]
将增益系数对应的差值音频帧的响度值中最小的响度值对应的增益系数，确定为与所述歌曲音频帧中的第一类元素的实际响度值相对应的目标增益系数。
[0170]
在一种可能的实现方式中，所述装置还包括第四确定模块，用于：
[0171]
将所述目标增益系数对应的差值音频帧，确定为所述歌曲音频帧对应的第二类元
素的目标音频帧，其中，所述第二类元素为人声或伴奏，且所述第二类元素与所述第一类元素不相同；
[0172]
将各帧所述歌曲音频帧对应的第二类元素的目标音频帧组成所述目标歌曲对应的第二类元素的音频片段。
[0173]
在一种可能的实现方式中，所述装置还包括第五确定模块，用于：
[0174]
对于每个歌曲音频帧，基于所述歌曲音频帧与所述目标歌曲的开始时间点之间的时间间隔，确定所述歌曲音频帧对应的目标调整系数，其中，所述歌曲音频帧的目标调整系数与所述时间间隔正相关或负相关；
[0175]
使用所述歌曲音频帧对应的目标调整系数和所述歌曲音频帧对应的目标增益系数，对所述歌曲音频帧对应的第一类元素的初始音频帧进行增益处理，得到所述歌曲音频帧对应的第一类元素的调整音频帧；
[0176]
分别确定所述多帧歌曲音频帧与对应的第一类元素的调整音频帧的差值音频帧，组成所述目标歌曲对应的调整音频片段。
[0177]
需要说明的是：上述实施例提供的音频处理装置在对音频进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
[0178]
图9示出了本技术一个示例性实施例提供的终端900的结构框图。该终端可以是上述实施例中的计算机设备。该终端900可以是：智能手机、平板电脑、mp3播放器(moving picture experts group audio layer iii，动态影像专家压缩标准音频层面3)、mp4(moving picture experts group audio layer iv，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0179]
通常，终端900包括有：处理器901和存储器902。
[0180]
处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用dsp(digital signal processing，数字信号处理)、fpga(field－programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
[0181]
存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本技术中方法实施例提供的音频处理方法。
[0182]
在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。
[0183]
外围设备接口903可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
[0184]
射频电路904用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi网络。在一些实施例中，射频电路904还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
[0185]
显示屏905用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light-emitting diode，有机发光二极管)等材质制备。
[0186]
摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
[0187]
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路
904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。
[0188]
定位组件908用于定位终端900的当前地理位置，以实现导航或lbs(location based service，基于位置的服务)。定位组件908可以是基于美国的gps(global positioning system，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
[0189]
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0190]
在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
[0191]
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
[0192]
陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3d动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0193]
压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0194]
指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商logo时，指纹传感器914可以与物理按键或厂商logo集成在一起。
[0195]
光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。
[0196]
接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。
[0197]
本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
[0198]
图10是本技术实施例提供的一种服务器的结构示意图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)1001和一个或一个以上的存储器1002，其中，所述存储器1002中存储有至少一条指令，所述至少一条指令由所述处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。
[0199]
在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频处理方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是rom(read-only memory，只读存储器)、ram(random access memory，随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。
[0200]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
[0201]
以上所述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音风格迁移方法、装置、电子设备及存储介质与流程

音频处理方法、装置、设备和存储介质与流程

相关文献

最热文献