音频帧的调整方法、装置、设备及可读存储介质与流程

2021-07-02 21:49:00 来源：中国专利 TAG：音频处理装置可读音频调整

本申请实施例涉及音频处理领域，特别涉及一种音频帧的调整方法、装置、设备及可读存储介质。

背景技术：

歌声合成技术中，通过均衡器能够对不同频段的特征进行修改，可以生成比较丰富，表现力比较强的歌声。其中，张力属于表现力的一种，具体用于指示在指定频段范围内，声音的饱满度以及清晰度，张力越强则声音的饱满度越高，声音清晰度也越高；张力越弱则声音的饱满度越低，声音清晰度也越低。例如，当音频内容某一频段的频率为30-60hz，该频率对应的声音听感较沉闷，没有较大的响度；通过调整该频段的频率至100-200hz，能够将声音调整至听感较丰满的状态。

相关技术中，在进行声音特征的修改时，通常是利用均衡器，对不同的声音频段进行滤波。然后，在滤波得到的各个频段中，针对指定频段的声音幅值进行调整，从而达到修改音效的效果。

发明人在实现本申请的过程中发现，均衡器的设计一般较固定，根据中心频率、带宽和品质因数对歌声的指定频段进行滤波，会对指定频段的周期分量和非周期分量同时起作用，导致代表用户声音辨识度的非周期分量被同步修改，影响歌声原有的音色，降低修改歌声音效的准确率。

技术实现要素：

本申请实施例提供了一种音频帧的调整方法、装置、设备及可读存储介质，通过调整音频帧中的谐波幅度，从而对音频帧中与用户声音辨识度无关，而与声音张力相关的周期分量进行修改，避免对与用户声音辨识度相关的非周期分量进行修改，提高了修改声音张力的准确率。所述技术方案如下：

一方面，提供了一种音频帧的调整方法，所述方法包括：

获取待调整的音频帧；

对所述音频帧进行音高提取，得到所述音频帧的音高特征；

基于所述音高特征，确定对所述音频帧的谐波进行幅值调整的谐波修改系数；所述音频帧的谐波包括基波和高次谐波，所述基波为一次谐波；

根据所述谐波修改系数对所述音频帧中的谐波进行幅值调整，得到调整后的音频帧。

在一个可选的实施例中，当待降低所述音频帧的张力时，所述基波对应的谐波修改系数用于增大所述基波的幅值，所述高次谐波对应的谐波修改系数用于降低所述高次谐波的幅值；

当待增强所述音频帧的张力时，所述基波对应的谐波修改系数用于降低所述基波的幅值，所述高次谐波对应的谐波修改系数用于增强或维持所述高次谐波的幅值。

在一个可选的实施例中，所述高次谐波对应的谐波修改系数用于增强或维持所述高次谐波的幅值，包括：

所述高次谐波中的二次谐波对应的谐波修改系数用于维持所述二次谐波的幅值，所述高次谐波中的其他高次谐波对应的谐波修改系数用于增强相应高次谐波的幅值。

在一个可选的实施例中，所述基于所述音高特征，确定对所述音频帧的谐波进行幅值调整的谐波修改系数，包括：

基于所述音高特征，确定所述音频帧中包含的谐波数量；

基于所述谐波的波形频率和所述谐波数量，确定对所述目标音频帧中的谐波进行调整的谐波修改系数。

在一个可选的实施例中，所述基于所述谐波的波形频率和所述谐波数量，确定对所述目标音频帧中的谐波进行调整的谐波修改系数，包括：

以第一调整方向确定对所述基波的幅值进行调整的谐波修改系数，并以第二调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数，其中所述高次谐波的谐波修改系数是基于所述波形频率和所述谐波数量确定的；

所述第一调整方向和所述第二调整方向为不同的调整方向，所述调整方向包括所述幅值的增强调整方向、降低调整方向和维持调整方向中的至少一种。

在一个可选的实施例中，所述音频帧的调整目标为降低音频帧张力；

所述以第一调整方向确定对所述基波的幅值进行调整的谐波修改系数，并以第二调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数，包括：

以所述增强调整方向确定对所述基波的幅值进行调整的谐波修改系数；

基于所述高次谐波的波形频率和所述谐波数量，以所述降低调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数。

在一个可选的实施例中，所述以所述增强调整方向确定对所述基波的幅值进行调整的谐波修改系数，包括：

将第一预设取值确定为所述基波的第一谐波修改系数，所述基波的第一谐波修改系数取值大于1，所述基波的第一谐波修改系数用于对所述基波的幅值进行调整；

所述基于所述高次谐波在的波形频率和所述谐波数量，以所述降低调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数，包括：

基于所述高次谐波的波形频率和所述谐波数量，确定所述高次谐波的第一谐波修改系数，所述高次谐波的第一谐波修改系数用于对所述高次谐波的幅值进行调整。

在一个可选的实施例中，所述音频帧的调整目标为增大音频帧张力；

所述以第一调整方向确定对所述基波的幅值进行调整的谐波修改系数，并以第二调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数，包括：

以所述降低调整方向确定对所述基波的幅值进行调整的谐波修改系数；

以所述维持调整方向确定对二次谐波的幅值进行调整的谐波修改系数；

基于其他高次谐波的波形频率和所述谐波数量，以所述增强调整方向确定对其他高次谐波的幅值进行调整的谐波修改系数，所述其他高次谐波是指除所述二次谐波以外的高次谐波。

在一个可选的实施例中，所述以所述降低调整方向确定对所述基波的幅值进行调整的谐波修改系数，包括：

将第二预设取值确定为所述基波的第二谐波修改系数，所述基波的第二谐波修改系数取值小于1，所述基波的第二谐波修改系数用于对所述基波的幅值进行调整；

所述以所述维持调整方向确定对二次谐波的幅值进行调整的谐波修改系数，包括：

将第三预设取值1确定为所述二次谐波的第二谐波修改系数；

所述基于其他高次谐波的波形频率和所述谐波数量，以所述增强调整方向确定对其他高次谐波的幅值进行调整的谐波修改系数，包括：

基于其他高次谐波的波形频率和所述谐波数量，确定其他高次谐波的第二谐波修改系数，所述其他高次谐波的第二谐波修改系数用于对其他高次谐波的幅值进行调整。

另一方面，提供了一种音频帧的调整装置，所述装置包括：

获取模块，用于获取待调整的音频帧；

提取模块，对所述音频帧进行音高提取，得到所述音频帧的音高特征；

确定模块，用于基于所述音高特征，确定对所述音频帧的谐波进行幅值调整的谐波修改系数；所述音频帧的谐波包括基波和高次谐波，所述基波为一次谐波；

调整模块，用于根据所述谐波修改系数对所述音频帧中的谐波进行幅值调整，得到调整后的音频帧。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频帧的调整方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述的音频帧的调整方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频帧的调整方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

根据音频帧的音高特征确定该音频帧的谐波修改系数，从而基于谐波修改系数对谐波的幅值进行调整，得到调整后的音频帧。其中，由于谐波是指对周期性非正弦交流量进行分解所得到的分量，即为声音中的周期分量，而周期分量与声音张力相关，从而实现对音频帧中的周期分量进行修改，而不对声音辨识度对应的非周期分量进行修改。从而，达到修改声音张力而保留原本辨识度的效果，提高了声音张力的调整准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的音频帧的调整方法的流程图；

图3是本申请另一个示例性实施例提供的音频帧的调整方法的流程图；

图4是本申请另一个示例性实施例提供的音频帧的调整方法的流程图；

图5是基于图4对第一音频内容调整得到的第二音频内容的频域示意图；

图6是本申请一个示例性实施例提供的音频帧的调整装置的结构框图；

图7是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的音频帧的调整方法，可以应用于终端侧，也可以应用于服务器侧，还可以由终端和服务器共同实现。示意性的，以终端和服务器通过通信网络进行数据交互，从而共同实现该音频帧的调整方法为例进行说明。

图1是本申请一个示例性实施例提供的实施环境示意图，如图1所示，该实施环境中包括终端110和服务器120，终端110和服务器120之间通过通信网络130连接；

终端110中安装有具备音频调整功能的应用程序，如：歌曲录制程序、视频录制程序、多媒体播放程序、即时通讯应用程序、社交程序等，本申请实施例对此不加以限定。用户在应用程序中对第一音频内容进行选择后，将该第一音频内容选定为需要进行声音张力调整的内容。在一些实施例中，由终端110通过通信网络130将第一音频内容上传至服务器120，或者，第一音频内容也可以是用户在应用程序中选择的在线文件，服务器120从该在线文件所在的服务器中直接获取该第一音频内容。可选的，终端110接收用户对第一音频内容的选择操作指令，并将该选择操作指令通过通信网络130发送至服务器120。

服务器120在获取第一音频内容后，从第一音频内容中解码得到音频帧，并针对音频帧进行声音处理。示意性的，以音频帧为例进行说明，服务器120提取音频帧的音高特征，并基于该音高特征确定音频帧的谐波修改幅值；服务器120以该谐波修改幅值对音频帧中的谐波进行幅度调整。当服务器120对每一帧音频帧或者每一帧关键帧进行调整后，即可得到基于第一音频内容调整后的第二音频内容。服务器120将该第二音频内容通过通信网络130反馈至终端110中。

值得注意的是，上述终端110可以实现为手机、平板电脑、可穿戴设备、便携式膝上笔记本电脑等移动终端，也可以实现为台式电脑等终端，本申请实施例对此不加以限定。

上述服务器120可以实现为一台服务器，也可以实现为多台服务器组成的服务器集群，上述服务器120可以实现为物理服务器，也可以实现为云服务器，本申请对此不加以限定。

结合上述实施环境，对本申请实施例中涉及的音频帧的调整方法进行说明，图2是本申请一个示例性实施例提供的音频帧的调整方法的流程图，以该方法应用于服务器中进行说明，如图2所示，该方法包括：

步骤201，获取待调整的音频帧。

在一些实施例中，待调整的音频帧为第一音频内容中的音频帧。

可选地，上述第一音频内容的获取方式包括如下方式中的至少一种：

第一，服务器接收终端上传的第一音频内容。

在一些实施例中，终端在向服务器上传第一音频内容时，还可以向服务器指示对第一音频内容的进行调整的调整要求，示意性的，终端在应用程序中选择调整参数，从而服务器基于调整参数对第一音频内容进行调整。本申请实施例中，用户在选择调整要求时，对音高调整要求进行选择，以自定义音高调整过程中的张力修改效果。

第二，服务器接收终端发送的音频内容链接，并基于音频内容链接从其他服务器中获取第一音频内容。

在一些实施例中，服务器在接收到终端发送的音频内容链接时，基于音频内容链接从链接网址对应的服务器中获取第一音频内容。可选地，终端在向服务器发送音频内容链接时，还可以向服务器指示对第一音频内容的进行调整的调整要求。

第三，当执行主体实现为终端时，终端可以从本地多媒体库中获取第一音频内容；或者，终端从服务器中下载第一音频内容。

示意性的，本申请实施例中，该第一音频内容为终端上传至服务器的内容，且第一音频内容为终端本地存储的音频内容；或者第一音频内容为终端实时录制得到的音频内容。如：终端中安装有歌曲录制应用程序，终端通过歌曲录制应用程序对声音信号进行录制，得到第一音频内容(歌曲录制内容)，并通过编码后，将编码文件上传至服务器，服务器接收到编码文件后，对编码文件进行解码，得到第一音频内容中的各个音频帧，从而基于音频帧对第一音频内容进行调整。步骤202，对音频帧进行音高提取，得到音频帧的音高特征。

音高特征用于指示音频内容内各种音调高低不同的声音。在一些实施例中，音高也可以影响声音的张力，而张力是属于声音表现力的一种。张力属于声音表现力的一种，具体用于指示在指定频段范围内，声音的饱满度以及清晰度，张力越强则声音的饱满度越高，声音清晰度也越高；张力越弱则声音的饱满度越低，声音清晰度也越低。

服务器获取第一音频内容后，对第一音频内容进行频域分析，得到第一音频内容对应的频域图。后续对第一音频内容的音频帧的修改，都是在频域图的基础上进行调整的。如：针对音频帧，从频域图中分析得到对应的音高特征，其中，频域图用于表示音频帧中谐波的频率与谐波的幅度之间的关系，谐波的幅度用于决定音频帧对应的声音张力。

示意性的，针对第一音频内容中的音频帧，利用基于概率的yin(probabilisticyin，pyin)算法提取音频帧中的音高特征f0。pyin算法是用于检测音高的算法，通常pyin算法基于概率对音高进行检测，从而提取给定频域范围内的音高。

在一些实施例中，服务器依次第一音频内容中的音频帧进行音高提取，并基于提取得到的音高特征，依次对音频帧进行后续调整。示意性的，服务器首先提取第一帧音频帧对应的音高特征，并基于音高特征对第一帧音频帧进行调整；调整完毕后提取第二帧音频帧的音高特征对第二帧音频帧进行调整，以此类推直至第一音频内容中音频帧调整完毕。

步骤203，基于音高特征，确定对音频帧的谐波进行幅值调整的谐波修改系数。

在一些实施例中，音频帧内的谐波包括基波和高次谐波，其中基波是指音频帧内的一次谐波。可选地，音频帧内除基波以外的谐波皆为高次谐波，如：二次谐波、三次谐波、……。

在一些实施例中，高次谐波用于指示波形频率为基波频率的整数倍的谐波，其中，大于等于基波频率的两倍的谐波称为高次谐波。示意性的，二次谐波对应的频率为基波频率的两倍，三次谐波对应的频率为基波频率的三倍。例如，当基波的频率为300hz，也即，一次谐波(也可称为第0个谐波)的频率为300hz，那么二次谐波(也可称为第1个谐波)对应的频率即为600hz，三次谐波(也可称为第2个谐波)对应的频率即为900hz；可选的，以基波频率的整数倍确定高次谐波在音频帧中的谐波的位置信息，在一些实施例中，以基波频率的整数倍确定高次谐波在音频帧中具体为几次谐波，以及确定高次谐波具体为第几个谐波。例如，当基波的频率为300hz时，若某一高次谐波的频率为1200hz，该频率是基波对应的频率的四倍，即为四次谐波(也可称为第3个谐波)。

在一些实施例中，上述谐波修改系数的确定包括如下情况中的至少一种：

第一，当待降低该音频帧的张力时，基波对应的谐波修改系数用于增大基波的幅值，高次谐波对应的谐波修改系数用于降低高次谐波的幅值。示意性的，基波对应的谐波修改系数大于1，高次谐波对应的谐波修改系数小于1。

第二，当待增强该音频帧的张力时，基波对应的谐波修改系数用于降低基波的幅值，高次谐波对应的谐波修改系数用于增强或维持高次谐波的幅值。

其中，增强或维持高次谐波的幅值是指针对单个高次谐波而言，谐波的幅值进行增强或者维持不变。示意性的，基波对应的谐波修改系数小于1，高次谐波对应的谐波修改系数大于或者等于1。

在一些实施例中，高次谐波中的二次谐波对应的谐波修改系数用于维持二次谐波的幅值，高次谐波中的其他高次谐波对应的谐波修改系数用于增强相应谐波的幅值，其中，其他高次谐波用于指示除了二次谐波以外的高次谐波。

在一些实施例中，在确定上述谐波修改系数时，首先需要确定波形频率以及音频帧中的谐波数量，从而基于谐波数量确定谐波修改系数。

在一些实施例中，首先基于音频帧的音高特征f0，确定音频帧中包含的谐波数量m，从而基于谐波数量m确定对目标音频帧中的谐波进行调整的谐波修改系数。

其中，在确定谐波数量时，具体过程为：

获取预先设定的采样率数据fs，该采样率数据fs用于表示在音频帧中进行音高采样的采样率。基于提取的音频帧对应的音高特征f0和采样率数据fs，确定音频帧中包含的谐波数量m，谐波数量m的确定公式可以参见如下公式1。

公式1：

公式1中，m为音频帧对应的谐波数量；fs为音频帧对应的采样率数据；f0为音频帧对应的音高特征。可选地，上述公式1为预先设置的。

在一些实施例中，基于谐波的波形频率和谐波数量，确定对目标音频帧中的谐波进行调整的谐波修改系数。

可选地，音频帧中的一次谐波称为基波，其余谐波称为泛音或者高次谐波，基波主要用于影响声音音高的高低，而高次谐波主要影响声音的表现力，即张力。张力大的声音穿透力较强，在频域上的表现为泛音部分的能量较足，张力小的声音穿透力较弱，在频域上的表现则为泛音部分的能量较弱。在音频调整过程中，对谐波对应的幅值进行修改，可以达到修改基波、高次谐波能量的效果，能够生成更丰富，表现力更好的音频内容。

基于谐波的波形频率和谐波数量m确定音频帧所对应的谐波修改系数，并将根据谐波修改系数对谐波幅度进行调整得到谐波修改幅值op，在一些实施例中，谐波幅度对应两种修改方式：第一修改方式和第二修改方式。对应的，p的取值为1或者2。在第一修改方式下p的取值为1，对应的谐波修改幅值为o1；在第二修改方式下p的取值为2，对应的谐波修改幅值为o2。第一修改方式与第二修改方式在后续进行详细说明。

示意性的，针对音频帧中的第k个谐波，基于谐波数量m确定第k个谐波的谐波修改系数ap，基于第k个谐波的谐波修改系数ap，确定第k个谐波的谐波修改幅值op，0≤k＜m，且k为整数。针对音频帧中，存在基波与高次谐波的情况，基波即为音频帧中的一次谐波，高次谐波即为音频帧中的二次谐波、三次谐波、四次谐波、…、m-1次谐波。而在本申请实施例中，因k的取值为0至m-1的整数，第k个谐波实际用于指示k 1次谐波，例如，当k＝1时，实际用于表示音频帧中的二次谐波，当k＝2时，实际用于表示音频帧中的三次谐波，以此类推。

当谐波修改系数为a1时，对应采用第一修改方式中的系数取值；当谐波修改系数为a2时，对应采用第二修改方式下的系数取值。针对第一修改方式与第二修改方式在后续内容中进行详细说明。

步骤204，根据谐波修改系数对音频帧中的谐波进行幅值调整，得到调整后的音频帧。

可选的，服务器得到音频帧内m个谐波对应的谐波修改系数ap后，确定m个谐波对应的谐波修改幅值op，将音频帧的谐波修改幅值应用至音频帧中对谐波进行幅度调整。

在一些实施例中，当第一音频内容中的n帧待调整的音频帧全部完成调整，即得到调整后的第二音频内容。

在一些实施例中，服务器将第二音频内容，以及与第一音频内容的对应关系保存至数据库，服务器将第二音频内容反馈至终端，从而终端对第二音频内容进行播放。

或者，服务器在得到第二音频内容后，向终端发送提示消息，该提示消息用于指示终端对第一音频内容的存储情况进行选择，也即终端可以选择保存第一音频内容，也可以选择采用第二音频内容替换第一音频内容，还可以选择同时保存第一音频内容和第二音频内容。在一些实施例中，服务器首先将第二音频内容发送至终端进行播放后，向终端发送该提示消息。

综上所述，本实施例提供的音频帧的调整方法，根据音频帧的音高特征确定该音频帧的谐波修改系数，从而基于谐波修改系数对谐波的幅值进行调整，得到调整后的音频帧。其中，由于谐波是指对周期性非正弦交流量进行分解所得到的分量，即为声音中的周期分量，而周期分量与声音张力相关，从而实现对音频帧中的周期分量进行修改，而不对声音辨识度对应的非周期分量进行修改。从而，达到修改声音张力而保留原本辨识度的效果，提高了声音张力的调整准确率。

在一个可选的实施例中，对谐波的修改中包括第一修改方式以及第二修改方式，图3是本申请另一个示例性实施例提供的音频帧的调整方法的流程图，以该方法应用于服务器中为例进行说明，如图3所示，该方法包括：

步骤301，获取待调整的音频帧。

在一些实施例中，待调整的音频帧为第一音频内容中的音频帧。

待调整的音频帧的获取方式在上述步骤201中已进行了详细说明，此处不再赘述。

步骤302，对音频帧进行音高提取，得到音频帧的音高特征。

音高特征用于指示音频内容内各种音调高低不同的声音。在一些实施例中，音高也可以影响声音的张力，而张力是属于声音表现力的一种。张力设置在音高范围内，声音的饱满度、清晰度、确实度以及伸缩弹性，使其在音频内容播放过程中有充分的内在支撑力。

音高特征的提取过程在上述步骤202中已进行了详细说明，此处不再赘述。

步骤303，对音频帧中的谐波应用第一修改方式，得到第一谐波修改幅值。

在一些实施例中，在对音频帧中的基波和高次谐波进行幅值调整时，以不同的调整方向进行调整。示意性的，以第一调整方向确定对基波的幅值进行调整的谐波修改系数，并以第二调整方式确定对高次谐波进行幅值调整的谐波修改系数，其中，高次谐波的谐波修改系数是基于高次谐波的波形频率和谐波数量确定的。第一调整方向和第二调整方向为不同的调整方向，其中，调整方向包括幅值的增强调整方向、降低调整方向和维持调整方向中的至少一种。

在一些实施例中，针对音高的修改包括第一修改方式和第二修改方式。可选地，第一修改方式中，音频帧的调整目标为降低音频帧张力；第二修改方式中，音频帧的调整目标为增强音频帧张力。其中，第一修改方式是指增强基频分量，而降低其他的高次谐波分量的修改方式；第二修改方式是指降低基频分量，二次谐波(即第1个谐波)不变，而增强其他高次谐波分量的修改方式。

基于谐波的波形频率和谐波数量m确定第k个谐波对应的第一谐波修改系数a1。

在第一修改方式(也即音频帧的调整目标为降低音频帧张力)中，以增强调整方向确定对基波的幅值进行调整的谐波修改系数；基于高次谐波的波形频率和谐波数量，以降低调整方向确定对高次谐波的幅值进行调整的谐波修改系数。

示意性的，针对音频帧中的基波，将第一预设取值b确定为基波的第一谐波修改系数a1，其中，基波用于指示音频帧中的一次谐波，也即，当k＝0时对应的谐波；值得注意的是，第一预设取值b的取值为大于1的数值，基波的第一谐波修改系数用于对基波的幅值进行调整。

针对音频帧中的高次谐波，基于高次谐波的波形频率和谐波数量m确定高次谐波的第一谐波修改系数a1，高次谐波是指除了基波以外的谐波，也即是指k大于0且小于m的整数对应的谐波。高次谐波的第一谐波修改系数用于对高次谐波的幅值进行调整。可选的，基于高次谐波的波形频率确定对应的k值，k用于表示高次谐波在音频帧内为第几个谐波，其中，通过高次谐波的波形频率与基波的波形频率之间的倍数关系确定高次谐波在音频帧内为第几个谐波。例如，基波(对应音频帧中的第0个谐波)对应的频率为300hz，三次谐波对应的频率为900hz，故三次谐波在音频帧内为第2个谐波，也即k的取值为2，以此类推。

针对上述表达中确定第一谐波修改系数a1的过程，可以参见公式2。

公式2：

公式2中，k用于表示第k个谐波；m用于表示音频帧中的谐波数量；b为第一预设取值，且b＞1；h为第四预设取值，是指预设的程度系数，且h的取值范围为0＜h＜1；a1用于表示第一谐波修改系数，也即第一修改方式中得到的谐波修改系数；上述公式2可以是预先存储在服务器中的。值得注意的是，第一预设取值b以及第四预设取值h为用户预先设定的数值。

服务器根据上述公式2确定n帧音频帧中各个谐波对应的第一谐波修改系数a1。

步骤304，以第一谐波修改幅值对音频帧中的谐波进行幅度调整，得到调整后的第二音频内容。

可选的，服务器在获取音频帧的谐波数量m后，利用开源libllsm2的工程接口，提取音频帧内第k个谐波的谐波幅值ok，提取第k个谐波的谐波幅值ok还可以利用其它方式，本申请对此不加以限定。

确定第k个谐波的第一谐波修改系数a1与第k个谐波的谐波幅值ok的乘积，将该乘积确定为第k个谐波的第一谐波修改幅值o1；具体请参见公式3。

公式3：o1＝a1×ok，k＝0，...，m-1

公式3中，a1用于表示第k个谐波对应的第一谐波修改系数；ok用于表示第k个谐波的谐波幅值，k的取值范围为0≤k＜m，且k为整数，m用于表示音频帧对应的谐波数量；o1用于表示第k个谐波对应的第一谐波修改幅值。上述公式3可以是预先存储在服务器中的。

利用上述开源libllsm2的工程接口将第一谐波修改幅值o1还原至第一音频内容中，即可得到第二音频内容。值得注意的是，降低张力的程度由公式2中的第一预设取值b和第四预设取值h决定。

服务器基于上述过程，得到音频帧内m个谐波对应的第一谐波修改系数a1，从而得到m个谐波对应的第一谐波修改幅值o1，将对应帧的谐波修改幅值应用至音频帧中的当前谐波幅值进行幅度调整，直至待调整的音频帧全部完成调整，得到调整后的第二音频内容。

步骤305，对音频帧中的谐波应用第二修改方式，得到第二谐波修改幅值。

在第二修改方式(也即音频帧的调整目标为增大音频帧张力)中，以降低调整方向确定对基波的幅值进行调整的谐波修改系数；以维持调整方向确定对二次谐波的幅值进行调整的谐波修改系数；基于其他高次谐波的波形频率和谐波数量，以增强调整方向确定对其他高次谐波的幅值进行调整的谐波修改系数，其他高次谐波是指除二次谐波以外的高次谐波。

基于谐波数量m确定第k个谐波对应的第二谐波修改系数a2。

针对音频帧中的基波，将第二预设取值d确定为基波的第二谐波修改系数a2，其中，基波用于指示音频帧中的当k＝0时对应的谐波；值得注意的是，第二预设取值d的取值范围为0＜d＜1，基波的第二谐波修改系数用于对基波的幅值进行调整。

针对音频帧中的二次谐波(也可称为第1个谐波)，将第三预设取值e确定为二次谐波的第二谐波修改系数a2，可选地，第三预设取值e的取值为1，用于表示二次谐波的谐波分量不变，保持原来的幅值。

针对音频帧中的其他高次谐波，基于谐波的波形频率和谐波数量m确定其他高次谐波的第二谐波修改系数a2，其他高次谐波是除二次谐波以外的高次谐波，也即是指k大于1且小于m的整数对应的谐波。其他高次谐波的第二谐波修改系数用于对其他高次谐波的幅值进行调整。

针对上述表达中确定第二修改系数a2的过程，可以参见公式4。

公式4：

公式4中，k用于表示第k个谐波；m用于表示音频帧中的谐波数量；d为第二预设取值，且0＜d＜1；e为第三预设取值，且e＝1；j为第五预设取值，且j＞0；a2用于表示第二谐波修改系数；上述公式4可以是预先存储在服务器中的。值得注意的是，第二预设取值d、第三预设取值e以及第五预设取值j为用户预先设定的数值。

服务器根据上述公式4确定n帧音频帧中各个谐波对应的第二谐波修改系数a2。

步骤306，以第二谐波修改幅值对音频帧中的谐波进行幅度调整，得到调整后的第二音频内容。

确定第k个谐波的第二谐波修改系数a2与第k个谐波的谐波幅值ok的乘积，将该乘积确定为第k个谐波的第二谐波修改幅值o2；具体请参见公式5。

公式5：o2＝a2*ok，k＝0，...，m-1

公式5中，a2用于表示第k个谐波对应的第二谐波修改系数；ok用于表示第k个谐波的谐波幅值，k的取值范围为0≤k＜m，且k为整数，m用于表示音频帧对应的谐波数量；o2用于表示第k个谐波对应的第二谐波修改幅值。上述公式5可以是预先存储在服务器中的。

利用上述开源libllsm2的工程接口将第二谐波修改幅值o2还原至第一音频内容中，即可得到第二音频内容。值得注意的是，增大张力的程度由公式4中的第二预设取值d和第五预设取值j决定。

服务器基于上述过程，得到音频帧内m个谐波对应的第二谐波修改系数a2，从而得到m个谐波对应的第二谐波修改幅值o2，将对应帧的谐波修改幅值应用至音频帧中的谐波当前幅值进行幅度调整，直至n帧音频帧全部完成调整，得到调整后的第二音频内容。

在一个可选的实施例中，图4是本申请另一个示例性实施例提供的音频帧的调整方法的流程图，以该方法应用于服务器中为例进行说明，如图4所示，该方法包括：

步骤401，获取第一音频内容。

第一音频内容中包括待调整的音频帧。

第一音频内容的获取方式在上述步骤201中已进行了详细说明，此处不再赘述。

步骤402，针对第一音频内容中的音频帧，对音频帧进行音高提取，得到音频帧的音高特征。

服务器获取第一音频内容后，对第一音频内容进行频域分析，得到第一音频内容对应的频域图。后续对第一音频内容的音频参数的修改，都是在频域图的基础上进行调整的。

音高特征的提取过程在上述步骤202中已进行了详细说明，此处不再赘述。

步骤403，基于音高特征，确定对音频帧的谐波进行幅值调整的谐波修改系数。

服务器确定音频帧的谐波数量后，提取各个谐波对应的谐波幅值；针对第k个谐波分量：利用公式2确定使第一音频内容的张力变小的第一谐波修改系数a1，该过程中，将第一预设取值b设置为2，将第四预设取值h设置为0.5；

或者，利用公式4确定使第一音频内容的张力变大的第二谐波修改系数a2，该过程中，将第二预设取值d设置为0.5，将第五预设取值j设置为1.5。

步骤404，根据谐波修改系数对音频帧中的谐波进行幅值调整，得到调整后的音频帧，并得到调整后的第二音频内容。

利用开源libllsm2的工程接口将第一谐波修改幅值和第二谐波修改幅值分别应用至第一音频内容中，示意性的，请参见图5，图5示出了第一音频内容调整得到的第二音频内容的频域示意图。该频谱示意图的纵坐标代表音频内容每个时间点对应的幅值，也即音高，单位为db；横坐标代表音频内容对应的频率，频率与时间成倒数关系，也即，该频谱示意图内的线段可以表示为声音幅值的大小随时间的变化而变化。在本实施例中，将第一个峰作为基音，也即当k＝0时对应的谐波，其他的峰值叫做泛音，应用上述提及的音频帧的调整方法，主要对第一音频内容的泛音进行张力的调整，基音则保留；其中，实线501为服务器接收第一音频内容后对其进行频域分析的线段，点线502为将第一音频内容内的谐波幅值变小的线段，虚线503为将第一音频内容内的谐波幅值变大的线段。

服务器按照对应的谐波修改系数以及谐波修改幅值将第一音频内容进行调整，得到第二音频内容。并将第二音频内容反馈至终端中，用户在终端内对第二音频内容进行对应的处理。

综上所述，本实施例提供的音频帧的调整方法，根据音频帧的音高特征确定该音频帧的谐波修改系数，从而基于谐波修改系数对谐波的幅值进行调整，得到调整后的音频帧，其中，由于谐波是指对周期性非正弦交流量进行分解所得到的分量，即为声音中的周期分量，而周期分量与声音张力相关，从而实现对音频帧中的周期分量进行修改，而不对声音辨识度对应的非周期分量进行修改。从而，达到修改声音张力而保留原本辨识度的效果，提高了声音张力的调整准确率。

图6是本申请一个示例性实施例提供的音频帧的调整装置的结构框图，如图6所示，该装置包括：获取模块610、提取模块620、确定模块630以及调整模块640；

获取模块610，用于获取待调整的音频帧；

提取模块620，用于对所述音频帧进行音高提取，得到所述音频帧的音高特征；

确定模块630，用于基于所述音高特征，确定对所述音频帧的谐波进行幅值调整的谐波修改系数；所述音频帧的谐波包括基波和高次谐波，所述基波为一次谐波；

调整模块640，用于根据所述谐波修改系数对所述音频帧中的谐波进行幅值调整，得到调整后的音频帧。

在一个可选的实施例中，所述调整模块640，还用于当待降低所述音频帧的张力时，所述基波对应的谐波修改系数用于增大所述基波的幅值，所述高次谐波对应的谐波修改系数用于降低所述高次谐波的幅值；

在一个可选的实施例中，调整模块640，还用于所述高次谐波中的二次谐波对应的谐波修改系数用于维持所述二次谐波的幅值，所述高次谐波中的其他高次谐波对应的谐波修改系数用于增强相应高次谐波的幅值。

在一个可选的实施例中，所述确定模块630，还用于基于所述音高特征，确定所述音频帧中包含的谐波数量；

基于所述谐波的波形频率和所述谐波数量，确定对所述目标音频帧中的谐波进行调整的谐波修改系数。

在一个可选的实施例中，所述音频帧中包括基波和高次谐波，所述基波为一次谐波，所述确定模块630，还用于以第一调整方向确定对所述基波的幅值进行调整的谐波修改系数，并以第二调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数，其中所述高次谐波的谐波修改系数是基于所述波形频率和所述谐波数量确定的；所述第一调整方向和所述第二调整方向为不同的调整方向，所述调整方向包括所述幅值的增强调整方向、降低调整方向和维持调整方向中的至少一种。

在一个可选的实施例中，所述音频帧的调整目标为降低音频帧张力，所述确定模块630，还用于以所述增强调整方向确定对所述基波的幅值进行调整的谐波修改系数；基于所述高次谐波的波形频率和所述谐波数量，以所述降低调整方向确定对所述高次谐波的幅值进行调整的谐波修改系数。

在一个可选的实施例中，还包括：

所述确定模块630，用于将第一预设取值确定为所述基波的第一谐波修改系数，所述基波的第一谐波修改系数取值大于1，所述基波的第一谐波修改系数用于对所述基波的幅值进行调整；

所述确定模块630，还用于基于所述高次谐波的波形频率和所述谐波数量，确定所述高次谐波的第一谐波修改系数，所述高次谐波的第一谐波修改系数用于对所述高次谐波的幅值进行调整。

在一个可选的实施例中，所述音频帧的调整目标为增大音频帧张力，所述确定模块630，还用于以所述降低调整方向确定对所述基波的幅值进行调整的谐波修改系数；以所述维持调整方向确定对二次谐波的幅值进行调整的谐波修改系数；基于其他高次谐波的波形频率和所述谐波数量，以所述增强调整方向确定对其他高次谐波的幅值进行调整的谐波修改系数，所述其他高次谐波是指除所述二次谐波以外的高次谐波。

在一个可选的实施例中，所述确定模块630，还用于将第二预设取值确定为所述基波的第二谐波修改系数，所述基波的第二谐波修改系数取值小于1，所述基波的第二谐波修改系数用于对所述基波的幅值进行调整；

所述确定模块630，还用于将第三预设取值1确定为所述二次谐波的第二谐波修改系数；

所述确定模块630，还用于基于其他高次谐波的波形频率和所述谐波数量，确定其他高次谐波的第二谐波修改系数，所述其他高次谐波的第二谐波修改系数用于对其他高次谐波的幅值进行调整。

综上所述，本实施例提供的音频帧的调整装置，根据音频帧的音高特征确定该音频帧的谐波修改系数，从而基于谐波修改系数对谐波的幅值进行调整，得到调整后的音频帧。其中，由于谐波是指对周期性非正弦交流量进行分解所得到的分量，即为声音中的周期分量，而周期分量与声音张力相关，从而实现对音频帧中的周期分量进行修改，而不对声音辨识度对应的非周期分量进行修改。从而，达到修改声音张力而保留原本辨识度的效果，提高了声音张力的调整准确率。

需要说明的是：上述实施例提供的音频帧的调整装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频帧的调整装置与音频帧的调整方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是图1示出的服务器。具体来讲：

服务器120包括中央处理单元(cpu，centralprocessingunit)701、包括随机存取存储器(ram，randomaccessmemory)702和只读存储器(rom，readonlymemory)703的系统存储器704，以及连接系统存储器704和中央处理单元801的系统总线705。服务器120还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统，inputoutputsystem)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出)连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为服务器120提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者紧凑型光盘只读存储器(cd-rom，compactdiscreadonlymemory)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(eprom，erasableprogrammablereadonlymemory)、带电可擦可编程只读存储器(eeprom,electricallyerasableprogrammablereadonlymemory)、闪存或其他固态存储设备，cd-rom、数字通用光盘(dvd，digitalversatiledisc)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707可以统称为存储器。

根据本申请的各种实施例，服务器120还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器120可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由cpu执行。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频帧的调整方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的音频帧的调整方法。

可选地，该计算机可读存储介质可以包括：只读存储器(rom，readonlymemory)、随机存取记忆体(ram，randomaccessmemory)、固态硬盘(ssd，solidstatedrives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistancerandomaccessmemory)和动态随机存取存储器(dram，dynamicrandomaccessmemory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于混合特征选择和GWO-KELM模型的鸟声识别方法与流程

音频帧的调整方法、装置、设备及可读存储介质与流程

相关文章

最热文献