一种音频处理方法、装置、电子设备及可读存储介质与流程

2021-10-09 15:59:00 来源：中国专利 TAG：数据处理电子设备音频处理装置可读

1.本技术涉及数据处理领域，尤其涉及一种音频处理方法、装置、电子设备及可读存储介质。

背景技术：

2.随着移动互联网k歌应用的不断发展，用户对于k歌体验的要求越来越高。但由于不同的人对乐感和旋律的感知能力参差不齐，跑调或者节奏跟不上的情况时有发生，严重影响用户的k歌体验，为了改善用户的k歌体验，k歌应用大多具备修音功能。目前k歌应用中的修音功能大多是通过模板匹配的技术实现的，即，将用户演唱歌曲的音高和节奏直接调整为和模版中的音高和节奏一致。然而，通过模板匹配进行修音时，由于没有考虑用户自身的音高情况，导致修音后的音频容易失真，不像用户本人的声音。

技术实现要素：

3.为了解决上述通过模板匹配进行修音时，由于没有考虑用户自身的音高情况，导致修音后的音频容易失真的技术问题，本技术提供了一种音频处理方法、装置、电子设备及可读存储介质。
4.第一方面，提供了一种音频处理方法，所述方法包括：获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；基于所述第一音高集合和所述第二音高集合确定调整策略；利用所述调整策略对所述目标音频的音高进行调整。
5.可选地，所述基于所述第一音高集合和所述第二音高集合确定调整策略，包括：确定所述第一音高集合对应的第一均值，以及，所述第二音高集合对应的第二均值；将所述第一均值与所述第二均值的差值绝对值，作为音高差异值；基于所述音高差异值和所述第二音高集合确定所述调整策略。
6.可选地，所述基于所述音高差异值和所述第二音高集合确定所述调整策略，包括：判断所述音高差异值是否大于预设音高阈值；若所述音高差异值大于所述预设音高阈值，获取目标参数，并基于所述第二音高集合和所述目标参数确定第一目标音高集合，所述第一目标音高集合用于对所述目标音频的音高进行调整；若所述音高差异值小于或等于所述预设音高阈值，将所述第二音高集合作为所述第一目标音高集合。
7.可选地，所述基于所述第二音高集合和所述目标参数确定第一目标音高集合，包括：在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述目标参数的和作为第一目标音高，得到所述第一目标音高集合；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述目标参数得到的差值作为所述第一目标音高，得到所述第一目标音高集合。
8.可选地，所述方法还包括：在接收到对象输入调整值的情况下，将所述调整值和预设参数的乘积结果作为所述目标参数；在未接收到对象输入调整值的情况下，将所述预设参数作为所述目标参数。
9.可选地，所述基于所述音高差异值和所述第二音高集合确定所述调整策略，包括：在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述音高差异值的和作为第二目标音高，得到第二目标音高集合，所述第二目标音高集合用于对所述目标音频的音高进行调整；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述音高差异值得到的差值作为所述第二目标音高，得到所述第二目标音高集合。
10.可选地，所述按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合，包括：从所述第一音频帧集合中提取第一语义特征，并从所述第二音频帧集合中提取第二语义特征；将所述第一语义特征和所述第二语义特征输入至序列匹配模型，以使所述序列匹配模型输出对齐结果；将所述对齐结果和所述第一音频帧集合输入至时域调整模型，以使所述时域调整模型输出所述目标音频帧集合。
11.第二方面，提供了一种音频处理装置，所述装置包括：获取模块，用于获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；对齐模块，用于按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；第一确定模块，用于确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；第二确定模块，用于基于所述第一音高集合和所述第二音高集合确定调整策略；调整模块，用于利用所述调整策略对所述目标音频的音高进行调整。
12.可选地，所述第二确定模块，具体用于：确定所述第一音高集合对应的第一均值，以及，所述第二音高集合对应的第二均
值；将所述第一均值与所述第二均值的差值绝对值，作为音高差异值；基于所述音高差异值和所述第二音高集合确定所述调整策略。
13.可选地，所述第二确定模块，还用于：判断所述音高差异值是否大于预设音高阈值；若所述音高差异值大于所述预设音高阈值，获取目标参数，并基于所述第二音高集合和所述目标参数确定第一目标音高集合，所述第一目标音高集合用于对所述目标音频的音高进行调整；若所述音高差异值小于或等于所述预设音高阈值，将所述第二音高集合作为所述第一目标音高集合。
14.可选地，所述第二确定模块，还用于：在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述目标参数的和作为第一目标音高，得到所述第一目标音高集合；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述目标参数得到的差值作为所述第一目标音高，得到所述第一目标音高集合。
15.可选地，所述装置还包括输入模块，所述输入模块，用于：在接收到对象输入调整值的情况下，将所述调整值和预设参数的乘积结果作为所述目标参数；在未接收到对象输入调整值的情况下，将所述预设参数作为所述目标参数。
16.可选地，所述第二确定模块，还用于：在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述音高差异值的和作为第二目标音高，得到第二目标音高集合，所述第二目标音高集合用于对所述目标音频的音高进行调整；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述音高差异值得到的差值作为所述第二目标音高，得到所述第二目标音高集合。
17.可选地，所述对齐模块，具体用于：从所述第一音频帧集合中提取第一语义特征，并从所述第二音频帧集合中提取第二语义特征；将所述第一语义特征和所述第二语义特征输入至序列匹配模型，以使所述序列匹配模型输出对齐结果；将所述对齐结果和所述第一音频帧集合输入至时域调整模型，以使所述时域调整模型输出所述目标音频帧集合。
18.第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。
19.第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
20.第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的音频处理方法。
21.本技术实施例有益效果：本技术实施例提供了一种音频处理方法、装置、电子设备及可读存储介质，本技术通过，首先，获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；然后，按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；并确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；最后，基于所述第一音高集合和所述第二音高集合确定调整策略；并利用所述调整策略对所述目标音频的音高进行调整。本方案中用于调整音高的调整策略不仅考虑了参考音频的音高，还考虑了目标音频的音高，因此利用该调整策略调整音高时，可以避免由于没有考虑用户自身的音高造成失真的情况。
22.当然，实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
24.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
25.图1为本技术实施例提供的一种音频处理方法的流程图；图2为本技术另一实施例提供的一种音频处理方法的流程图；图3为本技术实施例提供的一种音频处理装置的结构示意图；图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
26.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
27.由于目前k歌应用中的修音功能大多是通过模板匹配的技术实现的，即，将用户演唱歌曲的音高和节奏直接调整为和模版中的音高和节奏一致。然而，通过模板匹配进行修音时，由于没有考虑用户自身的音高情况，导致修音后的音频容易失真，不像用户本人的声音。为此，本技术实施例提供了一种音频处理方法。
28.下面将结合具体实施方式，对本技术实施例提供的一种音频处理方法进行详细的
说明，如图1所示，具体步骤如下：s101，获取目标音频的第一音频帧集合和参考音频的第二音频帧集合。
29.在本技术实施例中，目标音频指需要进行修音的音频（例如，用户在k歌应用上演唱的歌曲或上传的歌曲），参考音频指作为修音参考的音频（例如，曲库中与目标音频对应的原唱演唱的歌曲）。
30.进一步地，参考音频的获取方式有多种，包括但不限于基于歌词和/或旋律在曲库中自动匹配得到或由用户上传得到。
31.进一步地，音频由多个音频帧组成，因此可以提取目标音频对应的第一音频帧集合和参考音频对应的第二音频帧集合。
32.s102，按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合。
33.在本技术实施例中，为了将目标音频的节奏调整为与参考音频的节奏一致，按照第二音频帧集合对第一音频帧集合执行时域维度上的对齐处理，得到的目标音频帧集合的节奏与参考音频的节奏一致。
34.在本技术实施例的一种实施方式中，s102，可以包括以下步骤：s201，从所述第一音频帧集合中提取第一语义特征，并从所述第二音频帧集合中提取第二语义特征。
35.在该实施方式中，第一语义特征用于表征第一音频帧集合在语义上的特征，第二语义特征用于表征第二音频帧集合在语义上的特征，第一语义特征和第二语义特征优选为ppg（phonetic posteriorgram，语音后验图），例如，利用自动语音识别(automatic speech recognition，asr)模型提取第一音频帧集合对应的概率密度函数的分布作为第一语义特征，以及，利用该模型提取第二音频帧集合对应的概率密度函数的分布作为第二语义特征。由于，ppg是次音素级别，其类别数较多，因此，利用ppg进行后续的对齐处理，对齐结果更加准确。
36.s202，将所述第一语义特征和所述第二语义特征输入至序列匹配模型，以使所述序列匹配模型输出对齐结果。
37.在该实施方式中，序列匹配模型用于衡量两个长度不同的时间序列的相似度，例如dtw (dynamic time warpping，动态时间归整)模型。
38.该实施方式中，第一音频帧集合和第二音频帧集合对应的为同一音频内容（例如同一首歌曲），由于不同人演唱同一首歌曲时往往存在节奏不一致的情况，即，不同人发同一个音时拖的时间不一致，例如第一音频帧集合中第一次发“a”的音时拖得较短，对应的为0
‑
100的音频帧，第二音频帧集合中第一次发“a”音时拖得较长，对应的为0
‑
200的音频帧。通过序列匹配模型可以将这些发音时长不一样的同一个音对应上，即，建立第一音频帧集合中0
‑
100的音频帧与第二音频帧集合中0
‑
200的音频帧的对应关系。
39.因此将第一语义特征和第二语义特征输入至序列匹配模型后，序列匹配模型可以将第一音频帧集合和第二音频帧集合中属于同一个音的音频帧对应上，得到第一音频帧集合和第二音频帧集合的对齐结果。
40.该实施方式中，仅利用语义特征进行对齐，无需使用与语音相关的特征，因此可以避免严重走调时语音特征影响对齐的准确性。
41.s203，将所述对齐结果和所述第一音频帧集合输入至时域调整模型，以使所述时域调整模型输出所述目标音频帧集合。
42.在该实施方式中，时域调整模型用于改变"语速"不改变"语调"，例如wsola（重叠相加）模型，waveform similarity（波形相似性）模型或overlap
‑
add（交叠相加）模型。
43.例如对齐结果中，第一音频帧集合中0
‑
100的音频帧与第二音频帧集合中0
‑
200的音频帧对应，即，二者对应的为同一个音，但发声时长不一致，通过时域调整模型可以将第一音频帧集合中0
‑
100的音频帧调整为0
‑
200帧，使二者发声时长一致。
44.因此，将对齐结果和第一音频帧集合输入至时域调整模型后，时域调整模型输出的目标音频帧集合中每个音的发声时长，与第二音频帧集合中对应的音的发声时长一致，因此，目标音频帧集合和第二音频帧集合的节奏一致。
45.在该实施方式中，可以将目标音频的节奏调整为与参考音频的节奏一致，在此基础上进行后续的音高调整准确性更高，修音效果也更好。
46.s103，确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合。
47.s104，基于所述第一音高集合和所述第二音高集合确定调整策略。
48.s105，利用所述调整策略对所述目标音频的音高进行调整。
49.在本技术实施例中，第一音高集合中包括目标音频帧集合中每个音频帧的音高，因此第一音高集合可以用于表征目标音频的音高特征，第二音高集合中包括第二音频帧集合中每个音频帧的音高，因此第二音频帧集合可以用于表征参考音频的音高特征，因此基于第一音高集合和第二音高集合确定的调整策略对目标音频的音高进行调整，同时考虑了目标音频的音高情况和参考音频的音高情况。
50.本技术实施例中，首先，获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；然后，按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；并确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；最后，基于所述第一音高集合和所述第二音高集合确定调整策略；并利用所述调整策略对所述目标音频的音高进行调整。本方案中用于调整音高的调整策略不仅考虑了参考音频的音高，还考虑了目标音频的音高，因此利用该调整策略调整音高时，可以避免由于没有考虑用户自身的音高造成失真的情况。
51.在本技术又一实施例中，所述s104，可以包括以下步骤：步骤一，确定所述第一音高集合对应的第一均值，以及，所述第二音高集合对应的第二均值；步骤二，将所述第一均值与所述第二均值的差值绝对值，作为音高差异值；步骤三，基于所述音高差异值和所述第二音高集合确定所述调整策略。
52.在本技术实施例中，第一音高集合中包括目标音频帧集合中每个音频帧的音高，第二音高集合中包括第二音频帧集合中每个音频帧的音高。第一均值为第一音高集合中所有音高的平均值，即，目标音频帧集合对应的音高均值，第二均值为第二音高集合中所有音高的平均值，即，第二音频帧集合对应的音高均值，因此，二者的差值绝对值可以用于表征目标音频与参考音频的音高差异情况，即，差值绝对值越大，二者差异越大。
53.本技术实施例中，在确定调整策略时考虑了目标音频与参考音频的音高差异情况，因此利用该调整策略调整音高时，可以避免由于没有考虑用户自身的音高造成失真的情况。
54.在本技术又一实施例中，所述s104，还可以包括以下步骤：步骤一，判断所述音高差异值是否大于预设音高阈值；步骤二，若所述音高差异值大于所述预设音高阈值，获取目标参数，并基于所述第二音高集合和所述目标参数确定第一目标音高集合，所述第一目标音高集合用于对所述目标音频的音高进行调整；步骤三，若所述音高差异值小于或等于所述预设音高阈值，将所述第二音高集合作为所述第一目标音高集合。
55.在本技术实施例中，目标参数是一个正数，用于调整音高的修改幅度，第一目标音高集合中包括多个第一目标音高，在调整目标音频的音高时，将目标音频中每个音频帧的音高调整为对应的第一目标音高。通过预设音高阈值判断目标音频与参考音频在音高上的差异情况，当音高差异值大于预设音高阈值，表示目标音频与参考音频在音高上的差异较大，此时通过第二音高集合和目标参数确定第一目标音高集合，即，在第二音高集合的基础上调整修改幅度得到第一目标音高集合，从而避免调整幅度过大导致失真。当音高差异值小于或等于预设音高阈值，表示目标音频与参考音频在音高上的差异较小，此时，可以直接将第二音高集合作为第一目标音高集合，无需重新计算，节省计算资源。
56.在本技术实施例的一种实施方式中，可以通过以下步骤确定第一目标音高集合：步骤一，在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述目标参数的和作为第一目标音高，得到所述第一目标音高集合；步骤二，在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述目标参数得到的差值作为所述第一目标音高，得到所述第一目标音高集合。
57.在该实施方式中，在第一均值大于第二均值的情况下，表示目标音频的整体音高大于参考音频的整体音高，例如，演唱同一首歌，一般情况下女生音高大于男生音高，此时，针对第二音高集合中的每个第二音高，将第二音高与目标参数的和作为第一目标音高，因此，在第一均值大于第二均值的情况下，第一目标音高高于第二音高。
58.在第一均值小于第二均值的情况下，表示目标音频的整体音高小于参考音频的整体音高，此时，针对第二音高集合中的每个第二音高，将第二音高减去目标参数得到的差值作为第一目标音高，因此，在第一均值小于第二均值的情况下，第一目标音高低于第二音高。
59.该实施方式中，相较于直接将第一音高调整为对应的第二音高，将第一音高调整为第一目标音高，减少了调整幅度，从而避免调整幅度过大导致失真。
60.在本技术又一实施例中，所述方法还包括以下步骤：步骤一，在接收到对象输入调整值的情况下，将所述调整值和预设参数的乘积结果作为所述目标参数；步骤二，在未接收到对象输入调整值的情况下，将所述预设参数作为所述目标参
数。
61.在本技术实施例中，对象指调整音高的用户，调整值指调整系数，预设参数为正数。在接收到对象输入调整值的情况下，将调整值和预设参数的乘积结果作为目标参数；在未接收到对象输入调整值的情况下，直接将预设参数作为目标参数。通过本方案，可以基于用户的选择确定目标参数，即，根据用户指示确定调整幅度，使调整后的音高更符合用户需求，提高用户体验。
62.在本技术又一实施例中，所述s104，还可以包括以下步骤：步骤一，在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述音高差异值的和作为第二目标音高，得到第二目标音高集合，所述第二目标音高集合用于对所述目标音频的音高进行调整；步骤二，在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述音高差异值得到的差值作为所述第二目标音高，得到所述第二目标音高集合。
63.在本技术实施例中，第二目标音高集合中包括多个第二目标音高，在调整目标音频的音高时，将目标音频中每个音频帧的音高调整为对应的第二目标音高。该实施例中，可以直接根据音高差异值调节音高的调整幅度，即，在第一均值大于第二均值的情况下，针对第二音高集合中的每个第二音高，将第二音高与音高差异值的和作为第二目标音高；在第一均值小于第二均值的情况下，针对第二音高集合中的每个第二音高，将第二音高减去音高差异值得到的差值作为第二目标音高。由于音高是线性的，但是人耳对于音高的接收是非线性的，因此，该实施例中，用于计算的第一音高和第二音高需要预先转换为对应的对数，从而使计算结果符合人耳的听觉规律。
64.具体地，可以通过以下公式（1）
‑
（4）进行计算第二目标音高：（4）进行计算第二目标音高：（4）进行计算第二目标音高：（4）进行计算第二目标音高：其中，为第二音高，为第一音高，为第一均值，为第二均值，为第二目标音高。
65.即，先将第一音高和第二音高转换为对应的对数，即由线性转为非线性，然后通过公式（3）计算得到非线性的第二目标音高，最后将第二目标音高由非线性转换为线性，利用线性的第二目标音高调整目标音频的音高。
66.本技术实施例中，首先，获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；然后，按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；并确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；最后，基于所述第一音高集合和所述第二音高集合确定调整策略；并利用所述调整
策略对所述目标音频的音高进行调整。本方案中用于调整音高的调整策略不仅考虑了参考音频的音高，还考虑了目标音频的音高，因此利用该调整策略调整音高时，可以避免由于没有考虑用户自身的音高造成失真的情况。
67.基于相同的技术构思，本技术实施例还提供了一种音频处理装置，如图3所示，该装置包括：获取模块301，用于获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；对齐模块302，用于按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；第一确定模块303，用于确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；第二确定模块304，用于基于所述第一音高集合和所述第二音高集合确定调整策略；调整模块305，用于利用所述调整策略对所述目标音频的音高进行调整。
68.可选地，所述第二确定模块，具体用于：确定所述第一音高集合对应的第一均值，以及，所述第二音高集合对应的第二均值；将所述第一均值与所述第二均值的差值绝对值，作为音高差异值；基于所述音高差异值和所述第二音高集合确定所述调整策略。
69.可选地，所述第二确定模块，还用于：判断所述音高差异值是否大于预设音高阈值；若所述音高差异值大于所述预设音高阈值，获取目标参数，并基于所述第二音高集合和所述目标参数确定第一目标音高集合，所述第一目标音高集合用于对所述目标音频的音高进行调整；若所述音高差异值小于或等于所述预设音高阈值，将所述第二音高集合作为所述第一目标音高集合。
70.可选地，所述第二确定模块，还用于：在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述目标参数的和作为第一目标音高，得到所述第一目标音高集合；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述目标参数得到的差值作为所述第一目标音高，得到所述第一目标音高集合。
71.可选地，所述装置还包括输入模块，所述输入模块，用于：在接收到对象输入调整值的情况下，将所述调整值和预设参数的乘积结果作为所述目标参数；在未接收到对象输入调整值的情况下，将所述预设参数作为所述目标参数。
72.可选地，所述第二确定模块，还用于：
在所述第一均值大于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高与所述音高差异值的和作为第二目标音高，得到第二目标音高集合，所述第二目标音高集合用于对所述目标音频的音高进行调整；在所述第一均值小于所述第二均值的情况下，针对所述第二音高集合中的每个第二音高，将所述第二音高减去所述音高差异值得到的差值作为所述第二目标音高，得到所述第二目标音高集合。
73.可选地，所述对齐模块，具体用于：从所述第一音频帧集合中提取第一语义特征，并从所述第二音频帧集合中提取第二语义特征；将所述第一语义特征和所述第二语义特征输入至序列匹配模型，以使所述序列匹配模型输出对齐结果；将所述对齐结果和所述第一音频帧集合输入至时域调整模型，以使所述时域调整模型输出所述目标音频帧集合。
74.本技术实施例中，首先，获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；然后，按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；并确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；最后，基于所述第一音高集合和所述第二音高集合确定调整策略；并利用所述调整策略对所述目标音频的音高进行调整。本方案中用于调整音高的调整策略不仅考虑了参考音频的音高，还考虑了目标音频的音高，因此利用该调整策略调整音高时，可以避免由于没有考虑用户自身的音高造成失真的情况。
75.基于相同的技术构思，本技术实施例还提供了一种电子设备，如图4所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，存储器113，用于存放计算机程序；处理器111，用于执行存储器113上所存放的程序时，实现如下步骤：获取目标音频的第一音频帧集合和参考音频的第二音频帧集合；按照所述第二音频帧集合中的语义特征对所述第一音频帧集合中的语义特征执行时域维度上的对齐处理，得到所述第一音频帧集合对应的目标音频帧集合；确定所述目标音频帧集合对应的第一音高集合，以及，确定所述第二音频帧集合对应的第二音高集合；基于所述第一音高集合和所述第二音高集合确定调整策略；利用所述调整策略对所述目标音频的音高进行调整。
76.上述电子设备提到的通信总线可以是外设部件互连标准（peripheral component interconnect，pci）总线或扩展工业标准结构（extended industry standard architecture，eisa）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
77.通信接口用于上述电子设备与其他设备之间的通信。
78.存储器可以包括随机存取存储器（random access memory，ram），也可以包括非易
失性存储器（non
‑
volatile memory，nvm），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。
79.上述的处理器可以是通用处理器，包括中央处理器（central processing unit，cpu）、网络处理器（network processor，np）等；还可以是数字信号处理器（digital signal processing，dsp）、专用集成电路（application specific integrated circuit，asic）、现场可编程门阵列（field
‑
programmable gate array，fpga）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
80.在本技术提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一音频处理方法的步骤。
81.在本技术提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一音频处理方法。
82.在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（dsl））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质（例如固态硬盘solid state disk (ssd)）等。
83.需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
84.以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

一种音频处理方法、装置、电子设备及可读存储介质与流程

相关文章

最热文献