一种音频处理方法、装置、电子设备及存储介质与流程

2022-05-18 12:40:10 来源：中国专利 TAG：

1.本公开涉及互联网技术领域，尤其涉及一种音频处理方法、装置、电子设备及存储介质。

背景技术：

2.随着多媒体技术的发展，音乐已经成为了人们生活中必不可少的组成部分，许多人通过聆听音乐来获取快乐和释放压力。音乐的结构性是构成一个完整的优秀的音乐作品的重要组成部分，其中，主歌和副歌在音乐结构中尤为重要。主歌作为歌曲中占比最大的部分，它往往是歌曲中副歌之前的部分，用来讲述故事和推进情绪。而副歌作为整首歌曲最核心的部分，在旋律和节奏上与主歌有着强烈的对比。在副歌部分，歌曲的情感通常会被升华，并且因为其旋律的独特性，往往也会是整首歌曲的记忆点。但是因为歌曲结构的多样性，如何高效、准确的获取歌曲的副歌时间点是十分困难的。
3.目前对于副歌时间点的标注，通常是人力标注歌曲的副歌时间点，这种方法虽然标准准确度可以得到保证，但是需要很高的人力成本和金钱成本。

技术实现要素：

4.本公开提供一种音频处理方法、装置、电子设备及存储介质，本公开的技术方案如下：
5.根据本公开实施例的第一方面，提供一种音频处理方法，包括：
6.对音频进行人声检测，得到人声片段；
7.对人声片段进行节拍检测，得到人声片段对应的多个小节；多个小节按照时间戳排序；
8.对多个小节进行聚类，将多个小节分为多个第一聚类片段；多个第一聚类片段中的每个第一聚类片段包括至少一个小节；
9.从多个第一聚类片段中确定第一目标聚类片段；
10.将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
11.在一些可能的实施例中，对人声片段进行节拍检测，得到人声片段对应的多个小节，包括：
12.对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳；
13.根据每个小节对应的时间戳对人声片段进行切分，得到人声片段对应的多个小节。
14.在一些可能的实施例中，对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳包括：
15.提取音频的梅尔频率倒谱系数，作为音频的特征信息；
16.基于音频的特征信息对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
17.在一些可能的实施例中，人声片段包括至少一个人声子片段，每个人声子片段携带有人声起始时间点和人声结束时间点；方法还包括：
18.确定多个第一聚类片段中每个第一聚类片段的起始时间点和结束时间点；
19.基于每个第一聚类片段的起始时间点和结束时间点和每个人声子片段携带的人声起始时间点和人声结束时间点对多个第一聚类片段进行边界调整，得到更新后的多个第一聚类片段。
20.在一些可能的实施例中，从多个第一聚类片段中确定第一目标聚类片段包括：
21.从更新后的多个第一聚类片段中确定第一目标聚类片段。
22.在一些可能的实施例中，从更新后的多个第一聚类片段中确定第一目标聚类片段包括：
23.确定更新后的多个第一聚类片段中的每个第一聚类片段的短时能量信息；
24.基于每个第一聚类片段的短时能量信息从更新后的多个第一聚类片段中确定第一目标聚类片段。
25.在一些可能的实施例中，方法还包括：
26.当人声片段的时长小于第一预设时长时，基于音频确定待处理音频；
27.对待处理音频进行节拍检测，得到待处理音频对应的多个小节；
28.从待处理音频对应的多个小节中确定相似小节，以及每个小节的类别信息；
29.对待处理音频对应的多个小节进行聚类，将多个小节分为待处理音频对应的多个第二聚类片段；
30.基于相似小节和每个小节的类别信息对待处理音频对应的多个第二聚类片段进行调整，得到更新后的多个第二聚类片段；
31.从多个第二聚类片段中确定第二目标聚类片段；
32.将第二目标聚类片段的起始时间点确定为音频的副歌起始时间点。
33.在一些可能的实施例中，对待处理音频进行节拍检测，得到待处理音频对应的多个小节包括：
34.对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳；
35.根据待处理音频中每个小节对应的时间戳对待处理音频进行切分，得到待处理音频对应的多个小节。
36.在一些可能的实施例中，对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳包括：
37.提取待处理音频的梅尔频率倒谱系数，作为待处理音频的特征信息；
38.基于待处理音频的特征信息对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳。
39.在一些可能的实施例中，从待处理音频对应的多个小节中确定相似小节，以及每个小节的类别信息包括：
40.计算待处理音频对应的多个小节中任意两个小节之间的相似度信息；
41.基于相似度信息确定相似小节；
42.对相似度信息进行谱聚类处理，确定每个小节的类别信息。
43.根据本公开实施例的第二方面，提供一种音频处理装置，包括：
44.人声检测模块，被配置为执行对音频进行人声检测，得到人声片段；
45.节拍检测模块，被配置为执行对人声片段进行节拍检测，得到人声片段对应的多个小节；多个小节按照时间戳排序；
46.聚类模块，被配置为执行对多个小节进行聚类，将多个小节分为多个第一聚类片段；多个第一聚类片段中的每个第一聚类片段包括至少一个小节；
47.片段确定模块，被配置为执行从多个第一聚类片段中确定第一目标聚类片段；
48.副歌起始点确定模块，被配置为执行将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
49.在一些可能的实施例中，节拍检测模块，被配置为执行：
50.对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳；
51.根据每个小节对应的时间戳对人声片段进行切分，得到人声片段对应的多个小节。
52.在一些可能的实施例中，节拍检测模块，被配置为执行：
53.提取音频的梅尔频率倒谱系数，作为音频的特征信息；
54.基于音频的特征信息对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
55.在一些可能的实施例中，人声片段包括至少一个人声子片段，每个人声子片段携带有人声起始时间点和人声结束时间点；装置还包括：
56.时间点确定模块，被配置为执行确定多个第一聚类片段中每个第一聚类片段的起始时间点和结束时间点；
57.片段更新模块，被配置为执行基于每个第一聚类片段的起始时间点和结束时间点和每个人声子片段携带的人声起始时间点和人声结束时间点对多个第一聚类片段进行边界调整，得到更新后的多个第一聚类片段。
58.在一些可能的实施例中，片段确定模块，被配置为执行：
59.从更新后的多个第一聚类片段中确定第一目标聚类片段。
60.在一些可能的实施例中，片段确定模块，被配置为执行：
61.确定更新后的多个第一聚类片段中的每个第一聚类片段的短时能量信息；
62.基于每个第一聚类片段的短时能量信息从更新后的多个第一聚类片段中确定第一目标聚类片段。
63.在一些可能的实施例中，装置还包括：
64.待处理音频确定模块，被配置为执行当人声片段的时长小于第一预设时长时，基于音频确定待处理音频；
65.节拍检测模块，被配置为执行对待处理音频进行节拍检测，得到待处理音频对应的多个小节；
66.小节信息确定模块，被配置为执行从待处理音频对应的多个小节中确定相似小节，以及每个小节的类别信息；
67.聚类模块，被配置为执行对待处理音频对应的多个小节进行聚类，将多个小节分为待处理音频对应的多个第二聚类片段；
68.片段更新模块，被配置为执行基于相似小节和每个小节的类别信息对待处理音频
对应的多个第二聚类片段进行调整，得到更新后的多个第二聚类片段；
69.片段确定模块，被配置为执行从多个第二聚类片段中确定第二目标聚类片段；
70.副歌起始点确定模块，被配置为执行将第二目标聚类片段的起始时间点确定为音频的副歌起始时间点。
71.在一些可能的实施例中，节拍检测模块，被配置为执行：
72.对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳；
73.根据待处理音频中每个小节对应的时间戳对待处理音频进行切分，得到待处理音频对应的多个小节。
74.在一些可能的实施例中，节拍检测模块，被配置为执行：
75.提取待处理音频的梅尔频率倒谱系数，作为待处理音频的特征信息；
76.基于待处理音频的特征信息对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳。
77.在一些可能的实施例中，小节信息确定模块，被配置为执行：
78.计算待处理音频对应的多个小节中任意两个小节之间的相似度信息；
79.基于相似度信息确定相似小节；
80.对相似度信息进行谱聚类处理，确定每个小节的类别信息。
81.根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现如上述第一方面中任一项的方法。
82.根据本公开实施例的第四方面，提供一种计算机可读存储介质，当计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例的第一方面中任一项的方法。
83.根据本公开实施例的第五方面，提供一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序存储在可读存储介质中，计算机设备的至少一个处理器从可读存储介质读取并执行计算机程序，使得计算机设备执行本公开实施例的第一方面中任一项的方法。
84.本公开的实施例提供的技术方案至少带来以下有益效果：
85.对音频进行人声检测，得到人声片段，对人声片段进行节拍检测，得到人声片段对应的多个小节，多个小节按照时间戳排序，对多个小节进行聚类，将多个小节分为多个第一聚类片段，多个第一聚类片段中的每个第一聚类片段包括至少一个小节，从多个第一聚类片段中确定第一目标聚类片段，将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。如此，可以通过设备确定出音频的副歌起始时间点，减少了人力成本和金钱成本。
86.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
附图说明
87.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。
88.图1是根据一示例性实施例示出的一种应用环境的示意图；
89.图2是根据一示例性实施例示出的一种音频处理方法的流程图；
90.图3是根据一示例性实施例示出的一种小节处理方法的流程图；
91.图4是根据一示例性实施例示出的一种聚类片段边界调整方法的流程；
92.图5是根据一示例性实施例示出的一种音频处理方法的流程图；
93.图6是根据一示例性实施例示出的一种小节处理方法的流程图；
94.图7是根据一示例性实施例示出的一种音频处理装置的框图；
95.图8是根据一示例性实施例示出的一种用于音频处理的电子设备的框图。
具体实施方式
96.为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。
97.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的第一对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
98.本技术中有关用户的所有数据均是用户授权后的数据。
99.请参阅图1，图1是根据一示例性实施例示出的一种音频处理方法的应用环境的示意图，如图1所示，该应用环境可以包括服务器01和客户端02。
100.本技术实施例中，服务器01可以获取客户端02发送的音频，随后，服务器01可以对音频进行人声检测，得到人声片段，人声片段的时长可以大于等于第一预设时长，对人声片段进行节拍检测，得到人声片段对应的多个小节，多个小节按照时间戳排序，对多个小节进行聚类，将多个小节分为多个第一聚类片段，多个第一聚类片段中的每个第一聚类片段包括至少一个小节，从多个第一聚类片段中确定第一目标聚类片段，将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
101.服务器01可以包括是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows、unix等。
102.在一些可能的实施例中，上述的客户端02向服务器01发送音频。客户端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、智能可穿戴设备等类型的客户端。也可以为运行于上述客户端的软体，例如应用程序、小程序等。可选的，客户端上运行的操作系统可以包括但不限于安卓系统、ios系统、linux、windows、unix等。
103.图2是根据一示例性实施例示出的一种音频处理方法的流程图，如图2所示，音频处理方法可以应用于服务器，也可以应用于其他节点设备，包括以下步骤：
104.在步骤s201中，对音频进行人声检测，得到人声片段。
105.本技术实施例中，服务器可以获取一个原始的音频，该原始的音频可以是一首完整的音乐，可以是一首不完整的音乐(比如是某首音乐的一个片段)，可以是包含人声的音乐，还可以是不包含人声的纯音乐模式的音乐。
106.一种可选的实施例中，当服务器获取原始的音频后，可以对该音频进行人声检测，得到第一片段和第二片段。其中，第一片段可以是该音频中，包含人声的片段。第二片段可以是该音频，不包含人声的片段。
107.由于在一些可能的实施例中，对于音频的处理可能会基于第一片段的占比做出调整，因此，本技术可以确定第一片段的时长，在第一片段的时长满足第一预设时长时，服务器可以将第一片段定义为人声片段。
108.可选的，服务器可以获取音频的时长(比如210秒)，接着服务器可以获取预设占比数值(比如50％)，并基于音频的时长和预设占比数据确定第一预设时长。举个例子，服务器可以基于音频的时长和预设占比数据的乘积确定第一预设时长为105秒。当第一片段的时长大于等于105秒时，可以将该第一片段定义为人声片段，以便后续步骤的处理。
109.可选的，服务器可以直接获取第一预设时长，该第一预设时长可以是预先定义的。当第一片段的时长大于等于第一预设时长时，可以将该第一片段定义为人声片段，以便后续步骤的处理。可选的，第一预设时长可以是根据统计值或者经验值预先定义的。
110.本技术实施例，人声片段可以包括多个人声子片段。
111.在一些可能的实施例中，每个人声子片段可以对应一句歌词。
112.在另一些可能的实施例中，为了便于后续的分析处理，当某句歌词对应的片段大于等于切割时长时，可以将该句歌词分成两个人声子片段。可选的，该切割时长可以为10秒，也可以根据处理的实际情况做适应性调整。
113.本技术实施例中，服务器可以利用语音端点检测(voice activity detection，vad)音频进行人声检测，得到人声子片段。
114.在步骤s203中，对人声片段进行节拍检测，得到人声片段对应的多个小节；多个小节按照时间戳排序。
115.一种可选的实施例中，服务器可以对人声片段进行节拍检测，得到人声片段中对应的多个小节。具体的，服务器可以对每个人声子片段进行节拍检测，得到每个人声子片段对应的多个小节，然后可以将每个人声子片段对应的多个小节按照每个小节携带的时间戳进行排序，得到人声片段对应的小节序列。该小节序列中包含了每个人声子片段对应的多个小节。
116.图3是根据一示例性实施例示出的一种小节处理方法的流程图，如图3所示，包括以下步骤：
117.步骤s2031中，对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
118.可选的，服务器可以利用节拍检测算法对人声片段中每个人声子片段进行节拍检测，得到每个人声子片段中每个小节对应的时间戳。该时间戳可以是每个小节的开头在音频中的时间点，或者可以是每个小节的结尾在音频中的时间点。
119.本技术实施例中，为了使得对小节的切分更加准确，可以在对人声子片段进行节拍检测之前，服务器可以提取音频的梅尔频率倒谱系数，得到音频的特征信息，然后基于音
频的特征信息对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
120.可选的，服务器也可以提取每个人声子片段的梅尔频率倒谱系数，得到每个人声子片段的特征信息，然后基于每个人声子片段的特征信息对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
121.步骤s2033中，根据每个小节对应的时间戳对人声片段进行切分，得到人声片段对应的多个小节。
122.当确定人声片段中每个小节对应的时间戳后，服务器可以根据每个小节对应的时间戳对人声片段中的每个人声子片段进行切分，得到人声片段对应的多个小节。该多个小节是按照每个小节携带的时间戳进行排序的。
123.另一种可选的实施例中，在对音频进行人声检测的同时，可以对音频进行节拍检测，得到该音频对应的多个小节，每个小节可以携带有时间戳。当从音频中确定出人声片段后，可以确定人声片段中每个人声子片段的人声起始时间点和人声结束时间点，并基于人声起始时间点和人声结束时间点，以及每个小节对应的时间戳从音频对应的多个小节确定出人声片段对应的多个小节，并将所有的小节按照时间戳的前后顺序进行排序。
124.在步骤s205中，对多个小节进行聚类，将多个小节分为多个第一聚类片段；多个第一聚类片段中的每个第一聚类片段包括至少一个小节。
125.假设上述的小节序列包括100个小节，且位于前面的小节的时间戳早于位于后面的小节的时间戳，可以将这100个小节定位为小节1，小节2，小节3
……
小节100。
126.本技术实施例中，服务器可以利用约束凝聚层次聚类对多个小节进行聚类，将多个小节分为多个第一聚类片段。其中，每个第一聚类片段中包含的小节最少为一个。当第一聚类片段中包含的小节为多个时，多个小节按照时间戳的排序，且多个小节都是相邻的小节。
127.举个例子，假设分为5个第一聚类片段，则第一个第一聚类片段可以包含小节1，小节2，小节3
……
小节20；第二个第一聚类片段可以包含小节21，小节22，小节23
……
小节40；第三个第一聚类片段可以包含小节41，小节42，小节43
……
小节60；第四个第一聚类片段可以包含小节61，小节62，小节63
……
小节80；第五个第一聚类片段可以包含小节81，小节82，小节83
……
小节100。而不会出现第一个第一聚类片段包含小节1，小节2
……
小节18，小节20，小节22，而第二个第一聚类片段包含小节19，小节21，小节23
……
小节40这种情况。
128.然而，服务器得到的多个第一聚类片段可能存在某个第一聚类片段的起始时间点正好位于某句歌词的中间，或者结束时间点正好位于某句歌词的中间。为了解决上述问题，服务器可以基于人声片段中的每个子片段对第一聚类片段的边界进行调整，得到更新后的多个第一聚类片段。
129.图4是根据一示例性实施例示出的一种聚类片段边界调整方法的流程图，如图4所示，包括以下步骤：
130.在步骤s2061中，确定多个第一聚类片段中每个第一聚类片段的起始时间点和结束时间点。
131.本技术实施例中，服务器确定多个第一聚类片段中每个第一聚类片段的起始时间点和结束时间点。此外，服务器还可以确定每个人声子片段的起始时间点和结束时间点。为了和第一聚类片段的起始时间点和结束时间点做出区别，服务器可以将每个人声子片段的
起始时间点称为人声起始时间点，将结束时间点称为人声结束时间点。
132.在步骤s2063中，基于每个第一聚类片段的起始时间点和结束时间点，每个人声子片段携带的人声起始时间点和人声结束时间点对多个第一聚类片段进行边界调整，得到更新后的多个第一聚类片段。
133.服务器可以基于每个第一聚类片段的起始时间点和结束时间点和每个人声子片段携带的人声起始时间点和人声结束时间点对多个第一聚类片段进行边界调整，得到更新后的多个第一聚类片段。
134.举个例子，当第一聚类片段的结束时间点为第20秒，里面包含10个小节，该音频的每个小节时长为2秒，然而存在一个人声子片段的人声起始时间点为第18秒，人声结束时间点为第22秒。则服务器可以将该第一聚类片段的结束时间点调整为第18秒，包含9个小节，或者将该第一聚类片段的结束时间点调整为第22秒，包含11个小节。可见，服务可以将第一聚类片段向前调整，也可以向后调整。
135.如此，更新后的第一个第一聚类片段可以包含小节1，小节2，小节3
……
小节19；第二个第一聚类片段可以包含小节20，小节22，小节23
……
小节42；第三个第一聚类片段可以包含小节43
……
小节60；第四个第一聚类片段可以包含小节61，小节62，小节63
……
小节78；第五个第一聚类片段可以包含小节79，小节80，小节81，小节82，小节83
……
小节100。
136.在步骤s207中，从多个第一聚类片段中确定第一目标聚类片段。
137.在第一聚类片段没有更新的情况下，可选的，服务器可以确定更新后的多个第一聚类片段中的每个第一聚类片段的短时能量信息。并基于每个第一聚类片段的短时能量信息从更新后的多个第一聚类片段中确定第一目标聚类片段。
138.在第一聚类片段更新的情况下，可选的，服务器可以从更新后的多个第一聚类片段中确定第一目标聚类片段。具体的，服务器可以确定更新后的多个第一聚类片段中的每个第一聚类片段的短时能量信息，并基于每个第一聚类片段的短时能量信息从更新后的多个第一聚类片段中确定第一目标聚类片段。
139.可选的，服务器可以确定每个第一聚类片段中的每一帧的短时能量信息，并基于同一第一聚类片段中的每一帧的短时能量信息的平均值确定第一聚类片段的短时能量信息。随后，服务器可以将短时能量信息最高的第一聚类片段确定为第一目标聚类片段。可选的，服务器可以将短时能量信息次高的第一聚类片段确定为第一目标聚类片段。
140.本技术实施例中，由于语音信号的能量随时间而变化，清音和浊音之间的能量差别相当显著。因此，对短时能量进行分析，可以描述语音的这种特征变化情况。
141.在步骤s209中，将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
142.服务器可以将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
143.本技术实施例中，图5是根据一示例性实施例示出的一种音频处理方法的流程图，应用于服务器，包括以下步骤：
144.在步骤s501中，当人声片段的时长小于第一预设时长时，基于音频确定待处理音频。
145.上文已经提及如何确定第一预设时长，当第一片段，即人声片段的时长小于第一预设时长时，可以基于音频确定待处理音频。
146.一种可选的实施例中，服务器可以确定该音频的时长，并基于音频的时长和第二预设时长确定如何基于音频确定待处理音频。
147.可选的，当音频的时长大于等于第二预设时长时，可以选取该音频中某个片段作为待处理音频。该某个片段可以基于副歌可以能出现区域的经验值确定，比如，可以将该音频的10％-50％区域确定为待处理音频。
148.可选的，当音频的时长小于第二预设时长，可以将该音频确定为待处理音频。
149.在步骤s503中，对待处理音频进行节拍检测，得到待处理音频对应的多个小节。
150.一种可选的实施例中，服务器可以对待处理音频进行节拍检测，得到待处理音频对应的多个小节。
151.图6是根据一示例性实施例示出的一种小节处理方法的流程图，如图6所示，包括以下步骤：
152.在步骤s5031中，对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳。
153.可选的，服务器可以利用节拍检测算法对待处理音频进行节拍检测，得到待处理音频对应的时间戳。该时间戳可以是每个小节的开头在音频中的时间点，或者可以是每个小节的结尾在音频中的时间点。
154.本技术实施例中，为了使得对小节的切分更加准确，可以在对待处理音频进行节拍检测之前，服务器可以提取待处理音频的梅尔频率倒谱系数，得到待处理音频的特征信息，然后基于待处理音频的特征信息对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳。
155.在步骤s5033中，根据待处理音频中每个小节对应的时间戳对待处理音频进行切分，得到待处理音频对应的多个小节。
156.当确定待处理音频对应的多个小节中每个小节对应的时间戳后，服务器可以每个小节对应的时间戳对待处理音频进行切分，得到待处理音频对应的多个小节。
157.另一种可选的实施例中，在对音频进行人声检测的同时，可以对音频进行节拍检测，得到该音频对应的多个小节，每个小节可以携带有时间戳。当从音频中确定出待处理音频后，可以确定待处理音频的起始时间点和结束时间点，并基于待处理音频的起始时间点和结束时间点，以及每个小节对应的时间戳从音频对应的多个小节确定出待处理音频对应的多个小节。
158.在步骤s505中，从待处理音频对应的多个小节中确定相似小节，以及每个小节的类别信息。
159.可选的，服务器可以计算待处理音频对应的多个小节中任意两个小节之间的相似度信息，并基于相似度信息确定相似小节。还对相似度信息进行谱聚类处理，确定每个小节的类别信息。
160.具体的，服务器可以计算各个小节之间的余弦相似度构成自相似矩阵。举个例子，假设存在100个小节。服务器需要计算每个小节和其余99个小节的余弦相似度，得到每个小节和其他小节的相似度信息。
161.随后，服务器可以将自相似矩阵通过高斯平滑，然后设置阈值变为连通矩阵(0/1)，从而获取存在的相似小节。假设存在一个自相似矩阵，在将其变为连通矩阵(0/1)。矩阵
中的每个数要么是1，要么是0，当第一行第三列的数值为1时，则表明第1个小节和第3个小节为相似小节，当第一行第二列的数值为0时，则表明第1个小节和第2个小节不是相似小节。
162.可选的，服务器通过自相似矩阵计算得到拉普拉斯矩阵，在拉普拉斯矩阵上进行谱聚类，获取各个小节的类别。从而可以得到各个类别对应下的小节，比如第一类别对应下的小节包括小节1，小节3，小节8，小节11和小节22。
163.可选的，谱聚类是从图论中演化出来的算法，后来在聚类中得到了广泛的应用。它的主要思想是把所有的数据看作空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。
164.在步骤s507中，对待处理音频对应的多个小节进行聚类，将多个小节分为待处理音频对应的多个第二聚类片段。
165.假设上述的小节序列包括100个小节，可以将这100个小节定位为小节1，小节2，小节3
……
小节100。
166.服务器可以利用约束凝聚层次聚类对多个小节进行聚类，将多个小节分为多个第二聚类片段。其中，每个第二聚类片段中包含的小节最少为一个。第二聚类片段中包含的小节为多个时，多个小节按照时间戳的排序，都是相邻的小节。
167.举个例子，假设分为5个第二聚类片段，则第一个第二聚类片段可以包含小节1，小节2，小节3
……
小节20；第二个第二聚类片段可以包含小节21，小节22，小节23
……
小节40；第三个第二聚类片段可以包含小节41，小节42，小节43
……
小节60；第四个第二聚类片段可以包含小节61，小节62，小节63
……
小节80；第五个第二聚类片段可以包含小节81，小节82，小节83
……
小节100。而不会出现第一个第二聚类片段包含小节1，小节2
……
小节18，小节20，小节22，而第二个第二聚类片段包含小节19，小节21，小节23
……
小节40这种情况。
168.在步骤s509中，基于相似小节和每个小节的类别信息对待处理音频对应的多个第二聚类片段进行调整，得到更新后的多个第二聚类片段。
169.可选的，服务器可以不准切分相邻的相似小节为前提下，以凝聚层次聚类结果为基础，用谱聚类结果对整体的边界尽心调整。举个例子，当小节1、小节3、小节21和小节23为相似小节，第一类别对应下的小节包括小节1，小节3，小节8，小节11和小节22，而一个第二聚类片段可以包含小节1，小节2，小节3
……
小节20。服务器可以基于相似小节和每个小节的类别信息将该第二聚类片段重新确定边界，得到包括的小节1，小节2，小节3
……
小节20，小节21，小节22，小节23。如此，就可以把相似小节和同一类别的小节都放在一个聚类片段中。
170.在步骤s511中，从多个第二聚类片段中确定第二目标聚类片段。
171.本技术实施例中，服务器可以从更新后的多个第二聚类片段确定第二目标聚类片段。可选的，服务器可以从更新后的多个第二聚类片段中确定第二目标聚类片段。具体的，服务器可以确定更新后的多个第二聚类片段中的每个第二聚类片段的短时能量信息，并基于每个第二聚类片段的短时能量信息从更新后的多个第二聚类片段中确定第二目标聚类片段。
172.可选的，服务器可以确定每个第二聚类片段中的每一帧的短时能量信息，并基于同二第二聚类片段中的每一帧的短时能量信息的平均值确定第二聚类片段的短时能量信息。随后，服务器可以将短时能量信息最高的第二聚类片段确定为第二目标聚类片段。
173.在步骤s513中，将第二目标聚类片段的起始时间点确定为音频的副歌起始时间点。
174.服务器可以将第二目标聚类片段的起始时间点确定为音频的副歌起始时间点。
175.图7是根据一示例性实施例示出的一种音频处理装置框图。参照图7，该装置包括：人声检测模块701、节拍检测模块702、聚类模块703、片段确定模块704和副歌起始点确定模块705。
176.人声检测模块701，被配置为执行对音频进行人声检测，得到人声片段；
177.节拍检测模块702，被配置为执行对人声片段进行节拍检测，得到人声片段对应的多个小节；多个小节按照时间戳排序；
178.聚类模块703，被配置为执行对多个小节进行聚类，将多个小节分为多个第一聚类片段；多个第一聚类片段中的每个第一聚类片段包括至少一个小节；
179.片段确定模块704，被配置为执行从多个第一聚类片段中确定第一目标聚类片段；
180.副歌起始点确定模块705，被配置为执行将第一目标聚类片段的起始时间点确定为音频的副歌起始时间点。
181.在一些可能的实施例中，节拍检测模块，被配置为执行：
182.对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳；
183.根据每个小节对应的时间戳对人声片段进行切分，得到人声片段对应的多个小节。
184.在一些可能的实施例中，节拍检测模块，被配置为执行：
185.提取音频的梅尔频率倒谱系数，作为音频的特征信息；
186.基于音频的特征信息对人声片段进行节拍检测，得到人声片段中每个小节对应的时间戳。
187.在一些可能的实施例中，人声片段包括至少一个人声子片段，每个人声子片段携带有人声起始时间点和人声结束时间点；装置还包括：
188.时间点确定模块，被配置为执行确定多个第一聚类片段中每个第一聚类片段的起始时间点和结束时间点；
189.片段更新模块，被配置为执行基于每个第一聚类片段的起始时间点和结束时间点和每个人声子片段携带的人声起始时间点和人声结束时间点对多个第一聚类片段进行边界调整，得到更新后的多个第一聚类片段。
190.在一些可能的实施例中，片段确定模块，被配置为执行：
191.从更新后的多个第一聚类片段中确定第一目标聚类片段。
192.在一些可能的实施例中，片段确定模块，被配置为执行：
193.确定更新后的多个第一聚类片段中的每个第一聚类片段的短时能量信息；
194.基于每个第一聚类片段的短时能量信息从更新后的多个第一聚类片段中确定第一目标聚类片段。
195.在一些可能的实施例中，装置还包括：
196.待处理音频确定模块，被配置为执行当人声片段的时长小于第一预设时长时，基于音频确定待处理音频；
197.节拍检测模块，被配置为执行对待处理音频进行节拍检测，得到待处理音频对应的多个小节；
198.小节信息确定模块，被配置为执行从待处理音频对应的多个小节中确定相似小节，以及每个小节的类别信息；
199.聚类模块，被配置为执行对待处理音频对应的多个小节进行聚类，将多个小节分为待处理音频对应的多个第二聚类片段；
200.片段更新模块，被配置为执行基于相似小节和每个小节的类别信息对待处理音频对应的多个第二聚类片段进行调整，得到更新后的多个第二聚类片段；
201.片段确定模块，被配置为执行从多个第二聚类片段中确定第二目标聚类片段；
202.副歌起始点确定模块，被配置为执行将第二目标聚类片段的起始时间点确定为音频的副歌起始时间点。
203.在一些可能的实施例中，节拍检测模块，被配置为执行：
204.对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳；
205.根据待处理音频中每个小节对应的时间戳对待处理音频进行切分，得到待处理音频对应的多个小节。
206.在一些可能的实施例中，节拍检测模块，被配置为执行：
207.提取待处理音频的梅尔频率倒谱系数，作为待处理音频的特征信息；
208.基于待处理音频的特征信息对待处理音频进行节拍检测，得到待处理音频中每个小节对应的时间戳。
209.在一些可能的实施例中，小节信息确定模块，被配置为执行：
210.计算待处理音频对应的多个小节中任意两个小节之间的相似度信息；
211.基于相似度信息确定相似小节；
212.对相似度信息进行谱聚类处理，确定每个小节的类别信息。
213.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
214.图8是根据一示例性实施例示出的一种用于音频处理的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
215.参照图8，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件818。
216.处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
217.存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示
例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
218.电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。
219.多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
220.音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。
221.i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
222.传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
223.通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
224.在示例性实施例中，装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
225.在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音中控系统及其控制方法和计算机可读存储介质与流程

一种音频处理方法、装置、电子设备及存储介质与流程

相关文献

最热文献