音频处理方法、装置、电子设备和可读存储介质与流程

2022-05-21 11:35:28 来源：中国专利 TAG：

1.本技术属于音频处理技术领域，具体涉及一种音频处理方法、装置、电子设备和可读存储介质。

背景技术：

2.目前，随着互联网化和大数据越来越深入到人们的生活当中，利用人工智能的方法进行信息的推荐也愈发的成熟和深入。例如，在人们使用音乐播放软件的场景中，会选择自己喜欢的歌曲进行点击播放，因此，基于某个用户在软件中操作形成的播放历史，会在推荐页面向用户推荐同类型歌曲，如，古典歌曲等。
3.在现有技术中，对歌曲的分类是借助于人力实现的，即由相关人员对歌曲进行类型标注。进一步地，播放类软件可以基于标注向用户推荐同类型歌曲。
4.可见，在现有技术中，对歌曲进行类型标注依赖于人为主观思想，导致标注不准确。

技术实现要素：

5.本技术实施例的目的是提供一种音频处理方法，能够解决在现有技术中，对歌曲进行类型标注依赖于人为主观思想，导致标注不准确的问题。
6.第一方面，本技术实施例提供了一种音频处理方法，该方法包括：根据第一音频文件的特征信息，将所述第一音频文件划分为n1个片段，n1为正整数，n1＞1；对目标片段的特征信息进行第一次降维，所述目标片段为所述n1个片段中的一个；对第一次降维后的特征信息进行融合；对融合后的特征信息进行第二次降维；分别得到所述n1个片段处理后的特征信息，并根据所述n1个片段处理后的特征信息，确定所述第一音频文件的n2个标注信息，n2为正整数。
7.第二方面，本技术实施例提供了一种音频处理装置，该装置包括：划分模块，用于根据第一音频文件的特征信息，将所述第一音频文件划分为n1个片段，n1为正整数，n1＞1；第一降维模块，用于对目标片段的特征信息进行第一次降维，所述目标片段为所述n1个片段中的一个；融合模块，用于对第一次降维后的特征信息进行融合；第二降维模块，用于对融合后的特征信息进行第二次降维；确定模块，用于分别得到所述n1个片段处理后的特征信息，并根据所述n1个片段处理后的特征信息，确定所述第一音频文件的n2个标注信息，n2为正整数。
8.第三方面，本技术实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
9.第四方面，本技术实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
10.第五方面，本技术实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述
通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。
11.第六方面，本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
12.这样，在本技术的实施例中，获取第一音频文件的特征信息，并根据获取的特征信息将第一音频文件划分成多个片段，从而将第一音频文件转化成分片式的结构化文件，以用于后续的数据处理。其中，在后续的处理中，针对每一个片段，分别进行处理，处理过程包括降维、融合、降维三个步骤。最终，基于处理后的每一个片段，输出用于表示第一音频文件特征的聚合矩阵。进一步地，基于输出的聚合矩阵，确定第一音频文件的至少一个标注信息。可见，基于对第一音频文件的特征处理，使得最终得到的聚合矩阵所包含的信息浓度较高，既能够表达第一音频文件各个部分的特征，又能够表达第一音频文件的整体特征，从而使得基于聚合矩阵智能确定第一音频文件的标注信息的准确率较高。
附图说明
13.图1是本技术实施例的音频处理方法的流程图；
14.图2是本技术实施例的音频处理装置的框图；
15.图3是本技术实施例的电子设备的硬件结构示意图之一；
16.图4是本技术实施例的电子设备的硬件结构示意图之二。
具体实施方式
17.下面将结合本技术实施例的附图，对本技术实施例的技术方案进行清楚地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术的实施例，本领域普通技术人员获得的所有其他实施例，都属于本技术保护的范围。
18.本技术的说明书和权利要求书的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。
19.下面结合附图，通过具体的实施例及其应用场景对本技术实施例提供的音频处理方法进行详细地说明。
20.图1示出了本技术一个实施例的音频处理方法的流程图，该方法应用于电子设备，包括：
21.步骤110：根据第一音频文件的特征信息，将第一音频文件划分为n1个片段，n1为正整数，n1＞1。
22.可选地，第一音频文件为一首歌曲、一首纯音乐等。
23.在本实施例中，基于对第一音频文件的特征信息，可以将无法进行直接处理的音频文件转化为分片式的结构化文件，进一步针对每个片段分别进行数据处理和算法利用，以最终得到第一音频文件的标注信息。
24.例如，把整首歌曲进行3次切割划分为4个分箱片段，在后续的处理中，对每个分箱片段进行独立处理。
25.步骤120：对目标片段的特征信息进行第一次降维，目标片段为n1个片段中的一个。
26.步骤130：对第一次降维后的特征信息进行融合。
27.步骤140：对融合后的特征信息进行第二次降维。
28.在本实施例中，以目标片段为例，阐述处理过程。
29.因所获取的特征信息包含了多种类型，需要做整体的数据融合和降维处理。从而，对每个分箱片段中的数据进行聚合降维，整体上通过降维、融合、降维三步方式，使特征的主要表征不会因降维和融合所抹去，以提高最终特征集合所能包含的信息浓度。
30.示例性的处理过程如下：首先，对于目标片段中的特征信息，可以形成特征矩阵；第一步，对特征矩阵进行主成分分析(principal component analysis，简称pca)或线性判别分析(linear discriminant analysis，简称lda)的线性降维后，把n1个特征压缩为n1/2个特征，得到新的特征矩阵；第二步，完成线性降维后，对新的所有特征进行加权融合，以得到每个特征的加权值；第三步，把所有特征的加权值的结果，再做一次基于核函数的主成分分析(kernel principal component analysis，简称kpca)或基于核函数的线性判别分析(kernel discriminant analysis，简称kda)的非线性降维成n1/4个特征。
31.步骤150：分别得到n1个片段处理后的特征信息，并根据n1个片段处理后的特征信息，确定第一音频文件的n2个标注信息，n2为正整数。
32.在该步骤中，在得到每个分箱片段的降维特征矩阵后，按照前后顺序进行简单拼接成一个大特征矩阵，作为最终的输出聚合矩阵。
33.可选地，输出的聚合矩阵与样本曲库中已有的矩阵展开成向量后进行相似度计算，并选出最为相近的多个(如三个)音频文件作为相似音频文件，从而根据相似音频文件对应的标注信息，确定第一音频文件的n2个标注信息。
34.其中，样本曲库中包括大量音频文件，且音频文件已基于人工创建标注信息。
35.可选地，在选择相似音频文件的过程中，可将样本曲库中的音频文件采用本技术所提供的处理方法，以获取到对应的聚合矩阵，从而进行聚合矩阵之间的比对。
36.这样，在本技术的实施例中，获取第一音频文件的特征信息，并根据获取的特征信息将第一音频文件划分成多个片段，从而将第一音频文件转化成分片式的结构化文件，以用于后续的数据处理。其中，在后续的处理中，针对每一个片段，分别进行处理，处理过程包括降维、融合、降维三个步骤。最终，基于处理后的每一个片段，输出用于表示第一音频文件特征的聚合矩阵。进一步地，基于输出的聚合矩阵，确定第一音频文件的至少一个标注信息。可见，基于对第一音频文件的特征处理，使得最终得到的聚合矩阵所包含的信息浓度较高，既能够表达第一音频文件各个部分的特征，又能够表达第一音频文件的整体特征，从而使得基于聚合矩阵智能确定第一音频文件的标注信息的准确率较高。
37.另外，在本技术的实施例中，基于智能确定第一音频文件的标注信息的方法，无需借助人力的标注，还可以节省人力的消耗，降低成本。
38.在本技术另一个实施例的音频处理方法的流程中，步骤110，包括：
39.子步骤a1：根据第一音频文件的特征信息，获取n3个小节，n3为正整数，n3＞1。
40.在该步骤中，将第一音频文件划分为多个小节。
41.可选地，一个小节内的特征信息的相关参数的变化属于一个范围内。
42.子步骤a2：将连续的n4个小节的特征信息，组成一个滑动窗口特征矩阵，n4为正整数，且n4＜n3，一个小节的特征信息至少用于组成一个滑动窗口特征矩阵。
43.在该步骤中，需要对第一音频文件进行滑动窗口特征矩阵的构建，把n3个小节转变为(n3-4)个滑动窗口特征矩阵，为后续工作做好数据处理。
44.首先，对前5个小节(这里的n4为5)构建第一个滑动窗口特征矩阵，在矩阵中，行用于表示特征信息，列用于表示第a个小节(a∈(0-5))。在构建完成第一个滑动窗口特征矩阵后，删除该矩阵第一列，并在第五列后面添加下一个小节构成的特征；以此类推，n3个小节中的每个小节至少被滑动窗口特征矩阵构建过一次后，即完成第一音频文件的滑动窗口特征矩阵的构建。
45.子步骤a3：对比两个相邻的滑动窗口特征矩阵之间的相似度。
46.子步骤a4：根据前n5个最小相似度对应的矩阵分界处，将第一音频文件划分为n1个片段，n5为正整数。
47.在以上两个步骤中，对构建好的滑动窗口特征矩阵进行相似度计算，以完成对第一音频文件的分段处理，如把第一音频文件分为3至4个区间(片段)。
48.可参考地，从第二个滑动窗口特征矩阵开始，分别与其前一个和后一个滑动窗口特征矩阵，计算得到相邻两个矩阵的相似度，以此来判断两个矩阵所包含的信息是否有较大的变化。
49.例如，第一步，对每个特征矩阵展平成一维向量，并对原向量与前后两个特征展开成的向量，通过计算余弦相似度来计算两个特征矩阵的相似度θ
ax
、θ
bx
；基于此，分别对所有非首尾特征矩阵计算出两个相似度。第二步，对计算得到的相似度做去重加和计算，即将第n2个矩阵的后相似度θ
an2
与第n2 1个矩阵的前相似度θ
b(n2 1)
加和成一个新的去重相似度θ
n2
。第三步，对所有去重相似度进行排序，选择最小的3个值，即为前后两个小节变化最明显的位置，在此处对第一音频文件进行切割处理，从而将第一音频文件划分为4个片段。
50.结合前述的实施例，在对目标片段进行数据处理后，按照各个小节在第一音频文件中出现的顺序从前到后排序，最终得到目标片段的特征矩阵。
51.在本实施例中，提供了一种对第一音频文件划分片段的方法，以通过创建滑动窗口特征矩阵的方式，进一步结合相邻滑动窗口特征矩阵的相似度的排序，以将最小的几个相似度作为划分的分割线，从而使得划分后，每个片段中的特征信息的相似度较高，以用于进行独立处理。
52.在本技术另一个实施例的音频处理方法的流程中，步骤a1，包括：
53.子步骤b1：获取第一音频文件对应的第一波形信号。
54.子步骤b2：根据第一波形信号中的波峰间隔变化信息，将第一音频文件划分为n3个小节。
55.在本实施例中，获取第一音频文件对应的第一波形信号，以基于在第一波形信号中对音频强重音的识别，实现对第一音频文件小节的划分。
56.例如，音频强重音识别方式是瞬时波峰采集，因此，可以根据第一波形信号中典型波峰采集间隔和常用的节拍时间来划分小节。具体地，以常用的节拍时间划分小节对应的
长度进行第一音频文件的小节划分；若第一波形信号中出现明显波峰间隔变化，则根据变化程度判断音源节奏加快或音频节拍加快(1/4拍变为1/8拍)，从而结合节奏加快、节拍加快等完成小节的划分。
57.其中，最终划分出来的每个小节即为一个结构化数据的特征向量。
58.在本实施例中，提供了一种小节划分方法，以根据波形信号中的特征来实现划分，使得划分的小节是依据波形变化而来的，以为后续的分片式的结构化数据构建做准备。
59.在本技术另一个实施例的音频处理方法的流程中，步骤130，包括：
60.子步骤c1：在目标片段中，确定目标特征矩阵，目标特征矩阵为目标片段中出现频率最高的滑动窗口特征矩阵。
61.子步骤c2：删除目标片段中的第一特征矩阵，第一特征矩阵与目标特征矩阵之间的相关度小于预设值。
62.子步骤c3：获取目标片段中除第一特征矩阵以外的其它特征矩阵中的特征信息的加权值。
63.可选地，首先把分箱片段(即目标片段)的整体特征矩阵进行线性降维后得到的高频降维矩阵(即目标特征矩阵)作为正样本，把每个特征矩阵利用支持向量机(svm)与正样本进行相关度预测。对该分箱片段内所有特征矩阵的相关度正向60％中位数为阈值(即预设值)，最低相关度40％的特征矩阵(即第一特征矩阵)舍弃，剩下的按照线性加权((x-min)/(max-min))的方式得到剩余特征矩阵中的每个特征的加权值。
64.在本实施例中，将出现频率较低的特征矩阵进行删除，仅保留出现频率较高的特征矩阵用作第一音频文件的聚合矩阵的输出，从而使得基于该第一音频文件的聚合矩阵得到的标注信息，更能够体现出第一音频文件的类型，使得对音频文件的标注更加准确。
65.在本技术另一个实施例的音频处理方法的流程中，在步骤120之前，该方法还包括：
66.步骤d1：根据目标片段的特征信息，组建n6个特征组，一个特征组包含的特征信息属于同一类，n6为正整数。
67.在本实施例中，首先对所有特征按照人工筛选的方式把表达意义相近的特征进行分组，如节奏类和音调类可以划分为相近特征，从而构建出15至20个特征组。
68.进一步地，在进行降维处理时，可以特征组为单位，进行数据的降维处理。
69.在本实施例中，将相近特征进行分组，以得到特征组矩阵，再进行后续的处理，以优化处理过程。
70.在本技术另一个实施例的音频处理方法的流程中，步骤150，包括：
71.子步骤e1：在n1个片段处理后的特征信息，与预设音频文件处理后的特征信息匹配的情况下，获取预设音频文件中的目标特征组，目标特征组在预设音频文件中出现的频率满足预设条件。
72.子步骤e2：根据目标特征组对应的预设标签信息，确定第一音频文件的n2个标注信息。
73.在本实施例中，可基于预先创建的样本曲库，将输出的第一音频文件的聚合矩阵与样本曲库进行匹配，以将匹配的多个音频文件作为预设音频文件。
74.可参考地，对于预设音频文件，按照本技术前述实施例的步骤进行相同的数据处
理，从而对预设音频文件的特征进行出现频率统计，结合构建的特征组，对每个特征组选择出2个出现频率最高的特征作为典型特征，最终可以选择出30至40个特征，作为用于确定第一音频文件标注信息的参考特征，进而实现对第一音频文件的智能标注。
75.在本实施例中，预先创建的样本曲库中，记录的大量音频文件中，采用本技术提供的特征处理方式，并基于这样的特征处理方式，预先定义特征对应的标注信息，以用于在曲库中的音频文件与待处理的音频文件特征匹配时，参考曲库中的音频文件的标注信息，对待处理的音频文件进行标注。
76.在本技术另一个实施例的音频处理方法的流程中，在进行第一次降维之前，对目标片段进行整体特征矩阵提取，以对该片段中每个特征利用统计学选择出现频率最高的3个特征值组成结果矩阵：[特征：值1，值2，值3]，用作这个片段特征的整体标注，从而构成一个列坐标是频率最高、频率次高、频率第三高的信息，行坐标是出现每一个特征的矩阵，把该矩阵定义为目标片段的整体特征矩阵。目标片段的整体特征矩阵可用于对该片段进行标注。
[0077]
在本技术另一个实施例的音频处理方法的流程中，提供了一种用于创建样本曲库的方法。
[0078]
第一步，利用音乐媒体制作软件中的标准乐器音源或针对极特殊乐器通过声音采样方式，构建单一乐器标准乐器库，共约千余种。并对每种单一乐器制作标准五个八度40音的单一音阶，实现对单一乐器多音调的标准音源总库的构建。第二步，在音源总库构建完成后，选择100首风格不同的歌曲进行样本曲库的构建：对每一首歌曲出现的10种乐器，利用在标准音源总库中选择该10种乐器进行同音阶或同音调的音源组合成样本数据(如选中的10种乐器的1(dao)，3(mi)，4(fa)，5(sao)，6(la)进行交叉组合覆盖音频文件中可能出现的声音组合)，按照10％进行样本构建出共30万个音频组合样本，并结合歌曲样本分片后的音源文件，进行傅里叶变换标准化处理后，利用神经网络(nn)进行全连接交叉学习，最终得到千余个正样本学习的训练结果。对100首不同风格歌曲按照上述步骤重复进行训练样本处理。最后，对尾部乐器音源特征进行补充学习：对100首歌曲中未出现的乐器(约百余个)，按照5个一组，与100首乐曲中出现频率最高的20种乐器随机挑选出的5个乐器进行音频混合，组成尾部正样本补充组。按照歌曲训练样本的方法同样构建出尾部特征。在完成所有样本训练后，共得到10万至20万个的训练样本结果。其中，每个样本作为一个音频文件。
[0079]
对应地，基于上述创建的样本曲库，在接收到第一音频文件进行处理时，先对第一音频文件进行标准化划分与傅里叶变化成的标准数据，每段音频与样本特征结果随机抽取的10％构建的训练样本进行逆变换来选择前50相似音频片段特征，并对该特征出现的乐器内积该两个矩阵相似度的结果后相加，最终选择前10种乐器的概率值进行softmax归一化处理，得到该片段最高10种乐器的概率值，并把这10种乐器作为特征添加到该片段后的乐器特征中(格式为：[乐器名1:概率值1，乐器名2：概率值2，
…
乐器10：概率值10])。
[0080]
在上述过程中，基于机器学习背景音源结构化处理：利用各类乐器标准音源结合机器学习得到音频特征，并预测音频概率最大的10个乐器及其特征概率值。
[0081]
进一步地，输出的标注信息可以是与概率值为前几名的乐器相关的曲风，等。
[0082]
在本技术另一个实施例的音频处理方法中，基于本技术实施例提供的特征处理方式，还可以基于歌曲类的音频文件的特征信息，通过语音识别技术实现对歌曲中的人声进
行语言种类的识别，以及对出现的词语的识别，从而完成相关标注。
[0083]
例如，识别某片段是否有人声，并对人声进行识别(男高，女中等)，包括音调与主要音色处理等，以实现标注。
[0084]
在本技术另一个实施例的音频处理方法中，基于本技术实施例提供的特征处理方式，还可以进行节奏与音强识别，以用于对音频文件进行标注。
[0085]
例如，根据划分的小节对应的时长(ms)，可以判断出该音频文件整体速度(广板、慢板、行板、中板、快板等)，以进行标注；又如，对该小节波形强度进行音强识别(轻柔、平缓、激烈等)，以进行标注；另外，对该小节不同节奏波峰点进行数量标注(主节奏3/4拍或6/8拍或4/4拍)与波峰相对强度标注(3/4拍的强弱弱、4/4拍的强弱次强弱、6/8拍的强弱弱次强弱弱等)，以进行标注。
[0086]
在本技术另一个实施例的音频处理方法中，基于本技术实施例提供的特征处理方式，还可以根据每个主音的音波频率进行处理，实现对每个音符识别(升fa、降do等)，以进行标注；还可以对每个波峰时主音的音乐音色进行结构化处理，识别主音乐器，以进行标注。
[0087]
在本技术另一个实施例的音频处理方法中，还可以针对第一音频文件中的隐藏特征信息，对第一音频文件进行标注。
[0088]
可选地，隐藏特征信息可以是：基于某波形特征信息，根据其变化趋势挖掘出的更多维度，而得到的特征信息。
[0089]
可参考地，包括如下步骤：
[0090]
将分片式的结构化数据进行长特征化处理，可以把获取的特征进行类别排序，如把音调节奏类特征记作特征m，分别为：特征m 1，
…
特征m s。这样，可以将相近特征进行分类排序，设置特征组。
[0091]
在特征前加上小节数，得到如【小节1：特征1，特证2，
…
特征n】的结果；进一步地，进行数据转换：以小节为分类条件，转化为以特征为分类条件，得到如【特征1：小节a，小节b，
…
小节m】的结果。
[0092]
统计特征出现次数并排序，以选择出第一音频文件中某特征出现最多的参数范围作为重要特征，第二多和第三多的参数范围作为次要补充特征。可选地，选择五个参数范围为整个音频文件的高频特征，十个参数范围作为高频补充特征。
[0093]
统计特征分布情况，可以把第一音频文件粗划分后，进行特征出现频率的划分，以得到特征分布。对高频特征和高频补充特征分布进行划分后，若分布较为均匀或正态，则为正常分布特征；若分布出现明显的峰值或者分段，对该特征下高频补充特征提高为高频特征，表明该音频文件中出现明显变化，以对该特征进行双高频备注。
[0094]
对特征进行长度均一化处理，以【特征1，特证2，特征3，
…
特征n】的形式保证每个片段的特征等长，方便后续进行特征分类处理。
[0095]
按照某特征组合或者多特征组合的方式，通过全连接的深度学习算法得到隐向量作为补充向量。
[0096]
对于补充向量，可将用户基础特征(如年龄，性别，地理位置信息，职业，消费层级，社会属性等)，作为基础分类特征和其它补充特征的输入，利用推荐算法进行特征分类，得到补充向量对应的高兴趣度的用户群特征。
[0097]
结合数据分析师、算法工程师的匹配、自然语言识别的关键词等，对每个隐向量所表达的特征进行定义和特征描述。例如，小镇青年舞曲、更多三四线城市年轻人喜爱的音乐类型、常出现在短视频中结合视频中魔性的舞姿而作为背景音乐出现的舞曲等。
[0098]
最后，把通过统计学特征选择出来的高频特征和相关隐藏特征进行组合，对第一音频文件进行分类，以确定第一音频文件的标注信息。
[0099]
在本实施例中，利用结构化处理过的音频数据，进行特征聚合；进一步利用出现频率、出现次数、出现阶段等分析特征变化规律，以此作为参考，补充第一音频文件的标注信息。可见，基于本实施例提出的深化特征的学习与分类方法，可以对一些隐藏特征或难量化特征进行学习和分类。
[0100]
综上，本技术通过对结构化数据后的基础特征，利用统计学原理，得到音频文件的分类性特征；另外，利用深度学习的方法得到无法直接得到的隐特征，并结合经验或自然语言处理归纳出音频文件所包含的隐含在内的一些风格特征信息，从而把这两种特征进行结合，最终得到音频文件的分类，以用于对音频文件进行标注。
[0101]
相比于现有技术，本技术对音频文件的标注，不决定于标注工程师的知识面和知识储备，因此不会出现因标注工程师本身的理解和失误，而造成漏标、错标、多标等现象，标注的准确率较高；另外，本技术对音频文件的标注，结合机器学习和规则匹配等多种方式，实现了机器对音频声纹特征的识别，从而使得对音频物料的分类与标注更加快速。
[0102]
本技术实施例提供的音频处理方法，执行主体可以为音频处理装置。本技术实施例中以音频处理装置执行音频处理方法为例，说明本技术实施例提供的音频处理装置。
[0103]
图2示出了本技术另一个实施例的音频处理装置的框图，该装置包括：
[0104]
划分模块10，用于根据第一音频文件的特征信息，将第一音频文件划分为n1个片段，n1为正整数，n1＞1；
[0105]
第一降维模块20，用于对目标片段的特征信息进行第一次降维，目标片段为n1个片段中的一个；
[0106]
融合模块30，用于对第一次降维后的特征信息进行融合；
[0107]
第二降维模块40，用于对融合后的特征信息进行第二次降维；
[0108]
确定模块50，用于分别得到n1个片段处理后的特征信息，并根据n1个片段处理后的特征信息，确定第一音频文件的n2个标注信息，n2为正整数。
[0109]
这样，在本技术的实施例中，获取第一音频文件的特征信息，并根据获取的特征信息将第一音频文件划分成多个片段，从而将第一音频文件转化成分片式的结构化文件，以用于后续的数据处理。其中，在后续的处理中，针对每一个片段，分别进行处理，处理过程包括降维、融合、降维三个步骤。最终，基于处理后的每一个片段，输出用于表示第一音频文件特征的聚合矩阵。进一步地，基于输出的聚合矩阵，确定第一音频文件的至少一个标注信息。可见，基于对第一音频文件的特征处理，使得最终得到的聚合矩阵所包含的信息浓度较高，既能够表达第一音频文件各个部分的特征，又能够表达第一音频文件的整体特征，从而使得基于聚合矩阵智能确定第一音频文件的标注信息的准确率较高。
[0110]
可选地，划分模块10，包括：
[0111]
第一获取单元，用于根据第一音频文件的特征信息，获取n3个小节，n3为正整数，n3＞1；
[0112]
组成单元，用于将连续的n4个小节的特征信息，组成一个滑动窗口特征矩阵，n4为正整数，且n4＜n3，一个小节的特征信息至少用于组成一个滑动窗口特征矩阵；
[0113]
对比单元，用于对比两个相邻的滑动窗口特征矩阵之间的相似度；
[0114]
划分单元，用于根据前n5个最小相似度对应的矩阵分界处，将第一音频文件划分为n1个片段，n5为正整数。
[0115]
可选地，第一获取单元，包括：
[0116]
获取子单元，用于获取第一音频文件对应的第一波形信号；
[0117]
划分子单元，用于根据第一波形信号中的波峰间隔变化信息，将第一音频文件划分为n3个小节。
[0118]
可选地，融合模块30，包括：
[0119]
第一确定单元，用于在目标片段中，确定目标特征矩阵，目标特征矩阵为目标片段中出现频率最高的滑动窗口特征矩阵；
[0120]
删除单元，用于删除目标片段中的第一特征矩阵，第一特征矩阵与目标特征矩阵之间的相关度小于预设值；
[0121]
第二获取单元，用于获取目标片段中除第一特征矩阵以外的其它特征矩阵中的特征信息的加权值。
[0122]
可选地，该装置还包括：
[0123]
组建模块，用于根据目标片段的特征信息，组建n6个特征组，一个特征组包含的特征信息属于同一类，n6为正整数。
[0124]
可选地，确定模块50，包括：
[0125]
第三获取单元，用于在n1个片段处理后的特征信息，与预设音频文件处理后的特征信息匹配的情况下，获取预设音频文件中的目标特征组，目标特征组在预设音频文件中出现的频率满足预设条件；
[0126]
第二确定单元，用于根据目标特征组对应的预设标签信息，确定第一音频文件的n2个标注信息。
[0127]
本技术实施例中的音频处理装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device，mid)、增强现实(augmented reality，ar)/虚拟现实(virtual reality，vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，umpc)、上网本或者个人数字助理(personal digital assistant，pda)等，还可以为服务器、网络附属存储器(network attached storage，nas)、个人计算机(personal computer，pc)、电视机(television，tv)、柜员机或者自助机等，本技术实施例不作具体限定。
[0128]
本技术实施例的音频处理装置可以为具有动作系统的装置。该动作系统可以为安卓(android)动作系统，可以为ios动作系统，还可以为其他可能的动作系统，本技术实施例不作具体限定。
[0129]
本技术实施例提供的音频处理装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。
[0130]
可选地，如图3所示，本技术实施例还提供一种电子设备100，包括处理器101，存储器102，存储在存储器102上并可在所述处理器101上运行的程序或指令，该程序或指令被处理器101执行时实现上述任一音频处理方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0131]
需要说明的是，本技术实施例的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0132]
图4为实现本技术实施例的一种电子设备的硬件结构示意图。
[0133]
该电子设备1000包括但不限于：射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
[0134]
本领域技术人员可以理解，电子设备1000还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1010逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。
[0135]
其中，处理器1010，用于根据第一音频文件的特征信息，将所述第一音频文件划分为n1个片段，n1为正整数，n1＞1；对目标片段的特征信息进行第一次降维，所述目标片段为所述n1个片段中的一个；对第一次降维后的特征信息进行融合；对融合后的特征信息进行第二次降维；分别得到所述n1个片段处理后的特征信息，并根据所述n1个片段处理后的特征信息，确定所述第一音频文件的n2个标注信息，n2为正整数。
[0136]
这样，在本技术的实施例中，获取第一音频文件的特征信息，并根据获取的特征信息将第一音频文件划分成多个片段，从而将第一音频文件转化成分片式的结构化文件，以用于后续的数据处理。其中，在后续的处理中，针对每一个片段，分别进行处理，处理过程包括降维、融合、降维三个步骤。最终，基于处理后的每一个片段，输出用于表示第一音频文件特征的聚合矩阵。进一步地，基于输出的聚合矩阵，确定第一音频文件的至少一个标注信息。可见，基于对第一音频文件的特征处理，使得最终得到的聚合矩阵所包含的信息浓度较高，既能够表达第一音频文件各个部分的特征，又能够表达第一音频文件的整体特征，从而使得基于聚合矩阵智能确定第一音频文件的标注信息的准确率较高。
[0137]
可选地，处理器1010，还用于根据所述第一音频文件的特征信息，获取n3个小节，n3为正整数，n3＞1；将连续的n4个小节的特征信息，组成一个滑动窗口特征矩阵，n4为正整数，且n4＜n3，一个小节的特征信息至少用于组成一个滑动窗口特征矩阵；对比两个相邻的滑动窗口特征矩阵之间的相似度；根据前n5个最小相似度对应的矩阵分界处，将所述第一音频文件划分为n1个片段，n5为正整数。
[0138]
可选地，处理器1010，还用于获取所述第一音频文件对应的第一波形信号；根据所述第一波形信号中的波峰间隔变化信息，将所述第一音频文件划分为n3个小节。
[0139]
可选地，处理器1010，还用于在所述目标片段中，确定目标特征矩阵，所述目标特征矩阵为所述目标片段中出现频率最高的滑动窗口特征矩阵；删除所述目标片段中的第一特征矩阵，所述第一特征矩阵与所述目标特征矩阵之间的相关度小于预设值；获取所述目标片段中除所述第一特征矩阵以外的其它特征矩阵中的所述特征信息的加权值。
[0140]
可选地，处理器1010，还用于根据所述目标片段的特征信息，组建n6个特征组，一个所述特征组包含的特征信息属于同一类，n6为正整数。
[0141]
可选地，处理器1010，还用于在所述n1个片段处理后的特征信息，与预设音频文件处理后的特征信息匹配的情况下，获取所述预设音频文件中的目标特征组，所述目标特征组在所述预设音频文件中出现的频率满足预设条件；根据所述目标特征组对应的预设标签信息，确定所述第一音频文件的n2个标注信息。
[0142]
综上，本技术通过对结构化数据后的基础特征，利用统计学原理，得到音频文件的分类性特征；另外，利用深度学习的方法得到无法直接得到的隐特征，并结合经验或自然语言处理归纳出音频文件所包含的隐含在内的一些风格特征信息，从而把这两种特征进行结合，最终得到音频文件的分类，以用于对音频文件进行标注。
[0143]
相比于现有技术，本技术对音频文件的标注，不决定于标注工程师的知识面和知识储备，因此不会出现因标注工程师本身的理解和失误，而造成漏标、错标、多标等现象，标注的准确率较高；另外，本技术对音频文件的标注，结合机器学习和规则匹配等多种方式，实现了机器对音频声纹特征的识别，从而使得对音频物料的分类与标注更加快速。
[0144]
应理解的是，本技术实施例中，输入单元1004可以包括图形处理器(graphics processing unit，gpu)10041和麦克风10042，图形处理器10041对在视频图像捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频图像的图像数据进行处理。显示单元1006可包括显示面板10061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071，也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、动作杆，在此不再赘述。存储器1009可用于存储软件程序以及各种数据，包括但不限于应用程序和动作系统。处理器1010可集成应用处理器和调制解调处理器，其中，应用处理器主要处理动作系统、用户页面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。
[0145]
存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1009可以包括易失性存储器或非易失性存储器，或者，存储器x09可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，drram)。本技术实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。
[0146]
处理器1010可包括一个或多个处理单元；可选的，处理器1010集成应用处理器和
调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1010中。
[0147]
本技术实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0148]
其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0149]
本技术实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0150]
应理解，本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0151]
本技术实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0152]
需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。
[0153]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本技术各个实施例所述的方法。
[0154]
上面结合附图对本技术的实施例进行了描述，但是本技术并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本技术的启示下，在不脱离本技术宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本技术的保护之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：信号修正方法、装置、设备、存储介质及计算机程序产品与流程

音频处理方法、装置、电子设备和可读存储介质与流程

相关文献

最热文献