一种哼唱识别方法、设备及介质与流程

2022-09-03 17:42:35 来源：中国专利 TAG：

1.本技术涉及歌曲识别技术领域，特别涉及一种哼唱识别方法、设备及介质。

背景技术：

2.目前，歌曲识别存在许多复杂的场景，比如，有无伴奏和歌词、速度的微小变化，不同音色、性别、年龄的用户等，而哼唱识别作为哼唱识别的重要方法之一，只需要用户哼对了曲调，无论是否有歌词，都能基于用户的哼调匹配到对应的歌曲。由于哼唱识别算法只关注用户在不同时刻的音高序列，进行匹配，因此鲁棒性较高。正因为哼唱识别在上述各种复杂场景下依然能准确识别，对于用户音频的改变有相当程度的容忍，所以应用越来越广泛。
3.现有的哼唱识别技术方案，通常由音高提取和序列匹配两部分组成。对于用户的请求音频或者数据库中的音频数据，都需要经过音高提取算法把音频中的音高序列提取出来，然后使用序列匹配算法比较任意两条音高序列的距离，该方案主要缺点是距离计算只考虑了两个序列中单个音高点与单个音高点的差异，在实际应用中，单个音高点的错误时有发生，原因为音高提取算法的不稳定、噪声影响、用户发声控制不稳等，导致最终的识别结果不够准确。综上，在实现本发明的过程中，发明人至少发现现有技术中存在哼唱识别准确度不高的问题。

技术实现要素：

4.有鉴于此，本技术的目的在于提供一种哼唱识别方法、设备及介质，能够提升哼唱识别准确度。其具体方案如下：
5.第一方面，本技术公开了一种哼唱识别方法，包括：
6.分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列；
7.按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列；
8.确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；
9.基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离；
10.基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。
11.可选的，在所述按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列之后，还包括：
12.确定所述第一音高向量序列和所述第二音高向量序列中每个音高向量对应的目标音高值；
13.针对每个音高向量，将向量中元素减去所述目标音高值。
14.可选的，所述确定所述第一音高向量序列和所述第二音高向量序列中每个音高向量对应的目标音高值，包括：
15.将每个音高向量中的首项元素值确定为所述目标音高值；
16.或，分别计算每个音高向量中各项元素值的均值，将所述均值确定为所述目标音高值；
17.或，将每个音高向量中的每个元素的前项元素值确定为该元素对应的所述目标音高值。
18.可选的，所述确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，包括：
19.计算所述第一音高向量序列以及所述第二音高向量序列中音高向量的余弦相似度和/或模长差异值；
20.基于所述余弦相似度和/或所述模长差异值确定音高向量的向量距离。
21.可选的，所述确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，包括：
22.计算所述第一音高向量序列以及所述第二音高向量序列中音高向量的欧式距离，得到所述向量距离。
23.可选的，所述确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，包括：
24.确定最大向量距离；
25.基于所述最大向量距离确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；其中，所述向量距离小于等于所述最大向量距离。
26.可选的，所述确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，包括：
27.确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，得到距离矩阵；
28.相应的，所述基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离，包括：
29.从所述距离矩阵中查找距离最短路径，并基于所述距离最短路径确定第一音高向量序列以及所述第二音高向量序列的序列距离。
30.可选的，所述基于所述序列距离确定所述第一音频数据对应的哼唱识别结果，包括：
31.判断所述序列距离是否满足预设条件；
32.若存在多个所述第二音频数据对应的所述序列距离满足所述预设条件，则根据所述序列距离最小的所述第二音频数据确定所述第一音频数据对应的哼唱识别结果。
33.第二方面，一种哼唱识别装置，包括：
34.音高提取模块，用于分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列；
35.序列切分模块，用于按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序
列对应的第二音高向量序列；
36.向量距离确定模块，用于确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；
37.序列距离确定模块，用于基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离；
38.识别结果确定模块，用于基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。
39.第三方面，本技术公开了一种电子设备，包括处理器和存储器；其中，
40.所述存储器，用于保存计算机程序；
41.所述处理器，用于执行所述计算机程序以实现前述的哼唱识别方法。
42.第四方面，本技术公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的哼唱识别方法。
43.可见，本技术先分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列，之后按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列，并确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，然后基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离，最后基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。也即，本技术中，在进行哼唱识别时，先对第一音频数据和第二音频数据对应的音高序列进行切分，得到音高向量序列，然后确定两音高向量序列中音高向量的向量距离，然后基于向量距离确定音高向量序列的序列距离，最终得到识别结果，由于音高向量中包括音高变化以及前后音高信息，相对基于单个音高点的距离进行识别的方案，能够提升哼唱识别的准确度。
附图说明
44.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
45.图1为本技术提供的哼唱识别方案所适用的系统框架示意图；
46.图2为本技术提供的一哼唱识别方法流程图；
47.图3为本技术提供的一种dtw距离矩阵示意图；
48.图4为本技术提供的一种具体的哼唱识别方法流程图；
49.图5为本技术提供的一种向量示意图；
50.图6为本技术提供的一种具体的哼唱识别界面示意图；
51.图7为本技术提供的一种哼唱识别装置结构示意图；
52.图8为本技术提供的一种电子设备结构图。
具体实施方式
53.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
54.现有的哼唱识别技术方案，通常由音高提取和序列匹配两部分组成。对于用户的请求音频或者数据库中的音频数据，都需要经过音高提取算法把音频中的音高序列提取出来，然后使用序列匹配算法比较任意两条音高序列的距离，该方案主要缺点是距离计算只考虑了两个序列中单个音高点与单个音高点的差异，在实际应用中，单个音高点的错误时有发生，原因为音高提取算法的不稳定、噪声影响、用户发声控制不稳等，导致最终的识别结果不够准确。综上，在实现本发明的过程中，发明人至少发现现有技术中存在哼唱识别准确度不高的问题。为此，本技术提供了一种哼唱识别方案，能够提升哼唱识别的准确度。
55.本技术的哼唱识别方案中，采用的系统框架具体可以参见图1所示，具体可以包括：后台服务器和与后台服务器建立通信连接的若干数量的用户端。其中，用户端包括但不限于平板电脑、笔记本电脑、智能手机、个人电脑(personal computer，pc)，此处不做限定。
56.本技术中，后台服务器执行哼唱识别方案方法的步骤，包括分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列；按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列；确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离；基于所述序列距离确定所述第一音频数据对应的哼唱识别结果，最后将哼唱识别结果推送至用户端显示。
57.参见图2所示，本技术实施例公开了一种哼唱识别方法，包括：
58.步骤s11：分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列。
59.在具体的实施方式中，可以基于预设音高提取算法分别提取第一音频数据和第二音频数据的音高。其中，预设音高提取算法可以包括但不限于yin、pyin(即probabilistic yin，概率yin)、crepe(即convolutional representation for pitch estimation，基音估计的卷积表示法)等。第一音频数据可以为用户的请求音频，也可以为其他待识别的音频。第二音频数据可以为数据库中已存在准确歌曲信息的音频数据。
60.步骤s12：按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列。
61.例如，把两条长度分别为n和m的音高序列x1＝[x
1,1
,x
1,2
，...,x
1,n
]和x2＝[x
1,1
,x
1,2
，...,x
1,m
]，都按照窗长l及窗移k分成多个音高向量，其中，x
1,1
,x
1,2
，...,x
1,n
、x
1,1
,x
1,2
，...,x
1,m
，表示各时刻的音高值。如向量1为[x
1,1
,x
1,2
,...,x
1,l
]，向量2为[x
1,1 k
,x
1,2 k
,...,x
1,l k
]等，这样，将音高序列作向量化表达。窗长和窗移可以经过实验选定效果较优的值。
[0062]
步骤s13：确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离。
[0063]
在一种具体的实施方式中，可以直接确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离。
[0064]
步骤s14：基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离。
[0065]
需要指出的是，比较任意两条音高序列，由于不同音频所提取出来的音高序列长度不一样，较好的不等长序列匹配方法为dtw(即dynamic time warping，动态时间归整)，而dtw算法，是直接基于音高序列计算距离函数的。比如，对于两条长度分别为n和m的音高序列x1＝[x
1,1
,x
1,2
，...,x
1,n
]和x2＝[x
1,1
,x
1,2
，...,x
1,m
]，dtw距离矩阵d中的第i,j个元素定义为x
1,i
与x
2,j
的距离，通常定义为l1-norm、两者之差的绝对值，即d
i,j
＝|x
1,i-x
2,j
|，如图3所示。图3为现有技术中的一种dtw距离矩阵示意图，在距离矩阵d中寻找距离最短的路径，得到序列之间的距离。该方案在距离计算只考虑了两个序列中单个音高点与单个音高点的差异。而本技术实施例可以采用对序列切分得到的音高向量，更好地利用音高的变化、前后音高的信息等，从而提升识别准确性。
[0066]
步骤s15：基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。
[0067]
在具体的实施方式中，可以判断所述序列距离是否满足预设条件；若存在多个所述第二音频数据对应的所述序列距离满足所述预设条件，则根据所述序列距离最小的所述第二音频数据确定所述第一音频数据对应的哼唱识别结果。
[0068]
其中，预设条件可以为距离阈值，当序列距离小于距离阈值时，则判定满足预设条件，表示两个序列相似度较高，当存在多个第二音频数据对应的序列距离满足预设条件，则将距离最小的第二音频数据的歌曲信息作为哼唱识别结果，若没有满足条件的第二音频数据，则确定哼唱识别结果为无法识别。
[0069]
可见，本技术实施例先分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列，之后按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列，并确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，然后基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离，最后基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。也即，本技术实施例中，在进行哼唱识别时，先对第一音频数据和第二音频数据对应的音高序列进行切分，得到音高向量序列，然后确定两音高向量序列中音高向量的向量距离，然后基于向量距离确定音高向量序列的序列距离，最终得到识别结果，由于音高向量中包括音高变化以及前后音高信息，相对基于单个音高点的距离进行识别的方案，能够提升哼唱识别的准确度。
[0070]
参见图4所示，本技术实施例公开了一种具体的哼唱识别方法，包括：
[0071]
步骤s21：分别提取第一音频数据和第二音频数据的音高，得到第一音频数据对应的第一音高序列以及第二音频数据对应的第二音高序列。
[0072]
步骤s22：按照预设窗长和预设窗移分别对第一音高序列和第二音高序列进行切分，得到第一音高序列对应的第一音高向量序列和第二音高序列对应的第二音高向量序
x
1,1 (i-1)k
,x
1,2 (i-1)k-x
1,1 (i-1)k
,...,x
1,l (i-1)k-x
1,1 (i-1)k
]，x’1,i
表示音高向量序列x
’1中第i个向量。对于音高序列x2，也可获得对应的音高向量序列x
’2。
[0087]
需要指出的是，现有技术方案中，针对音高序列x1和x2，使用序列中各音高点的l1-norm计算距离，以获得dtw距离矩阵。本技术实施例针对音高向量序列x
’1及x
’2，计算dtw距离矩阵。这样考虑了短时音高变化的相似性，使用窗长为k的音高变化向量计算距离，相对原有方案直接使用音高点的l1-norm，准确率大幅提高。
[0088]
在一种实施方式中，使用余弦相似度计算dtw距离矩阵。dtw距离矩阵d中的第i,j个元素d
i,j
定义为向量x’1,i
与x’2,j
的距离，x’2,j
为x
’2中第j个向量。可以使用1减余弦相似度，即
[0089][0090]
其中，例如图5所示，图5为本技术实施例提供的一种向量示意图，包括向量a，b，余弦相似度的计算公式如下：
[0091][0092]
可以理解的是，余弦相似度范围为[-1，1]，数值越大表示两个向量约相似，因此d
i,j
范围为[0，2]，为两个向量的句子，数值越大表示两个向量距离越远、差异越大。
[0093]
在另一种实施方式中，可以利用余弦相似度和模长差异值计算dtw距离矩阵。这样，除了考虑两个向量的角度差异之外，还额外加入了两个向量间的模长差异，其中，模长差异值的计算公式如下：
[0094][0095]
其中，α为系数，表示角度差异与模长差异间的权重比例，分子为模长差异，分母为归一化。该模长差异值与角度差异一起组合为d
i,j
。
[0096]
进一步的，d
i,j
范围为[0，2]，但实际应用中，还是要限制d
i,j
的值不能过大(如超过1)，以避免部分距离值过大影响匹配，如令其不超过β，d
i,j
＝min(β,d
i,j
)。
[0097]
步骤s27：基于序列距离确定第一音频数据对应的哼唱识别结果。
[0098]
可见，本技术实施例按照预设窗长和预设窗移分别对第一音高序列和第二音高序列进行切分，得到第一音高序列对应的第一音高向量序列和第二音高序列对应的第二音高向量序列之后，确定第一音高向量序列和第二音高向量序列中每个音高向量对应的目标音高值，然后针对每个音高向量，将向量中元素减去目标音高值。这样的操作使得，音高向量更能够反映短时的音高变化，充分利用音高变化能够提升最终识别结果的准确度。
[0099]
下面，以某款音乐app为例，对本技术的技术方案进行说明。
[0100]
假设用户在用户端安装了这款音乐app，当需要进行哼唱识别的时，打开这款音乐app，进入哼唱识别界面，参见图6所示，图6为本技术实施例提供的一种具体的哼唱识别界面示意图。点击开始识别后，用户哼唱，哼唱结束后点击停止识别，这款音乐app将获取到的用户哼唱音频传输至这款音乐app的后台服务器，后台服务器对用户哼唱音频以及这款音乐app的数据库中的数据库音频进行音高提取，得到用户哼唱音频对应的第一音高序列以及数据库音频对应的第二音高序列，然后按照预设窗长和预设窗移分别对第一音高序列和第二音高序列进行切分，得到第一音高序列对应的第一音高向量序列和第二音高序列对应的第二音高向量序列，然后对于第一音高向量序列和第二音高向量序列中每个音高向量，每个元素减去其首项元素值，然后计算两序列的距离矩阵，然后计算最短距离路径，确定距离最短路径上的距离和，得到序列距离，当序列距离小于距离阈值时，表示两个序列相似度较高，当存在多个数据库音频与用户哼唱音频对应的序列距离均小于距离阈值，则对序列距离排序，将距离最小的数据库音频的歌曲信息作为哼唱识别结果，若没有数据库音频与用户哼唱音频对应的序列距离小于距离阈值，则确定哼唱识别结果为无法识别，在确定出哼唱识别结果后，将哼唱识别结果返回这款音乐app进行显示。
[0101]
当然，在一些实施例中，也可以针对数据库中的音频预先生成音高向量序列，从而提升匹配速度。并且，本方案除了能够改善用户不记得歌词、只记得曲调，也能找到音频中的歌曲名字的哼唱识别场景，也可以改善其他歌曲识别场景，比如两首歌曲的曲调不变，只是重新填词，也能识别匹配；识别用户的k歌、曲库整理中的歌曲识别等。
[0102]
参见图7所示，本技术实施例公开了一种哼唱识别装置，包括：
[0103]
音高提取模块11，用于分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列；
[0104]
序列切分模块12，用于按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列；
[0105]
向量距离确定模块13，用于确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；
[0106]
序列距离确定模块14，用于基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离；
[0107]
识别结果确定模块15，用于基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。
[0108]
可见，本技术实施例先分别提取第一音频数据和第二音频数据的音高，得到所述第一音频数据对应的第一音高序列以及所述第二音频数据对应的第二音高序列，之后按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列，并确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，然后基于所述向量距离确定所述第一音高向量序列以及所述第二音高向量序列的序列距离，最后基于所述序列距离确定所述第一音频数据对应的哼唱识别结果。也即，本技术中，在进行哼唱识别时，先对第一音频数据和第二音频数据对应的音高序列进行切分，得到音高向量序列，然后确定两音高向量序列中音高向量的向量距离，然后基于向量距离确定音高向量序列的序
列距离，最终得到识别结果，由于音高向量中包括音高变化以及前后音高信息，相对基于单个音高点的距离进行识别的方案，能够提升哼唱识别的准确度。
[0109]
所述装置还包括：
[0110]
目标音高值确定模块，用于在所述序列切分模块12按照预设窗长和预设窗移分别对所述第一音高序列和所述第二音高序列进行切分，得到所述第一音高序列对应的第一音高向量序列和所述第二音高序列对应的第二音高向量序列之后，确定所述第一音高向量序列和所述第二音高向量序列中每个音高向量对应的目标音高值；
[0111]
序列处理模块，用于针对每个音高向量，将向量中元素减去所述目标音高值。
[0112]
在第一种实施方式中，目标音高值确定模块用于将每个音高向量中的首项元素值确定为所述目标音高值；
[0113]
在第二种实施方式中，目标音高值确定模块用于分别计算每个音高向量中各项元素值的均值，将所述均值确定为所述目标音高值；
[0114]
在第二种实施方式中，目标音高值确定模块用于将每个音高向量中的每个元素的前项元素值确定为该元素对应的所述目标音高值。
[0115]
在一种实施方式中，向量距离确定模块13，具体包括：
[0116]
第一计算单元，用于计算所述第一音高向量序列以及所述第二音高向量序列中音高向量的余弦相似度和/或模长差异值；
[0117]
第二计算单元，用于基于所述余弦相似度和/或所述模长差异值确定音高向量的向量距离。
[0118]
在另一种实施方式中，向量距离确定模块13，具体用于：
[0119]
计算所述第一音高向量序列以及所述第二音高向量序列中音高向量的欧式距离，得到所述向量距离。
[0120]
并且，在具体的实施方式中，向量距离确定模块13，具体包括：
[0121]
最大向量距离确定单元，用于确定最大向量距离；
[0122]
向量距离计算单元，用于基于所述最大向量距离确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离；其中，所述向量距离小于等于所述最大向量距离。
[0123]
进一步的，在具体的实施方式中，向量距离确定模块13，具体用于确定所述第一音高向量序列以及所述第二音高向量序列中音高向量的向量距离，得到距离矩阵；
[0124]
相应的，序列距离确定模块14，具体用于从所述距离矩阵中查找距离最短路径，并基于所述距离最短路径确定第一音高向量序列以及所述第二音高向量序列的序列距离。
[0125]
识别结果确定模块15，具体包括：
[0126]
条件判断单元，用于判断所述序列距离是否满足预设条件；
[0127]
识别结果确定单元，用于若条件判断单元判定存在多个所述第二音频数据对应的所述序列距离满足所述预设条件，则根据所述序列距离最小的所述第二音频数据确定所述第一音频数据对应的哼唱识别结果。
[0128]
进一步的，本技术实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图，图中的内容不能被认为是对本技术的使用范围的任何限制。
[0129]
图8为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20，具体可
以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的哼唱识别方法中的相关步骤。另外，本实施例中的电子设备20具体可以为服务器。
[0130]
本实施例中，电源23用于为电子设备20上的各硬件设备提供工作电压；通信接口24能够为电子设备20创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。
[0131]
另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源可以包括操作系统221、计算机程序222及音频数据223等，存储方式可以是短暂存储或者永久存储。
[0132]
其中，操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中音频数据223的运算与处理，其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的哼唱识别方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。
[0133]
进一步的，本技术实施例还公开了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的哼唱识别方法步骤。
[0134]
本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0135]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0136]
以上对本技术所提供的一种哼唱识别方法、设备及介质进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种复合五模超材料及低频宽带声波调控方法

一种哼唱识别方法、设备及介质与流程

相关文献

最热文献