特征处理方法、装置和用于处理特征的装置与流程

2022-02-19 13:32:44 来源：中国专利 TAG：

1.本技术实施例涉及计算机技术领域，具体涉及特征处理方法、装置和用于处理特征的装置。

背景技术：

2.序列建模(sequence modeling)是指将一段音频的特征序列转换为一个固定长度向量表示的方法。通常需要使用卷积神经网络进行特征的转换，得到向量形式的特征处理结果。
3.现有技术中，通常在对音频数据进行分帧加窗处理后，直接将各窗口的音频帧特征输入至卷积神经网络，得到特征处理结果。由于相邻窗口之间存在重复帧，存在重复计算问题，造成了计算资源的浪费，且减慢了音频数据的处理效率。

技术实现要素：

4.本技术实施例提出了特征处理方法、装置和用于处理特征的装置，以解决现有技术中计算资源浪费以及音频数据的处理效率低的技术问题。
5.第一方面，本技术实施例提供了一种特征处理方法，该方法包括：对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；将首个窗口的音频帧特征输入至卷积神经网络，得到所述首个窗口的特征处理结果；依次将其余每个窗口作为目标窗口，执行如下步骤：确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征；基于所述卷积神经网络确定所述非重复帧特征的特征处理结果，从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果，并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果，确定所述目标窗口的特征处理结果。
6.第二方面，本技术实施例提供了一种特征处理装置，该装置包括：加窗单元，用于对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；第一处理单元，用于将首个窗口的音频帧特征输入至卷积神经网络，得到所述首个窗口的特征处理结果；第二处理单元，用于依次将其余每个窗口作为目标窗口，执行如下步骤：确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征；基于所述卷积神经网络确定所述非重复帧特征的特征处理结果，从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果，并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果，确定所述目标窗口的特征处理结果。
7.第三方面，本技术实施例提供了一种用于处理特征的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；将首个窗口的音频帧特征输入至卷积神经网络，得到所述首个窗口的特征处理结果；依次将其余每个窗口作为目标窗口，确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征，从所述上一窗口的特征处理结
果中提取所述重复帧特征的特征处理结果，基于所述卷积神经网络确定所述非重复帧特征的特征处理结果，基于所述重复帧特征的特征处理结果和所述非重复帧特征的特征处理结果，确定所述目标窗口的特征处理结果。
8.第四方面，本技术实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所描述的方法。
9.本技术实施例提供的特征处理方法、装置和用于处理特征的装置，通过对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；而后将首个窗口的音频帧特征输入至卷积神经网络，得到首个窗口的特征处理结果；最后依次将其余每个窗口作为目标窗口，确定目标窗口相对于上一窗口的重复帧特征和非重复帧特征，基于卷积神经网络确定非重复帧特征的特征处理结果，从上一窗口的特征处理结果中提取重复帧特征的特征处理结果，并基于非重复帧特征的特征处理结果和重复帧特征的特征处理结果，确定目标窗口的特征处理结果。由此，在针对每个窗口进行特征处理时，可直接拷贝上一窗口的重复帧特征的处理结果，仅对非重复帧特征进行处理，避免了相同音频帧特征的重复计算，由此避免了计算资源浪费，提高了音频数据的处理效率。
附图说明
10.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本技术的其它特征、目的和优点将会变得更明显：
11.图1是根据本技术的特征处理方法的一个实施例的流程图；
12.图2是根据本技术的特征处理方法中卷积神经网络对相邻两窗口的特征处理过程的示意图；
13.图3是根据本技术的特征处理装置的一个实施例的结构示意图；
14.图4是根据本技术的用于处理特征的装置的结构示意图；
15.图5是根据本技术的一些实施例中服务器的结构示意图。
具体实施方式
16.下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
17.需要说明的是，在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
18.请参考图1，其示出了根据本技术的特征处理方法的一个实施例的流程100。上述特征处理方法可运行于各种电子设备，上述电子设备包括但不限于：服务器、智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，moving picture experts group audio layer iii)播放器、mp4(动态影像专家压缩标准音频层面4，moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
19.本实施例中的特征处理方法，可以包括以下步骤：
20.步骤101，对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征。
21.在本实施例中，特征处理方法的执行主体(如上述电子设备)可以首先对待处理的音频数据进行分帧加窗处理。其中，分帧加窗处理可包括分帧处理和加窗处理。分帧处理是指将音频数据按照指定的长度(时间段或者采样数)进行分段，以得到短时平稳的音频帧。加窗处理是指将语音数据与窗函数(如汉明窗函数)相乘，得到包含若干音频帧的窗口(也可称为滑动窗口)。
22.在本实施例中，在对音频数据进行分帧加窗处理后，上述执行主体可以提取各窗口的音频帧特征。音频帧特征即为音频帧的特征。音频帧特征可包括但不限于低能量帧率、最大带宽和基音周期可信度标准差等。由于每个窗口可包含若干音频帧，因此每个窗口的音频帧特征可以为一个特征序列。
23.步骤102，将首个窗口的音频帧特征输入至卷积神经网络，得到首个窗口的特征处理结果。
24.在本实施例中，上述执行主体中可以预先存储用于进行特征处理的卷积神经网络，如用于序列建模的卷积神经网络tcn(temporal convolutional network，时间卷积网络)。上述执行主体可以将首个窗口的音频帧特征输入至卷积神经网络，得到首个窗口的特征处理结果。此处对卷积神经网络的网络结构不作具体限定。
25.在本实施例的一些可选的实现方式中，卷积神经网络可包括至少一个卷积层。首个窗口的特征处理结果中可包括卷积神经网络中每个卷积层针对首个窗口的卷积计算结果。在将首个窗口的音频帧特征输入至卷积神经网络后，卷积神经网络中的各个卷积层可依次进行特征处理，最终输出最后一个卷积层的卷积计算结果。
26.具体地，卷积神经网络中的卷积层可依次连接，前一卷积层的输出可作为后一卷积层的输入。上述执行主体可以首先将首个窗口的音频帧特征输入至卷积神经网络的首个卷积层，得到首个卷积层针对首个窗口的卷积计算结果。而后，对于从第二个卷积层起的每个卷积层，将上一卷积层针对首个窗口的卷积计算结果输入至该卷积层，得到该卷积层针对首个窗口的卷积计算结果。由此，可得到各个卷积层针对首个窗口的卷积计算结果，并输出最后一个卷积层的卷积计算结果。
27.需要说明的是，对于从第二个卷积层起的每个卷积层，将上一卷积层针对首个窗口的卷积计算结果输入至该卷积层之前，还可以基于该卷积层的补帧参数对上一卷积层的卷积计算结果进行补帧处理，以使输入至该卷积层的数据长度满足要求。其中，补帧参数可包括左补帧参数和右补帧参数。
28.下面以一具体示例进行说明。窗口长度为w(即每个窗口所包含的音频帧的数量，也即每个窗口对应的音频帧特征的数量)，相邻滑动窗口之间的窗口移动步长为h。卷积神经网络包含n个卷积层。各卷积层的输入特征数依次为w[1]、w[2]、
…
、w[n]。各卷积层的左补帧参数依次为l[1]、l[2]、
…
、l[n]，右补帧参数依次为r[1]、r[2]、
…
、r[n]。各卷积层的卷积核大小为依次k[1]、k[2]、
…
、k[n]。卷积神经网络中每一个卷积层的步长参数(stride)、空洞参数(dilation)和分组参数(groups)均为1。
[0029]
上述执行主体可以首先针对第一个窗口进行特征处理，即，将第一个窗口对应的w帧特征作为一个整体，输入至卷积神经网络。具体处理过程如下：
[0030]
第一步，利用卷积神经网络的第1个卷积层(即首个卷积层)对首个窗口进行特征处理。此时，w[1]＝w。首先，根据第1个卷积层的左右补帧参数，在w[1]左侧补充l[1]帧特
征，在w[1]右侧补充r[1]帧特征，共得到(l[1] w[1] r[1])帧特征。之后，将(l[1] w[1] r[1])帧特征输入至第1个卷积层，得到(l[1] w[1] r[1])
‑
(k1.‑
1))＝w[2]帧输出。
[0031]
第二步，利用卷积神经网络的第2个卷积层对首个窗口进行特征处理。此时w[2]＝((l[1] w[1] r[1])
‑
(k1.‑
1))。首先，根据第2个卷积层的左右补帧参数，在w[2]左侧补充l[2]帧，在w[2]右侧补充r[2]帧，共得到(l[2] w[2] r[2])帧特征。之后，将(l[2] w[2] r[2])帧输入至第2个卷积层，得到((l[2] w[2] r[2])
‑
(k[2]
‑
1))＝w[3]帧输出。
[0032]
以此类推，上述执行主体可以针对后续各卷积层重复执行此过程，直至n个卷积层均计算完成，得到((l[n] w[n] r[n])
‑
(k[n]
‑
1))帧输出。
[0033]
步骤103，依次将其余每个窗口作为目标窗口，执行如下步骤：确定目标窗口相对于上一窗口的重复帧特征和非重复帧特征；基于卷积神经网络确定非重复帧特征的特征处理结果，从上一窗口的特征处理结果中提取重复帧特征的特征处理结果，并基于非重复帧特征的特征处理结果和重复帧特征的特征处理结果，确定目标窗口的特征处理结果。
[0034]
在本实施例中，上述执行主体可以依次将从第二个窗口起的每个窗口作为目标窗口，首先确定目标窗口相对于上一窗口的重复帧特征和非重复帧特征。例如，若窗口长度为w，相邻两帧之间的窗移(即窗口移动步长为h)，则相邻两窗口之间的存在(w
‑
h)帧的重叠。此(w
‑
h)帧即为重复帧，此(w
‑
h)帧的特征即为重复帧特征。重复帧特征的特征处理结果相同。除重复帧特征以外的特征，即为非重复帧特征。
[0035]
上述执行主体可以基于卷积神经网络确定非重复帧特征的特征处理结果，如将非重复帧特征输入至卷积神经网络，得到非重复帧特征的特征处理结果。同时，由于相邻两窗口的重复帧的特征处理结果相同，故上述执行主体可以从上一窗口的特征处理结果中提取重复帧特征的特征处理结果，并基于非重复帧特征的特征处理结果和重复帧特征的特征处理结果(如对二者进行汇总)，得到目标窗口的特征处理结果。
[0036]
由于在针对每个窗口进行特征处理时可直接拷贝上一窗口的重复帧特征的处理结果，仅对非重复帧特征进行了处理，因而避免了相同音频帧特征的重复计算，避免了计算资源浪费，提高了音频数据的处理效率。
[0037]
在本实施例的一些可选的实现方式中，卷积神经网络可包括至少一个卷积层。每个窗口的特征处理结果中，可包括卷积神经网络中每个卷积层针对该窗口的卷积计算结果。此处，卷积神经网络中的卷积层可依次连接，前一卷积层的输出可作为后一卷积层的输入。对于某个窗口，首个卷积层的输入特征可包括该窗口的音频帧特征。其余各卷积层的输入特征可包括上一卷积层输出的针对该窗口的卷积计算结果。
[0038]
在本实施例的一些可选的实现方式中，上述执行主体可以基于预设的窗口长度(如w)、预设的窗口滑动步长(如h)以及卷积神经网络中的各卷积层中的卷积核大小(如依次为k[1]、k[2]、
…
、k[n])，将各窗口在各卷积层的输入特征划分为第一部分、第二部分和第三部分。其中的第二部分可以对应重复帧，第一部分和第三部分可以对应非重复帧。之后，上述执行主体可以将目标窗口在各卷积层的输入特征中的第二部分，作为目标窗口相对于上一窗口的重复帧特征；将目标窗口在各卷积层的输入特征中的第一部分和第三部分，作为目标窗口相对于上一窗口的非重复帧特征。
[0039]
进一步地，对于卷积神经网络的每个卷积层，上述执行主体可以将目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层，分别得到第一卷积计算
结果和第三卷积计算结果；之后，可从该卷积层针对上一窗口的卷积计算结果中，提取上一窗口在该卷积层的输入特征中的第二部分对应的卷积计算结果，作为第二卷积计算结果；最后，可将第一卷积计算结果、第二卷积计算结果和第三卷积计算结果进行汇总，得到该卷积层针对目标窗口的卷积计算结果。由此，在卷积神经网络的每个卷积层针对每个窗口进行特征处理时，可直接拷贝该卷积层针对上一窗口的重复帧特征的处理结果，避免了同一卷积层对相邻量窗口的相同音频帧特征的重复计算，由此避免了计算资源浪费，提高了音频数据的处理效率。
[0040]
在上述实现方式中，在利用卷积层进行计算前，上述执行主体还可以对输入特征进行补帧处理，以使输入至卷积层的特征数量满足要求。具体地，对于卷积神经网络的每个卷积层，可以基于该卷积层的第一补帧参数，对目标窗口在该卷积层的输入特征中的第一部分的左侧进行补帧，得到第一补音频帧特征；之后将第一补音频帧特征输入至该卷积层，得到第一卷积计算结果。同理，对于卷积神经网络的每个卷积层，可以基于该卷积层的第二补帧参数，对目标窗口在该卷积层的输入特征中的第三部分的右侧进行补帧，得到第二补音频帧特征；之后将第二补音频帧特征输入至该卷积层，得到第三卷积计算结果。
[0041]
继续步骤102中的示例进行说明，并参见图2。图2为卷积神经网络对相邻两窗口的特征处理过程的示意图。对于首个窗口(即第一个窗口)，上述执行主体可以将首个窗口在各卷积层的输入帧数分为三个部分，分别记为w[i]_left、w[i]_overlap和w[i]_right。w[i]_left w[i]_overlap w[i]_right＝w[i]。其中，i为大于或等于1且小于或等于n的自然数。w[i]为第i个卷积层的输入特征数。w[1]＝w。当i大于或等于2时，w[i]＝((l[i
‑
1] w[i
‑
1] r[i
‑
1])
‑
(k[i
‑
1]
‑
1))。此处，可令w[1]_left＝h，w[1]_overlap＝w
‑
h，w[1]_right＝0。当i大于或等于2时，可按照如下公式计算w[i]_left、w[i]_overlap和w[i]_right：w[i]_left＝w[i
‑
1]_left l[i
‑
1]，w[i]_overlap＝w[i
‑
1]_overlap
‑
(k[i
‑
1]
‑
1)，w[i]_right＝w[i
‑
1]_right r[i
‑
1]。w[i]_overlap对应的特征即为重复帧特征。
[0042]
在每个卷积层对首个窗口进行处理时，可存储该首个窗口与第二个窗口的重复帧特征(即w[i]_overlap对应的特征)的卷积计算结果。即，可以将第1个卷积层的((l[1] w[1] r[1])
‑
(k1.‑
1))帧计算结果中，从(w[1]_left l[1] 1)帧开始的(w[1]_overlap
‑
(k1.‑
1))帧进行保存。由此，在第1个卷积层对第二个窗口进行特征处理时，可直接复制所保存的卷积计算结果，仅对非重复帧特征进行处理。此处，若(w[1]_overlap
‑
(k1.‑
1))小于或等于0，则可以不进行保存。同理，可以将第2个卷积层的((l[2] w[2] r[2])
‑
(k[2]
‑
1))帧计算结果中，从(w[2]_left l[2] 1)帧开始的(w[2]_overlap
‑
(k[2]
‑
1))帧计算结果进行保存。若(w[2]_overlap
‑
(k[2]
‑
1))小于等于0，则不进行保存。依次类推，可保存n组计算结果。所保存的计算结果可在各卷积层针对下一窗口进行特征处理时进行复制，以避免针对重复帧特征进行重复计算，从而避免计算资源浪费，提高音频数据的处理效率。
[0043]
第二个窗口通过对首个窗口向后滑动h帧后得到。即，将首个窗口的前面h帧移出，并在剩余帧后添加新的h帧，组成第二个滑动窗口(仍为w帧)。对于第二个窗口，具体处理过程如下：
[0044]
步骤s11，利用卷积神经网络的第1个卷积层对第二个窗口进行特征处理。
[0045]
首先，可以将第二个窗口在第1个卷积层的输入帧数w[1](w[1]＝w)分为三个部分，分别记为w[1]_left_calculate、w[1]_copy和w[1]_right_calculate。w[1]_left_
calculate＝w[1]_left
‑
h (k1.‑
1)，w[1]_copy＝w[1]_overlap
‑
(k1.‑
1)，w[1]_right_calculate＝w[1]_right h (k1.‑
1)。
[0046]
而后，利用卷积神经网络的第1个卷积层对w[1]_left_calculate部分进行卷积计算。此处，可以根据第1个卷积层的左补帧参数，在w[1]_left_calculate帧左边补上l[1]帧，共得到(l[1] w[1]_left_calculate)帧特征。将其作为第1个卷积层的输入，得到(l[1] w[1]_left_calculate)
‑
(k1.‑
1)帧输出，并作为第一卷积计算结果。
[0047]
之后，对第二部分共w[1]_copy帧的特征处理结果进行复制，作为第1个卷积层的第二卷积计算结果(即第1个卷积层针对首个窗口的((l[1] w[1] r[1])
‑
(k1.‑
1))帧计算结果中，从(w[1]_left l[1] 1)帧开始的(w[1]_overlap
‑
(k1.‑
1))帧计算结果)。
[0048]
然后，利用卷积神经网络的第1个卷积层对w[1]_right_calculate部分进行卷积计算。此处，可以根据第1个卷积层的右补帧参数，在w[1]_right_calculate帧右边补上r[1]帧，共得到(w[1]_right_calculate r[1])帧特征。将其作为第1个卷积层的输入，得到(w[1]_right_calculate r[1])
‑
(k1.‑
1)帧输出，并作为第三卷积计算结果。
[0049]
最后，可以将第一卷积计算结果、第二卷积计算结果和第三卷积计算结果顺序组合，得到第1个卷积层针对第二个窗口的卷积计算结果，该卷积计算结果的总帧数为(l[1] w[1] r[1])
‑
(k1.‑
1)。
[0050]
进一步地，可将该((l[1] w[1] r[1])
‑
(k1.‑
1))帧计算结果中，从(w[1]_left l[1] 1)帧开始的(w[1]_overlap
‑
(k1.‑
1))帧进行保存，以便于该卷积层对下一窗口进行特征处理时直接使用。此处，若(w[1]_overlap
‑
(k1.‑
1))小于或等于0，则可不进行保存。
[0051]
步骤s12，利用卷积神经网络的第2个卷积层对第二个窗口进行特征处理。
[0052]
首先，可以将第二个窗口在第2个卷积层的输入帧数w[2](w[2]＝(l[1] w[1] r[1])
‑
(k1.‑
1))分为三个部分，分别记为w[2]_left_calculate、w[2]_copy和w[2]_right_calculate。w[2]_left_calculate＝w[2]_left
‑
h (k[2]
‑
1)，w[2]_copy＝w[2]_overlap
‑
(k[2]
‑
1)，w[2]_right_calculate＝w[2]_right h (k[2]
‑
1)。
[0053]
而后，利用卷积神经网络的第2个卷积层对w[2]_left_calculate部分进行卷积计算。此处，可以根据第2个卷积层的左补帧参数，在w[2]_left_calculate帧左边补上l[2]帧，共得到(l[2] w[2]_left_calculate)帧特征。将其作为第2个卷积层的输入，得到(l[2] w[2]_left_calculate)
‑
(k[2]
‑
1)帧输出，并作为第一卷积计算结果。
[0054]
之后，对第二部分共w[2]_copy帧的特征处理结果进行复制，作为第2个卷积层的第二卷积计算结果(即第2个卷积层针对首个窗口的(l[2] w[2] r[2])
‑
(k[2]
‑
1)帧计算结果中，从(w[2]_left l[2] 1)帧开始的(w[2]_overlap
‑
(k[2]
‑
1))帧计算结果)。
[0055]
然后，利用卷积神经网络的第2个卷积层对w[2]_right_calculate部分进行卷积计算。此处，可以根据第2个卷积层的右补帧参数，在w[2]_right_calculate帧右边补上r[2]帧，共得到(w[2]_right_calculate r[2])帧特征。将其作为第2个卷积层的输入，得到((w[2]_right_calculate r[2])
‑
(k[2]
‑
1))帧输出，并作为第三卷积计算结果。
[0056]
最后，可以将第一卷积计算结果、第二卷积计算结果和第三卷积计算结果顺序组合，得到第2个卷积层针对第二个窗口的卷积计算结果，该卷积计算结果的总帧数为(l[2] w[2] r[2])
‑
(k[2]
‑
1)。
[0057]
进一步地，可将该(l[2] w[2] r[2])
‑
(k[2]
‑
1)帧计算结果中，从(w[2]_left l
[2] 1)帧开始的(w[2]_overlap
‑
(k[2]
‑
1))帧进行保存，以便于该卷积层对下一窗口进行特征处理时直接使用。此处，若(w[2]_overlap
‑
(k[2]
‑
1))小于或等于0，则可不进行保存。
[0058]
以此类推，可计算卷积神经网络的其余卷积层，直至卷积神经网络的n个卷积层均计算完成，得到(l[n] w[n] r[n])
‑
(k[n]
‑
1)帧计算结果。若(w[i]_overlap
‑
(k[i]
‑
1))大于0，则按照上述步骤s11及s12中的方式进行计算。若(w[i]_overlap
‑
(k[i]
‑
1))小于等于0，则可按照常规卷积层的计算步骤进行计算。即，根据第i个卷积层的左右补帧参数，在w[i]帧左边补上l[i]帧，右边补上r[i]帧特征，共得到(l[i] w[i] r[i])帧特征作为输入；将(l[i] w[i] r[i])帧特征输入第i个卷积层，得到(l[i] w[i] r[i])
‑
(k[i]
‑
1)帧输出。
[0059]
由此可见，在卷积神经网络中各个卷积层对某一窗口进行处理时，各个卷积层可从对上一窗口的特征处理结果中直接复制部分重复结果，无需对重复特征进行重复计算，由此避免了计算资源浪费，提高了音频数据的处理效率。
[0060]
进一步参考图3，作为对上述各图所示方法的实现，本技术提供了特征处理装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。
[0061]
如图3所示，本实施例上述的特征处理装置300包括：加窗单元301，被配置成对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；第一处理单元302，被配置成将首个窗口的音频帧特征输入至卷积神经网络，得到上述首个窗口的特征处理结果；第二处理单元303，被配置成依次将其余每个窗口作为目标窗口，执行如下步骤：确定上述目标窗口相对于上一窗口的重复帧特征和非重复帧特征；基于上述卷积神经网络确定上述非重复帧特征的特征处理结果，从上述上一窗口的特征处理结果中提取上述重复帧特征的特征处理结果，并基于上述非重复帧特征的特征处理结果和上述重复帧特征的特征处理结果，确定上述目标窗口的特征处理结果
[0062]
在本实施例的一些可选的实现方式中，上述卷积神经网络包括至少一个卷积层，上述特征处理结果中包括上述卷积神经网络中每个卷积层的卷积计算结果。
[0063]
在本实施例的一些可选的实现方式中，上述第一处理单元302，进一步被配置成：将上述首个窗口的音频帧特征输入至上述卷积神经网络的首个卷积层，得到上述首个卷积层针对上述首个窗口的卷积计算结果；对于从第二个卷积层起的每个卷积层，将上一卷积层针对上述首个窗口的卷积计算结果输入至该卷积层，得到该卷积层针对上述首个窗口的卷积计算结果。
[0064]
在本实施例的一些可选的实现方式中，上述第二处理单元303，进一步被配置成：基于预设的窗口长度、预设的窗口滑动步长以及上述卷积神经网络中的各卷积层中的卷积核大小，将各窗口在上述各卷积层的输入特征划分为第一部分、第二部分和第三部分；将上述目标窗口在上述各卷积层的输入特征中的第二部分，作为上述目标窗口相对于上一窗口的重复帧特征；将上述目标窗口在上述各卷积层的输入特征中的第一部分和第三部分，作为上述目标窗口相对于上述上一窗口的非重复帧特征。
[0065]
在本实施例的一些可选的实现方式中，上述第二处理单元303，进一步被配置成：对于上述卷积神经网络的每个卷积层，将上述目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层，分别得到第一卷积计算结果和第三卷积计算结果；从该卷积层针对上述上一窗口的卷积计算结果中，提取上述上一窗口在该卷积层的输入特征
中的第二部分对应的卷积计算结果，作为第二卷积计算结果；将上述第一卷积计算结果、上述第二卷积计算结果和上述第三卷积计算结果进行汇总，得到该卷积层针对上述目标窗口的卷积计算结果。
[0066]
在本实施例的一些可选的实现方式中，上述第二处理单元303，进一步被配置成：对于上述卷积神经网络的每个卷积层，基于该卷积层的第一补帧参数，对上述目标窗口在该卷积层的输入特征中的第一部分的左侧进行补帧，得到第一补音频帧特征；将上述第一补音频帧特征输入至该卷积层，得到第一卷积计算结果；对于上述卷积神经网络的每个卷积层，基于该卷积层的第二补帧参数，对上述目标窗口在该卷积层的输入特征中的第三部分的右侧进行补帧，得到第二补音频帧特征；将上述第二补音频帧特征输入至该卷积层，得到第三卷积计算结果。
[0067]
在本实施例的一些可选的实现方式中，首个卷积层的输入特征包括窗口的音频帧特征；其余各卷积层的输入特征包括上一卷积层输出的卷积计算结果。
[0068]
本技术的上述实施例提供的装置，通过对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；而后将首个窗口的音频帧特征输入至卷积神经网络，得到首个窗口的特征处理结果；最后依次将其余每个窗口作为目标窗口，确定目标窗口相对于上一窗口的重复帧特征和非重复帧特征，基于卷积神经网络确定非重复帧特征的特征处理结果，从上一窗口的特征处理结果中提取重复帧特征的特征处理结果，并基于非重复帧特征的特征处理结果和重复帧特征的特征处理结果，确定目标窗口的特征处理结果。由此，在针对每个窗口进行特征处理时，可直接拷贝上一窗口的重复帧特征的处理结果，仅对非重复帧特征进行处理，避免了相同音频帧特征的重复计算，由此避免了计算资源浪费，提高了音频数据的处理效率。
[0069]
图4是根据一示例性实施例示出的用于处理特征的装置400的框图，该装置400可以为智能终端或者服务器。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
[0070]
参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(i/o)的接口412，传感器组件414，以及通信组件416。
[0071]
处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。
[0072]
存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
[0073]
电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系
units，cpu)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。
[0082]
服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，一个或一个以上键盘556，和/或，一个或一个以上操作系统541，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
[0083]
一种非临时性计算机可读存储介质，当上述存储介质中的指令由装置(智能终端或者服务器)的处理器执行时，使得装置能够执行特征处理方法，上述方法包括：对音频数据进行分帧加窗处理，并提取各窗口的音频帧特征；将首个窗口的音频帧特征输入至卷积神经网络，得到所述首个窗口的特征处理结果；依次将其余每个窗口作为目标窗口，执行如下步骤：确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征；基于所述卷积神经网络确定所述非重复帧特征的特征处理结果，从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果，并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果，确定所述目标窗口的特征处理结果。
[0084]
可选的，所述卷积神经网络包括至少一个卷积层，所述特征处理结果中包括所述卷积神经网络中每个卷积层的卷积计算结果。
[0085]
可选的，所述将首个窗口的音频帧特征输入至卷积神经网络，得到所述首个窗口的特征处理结果，包括：将所述首个窗口的音频帧特征输入至所述卷积神经网络的首个卷积层，得到所述首个卷积层针对所述首个窗口的卷积计算结果；对于从第二个卷积层起的每个卷积层，将上一卷积层针对所述首个窗口的卷积计算结果输入至该卷积层，得到该卷积层针对所述首个窗口的卷积计算结果。
[0086]
可选的，所述确定所述目标窗口相对于上一窗口的重复帧特征和非重复帧特征，包括：基于预设的窗口长度、预设的窗口滑动步长以及所述卷积神经网络中的各卷积层中的卷积核大小，将各窗口在所述各卷积层的输入特征划分为第一部分、第二部分和第三部分；将所述目标窗口在所述各卷积层的输入特征中的第二部分，作为所述目标窗口相对于上一窗口的重复帧特征；将所述目标窗口在所述各卷积层的输入特征中的第一部分和第三部分，作为所述目标窗口相对于所述上一窗口的非重复帧特征。
[0087]
可选的，所述基于所述卷积神经网络确定所述非重复帧特征的特征处理结果，从所述上一窗口的特征处理结果中提取所述重复帧特征的特征处理结果，并基于所述非重复帧特征的特征处理结果和所述重复帧特征的特征处理结果，确定所述目标窗口的特征处理结果，包括：对于所述卷积神经网络的每个卷积层，将所述目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层，分别得到第一卷积计算结果和第三卷积计算结果；从该卷积层针对所述上一窗口的卷积计算结果中，提取所述上一窗口在该卷积层的输入特征中的第二部分对应的卷积计算结果，作为第二卷积计算结果；将所述第一卷积计算结果、所述第二卷积计算结果和所述第三卷积计算结果进行汇总，得到该卷积层针对所述目标窗口的卷积计算结果。
[0088]
可选的，所述对于所述卷积神经网络的每个卷积层，将所述目标窗口在该卷积层的输入特征中的第一部分和第三部分分别输入至该卷积层，分别得到第一卷积计算结果和第三卷积计算结果，包括：对于所述卷积神经网络的每个卷积层，基于该卷积层的第一补帧参数，对所述目标窗口在该卷积层的输入特征中的第一部分的左侧进行补帧，得到第一补音频帧特征；将所述第一补音频帧特征输入至该卷积层，得到第一卷积计算结果；对于所述卷积神经网络的每个卷积层，基于该卷积层的第二补帧参数，对所述目标窗口在该卷积层的输入特征中的第三部分的右侧进行补帧，得到第二补音频帧特征；将所述第二补音频帧特征输入至该卷积层，得到第三卷积计算结果。
[0089]
可选的，首个卷积层的输入特征包括窗口的音频帧特征；其余各卷积层的输入特征包括上一卷积层输出的卷积计算结果。
[0090]
本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本技术的真正范围和精神由下面的权利要求指出。
[0091]
应当理解的是，本技术并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
[0092]
以上上述仅为本技术的较佳实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。
[0093]
以上对本技术所提供的特征处理方法、装置和用于处理特征的装置进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本技术的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种语音翻译方法、装置和用于语音翻译的装置与流程

特征处理方法、装置和用于处理特征的装置与流程

相关文献

最热文献