一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于神经网络模型的数据识别方法、装置、设备及介质与流程

2021-09-17 23:13:00 来源:中国专利 TAG:神经网络 人工智能 介质 识别 装置


1.本技术涉及人工智能技术领域,具体而言,本技术涉及一种基于神经网络模型的数据识别方法、装置、设备及介质。


背景技术:

2.通常来说,深度神经网络的表达能力可以随着网络深度的增加而增强,但是,随着网络层数的增加,对网络进行训练的难度也会逐渐加大,梯度消失的问题也会愈加严重,很有可能导致网络性能并不能继续提升,反而可能出现性能下降的情况。


技术实现要素:

3.本技术实施例提供一种基于神经网络模型的数据识别方法、装置、设备及介质,能够有效的缓解神经网络中梯度消失的问题。
4.一方面,本技术实施例提供了一种基于神经网络模型的数据识别方法,该神经网络模型包括依次级联的若干个特征提取层以及注意力网络,该方法包括:
5.获取待识别数据;
6.基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征;
7.基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重;
8.基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征;
9.基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。
10.另一方面,本技术实施例提供了一种基于神经网络模型的数据识别装置,该神经网络模型包括依次级联的若干个特征提取层以及注意力网络,该装置包括:
11.数据获取模块,用于获取待识别数据;
12.输出特征确定模块,用于基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征;
13.数据特征确定模块,用于基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,并基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征;
14.识别结果确定模块,用于基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。
15.再一方面,本技术实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器执行上述基于神经网络模型的数据识别方法。
16.又一方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述基于神
经网络模型的数据识别方法。
17.本技术实施例提供的技术方案带来的有益效果是:
18.在本技术可选的实施例中,由于神经网络模型中包括了依次级联的若干个特征提取层以及注意力网络,进而在获取到获取待识别数据时,可以基于各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征,然后可以基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,此时不同的特征提取层在得到待识别数据对应的数据特征中将可以起到不同的作用,提升了神经网络模型的性能;进一步的,可以通过注意力网络,基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征。由此,通过注意力网络可以在特征提取层之间建立更加直接的连接,每一个特征提取层的输出都可直接影响所确定的数据特征,此时将有利于特征提取层之间梯度的传播,可以缓解梯度消失的问题,并且由于注意力网络的梯度传播不受网络层数加深的影响,从而有利于更深层网络的学习,进而可以有效地提升整个网络性能。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
20.图1为本技术实施例提供的一种基于神经网络模型的数据识别方法的流程示意图;
21.图2为本技术实施例提供的一种deep-fsmn(deep-feedforward sequential memory networks,深层前馈序列记忆神经网络)网络的结构示意图;
22.图3为本技术实施例提供的又一种基于神经网络模型的数据识别方法的流程示意图;
23.图4为本技术实施例提供的一种基于神经网络模型的数据识别装置的结构示意图;
24.图5为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
25.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本技术,而不能解释为对本技术的限制。
26.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
27.目前,通常可以基于各种神经网络实现各种不同的功能,但是深度神经网络的表达能力是随着网络深度的增加而增强的,随着网络层数的增加,其训练难度也会逐渐加大,
technologies)、虚拟化(virtualization)、负载均衡(load balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
34.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
35.如图1所示,本技术实施例提供了一种基于神经网络模型的数据识别方法,该方法中所基于的神经网络模型可以包括依次级联的若干个特征提取层以及注意力网络,可以理解的是,该神经网络模型是经过训练得到的神经网络模型,如图1中所示,该方法可以包括:
36.步骤s101,获取待识别数据。
37.其中,对于待识别数据的具体数据类型本技术实施例不做限定,对于不同的应用场景或需求,待识别数据会有所不同。可选的,该待识别数据可以为待识别语音数据、待识别图像数据或待识别文本数据等,也可以为语音数据对应的声学特征或文本数据对应的文本特征等。
38.步骤s102,基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征。
39.可选的,该神经网络模型中还包括有输入层,在获取到待识别数据后,可以将待识别数据输入至该输入层,该输入层可以将待识别数据输入至依次级联的若干个特征提取层,然后可以通过各特征提取层,对该待识别数据进行特征提取,得到对应于各特征提取层的输出特征。
40.作为一个示例,比如待识别数据可以是语音数据,在通过该神经网络模型进行处理时,可以首先提取语音数据的声学特征,之后将语音数据的声学特征输入至神经网络模型中,经过级联的各特征提取层得到各特征提取层对应的语音特征,可以理解的是,后一特征提取层的输入包括该特征提取层的前一特征提取层的输出特征。
41.步骤s103,基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重。
42.其中,注意力网络可以为自注意力网络,也可以为多头注意力网络等,本技术实施例对注意力网络的具体类型不进行限定。
43.在得到各特征提取层的输出特征后,可以将各特征提取层的输出特征输入至注意力网络,该注意力网络可以基于输入的各特征提取层的输出特征进行学习,得到每个特征提取层的权重。其中,每个特征提取层的权重表征了该层的输出特征对最终输出结果的影响。
44.在本技术实施例中,可以基于注意力网络来改善神经网络模型内的梯度消失的问题,由于注意力网络内层之间的计算比较简便,进而可以有效的提升了数据处理效率,并且在模型训练阶段,也可以减少模型训练时间,提升了模型的训练速度。
45.步骤s104,基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征。
46.可选的,在基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别
数据对应的数据特征时,可以基于各特征提取层的权重对各特征提取层的输出特征进行加权以及融合处理,得到加权融合处理后的各输出特征,然后可以基于加权融合处理后的各输出特征,得到待识别数据对应的数据特征。
47.步骤s105,基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。
48.可选的,由于待识别数据对应的数据特征可以表征待识别数据,因此可以根据得到的数据特征,得到待识别数据对应的识别结果。例如,当待识别数据为待识别文本数据时,可以基于对应的数据特征,得到待识别文本数据的文本识别结果。
49.在本技术可选的实施例中,由于神经网络模型中包括了依次级联的若干个特征提取层以及注意力网络,进而在获取到获取待识别数据时,可以基于各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征,然后可以基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,此时不同的特征提取层在得到待识别数据对应的数据特征中将可以起到不同的作用,提升了神经网络模型的性能;进一步的,可以通过注意力网络,基于各特征提取层的权重对各特征提取层的输出特征进行加权融合,通过加权融合后的各输出特征,得到待识别数据对应的数据特征。在这个过程中,注意力网络可以在特征提取层之间建立更加直接的连接,每一个特征提取层的输出都可直接影响所确定的数据特征,此时将有利于特征提取层之间梯度的传播,可以缓解梯度消失的问题,并且由于注意力网络的梯度传播不受网络层数加深的影响,此时有利于深层网络的学习,进而可以有效的提升整个网络性能。
50.在本技术可选的实施例中,若干个特征提取层包括至少三个特征提取层,基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征,包括:
51.基于待识别数据,通过第一个特征提取层,得到第一个特征提取层对应的输出特征;
52.基于第一个特征提取层对应的输出特征,通过第二个特征提取层,得到第二个特征提取层对应的输出特征;
53.对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,基于该特征提取层的前一特征提取层的输入特征和输出特征,得到该特征提取层对应的输出特征。
54.其中,本技术实施例中的神经网络模型可以包括至少三个依次级联的特征提取层。可选的,在获取到待识别数据时,可以将待识别数据输入至第一个特征提取层,第一个特征提取层对待识别数据进行特征提取,得到输出特征,然后可以将第一个特征提取层对应的输出特征输入至第二个特征提取层,第二个特征提取层基于输入的第一个特征提取层对应的输出特征进行特征提取,得到对应的输出特征;进一步的,可以将第二个特征提取层对应的输出特征和输入特征(即第一个特征提取层对应的输出特征)输入至第三个特征提取层,第三个特征提取层基于输入的特征进行特征提取,得到对应的输出特征,然后将对应的输出特征和输入特征(即第二个特征提取层对应的输出特征)输入至第四个特征提取层,以此类推,直至得到最后一个特征提取层对应的输出特征。
55.在本技术实施例中,对于除第一个特征提取层之外的特征提取层,由于该特征提取层的输入包括了前一特征提取层的输入特征和输出特征,此时该特征提取层的输入将会融合了更多的信息,相应的,基于各特征提取层所得到的数据特征将具备更加丰富的语义
信息,进而根据该数据特征,所得到的待识别数据对应的识别结果将会更加准确。
56.在本技术可选的实施例中,神经网络模型还包括残差连接层,各特征提取层中除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接;
57.对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,基于该特征提取层的前一特征提取层的输入特征和输出特征,得到该特征提取层对应的输出特征,包括:
58.对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,通过该特征提取层和该特征提取层的前一特征提取层之间的残差连接层,将该特征提取层的前一特征提取层的输入特征和输出特征进行融合;
59.将融合后的特征输入至该特征提取层,得到该特征提取层对应的输出特征。
60.可选的,神经网络模型在包括多个特征提取层时,对于除第一个特征提取层之外的特征提取层,可以在相邻的特征提取层之间通过残差连接层连接,此时可以基于残差连接层进一步的改善除第一个特征提取层之外的各特征提取层之间的梯度传递情况,有利于深层网络之间的学习。
61.可选的,当除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接时,对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,可以通过该特征提取层和该特征提取层的前一特征提取层之间的残差连接层,将该特征提取层的前一特征提取层的输入特征和输出特征进行融合,然后将融合后的特征输入至该特征提取层,得到该特征提取层对应的输出特征。例如,可以通过全连接网络将前一特征提取层的输入特征中的每个元素值和输出特征中对应位置的元素值相加,并将相加处理后得到特征作为该特征提取层对应的输入特征。
62.在一示例中,假设对于神经网络模型中的第二个特征提取层和第三个特征提取层,此时该第三个特征提取层与第二个特征提取层之间通过残差连接层连接,而在得到第三个特征提取层对应的输入特征时,可以基于该残差连接层将第二个特征提取层的输入特征和第二个特征提取层的输出特征进行按元素点相加(即将两种特征的对应位置的元素值相加),然后将相加后的特征作为第三个特征提取层的输入特征。
63.在本技术可选的实施例中,基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,包括:
64.基于最后一个特征提取层的输出特征,通过注意力网络,得到自注意力网络的查询向量;
65.基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层所对应的键向量;
66.基于查询向量和各特征提取层所对应的键向量,通过注意力网络,得到各特征提取层的权重。
67.可选的,可以将各特征提取层的输出特征输入至注意力网络,此时可以基于最后一个特征提取层的输出特征,通过注意力网络,得到自注意力网络的查询向量、以及基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层所对应的各键向量,相应的,可以基于得到的查询向量和各特征提取层所对应的键向量,通过注意力网络,得到各特征提取层的权重(即各特征提取层的输出特征所对应的权重)。
68.其中,注意力网络中可以包括分别用于确定查询向量和各键向量的网络结构(如全连接层),此时可以基于该网络结构得到查询向量和各特征提取层所对应的键向量。相应的,可以将最后一个特征提取层的输出特征输入至用于确定查询向量的网络结构,然后基于该网络结构得到注意力网络的查询向量,以及可以将各特征提取层的输出特征输入至用于确定各键向量的网络结构,该网络结构可以基于各特征提取层的输出特征,得到各键向量,每个键向量对应于一个特征提取层,具体的可以基于下列公式(1)和公式(2)表征:
69.q=f
l
w
q
ꢀꢀ
公式(1)
70.k
l
=f
l
w
k
,l=1

l
ꢀꢀ
公式(2)
71.其中,q表示查询向量,l表示第l个特征提取层,k
l
表示对应于第l个特征提取层的键向量,f
l
表示第l个特征提取层的输出特征(即最后一个特征提取层的输出特征),f
l
表示第l个特征提取层的输出特征,w
q
和w
k
分别表示用于确定查询向量和各键向量的网络结构的权重参数(即注意力网络的网络参数),其中,w
q
和w
k
可以通过训练神经网络模型时基于误差(即训练损失)传递学习得到。
72.可选的,基于查询向量和各键向量,通过注意力网络,得到各特征提取层的输出特征对应的权重时,可以通过注意力网络分别计算各特征提取层对应的键向量与查询向量的相似度,然后基于各特征提取层对应的键向量与查询向量的相似度,得到各特征提取层的权重。具体可以通过如下列公式(3)和公式(4)表征:
73.e
l
=<q,k
l

ꢀꢀ
公式(3)
[0074][0075]
其中,q表示查询向量,k
l
表示对应于第l个特征提取层的键向量,e
l
表示第l个特征提取层对应的键向量与查询向量的相似度,α
l
表示第l个特征提取层的权重。
[0076]
在本技术可选的实施例中,基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征,包括:
[0077]
基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的值向量:
[0078]
使用各特征提取层的权重,分别对各特征提取层的值向量进行加权处理,通过融合加权处理后的各值向量,得到待识别数据对应的数据特征。
[0079]
可选的,在基于各特征提取层的权重对各特征提取层的输出特征进行加权处理时,可以基于各特征提取层的输出特征,通过注意力网络,得到注意力网络对应于各特征提取层的值向量(即各特征提取层的输出特征的值向量),然后通过注意力网络、使用各特征提取层的权重分别对各特征提取层的输出特征的值向量进行加权以及融合处理,得到融合处理后的特征,并将融合处理后的特征作为待识别数据对应的数据特征,具体可以通过如下公式(5)所示:
[0080][0081]
其中,y表示待识别数据对应的数据特征,即融合加权处理后的特征,v
l
表示对应于第l个特征提取层的值向量,α
l
表示对应于第l个特征提取层的权重。
[0082]
其中,注意力网络中可以包括用于确定各特征提取层的值向量的网络结构(如全
连接层),此时可以将各特征提取层的输出特征输入至该网络结构,得到注意力网络对应于各特征提取层的值向量,具体可以通过下列公式(6)表示:
[0083]
v
l
=f
l
w
v
,l=1

l
ꢀꢀ
公式(6)
[0084]
其中,v
l
表示对应于第l个特征提取层的值向量,l表示共l个特征提取层,l即最后一个特征提取层,l表示第l个特征提取层,f
l
表示第l个特征提取层的输出特征,w
v
表示用于确定值向量的网络结构的权重参数(即注意力网络的参数),其中,w
v
可以通过训练神经网络模型时基于误差传递学习得到。
[0085]
在本技术可选的实施例中,注意力网络包括多头注意力网络,基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,包括:
[0086]
对于多头注意力网络的每一注意力网络分支,基于各特征提取层的输出特征,通过该注意力网络分支,得到各特征提取层的权重;
[0087]
基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征,包括:
[0088]
对于多头注意力网络的每一注意力网络分支,基于该注意力网络分支对应的各特征提取层的权重对各特征提取层的输出特征进行加权处理,通过融合加权处理后的各输出特征,得到该注意力网络分支对应的融合后的特征;
[0089]
拼接多头注意力网络的各注意力网络分支对应的融合后的特征,并基于拼接后的特征,得到待识别数据对应的数据特征。
[0090]
可选的,当注意力网络包括多头注意力网络时,该多头注意力网络包括多个注意力网络分支,此时对于每个注意力网络分支,可以基于各特征提取层的输出特征,通过该注意力网络分支,得到各特征提取层的权重,然后基于各特征提取层的权重对各特征提取层的输出特征进行加权处理,通过融合加权处理后的各输出特征,得到该注意力网络分支对应的融合后的特征;相应的,在得到每个注意力网络分支对应的融合后的特征后,可以将每个注意力网络分支对应的融合后的特征进行拼接,得到拼接后的特征,然后基于拼接后的特征,得到待识别数据对应的数据特征。
[0091]
作为一种可选的实施例,在将每个注意力网络分支对应的融合后的特征进行拼接时,可以通过全连接网络将每个注意力网络分支对应的融合后的特征分别映射至相同维度的特征,然后将各相同维度的特征进行拼接,得到拼接后的特征,而在基于拼接后的特征,得到待识别数据对应的数据特征时,可以通过对该拼接后的特征进行进一步特征提取得到,如可以将拼接后的特征点乘该多头注意力网络的网络参数(如权重参数),得到待识别数据对应的数据特征。
[0092]
其中,对于每个注意力网络分支,在确定该注意力网络分支对应的融合后的特征时,该注意力网络分支存在对应的查询向量、以及对应于各特征提取层的键向量和值向量,此时可以将注意力网络分支对应的查询向量、各键向量和各值向量称之为一个向量组。其中,确定一个注意力网络分支对应的查询向量、以及对应于各特征提取层的键向量和值向量的方式与前文中确定查询向量、各键向量和各值向量的方式原理相同,具体可参见前文描述,在此就不再赘述。
[0093]
可选的,注意力网络可以是多头注意力网络,得到待识别数据对应的数据特征可以通过下列公式(7)表征:
[0094][0095]
其中,multihead(q,k,v)表示待识别数据对应的数据特征,q表示查询向量,k表示键向量,v表示值向量,head
h
表示第h个注意力网络分支对应的融合后的特征,head
i
表示第i个注意力网络分支对应的融合后的特征,(q
i
,k
i
,v
i
)表示第i个注意力网络分支的向量组,q
i
表示第i个注意力网络分支对应的查询向量,k
li
表示第i个注意力网络分支对应第l个特征提取层的键向量,v
li
表示第i个注意力网络分支对应第l个特征提取层的值向量,w
qi
、w
ki
和w
vi
表示第i个注意力网络分支时,用于确定第i个注意力网络分支对应的查询向量、各键向量和各值向量的网络结构的权重参数(即第i个注意力网络分支的网络参数),f
l
表示第l个特征提取层的输出特征,concat(head1,

,head
h
)表示将h个注意力网络分支对应的融合后的特征进行拼接,w
o
表示权重参数(即多头注意力网络的网络参数),w
o
也是通过训练神经网络模型时基于误差(即训练损失)传递学习得到,基于该权重参数实现对拼接后的特征的进一步提取,得到待识别数据对应的数据特征。
[0096]
在本技术实施例中,在注意力网络为多头注意力网络时,由于多头注意力网络包括多个注意力网络分支,此时可以先分别采用每个注意力网络分支、以及各特征提取层的输出特征,对各特征提取层的输出特征先进行加权和融合处理,得到每个注意力网络分支对应的融合后的特征,然后再对每个注意力网络分支对应的融合后的特征进行拼接,得到待识别数据对应的数据特征。可见,在本技术实施例中,可以基于每个注意力网络分支先对特征提取层之间建立连接,从而体现出不同的特征提取层在得到数据特征时可以起到的作用,然后再将每个注意力网络分支对应的融合后的特征进行拼接,并基于拼接后的特征得到最终的数据特征,通过再一次对各特征提取层之间建立连接,扩展了不同位置的特征提取层的能力,从而有利于特征提取层之间梯度的传播,进一步地提升了神经网络模型的性能。
[0097]
在本技术可选的实施中,待识别数据包括待识别语音数据,神经网络模型包括声学模型;
[0098]
基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征,包括:
[0099]
对待识别语音数据进行特征提取,得到待处理语音数据中各帧语音数据对应的声学特征;
[0100]
对于任一帧语音数据对应的声学特征,通过各特征提取层,提取得到该声学特征分别对应于各特征提取层的输出特征;
[0101]
基于待识别数据的数据特征,得到待识别数据对应的识别结果,包括:
[0102]
基于各帧语音数据对应的数据特征,得到待识别语音数据对应的声学特征的后验概率;
[0103]
基于后验概率,得到待处理语音数据对应的识别结果。
[0104]
可选的,本技术实施例中的方法可以应用在语音识别的场景中,此时声学模型中可以包括依次级联的若干个特征提取层以及注意力网络,在基于该声学模型得到语音数据的对应的识别结果时,可以对待识别语音数据进行特征提取,得到待识别语音数据中各帧语音数据对应的声学特征,此时对于任一帧语音数据对应的声学特征,可以通过各特征提取层,提取得到该声学特征分别对应于各特征提取层的输出特征,然后基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,并基于各特征提取层的权重对各特征提取层的输出特征进行加权以及融合处理,通过加权融合处理后的各输出特征,得到该帧语音数据对应的数据特征;相应的,在得到待识别包括的各帧语音数据对应的数据特征后,可以基于各帧语音数据对应的数据特征,得到待识别语音数据的识别结果。
[0105]
在实际应用中,在对待识别语音数据进行语音识别时,通常可以通过训练好的语音识别模型实现,但是训练好的语音识别模型通常对训练数据中的标注语料存在依赖,而为了摆脱语音识别模型对标注语料的依赖,提升语音识别模型的鲁棒性,在进行待识别语音数据的语音识别时可以确定待识别语音数据的声学特征所对应的后验概率,然后基于得到后验概率,得到待识别语音数据的语音识别结果,此时得到的语音识别结果将更加准确。相应的,在本技术实施例中,在基于神经网络模型得到待识别语音数据的识别结果时,可以先确定各帧语音数据对应的数据特征,并基于各帧语音数据对应的数据特征,得到待识别语音数据对应的声学特征的后验概率,然后可以基于得到的声学特征的后验概率,得到待识别语音数据的语音识别结果。
[0106]
可选的,声学特征的具体类型本技术实施例不限定,如可以为fbank(filterbank,基于滤波器组)特征,对于fbank特征,还可以经过一系列处理,如包括加入二阶差分、归一化、扩帧等处理。所得到的用于表征后验概率的维度与声学模型的建模单元有关,常用的建模单元包括音素、音节等。
[0107]
可以理解的是,本技术实施例所提供的方式所应用的场景包括但不限于语音识别的神经网络模型中,对于存在可能存在梯度消失的神经网络模型,均可以采用本技术实施例所提供的方法。
[0108]
为了更好的理解本技术实施例所提供的方法,下面结合具体的应用场景对该方法进行详细说明。在本示例中,神经网络模型为如图2所示的带有残差连接层(即skip connection)的深层前馈序列记忆神经网络(deep-fsmn),该deep-fsmn模型为声学模型中的一种。如图2所示,该deep-fsmn模型包括输入层(即input)、依次级联的l个隐藏层(fsmn层,即前文中的特征提取层)、注意力网络(attention network)以及输出层(即output),可选的,注意力网络在网络结构示意图中可通过attention layer来表征,各隐藏层中除第一个隐藏层之外的、相邻的隐藏层之间通过残差连接层连接,该注意力网络包括用于分别确定查询向量(query)、键向量(key)和值向量(value)的全连接层(图2中未示出)。其中,在本示例中,可以通过f
l
(l=1,2,

,l)表示各隐藏层的变换,此时各隐藏层的输出为f
l
=f
l
(o
l
),o
l
表示隐藏层的输入,f
l
(l=1,2,

,l)代表各隐藏层的输出特征;对于除第一个隐藏层和第二个隐藏层之外的隐藏层的输入为o
l
=o
l-1
f
l-1
,o
l-1
代表当前隐藏层的前一隐藏层的输入特征,f
l-1
代表当前隐藏层的前一隐藏层的输出特征。
[0109]
可选的,在本示例中,待识别数据为待识别语音数据,声学特征为fbank特征,待识别数据对应的识别结果为语音识别结果,此时在得到语音识别结果时具体可以如图3所示:
[0110]
步骤s401,获取待识别语音数据,并输入至神经网络模型中;
[0111]
可选的,在获取到待识别语音数据后,可以对待识别语音数据中的每帧语音数据进行声学特征提取,得到待识别语音数据对应的fbank特征(本示例中以待识别语音数据包括一帧语音数据为例进行说明),并将fbank特征(即o0)输入至神经网络模型中。
[0112]
步骤s402,基于神经网络模型中的各隐藏层,提取得到待识别语音数据分别对应于各隐藏层的输出特征;
[0113]
其中,由于第一个隐藏层不带有残差连接层,该第一个隐藏层的输入(即o0)即为待识别语音数据的fbank特征。可选的,当fbank特征通过输入层输入至deep-fsmn模型中后,第一个隐藏层对fbank特征进行特征提取,得到输出特征f1,然后可以将f1输入至第二个隐藏层,第二隐藏层基于f1进行特征提取,得到对应的输出特征f2,然后可以基于残差连接层将f2和输入特征o1(即第一个隐藏层对应的输出特征f1)输入至第三个隐藏层,以此类推,直至得到最后一个隐藏层对应的输出特征f
l

[0114]
步骤s403,将各隐藏层的输出特征输入至注意力网络;
[0115]
可选的,在得到各隐藏层对应的输出特征f
l
(l=1,2,

,l)时,可以将各隐藏层对应的输出特征输入至注意力网络。
[0116]
步骤s404,基于最后一个隐藏层的输出特征,通过注意力网络,得到注意力网络的查询向量;
[0117]
可选的,可以基于注意力网络将最后一个隐藏层对应的输出特征f
l
与用于确定查询向量的全连接层的权重参数w
q
相乘得到注意力网络的查询向量q。
[0118]
步骤s405,基于各隐藏层的输出特征,通过注意力网络,得到各隐藏层所对应的键向量;
[0119]
可选的,可以通过注意力网络将每个隐藏层的输出特征f
l
(l=1,2,

,l),分别与用于确定键向量的全连接层的权重参数w
k
相乘得到各隐藏层对应的键向量k
l

[0120]
步骤s406,基于查询向量和各隐藏层所对应的键向量,通过注意力网络,得到各隐藏层的权重。
[0121]
可选的,将每个各隐藏层的输出特征f
l
(l=1,2,

,l)分别与用于确定值向量的全连接层(注意力网络内)的权重参数w
v
相乘得到各隐藏层对应的值向量v
l
。进一步的,可以通过注意力网络分别计算每个隐藏层对应的键向量k
l
与查询向量q的相似度e
l
,然后基于各隐藏层对应的键向量k
l
与查询向量q的相似度e
l
,得到各隐藏层的权重α
l

[0122]
步骤s407,使用各隐藏层的权重,分别对各特征提取层的值向量进行加权处理,通过融合加权处理后的各值向量,得到待识别数据对应的数据特征;
[0123]
进一步的,对于各隐藏层的输出特征,可以基于各隐藏层的权重α
l
分别对各隐藏层的输出特征f
l
(l=1,2,

,l)进行加权处理,得到各加权处理后的各特征,然后将各加权处理后的各特征进行融合处理,并将融合处理后的特征作为待识别语音数据对应的数据特征。
[0124]
步骤s408,基于待识别语音数据对应的数据特征,得到待识别语音数据对应的语音识别结果。
[0125]
可选的,在得到待识别语音数据对应的数据特征后,可以基于该数据特征确定用于确定语音识别结果的后验概率y,然后基于后验概率y,得到待识别语音数据对应的语音
识别结果并通过输出层输出。
[0126]
其中,所输出后验概率的维度与声学模型(本示例中为deep-fsmn模型)的建模单元有关,常用建模单元包括音素、音节等。在语音识别中,语音识别系统中的解码器会利用声学模型和语音模型的输出来进行解码,得到最终的语音识别结果,此时得到的后验概率对语音识别系统中的解码器的识别效果起到至关重要的作用。
[0127]
本技术实施例提供了一种基于神经网络模型的数据识别装置,如图4所示,该基于神经网络模型的数据识别装置60可以包括:数据获取模块601、输出特征确定模块602、数据特征确定模块603以及识别结果确定模块604,其中,
[0128]
数据获取模块601,用于获取待识别数据;
[0129]
输出特征确定模块602,用于基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征;
[0130]
数据特征确定模块603,用于基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,并基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征;
[0131]
识别结果确定模块604,用于基于待识别数据对应的数据特征,得到待识别数据对应的识别结果。
[0132]
可选的,若干个特征提取层包括至少三个特征提取层,输出特征确定模块在基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征时,具体用于:
[0133]
基于待识别数据,通过第一个特征提取层,得到第一个特征提取层对应的输出特征;
[0134]
基于第一个特征提取层对应的输出特征,通过第二个特征提取层,得到第二个特征提取层对应的输出特征;
[0135]
对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,基于该特征提取层的前一特征提取层的输入特征和输出特征,得到该特征提取层对应的输出特征。
[0136]
可选的,神经网络模型还包括残差连接层,各特征提取层中除第一个特征提取层之外的、相邻的特征提取层之间通过残差连接层连接;
[0137]
对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,输出特征确定模块在基于该特征提取层的前一特征提取层的输入特征和输出特征,得到该特征提取层对应的输出特征时,具体用于:
[0138]
对于除第一个特征提取层和第二个特征提取层之外的任一特征提取层,通过该特征提取层和该特征提取层的前一特征提取层之间的残差连接层,将该特征提取层的前一特征提取层的输入特征和输出特征进行融合;
[0139]
将融合后的特征输入至该特征提取层,得到该特征提取层对应的输出特征。
[0140]
可选的,数据特征确定模块在基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重时,具体用于:
[0141]
基于最后一个特征提取层的输出特征,通过注意力网络,得到自注意力网络的查询向量;
[0142]
基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层所对应的键
向量;
[0143]
基于查询向量和各特征提取层所对应的键向量,通过注意力网络,得到各特征提取层的权重。
[0144]
可选的,数据特征确定模块在基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征时,具体用于:
[0145]
基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的值向量:
[0146]
使用各特征提取层的权重,分别对各特征提取层的值向量进行加权处理,通过融合加权处理后的各值向量,得到待识别数据对应的数据特征。
[0147]
可选的,注意力网络包括多头注意力网络,数据特征确定模块在基于各特征提取层的输出特征,通过注意力网络,得到各特征提取层的权重,以及基于各特征提取层的权重、以及各特征提取层的输出特征,得到待识别数据对应的数据特征时,具体用于:
[0148]
对于多头注意力网络的每一注意力网络分支,基于各特征提取层的输出特征,通过该注意力网络分支,得到各特征提取层的权重,并基于各特征提取层的权重对各特征提取层的输出特征进行加权处理,通过融合加权处理后的各输出特征,得到该注意力网络分支对应的融合后的特征;
[0149]
拼接多头注意力网络的各注意力网络分支对应的融合后的特征,并基于拼接后的特征,得到待识别数据对应的数据特征。
[0150]
可选的,待识别数据包括待识别语音数据,神经网络模型包括声学模型;
[0151]
输出特征确定模块在基于待识别数据,通过各特征提取层,提取得到待识别数据分别对应于各特征提取层的输出特征时,具体用于:
[0152]
对待识别语音数据进行特征提取,得到待识别语音数据中各帧语音数据对应的声学特征;
[0153]
对于任一帧语音数据对应的声学特征,通过各特征提取层,提取得到该声学特征分别对应于各特征提取层的输出特征;
[0154]
识别结果确定模块在基于待识别数据的数据特征,得到待识别数据对应的识别结果时,具体用于:
[0155]
基于各帧语音数据对应的数据特征,得到待识别语音数据的声学特征的后验概率;
[0156]
基于后验概率,得到待识别语音数据对应的识别结果。
[0157]
本技术实施例的基于神经网络模型的数据识别装置可执行本技术实施例提供的一种基于神经网络模型的数据识别方法,其实现原理相类似,此处不再赘述。
[0158]
本技术实施例提供了一种电子设备,如图5所示,图5所示的电子设备2000包括:处理器2001和存储器2003。其中,处理器2001和存储器2003相连,如通过总线2002相连。可选地,电子设备2000还可以包括收发器2004。需要说明的是,实际应用中收发器2004不限于一个,该电子设备2000的结构并不构成对本技术实施例的限定。
[0159]
其中,处理器2001应用于本技术实施例中,用于实现图4所示的各模块的功能。
[0160]
处理器2001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2001也可以是实现计算功能的组合,例如包
含一个或多个微处理器组合,dsp和微处理器的组合等。
[0161]
总线2002可包括一通路,在上述组件之间传送信息。总线2002可以是pci总线或eisa总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0162]
存储器2003可以是rom或可存储静态信息和计算机程序的其他类型的静态存储设备,ram或者可存储信息和计算机程序的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
[0163]
存储器2003用于存储执行本技术方案的应用程序的计算机程序,并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序,以实现图4所示实施例提供的基于神经网络模型的数据识别装置的动作。
[0164]
本技术实施例提供了一种电子设备,包括处理器以及存储器:存储器被配置用于存储计算机程序,计算机程序在由处理器执行时,使得处理器上述实施例中的任一项方法。
[0165]
本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在计算机上运行时,使得计算机可以执行上述实施例中的任一项方法。
[0166]
根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
[0167]
本技术中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本技术实施例中的一种基于神经网络模型的数据识别方法,在此不再赘述。
[0168]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0169]
以上仅是本技术的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜