语音识别方法、装置和介质与流程

2022-02-19 03:26:16 来源：中国专利 TAG：

1.本发明实施例涉及语音识别技术领域，特别是涉及一种语音识别方法、装置和介质。

背景技术：

2.语音识别技术是通过计算机把语音信号转换为对应的文本的技术，其将人类语音中的词汇内容转换为实际的文字输出，是实现人与机器交互的主要途径之一。语音识别技术已经广泛应用于语音输入法、语音拨号、车载导航等各种场合。随着语音识别技术的应用场景的不断丰富，对语音识别技术的实时率和准确率提出了更高的要求。
3.目前的语音识别技术，可以采用基于注意力的端到端模型。端到端模型包括：编码器和解码器。其中，编码器将输入的语音编码为高层次的特征表示。解码器从起始符号开始，根据编辑器的输出和过去时刻的解码结果，逐步地解码出当前时刻对应的文本序列，直到解码出结束标记为止。
4.发明人在实施本发明实施例的过程中发现，当前时刻的解码依赖于过去时刻的解码结果，影响了解码效率，进而影响了语音识别的实时率。

技术实现要素：

5.如何提高语音识别的实时率，是本领域技术人员需要解决的技术问题。鉴于上述问题，本发明实施例提出了一种克服上述问题或者至少部分地解决上述问题的语音识别方法、装置和介质。
6.为了解决上述问题，本发明实施例公开了一种语音识别方法，包括：
7.从编码器接收待识别语音对应的特征表示；
8.从连接主义时序分类模块接收待识别语音对应的第一文本序列；
9.根据所述第一文本序列，对所述特征表示进行解码，以得到对应的第二文本序列；所述第一文本序列用于作为解码时刻对应的历史解码结果。
10.再一方面，本发明实施例公开了一种语音识别装置，所述装置包括：
11.第一接收模块，用于从编码器接收待识别语音对应的特征表示；
12.第二接收模块，用于从连接主义时序分类模块接收待识别语音对应的第一文本序列；
13.解码模块，用于根据所述第一文本序列，对所述特征表示进行解码，以得到对应的第二文本序列；所述第一文本序列用于作为解码时刻对应的历史解码结果。
14.可选地，所述解码模块包括：
15.历史解码结果确定模块，用于根据所述第一文本序列，确定多个解码时刻分别对应的历史解码结果；
16.并行解码模块，用于根据所述多个解码时刻对应的历史解码结果，对所述特征表示进行多个解码时刻的并行解码。
17.可选地，所述装置还包括：
18.第一输出模块，用于将连接主义时序分类模块得到的目标文本序列作为第一语音识别结果，进行输出；所述目标文本序列包括：第一文本序列，或者，第三文本序列；
19.第二输出模块，用于将所述第二文本序列作为第二语音识别结果进行输出；所述第二语音识别结果用于替换所述第一语音识别结果。
20.可选地，所述特征表示与所述待识别语音中包含的数据块相对应；所述第一文本序列与所述待识别语音中包含的数据块相对应。
21.可选地，所述特征表示与所述待识别语音中包含的数据块相对应；所述数据块对应有数据块长度；
22.所述第一文本序列为根据第一数据块长度对应的第一特征表示得到；所述第三文本序列为根据第二数据块长度对应的第二特征表示得到；所述第一数据块长度大于所述第二数据块长度。
23.可选地，所述装置应用于语音识别模型；所述语音识别模型包括：编码器、以及分别与所述编码器相连接的解码器和连接主义时序分类模块；
24.所述编码器向所述连接主义时序分类模块发送第二特征表示，以及，向所述连接主义时序分类模块和所述解码器发送第一特征表示；
25.所述连接主义时序分类模块根据所述编码器输出的第二特征表示，确定第三文本序列；所述第三文本序列用于作为第一语音识别结果进行输出；
26.所述连接主义时序分类模块根据所述编码器输出的第一特征表示，确定第一文本序列，并向所述解码器发送所述第一文本序列。
27.可选地，所述装置应用于语音识别模型；所述语音识别模型包括：编码器、以及分别与所述编码器相连接的解码器和连接主义时序分类模块；
28.其中，所述解码器在训练过程中，根据过去时刻的解码结果，确定当前的解码时刻对应的历史解码结果；所述解码器在语音识别过程中，根据所述第一文本序列，确定多个解码时刻分别对应的历史解码结果。
29.再一方面，本发明实施例公开了一种用于语音识别的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，所述程序被一个或者一个以上处理器执行时，实现前述方法的步骤。
30.又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行前述的方法。
31.本发明实施例包括以下优点：
32.本发明实施例将第一文本序列作为解码时刻对应的历史解码结果，可以在不等待过去时刻的解码结果的情况下，执行解码时刻对应的解码；进一步可以使得并行执行多个解码时刻分别对应的解码，因此能够提高解码效率，进而能够提高语音识别的实时率。
33.例如，第一文本序列包括：则该第一文本序列可以作为多个解码时刻对应的历史解码结果。具体地，可以作为y2对应的历史解码结果；和可以作为y3对应的历史解码结果；
……
可以作为y
i
对应的历史解码结果；
……
可以作为y
n
对应的历史解码结果。由于可以经由第一文本序列同时提供多个解码时刻对应的历史解码结果，因此能够使得并行执行多个解码时刻分别对应的解码。
附图说明
34.图1是本发明实施例的一种语音识别模型的结构示意图；
35.图2是本发明实施例的一种语音识别模型的结构示意图；
36.图3是本发明实施例的一种语音识别方法的步骤流程图；
37.图4是本发明实施例的一种语音识别流程的示意；
38.图5是本发明实施例的一种语音识别方法的步骤流程图；
39.图6是本发明实施例的一种语音识别方法的步骤流程图；
40.图7是本发明实施例的一种语音识别方法的步骤流程图；
41.图8是本发明实施例提供的一种语音识别装置的结构示意图；
42.图9是根据一示例性实施例示出的一种用于语音识别的装置作为终端时的框图；
43.图10是本发明的一些实施例中服务端的结构示意图。
具体实施方式
44.为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
45.本发明实施例可以适用于语音识别场景。语音识别场景用于将语音转换为文本，语音识别场景可以包括：语音输入场景、智能聊天场景、语音翻译场景等。
46.应用目前的语音识别技术，当前时刻的解码通常依赖于过去时刻的解码结果，影响了解码效率，进而影响了语音识别的实时率。
47.例如，解码结果包括：y1、y2、y3、
……
y
i
、
……
y
n
，则y
i
的解码通常依赖于1～(i
‑
1)等过去时刻的解码结果。因此，目前的解码过程通常包括：首先，解码得到y1；然后，根据y1解码得到y2；接着，根据y1和y2解码得到y3；
……
根据1～(i
‑
1)等过去时刻的解码结果，解码得到y
i
；
……
根据1～(n
‑
1)等过去时刻的解码结果，解码得到y
n
。由于需要依次进行y1、y2、y3、
……
y
i
、
……
y
n
的解码，因此使得解码效率较低，进而使得语音识别的实时率较低。
48.针对如何提高语音识别的实时率的技术问题，本发明实施例提供了一种语音识别方案，该方案具体包括：从编码器接收待识别语音对应的特征表示；从连接主义时序分类模块接收待识别语音对应的第一文本序列；根据上述第一文本序列，对所述特征表示进行解码，以得到对应的第二文本序列；上述第一文本序列用于作为解码时刻对应的历史解码结果。
49.本发明实施例将第一文本序列作为解码时刻对应的历史解码结果，可以在不等待过去时刻的解码结果的情况下，执行解码时刻对应的解码；进一步可以使得并行执行多个解码时刻分别对应的解码，因此能够提高解码效率，进而能够提高语音识别的实时率。
50.例如，第一文本序列包括：则该第一文本序列可以作为多个解码时刻对应的历史解码结果。具体地，可以作为y2对应的历史解码结果；和可以作为
y3对应的历史解码结果；
……
可以作为y
i
对应的历史解码结果；
……
可以作为y
n
对应的历史解码结果。由于可以经由第一文本序列同时提供多个解码时刻对应的历史解码结果，因此能够使得并行执行多个解码时刻分别对应的解码。
51.本发明实施例提供的语音识别方法可应用于客户端与服务端的应用环境中，客户端与服务端位于有线或无线网络中，通过该有线或无线网络，客户端与服务端进行数据交互。
52.可选地，客户端可以运行在终端上，例如，客户端可以为终端上运行的app(应用程序，application)，如语音转写app、或者语音翻译app、或者智能交互app等。
53.以语音转写app为例，客户端可以采集待识别语音，并向服务端发送待识别语音，服务端可以利用本发明实施例的方案，对待识别语音进行处理，并向客户端返回语音识别结果。
54.以语音翻译app为例，客户端可以采集待识别语音，并向服务端发送待识别语音，服务端可以利用本发明实施例的方案，对待识别语音进行处理，并对得到的语音识别结果进行机器翻译，以得到机器翻译结果，并向客户端返回机器翻译结果。
55.可选地，上述终端可以包括：会议终端、智能手机、平板电脑、电子书阅读器、mp3(动态影像专家压缩标准音频层面3，moving picture experts group audio layer iii)播放器、mp4(动态影像专家压缩标准音频层面4，moving picture experts group audio layer iv)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备、智能音响等等。可以理解，本发明实施例对于具体的终端不加以限制。
56.方法实施例一
57.方法实施例一对语音识别模型的训练过程进行说明。可以根据训练样本对语音识别模型进行训练，以提高语音识别模型的语音识别的精确度。
58.参照图1，示出了本发明实施例的一种语音识别模型的结构示意图，该语音识别模型具体可以包括：编码器101、以及分别与编码器101相连接的解码器102和连接主义时序分类(ctc，connectionist temporal classification)模块103。
59.其中，编码器101用于将输入的语音编码为高层次的特征表示。
60.连接主义时序分类模块103，用于对编辑器101输出的特征表示进行解码，以得到对应的第一文本序列。
61.连接主义时序分类模块103所采用的解码方法可以包括但不限于：贪心搜索(greedy search)方法、束搜索(beam search)方法、前缀束搜索(prefix beam search)方法等。其中，贪心搜索方法在一个时刻选择概率最大的输出值。束搜索方法在单个时刻计算所有可能假设的概率，并从中选出最高的几个作为一组；然后再从这组假设的基础上产生概率最高的几个作为一组假设，依次进行，直到达到最后一个时刻。前缀束搜索在路径搜索过程中会记录输出对应的标签前缀。
62.解码器102用于对编辑器输出进行解码，以得到对应的第二文本序列。
63.该语音识别模型的训练样本可以包括：n个训练样本，n可以为大于1的正整数。训练样本可以包括：完整语句对应的语音样本、以及该语音样本对应的文本样本。本发明实施例不需要对语音样本和文本样本进行强制对齐。
64.在训练过程中，可以将训练样本作为语音识别模型的输入序列，并基于数据块(chunk)对输入序列进行处理。基于数据块的处理，能够使得在不同的语音帧之间进行语音帧的共享，具体地，一个数据块的处理能够利用之前语音帧的信息，还可以利用之后语音帧的信息。由于能够利用更多语音帧的信息，故能够提高语音识别的准确度。并且，本发明实施例能够以数据块为单位进行处理结果的输出，例如，编码器能够以数据块为单位进行特征表示的输出，因此能够降低训练的耗时和语音识别的耗时，进而能够提高语音识别的实时性。
65.在一种实现方式中，假设一个chunk包含的语音帧数为c，chunk向左看的语音帧数为l，chunk向右看的语音帧数为r，则一个chunk内的一个语音帧能看到语音帧的长度为：l c r。假设编码器的层数为q，则输入序列与输出序列之间的延迟可以为：c q＊l。
66.本发明实施例的训练路径具体包括：训练路径1和训练路径2。其中，训练路径1具体为：编码器101 解码器102。训练路径2具体为：编码器101 连接主义时序分类模块103。
67.在语音识别模型的正向训练阶段，可以得到训练路径1对应的损失1，以及，可以得到训练路径2对应的损失2；并且，可以对损失1和损失2进行融合，以得到融合损失。进一步，可以根据融合损失进行反向训练。对损失1和损失2进行融合，所采用的融合方式可以包括但不限于：加权平均方式、乘积方式等。
68.参照图2，示出了本发明实施例的一种语音识别模型的结构示意图，该语音识别模型具体可以包括：编码器101、以及分别与编码器101相连接的解码器102和连接主义时序分类模块103。
69.编码器101可以包括q层神经网络结构，q可以为大于1的正整数。编码器101的单层神经网络结构可以进一步包括：第一注意力单元111、第一运算单元112、第一神经网络单元113、以及第二运算单元114。
70.第一注意力单元111可以从训练样本中确定出数据块，并采用多头自注意力机制(san，multi
‑
head self attention)对数据块进行处理。图2中，数据块对应的输入序列用x表示。
71.第一运算单元112可以对第一注意力单元111的输出进行归一化和求和等运算处理。
72.第一神经网络单元113可以利用神经网络，对第一运算单元112的输出进行处理。
73.第二运算单元114可以对第一神经网络单元113的输出进行归一化和求和等运算处理。
74.编码器101输出的特征表示，可以为声学特征表示。声学特征可以包括但不限于：线性预测倒谱系数(lpcc，linearpredictioncoefficients)、梅尔频率倒谱系数(mfcc，mel frequency cepstrum coefficient)等。
75.解码器102也可以包括多层神经网络结构。解码器102的单层神经网络结构可以进一步包括：第二注意力单元121、第三运算单元122、第三注意力单元123、第四运算单元124、第二神经网络单元125和第五运算单元126。
76.其中，第二注意力单元121可以采用掩码的多头自注意力机制，对输入的文本样本y进行处理。掩码往往指使用一层全新的注意力机制权重，将特征数据中部分的关键程度表示出来，并加以学习训练。
77.第三运算单元122可以对第二注意力单元121的输出进行归一化和求和等运算处理。
78.第三注意力单元123可以接收编码器101的输出和第三运算单元122的输出，并采用多头自注意力机制，对编码器101的输出和第三运算单元122的输出进行处理。
79.第四运算单元124可以对第三注意力单元123的输出进行归一化和求和等运算处理。
80.第二神经网络单元125可以利用神经网络，对第四运算单元124的输出进行处理。
81.第五运算单元126可以对第二神经网络单元125的输出进行归一化和求和等运算处理。
82.在实际应用中，可以在解码器102之后设置分类模块104。分类模块104用于对解码器102的输出进行分类，以得到第一解码结果。例如，第一解码结果可以为预测文本对应的概率。可以根据第一解码结果与文本样本之间的误差信息，确定损失1，记为l1。
83.可选地，分类模块104可以利用激活函数进行分类。激活函数的例子可以包括：sigmoid函数(s型函数)，tanh函数(双曲正切函数)，relu(线性整流，rectified linear unit)函数，softmax函数(归一化指数函数)。
84.在具体实现中，可以利用交叉熵函数等损失函数，确定损失1。可以理解，本发明实施例对于损失1的具体确定方式不加以限制。
85.连接主义时序分类模块103可以对编码器101输出的特征表示进行解码，以得到第二解码结果。例如，第二解码结果可以为预测文本对应的概率。可以根据第二解码结果与文本样本之间的误差信息，确定损失2，记为l2。
86.可以对损失1和损失2进行融合，以得到融合损失。进一步，可以根据融合损失进行反向训练，以根据融合损失更新语音识别模型中各部分的参数，直至融合损失符合预设条件。预设条件可以为：融合损失的数值小于预设值等。可以理解，本发明实施例对于具体的预设条件不加以限制。
87.需要说明的是，在训练过程中，解码时刻对应的历史解码结果可由解码器自身提供。具体地，解码器在训练过程中，根据过去时刻的解码结果，确定当前的解码时刻对应的历史解码结果。
88.例如，解码结果包括：y1、y2、y3、
……
y
i
、
……
y
n
，则在训练过程中，解码器的解码过程可以包括：首先，解码得到y1；然后，根据y1解码得到y2；接着，根据y1和y2解码得到y3；
……
根据1～(i
‑
1)等过去时刻的解码结果，解码得到y
i
；
……
根据1～(n
‑
1)等过去时刻的解码结果，解码得到y
n
。
89.综上，本发明实施例根据解码器102对应的损失1和连接主义时序分类模块103对应的损失2，进行联合训练，能够发挥解码器102的收敛速度快、以及连接主义时序分类模块103的对没有对齐的训练样本进行自动对齐的优点，因此能够提高融合损失的精准度，进而能够提高语音识别模型的识别能力。
90.方法实施例二
91.方法实施例二对语音识别模型的使用过程(也即语音识别模型)进行说明。该语音识别模型可以对待识别语音进行识别，并输出对应的语音识别结果。
92.参照图3，示出了本发明实施例的一种语音识别方法的步骤流程图，具体可以包括
如下步骤：
93.步骤301、从编码器接收待识别语音对应的特征表示；
94.步骤302、从连接主义时序分类模块接收待识别语音对应的第一文本序列；
95.步骤303、根据上述第一文本序列，对上述特征表示进行解码，以得到对应的第二文本序列；上述第一文本序列用于作为解码时刻对应的历史解码结果。
96.图3所示方法实施例可由解码器执行，用于提高解码效率，进而提高语音识别的实时性。可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。
97.步骤301中，编码器可以将输入的待识别语音编码为高层次的特征表示。上述特征表示可以包括但不限于声学特征表示。
98.在具体实现中，编码器可以将完整的待识别语音作为输入序列，对完整的待识别语音进行处理。
99.或者，编码器可以从待识别语音中确定出数据块，并基于数据块对待识别语音进行处理。此种情况下，特征表示可以与数据块相对应；换言之，编码器可以向连接主义时序分类模块和解码器输出数据块对应的特征表示。基于数据块的处理，能够使得在不同的语音帧之间进行语音帧的共享，因此能够降低语音识别的耗时，进而能够提高语音识别的实时性。
100.步骤302中，连接主义时序分类模块可以根据编码器输出的特征表示，进行解码，以得到待识别语音对应的第一文本序列。进一步，连接主义时序分类模块还可以向解码器输出第一文本序列。
101.步骤303中，编码器可以根据上述第一文本序列，对上述特征表示进行解码，以得到对应的第二文本序列。
102.在实际应用中，第一文本序列可以为待识别语音中一个数据块对应的文本解码结果，或者，第一文本序列可以为待识别语音中一个语句对应的文本解码结果。特征表示可以为待识别语音中数据块对应的特征表示。
103.本发明实施例将第一文本序列作为解码时刻对应的历史解码结果，可以在不等待过去时刻的解码结果的情况下，执行解码时刻对应的解码；进一步可以使得并行执行多个解码时刻分别对应的解码，因此能够提高解码效率，进而能够提高语音识别的实时率。
104.在具体实现中，上述对所述特征表示进行解码，具体可以包括：根据上述第一文本序列，确定多个解码时刻分别对应的历史解码结果；根据上述多个解码时刻对应的历史解码结果，对所述特征表示进行多个解码时刻的并行解码。
105.在具体实现中，多个解码时刻可以为待识别语音中一个数据块或一个语句包括的解码时刻。本发明实施例对于具体的解码时刻不加以限制。
106.参照图4，示出了本发明实施例的一种语音识别流程的示意，其中，编码器对识别语音进行处理，以得到对应的特征表示，并向解码器和连接主义时序分类模块发送上述特征表示。连接主义时序分类模块根据上述特征表示得到第一文本序列，并向解码器发送上述第一文本序列。
107.该第一文本序列具体可以包括：图4中示出了该第一文本序列可以作为多个解码时刻对应的历史解码结果。
108.图4中，sos可以表征一个数据块或一个语句的开始标记，eos可以表征一个数据块或一个语句的结束标记。图4中，可以作为y2对应的历史解码结果；和可以作为y3对应的历史解码结。由于可以经由第一文本序列同时提供多个解码时刻对应的历史解码结果，因此能够使得并行执行多个解码时刻分别对应的解码。
109.需要说明的是，解码器在训练过程中的处理和语音识别过程中的处理具有不同之处。该不同体现在历史解码结果的确定方式的不同。
110.在训练过程中，解码器采用第一确定方式，具体地，根据过去时刻的解码结果，确定当前的解码时刻对应的历史解码结果。而在语音识别过程中，解码器采用第二确定方式，根据所述第一文本序列，确定多个解码时刻分别对应的历史解码结果。
111.在具体实现中，可以根据控制参数，控制解码器执行第一确定方式和第二确定方式中的任一。换言之，可以经由控制参数的更新，对第一确定方式和第二确定方式进行切换。
112.例如，控制参数包括第一控制参数和第二控制参数，其中，第一控制参数与训练过程和第一确定方式相对应，第二控制参数与语音识别过程和第二确定方式相对应。这样，在控制参数为第一控制参数的情况下，解码器可以执行第一确定方式。或者，在控制参数为第二控制参数的情况下，解码器可以执行第二确定方式。
113.综上，本发明实施例的语音识别方法，将第一文本序列作为解码时刻对应的历史解码结果，可以在不等待过去时刻的解码结果的情况下，执行解码时刻对应的解码；进一步可以使得并行执行多个解码时刻分别对应的解码，因此能够提高解码效率，进而能够提高语音识别的实时率。
114.方法实施例三
115.方法实施例三对语音识别模型输出语音识别结果的过程进行说明。
116.参照图5，示出了本发明实施例的一种语音识别方法的步骤流程图，具体可以包括如下步骤：
117.步骤501、从编码器接收待识别语音对应的特征表示；
118.步骤502、从连接主义时序分类模块接收待识别语音对应的第一文本序列；
119.步骤503、根据上述第一文本序列，对上述特征表示进行解码，以得到对应的第二文本序列；上述第一文本序列用于作为解码时刻对应的历史解码结果；
120.相对于图3所示方法实施例，本实施例的方法还可以包括：
121.步骤504、将连接主义时序分类模块得到的目标文本序列作为第一语音识别结果，进行输出；所述目标文本序列具体可以包括：第一文本序列，或者，第三文本序列；
122.步骤505、将所述第二文本序列作为第二语音识别结果进行输出；所述第二语音识别结果用于替换所述第一语音识别结果。
123.步骤504和步骤505可由语音识别模块的输出模块执行，该输出模块用于输出语音识别模块。可以理解，本发明实施例对于方法实施例的具体执行主体不加以限制。
124.本发明实施例可以分阶段输出语音识别结果。
125.其中，在第一阶段输出连接主义时序分类模块得到的第一语音识别结果。连接主义时序分类模块具有解码速度快的优点，可以快速输出第一语音识别结果。具体地，连接主
义时序分类模块在时间片独立(解码时刻独立)的情况下进行解码，因此能够以字符为单位进行解码结果的输出，能够实现第一语音识别结果的实时输出。
126.在第二阶段输出解码器得到的第二语音识别结果。第二语音识别结果用于替换第一语音识别结果，例如，可以利用刷新屏幕的方式，将第一语音识别结果替换为第二语音识别结果。
127.其中，解码器可以数据块为单位解码，其解码过程中考虑了历史解码结果，因此能够提高第二语音识别结果的准确度。进一步，解码器可以根据注意力机制进行解码，能够进一步提高第二语音识别结果的准确度。实验结果表明，第二语音识别结果的准确度高于第一语音识别结果的准确度。
128.需要说明的是，本发明实施例能够并行执行多个解码时刻分别对应的解码，因此能够提高第二语音识别结果的输出速度和实时率。实验结果表明，相对于传统解码器的解码速度，本发明实施例中解码器的解码速度提升了10倍以上。因此，本发明实施例可以应用于语音输入、语音翻译等流式语音识别的场景。
129.方法实施例四
130.参照图6，示出了本发明实施例的一种语音识别方法的步骤流程图，具体可以包括如下步骤：
131.步骤601、编码器向连接主义时序分类模块和解码器发送特征表示；
132.步骤602、连接主义时序分类模块根据所述编码器输出的特征表示，确定第一文本序列，并向所述解码器发送上述第一文本序列；
133.步骤603、将第一文本序列作为第一语音识别结果进行输出；
134.步骤604、解码器根据上述第一文本序列，对上述特征表示进行解码，以得到对应的第二文本序列；上述第一文本序列用于作为解码时刻对应的历史解码结果；
135.步骤605、将第二文本序列作为第二语音识别结果进行输出。
136.在实际应用中，数据块可以对应有数据块长度。本实施例中，编码器可以根据一种数据块长度进行处理，以得到一种数据块长度对应的特征表示，并向连接主义时序分类模块和解码器输出该特征表示。
137.方法实施例五
138.参照图7，示出了本发明实施例的一种语音识别方法的步骤流程图，具体可以包括如下步骤：
139.步骤701、编码器向连接主义时序分类模块发送第二特征表示，以及，向连接主义时序分类模块和解码器发送第一特征表示；
140.步骤702、连接主义时序分类模块根据第二特征表示，确定第三文本序列；
141.步骤703、将第三文本序列作为第一语音识别结果进行输出；
142.步骤704、连接主义时序分类模块根据第一特征表示，确定第一文本序列，并向所述解码器发送上述第一文本序列；
143.步骤705、解码器根据上述第一文本序列，对上述第一特征表示进行解码，以得到对应的第二文本序列；上述第一文本序列用于作为解码时刻对应的历史解码结果；
144.步骤706、将第二文本序列作为第二语音识别结果进行输出。
145.本实施例中，编码器可以根据至少两种数据块长度进行处理，以得到至少两种数
据块长度对应的特征表示。假设至少两种数据块长度对应的特征表示具体包括：第一特征表示和第二特征表示。其中，第一特征表示对应有第一数据块长度，第二特征表示对应有第二数据块长度。所述第一数据块长度可以大于所述第二数据块长度。
146.本发明实施例中，编码器可以根据第一数据块长度得到第一特征表示，以及，根据第二数据块长度得到第二特征表示。其中，第一特征表示和第二特征表示的确定过程可以并行或串行，本发明实施例对于第一特征表示和第二特征表示的确定过程的先后顺序不加以限制。
147.第二数据块长度小于第一数据块长度，因此能够提高第一语音识别结果的实时性。
148.第一数据块长度可以大于第二数据块长度，可以增加解码器的解码所利用的数据量，因此能够提高第二语音识别结果的准确率。
149.本发明实施例中的第一文本序列可以不作为第一语音识别结果进行输出，而是被提供给解码器，作为解码时刻对应的历史解码结果。
150.本领域技术人员可以根据实际应用需求，确定第一数据块长度和第二数据块长度、或者确定两者之间的差值。例如，第二数据块长度为400毫秒，或者，两者之间的差值为200毫秒等。可以理解，本发明实施例对于第一数据块长度和第二数据块长度的具体数值不加以限制。
151.综上，本发明实施例的语音识别方法，编码器可以根据至少两种数据块长度进行处理，以得到至少两种数据块长度对应的特征表示。其中，第二数据块长度小于第一数据块长度，第二数据块长度用于确定第一语音识别结果，因此能够提高第一语音识别结果的实时性。第一数据块长度可以大于第二数据块长度，第一数据块长度用于确定第二语音识别结果，可以增加解码器的解码所利用的数据量，因此能够提高第二语音识别结果的准确率。
152.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的运动动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的运动动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的运动动作并不一定是本发明实施例所必须的。
153.装置实施例
154.图8为本发明实施例提供的一种语音识别装置的结构示意图，该语音识别装置通常以硬件和/或软件的方式来实现。
155.该语音识别装置具体可以包括如下模块：第一接收模块801、第二接收模块802和解码模块803。
156.其中，第一接收模块801，用于从编码器接收待识别语音对应的特征表示；
157.第二接收模块802，用于从连接主义时序分类模块接收待识别语音对应的第一文本序列；
158.解码模块803，用于根据所述第一文本序列，对所述特征表示进行解码，以得到对应的第二文本序列；所述第一文本序列用于作为解码时刻对应的历史解码结果。
159.可选地，解码模块803具体可以包括：
160.历史解码结果确定模块，用于根据所述第一文本序列，确定多个解码时刻分别对
应的历史解码结果；
161.并行解码模块，用于根据所述多个解码时刻对应的历史解码结果，对所述特征表示进行多个解码时刻的并行解码。
162.可选地，上述装置还可以包括：
163.第一输出模块，用于将连接主义时序分类模块得到的目标文本序列作为第一语音识别结果，进行输出；上述目标文本序列包括：第一文本序列，或者，第三文本序列；
164.第二输出模块，用于将上述第二文本序列作为第二语音识别结果进行输出；上述第二语音识别结果用于替换上述第一语音识别结果。
165.可选地，上述特征表示可以与上述待识别语音中包含的数据块相对应；上述第一文本序列可以与上述待识别语音中包含的数据块相对应。
166.可选地，上述特征表示与上述待识别语音中包含的数据块相对应；上述数据块可以对应有数据块长度；
167.上述第一文本序列可以为根据第一数据块长度对应的第一特征表示得到；上述第三文本序列可以为根据第二数据块长度对应的第二特征表示得到；；上述第一数据块长度可以大于上述第二数据块长度。
168.可选地，上述装置可以应用于语音识别模型；上述语音识别模型可以包括：编码器、以及分别与上述编码器相连接的解码器和连接主义时序分类模块；
169.其中，上述编码器向上述连接主义时序分类模块发送第二特征表示，以及，向上述连接主义时序分类模块和上述解码器发送第一特征表示；
170.上述连接主义时序分类模块根据上述编码器输出的第二特征表示，确定第三文本序列；上述第三文本序列用于作为第一语音识别结果进行输出；
171.上述连接主义时序分类模块根据上述编码器输出的第一特征表示，确定第一文本序列，并向上述解码器发送上述第一文本序列。
172.可选地，上述装置可以应用于语音识别模型；上述语音识别模型可以包括：编码器、以及分别与上述编码器相连接的解码器和连接主义时序分类模块；
173.其中，上述解码器在训练过程中，根据过去时刻的解码结果，确定当前的解码时刻对应的历史解码结果；上述解码器在语音识别过程中，根据上述第一文本序列，确定多个解码时刻分别对应的历史解码结果。
174.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
175.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
176.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
177.本发明实施例还提供了一种用于训练的装置，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行前述方法所包括操作的操作指令。
178.图9是根据一示例性实施例示出的一种用于语音识别的装置作为终端时的框图。例如，终端1100可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板
设备，医疗设备，健身设备，个人数字助理等。
179.参照图9，终端1100可以包括以下一个或多个组件：处理组件1102，存储器1104，电源组件1106，多媒体组件1108，音频组件1110，输入/输出(i/o)的接口1112，传感器组件1114，以及通信组件1116。
180.处理组件1102通常控制终端1100的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行下载指令，以完成上述的方法的全部或部分步骤。此外，处理组件1102可以包括一个或多个模块，便于处理组件1102和其他组件之间的交互。例如，处理组件1102可以包括多媒体模块，以方便多媒体组件1108和处理组件1102之间的交互。
181.存储器1104被配置为存储各种类型的数据以支持在终端1100的操作。这些数据的示例包括用于在终端1100上操作的任何应用程序或方法的下载指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
182.电源组件1106为终端1100的各种组件提供电力。电源组件1106可以包括电源管理系统，一个或多个电源，及其他与为终端1100生成、管理和分配电力相关联的组件。
183.多媒体组件1108包括在所述终端1100和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1108包括一个前置摄像头和/或后置摄像头。当终端1100处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
184.音频组件1110被配置为输出和/或输入音频信号。例如，音频组件1110包括一个麦克风(mic)，当终端1100处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中，音频组件1110还包括一个扬声器，用于输出音频信号。
185.i/o接口1112为处理组件1102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
186.传感器组件1114包括一个或多个传感器，用于为终端1100提供各个方面的状态评估。例如，传感器组件1114可以检测到终端1100的打开/关闭状态，组件的相对定位，例如所述组件为终端1100的显示器和小键盘，传感器组件1114还可以检测终端1100或终端1100一个组件的位置改变，用户与终端1100接触的存在或不存在，终端1100方位或加速/减速和终端1100的温度变化。传感器组件1114可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1114还可以包括加速度传感
器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
187.通信组件1116被配置为便于终端1100和其他设备之间有线或无线方式的通信。终端1100可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信部件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件1116还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
188.在示例性实施例中，终端1100可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
189.在示例性实施例中，还提供了一种包括下载指令的非临时性计算机可读存储介质，例如包括下载指令的存储器1104，上述下载指令可由终端1100的处理器1120执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd
‑
rom、磁带、软盘和光数据存储设备等。
190.图10是本发明的一些实施例中服务端的结构示意图。该服务端1900可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务端中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务端1900上执行存储介质1930中的一系列指令操作。
191.服务端1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
192.当所述存储介质中的下载指令由装置(终端或者服务端)的处理器执行时，使得装置能够执行一种语音识别方法，所述方法包括：从编码器接收待识别语音对应的特征表示；从连接主义时序分类模块接收待识别语音对应的第一文本序列；根据所述第一文本序列，对所述特征表示进行解码，以得到对应的第二文本序列；所述第一文本序列用于作为解码时刻对应的历史解码结果。
193.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
194.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
195.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和
原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
196.以上对本发明实施例所提供的一种语音识别方法、一种语音识别装置、一种用于语音识别的装置、以及一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：语音识别模型的训练方法、语音识别方法及相关装置与流程

语音识别方法、装置和介质与流程

相关文献

最热文献