一种基于GPU语音识别的方法、装置、电子设备及存储介质与流程

2021-09-25 04:25:00 来源：中国专利 TAG：电子设备装置语音识别方法存储介质

一种基于gpu语音识别的方法、装置、电子设备及存储介质
技术领域
1.本技术涉及人工智能领域，尤其涉及一种基于gpu语音识别的方法、装置、电子设备以及计算机可读存储介质。

背景技术：

2.语音识别技术，也被称为自动语音识别(automatic speech recognition，asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别技术有着非常广泛的应用领域和市场前景，如在语音输入控制系统中，它使得人们可以甩掉键盘，通过识别语音中的要求、请求、命令或询问，做出正确的响应，在智能对话查询系统中，人们通过语音命令，可以方便地从远端的数据库系统中查询与提取有关信息，享受自然、友好的数据库检索服务，例如信息网络查询、医疗服务、银行服务等。
3.目前，通常采用统计模型及神经网络的方法实现语音识别，但是在进行语音识别过程中常常会涉及到语音的编码和解码，基于统计模型及神经网络的方法往往需要解码图才能实现语音解码，但解码图需要耗费较多的时间训练才能生成，这样容易影响语义识别的速度，同时基于统计模型及神经网络的方法也往往需要在cpu中执行，受限于核心数，cpu的并行计算能力小于拥有众多并行计算单元的gpu。这导致在语音识别过程中编码和解码的速度会变得很慢，从而也会使得语音识别的速度会受限。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本技术提供了一种基于gpu语音识别的方法、装置、电子设备以及计算机可读存储介质，可以提高语音识别的速度。
5.第一方面，本技术提供了一种基于gpu语音识别的方法，包括：
6.对原始语音进行信号增强，并将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量；
7.对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量；
8.利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量；
9.利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量；
10.利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列；
11.提取所述特征文字序列的文字信息，将所述文字信息作为所述原始语音的语音识别结果。
12.可以看出，本技术实施例通过对所述原始语音进行音频增强、频域转换及梅尔谱
滤波，可以提高原始语音的音频信号及过滤原始语音的干扰信号，从而可以分析所述原始语音的语音信号频率，进而提高后续原始语音的特征向量提取速度；其次，本技术基于gpu，对原始语音的特征向量进行位置编码，可以弥补后续特征向量在编码和解码过程中位置信息缺失的现象，从而可以提高特征向量的编码和解码速度，进一步地，本技术通过gpu内的编码器和解码器对位置编码后的特征向量进行编码及解码，可以实现特征向量的并行运算，从而可以进一步地提高特征向量的编码和解码速度，进而可以提高语音识别的速度。
13.在第一方面的一种可能实现方式中，所述对所述原始语音进行信号增强，包括：
14.对所述原始语音进行分帧及音频预增强，得到增强语音；
15.对所述增强语音进行加窗，得到信号增强后的原始语音。
16.在第一方面的一种可能实现方式中，所述将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量，包括：
17.对信号增强后的原始语音进行短时傅里叶变换，得到语音频域信号；
18.过滤所述语音频域信号中的干扰信号，生成所述原始语音的初始特征向量。
19.在第一方面的一种可能实现方式中，所述利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量，包括：
20.利用下述公式对所述特征向量进行位置编码：
[0021][0022][0023]
其中，pe
(pos,2i)
表示第偶数个位置编码向量，pe
(pos，2i 1)
表示第奇数个位置编码向量，pos表示特征向量的分帧位置，i表示特征向量中第i个特征向量值，d
model
表示常数值。
[0024]
在第一方面的一种可能实现方式中，所述利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量，包括：
[0025]
利用所述编码器中的自注意力模块计算所述位置编码向量之间的权重值，根据所述权重值，更新对应位置编码向量的权重信息，得到初始特征编码向量；
[0026]
利用所述编码器中的前馈神经网络映射所述初始特征编码向量，得到特征编码向量。
[0027]
在第一方面的一种可能实现方式中，所述利用所述编码器中的自注意力模块计算所述位置编码向量之间的权重值，包括：
[0028]
通过遍历操作获取所述位置编码向量中任意一个位置编码向量，构建所述位置编码向量的维度向量；
[0029]
根据所述维度向量，计算所述位置编码向量的权重值。
[0030]
在第一方面的一种可能实现方式中，所述利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列，包括：
[0031]
利用所述解码器中的掩码层对所述特征编码向量进行文字信息掩码，得到特征文字信息；
[0032]
利用所述解码器中的注意力模块计算所述特征文字信息的文字序列，得到初始特征文字序列；
[0033]
利用所述解码器中的全连接神经网络输出所述初始特征文字序列，得到特征文字序列。
[0034]
第二方面，本技术提供了一种基于gpu语音识别的装置，所述装置包括：
[0035]
频域变换模块，用于对原始语音进行信号增强，并将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量；
[0036]
滤波模块，用于对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量；
[0037]
位置编码模块，用于利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量；
[0038]
特征编码模块，用于利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量；
[0039]
文字序列解码模块，用于利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列；
[0040]
文字信息提取模块，用于提取所述特征文字序列的文字信息，将所述文字信息作为所述原始语音的语音识别结果。
[0041]
第三方面，本技术提供一种电子设备，包括：
[0042]
至少一个处理器；以及与所述至少一个处理器通信连接的存储器；
[0043]
其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，以使所述至少一个处理器能够执行如上述第一方面中任意一项所述的基于gpu语音识别的方法。
[0044]
第四方面，本技术提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任意一项所述的基于gpu语音识别的方法。
[0045]
可以理解的是，上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。
附图说明
[0046]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本技术的实施例，并与说明书一起用于解释本技术的原理。
[0047]
为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0048]
图1为本技术一实施例提供的一种基于gpu语音识别的方法的详细流程示意图；
[0049]
图2为本技术一实施例中图1提供的一种基于gpu语音识别的方法的其中一个步骤流程示意图；
[0050]
图3为本技术一实施例中图1提供的一种基于gpu语音识别的方法的另外一个步骤流程示意图；
[0051]
图4为本技术一实施例中图1提供的一种应用于基于gpu语音识别的方法的又一个步骤详细流程示意图；
[0052]
图5为本技术一实施例提供的一种基于gpu语音识别的装置的模块示意图；
[0053]
图6为本技术一实施例提供的实现基于gpu语音识别的方法的电子设备的内部结
构示意图。
具体实施方式
[0054]
为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术的一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0055]
参阅图1所示的流程图描述了本技术一实施例提供的基于gpu语音识别的方法。其中，图1中描述的基于gpu语音识别的方法包括：
[0056]
s1、对原始语音进行信号增强，并将信号增强的所述原始语音进行频域变换，得到所述原始语音的初始特征向量。
[0057]
本技术实施例中，所述对所述原始语音进行信号增强，包括：对所述原始语音进行分帧及音频预增强，得到增强语音，对所述增强语音进行加窗，得到信号增强后的原始语音。
[0058]
其中，所述分帧是将原始语音中不定长的音频切分成固定长度的小段，通常取10
‑
30ms为一帧，所述音频预增强用于将分帧语音的音频提高为高音频；所述加窗用于消除分帧语音中各个帧两端造成的信号不连续。
[0059]
在本技术的其中一个实施例中，利用下述公式对所述分帧语音进行音频预增强：
[0060][0061]
其中，s(n)表示音频预增强后的语音，f(n)表示分帧语音，f(n
‑
1)表示上一帧分帧语音，k表示音频预增强系数，范围为[0,1)，n表示正整数。
[0062]
在本技术的其中一个实施例中，利用下述公式对所述增强语音进行加窗：
[0063]
s(n)＝s(n) q*rand()
[0064]
其中，s(n)表示频预增强后的语音，q表示加窗系数，rand表示加窗长度范围函数。
[0065]
进一步地，本技术实施例中，将信号增强后的原始语音进行频域变换，以将所述原始语音的时域信号转换为频域信号，分析所述初始语音的信号变化，从而提取出对应的特征信号，生成所述原始语音的初始特征向量。
[0066]
本技术的其中一个实施例中，参阅图2所示，所述将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量，包括：
[0067]
s200、对信号增强后的原始语音进行短时傅里叶变换，得到语音频域信号；
[0068]
s201、利用低通滤波器过滤所述语音频域信号中的干扰信号，生成所述原始语音的初始特征向量。
[0069]
其中，所述短时傅里叶变换用于将信号增强后的原始语音从空间域转换到频域中，以分析出信号增强后的原始语音的干扰信号频段，可选的，所述原始语音的短时傅里叶变换通过离散时间傅里叶变换(discrete
‑
time fourier transform，dtft)方法实现。
[0070]
一个可选实施例中，利用下述公式过滤所述语音频域信号中的干扰信号：
[0071]
y(z)＝αx(z) (1
‑
α)y(z
‑
1)
[0072]
其中，y(z)表示干扰信号滤波输出值，α表示滤波系数，x(z)表示语音频域信号的本次干扰信号过滤采样值，y(z
‑
1)表示上次语音频域信号的干扰信号滤波输出值。
[0073]
进一步地，本技术将语音频域信号的本次干扰信号过滤采样值与上次滤波输出值进行加权，得到有效滤波值，使得输出对输入有反馈作用，提高语音频域信号的干扰信号分离效果。
[0074]
进一步地，本技术另一实施例还可以包括：采用支持向量机(support vector machine，svm)中的高斯核函数训练所述低通滤波器的参数，保证低通滤波器过滤干扰信号的可靠性。
[0075]
s2、对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量。
[0076]
本技术实施例中，所述梅尔谱滤波用于屏蔽所述原始语音中不符合预设频率的语音信号，以得到符合人耳听觉习惯的声谱，可选的，本技术通过mel滤波器组执行所述初始特征向量的梅尔谱滤波。
[0077]
s3、利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量。
[0078]
本技术实施例中，所述语音识别模型通过transform神经网络构建，并将所述语音识别模型加载至gpu中，以实现后续数据的并行计算，提高数据分析速度。其中，所述语音识别模型包括：位置编码层(embedding)、编码器(encoder)以及解码器(decoder)，所述位置编码层用于确定所述特征向量的位置序列信息，以弥补后续特征向量在特征编码过程中位置信息的缺失，所述编码器用于将位置编码的特征向量压缩为潜在空间表征，从而提取出对应的语音特征，所述解码器用于将编码的特征向量重构为文字序列，以提取出对应的文字信息。
[0079]
进一步地，在本技术的其中一个实施例，利用下述公式对所述特征向量进行位置编码：
[0080][0081][0082]
其中，pe
(pos,2i)
表示第偶数个位置编码后的特征向量，pe
(pos,2i 1)
表示第奇数个位置编码后的特征向量，pos表示特征向量的分帧位置，i表示特征向量中第i个特征向量值，d
model
表示常数值，可选的，所述d
model
的值设置为512，也可以根据实际业务场景设置。
[0083]
s4、利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量。
[0084]
本技术实施例中，所述编码器包括：自注意力模块和前馈神经网络，其中，所述自注意力模块用于识别出所述位置编码向量中每个位置编码向量与其他向量之间的相关关系，以更新对应位置编码向量的权重信息，从而使得所述位置编码向量包含有上下文语音特征信息，所述前馈神经网络用于激活所述位置编码向量，以传输对应位置编码向量至解码器中进行解码，进一步地，本技术实施例中，所述注意力模块和前馈神经网络采用残差连接，以避免所述位置编码向量在编码过程中出现梯度弥散或梯度爆炸的现象。其中，所述编码器由x个形式相同的注意力模块组成，每个注意力模块都采用多头注意力机制。
[0085]
本技术的其中一个实施例中，参阅图3所示，所述利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量，包括：
[0086]
s300、利用所述编码器中的自注意力模块计算所述位置编码向量之间的权重值，根据所述权重值，更新对应位置编码向量的权重信息，得到初始特征编码向量；
[0087]
s301、利用所述编码器中的前馈神经网络映射所述初始特征编码向量，得到特征编码向量。
[0088]
一个可选实施例中，所述利用所述编码器中的自注意力模块计算所述位置编码向量之间的权重值，包括：通过遍历操作获取所述位置编码向量中任意一个位置编码向量，构建所述位置编码向量的维度向量，根据所述维度向量，计算所述位置编码向量的权重值。
[0089]
一个可选实施例中，所述位置编码向量的权重信息更新即将所述权重值进行加权求和，以使生成的初始特征编码向量包含上下文语音特征信息。
[0090]
s5、利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列。
[0091]
本技术实施例中，所述解码器包括掩码层和注意力模块，其中，所述掩码层用于对编码器传输的特征向量进行文字信息掩码，所述注意力模块用于计算出掩码后的特征向量的文字序列信息。其中，所述解码器也是由x个形式相同的注意力模块组成，每个注意力模块都采用多头注意力机制。
[0092]
本技术的其中一个实施例中，参阅图4所示，所述利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列，包括：
[0093]
s400、利用所述解码器中的掩码层对所述特征编码向量进行文字信息掩码，得到特征文字信息；
[0094]
s401、利用所述解码器中的注意力模块计算所述特征文字信息的文字序列，得到初始特征文字序列；
[0095]
s402、利用所述解码器中的全连接神经网络输出所述初始特征文字序列，得到特征文字序列。
[0096]
一个可选实施例中，所述文字信息掩码是指对编码器传输的特征编码向量进行长度序列对齐和上下文向量的信息掩盖，所述特征文字信息的文字序列计算可以参照上述编码器中的自注意力模块的计算原理，在此不做进一步地赘述，所述初始特征文字序列的输出通过所述全连接神经网络的激活函数实现。
[0097]
示例性地，存在“我、和、你”的特征编码向量为<sos、sot、sou>，本技术将<sos>特征输入编码向量至解码器，并通过解码器中的掩码层获取第一个特征编码向量“我”的多头自注意力q和v，经过解码器中m层的注意力模块计算多头自注意力q和v的文字序列，利用所述解码器中的全连接神经网络对q和v的文字序列进行线性变换层，得到解码字符“我”，其次，本技术依次将所述特征编码向量中剩余的特征编码向量输入至所述解码器，直至所述特征编码向量中剩余的特征编码向量均以被解码，得到解码字符：“我、和、你”。
[0098]
s6、提取所述特征文字序列的文字信息，得到所述原始语音的识别结果。
[0099]
本技术实施例通过提取所述特征文字序列的文字信息，以提取出所述原始语音的识别结果。在本技术的其中一个实施例中，采用束搜索(beam search)算法提取所述特征文字序列的文字信息，得到所述原始语音的识别结果。其中，所述束搜索算法的实现原理包括：
[0100]
步骤i、在生成第1个词的时候，选择特征文字序列对应概率最大的2个词，假设为
a,c，则对应文字信息序列为a,c；
[0101]
步骤ii、生成第2个词的时候，将文字信息序列为a,c，分别与词表中的所有词进行组合，得到新的6个文字信息序列aa、ab、ac、ca、cb cc，从其中选择2个得分最高的，作为文字信息序列；
[0102]
步骤iii，不断重复步骤i和步骤ii，直至遇到结束符为止，最终输出2个得分最高的文字信息序列，完成特征文字序列的文字信息的提取。
[0103]
综上所述，本技术实施例对所述原始语音进行音频增强、频域转换及梅尔谱滤波，以提高原始语音的音频信号及过滤原始语音的干扰信号，并分析所述原始语音的语音信号频率，从而提高后续原始语音的特征向量提取速度；其次，本技术实施例基于gpu，对原始语音的特征向量进行位置编码，以弥补后续特征向量在编码和解码过程中位置信息缺失的现象，从而可以提高特征向量的编码和解码速度；进一步地，本技术实施例通过编码器和解码器对位置编码后的特征向量进行编码及解码，可以实现特征向量的并行运算，从而可以进一步地提高特征向量的编码和解码速度，进而可以后续提高语音识别的速度。
[0104]
如图5所示，是本技术基于gpu语音识别的装置的功能模块图。
[0105]
本技术所述基于gpu语音识别的装置500可以安装于电子设备中。根据实现的功能，所述基于gpu语音识别的装置可以包括频域变换模块501、滤波模块502、位置编码模块503、特征编码模块504、文字序列解码模块505以及文字信息提取模块506。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。
[0106]
在本实施例中，关于各模块/单元的功能如下：
[0107]
所述频域变换模块501，用于对原始语音进行信号增强，并将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量；
[0108]
所述滤波模块502，用于对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量；
[0109]
所述位置编码模块503，用于利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量；
[0110]
所述特征编码模块504，用于利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量；
[0111]
所述文字序列解码模块505，用于利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列；
[0112]
所述文字信息提取模块506，用于提取所述特征文字序列的文字信息，将所述文字信息作为所述原始语音的语音识别结果。
[0113]
详细地，本技术实施例中所述基于gpu语音识别的装置500中的所述各模块在使用时采用与上述的图1和图4中所述的基于gpu语音识别的方法一样的技术手段，并能够产生相同的技术效果，这里不再赘述。
[0114]
如图6所示，是本技术实现基于gpu语音识别的方法的电子设备的结构示意图。
[0115]
所述电子设备6可以包括处理器60、存储器61和总线，还可以包括存储在所述存储器61中并可在所述处理器60上运行的计算机程序，如语音识别程序62。
[0116]
其中，所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括
闪存、移动硬盘、多媒体卡、卡型存储器(例如：sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器61在一些实施例中可以是电子设备6的内部存储单元，例如该电子设备6的移动硬盘。所述存储器61在另一些实施例中也可以是电子设备6的外部存储设备，例如电子设备6上配备的插接式移动硬盘、智能存储卡(smart media card，smc)、安全数字(secure digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器61还可以既包括电子设备6的内部存储单元也包括外部存储设备。所述存储器61不仅可以用于存储安装于电子设备6的应用软件及各类数据，例如语音识别程序62的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
[0117]
所述处理器60在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器60是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器61内的程序或者模块(例如执行语音识别程序62等)，以及调用存储在所述存储器61内的数据，以执行电子设备6的各种功能和处理数据。
[0118]
所述总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器61以及至少一个处理器60等之间的连接通信。
[0119]
图6仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图6示出的结构并不构成对所述电子设备6的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0120]
例如，尽管未示出，所述电子设备6还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器60逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备6还可以包括多种传感器、蓝牙模块、wi
‑
fi模块等，在此不再赘述。
[0121]
进一步地，所述电子设备6还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi
‑
fi接口、蓝牙接口等)，通常用于在该电子设备6与其他电子设备之间建立通信连接。
[0122]
可选地，该电子设备6还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light
‑
emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备6中处理的信息以及用于显示可视化的用户界面。
[0123]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0124]
所述电子设备6中的所述存储器61存储的语音识别62是多个计算机程序的组合，
在所述处理器60中运行时，可以实现：
[0125]
对原始语音进行信号增强，并将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量；
[0126]
对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量；
[0127]
利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量；
[0128]
利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量；
[0129]
利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列；
[0130]
提取所述特征文字序列的文字信息，将所述文字信息作为所述原始语音的语音识别结果。
[0131]
具体地，所述处理器60对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0132]
进一步地，所述电子设备6集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read
‑
only memory)。
[0133]
本技术还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0134]
对原始语音进行信号增强，并将信号增强后的原始语音进行频域变换，得到所述原始语音的初始特征向量；
[0135]
对所述初始特征向量进行梅尔谱滤波，生成所述原始语音的特征向量；
[0136]
利用预先在gpu中训练好的语音识别模型中的位置编码层对所述特征向量进行位置编码，得到位置编码向量；
[0137]
利用所述语音识别模型中的编码器对所述位置编码向量进行特征编码，得到特征编码向量；
[0138]
利用所述语音识别模型中的解码器对所述特征编码向量进行文字序列解码，得到特征文字序列；
[0139]
提取所述特征文字序列的文字信息，将所述文字信息作为所述原始语音的语音识别结果。
[0140]
在本技术所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0141]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0142]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0143]
对于本领域技术人员而言，显然本技术不限于上述示范性实施例的细节，而且在不背离本技术的精神或基本特征的情况下，能够以其他的具体形式实现本技术。
[0144]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本技术的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本技术内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0145]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0146]
以上所述仅是本技术的具体实施方式，使本领域技术人员能够理解或实现本技术。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：电子手风琴贝斯按钮式键盘的制作方法

一种基于GPU语音识别的方法、装置、电子设备及存储介质与流程

相关文章

最热文献