农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

热搜：真空泵封装包装食品玩具

首页 > 乐器,声学设备的制造及制作,分析技术 > 正文

语音识别的方法和装置与流程

2021-06-11 21:44:00 来源：中国专利 TAG：信号处理语音装置语音识别申请

本申请涉及语音信号处理技术领域，并且更为具体地，涉及一种语音识别的方法和装置。

背景技术：

目前越来越多的人开始学习外语，其中，许多人借助于学习软件进行学习。例如，不少人使用软件练习英语口语发音。好的学习软件能够帮助用户提高口语水平。

然而，目前的口语发音评估系统等语音识别方案，发音反馈粗糙，评价过于简单，用户得到打分后仍不清楚如何改进，用户体验较差。

因此，需要提供一种有效的语音识别的方案，以提升用户的体验。

技术实现要素：

本申请提供一种语音识别的方法和装置，能够提升用户的体验。

第一方面，本申请提供一种语音识别的方法，该方法包括：获取待识别语音；根据神经网络模型获取所述待识别语音的音素的分类结果，所述音素的分类结果包括所述音素为混合音素集合中的哪个音素，所述混合音素集合包括第一语言和第二语言的所有音素，所述第一语言为目标语言，所述第二语言为所述待识别语音的发音者的母语；根据所述音素的分类结果确定所述待识别语音的评价结果。

在本申请实施例中，通过神经网络模型识别待识别语音中的音素为目标语言音素和母语音素中的哪个音素，可以提供给用户更丰富的反馈，有利于用户准确地纠正发音，提升用户的体验。

在一些可能的实现方式中，所述根据神经网络模型获取所述待识别语音的音素的分类结果，包括：获取所述待识别语音的音素的特征；根据所述音素的特征和所述神经网络模型，获取所述音素的分类结果。

在一些可能的实现方式中，所述第一语言为英文，所述第二语言为中文，所述混合音素集合包括英文的所有音素和中文的所有音素。

在一些可能的实现方式中，所述待识别语音的评价结果包括：所述音素的发音是否正确，所述音素的发音偏向于中文音素还是英文音素。

在一些可能的实现方式中，所述根据所述音素的分类结果确定所述待识别语音的评价结果，包括：若所述音素为正确的英文音素，则确定所述音素的发音正确且所述音素的发音偏向于英文音素；若所述音素为中文音素，则确定所述音素的发音错误且所述音素的发音偏向于中文音素。

在一些可能的实现方式中，所述待识别语音的评价结果还包括所述待识别语音的评分；所述根据所述音素的分类结果确定所述待识别语音的评价结果，包括：根据所述音素的发音，确定所述待识别语音的评分。

在一些可能的实现方式中，所述方法还包括：根据带有标签的音素样本训练所述神经网络模型，其中，所述标签为关于所述混合音素集合中音素的相似度。

在一些可能的实现方式中，所述方法还包括：获取音频样本的每一帧的特征；根据所述音频样本的所有帧的特征和所述音频样本中每个音素的位置，确定音素样本；对所述音素样本打标签，得到带有标签的音素样本。

在一些可能的实现方式中，所述对所述音素样本打标签，包括：对于有明显区别的音素，相似度设置为0；对于发音方式不相关的音素，相似度设置为0；对于在发音方式上有相似性的音素，将发音方式特征集合的交并比作为相似度。

在一些可能的实现方式中，所述神经网络模型为三生神经网络模型，包括三个输入层，所述三个输入层中的两个输入层用于输入正确发音的音素样本，另一个输入层用于输入错误发音的音素样本，所述错误发音的音素样本包括发音偏向于所述第二语言的音素的音素样本。

第二方面，提供了一种语音识别的装置，包括执行上述第一方面或其任意可能的实现方式中的方法的模块。

第三方面，本申请还提供了一种计算机，包含上述的语音识别装置。

第四方面，本申请还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述的语音识别的方法。

第五方面，本申请还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述的语音识别的方法。

第六方面，本申请还提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行时，使所述至少一个处理器执行上述的语音识别的方法。

附图说明

图1是应用本申请实施例的技术方案的一个场景的示意图；

图2是本申请一个实施例的语音识别的方法的示意性流程图；

图3是本申请实施例的训练神经网络的方法的流程图；

图4是本申请实施例的神经网络模型架构的示意图；

图5是本申请实施例的神经网络模型的基本单元的示意图；

图6是本申请实施例的语音的评价结果的示意图；

图7是本申请一个实施例的语音识别的装置的示意性框图；

图8是本申请另一个实施例的语音识别的装置的示意性框图；以及

图9是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行描述。应理解，本说明书中的具体的例子只是为了帮助本领域技术人员更好地理解本申请实施例，而非限制本申请实施例的范围。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本申请实施例对此不作限定。

除非另有说明，本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的，不是旨在限制本申请的范围。

下面结合图1，对本申请实施例的应用场景进行举例说明。

图1示出了应用本申请实施例的语音识别的方法的一个场景的示意图。如图1所示，语音识别的装置110与输入设备120通信连接，待识别语音通过输入设备120输入至装置110，装置110可以对输入的待识别语音进行评价。

例如，待识别语音可以是用户录制的一段语音或一个单词。

输入设备120可以输入一段语音也可以同时输入多段语音，本申请实施例对此不作限定。

装置110可以是具有信息处理能力的电子设备或系统，例如计算机。

装置110包括处理器，用于实现信息的处理，例如，采用本申请实施例的技术方案对语音进行识别和评价。处理器可以为任意种类的处理器，本申请实施例对此不作限定。

装置110还可以包括存储器。该存储器可用于存储信息和指令，例如，实现本申请实施例的技术方案的计算机可执行指令。该存储器可以为任意种类的存储器，本申请实施例对此也不作限定。

装置110还可以包括通信接口，通过通信接口与输入设备120通信连接，该通信连接可以是有线方式，也可以是无线方式。

装置110还可以包括显示设备，用于显示处理结果，例如待识别语音的音素的发音是否正确、发音偏向于中文音素还是英文音素或评分情况等。

发音者的母语口音可能会影响发音者的外语(目标语言)的发音。例如，对于中国人来说，有些人的英语发音会带有中文口音，即所谓的中式英语。目前的口语发音评估方案并不能对这种情况进行反馈，也就是说，发音者并不清楚自己的发音是否带有中文口音，更不清楚哪些音素的发音偏向于中文音素，从而无法有效地改善发音。针对这种情况，本申请提出了一种改进的技术方案，可以有效地反馈母语对目标语言的影响，针对目标语言的发音是否带有母语口音进行判断和打分。采用这种方案可以改善上述的中式英语，从而提升用户的体验。

图2示出了本申请实施例的语音识别的方法200的示意性流程图。该方法200可以由图1中的装置110执行。

210，获取待识别语音。

所述待识别语音可以是用户学习外语的一段录音或一个单词。用户可以是初学者，也可以是其他用户，本申请对此不作限定，只要是用户想要评价的语音均可应用本申请实施例。所述待识别语音的语言种类也不限定，可以是各种语言，以下为了便于描述，以英文为例说明。相应地，用户的母语以中文为例说明。

220，根据神经网络模型获取所述待识别语音的音素的分类结果，所述音素的分类结果包括所述音素为混合音素集合中的哪个音素，所述混合音素集合包括第一语言和第二语言的所有音素，所述第一语言为目标语言，所述第二语言为所述待识别语音的发音者的母语。

所述神经网络模型为预先训练的神经网络模型。通过所述神经网络模型可以得到待识别语音中的音素为混合音素集合中的哪个音素，其中所述混合音素集合除了包括目标语言的音素外，还包括所述待识别语音的发音者的母语的音素。以中国人学习英文为例，所述第一语言为英文，所述第二语言为中文，所述混合音素集合包括英文的所有音素和中文的所有音素。例如，所述混合音素集合可以包括41个英文音素和69个中文音素。在这种情况下，通过所述神经网络模型可以得到待识别语音中的音素为所有英文音素和中文音素(即110个音素)中的哪个音素。由于母语(中文)可能会影响发音者的发音，发音者的发音可能会偏向于中文音素。这样，通过本申请实施例中的神经网络模型识别出待识别语音中的音素为英文音素还是中文音素可以给予用户更丰富的反馈，以便用户针对性的纠正和改进发音。

具体地，对于一段中式英语，其中的一些音素可能会被发为中文音素。例如，单词“nice”包括三个音素“n”、“ai”和“s”。在中式英语中，音素“n”可能会被发为中文音素“那”，音素“ai”可能会被发为中文音素“爱”。通过本申请实施例中的神经网络模型可以识别出语音中每个音素发为了英文音素还是中文音素，从而可以针对性地进行改进，克服中式英语的发音。

所述神经网络模型可以采用离线方式训练好，并配置到使用该神经网络模型的设备中。或者，该神经网络模型的训练也可以由使用该神经网络模型的设备进行。也就是说，训练和使用神经网络模型的设备可以是不同的设备，也可以是相同的设备。以下对该神经网络模型的训练过程进行描述。应理解，以下描述的方式仅仅为示例性的，不应理解为对本申请实施例的限定。

可选地，在本申请实施例中，根据带有标签的音素样本训练所述神经网络模型，其中，所述标签为关于所述混合音素集合中音素的相似度。

例如，所述神经网络模型为三生神经网络模型，包括三个输入层，所述三个输入层中的两个输入层用于输入正确发音的音素样本，另一个输入层用于输入错误发音的音素样本，所述错误发音的音素样本包括发音偏向于所述第二语言的音素的音素样本。在这种情况下，音素样本的标签为它们之间的相似度。

在本申请实施例中，训练神经网络的样本除了包括目标语言的正确发音的音素样本，例如，正确发音的英文音素样本，还包括偏向于发音者的母语发音的音素样本，例如，偏向于中文发音的音素样本。音素样本的标签为输入的音素样本之间的相似度。基于这样的样本，可以训练出能够识别音素为英文音素还是中文音素的神经网络模型，从而能够有效地评估中式英语。

另外，采用三生神经网络模型可以有效地区分不同的样本，例如，能够分辨英文音素与中文音素的混淆，因而能够训练出有效地识别英文音素和中文音素的神经网络模型。

可选地，作为一种示例，标签可以采用如下至少一种方式标记：

对于有明显区别的音素，相似度设置为0；

对于发音方式不相关的音素，相似度设置为0；

对于在发音方式上有相似性的音素，将发音方式特征集合的交并比作为相似度。

在本申请实施例中，根据音素的发音方式设置标签。具体而言，基于音素的发音方式可以得到音素的发音方式特征集合，可以将不同音素的发音方式特征集合的交并比作为它们的相似度。

以中文和英文为例，中文和英文虽然有些音素听起来很相似，但是他们的发音位置和发音方式是不同的。比如英文里的t是龈音(alveolar)，而中文普通话中的t是齿音(dental)。齿音由舌尖或舌叶和上齿形成。龈音由舌尖或舌叶和龈形成。基于此构建描述他们的特征，便于将他们区分，进而便于训练分辨中文音素和英文音素的神经网络模型。

这样，根据音素的发音方式，可以构建描述音素的特征。

例如，对于辅音，可以从以下五个方面来描述：

声带开启或是闭合的状况(清音浊音)；

调音部位；

口腔或鼻腔发音；

调音方式；

央音或是边音(送气或不送气)。

应理解，大多数情况下，不需要对发音从上述全部五个方面进行描述，而是从其中几个方面进行描述。例如，通常假定辅音是央音而不是边音，是口音而不是鼻音，所以上述其中两个方面通常可以省略。

对于元音，所有的元音发音都是舌尖抵住下齿背，舌身呈弧形上抬。元音可以从以下三个方面进行描述：

舌体的高低；

舌位的前后，分为前元音(frontvowel)，后元音(backvowel)，中元音；

唇形圆展，分为圆唇(rounded)，不圆唇(unrounded)。

例如，音素ae为前元音，舌位低，不圆唇，因此可以构建其特征为{fnt,low,unr,vwl}。

应理解，以上音素的特征描述方式仅仅为示例，还可以采用其他特征描述方式，本申请实施例对此并不限定。

对于不同的音素，可以将它们的发音方式特征集合的交并比作为它们的相似度。即，可以采用如下公式得到两个音素的相似度：

例如，以ae和eh两个音素为例，ae的特征集合为{fnt,low,unr,vwl}，eh的特征集合为{cnt,mid,unr,vwl}，这两个音素之间的相似度为：

可选地，对于有明显区别或者发音方式不相关的音素，可以将相似度设置为0。例如，鼻音和爆破音的发音方式不相关，这两种音素的相似度为0。

图3示出了本申请一个实施例的训练神经网络的方法的流程图。

301，获取音频样本的每一帧的特征。

对音频样本每一帧提取时频域结合特征，例如梅尔频率倒谱系数(melfrequencycepstralcoefficients，mfcc)39维特征，并归一化。

具体而言，时频域特征与共振峰特征相结合，在送入神经网络之前使用音频样本增广的方法，对特征矩阵中一定比例的pitch(距离)进行随机的归零化。例如，可以采用如下方式进行特征提取。

1、使用高通滤波器预加重。

对于语音信号来说，语音的低频段能量较大，能量主要分布在低频段，语音的功率谱密度随频率的增高而下降，这样，高频段的输出信噪比明显下降，从而导致高频段传输衰弱，使高频段传输困难，影响信号的质量。预加重的目的是提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。同时，也是为了消除发生过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，也为了突出高频的共振峰。采用预加重对高频提升，尽量使得频谱平坦。预加重的处理过程，即为将语音信号通过一个高通滤波器。

2、使用汉明窗对信号进行平滑处理。

通过分帧和加窗对待识别语音进行切分。分帧即是对待识别语音进行语音分帧，一般情况下，音素的持续时间大约是50-200毫秒，所以帧长一般取小于50毫秒；语音的基频，男声在100赫兹左右，女声在200赫兹左右，换算成周期为10毫秒和5毫秒，既然一帧要包含多个周期，所以一般取至少20毫秒。加窗的目的是让一帧信号的幅度在两端渐变到0，可以提高变换结果的分辨率。可选地，在本申请实施例中，加窗操作采用汉明窗。

3、将时域信号转化到频域。

例如，对于切分出的每一帧，通过快速傅里叶变换(fastfouriertransform，fft)得到对应的频谱。

4、通过梅尔刻度滤波器组对频域的幅值进行精简。

5、使用非线性函数对梅尔刻度滤波器组进行仿射变换。

6、将每一帧步骤2与步骤5的特征拼接合并，组成二维特征向量。

7、数据扩充：对二维特征向量进行零均值和单位方差的转换，并且以一定比例，例如，5％、10％、15％，的pitch归零化。通过数据扩充可以有效地增加样本量，从而提高训练效率。

302，根据所述音频样本的所有帧的特征和所述音频样本中每个音素的位置，确定音素样本。

一个音素对应一定数量的帧，根据每个音素的位置，例如，每个音素的时间起始位置，可以从音频样本中切分出音素样本。每个音素样本包括对应的若干帧的特征。

303，对所述音素样本打标签，得到带有标签的音素样本。

例如，可以采用前述的标签标记方式给音素样本打标签。可选地，标签可以使用标准离散正态分布编码。

304，根据带有标签的音素样本训练神经网络模型。

将带有标签的音素样本输入至神经网络模型的输入层。所述神经网络模型可以采用三生神经网络模型，也可以称为三元组网络(tripletnetwork)。如图4所示，三元输入组中两个为正确发音的音素样本x1和x2，其中，x2与x1为同类或是发音相近的音素，x3与x1为发音差异明显的音素。三元输入组输入相同的神经网络401(彼此共享参数)。三元组网络的训练为使得同类或是发音相近的音素尽可能的靠近，发音差异明显的音素尽量疏远。基于此，采用三元组网络可以更好地分辨混淆的音素。神经网络401后为损失(loss)层402。通过设置损失层402以训练神经网络401。例如，损失可以为实际输出的相似度和标签之间的差值，根据该差值不断重复调整神经网络401的权重，直至收敛。可选地，可以使用minibatch和随机梯度下降法训练神经网络401。训练后的神经网络401可以得到混合音素集合。这样，后续输入音素的特征后，可以得到音素为混合音素集合中的哪个音素，即，可以对音素分类。

可选地，神经网络401可以由块(block)基本单元构成。图5示出了一种block的示意图。如图5所示，每个block中可以包含2段串联的卷积网络组。第一段卷积网络组的一个连接包括卷积神经网络(convolutionalneuralnetworks，cnn)卷积层cnn1和批标准化(batchnormalization，bn)归一化层bn1、cnn2和bn2，另一连接为cnn3和bn3。第二段卷积网络组的一个连接包括cnn4和bn4、cnn5和bn5。其中的卷积层可以为3*3规格滤波器。卷积层后连接激活层，例如，线性整流单元(rectifiedlinearunit，relu)激活层。

为了解决梯度弥散和梯度爆炸的问题，第二段卷积网络组的另一连接可短路。

在若干个block以后，可将两层具有时序建模能力的双向循环神经网络(recurrentneuralnetwork，rnn)，与最后一个block模块相结合。该rnn可以包括512个rnncell(rnn单元)。rnn后再连接loss层。

应理解，上述的神经网络的结构仅仅是一种示例，不应理解为对本申请实施例的限制。

训练好神经网络模型后，后续在进行语音识别时，可先获取待识别语音的音素的特征；再根据所述音素的特征和所述神经网络模型，获取所述音素的分类结果。音素的特征的获取方式可以采用与前述的训练阶段相同的获取方式。将音素的特征输入神经网络模型，得到音素为混合音素集合中的哪个音素的分类结果。

230，根据所述音素的分类结果确定所述待识别语音的评价结果。

通过神经网络模型得到待识别语音中的音素为混合音素集合中的哪个音素的分类结果后，可以基于该分类结果生成所述待识别语音的评价结果。

可选地，所述待识别语音的评价结果包括：所述音素的发音是否正确，所述音素的发音偏向于中文音素还是英文音素。也就是说，本申请实施例的技术方案除了输出音素的发音是否正确外，还输出音素的发音偏向于中文音素还是英文音素的评价结果。

在这种情况下，可采用如下方式确定待识别语音的评价结果：

若所述音素为正确的英文音素，则确定所述音素的发音正确且所述音素的发音偏向于英文音素；

若所述音素为中文音素，则确定所述音素的发音错误且所述音素的发音偏向于中文音素。

另外，若所述音素为英文音素但是为错误的音素，则可确定所述音素的发音错误且所述音素的发音偏向于英文音素。

在本申请实施例中，反馈给用户音素的发音偏向于中文音素还是英文音素的评价结果，便于用户针对性地纠正偏向于中文音素的发音，从而能够有效地提升用户的发音水平。

可选地，所述待识别语音的评价结果还可以包括所述待识别语音的评分。也就是说，在这种情况下，所述待识别语音的评价结果可以包括：所述音素的发音是否正确，所述音素的发音偏向于中文音素还是英文音素，所述待识别语音的评分。

在这种情况下，可以根据所述音素的发音，确定所述待识别语音的评分。也就是说，可以根据待识别语音中的每个音素的发音，确定待识别语音的评分。

可选地，可以根据单词的每个音素的发音，确定该单词的评分。若待识别语音包括多个单词，可以将多个单词的发音质量(评分)融合，得到待识别语音的评分；也可以直接根据待识别语音的每个音素的发音，确定待识别语音的评分；也可以采用其他的融合方式，本申请对此不作限定，只要能够根据音素的发音确定待识别语音的评分即可。

可选地，在本申请一个实施例中，还可以通过神经网络模型获取音素相对于正确音素的评分。该评分作为音素的评分，用于反馈该音素的发音质量，并还可用于确定待识别语音的评分。

例如，将音素的特征输入神经网络模型后，神经网络模型除了输出音素为混合音素集合中的哪个音素，还一并输出相应的相似度，该相似度用于生成音素的评分(音素相对于正确音素的评分)。

在本申请实施例中，通过神经网络模型识别待识别语音中的音素为目标语言音素和母语音素中的哪个音素，可以提供给用户更丰富的反馈，有利于用户准确地纠正发音，提升用户的体验。

图6示出了采用本申请实施例的技术方案得到的语音的评价结果的示意图。可以看出，对于单词“nice”来说，显示结果显示出了每个音素发为了英文音素或中文音素，发音是否正确，每个音素的评分以及该单词的评分。显示结果中，音素“n”发为了中文音素“那”，音素“ai”发为了中文音素“爱”，这样，用户能够清楚自己的发音偏向于中文，从而能够针对性地纠正发音，提升用户的体验。

本申请实施例的技术方案，针对目标语言的发音是否带有母语口音进行反馈和评价，可以帮助用户克服母语口音对外语发音的影响，从而能够提升用户的体验。

上文结合图1-图6，详细描述了本申请实施例的方法实施例，下面结合图7-图9，描述本申请实施例的装置实施例，装置实施例与方法实施例相互对应，因此未详细描述的部分可参见前面各方法实施例，装置可以实现上述方法中任意可能实现的方式。

图7示出了本申请一个实施例的语音识别的装置700的示意性框图。该装置700可以执行上述本申请实施例的语音识别的方法，例如，该装置700可以为前述装置110。

如图7所示，该装置700可以包括：

获取模块710，用于获取待识别语音；

分类模块720，用于根据神经网络模型获取所述待识别语音的音素的分类结果，所述音素的分类结果包括所述音素为混合音素集合中的哪个音素，所述混合音素集合包括第一语言和第二语言的所有音素，所述第一语言为目标语言，所述第二语言为所述待识别语音的发音者的母语；

语音识别模块730，用于根据所述音素的分类结果确定所述待识别语音的评价结果。

可选地，所述分类模块720具体用于：

获取所述待识别语音的音素的特征；

根据所述音素的特征和所述神经网络模型，获取所述音素的分类结果。

可选地，所述第一语言为英文，所述第二语言为中文，所述混合音素集合包括英文的所有音素和中文的所有音素。

可选地，所述待识别语音的评价结果包括：所述音素的发音是否正确，所述音素的发音偏向于中文音素还是英文音素。

可选地，所述语音识别模块730具体用于：

若所述音素为正确的英文音素，则确定所述音素的发音正确且所述音素的发音偏向于英文音素；

若所述音素为中文音素，则确定所述音素的发音错误且所述音素的发音偏向于中文音素。

可选地，所述待识别语音的评价结果还包括所述待识别语音的评分；

所述语音识别模块730具体用于：

根据所述音素的发音，确定所述待识别语音的评分。

可选地，如图8所示，所述装置700还可以包括：

训练模块740，用于根据带有标签的音素样本训练所述神经网络模型，其中，所述标签为关于所述混合音素集合中音素的相似度。

可选地，所述训练模块740用于：

获取音频样本的每一帧的特征；

根据所述音频样本的所有帧的特征和所述音频样本中每个音素的位置，确定音素样本；

对所述音素样本打标签，得到带有标签的音素样本。

可选地，所述训练模块740用于：

对于有明显区别的音素，相似度设置为0；

对于发音方式不相关的音素，相似度设置为0；

对于在发音方式上有相似性的音素，将发音方式特征集合的交并比作为相似度。

可选地，所述神经网络模型为三生神经网络模型，包括三个输入层，所述三个输入层中的两个输入层用于输入正确发音的音素样本，另一个输入层用于输入错误发音的音素样本，所述错误发音的音素样本包括发音偏向于所述第二语言的音素的音素样本。

本申请实施例还提供了一种计算机(或其他终端设备)，包含上述的语音识别装置700。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为执行上述语音识别方法200。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述语音识别方法200。

上述的计算机可读存储介质可以是暂态计算机可读存储介质，也可以是非暂态计算机可读存储介质。

本申请实施例还提供了一种电子设备900，其结构如图9所示，该电子设备包括：

至少一个处理器(processor)910，图9中以一个处理器910为例；和存储器(memory)920，还可以包括通信接口(communicationinterface)940和总线930。其中，处理器910、通信接口940、存储器920可以通过总线930完成相互间的通信。通信接口940可以用于信息传输。处理器910可以调用存储器920中的逻辑指令，以执行上述实施例的语音识别的方法。

此外，上述的存储器920中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令或模块。处理器910通过运行存储在存储器920中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的语音识别的方法。

存储器920可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请实施例的技术方案可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括一个或多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请实施例所述方法的全部或部分步骤。而前述的存储介质可以是非暂态存储介质，包括：u盘、移动硬盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。

所描述的实施例中的各方面、实施方式、实现或特征能够单独使用或以任意组合的方式使用。所描述的实施例中的各方面可由软件、硬件或软硬件的结合实现。所描述的实施例也可以由存储有计算机可读代码的计算机可读介质体现，该计算机可读代码包括可由至少一个计算装置执行的指令。所述计算机可读介质可与任何能够存储数据的数据存储装置相关联，该数据可由计算机系统读取。用于举例的计算机可读介质可以包括只读存储器、随机存取存储器、cd-rom、hdd、dvd、磁带以及光数据存储装置等。所述计算机可读介质还可以分布于通过网络联接的计算机系统中，这样计算机可读代码就可以分布式存储并执行。

上述技术描述可参照附图，这些附图形成了本申请的一部分，并且通过描述在附图中示出了依照所描述的实施例的实施方式。虽然这些实施例描述的足够详细以使本领域技术人员能够实现这些实施例，但这些实施例是非限制性的；这样就可以使用其它的实施例，并且在不脱离所描述的实施例的范围的情况下还可以做出变化。比如，流程图中所描述的操作顺序是非限制性的，因此在流程图中阐释并且根据流程图描述的两个或两个以上操作的顺序可以根据若干实施例进行改变。作为另一个例子，在若干实施例中，在流程图中阐释并且根据流程图描述的一个或一个以上操作是可选的，或是可删除的。另外，某些步骤或功能可以添加到所公开的实施例中，或两个以上的步骤顺序被置换。所有这些变化被认为包含在所公开的实施例以及权利要求中。

另外，上述技术描述中使用术语以提供所描述的实施例的透彻理解。然而，并不需要过于详细的细节以实现所描述的实施例。因此，实施例的上述描述是为了阐释和描述而呈现的。上述描述中所呈现的实施例以及根据这些实施例所公开的例子是单独提供的，以添加上下文并有助于理解所描述的实施例。上述说明书不用于做到无遗漏或将所描述的实施例限制到本申请的精确形式。根据上述教导，若干修改、选择适用以及变化是可行的。在某些情况下，没有详细描述为人所熟知的处理步骤以避免不必要地影响所描述的实施例。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

语音识别的方法和装置与流程

相关文章

最热文献