一种语音识别方法、装置、电子设备及存储介质与流程

2022-11-28 13:11:09 来源：中国专利 TAG：

1.本发明涉及语音识别领域，尤其涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术：

2.语音识别(automatic speech recognition，asr)是一项研究如何将人类说话的声音识别转换为文本的技术，可应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中，为了进行语音识别现有技术一般使用连接时序分类(connectionist temporal classification，ctc)进行语音识别，然而，ctc是一种序列识别的方法，虽然可以用识别出的每个字的代表帧作为字的时间点，但是无法给出准确的时间点，导致在实际情况下输出语音识别的文本数据时无法输出精准的时间戳。

技术实现要素：

3.为克服相关技术中存在的问题，本发明提供一种语音识别方法、装置、电子设备及存储介质。
4.根据本发明实施例的第一方面，提供一种语音识别方法，所述方法包括：
5.获取目标音频数据；
6.对所述目标音频数据进行分类识别，得到第一文本数据；
7.将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，所述对齐结果包括时间戳信息；
8.根据所述对齐结果生成目标文本数据。
9.可选的，所述将所述第一文本数据通过预设处理模型进行对齐处理，得到对齐结果包括：
10.获取所述第一文本数据对应的声学特征信息；
11.将所述第一文本数据和所述声学特征信息输入预设声学模型，得到所述对齐结果。
12.可选的，所述将所述第一文本数据和所述声学特征信息输入声学模型包括：
13.将所述第一文本数据和所述声学特征信息输入预设声学模型进行硬对齐处理。
14.可选的，所述对所述目标音频数据进行分类识别，得到第一文本数据包括：
15.将所述目标音频数据输入预先设置的语音识别模型进行分类识别，输出第一文本数据。
16.可选的，所述将所述第一文本数据和所述声学特征信息输入预设声学模型进行硬对齐处理包括：
17.将所述第一文本数据和所述声学特征信息输入声学模型进行特征比对处理，生成时间戳信息；
18.将所述时间戳信息和所述第一文本数据中每个文本数据进行一一对应。
19.根据本发明实施例的第二方面，提供一种语音识别装置，所述装置包括：
20.获取模块，用于获取目标音频数据；
21.识别模块，用于对所述目标音频数据进行分类识别，得到第一文本数据；
22.对齐模块，用于将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，所述对齐结果包括时间戳信息；
23.输出模块，用于根据所述对齐结果生成目标文本数据。
24.可选的，所述对齐模块包括：
25.获取单元，用于获取所述第一文本数据对应的声学特征信息；
26.对齐单元，用于将所述第一文本数据和所述声学特征信息输入声学模型，得到所述对齐结果。
27.所述对齐单元包括：
28.对齐子单元，用于将所述第一文本数据和所述声学特征信息输入预设声学模型进行硬对齐处理。
29.根据本发明实施例的第三方面，提供一种电子设备，包括：
30.处理器；
31.用于存储所述处理器可执行指令的存储器；
32.其中，所述处理器被配置为执行所述指令，以实现本技术实施例第一方面所述的语音识别方法。
33.根据本发明实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本技术实施例第一方面所述的语音识别方法。
34.本发明的实施例提供的技术方案可以包括以下有益效果：
35.本发明可以通过获取目标音频数据；对所述目标音频数据进行分类识别，得到第一文本数据；将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果；根据所述对齐结果生成目标文本数据。本发明通过增加一个声学模型进行对齐，即将识别出的结果用一个小的传统声学模型进行对齐，相对于现有中的语音识别模型，通过预设处理模型进行对齐处理得到的文本数据中可以得到准确的时间点。
36.应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。
附图说明
37.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。
38.图1是本技术实施例提供的语音识别的方法的流程图之一；
39.图2是图1所示的本技术实施例提供的语音识别的方法中发音波形示意图；
40.图3是图1所示的本技术实施例提供的语音识别的方法中预测发音波形示意图；
41.图4是本技术实施例提供的语音识别的方法的流程图之二；
42.图5是本技术实施例提供的语音识别的方法的流程图之三；
43.图6是本技术实施例提供的语音识别的装置的结构图；
44.图7是本技术实施例提供的的一种电子设备的框图。
具体实施方式
45.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
46.需要说明的是，ctc用来解决输入序列和输出序列难以一一对应的问题，目的是实现直接对序列数据进行学习，而无需事先标注好训练数据中输入序列和输入序列的映射关系，在语音识别等序列学习任务中取得更好的效果。在一般的ctc方法识别中，虽然可以用识别出的每个字的代表帧作为字的时间点，但是由于ctc是一种序列识别的方法，无法给出准确的时间点导致实际情况往往不是太准确，因为代表帧只是代表了这一帧最能代表音素，但不一定就是音素的开始时间。需要说明的是，音素，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类，例如在汉语音节中，中文文字“啊”对应的音节“ā”只有一个音素，中文文字“爱”对应的音节
“à
i”有两个音素，中文文字“代”对应的音节“d
à
i”有三个音素。
47.因此，在一些场景应用中，除了要输出声音识别的结果，还需要输出识别结果中的每个字的时间戳信息，即每个字的开始和结束时间，通过本技术实施例中一种语音识别的方法从而在进行语音识别的时候可以输出准确的时间点信息，图1是根据一示例性实施例示出的一种语音识别方法的流程图，如图1所示，包括以下步骤：
48.步骤101，获取目标音频数据。
49.需要说明的是，在进行语音识别中通过采集音频数据进行下一步的语音识别，可以通过任意录音设备或者声音采集设备进行声音的采集，但是对于计算机来讲，获取目标音频数据首先需要将获取的声音数据进行转换。
50.具体的，可以对采集到的声音数据进行前端处理(预处理)，当需要识别的声音输入后，需要对声音进行一些优化处理。例如音频中有一段静音，需要切掉静音部分，这样可以更准备的识别，可以进行静音检测(voice activity detection，vad)技术，用于检测出含有声音信息的音频，切除静音的部分。需要说明的是，静音检测可以设置静音检测时长，根据时长判断是否算作是静音，从什么时间开始切除。在预处理完成之后，需要对音频进行声学特征参数提取，这些特征提取主要是通过参数的方式获取这段音频的特征，把音频的特征变成计算机能够处理的语音特征向量，方便计算机理解，记录和对比。每段音频的特征参数基本上都是不一样的，同样一段话的不同音色的音频特征可能更接近一些。常用的特征提取参数可以通过以下几种方式：线性预测倒谱系数(linearpredictivecepstralcoefficient，lpcc)，mel频率倒谱系数(mel frequency cepstrum coefficient，mfcc)，线性预测分析(linearpredictioncoefficients，lpc)，感知线性预测系数(perceptuallinearpredictive，plp)，需要说明的是，本技术不对此做具体限定，部分音频中含有噪声，需要进行降噪处理，这样更好的进行后续的任务流程。
51.步骤102，对目标音频数据进行分类识别，得到第一文本数据。
52.在步骤101中获取目标音频数据之后，对目标音频数据进行分类识别处理，得到第
一文本数据，具体的，将目标音频数据进行ctc语音识别，例如，比如一句声音的发音是“你好”，通过ctc语音识别的结果也是“你好”。需要说明的是，传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的标签才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代，来确保对齐更准确，这本身就是一个比较耗时的工作。图2是图1所示的本技术实施例提供的语音识别的方法中发音波形示意图，如图2所示，是“你好”这句话的声音的波形示意图，每个框代表一帧数据，传统的方法需要知道每一帧的数据是对应哪个发音音素。比如第1、2、3、4帧对应n的发音，第5、6、7帧对应i的音素，第8、9帧对应h的音素，第10、11帧对应a的音素，第12帧对应o的音素。与传统的声学模型训练相比，采用ctc作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练，因此，无需对数据对齐和一一标注，并且ctc直接输出序列预测的概率，不需要外部的后处理。
53.ctc语音是被是一个输入序列到一个输出序列的结果，对于ctc模型来讲，主要通过预测输出的序列是否和真实的序列是否接近(相同)，而不会关注预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。图3是图1所示的本技术实施例提供的语音识别的方法中预测发音波形示意图，如图3所示，图3是ctc预测结果示意图，ctc引入了blank(该帧没有预测值)，每个预测的分类对应的一整段语音中的一个spike(尖峰)，其他不是尖峰的位置认为是blank。对于一段语音，ctc最后的输出是spike(尖峰)的序列，并不关心每一个音素持续了多长时间。如图3所示，对于你好的发音为例，通过ctc预测的序列结果在时间上可能会稍微延迟于真实发音对应的时间点，其他时间点都会被标记会blank。因此，在ctc对目标音频数据进行语音识别后会输出预测序列结果，即第一文本数据，为了得到识别后的语音文本对应的时间点更加准确，减少延迟，因此，进行步骤103中的操作。
54.步骤103，将第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，对齐结果包括时间戳信息。
55.在步骤103中，将步骤102中的识别结果通过预设声学模型对齐，得到对齐结果，具体的，例如，将识别结果“你好”和对应的声学特征，送入声学模型进行硬对齐，通过增加一个传统dnn-hmm对齐模块结合硬对齐处理算法，在增加较少计算量的基础上，可以得到准确的时间点信息，即对齐结果包括时间戳信息。
56.步骤104，根据对齐结果生成目标文本数据。
57.在步骤104中，根据最终的对齐结生成最终的语音识别后的目标文本数据，此时，目标文本数据中是根据时间戳信息可以包含每个字的时间点信息，即每个字的开始和结束时间。
58.本发明可以通过获取目标音频数据；对所述目标音频数据进行分类识别，得到第一文本数据；将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果；根据所述对齐结果生成目标文本数据。本发明通过增加一个声学模型进行对齐，即将识别出的结果用一个小的传统声学模型进行对齐，相对于现有中的语音识别模型，通过预设处理模型进行对齐处理得到的文本数据中可以得到准确的时间点。
59.图4是本技术实施例提供的语音识别的方法的流程图之二，如图4所示，包括以下步骤：
60.步骤101，获取目标音频数据。
61.步骤102，对目标音频数据进行分类识别，得到第一文本数据。
62.上述步骤101-102参照前序论述，在此不再赘述。
63.步骤1031，获取第一文本数据对应的声学特征信息。
64.步骤1032，将第一文本数据和声学特征信息输入预设声学模型，得到对齐结果，对齐结果包括时间戳信息。
65.进一步地，在步骤1032中，将第一文本数据和声学特征信息输入声学模型包括：将所述第一文本数据和所述声学特征信息输入预设声学模型进行硬对齐处理。
66.具体的，硬对齐处理的处理过程包括：将所述第一文本数据和所述声学特征信息输入声学模型进行特征比对处理，生成时间戳信息；将所述时间戳信息和所述第一文本数据中每个文本数据进行一一对应。
67.需要说明的是，在本技术实施例中，将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，所述对齐结果包括时间戳信息，具体过程包括，护球通过ctc语音识别后的第一文本数据对应的声学特征信息，例如，将识别结果“你好”和对应的声学特征，送入声学模型进行viterb对齐，viterbi学习算法是一种硬对齐，所谓硬对齐就是只有0或者1的归属，即一帧只归宿于某个状态，hmm解码有两种方法，分别为viterbi算法和近似算法，在本技术实施例中可以选取viterbi算法进行硬对齐处理，viterbi算法是个动态规划的算法，viterbi算法可以得到一条概率最大的回溯路径，本质上维特比算法是求解多步骤，并且每步都进行多选择模型的这一类最优选择问题。对于每一步的所有可能的选择，维特比算法都保存了他们前续所有步骤到当前步骤当前选择的最小总代价(或者最大价值)以及当前代价的情况下前一步骤的选择。依次计算完所有步骤后，通过回溯的方法不断找寻前一步骤的选择即可找到完整的最优选择路径。
68.需要说明的是，在本技术实施例中，预设声学模型可以是是由dnn hmm中进行对齐处理并识别，其中，dnn hmm对齐方法与gmm hmm方法类似，具体的是，dnn取代gmm hmm中的gmm进行识别，通过用dnn记录发射概率的信息，转移矩阵、初始状态概率矩阵仍然来自hmm。dnn-hmm声学模型的具体处理步骤包括：帧长切分,提取特征，这里可以采用mel频率倒谱系数mfcc的方法进行特征提取；通过gmm-hmm声学模型进行viterb对齐或者alignment对齐；对每一帧进行聚类(音素总数),获得每帧属于各个音素的概率；再通过hmm进行解码搜索,获得每一帧最优音素表示序列，给定音素序列，根据每一帧的gmm似然值，此时gmm-hmm-》dnn-hmm-》dnn-hmm迭代进行强制对齐，得到对齐结果。
69.步骤104，根据对齐结果生成目标文本数据。
70.上述步骤104参照前序论述，在此不再赘述。
71.本发明可以通过获取目标音频数据；对所述目标音频数据进行分类识别，得到第一文本数据；将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果；根据所述对齐结果生成目标文本数据。本发明通过增加一个声学模型进行对齐，即将识别出的结果用一个小的传统声学模型进行对齐，相对于现有中的语音识别模型，通过预设处理模型进行对齐处理得到的文本数据中可以得到准确的时间点。
72.图5是本技术实施例提供的语音识别的方法的流程图之三，如图5所示，包括以下步骤：
73.步骤101，获取目标音频数据.
74.上述步骤101参照前序论述，在此不再赘述。
75.步骤1021，将目标音频数据输入预先设置的语音识别模型进行分类识别，输出第一文本数据。
76.需要说明的是，在本实施例中，ctc语音是被是一个输入序列到一个输出序列的结果，对于ctc模型来讲，主要通过预测输出的序列是否和真实的序列是否接近(相同)，而不会关注预测输出序列中每个结果在时间点上是否和输入的序列正好对齐。图3是图1所示的本技术实施例提供的语音识别的方法中预测发音波形示意图，如图3所示，图3是ctc预测结果示意图，ctc引入了blank(该帧没有预测值)，每个预测的分类对应的一整段语音中的一个spike(尖峰)，其他不是尖峰的位置认为是blank。对于一段语音，ctc最后的输出是spike(尖峰)的序列，并不关心每一个音素持续了多长时间。如图3所示，对于你好的发音为例，通过ctc预测的序列结果在时间上可能会稍微延迟于真实发音对应的时间点，其他时间点都会被标记会blank。因此，在ctc对目标音频数据进行语音识别后会输出预测序列结果，即第一文本数据，为了得到识别后的语音文本对应的时间点更加准确，减少延迟，因此，进行步骤103中的操作。
77.步骤103，将第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，对齐结果包括时间戳信息。
78.步骤104，根据对齐结果生成目标文本数据。
79.上述步骤103-104参照前序论述，在此不再赘述。
80.本发明可以通过获取目标音频数据；对所述目标音频数据进行分类识别，得到第一文本数据；将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果；根据所述对齐结果生成目标文本数据。本发明通过增加一个声学模型进行对齐，即将识别出的结果用一个小的传统声学模型进行对齐，相对于现有中的语音识别模型，通过预设处理模型进行对齐处理得到的文本数据中可以得到准确的时间点。
81.图6是根据一示例性实施例示出的一种语音识别装置框图，该装置包括获取模块601，识别模块602，对齐模块603，输出模块604。
82.获取模块601，用于获取目标音频数据；
83.识别模块602，用于对所述目标音频数据进行分类识别，得到第一文本数据；
84.对齐模块603，用于将所述第一文本数据通过预设声学模型进行对齐处理，得到对齐结果，所述对齐结果包括时间戳信息；
85.输出模块604，用于根据所述对齐结果生成目标文本数据。
86.进一步地，所述对齐模块603包括：
87.获取单元，用于获取所述第一文本数据对应的声学特征信息；
88.对齐单元，用于将所述第一文本数据和所述声学特征信息输入声学模型，得到所述对齐结果。
89.进一步地，所述对齐单元包括：
90.对齐子单元，用于将所述第一文本数据和所述声学特征信息输入预设声学模型进行硬对齐处理。
91.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法
的实施例中进行了详细描述，此处将不做详细阐述说明。
92.图7是根据一示例性实施例示出的一种用于电子设备400的框图。例如，电子设备400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
93.参照图7，电子设备400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出接口412，传感器组件414，以及通信组件416。
94.处理组件402通常控制装置的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。
95.存储器404被配置为存储各种类型的数据以支持在电子设备400的操作。这些数据的示例包括用于在装置上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
96.电源组件406为电子设备400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为电子设备400生成、管理和分配电力相关联的组件。
97.多媒体组件408包括在所述电子设备400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当电子设备400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
98.音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(mic)，当电子设备400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。
99.输入/输出接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。
100.传感器组件414包括一个或多个传感器，用于为电子设备400提供各个方面的状态评估。例如，传感器组件414可以检测到电子设备400的打开/关闭状态，组件的相对定位，例如所述组件为电子设备400的显示器和小键盘，传感器组件414还可以检测电子设备400或电子设备400一个组件的位置改变，用户与电子设备400接触的存在或不存在，电子设备400
方位或加速/减速和电子设备400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。
101.通信组件416被配置为便于电子设备400和其他设备之间有线或无线方式的通信。电子设备400可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。
102.在示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。
103.在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由电子设备400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
104.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其他实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
105.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种音频处理方法、系统、装置及存储介质与流程

一种语音识别方法、装置、电子设备及存储介质与流程

相关文献

最热文献