一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别模型的训练方法、语音识别方法、装置和设备与流程

2021-07-16 16:15:00 来源:中国专利 TAG:例数 语音识别 方法 终端设备 装置


1.本发明实施例涉及数据处理技术领域,尤其涉及一种语音识别模型的 训练方法、语音识别方法、装置、终端设备和存储介质。


背景技术:

2.声纹识别(speaker recognition)是通过计算机利用人体所固有的生理 特征或行为特征来进行个人身份鉴定。声纹识别分为说话人辨认和说话人 确认,前者是根据说话人语音在多个参考说话人中确定为某一个;后者是 证实说话人的身份与其声纹是否一致。
3.目前,在说话人辨认的过程中,由于检测过程不完备,会使对话被分 割成多个语音片段,每个语音片段包含多个人声,这样,会使分辨具体某 个人声的准确度降低。另外,如果要确认与目标说话人相关的说话内容, 就需要获取大量的音频片段,才能找到目标说话人的前后说话内容,这样, 在语句的先后顺序出现错乱时,导致无法证实说话人的身份与其声纹是否 一致。


技术实现要素:

4.本发明实施例提供一种语音识别模型的训练方法、语音识别方法、装 置、终端设备及存储介质,以解决相关技术中,声纹识别精度不高的问题。
5.为了解决上述技术问题,本发明是这样实现的:
6.第一方面,本发明实施例提供了一种语音识别模型的训练方法,该方 法包括:
7.根据目标对象的音频数据,确定语音训练样本,语音训练样本包括语 义信息和音频特征信息;
8.将语义信息和音频特征信息输入到语音识别模型中,对所述语音识别 模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别 模型。
9.本发明实施例中,通过对音频数据进行分析,得到音频数据对应的语 义信息和音频特征信息;接着,根据语义信息和音频特征信息对语音识别 模型进行训练,这样,即使在对话音频被分成多个片段时,也能根据音频 特征信息确定目标对象,且根据语义信息识别到目标对象的身份特征,以 便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目标对象 的精度,并在识别出目标对象的情况下,确定目标对象的身份信息,从而 得到对话音频的应用场景。
10.在一种可能的实施例中,上述涉及到的“将语义信息和音频特征信息 输入到语音识别模型中,对语音识别模型进行迭代训练,直至满足预设训 练条件,得到训练后的目标语音识别模型”的步骤中,具体可以包括:
11.针对每个语音训练样本分别执行以下步骤:将语义信息和音频特征信 息输入到语音识别模型中,得到语义信息与音频特征信息的相似度预测结 果;
12.根据每个相似度预测结果对语音识别模型进行调整;
13.根据语音训练样本对调整后的语音识别模型进行迭代训练,直至满足 预设训练
条件,得到训练后的目标语音识别模型。
14.在另一种可能的实施例中,本发明实施例中的“语音识别模型”可以 包括转录网络模型,基于此,在上述“根据目标对象的音频数据,确定语 音训练样本”的步骤中,具体可以包括:
15.将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
16.其中,语音信息用于确定音频数据对应的文本数据。
17.在又一种可能的实施例中,本发明实施例中的“语音识别模型”可以 包括预测网络模型,基于此,在上述“根据目标对象的音频数据,确定语 音训练样本”的步骤中,具体可以包括:
18.在对语音识别模型进行第一次训练的情况下,将预设相似度预测结果 输入到预测网络模型中,得到音频特征信息;
19.在对语音识别模型进行第n次训练之后的情况下,将从第n-1次训练 输出相似度预测结果输入到预测网络模型中,得到第n次的音频特征信息;
20.其中,n为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
21.在再一种可能的实施例中,本发明实施例中的“语音识别模型”还可 以包括联合网络模型,基于此,在上述“将语义信息和音频特征信息输入 到语音识别模型中,得到语义信息与音频特征信息的相似度预测结果”的 步骤中,具体可以包括:
22.将语义信息和音频特征信息输入到联合网络模型中,得到包括音频数 据的文本信息和目标对象的身份信息的隐藏数据;
23.将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
24.在再一种可能的实施例中,上述涉及的语音识别模型的训练方法还可 以包括:
25.根据目标对象的音频数据通过梅尔频率倒谱系数mfcc,确定音频特 征向量。
26.其中,上述涉及的“根据目标对象的音频数据通过梅尔频率倒谱系数 mfcc,确定音频特征向量”的步骤,具体可以包括:
27.获取目标对象的音频数据;
28.对音频数据的波形图进行分帧处理,得到至少一个帧片段;
29.对至少一个帧片段中的每个帧片段进行离散傅里叶变化dft,确定每 个帧片段的功率谱;
30.将功率谱进行数据转化,得到音频特征向量。
31.在再一种可能的实施例中,在上述涉及的“对至少一个帧片段中的每 个帧片段进行离散傅里叶变化dft”的步骤之前,还可以包括:
32.通过汉明窗对每个帧片段进行平滑处理。
33.第二方面,本发明实施例提供了一种利用目标语音识别模型的语音识 别方法,该方法可以包括:
34.获取目标音频数据;
35.将目标音频数据输入到目标语音识别模型中,得到对话信息;其中,
36.对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
37.本发明实施例中,通过将接收的目标音频数据输入到训练好的语音识 别模型中,
可以识别目标音频数据中的目标对象,以及目标对象的身份信 息,通过在第一方面中训练好的语音识别模型,可以对目标对象在音频数 据中被准确追踪,从而提高在音频中识别目标对象的精度,并在识别出目 标对象的情况下,确定目标对象的身份信息,从而得到对话音频的应用场 景。
38.在一种可能的实施例中,上述涉及“获取目标音频数据”的步骤中, 具体可以包括:
39.对接收的音频数据进行预处理,得到目标音频数据;
40.其中,预处理包括数据清洗和/或降噪。
41.第三方面,本发明实施例提供了一种语音识别模型的训练装置,该装 置可以包括:
42.处理模块,用于根据目标对象的音频数据,确定语音训练样本,语音 训练样本包括语义信息和音频特征信息;
43.生成模块,将语义信息和音频特征信息输入到语音识别模型中,对语 音识别模型进行迭代训练,直至满足预设训练条件,得到训练后的目标语 音识别模型。
44.第四方面,本发明实施例提供了一种利用目标语音识别模型的语音识 别装置,语音识别模型通过第一方面所示的方法或者第三方面所示的装置 训练,该装置包括:
45.获取模块,用于获取目标音频数据;
46.处理模块,用于将目标音频数据输入到目标语音识别模型中,得到对 话信息;其中,
47.对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
48.第五方面,本发明实施例提供了一种终端设备,包括处理器、存储器 及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理 器执行时实现如第一方面任一项所示的语音识别模型的训练方法,或者, 如第二方面任一项所示的利用语音识别模型的语音识别。
49.第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序, 若计算机程序在计算机中执行,则令计算机执行如第一方面任一项所示的 语音识别模型的训练方法,或者,如第二方面任一项所示的利用语音识别 模型的语音识别。
附图说明
50.从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本 发明其中,相同或相似的附图标记表示相同或相似的特征。
51.图1为本发明实施例提供的一种语音识别模型的训练方法和语音识别 方法的实现流程示意图;
52.图2为本发明实施例提供的一种语音识别方法的实现流程示意图;
53.图3为本发明实施例提供的一种语音识别模型的训练方法的流程图;
54.图4为本发明实施例提供的一种语音识别模型的结构示意图;
55.图5为本发明实施例提供的一种转录网络模型的结构示意图;
56.图6为本发明实施例提供的一种预测网络模型的结构示意图;
temporal classification,ctc)算法 实现。
68.虽然,上述方式在声纹识别中有很多优点,但同样存在诸多局限,下 面进行详细说明:
69.第一,对话需要被分割成片段,而且每个片段只包含一个人的声音。 否则,嵌入就无法准确表征说话人。然而,目前相关算法并不完备,会导 致分割出的片段包含多个人声。
70.第二,聚类过程中需要确定说话人的数量,而且这一阶段对输入的准 确性非常敏感。另外,聚类过程中需要在用于估计语音特征的片段大小和 所需的模型准确度之间进行艰难的权衡。片段越长,语音特征质量越高, 因为模型拥有更多与说话人相关的信息。这就造成模型可能将简短的插入 语归入错误的说话人,由此产生非常严重的后果,如在临床、金融语境下, 肯定和否定回答都需要被准确追踪。
71.第三,传统的说话人分类系统没有一个简单的机制来利用在许多自然 对话中特别突出的语言线索。例如,「你吃这个药多长时间了?」在临床 对话场景中最有可能是医护人员说的。类似地,「我们需要什么时候交作业?」很可能是学生而不是老师说的。由此,目前语音识别方式不能准确 分析语音内容,以致不能准确识别与该语音相关的语义以及场景。
72.综上,针对相关技术出现的问题,本发明实施例提供了一种语音识别 模型的训练方法、语音识别方法、装置、终端设备及存储介质,以解决相 关技术中,声纹识别精度不高的问题。
73.其中,本发明实施例提出了一种语音识别模型的训练方法和语音识别 方法,来研究自动语音识别和说话人区分,两个方法的整体流程如图1所 示,主要分为两大部分:语音识别模型的建立与训练过程(图1左边部分) 和基于训练后的模型进行语音识别的过程(图1右边部分)。
74.进一步地,语音识别模型的建立主要可以包括下述步骤:
75.(1)收集数据,包括手机、电脑等设备上采集的数据以及从网上公 开数据集上下载的数据,其格式有wave、mpeg、mp3、wma等等;
76.(2)数据清洗,由于从设备上采集的数据存在不清晰、语言不明、 失真等情况,由此,需要将该部分数据清除,保留中文或者英文,高清晰 度的数据集;
77.(3)添加标签,在步骤(1)中采集到的数据都是音频格式,没有对 应的文字以及说话人标签,由此,需要添加标签,为训练做准备。
78.(4)训练语音识别模型,即根据目标对象的音频数据(例如步骤(1) 中采集到的音频,在某些场景中,该语音数据可以被步骤(3)中添加标 签),确定语音训练样本,语音训练样本包括语义信息和音频特征信息;
79.将语义信息和音频特征信息输入到语音识别模型中,对语音识别模型 进行迭代训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
80.第二部分是利用目标语音识别模型的语音识别,该部分可以包括:
81.(1)采集需要分析的对话,保存为音频文件;
82.(2)数据清洗,由于采集过程可能有噪音或者其他非语音的声音, 由此可以对上述音频文件进行去噪;
83.(3)将去噪后的音频输入到目标语音识别模型(如图2中的joint asr sd)中,得到对应的文字和说话人信息(如图2中的说话人spear1: 单词word1;说话人spear2:单词
word2 word3;说话人spear1:单词word4 等)。
84.上述两个部分的方法同时利用了声音和语言两部分的信息,在说话人 识别过程中具有语言模型建模能力。当说话人具有明确角色时该模型会具 有相当好的效果,比如在医患对话、购物等典型场景。
85.基于上述应用场景,下面对本发明实施例首先对语音识别模型的训练 方法进行详细说明。
86.图3为本发明实施例提供的一种语音识别模型的训练方法的流程图。
87.如图3所示,该语音识别模型的训练方法具体可以包括步骤310-步骤 330,具体如下所示:
88.步骤310:根据目标对象的音频数据,确定语音训练样本,语音训练 样本包括语义信息和音频特征信息。
89.这里,在一种可能的实施例中,在执行步骤310之前,需要将音频数 据转换为转录网络模型和/或预测网络模型可以识别的格式,由此,该方法 还可以包括:
90.根据目标对象的音频数据通过梅尔频率倒谱系数(frequency cepstral coefficient,mfcc),确定音频特征向量。
91.下面对该步骤进行进一步地说明:
92.(1)获取目标对象的音频数据。
93.(2)对音频数据的波形图进行分帧处理,得到至少一个帧片段。
94.举例说明,通常情况下取20-40毫秒(ms)为一帧的宽度,在本发明 实施例中可以取25ms为一帧的宽度,对于一个44.1khz采样的信号,一帧 就包含0.040*44100=1764个采样点,帧移取为20ms,允许每两帧之间有 20ms的重叠部分(overlap)。这样一来,第一帧就是从第1个采样点到第 1764个采样点,第二帧就是从第883个采样点到第2646个采样点,直到最 后一个采样点,如果音频长度不能被帧数整除,在最后补0。对于一个15 秒s的音频数据,可以得到44100*15/882=750帧。
95.(3)对至少一个帧片段中的每个帧片段进行离散傅里叶变化 (discrete fourier transform,dft),确定每个帧片段的功率谱。
96.其中,可以通过如下公式(1)和(2)实现确定每个帧片段的功率谱:
[0097][0098][0099]
其实dft变换就是两个“相关(correlation)”操作,一个是与音频数据 的频率为k的cos序列相关,一个是与频率为k的sin序列相关,然后两者 叠加就是与频率k的正弦波相关的结果,如果得到的值很大,就表明音频 数据包含频率为k的能量很大。
[0100]
(4)将功率谱进行数据转化,得到音频特征向量。
[0101]
举例说明,计算梅尔间隔滤波器组mel-spaced filter bank频率和mel频 率之间的转化公式(3)为:m(f)=1125ln(1 f/700)
[0102]
m-1
(m)=700(exp(m/1125)-1)
ꢀꢀ
(3)
[0103]
其中,梅尔间隔滤波器组是一组非线性分布的滤波器组,它在低频部 分分布密集,高频部分分布稀疏,这样的分布是为了更好得满足人耳听觉 特性。接着,对上述公式(3)中确定的128维的mel功率谱取log,得到 128维的滤波器组能量log-mel filer bank energies(即步骤(3)中的k的能 力)。这样做的原因是由于人耳对声音的感知并不是线性的,用log这种 非线性关系表示更加准确。
[0104]
基于上述步骤(1)-(4),有时为了使得到的音频特征向量更为精确, 在一种可能的实例中,在上述步骤(3)之前,还可以包括:
[0105]
通过汉明窗对每个帧片段进行平滑处理。
[0106]
这里,加窗的目的是平滑信号,使用汉明窗加以平滑的话,相比于矩 形窗函数,会减弱fft以后旁瓣大小以及频谱泄露。
[0107]
本发明实施例中,使用汉明窗(hamming window)对信号进行加窗处理 公式(4)如下:
[0108][0109]
由此,就将一段音频数据转化为了一组具有时间序列的音频特征向量。
[0110]
基于此,这里,在一种可能的实施例中,该语音识别模型可以包括下 述中的至少一种子模型:转录网络模型、预测网络模型、联合网络模型。
[0111]
在语音识别模型包括转录网络模型时,该步骤310具体可以包括:
[0112]
将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
[0113]
其中,语音信息用于确定音频数据对应的文本数据。
[0114]
和/或,在语音识别模型包括预测网络模型时,该步骤310具体可以包 括:
[0115]
在对语音识别模型进行第一次训练的情况下,将预设相似度预测结果 输入到预测网络模型中,得到音频特征信息;
[0116]
在对语音识别模型进行第n次训练之后的情况下,将从n-1次训练输 出的相似度预测结果输入到预测网络模型中,得到第n次的音频特征信息;
[0117]
其中,n为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
[0118]
需要提示的是,上述两种情况可以叠加操作,即在语音识别模型包括 转录网络模型和预测网络模型时,均可采用上述步骤确定语义信息。
[0119]
为了进一步解释该步骤,下面可以对该步骤进行举例说明:
[0120]
本发明实施例中涉及到的语音识别模型是在递归神经网络传感 (recurrent neural network transducer,rnn-t)模型的基础上得到的。该 语音识别模型该模型的主要特点是实现了声音和语言线索的无缝结合,而 且将说话人分类和语音识别集成到同一个系统中。相较于同类别单一的识 别系统,该集成模型不会大幅度降低语音识别的性能,但却能极大的提高 说话人区分的效果。
[0121]
这一集成的语音识别模型可以像语音识别系统一样训练。训练参考的 数据包括说话人的语音转录以及区分说话人的标签。例如「作业什么时候上交?」<学生>,「我希望你在明天上课前提交,」<老师>。当使用音频 和相应的参考转录文本示例训练模型,使用者可以输入更多对话录音并获 得类似形式的输出。
[0122]
步骤320:将语义信息和音频特征信息输入到语音识别模型中,对语 音识别模型
进行迭代训练,直至满足预设训练条件,得到训练后的目标语 音识别模型。
[0123]
其中,针对每个语音训练样本分别执行以下步骤:将语义信息和音频 特征信息输入到语音识别模型中,得到语义信息与音频特征信息的相似度 预测结果;根据每个相似度预测结果对语音识别模型进行调整;根据语音 训练样本对调整后的语音识别模型进行迭代训练,直至满足预设训练条件, 得到训练后的目标语音识别模型。
[0124]
这里,基于上述步骤310中的可能,在语音识别模型还包括联合网络 模型时,该步骤320具体可以包括:
[0125]
将语义信息和音频特征信息输入到联合网络模型中,得到包括音频数 据的文本信息和目标对象的身份信息的隐藏数据;
[0126]
将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
[0127]
由此,为了进一步解释如何得到语义信息与音频特征信息的相似度预 测结果,下面结合步骤310中涉及的两个子模型,对该步骤进行举例说明:
[0128]
如图4所示,在语音识别模型(例如图2中的joint asr sd模型的具 体实现)可以包括转录网络模型(transcription network)、预测网络模型 (prediction network)和联合网络模型(joint network)时,分别对每个 子模型分别进行接介绍。
[0129]
(1)转录网络模型
[0130]
转录网络模型又称编码器,其接收经过步骤310中处理后的音频特征 向量作为输入,经过神经网络训练后,输出中间变量该变量中包含了 音频数据的语义信息,可在后续用来训练语音对应的文字信息,即确定音 频数据对应的文本数据。
[0131]
(2)预测网络模型
[0132]
预测网络模型主要功能是获取说话人特征,其接受上一次联合网络模 型的输出作为输入,经过神经网络层训练后,输出中间变量该变量 中包含了各段语音对应的音频特征信息即说话人信息,可以用来训练语音 对应的说话人信息。
[0133]
这里,需要提示的是,在没有上一次联合网络模型的输出即次第一次 训练时,是将预设相似度预测结果输入到预测网络模型中,得到音频特征 信息;在对语音识别模型进行第n次训练之后的情况下,将从第n次训练 输出的相似度预测结果输入到预测网络模型中,得到第n次的音频特征信 息;其中,n为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
[0134]
(3)联合网络模型
[0135]
联合网络模型接受转录网络模型和预测网络模型的输出结果,合并和作为输入,通过神经网络层训练后,得到各个标签对应的相似度预 测结果,并将相似度预测结果重新输入到预测网络模型中。这是模型中的 一个反馈回路,其中先前识别出的单词作为输入反馈回来,并且rnn-t模 型能够整合语言线索,如问题的结尾,这也是能够实现说话人区分的核心 原因。为了得到最终对应的文字和说话人,在本发明实施例中,可以直接 选取概率最大的标签,或者综合各个时间段,选取全局概率最大的标签组。
[0136]
进一步地,为了更好的说明本发明实施例中如何训练语音识别模型, 举出一个具体的例子,如下所示:
[0137]
如图4所示,转录网络模型的输入用符号序列x=[x1,x2,...x
t
]表示,式 中t表示序列中符号的数量,对应于音频切分数,x
t
∈d是mel滤波器得到 的特征,d等于80。相对应
的预测网络模型可以用符号序列y=[y1,y2,...y
u
] 表示,包括语音识别的结果和说话人的标注,其中y
u
∈ω,ω是rnn-t网 络的全输出空间。而训练的核心函数由公式(5)所示:
[0138][0139]
基于此,接下来分别对语音识别模型中三个主要的转录网络模型、预 测网络模型和联合网络模型做详细介绍。
[0140]
(1)transcription network
[0141]
将音频特征向量作为输入,维度为80。为了方便训练,将长音频分为 最多15秒的音频段,每个音频段可能有多个人在说话。由于较长的单位更 适合于语音识别,可以降低输出序列的时间分辨率,从而提高训练和推理 的效率。为此,本发明实施例中采用了一个时间延迟神经网络(tdnn) 层的层次结构,将时间分辨率从10ms降低到80ms。该体系结构与用于 ctc字模型的编码器非常相似,这种抽取提高了推理速度并降低了识别错 误率。
[0142]
具体地说,transcription network模型由三个由四层组成的相同块组成 如图5所示:
[0143]
(1)一个具有512个滤波器的一维时间卷积层,该卷积层的kernal大 小为5,再加一个大小为2的max pooling运算符;(2)三个具有512个单 元的双向长短期神经网络(lstm)层。该transcription network模型使用 基于随机梯度的adam优化器进行训练。
[0144]
(2)prediction network
[0145]
prediction network模型接收前一次的结果y
u-1
作为输入,首先经过一 个单词嵌入层组成,它能够将4096个单元的语素词汇映射到512维向量空 间;再将该空间的输出作为lstm层的输入,该层具有1024个单元;最后 接一个具有512个单元的完全连接层。该过程用公式(6)可以表示为:
[0146][0147]
单层的lstm网络可以由图6表示,主要包含以下几个部分:
[0148]
lstm之遗忘门
[0149]
遗忘门(forget gate)是控制是否遗忘的,在lstm中即以一定的概率 控制是否遗忘上一层的隐藏细胞状态。
[0150]
lstm之输入门
[0151]
下一步是决定让多少新的信息加入到细胞cell状态中来。实现这个需 要包括两个过程:首先,一个叫做“input gate layer”的sigmoid层决定哪些 信息需要更新;一个tanh层生成一个向量,也就是备选的用来更新的内容。
[0152]
lstm之细胞状态更新
[0153]
在研究lstm输出门之前,我们要先看看lstm之细胞状态。前面的 遗忘门和输入门的结果都会作用于细胞状态c(t)c(t)。我们来看看从细胞状 态c(t-1)c(t-1)如何得到c(t)c(t)。
[0154]
lstm之输出门
[0155]
有了新的隐藏细胞状态c(t)c(t),我们就可以来看输出门了,隐藏状态 h(t)h(t)的更新由两部分组成,第一部分是o(t)o(t),它由上一序列的隐藏状 态h(t-1)h(t-1)和本
序列数据x(t)x(t),以及激活函数sigmoid得到,第二部 分由隐藏状态c(t)c(t)和tanh激活函数组成。
[0156]
(3)joint network
[0157]
如图7所示,joint network模型的输入transcription network和 prediction network输出的合并,然后输入到一个全连接神经网络层中,该 层具有512个隐藏单元,然后将结果输出到具有4096个单元的softmax层 中,得到最后的结果y1、y2和y3。输出层的值即待训练的标签设为文字 加说话人的组合,其实现方式可以如下所示:
[0158]
hello dr jekyll<spk:pt>
[0159]
hello mr hyde what brings you here today<spk:dr>
[0160]
i am struggling again with my bipolar disorder<spk:pt>
[0161]
这里,需要提示的是,在本发明实施例中的预设训练条件可以包括, 在迭代次数满足预设阈值(即达到最大限定次数)的情况下,就可以确定 为满足预设训练条件,或者,在进行迭代的过程中,确定相似度预设结果 与实际值之前的准确率达到预设某一个预设阈值时,即可确定为满足预设 训练条件。
[0162]
由此,本发明实施例中,通过对音频数据进行分析,得到音频数据对 应的语义信息和音频特征信息;接着,根据语义信息和音频特征信息对语 音识别模型进行训练,这样,即使在对话音频被分成多个片段时,也能根 据音频特征信息确定目标对象,且根据语义信息识别到目标对象的身份特 征,以便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目 标对象的精度,并在识别出目标对象的情况下,确定目标对象的身份信息, 从而得到对话音频的应用场景。
[0163]
综上,本发明实施例通过结合语言信息来研究说话人区分过程,充分 利用了已知信息,提高了识别精度。另外,由于上述方法不需要强制对齐, 可以使用文本序列本身来进行学习训练。基于rnn-t模型,加速解码,大 量空白的存在,使得模型在解码过程中可以使用跳帧操作,因此大大加速 了解码过程。由于上述方法具有单调性,能够进行实时在线解码,增加应 用场景的范围。
[0164]
另外,本发明实施例还提供了,基于上述训练后的语音识别模型的语 音识别方法。
[0165]
图8为本发明实施例提供的一种语音识别方法的流程图。
[0166]
如图8所示,该方法具体可以包括:
[0167]
步骤810,获取目标音频数据。
[0168]
这里,在一种可能的实施例中,对接收的音频数据进行预处理,得到 目标音频数据;
[0169]
其中,预处理包括数据清洗和/或降噪。
[0170]
步骤820,将目标音频数据输入到上述步骤320中确定的目标语音识 别模型中,得到对话信息;其中,
[0171]
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
[0172]
基于上述两个过程的方法,本发明实施例还提供可以两种装置,即语 音识别模型的训练装置和语音识别装置,具体如下所示。
[0173]
图9为本发明实施例提供的一种语音识别模型的训练装置结构示意图。
[0174]
如图9所示,该语音识别模型的训练装置90具体可以包括:
[0175]
处理模块901,用于根据目标对象的音频数据,确定语音训练样本, 语音训练样本包括语义信息和音频特征信息;
[0176]
生成模块902,将语义信息和音频特征信息输入到语音识别模型中, 对所述语音识别模型进行迭代训练,直至满足预设训练条件,得到训练后 的目标语音识别模型。
[0177]
其中,生成模块902具体可以用于,针对每个语音训练样本分别执行 以下步骤:将语义信息和音频特征信息输入到语音识别模型中,得到语义 信息与音频特征信息的相似度预测结果;根据每个相似度预测结果对语音 识别模型进行调整;根据语音训练样本对调整后的语音识别模型进行迭代 训练,直至满足预设训练条件,得到训练后的目标语音识别模型。
[0178]
在一种可能的实施例中,语音识别模型包括转录网络模型。基于此, 本发明实施例中的处理模块901具体可以包括:
[0179]
将音频数据的音频特征向量输入到转录网络模型中,得到语义信息;
[0180]
其中,语音信息用于确定音频数据对应的文本数据。
[0181]
在另一种可能的实施例中,语音识别模型包括预测网络模型;基于此, 本发明实施例中的生成模块902在对语音识别模型进行第一次训练的情况 下,将预设相似度预测结果输入到预测网络模型中,得到音频特征信息;
[0182]
在对语音识别模型进行第n次训练之后的情况下,将从第n-1次训练 输出的相似度预测结果输入到预测网络模型中,得到第n次的音频特征信 息;
[0183]
其中,n为大于1的整数,音频特征信息用于确定目标对象的身份信 息。
[0184]
在又一种可能的实施例中,语音识别模型还包括联合网络模型;本发 明实施例中的生成模块902具体可以用于,将语义信息和音频特征信息输 入到联合网络模型中,得到包括音频数据的文本信息和目标对象的身份信 息的隐藏数据;
[0185]
将隐藏数据输入到分类模型中,得到文本信息与身份信息的相似度预 测结果。
[0186]
另外,语音识别模型的训练装置90还可以包括确定模块904,用于根 据目标对象的音频数据通过梅尔频率倒谱系数mfcc,确定音频特征向量。
[0187]
在一种可能的实施例中,确定模块904具体可以用于,获取目标对象 的音频数据;对音频数据的波形图进行分帧处理,得到至少一个帧片段; 对至少一个帧片段中的每个帧片段进行离散傅里叶变化dft,确定每个帧 片段的功率谱;将功率谱进行数据转化,得到音频特征向量。
[0188]
基于此,语音识别模型的训练装置90还可以包括变换模块905,用于 通过汉明窗对每个帧片段进行平滑处理。
[0189]
由此,本发明实施例中,通过对音频数据进行分析,得到音频数据对 应的语义信息和音频特征信息;接着,根据语义信息和音频特征信息对语 音识别模型进行训练,这样,即使在对话音频被分成多个片段时,也能根 据音频特征信息确定目标对象,且根据语义信息识别到目标对象的身份特 征,以便对目标对象在对话音频中被准确追踪,从而提高在音频中识别目 标对象的精度,并在识别出目标对象的情况下,确定目标对象的身份信息, 从而得到对话音频的应用场景。
[0190]
另外,图10为本发明实施例提供的一种利用目标语音识别模型的语音 识别装置结构示意图。
[0191]
如图10所示,该语音识别装置100具体可以包括:
[0192]
获取模块1001,用于获取目标音频数据;
[0193]
处理模块1002,用于将目标音频数据输入到目标语音识别模型中,得 到对话信息;其中,
[0194]
对话信息包括:与目标音频数据对应的文本数据,文本数据携带有目 标对象的身份标识。
[0195]
其中,该获取模块1001具体可以用于,对接收的音频数据进行预处理, 得到目标音频数据;其中,预处理包括数据清洗和/或降噪。
[0196]
图11为本发明实施例提供的一种终端设备的硬件结构示意图。
[0197]
该终端设备1100包括但不限于:射频单元1101、网络模块1102、音 频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输 入单元1107、接口单元1108、存储器1109、处理器1110、以及电源1111 等部件。本领域技术人员可以理解,图11中示出的终端设备结构并不构成 对终端设备的限定,终端设备可以包括比图示更多或更少的部件,或者组 合某些部件,或者不同的部件布置。在本发明实施例中,终端设备包括但 不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、 以及计步器等。
[0198]
应理解的是,本发明实施例中,射频单元1101可用于收发信息或通话 过程中,信号的接收和发送,具体的,将来自基站的下行资源接收后,给 处理器1110处理;另外,将上行的资源发送给基站。通常,射频单元1101 包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、 双工器等。此外,射频单元1101还可以通过无线通信系统与网络和其他设 备通信。
[0199]
终端设备通过网络模块1102为用户提供了无线的宽带互联网访问,如 帮助用户收发电子邮件、浏览网页和访问流式媒体等。
[0200]
音频输出单元1103可以将射频单元1101或网络模块1102接收的或者 在存储器1109中存储的音频资源转换成音频信号并且输出为声音。而且, 音频输出单元1103还可以提供与终端设备1100执行的特定功能相关的音 频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元 1103包括扬声器、蜂鸣器以及受话器等。
[0201]
输入单元1104用于接收音频或视频信号。输入单元1104可以包括图 形处理器(graphics processing unit,gpu)11041和麦克风11042,图形 处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄 像头)获得的静态图片或视频的图像资源进行处理。处理后的图像帧可以 显示在显示单元1107上。经图形处理器11041处理后的图像帧可以存储在 存储器1109(或其它存储介质)中或者经由射频单元1101或网络模块 1102进行发送。麦克风11042可以接收声音,并且能够将这样的声音处理 为音频资源。处理后的音频资源可以在电话通话模式的情况下转换为可经 由射频单元1101发送到移动通信基站的格式输出。
[0202]
终端设备1100还包括至少一种传感器1105,比如光传感器、运动传 感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器, 其中,环境光传感器可根据环境光线的明暗来调节显示面板11061的亮度, 接近传感器可在终端设备1100移动到耳边
时,关闭显示面板11061和/或 背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为 三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别终 端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别 相关功能(比如计步器、敲击)等;传感器1105还可以包括指纹传感器、 压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度 计、红外线传感器等,在此不再赘述。
[0203]
显示单元1106用于显示由用户输入的信息或提供给用户的信息。显示 单元1106可包括显示面板11061,可以采用液晶显示器(liquid crystal display,lcd)、有机发光二极管(organic light-emitting diode,oled) 等形式来配置显示面板11061。
[0204]
用户输入单元1107可用于接收输入的数字或字符信息,以及产生与终 端设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单 元1107包括触控面板11071以及其他输入设备11072。触控面板11071, 也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、 触笔等任何适合的物体或附件在触控面板11071上或在触控面板11071附 近的操作)。触控面板11071可包括触摸检测装置和触摸控制器两个部分。 其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号, 将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息, 并将它转换成触点坐标,再送给处理器1110,接收处理器1110发来的命 令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等 多种类型实现触控面板11071。除了触控面板11071,用户输入单元1107 还可以包括其他输入设备11072。具体地,其他输入设备11072可以包括 但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、 鼠标、操作杆,在此不再赘述。
[0205]
进一步的,触控面板11071可覆盖在显示面板11061上,当触控面板 11071检测到在其上或附近的触摸操作后,传送给处理器1110以确定触摸 事件的类型,随后处理器1110根据触摸事件的类型在显示面板11061上提 供相应的视觉输出。虽然在图11中,触控面板11071与显示面板11061是 作为两个独立的部件来实现终端设备的输入和输出功能,但是在某些实施 例中,可以将触控面板11071与显示面板11061集成而实现终端设备的输 入和输出功能,具体此处不做限定。
[0206]
接口单元1108为外部装置与终端设备1100连接的接口。例如,外部 装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、 有线或无线资源端口、存储卡端口、用于连接具有识别模块的装置的端口、 音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元1108可 以用于接收来自外部装置的输入(例如,资源信息、电力等等)并且将接收 到的输入传输到终端设备1100内的一个或多个元件或者可以用于在终端设 备1100和外部装置之间传输资源。
[0207]
存储器1109可用于存储软件程序以及各种资源。存储器1109可主要 包括存储程序区和存储资源区,其中,存储程序区可存储操作系统、至少 一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存 储资源区可存储根据手机的使用所创建的资源(比如音频资源、电话本等) 等。此外,存储器1109可以包括高速随机存取存储器,还可以包括非易失 性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存 储器件。
[0208]
处理器1110是终端设备的控制中心,利用各种接口和线路连接整个终 端设备的
各个部分,通过运行或执行存储在存储器1109内的软件程序和/ 或模块,以及调用存储在存储器1109内的资源,执行终端设备的各种功能 和处理资源,从而对终端设备进行整体监控。处理器1110可包括一个或多 个处理单元;优选的,处理器1110可集成应用处理器和调制解调处理器, 其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调 处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不 集成到处理器1110中。
[0209]
终端设备1100还可以包括给各个部件供电的电源1111(比如电池), 优选的,电源1111可以通过电源管理系统与处理器1110逻辑连接,从而 通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0210]
另外,终端设备1100包括一些未示出的功能模块,在此不再赘述。
[0211]
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程 序,当计算机程序在计算机中执行时,令计算机执行本发明实施例的语音 识别模型的训练方法或者语音识别方法的步骤。
[0212]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他 变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、 物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更 多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括 该要素的过程、方法、物品或者装置中还存在另外的相同要素。
[0213]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上 述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可 以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品 的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、 磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计 算机,服务器,空调器,或者网络设备等)执行本发明各个实施例的方法。
[0214]
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于 上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制 性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和 权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护 之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜