一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别方法、装置、电子设备及存储介质与流程

2022-12-31 16:13:54 来源:中国专利 TAG:


1.本公开涉及计算机处理技术领域,具体涉及语音识别方法、装置、电子设备及存储介质。


背景技术:

2.自动语音识别技术需要依赖大量人工标注的数据才能取得较好的效果,标注数据要求对每一条语音人工转写出对应的文本内容。然而,对于小语种和方言而言,由于标注标准和人力等原因,数据标注效率低,导致带标注的数据资源极其有限,从而影响语音识别的准确性。


技术实现要素:

3.有鉴于此,本公开实施例提供了一种语音识别方法、装置、电子设备及存储介质,以解决语音识别的准确性的问题。
4.根据第一方面,本公开实施例提供了一种语音识别方法,包括:
5.获取待识别音频;
6.将所述待识别音频输入第一语音识别模型中确定识别结果,所述第一语音识别模型是基于目标语言的伪标签数据训练得到的,所述第一语音识别模型所支持的识别语言包括所述目标语言,所述伪标签数据是通过所述目标语言的第二语音识别模型对所述目标语言的无标注数据预测得到的。
7.根据第二方面,本公开实施例还提供了一种语音识别装置,包括:
8.获取模块,用于获取待识别音频;
9.识别模块,用于将所述待识别音频输入第一语音识别模型中确定识别结果,所述第一语音识别模型是基于目标语言的伪标签数据训练得到的,所述第一语音识别模型所支持的识别语言包括所述目标语言,所述伪标签数据是通过所述目标语言的第二语音识别模型对所述目标语言的无标注数据预测得到的。
10.根据第三方面,本公开实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的语音识别方法。
11.根据第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的语音识别方法。
12.本公开实施例提供的语音识别方法,通过目标语言的第二语音识别模型先对目标语言的无标注数据预测得到目标语言的伪标签数据,以利用该伪标签数据训练得到第一语音识别模型。由于伪标签数据是事先利用第二语音识别模型得到的,通过该伪标签数据能够实现第二语音识别模型与第一语音识别模型之间的迁移,达到继承效果。同时,伪标签数
据能够解决目标语言的标注数据有限的问题,使得基于该目标语言的伪标签数据训练得到的第一语音识别模型具有较高的识别准确性。在进行第一语音识别模型部署时,无需考虑第二语音识别模型的结构,从而可以选用部署方便、吞吐高以及计算量少的模型结构实现第一语音识别模型,便于第一语音识别模型的落地部署,提高语音识别的效率及准确性。
附图说明
13.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1是根据本公开实施例的语音识别方法的流程图;
15.图2是根据本公开实施例的第一语音识别模型的确定方式的流程图;
16.图3是根据本公开实施例的第一语音识别模型的确定方式的流程图;
17.图4是根据本公开实施例的语音识别装置的结构框图;
18.图5是本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
19.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
20.可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
21.例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
22.作为一种可选的但非限定性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式例如可以是弹窗的方式,弹窗中可以以文字的方式呈现提示信息。此外,弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
23.可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
24.可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
25.基于深度学习的自动语音识别模型经过多年的发展,已从最初基于交叉熵(cross entropy,简称为ce)损失的神经网络(neural networks,简称为nn)与隐含马尔科夫(hidden markov model,简称为hmm)的混合模型,即nn-hmm混合模型,发展到基于联结时序
分类(connectionist temporal classification,简称为ctc)损失、无需hmm的ctc模型,再到更加端到端的基于注意力的编码器-解码器(attention-based encode-decoder,简称为aed)和循环神经网络转换器(recurrent neural networks transducer,简称为rnn-t)模型。混合ce和ctc模型用于解码的时候需要外挂加权有限状态转换器(weighted finite state transducer,简称为wfst)引入语言模型信息,才能取得较好的效果。
26.通过自监督预训练提取语音声学表征之后,一个常用的做法是连接一个随机初始化的全连接层,基于ce或ctc损失函数,用极少量的有标注数据进行微调,从而做到接近100倍的数据量达到的有监督训练的效果。由于有监督数据较少,自监督预训练模型不适合用于aed或rnn-t这类端到端模型的预训练,主要原因是自监督学习的部分只相当于aed和rnn-t的编码器。在微调阶段,如果有监督数据极少,完全依赖有监督数据进行学习的参数量就不宜过多。对aed和rnn-t模型而言,少量有监督数据不足以训练出精度较高的解码/预测的部分。因此,基于自监督学习技术的自动语音识别模型对模型的结构是有要求的,严重限制了自监督学习在业界的落地。
27.如上文所述,基于自监督预训练的混合ce和ctc预测的模型,大幅降低了对标注数据规模的需求。但是,若直接使用该模型做上线部署的话,由于该模型解码依赖外部语言模型构建的wsft,难以利用gpu的吞吐优势。同时,更多的无标注数据可以训练出更好的预训练模型,对自动语音识别模型的效果有明显帮助,然而大量的无标注数据需要更大的模型才能够充分发挥数据的价值,若直接将大模型部署到线上时,则会导致线上的计算量大幅提升,带来语音识别的效率较低。进一步地,由于最终落地的场景可能需要语音识别模型能够同时支持多个语言的转写,例如,普通话与方言,中文与英文等等,如果采用多语种的数据做无监督预训练的话,由于各语种的数据之间存在干扰,导致难以达到单语种的预训练效果,导致语音识别的准确性较低。且同一语言在不同的语言组合下,都需要重新做一次多语言的预训练,导致重复训练。
28.基于此,本公开实施例提供一种语音识别方法,将训练得到的第一语音识别模型部署到电子设备中,利用该第一语音识别模型进行语音识别确定并输出语音识别结果。其中,关于第一语音识别模型的具体细节将在下文中进行描述。
29.该第一语音识别模型是基于第二语音识别模型预测得到的目标语言的伪标签数据训练得到的,第二语音识别模型是与目标语言对应的。具体地,对于语言a对应有第二语音模型a,对于语言b对应有第二语音模型b,
……
,依次类推。即,每种语言均有各自对应的第二语音模型。由此可知,每种语言的伪标签数据均是利用各自对应的第二语音模型得到的,能够保证各种语言之间的独立性,相互之间并不影响,提高了所得到的各个语言的伪标签数据的可靠性。
30.由于伪标签数据是事先预测得到以作备用,在需要使用时直接提取即可。那么,对于同一语言的伪标签数据可以循环利用,可以用作训练多个第一语音识别模型。例如,第一语音识别模型a需要支持语言a、语言b以及语言c,第一语音识别模型b需要支持语言a、语言c以及语言d,第一语音识别模型c需要支持语言b、语言c以及语言d。基于此,语言a的伪标签数据可以用作训练第一语音识别模型a以及第一语音识别模型b,语言b的伪标签数据可以用作训练第一语音识别模型a以及第一语音识别模型c,语言c的伪标签数据可以用作训练第一语音识别模型a、第一语音识别模型b以及第一语音识别模型c。当然,对于语言a而言,
若其标注数据足够多时,则可以直接利用语言a的标注数据训练得到相应的第一语音识别模型;若其标注数据较少时,则可以利用语言a的伪标签数据以及标签数据训练得到相应的第一语音识别模型,等等。在此对伪标签数据的使用场景并不做任何限制,具体根据实际需求进行使用即可。其中,对于不同的低资源语言,生成大规模伪标签数据以补充标签数据不足的问题。
31.由于伪标签数据是事先预测得到以作备用的,那么,对于标签数据不足的语言可以提取相应的伪标签数据,从而实现标签数据不足的语言与标签数据充足的语言依据需求进行自由组合,训练得到支持各种语言组合的第一语音识别模型。
32.根据本公开实施例,提供了一种语音识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
33.在本实施例中提供了一种语音识别方法,可用于电子设备,如移动终端、电脑、服务器等,图1是根据本公开实施例的语音识别方法的流程图,如图1所示,该流程包括如下步骤:
34.s11,获取待识别音频。
35.对于电子设备而言,待识别音频可以是电子设备的音频采集设备采集的,也可以是其他设备发送至电子设备的。例如,若电子设备为手机,待识别音频可以是用户与手机的语音交互,被电子设备所采集的;若电子设备为服务器,待识别音频是其他设备采集后发送至电子设备的。当然,待识别音频还可以采用其他方式获取到,在此对其获取方式并不做任何限制,具体根据实际需求进行设置即可。
36.s12,将待识别音频输入第一语音识别模型中确定识别结果。
37.其中,所述第一语音识别模型是基于目标语言的伪标签数据训练得到的,所述第一语音识别模型所支持的识别语言包括所述目标语言,所述伪标签数据是通过目标语言的第二语音识别模型对目标语言的无标注数据预测得到的。
38.待识别音频输入电子设备后,经过电子设备中部署的第一语音识别模型的识别处理得到识别结果。该识别结果可以是待识别音频对应的文本信息,也可以是利用第一语音识别模型将待识别音频转换为文本,再利用该文本对电子设备进行相应的控制,最终确定的识别结果可以是控制结果。例如,用于输入的待识别音频为“查询今日天气”,电子设备中的第一语音识别模型将待识别音频转换为文本形成控制指令,再基于该控制指令获取到今日天气并通过电子设备进行输出。
39.对于第一语音识别模型而言,其可以是单语音识别模型,可以是多语音识别模型,具体取决于训练所使用的样本语言。若第一语音识别模型为仅支持目标语言的单语音识别模型,那么,待识别音频的语言必须为目标语言;若第一语音识别模型所支持的语言包括目标语言以及其他语言,那么,待识别音频的语言为目标语言或第一语音识别模型所支持的其他语言。
40.训练得到第一语音识别模型所使用的样本数据包括目标语言的伪标签数据,如上文所述,目标语言的伪标签数据是通过目标语言的第二语音识别模型对目标语言的无标注数据预测得到的。第二语音识别模型与第一语音识别模型是两种不同的语音识别模型,第
二语音识别模型是用作对无标签数据进行解码得到伪标签数据,第一语音识别模型为部署至电子设备上的用作推理使用的。
41.对于伪标签数据而言,是事先利用各个语言对应的第二语音识别模型对各个语言的无标签数据进行预测得到的。即,伪标签数据是离线生成的,利用各个语言的第二语音识别模型生成各自对应的伪标签数据以作备用。在此对第二语音识别模型的具体结构并不做任何限制,具体根据实际需求进行设置。例如,第二语音识别模型包括但不限于ce/ctc混合模型等等。如上文所述,第一语音识别模型需要部署到电子设备上,因此,需要从计算量少、部署方便等角度进行语音模型的选择,例如,第一语音识别模型包括但不限于aed或rnn-t等等。因此,第一语音识别模型与第二语音识别模型之间并无关联关系,相互独立。利用第二语音识别模型生成伪标签数据,从第二语音识别模型迁移到更加端到端的第一语音识别模型,解码时摆脱了wfst,模型参数量和计算量显著降低,gpu吞吐显著提升,降低了计算成本。第一语音识别模型通常是一个端到端的模型(即,不明确区分声学模型和语言模型);而与第二语音识别模型的结构有明显区别,第二语音识别模型需要结合声学模型和语言模型才能看成一个完整的语音识别系统,这个结构差异是自监督技术决定的。因为在无标注数据自监督学到的语音表征基础上,只用很少的有监督数据,是很难直接训练出来一个好的端到端模型的。因此,第二语音识别模型是用于生成伪标签数据的,而并非是部署到电子设备上的。
42.本实施例提供的语音识别方法,通过目标语言的第二语音识别模型先对目标语言的无标注数据预测得到目标语言的伪标签数据,以利用该伪标签数据训练得到第一语音识别模型。由于伪标签数据是事先利用第二语音识别模型得到的,通过该伪标签数据能够实现第二语音识别模型与第一语音识别模型之间的迁移,达到继承效果。同时,伪标签数据能够解决目标语言的标注数据有限的问题,使得基于该目标语言的伪标签数据训练得到的第一语音识别模型具有较高的识别准确性。在进行第一语音识别模型部署时,无需考虑第二语音识别模型的结构,从而可以选用部署方便、吞吐高以及计算量少的模型结构实现第一语音识别模型,便于第一语音识别模型的落地部署,提高语音识别的效率及准确性。
43.作为本公开实施例的一种可选实施方式中,如图2所示,第一语音识别模型的确定方式包括:
44.s21,获取目标语言的伪标签数据以及目标语言的标注数据。
45.在训练得到第一语音识别模型之前,需要进行样本数据的准备。其中,样本数据包括但不限于目标语言的伪标签数据以及目标语言的标注数据。目标语言的伪标签数据是利用目标语言的第二语音识别模型事先预测得到的,目标语言的标注数据可以是采购得到的,或者从无标注数据中抽取一部分进行人工标注得到的,等等,在此对标注数据的获取方式并不做任何限制。利用伪标签数据进行初步训练,再利用标注数据对初步训练的结果进行微调,能够保证得到的第一语音识别模型的识别准确性。
46.在一些实施方式中,上述s21中的获取目标语言的伪标签数据包括:
47.(1)获取伪标签数据的存储位置,所述存储位置中存储有至少一种语言的伪标签数据,所述至少一种语言的伪标签数据是通过与至少一种语言一一对应的第二语音识别模型预测得到的。
48.(2)基于目标语言的标识,从存储位置中提取目标语言的伪标签数据。
49.各个语言的第二语音识别模型对各自的无标注数据进行预测,得到各个语言的伪标签数据,并依据各个语言的标识对伪标签数据进行存储。在需要使用时,利用目标语言的标识从存储位置中提取出目标语言的伪标签数据。存储位置可以是数据库,也可以是其他存储空间的位置等等,在此对其并不做任何限定。
50.对于每个语言,单独生成对应的伪标签数据,能够避免语言之间的相互干扰,保证了伪标签数据的可靠性;同时,通过预先得到至少一种语言的伪标签数据,后续在训练第一语音识别模型时,能够在至少一种语言的伪标签数据之间进行任意组合,通过伪标签数据的循环利用,得到满足需求的多语音识别模型。
51.在一些实施方式中,目标语言的伪标签数据的确定方式包括:
52.(1)获取目标语言的第二语音识别模型,所述第二语音识别模型包括声学模型以及语言模型。
53.(2)将目标语言的无标注数据输入第二语音识别模型中,以利用声学模型以及语言模型进行解码,确定所述目标语言的伪标签数据。
54.第二语音识别模型包括声学模型以及语言模型,声学模型主要关注音频到发音单元的建模,语言模型则负责语言层面的连贯性,通过两者的结合进行解码,能够保证所得到的伪标签数据的可靠性。
55.第二语音识别模型的工作原理是,利用声学模型以及语言模型对输入的无标注数据进行解码,输出目标语言的伪标签数据。解码得到伪标签数据的过程是声学模型和语言模型融合进行的,这个过程是一个路径搜索问题,每一步都会把两个模型输出的分数相加,决定下一步状态转移的方向。最终解码结果,从理论上来说是声学模型 语言模型总分最大的那条路径。
56.作为本公开实施例的一种可选实施方式,第二语音识别模型中的声学模型的确定方式包括:
57.1.1)获取目标语言的无标注样本数据以及样本标注数据。
58.1.2)基于无标注样本数据对预设声学模型进行预训练,得到第二预训练模型。
59.1.3)基于样本标注数据对第二预训练模型的参数进行调整,确定声学模型。
60.声学模型是各个语言单独做一次自监督预训练以及有监督微调得到的,具体地,利用目标语言的无标注样本数据对预设声学模型进行预训练,该过程也可以称之为自监督预训练,经过该过程的处理后得到第二与训练模型。再此基础上,再基于样本标注数据对第二预训练模型的参数进行调整,该过程也可以称之为有监督微调,得到声学模型。
61.声学模型的确定方式是基于自监督预训练与有监督微调结合的方案,其中的第一步自监督预训练不需要任何标签数据参与,相比传统的有监督学习有一个明显的优势是对标签数据量的要求更低。在标签数据量极低的情况下,直接做有监督学习可能是无法收敛的,或者是训练效果太差导致生成的伪标签不可用。
62.作为本公开实施例的另一种可选实施方式,第二语音识别模型中的语言模型是基于目标语言的文本数据训练得到的。
63.不论是声学模型还是语言模型,均是基于目标语言得到的,从而所得到的第二语音识别模型是与各语言一一对应的。若直接把多个语言混在一起做自监督的预训练,各语言之间会相互干扰,导致所得到的第二语音识别模型的效果不佳,进而导致伪标签数据的
质量不佳,而伪标签数据的质量会直接决定后续模型的效果。因此,在本实施例中对于每个语言而言,单独做一次自监督预训练、有监督微调、解码生成伪标签数据的过程,保证伪标签数据的质量,之后可以和其他语言进行自由组合,直接训练得到第一语音识别模型。
64.s22,基于目标语言的伪标签数据对第一预设语音识别模型进行训练,确定第一预训练模型。
65.在获得目标语言的伪标签数据之后,基于该伪标签数据对第一预设语音识别模型进行预训练。需要说明的是,第一预训练模型与第一预设语音识别模型的模型结构相同,不同的是,第一预设语音识别模型中的参数是随机生成或依据经验值设置的,而第一预训练模型是经过伪标签数据对第一预设语音识别模型进行训练后得到的。
66.s23,基于目标语言的标注数据对第一预训练模型的参数进行调整,以确定第一语音识别模型。
67.由于第一预训练模型是基于伪标签数据训练得到的,为了进一步提升最终所得到的第一语音识别模型的可靠性,结合目标语言的标注数据对第一预训练模型参数进行微调,最终确定出第一语音识别模型。因为伪标签数据存在错误标签,效果有上限,利用有标注数据对第一预训练模型进行微调,可以得到更好的效果。即,在目标语言的伪标签数据训练得到的第一预训练模型的基础上,利用目标语言的有标注数据做第二部的微调,取得更好的效果。
68.在利用伪标签数据训练得到第一预训练模型的基础上,再结合目标语言的标注数据对第一预训练模型的参数进行微调,进一步提高第一语音识别模型的识别准确性。
69.作为本实施例的一种可选实施方式,当需要训练得到多语言的第一语音识别模型时,即,第一语音识别模型除了支持目标语言之外,还支持有除目标语言以外的其他语言,因此,还需要结合其他语言的标签数据进行训练。基于此,上述的第一语音识别模型的确定方式还包括:
70.(1)获取其他语言的标签数据,所述标签数据包括其他语言的伪标签数据和/或其他语言的标注数据。
71.(2)基于其他语言的标签数据训练第一预设语音识别模型,以确定第一语音识别模型。
72.对于其他语言的标签数据而言,若其他语言的标注数据较少,则可以采用与目标语言相同的方式对第一预设语音识别模型进行训练。即,获取其他语言的伪标签数据,利用该伪标签数据对第一预设语音识别模型进行预训练,再利用其他语言的标注数据对预训练结果的进行微调。若其他语言的标注数据较多,则直接利用其他预言的标注数据对第一预设语音识别模型进行有监督训练。
73.结合目标语言以及其他语言训练得到的第一语音识别模型,使得该第一语音识别模型能够满足多语言需求。即,对于不同的低资源语言而言,单独生成大规模伪标签数据,结合资源充足的大语言有标注数据,实现灵活组合的第一语音识别模型的训练。
74.作为本公开实施例的一种具体应用实例,如图3所示,第一语音识别模型的确定过程包括:
75.(1)数据收集,收集对象包括:目标语言的纯文本数据,用于第二语音识别模型中语言模型的训练;目标语言的无标注数据,用于第二语音识别模型中声学模型的自监督预
训练;目标语言的有标注数据,用于预训练结果的微调。
76.(2)用目标语言的无标注数据做自监督预训练,得到第二预训练模型。
77.(3)在第二预训练模型的基础上,增加输出层,用有标注数据进行微调,得到声学模型。
78.(4)用目标语言的纯文本数据训练得到目标语言的语言模型。
79.(5)利用声学模型以及语言模型对目标语言的无标注数据进行解码,得到带伪标签的无标注数据。
80.(6)用伪标签数据训练第一预设语音识别模型,得到第一预训练模型。如果是多语言需求,训练中同时加入其它语言的标签数据,该标签数据可以是有标注数据,或者伪标签数据。
81.(7)用目标语言的标注数据对第一预训练模型进行微调,得到第一语音识别模型。需要说明的是,如果是多语言需求,在训练中同时加入其它语言的数据。
82.该第一语音识别模型的确定过程中,利用第二语音识别模型生成的伪标签数据,实现不同结构的模型之间的迁移。其中,不同结构指的是第一语音识别模型(即,端到端模型)和第二语音识别模型的区别,这是因为伪标签数据完全是通过数据来迁移模型的能力,迁移前后模型的结构之间没有任何依赖关系。对于不同的低资源语言,单独生成大规模伪标签数据,结合资源充足的大语言有标注数据,实现灵活组合的第一语音识别模型。其中,低资源语言以及资源充足的大语言是通过语言的有标注数据的量区分的,若有标注数据的量足够多,则将该语言称之为资源充足的大语言;若有标注数据的量较少,则将该语言称之为低资源语言。
83.作为本公开实施例中第一语音识别模型确定过程的一个具体应用实例,若第一语音识别模型需要同时支持普通话和地区a的方言。由于地区a的方言的标注数据有限,属于低资源语言,因此,就需要获取地区a的方言的伪标签数据;普通话的标注数据量较大,属于资源充足的大语言。在第一语音识别模型的确定过程中,利用普通话的标注数据以及地区a的方言的伪标签数据对第一预设语音识别模型进行预训练,得到第一预训练模型,再利用普通话的标注数据以及地区a的方言的标注数据对第一预训练模型进行微调,最终确定出第一语音识别模型。
84.其中,地区a的方言的伪标签数据是通过地区a的方言对应的第二语音识别模型预测得到的。地区a的方言对应的第二语音识别模型的确定过程包括:利用地区a的方言的纯文本数据训练得到地区a的方言的语言模型;利用地区a的方言的无标注数据进行自监督预训练,得到第二预训练模型;在利用地区a的方言的标注数据对第二预训练模型进行微调,得到声学模型。其中,声学模型与语言模型的组合得到地区a的方言的第二语音识别模型。将地区a的方言的无标注数据输入第二语音识别模型中,利用声学模型以及语言模型进行解码,生成地区a的方言的伪标签数据。
85.在本实施例中还提供了一种语音识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
86.本实施例提供一种语音识别装置,如图4所示,包括:
87.获取模块41,用于获取待识别音频;
88.识别模块42,用于将所述待识别音频输入第一语音识别模型中确定识别结果,所述第一语音识别模型是基于目标语言的伪标签数据训练得到的,所述第一语音识别模型所支持的识别语言包括所述目标语言,所述伪标签数据是通过所述目标语言的第二语音识别模型对所述目标语言的无标注数据预测得到的。
89.在一些实施方式中,所述第一语音识别模型的确定模块包括:
90.第一获取单元,用于获取所述目标语言的伪标签数据以及所述目标语言的标注数据;
91.第一训练单元,用于基于所述目标语言的伪标签数据对第一预设语音识别模型进行训练,确定第一预训练模型;
92.第一调整单元,用于基于所述目标语言的标注数据对所述第一预训练模型的参数进行调整,以确定所述第一语音识别模型。
93.在一些实施方式中,所述第一语音识别模型的确定模块还包括:
94.第二获取单元,用于获取其他语言的标签数据,所述标签数据包括所述其他语言的伪标签数据和/或所述其他语言的标注数据;
95.第二训练单元,用于基于所述其他语言的标签数据训练所述第一预设语音识别模型,以确定所述第一语音识别模型。
96.在一些实施方式中,第一获取单元包括:
97.第一获取子单元,用于获取伪标签数据的存储位置,所述存储位置中存储有至少一种语言的伪标签数据,所述至少一种语言的伪标签数据是通过与所述至少一种语言一一对应的第二语音识别模型预测得到的;
98.提取子单元,用于基于所述目标语言的标识,从所述存储位置中提取所述目标语言的伪标签数据。
99.在一些实施方式中,所述目标语言的伪标签数据的确定模块包括:
100.第三获取单元,用于获取所述目标语言的第二语音识别模型,所述第二语音识别模型包括声学模型以及语言模型;
101.确定单元,用于将所述目标语言的无标注数据输入所述第二语音识别模型中,以利用所述声学模型以及语言模型进行解码,确定所述目标语言的伪标签数据。
102.在一些实施方式中,所述声学模型的确定模块包括:
103.第四获取单元,用于获取所述目标语言的无标注样本数据以及样本标注数据;
104.第三训练单元,用于基于所述无标注样本数据对预设声学模型进行预训练,得到第二预训练模型;
105.第二调整单元,用于基于所述样本标注数据对所述第二预训练模型的参数进行调整,确定所述声学模型。
106.在一些实施方式中,所述语言模型是基于所述目标语言的文本数据训练得到的。
107.本实施例中的语音识别装置是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
108.上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
109.本公开实施例还提供一种电子设备,具有上述图4所示的语音识别装置。
110.请参阅图5,图5是本公开可选实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:至少一个处理器51,例如cpu(central processing unit,中央处理器),至少一个通信接口53,存储器54,至少一个通信总线52。其中,通信总线52用于实现这些组件之间的连接通信。其中,通信接口53可以包括显示屏(display)、键盘(keyboard),可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速ram存储器(random access memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图4所描述的装置,存储器54中存储应用程序,且处理器51调用存储器54中存储的程序代码,以用于执行上述任一方法步骤。
111.其中,通信总线52可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
112.其中,存储器54可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器54还可以包括上述种类的存储器的组合。
113.其中,处理器51可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
114.其中,处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic array logic,缩写:gal)或其任意组合。
115.可选地,存储器54还用于存储程序指令。处理器51可以调用程序指令,实现如本技术任一实施例中所示的语音识别方法。
116.本公开实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
117.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
118.可以理解的是,在本公开的具体实施方式中,涉及到音频信息等相关的数据,当本公开以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
119.虽然结合附图描述了本公开的实施例,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献