一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别方法及相关装置、电子设备、存储介质与流程

2022-09-07 21:16:27 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,特别是涉及一种语音识别方法及相关装置、电子设备、存储介质。


背景技术:

2.随着深度学习技术在语音识别领域的突破,语音识别已经广泛应用于教育、娱乐、医疗、交通等各行各业。
3.目前,传统的语音识别系统通常需要为每个语种单独建模,即每个语种需要单独训练得到语音识别模型,并单独部署和维护每个语种的语音识别模型,成本巨大。此外,对于某些低资的语种而言,单独建模得到的语音识别模型,其识别效果也通常较差,无法满足落地要求。有鉴于此,如何在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能,成为亟待解决的问题。


技术实现要素:

4.本技术主要解决的技术问题是提供一种语音识别方法及相关装置、电子设备、存储介质,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
5.为了解决上述技术问题,本技术第一方面提供了一种语音识别方法,包括:获取待识别语音所属的目标语种,并获取若干语系各自的语音识别模型;其中,若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,若干归类方式至少包括对样本子词序列进行特征聚类,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,且各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到;基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本。
6.为了解决上述技术问题,本技术第二方面提供了一种语音识别装置,包括:语种获取模块、模型获取模块和识别模块,语种获取模块,用于获取待识别语音所属的目标语种;模型获取模块,用于获取若干语系各自的语音识别模型;其中,若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,若干归类方式至少包括对样本子词序列进行特征聚类,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,且各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到;识别模块,用于基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本。
7.为了解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音识别方法。
8.为了解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音识别方法。
9.上述方案,获取待识别语音所属的目标语种,并获取若干语系各自的语音识别模型,且若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,若干归类方式至少包括对样本子词序列进行特征聚类,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到,在此基础上,再基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本,由于若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类,故能够尽可能地将能够共享建模的语种划为至相同语系,一方面无需为不同语种单独构建语音识别模型,有助于降低语音识别模型的应用成本,另一方面由于各个语系的语音识别模型能够学习到该语系下相似语种之间的共性信息,有助于尽可能地减弱语系中存在低资源的语种时对训练语音识别模型的影响,能够提升语音识别模型的识别性能。故此,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
附图说明
10.图1是本技术语音识别方法一实施例的流程示意图;
11.图2是语音识别模型一实施例的框架示意图;
12.图3是动态语种均衡策略一实施例的框架示意图;
13.图4是掩蔽解码策略一实施例的框架示意图;
14.图5是本技术语音识别方法一实施例的框架示意图;
15.图6是本技术语音识别装置一实施例的框架示意图;
16.图7是本技术电子设备一实施例的框架示意图;
17.图8是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
18.下面结合说明书附图,对本技术实施例的方案进行详细说明。
19.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
20.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
21.请参阅图1,图1是本技术语音识别方法一实施例的流程示意图。
22.具体而言,可以包括如下步骤:
23.步骤s11:获取待识别语音所属的目标语种,并获取若干语系各自的语音识别模型。
24.在一个实施场景中,目标语种可以在采集待识别语音之前,与输入待识别语音的目标对象进行交互进而确定得到。具体地,在采集待识别语音之前,可以输出提示,且该提示可以包含各种语种选项,从而目标对象可以从各种语种选项中选择其中一个,进而可以
确定目标语种。示例性地,目标对象可以采用诸如智能手机、平板电脑、录音笔等终端设备采集待识别语音,则在目标对象点击“开始采集”之前,可以先输出提示,该提示可以包含但不限于诸如:英语、汉语、法语、日语等语种选项,目标对象出于自身即将要说英语的实际需要,可以从中选择语种选项“英语”,并在选择之后点击“开始采集”,并在采集结束之后,点击“结束采集”,从而得到待识别语音,并可以确定待识别语音所属的目标语种为“英语”。其他情况可以以此类推,在此不再一一举例。
25.在另一个实施场景中,区别于前述通过目标对象进行交互进而确定目标语种的方式,目标语种也可以在采集待识别语音之后,对待识别语音进行语种识别得到。语种识别可以通过诸如长短时记忆网络、循环神经网络等基于深度学习的语种识别模型识别得到,在此对语种识别模型的网络结构不做限定。为了提升语种识别模型的识别性能,在基于语种识别模型对待识别语音进行语种识别之前,可以先采集若干样本语音,且样本语音可以标注有其所属的样本语种,并基于语种识别模型对样本语音进行语种识别,得到样本语音所属的预测语种。在此基础上,可以基于样本语音所属的样本语种和预测语种之间的差异,调整语种识别模型的网络参数。具体来说,差异的具体度量方式,可以参阅诸如交叉熵等损失函数,参数的具体调整过程,可以参阅诸如梯度下降等优化方式,在此不再赘述。
26.本公开实施例中,若干语系可以基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类。
27.在一个实施场景中,可以预先采集尽可能多语种的样本语音,示例性地,可以采集世界上各种语种分别对应的样本语音。此外,对于每种语种而言,在采集过程中可以尽可能地确保其样本语音的总时长不低于预设阈值(如,100小时、200小时等)。
28.在一个实施场景中,样本子词序列可以基于样本语音对应的样本文本进行子词切分得到。也即是说,样本子词序列可以包含若干样本子词。具体而言,可以采用诸如sentence-piece等分词工具对样本语音对应的样本文本进行分词,在此不做限定。此外,为了便于区分不同子词所属语种,尽可能地减轻多语种混淆的影响,样本子词可以标记有样本子词所属语种。示例性地,对于英语文本“hello”,可以切分为如下子词:h、e、l、l、o,并采用语种标记“en”来对这些子词进行标记,则英语文本“hello”的样本子词序列可以表示为{h_en,e_en,l_en,l_en,o_en}。当然,为了便于区分样本子词序列的开始和结束,可以样本子词序列中的第一个样本子词可以统一表示为开始符,如《s》,而样本子词序列中的最后一个样本子词可以统一表示为结束符,如《/s》。在此情况下,英语文本“hello”的样本子词序列可以表示为{《s》,h_en,e_en,l_en,l_en,o_en,《/s》}。其他情况可以以此类推,在此不再一一举例。为了便于描述,样本语音所标注的样本子词序列可以统一表示为y={y0,

,yi,

yi},其中,yi表示样本子词序列中第i个字符,i 1为样本子词序列中样本子词的总个数,y0为样本子词序列中第一个样本子词,如前所述,可以表示为《s》,yi为样本子词序列中最后一个样本子词,如前所述,可以表示为《/s》。
29.在一个实施场景中,可以获取样本语音集合中各样本语音所标注的样本子词序列中各个样本子词的语义特征,在此基础上,可以基于样本子词的语义特征进行特征聚类,得到若干特征集合,并对于各个特征集合,可以基于特征集合中语义特征所属的样本子词分别涉及的语种,确定各个语系。上述方式,通过各个样本子词的语义特征进行特征聚类,确
定出各个语系,能够从语义层面划分出各个语系,从而能够确保每个语系下不同语种具有相似属性,进而使得语音识别模型在后续训练过程中能够学习到相同语系下相似语种之间的共性信息。
30.在一个具体的实施场景中,可以通过诸如labse(language-agnostic bert sentence embedding,即多语种bert语句嵌入)等提取方式,提取样本子词的语义特征。具体提取过程,可以参阅诸如labse等提取方式的技术细节,在此不再赘述。
31.在一个具体的实施场景中,可以采用诸如dbscan(density-based spatial clustering of applications with noise,基于密度的噪声应用空间聚类)等聚类方式,进行特征聚类,得到若干特征集合。具体聚类过程,可以参阅诸如dbscan等聚类方式的技术细节,在此不再赘述。
32.在一个具体的实施场景中,对于每个特征集合而言,可以统计该特征集合中各个语义特征所属的样本子词所标记的所属语种,并将统计得到的语种,作为该特征集合对应的语系。示例性地,经特征聚类可以得到3个特征集合,第1个特征集合中各个语义特征所属的样本子词所标记的所属语种包括:英语、荷兰语、德语,则可以确定第1个特征集合对应的语系包含如下三个语种:英语、荷兰语、德语;其次,第2个特征集合中各个语义特征所属的样本子词所标记的所属语种包括:冰岛语、丹麦语、挪威语、瑞典语,则可以确定第2个特征集合对应的语系包含如下四个语种:冰岛语、丹麦语、挪威语、瑞典语;此外,第3个特征集合中各个语义特征所属的样本子词所标记的所属语种包括:葡萄牙语、西班牙语、法语、意大利语,则可以确定第3个特征集合对应的语系包含如下四个语种:葡萄牙语、西班牙语、法语、意大利语。其他情况可以以此类推,在此不再一一举例。
33.在另一个实施场景中,区别于前述特征聚类的归类方式,还可以基于先验知识进行语系划分。具体地,可以基于各个语种的字符写法、语种相似性等进行语系划分。示例性地,冰岛语、丹麦语、挪威语、瑞典语等四个语种均属于日耳曼语族中的北部支族(即斯堪地纳维亚语支),则可以将冰岛语、丹麦语、挪威语、瑞典语等四个语种划为一个语系,而葡萄牙语、西班牙语、法语、意大利语等四个语种均属于罗曼语族中的西罗曼语族,则可以将葡萄牙语、西班牙语、法语、意大利语划为一个语系。其他情况可以以此类推,在此不再一一举例。
34.在一个实施场景中,为了便于后续模型训练以及模型训练收敛之后的语音识别,在划分出若干语系之后,可以进一步将属于相同语系的样本子词构成该语系的预设词典。例如,若某一语系包含的语种为冰岛语、丹麦语、挪威语和瑞典语4个语种,分别使用这4个语种各自的带有语种标记的子词序列,通过统计其子词出现的频数得到4个语种各自的字典,可以表示为{冰岛语},{丹麦语},{挪威语},{瑞典语}。则最终该语系下的统一建模词典为这4个字典的并集{冰岛语}∪{丹麦语}∪{挪威语}∪{瑞典语}。其他语系情况可以以此类推,在此不再一一举例。为了便于描述,可以将第一个语系的预设词典,可以表示为set1,第二个语系的预设词典,表示为set2,

,第n个语系的预设词典,表示为setn,以此类推。
35.本公开实施例中,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,且各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到。也就是说,在确定各个语种分别所属的语系之后,即可将标注语种属于相同语系的样本语音划分至相同样本语音子集合,并基于每个语系的样本语音子集合,分别训练得到各个语系的
encoder等,在此对对比网络的网络结构不做限定,对比网络用于对编码特征序列中各个样本编码特征进行上下文表征,得到各个语音帧的样本上下文特征,从而可以将各个语音帧的样本上下文特征的组合,作为上下文特征序列。为了便于描述,可以将第i个语音帧的样本声学特征记为xi,并将第i个语音帧的样本编码特征记为zi,以及将第i个语音帧的样本上下文特征记为ci,将第i个语音帧的样本量化特征记为qi。
40.在一个具体的实施场景中,为了进一步提升语音特征提取网络的网络性能,在特征量化过程中,可以基于预训练的码本对编码特征序列中各语音帧的样本编码特征进行特征量化,得到量化特征序列,且量化特征序列包含各语音帧的样本量化特征。如图2所示,也就是说,在特征量化过程中,不会对任何语音帧进行遮蔽。与之相反地,在上下文表征之前,可以对编码特征序列中至少一个语音帧的样本编码特征进行遮蔽,具体地,可以采用随机遮蔽等方式,在此不做限定。在此基础上,可以基于遮蔽后的编码特征序列中各语音帧的样本编码特征进行上下文表征,得到上下文特征序列,且上下文特征序列包含各语音帧的样本上下文特征。上述方式,通过在上下文表征之前,对编码特征序列中至少一个语音帧的样本编码特征进行遮蔽,由于在语音识别模型的训练过程中,将量化特征序列与上下文特征序列之间的对比损失也纳入其中,故能够迫使编码时能够尽可能地准确地提取编码特征,并能够迫使尽可能地准确地进行上下文文表征,以使得即使语音帧被遮蔽,也能够准确地提取其语音特征。
41.在一个具体的实施场景中,对比损失的具体计算过程,可以参阅诸如contrastive loss等损失函数的技术细节,在此不再赘述。此外,基于上下文特征序列进行若干次解码,可以得到每次解码对应的预测子词,并将历次解码得到的预测子词组合,得到预测子词序列。需要说明的是,每次解码时,可以得到语音识别模型所属语系对应的预设词典中各个预设子词的预测概率值,从而可以将最大预测概率值对应的预设子词,作为本次解码对应的预测子词。预测损失可以基于上述预测概率值计算得到,其具体计算过程,可以参阅诸如交叉熵等损失函数的技术细节,在此不再赘述。在一个具体的实施场景中,如前所述,每次解码时,可以得到语音识别模型所属语系对应的预设词典中各个预设子词的预测概率值,为了尽可能地防止因语音质量较差而出现多个语种的建模单元,以尽可能地消除语种串扰,可以在解码阶段采用非语种进行概率掩蔽的策略,具体可以参阅下述相关描述,在此暂不赘述。
42.在一个具体的实施场景中,在得到对比损失和预测损失之后,可以基于第一权重、第二权重分别对对比损失、预测损失进行加权,得到语系的样本语音子集合中样本语音在语音识别模型上的子损失,且第一权重不大于第二权重。示例性地,第一权重和第二权重之和可以为1,第二权重可以设置为0.9,第一权重可以设置为0.1,在此不做限定。在此基础上,可以基于语系的样本语音子集合中至少一个样本语音分别对应的子损失调整语系的语音识别模型的网络参数。示例性地,对于每个语系的语音识别模型而言,可以经过若干轮训练得到,且每轮训练,可以基于该语系的样本语音子集合提取出一个样本语音批次(batch),如可以从该语系对应的所有声学特征序列中提取n(如,5、10等)个样本的声学特征,得到本轮训练的样本语音批次。在此基础上,在每轮训练时,对于样本语音批次中每个样本语音而言,可以通过上述过程计算得到该样本语音对应的子损失,从而可以结合本轮训练的样本语音批次中所有样本语音的子损失,得到本轮训练的训练损失,再基于该训练
损失,调整该语系的语音识别模型的网络参数。需要说明的是,对于本轮训练的样本语音批次中各个样本语音的子损失而言,可以通过诸如加权等方式,得到本轮训练的训练损失,具体可以参阅下述相关描述,在此暂不赘述。此外,网络参数的具体调整过程,可以参阅诸如梯度下降等优化方式,在此不再赘述。上述方式,基于第一权重、第二权重分别对对比损失、预测损失进行加权求和,得到该语系的样本语音子集合中样本语音在语音识别模型上的子损失,且第一权重不大于第二权重(示例性地,第一权重和第二权重之和可以为1),再基于语系的样本语音子集合中至少一个样本语音分别对应的子损失,调整语系的语音识别模型的网络参数,故能够在基于对比损失实现跨语言知识迁移的同时,尽可能地确保解码准确性。
43.在一个实施场景中,如前所述,对于各个语系而言,语系的语音识别模型可以在每轮训练过程中基于样本语音批次进行训练,且样本语音批次从语系的样本语音子集合选取得到。则为了进一步提升语音识别模型的模型性能,在每轮训练语系的语音识别模型过程中,可以先基于权重预测模型预测样本语音批次中各样本语音的损失权重,再基于样本语音批次中各样本语音的损失权重,对样本语音批次中各样本语音的子损失进行加权,得到本轮训练语音识别模型的训练损失,且语音识别模型在本轮训练,基于训练损失调整网络参数,之后可以获取参数调整后的语音识别模型在验证集上的验证损失,再基于训练损失和验证损失之间的分布差异,调整权重预测模型的网络参数。下一轮训练可以以此类推,如此往复,不再赘述。需要说明的是,各样本语音的子损失其具体计算过程,可以参阅前述相关描述,在此不再赘述。上述方式,在每轮训练过程中,通过权重预测模型预测样本语音批次中各样本语音的损失权重,并基于此对样本语音批次中各样本语音的子损失进行加权,得到本轮训练语音识别模型的训练损失,在基础上再调整语音识别模型的网络参数,从而通过验证损失和训练损失之间的分布差异,调整权重预测模型的网络参数,故在每轮训练过程中,通过训练损失对语音识别模型进行优化调整、分布差异对权重预测模型进行优化调整这样的双层优化,能够尽可能地在低资源语种和高资源语种之间形成动态平衡,有助于使语音识别模型在低资源语种和高资源语种都能够尽可能地提升识别性能。
44.在一个具体的实施场景中,可以随机从训练数据中分离出一部分数据,作为验证集。需要说明的是,验证集并不参与语音识别模型的训练,其作用主要用于验证模型性能,用验证集的分布来近似测试集的分布。
45.在一个具体的实施场景中,请结合参阅图3,图3是动态语种均衡策略一实施例的框架示意图。如图3所示,表示第t次迭代训练时权重预测模型的网络参数,θ
t
表示第t次迭代训练时参数调整之前语音识别模型的网络参数,表示第t次迭代训练时所采用的第i个样本语音批次,表示在第t次迭代训练时基于训练损失对网络参数θ
t
求得的梯度分布,θ

t 1
表示第t次迭代训练时参数调整之后语音识别模型的网络参数,d
dev
表示验证集,表示在第t次迭代训练时基于验证损失j
dev


t 1
,d
dev
)对网络参数θ

t 1
求得的梯度分布。在此基础上,可以基于kl散度(即kullback-leibler divergence)等损失函数求取上述两个梯度分布之间的分布差异。具体计算方式,可以参阅kl散度等损失函数的技术细节,在此不再赘述。此外,需要说明
的是,图3所示的二维坐标图中,横坐标表示语种,纵坐标表示数量。如图3所示,经权重预测模型预测得到的损失权重平衡之后,能够在训练语音识别模型过程中,尽可能地在低资源语种和高资源语种之间形成动态平衡。此外,为了进一步提升权重预测模型的预测性能,在度量得到上述分布差异之后,可以参照前述训练损失的度量方式,对上述分布差异进行加权,其权重可以根据前述训练损失进行设置,如可以设置为0.01,在此不做限定。
46.在一个实施场景中,区别于前述结合有监督的预测损失和无监督的对比损失对语音识别模型进行联合训练,在对语音识别模型的识别性能要求较为宽松的情况下,为了简化训练流程,也可以仅基于预测损失进行训练。具体地,可以基于语系的样本语音子集中样本语音各语音帧的样本声学特征,得到样本语音的声学特征序列,并基于声学特征序列进行编码,得到编码特征序列,以及基于编码特征序列进行上下文表征,得到上下文特征序列,从而可以基于上下文特征序列进行解码,得到预测子词序列,进而可以仅基于预测子词序列相较于样本子词序列的预测损失,调整语系的语音识别模型的网络参数。更为具体的训练过程,可以参阅前述相关描述,在此不再赘述。需要说明的是,在仅基于预测损失进行训练的情况下,也可以采用前述动态语种均衡策略、概率掩蔽策略中至少一者,在此不做限定。
47.步骤s12:基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本。
48.在一个实施场景中,在训练得到各个语系的语音识别模型之后,即可基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到本次识别的识别结果,且识别结果可以包括:预设词典中各个预设子词的预测概率值,且预设子词标记有预设子词所属语种。在此基础上,可以基于识别结果,得到本次识别得到的子词,并基于历次识别得到的子词,得到识别文本。
49.在一个具体的实施场景中,每次识别时,可以将识别结果中最大预测概率值对应的预设子词,作为本次识别得到的子词,从而在某次识别得到的子词为结束符(如,《/s》)时,可以确认识别结束。在此基础上,可以剔除历次识别得到的子词中标记的所属语种,并将去除标记的子词进行组合,得到待识别语音对应的识别文本。
50.在一个具体的实施场景中,识别结果所指的“预设词典”,具体可以为目标语种所属的语系对应的预设词典。预设词典的具体含义,可以参阅前述相关描述,在此不再赘述。
51.在一个实施场景中,区别于前述直接将最大预测概率值对应的预设子词作为本次识别得到的子词,如前所述,为了尽可能地防止因语音质量较差而出现多个语种的建模单元,以尽可能地消除语种串扰,可以在解码阶段采用非语种进行概率掩蔽的策略。具体地,可以基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到本次识别的识别结果,且识别结果包括:预设词典中各个预设子词的预测概率值,且预设子词标记有预设子词所属语种。在此基础上,可以将所属语种不同于目标语种的预设子词,作为目标子词,并将识别结果中目标子词的预测概率值进行抑制,从而可以基于最新识别结果,得到本次识别得到的子词,并基于历次识别得到的子词,得到识别文本。上述方式,通过将所属语种不同于目标语种的预设子词,作为目标子词,并将识别结果中目标子词的预测概率值进行抑制,能够尽可能地防止因语音质量较差而出现多个语种的建模单元,以尽可能地消除语种串扰,有助于提升语音识别的准确性。
52.在一个具体的实施场景中,预测概率值可以基于解码网络的输出结果经log-softmax计算得到,其大小可以表示为(batch_size,vocab_size),其中,batch_size表示样本语音批次的大小,vocab_size表示预设词典的大小。在此基础上,可以生成一个与之大小相同的掩蔽矩阵,则可以将识别结果所包含的预设词典中各个预设子词的预测概率值,乘以掩蔽矩阵,且该掩蔽矩阵中与目标子词对应的掩蔽值可以设置为正无穷,而不与目标子词对应的掩蔽值可以设置为1。也就是说,对于不属于目标语种的预设子词(即目标子词)而言,可以将其预测概率值乘以正无穷,以对不属于目标语种的预设子词(即目标子词)的预测概率值施加惩罚,将非当前解码语种(即目标语种)的预设子词的预测概率值压低,与之相反地,对于属于目标语种的预设子词而言,可以将其预测概率值乘以1,即保持当前解码语种(即目标语种)的预设子词的预设概率值不变。
53.在一个具体的实施场景中,请结合参阅图4,图4是掩蔽解码策略一实施例的框架示意图。如图4所示,第4个预设子词和第7个预设子词所属语种分别为lang2和lang3,而目标语种为lang1,故可以将掩蔽矩阵中第4个和第7个元素均置为正无穷,其他元素均置为1,并基于该掩蔽矩阵对识别结果进行处理,得到最新的识别结果。在此基础上,可以执行beam search解码策略,得到无串扰的识别文本。
54.在一个实施场景中,请参阅图5,图5是本技术语音识别方法一实施例的框架示意图。如图5所示,在训练阶段,先样本语音集合中样本语音所标注的样本子词序列,提取得到各个样本子词的语义特征,子词基础上进行特征聚类,从而划分得到若干语系:语系1,
……
,语系m,
……
,语系m。在此基础上,可以分别训练得到上述m个语系的语音识别模型。示例性地,对于第m个语系而言,可以基于该语系的样本语音子集合中各个样本语音的声学特征序列和样本子词序列,采用有监督和无监督联合训练的方式,训练得到第m个语系的语音识别模型。需要说明的是,在此训练过程中,为均衡低资源语种和高资源语种,可以采用动态语种均衡策略。训练收敛之后,对于语种类别为目标语种的待识别语音,可以采用目标语种所属语系的语音识别模型对待识别语音进行识别,得到识别文本。此外,为了尽可能地防止因语音质量较差而出现多个语种的建模单元,以尽可能地消除语种串扰,可以在语音识别的解码阶段中,采用掩蔽解码策略。
55.上述方案,获取待识别语音所属的目标语种,并获取若干语系各自的语音识别模型,且若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,若干归类方式至少包括对样本子词序列进行特征聚类,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到,在此基础上,再基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本,由于若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类,故能够尽可能地将能够共享建模的语种划为至相同语系,一方面无需为不同语种单独构建语音识别模型,有助于降低语音识别模型的应用成本,另一方面由于各个语系的语音识别模型能够学习到该语系下相似语种之间的共性信息,有助于尽可能地减弱语系中存在低资源的语种时对训练语音识别模型的影响,能够提升语音识别模型的识别性能。故此,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
56.请参阅图6,图6是本技术语音识别装置60一实施例的框架示意图。语音识别装置60包括:语种获取模块61、模型获取模块62和识别模块63,语种获取模块61,用于获取待识别语音所属的目标语种;模型获取模块62,用于获取若干语系各自的语音识别模型;其中,若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,若干归类方式至少包括对样本子词序列进行特征聚类,各语系的语音识别模型分别由各语系的样本语音子集合训练得到,且各语系的样本语音子集合由样本语音集合基于归类得到的若干语系划分得到;识别模块63,用于基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到待识别语音的识别文本。
57.上述方案,由于若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类,故能够尽可能地将能够共享建模的语种划为至相同语系,一方面无需为不同语种单独构建语音识别模型,有助于降低语音识别模型的应用成本,另一方面由于各个语系的语音识别模型能够学习到该语系下相似语种之间的共性信息,有助于尽可能地减弱语系中存在低资源的语种时对训练语音识别模型的影响,能够提升语音识别模型的识别性能。故此,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
58.在一些公开实施例中,模型获取模块62包括特征提取子模块,用于基于语系的样本语音子集中样本语音各语音帧的样本声学特征,得到样本语音的声学特征序列;模型获取模块62包括特征编码子模块,用于基于声学特征序列进行编码,得到编码特征序列;模型获取模块62包括特征量化子模块,用于基于编码特征序列进行特征量化,得到量化特征序列;模型获取模块62包括上下文表征子模块,用于基于编码特征序列进行上下文表征,得到上下文特征序列;模型获取模块62包括解码子模块,用于基于上下文特征序列进行解码,得到预测子词序列;模型获取模块62包括参数调整子模块,用于基于量化特征序列与上下文特征序列之间的对比损失,以及预测子词序列相较于样本子词序列的预测损失,调整语系的语音识别模型的网络参数。
59.因此,在训练语音识别模型的过程中,通过预测子词序列相较于样本子词序列的预测损失对语音识别模型进行有监督训练,并通过量化特征序列与上下文特征序列之间的对比损失对语音识别模型进行无监督训练,故通过联合有监督和无监督两种训练方式,能够使语音识别模型所提取出来的语音表征能够更好地迁移到下游任务,有助于提升模型对不同场景数据的泛化能力,也有助于同时提升低资源和高资源语种的识别率。
60.在一些公开实施例中,在训练各语系的语音识别模型之前,基于若干语种的语音数据预训练得到语音特征提取网络,且语音特征提取网络与解码网络组成语音识别模型,且语音特征提取网络用于执行编码和上下文表征,解码网络用于执行解码。
61.因此,在训练各语系的语音识别模型之前,基于若干语种的语音数据预训练得到语音特征提取网络,且语音特征提取网络与解码网络组成语音识别模型,且语音特征提取网络用于执行编码和上下文表征,解码网络用于执行解码,能够有助于提升语音识别模型的模型性能,并尽可能的降低语音识别模型的训练难度。
62.在一些公开实施例中,特征量化子模块具体用于基于预训练的码本对编码特征序列中各语音帧的样本编码特征进行特征量化,得到量化特征序列;其中,量化特征序列包含各语音帧的样本量化特征;模型获取模块62包括语音帧掩蔽子模块,用于对编码特征序列
中至少一个语音帧的样本编码特征进行遮蔽;上下文表征子模块具体用于基于遮蔽后的编码特征序列中各语音帧的样本编码特征进行上下文表征,得到上下文特征序列;其中,上下文特征序列包含各语音帧的样本上下文特征。
63.因此,通过在上下文表征之前,对编码特征序列中至少一个语音帧的样本编码特征进行遮蔽,由于在语音识别模型的训练过程中,将量化特征序列与上下文特征序列之间的对比损失也纳入其中,故能够迫使编码时能够尽可能地准确地提取编码特征,并能够迫使尽可能地准确地进行上下文文表征,以使得即使语音帧被遮蔽,也能够准确地提取其语音特征。
64.在一些公开实施例中,参数调整子模块包括加权单元,用于基于第一权重、第二权重分别对对比损失、预测损失进行加权,得到语系的样本语音子集合中样本语音在语音识别模型上的子损失;其中,第一权重不大于第二权重;参数调整子模块包括调整单元,用于基于语系的样本语音子集合中至少一个样本语音分别对应的子损失,调整语系的语音识别模型的网络参数。
65.因此,基于第一权重、第二权重分别对对比损失、预测损失进行加权,得到语系的样本语音子集合中样本语音在语音识别模型上的子损失,且第一权重不大于第二权重,再基于语系的样本语音子集合中至少一个样本语音分别对应的子损失,调整语系的语音识别模型的网络参数,故能够在基于对比损失实现语言知识迁移的同时,尽可能地确保解码准确性。
66.在一些公开实施例中,语系的语音识别模型在每轮训练过程中基于样本语音批次进行训练,样本语音批次从语系的样本语音子集合选取得到,且语音识别装置60还包括权重预测模块,用于在每轮训练语系的语音识别模型过程中基于权重预测模型预测样本语音批次中各样本语音的损失权重;语音识别装置60还包括损失加权模块,用于基于样本语音批次中各样本语音的损失权重,对样本语音批次中各样本语音的子损失进行加权,得到本轮训练语音识别模型的训练损失;其中,语音识别模型在本轮训练,基于训练损失调整网络参数;语音识别装置60还包括模型验证模块,用于获取参数调整后的语音识别模型在验证集上的验证损失;语音识别装置60还包括模型优化模块,用于基于训练损失和验证损失之间的分布差异,调整权重预测模型的网络参数。
67.因此,在每轮训练过程中,通过训练损失对语音识别模型进行优化调整、分布差异对权重预测模型进行优化调整这样的双层优化,能够尽可能地在低资源语种和高资源语种之间形成动态平衡,有助于使语音识别模型在低资源语种和高资源语种都能够尽可能地提升识别性能。
68.在一些公开实施例中,识别模块63包括识别子模块,用于基于目标语种所属语系对应的语音识别模型,对待识别语音进行识别,得到本次识别的识别结果;其中,识别结果包括:预设词典中各个预设子词的预测概率值,且预设子词标记有预设子词所属语种;识别模块63包括选择子模块,用于将所属语种不同于目标语种的预设子词,作为目标子词;识别模块63还包括抑制子模块,用于将识别结果中目标子词的预测概率值进行抑制;识别模块63还包括确定子模块,用于基于最新识别结果,得到本次识别得到的子词;识别模块63还包括组合子模块,用于基于历次识别得到的子词,得到识别文本。
69.因此,通过将所属语种不同于目标语种的预设子词,作为目标子词,并将识别结果
中目标子词的预测概率值进行抑制,能够尽可能地防止因语音质量较差而出现多个语种的建模单元,以尽可能地消除语种串扰,有助于提升语音识别的准确性。
70.在一些公开实施例中,样本子词序由样本语音对应的样本文本进行子词切分得到,样本子词序列中各个样本子词标记有样本子词所属语种,且所属语种属于相同语系的样本子词构成语系的预设词典。
71.因此,通过构建不同语系的预设词典,能够使相同语系下相似语种实现信息共享。
72.在一些公开实施例中,语音识别装置60还包括语义提取模块,用于获取样本语音集合中各样本语音所标注的样本子词序列中各个样本子词的语义特征;语音识别装置60还包括特征聚类模块,用于基于样本子词的语义特征进行特征聚类,得到若干特征集合;语音识别装置60还包括语系确定模块,用于对于各个特征集合,基于特征集合中语义特征所属的样本子词分别涉及的语种,确定各个语系。
73.因此,通过各个样本子词的语义特征进行特征聚类,确定出各个语系,能够从语义层面划分出各个语系,从而能够确保每个语系下不同语种具有相似属性,进而使得语音识别模型在后续训练过程中能够学习到相同语系下相似语种之间的共性信息。
74.请参阅图7,图7是本技术电子设备70一实施例的框架示意图。电子设备70包括相互耦接的存储器71和处理器72,存储器71中存储有程序指令,处理器72用于执行程序指令以实现上述任一语音识别方法实施例中的步骤。具体地,电子设备70可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
75.具体而言,处理器72用于控制其自身以及存储器71以实现上述任一语音识别方法实施例中的步骤。处理器72还可以称为cpu(central processing unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。
76.上述方案,由于若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类,故能够尽可能地将能够共享建模的语种划为至相同语系,一方面无需为不同语种单独构建语音识别模型,有助于降低语音识别模型的应用成本,另一方面由于各个语系的语音识别模型能够学习到该语系下相似语种之间的共性信息,有助于尽可能地减弱语系中存在低资源的语种时对训练语音识别模型的影响,能够提升语音识别模型的识别性能。故此,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
77.请参阅图8,图8是本技术计算机可读存储介质80一实施例的框架示意图。计算机可读存储介质80存储有能够被处理器运行的程序指令81,程序指令81用于实现上述任一语音识别方法实施例中的步骤。
78.上述方案,由于若干语系基于若干归类方式中任一种对样本语音集合中各个样本语音所标注的样本子词序列进行分析得到,且若干归类方式至少包括对样本子词序列进行特征聚类,故能够尽可能地将能够共享建模的语种划为至相同语系,一方面无需为不同语
种单独构建语音识别模型,有助于降低语音识别模型的应用成本,另一方面由于各个语系的语音识别模型能够学习到该语系下相似语种之间的共性信息,有助于尽可能地减弱语系中存在低资源的语种时对训练语音识别模型的影响,能够提升语音识别模型的识别性能。故此,能够在降低语音识别模型的应用成本的同时,提升语音识别模型的识别性能。
79.在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
80.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
81.在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
82.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
83.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
84.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
85.若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献