一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

语音识别系统优化方法、装置、设备及可读存储介质与流程

2021-08-06 18:27:00 来源:中国专利 TAG:语义 系统优化 语音 装置 可读
语音识别系统优化方法、装置、设备及可读存储介质与流程

本申请涉及语音语义技术领域,尤其涉及一种语音识别系统优化方法、装置、设备及可读存储介质。



背景技术:

基于深度学习的语音助手广泛应用于人们的日常生活中,例如来自小米的小爱同学、来自苹果的siri以及来自微软的cortana等,人们可以使用语音助手查询天气,新增提醒事项和设置闹钟等。然而,由于目前语音助手配置的语音识别系统,是采用有限的由人工低效率标注的语音数据训练得到的,训练数据的局限性导致语音识别系统存在识别盲区,使得语音助手在日常使用中很容易出现识别错误的场景,可靠性低,大大降低了使用体验。



技术实现要素:

本申请的主要目的在于提供一种语音识别系统优化方法、装置、设备及可读存储介质,旨在解决现有语音识别系统的识别准确率和可靠性低的技术问题。

第一方面,本申请提供了一种语音识别系统优化方法,所述方法包括:

获取待识别语音,将所述待识别语音输入至语音识别系统进行分类识别,以通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值;

当根据所述预测损失值确定所述预测标签类别不准确时,获取所述待识别语音对应的实际标签类别,将所述待识别语音及其对应的所述实际标签类别确定为训练数据;

统计训练数据,根据统计的训练数据建立训练集;

将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,直至所述目标损失函数收敛,得到优化后的语音识别系统。

第二方面,本申请还提供了一种语音识别系统优化装置,所述装置包括:

预测模块,用于获取待识别语音,将所述待识别语音输入至语音识别系统进行分类识别,以通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值;

确定模块,用于当根据所述预测损失值确定所述预测标签类别不准确时,获取所述待识别语音对应的实际标签类别,将所述待识别语音及其对应的所述实际标签类别确定为训练数据;

建立模块,用于统计训练数据,根据统计的训练数据建立训练集;

优化模块,用于将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,直至所述目标损失函数收敛,得到优化后的语音识别系统。

第三方面,本申请还提供了一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的语音识别系统优化方法的步骤。

第四方面,本申请还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的语音识别系统优化方法。

本申请公开了一种语音识别系统优化方法、装置、设备及可读存储介质,该语音识别系统优化方法,获取待识别语音,将待识别语音输入至语音识别系统进行分类识别,通过语音识别系统的标签预测模型预测得到待识别语音对应的预测标签类别,以及通过语音识别系统的主动学习损失预测模型预测得到标签预测模型的预测损失值;当根据预测损失值确定预测标签类别不准确时,获取待识别语音对应的实际标签类别,将待识别语音及其对应的实际标签类别作为训练数据;然后统计训练数据,根据统计的训练数据建立训练集,并将建立的训练集输入至语音识别系统中对语音识别系统进行优化训练,计算目标损失函数,直至目标损失函数收敛,得到优化后的语音识别系统。由此,在语音识别系统工作时,通过自我学习损失预测模块预测的损失值找出语音识别系统容易识别错的语音数据,作为优化语音识别系统的训练数据,实现了对训练数据的高效采集,再利用训练数据对语音识别系统进行优化训练,能够提升语音识别系统的识别广度,实现了语音识别系统的更新升级,从而提升了语音识别系统的识别准确率和可靠性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种语音识别系统优化方法的流程示意图;

图2为本申请实施例提供的语音识别系统的架构示意图;

图3为本申请实施例提供的音频特征提取模块的架构示意图;

图4为本申请实施例提供的单个自注意力解码器的架构示意图;

图5为本申请实施例提供的主动学习模块的架构示意图;

图6为本申请实施例提供的计算语音识别系统的目标损失函数的示例图;

图7为本申请实施例提供的一种语音识别系统优化装置的示意性框图;

图8为本申请一实施例涉及的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本申请的实施例提供了一种语音识别系统优化方法、装置、设备及计算机可读存储介质。其中,该语音识别系统优化方法主要应用于语音识别系统优化设备,可以是移动终端、pc(个人计算机personalcomputer)、便携计算机和服务器等具有数据处理功能的设备,该基于主动学习的语音识别系统优化设备上承载有语音识别系统。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参照图1,图1为本申请的实施例提供的一种语音识别系统优化方法的流程示意图。

如图1所示,该语音识别系统优化方法包括步骤s101至步骤s104。

步骤s101,获取待识别语音,将所述待识别语音输入至语音识别系统进行分类识别,以通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值。

该视频描述生成系统可以实现成为具有语音识别功能的应用程序的一部分,例如语音助手等。

如图2所示,图2为语音识别系统的架构示意图,该语音识别系统是一种使用小数量级的带标签语音数据完成初始训练的语音识别模型,主要包括两部分-标签预测模型和主动学习损失预测模型,标签预测模型和主动学习损失预测模型属于并列关系。标签预测模型是一种端到端(end-to-end)神经网络,用于对待识别语音进行分类识别,以预测待识别语音语音的标签类别;主动学习损失预测模型则是一种轻量化神经网络,用于预测标签预测模型对待识别语音预测结果的损失,也即判断标签预测模型对待识别语音对应的标签类别做出正确预测的概率。

以应用于语音助手为例,当用户向语音助手发出语音指令,语音助手获取该语音指令,将该语音指令作为待识别语音输入至语音识别系统进行分类识别,通过语音识别系统的标签预测模型预测得到待识别语音对应的预测标签类别,以及通过语音识别系统的主动学习损失预测模型预测得到标签预测模型的预测损失值,其中,预测损失值用于表征待识别语音对应的预测标签类别是否准确。

在一实施例中,所述通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,具体为:将所述待识别语音输入至所述语音识别系统的标签预测模型,对所述待识别语音进行特征提取得到所述待识别语音的特征,并补充所述待识别语音的特征对应的位置编码;对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行解码,得到隐特征向量;对所述隐特征向量进行线性变换,得到解码向量;对所述解码向量进行softmax逻辑回归计算,得到所述语音识别系统的标签预测模型输出的所述待识别语音对应的预测标签类别。

继续参照图2,如图2左边虚线框部分所示,图2左边虚线框部分为标签预测模型的架构示意图,标签预测模型主要包括音频特征提取模块和自注意力解码器模块,其中,自注意力解码器模块由若干个自注意力解码器叠加构成。将待识别语音输入至语音识别系统进行分类识别时,首先通过标签预测模型的音频特征提取模块对待识别语音进行特征提取,得到待识别语音对应的特征;然后补充待识别语音对应的特征的位置编码信息,通过自注意力解码器模块对待识别语音对应的特征和特征的位置编码信息进行解码,解码时第i个自注意力解码器的输出是第i 1个自注意力解码器的输入,将自注意力解码器模块中的最后一个自注意力解码器输出的隐特征向量,作为自注意力解码器模块的最终输出,表示为z=[z1,z2,...,zn];再对自注意力解码器模块的输出进行线性变换处理,得到解码向量,然后对解码向量进行softmax逻辑回归处理,至此,便将自注意力解码器模块的输出z=[z1,z2,...,zn]映射到了一维类别空间中l=[l1,l1,...,lm];基于上述处理,标签预测模型即可输出待识别语音对应的预测标签类别。如表1所示,表1为常见的语音指令经由标签预测模型预测后输出的预测标签类别:

表1常见的语音指令和其预测标签类别

在一实施例中,所述对所述待识别语音进行特征提取得到所述待识别语音的特征,具体为:对所述待识别语音进行以帧为单位的预加强,并对预加强后的待识别语音进行快速傅里叶变换;通过log梅尔谱滤波器对快速傅里叶变换后的待识别语音进行处理,得到滤波输出值;依次对所述滤波输出值进行线性变换和层标准化,得到所述待识别语音的特征。

如图3所示,图3为标签预测模型的音频特征提取模块的架构示意图,音频特征提取模块用于提取待识别语音对应的特征,通过音频特征提取模块对待识别语音进行特征提取时,先对待识别语音进行一个以帧为单位的预加强,其目的是加强高频,同时去除口唇辐射的影响,而对待识别语音的高频部分进行加强会改善高频信噪比,其公式如下,

s′(x)=s(x)-k*s(x-1)

其中,k表示预加强系数,k∈[0,1],x为帧,s(x)是x帧所对应的语音信号。

然后再对预加强后的待识别语音进行快速傅里叶变换(fft,fastfouriertransformation)。快速傅里叶变换是将复杂的声波分解成各个频率的声波,具体可对预加强后的待识别语音进行离散傅里叶变换,即每一帧做n点fft来计算频谱,n可以取256或者512。

需要说明的是,在对预加强后的待识别语音进行快速傅里叶变换之前,可以对预加强后的待识别语音进行分帧,即将不定长的待识别语音切成固定长度的段落。帧长可以选择为20ms,在该帧内的语音信号可视为平稳的信号,同时帧移设置为10ms,即片段与片段之间时间差设置为10ms,以避免语音信息在分帧处被丢失。

在对预加强后的待识别语音进行快速傅里叶变换之后,通过log梅尔谱滤波器对快速傅里叶变换后的待识别语音进行处理,得到滤波输出值。log梅尔谱滤波器又称filterbank,可以对音频以类似于人耳的方式进行处理,以达到提高语音识别性能的目的。快速傅里叶变换后的待识别语音经过log梅尔谱滤波器后,最终输出一个二维数组x=[x1,x2,...xn],其中xn为第n个截取的帧段,该数组中每一个元素其中k表示滤波器的数量,可以根据实际需要进行灵活设置,比如k取40。

为了能使音频特征提取模块输出的待识别语音的特征矩阵尺寸能匹配自注意力解码器模块的输入尺寸,通过log梅尔谱滤波器对快速傅里叶变换后的待识别语音进行处理后,还进一步进行线性变换和层标准化,最终得到待识别语音的特征。

在一实施例中,所述对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行解码,得到隐特征向量,具体为:对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行多头注意力计算,得到多头注意力输出,对所述多头注意力输出进行前馈计算,得到隐特征向量。

由前述可知,自注意力解码器模块由n(n≥2)个自注意力解码器叠加构成,如图4所示,图4为单个自注意力解码器的架构示意图,每个自注意力解码器包括两个子层,第一层为多头注意力,第二层为一个全连接前馈神经网络(是最简单的全连接结构),除此之外,这两个子层各自都采用一个残缺连接,再进行层标准化,其中,残缺连接是为了解决多层神经网络训练困难问题,使神经网络在训练的时候仅关注差值部分,层标准归一可以加速模型训练过程,使其加快收敛。

需要说明的是,由于自注意力公式在计算时候会导致位置信息丢失,所以在将音频特征提取模块输出的待识别语音的特征输入自注意力解码器模块时,先补充待识别语音的特征对应的位置编码信息。如此,自注意力解码器模块的输入即为待识别语音的特征和特征对应的位置编码信息,如图4所示,特征对应的位置编码信息对应图4中的q,k、v则对应音频特征提取模块输出的待识别语音的特征。

将待识别语音对应的特征和特征的位置编码信息输入自注意力解码器模块后,对于自注意力解码器模块中的第一个自注意力解码器,首先将待识别语音对应的特征和特征的位置编码信息在多头注意力层进行多头注意力计算,得到多头注意力层的输出,再将多头注意力层的输出输入至前馈神经网络层进行前馈计算,得到第一个自注意力解码器的输出,即隐特征向量;对于自注意力解码器模块中除第一个自注意力解码器之外的其他自注意力解码器,将上一个自注意力解码器的输出,在多头注意力层进行多头注意力计算,得到多头注意力层的输出,再将多头注意力层的输出输入至前馈神经网络层进行前馈计算,得到其他自注意力解码器的输出;将自注意力解码器模块中的最后一个自注意力解码器的输出,作为自注意力解码器模块的最终输出。

其中,自注意力解码器中,多头注意力是最重要的转换映射。多头注意力是由基本注意力映射组成的。注意力公式(sda,scaled-productattention)是将查询(q,query)、键(k,key)和值(v,value)映射到一个加权和值,其公式如下:

其中查询q和键k的维度是相同的均为dk,值v的维度是dv。为了获得多次不同的线性映射,多头注意力映射被引入。在多次注意力映射中,基本注意力功能是并行执行的。每个基本注意力模型输出维度,最后通过维度连接输出。其公式如下,

multihead(q,k,v)=concat(head1,...,headh)wo

headi=attention(qwiq,kwik,vwiv)

其中,h为基本注意力数,表示参数矩阵,

在一实施例中,所述通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值,具体为:将所述隐特征向量输入至所述语音识别系统的主动学习损失预测模型,对所述隐特征向量进行全局池化,得到全局池化特征向量;对所述全局池化特征向量进行全连接运算,得到全连接特征向量;通过relu线性整流函数对所述全连接特征向量进行非线性映射,得到特征映射;对所述特征映射进行全连接运算,得到所述语音识别系统的主动学习损失预测模型输出的预测损失值。

继续参照图1,如图1右边虚线框部分所示,图1右边虚线框部分为主动学习损失预测模型的架构示意图,主动学习损失预测模型由若干个主动学习模块叠加构成。如图5所示,图5为主动学习模块的架构示意图。主动学习损失预测模型利用自注意力解码器输出的隐特征向量作为输入,然后依次经过全局池化层、全连接层和relu线性整流函数层的处理,得到主动学习模块的输出,主动学习模块的输出最后经过全连接层的处理,即可得到主动学习损失预测模型输出-一个预测的损失数值(如图1和图5),该数值表示标签预测模型做出正确预测的概率。详细地说,一个较高的损失数值表示当前输入对于语音识别系统是一个困难的数据,标签预测模型可能会做出错误的判断。

相比于标签预测模型,损失预测模块是轻量级网络,它可以做出快速预测;同时为了提升网络利用率,其每个主动学习模块的输入是每一个注意力解码器的输出。多个信息源的输入可以使损失预测模块选择有用的信息。全局池化层可以将不同维度的信息映射到一个固定的信息维度。

步骤s102,当根据所述预测损失值确定所述预测标签类别不准确时,获取所述待识别语音对应的实际标签类别,将所述待识别语音及其对应的所述实际标签类别确定为训练数据。

由前述可知,主动学习损失模块输出的预测损失值可以表明标签预测模型输出的待识别语音对应的预测标签类别是否准确,由此,在得到语音识别系统的标签预测模型输出的待识别语音对应的预测标签类别,以及语音识别系统的主动学习损失预测模型输出的预测损失值之后,根据该预测损失值确定待识别语音对应的预测标签类别是否准确,具体可以将该预测损失值与预设阈值进行比对,如果预测损失值大于等于预设阈值,可以确定标签预测模型输出的待识别语音对应的预测标签类别不准确,其中,该预设阈值作为判定预测标签类别是否准确的临界值,可以根据实际灵活进行设置。

当预测损失值表明待识别语音对应的预测标签类别不准确时,说明待识别语音对于语音识别系统来说是一个困难的数据,因此,利用待识别语音及其实际标签类别对语音识别系统进行优化更新,那么,还需获取待识别语音对应的实际标签类别。以应用于语音助手为例,当用户向语音助手发出语音指令,语音助手获取该语音指令,将该语音指令作为待识别语音输入至语音识别系统,通过语音识别系统的主动学习损失预测模型进行损失预测,得到的预测损失值相对较高,表明待识别语音对应的预测标签类别不准确时,可以生成并显示请用户选择正确标签类别的提示信息,同时加载与待识别语音相关的标签类别选择项让用户选择,然后接收用户对标签类别选择项的选择指令,将选择指令对应的签标类别作为待识别语音对应的实际标签类别。

在获取到待识别语音对应的实际标签类别之后,便可将待识别语音及其对应的实际标签类别作为训练数据,如此,便能够在语音识别系统执行语音识别任务的同时,积累训练数据,用于对语音识别系统进行进一步的优化训练。

综上,在语音识别系统工作时,通过自我学习损失预测模块找出语音识别系统容易识别错的语音数据,作为优化语音识别系统的训练数据,实现了训练数据的高效采集,不再需要人工标注得到训练数据,节省了人力成本。

步骤s103,统计训练数据,根据统计的训练数据建立训练集。

之后,便可对训练数据进行统计,示例性的,可以周期性地对训练数据进行统计,比如每间隔一个月统计一次。然后根据统计的训练数据建立训练集构建训练集,示例性的,

训练集={训练数据1,训练数据2,......,训练数据b}

={(语音数据x1,实际标签类别y1),(语音数据x2,实际标签类别y2)......,(语音数据xb,实际标签类别yb)}

步骤s104,将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,直至所述目标损失函数收敛,得到优化后的语音识别系统。

在一实施例中,所述将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,具体为:将所述训练集中的各个训练数据输入至所述语音识别系统,通过所述语音识别系统的标签预测模型预测得到所述训练数据中语音的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到针对所述训练数据中语音的预测损失值;根据所述训练数据中语音对应的实际标签类别和预测标签类别,以及针对所述训练数据中语音的所述预测损失值,计算目标损失函数。

将建立的训练集输入至语音识别系统中对语音识别系统进行训练,训练过程中,对于任何一个训练数据中的语音数据x,可以通过标签预测模型得到预测标签类别以及通过主动学习损失预测模型得到预测损失值再结合实际标签类别y,计算语音识别系统的目标损失函数。

在一实施例中,所述根据所述训练数据中语音对应的实际标签类别和预测标签类别,以及针对所述训练数据中语音的所述预测损失值,计算目标损失函数,具体为:根据所述训练数据中语音对应的实际标签类别和预测标签类别,计算实际损失值;计算所述实际损失值与针对所述训练数据中语音的所述预测损失值之间的损失;根据计算的所述损失与所述实际损失值构造目标损失函数。

由前述可知,训练过程中,对于任何一个训练数据中的语音数据x,通过标签预测模型得到预测标签类别以及通过主动学习损失预测模型得到预测损失值由此,根据预测标签类别和实际标签类别y,计算实际损失值再计算实际损失值l与预测损失值之间的损失结合上述两部分的损失即可得到语音识别系统的目标损失如图6所示。

具体地,通过交叉熵损失函数可以计算出预测标签类别和实际标签类别的差值,也就是实际损失值这个差值为主动学习损失预测模型进行对比训练。交叉熵损失函数如下:

其中,pk表示实际标签值,qk则表示预测标签值。

然后,计算实际损失值l与预测损失值之间的损失由于最简单计算实际损失值l与预测损失值之间的损失函数是均方误差损失函数,但因为两点原因,它不适合在这个训练场景下。其一,实际损失会随着训练过程会降低,因为标签预测模型也会更新在训练过程中,这就会导致主动学习损失模块的标签发生变化,从而无法拟合;其二,主动学习损失预测模型的目的是反应不同数据之间的损失相对大小,而不需要与实际损失准确对应,换句话说我们所希望的是一个排序大小而非实际损失数值。因此,调整了整个训练过程和相应的损失函数。具体地,对统计的训练数据中的语音数据进行两两配对,例如,对统计的b个训练数据中的语音数据进行两两配对可以得到b/2个语音数据对{xp=(xi,xj)};然后将由语音数据对构成的训练集输入至所述语音识别系统中,通过对比语音数据对的相对预测损失关系和相对实际损失关系构造实际损失值l与预测损失值之间的损失损失函数如下:

其中,表示由主动学习损失模块输出的预测损失值;

l表示实际损失值,由预测标签类别和实际标签类别计算得出;

表示语音数据对(xi,xj)的预测损失差值;

(li,lj)表示语音数据对(xi,xj)实际损失大小关系;

ξ为预设的正值超参。

对于上述损失函数的理解,当li≥lj时,只有大于的时候才有损失值为0,其他情况下损失值不为0,以期增大并且减小

结合上述两个损失函数,最终得到用于更新语音识别系统的目标损失函数,总结如下:

其中,(x,y)是作为训练数据的语音数据及其对应的实际标签类别;

是由标签预测模型输出的预测标签类别;

ltarget是交叉熵损失函数;

是主动学习损失预测模型预测的预测损失值;

为实际损失值;

λ为另一预设的正值超参。

根据上述目标损失函数对语音识别系统进行优化训练,直至目标损失函数收敛,即可得到优化后的语音识别系统。

上述实施例提供的语音识别系统优化方法,获取待识别语音,将待识别语音输入至语音识别系统进行分类识别,通过语音识别系统的标签预测模型预测得到待识别语音对应的预测标签类别,以及通过语音识别系统的主动学习损失预测模型预测得到标签预测模型的预测损失值;当根据预测损失值确定预测标签类别不准确时,获取待识别语音对应的实际标签类别,将待识别语音及其对应的实际标签类别作为训练数据;然后统计训练数据,根据统计的训练数据建立训练集,并将建立的训练集输入至语音识别系统中对语音识别系统进行优化训练,计算目标损失函数,直至目标损失函数收敛,得到优化后的语音识别系统。由此,在语音识别系统工作时,通过自我学习损失预测模块预测的损失值找出语音识别系统容易识别错的语音数据,作为优化语音识别系统的训练数据,实现了对训练数据的高效采集,再利用训练数据对语音识别系统进行优化训练,能够提升语音识别系统的识别广度,实现了语音识别系统的更新升级,从而提升了语音识别系统的识别准确率和可靠性。

请参照图7,图7为本申请实施例提供的一种语音识别系统优化装置的示意性框图。

如图7所示,该语音识别系统优化装置400,包括:预测模块401、确定模块402、建立模块403和优化模块404。

分词模块401,用于获取待识别语音,将所述待识别语音输入至语音识别系统进行分类识别,以通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值;

匹配模块402,用于当根据所述预测损失值确定所述预测标签类别不准确时,获取所述待识别语音对应的实际标签类别,将所述待识别语音及其对应的所述实际标签类别确定为训练数据;

第一确定模块403,用于统计训练数据,根据统计的训练数据建立训练集;

第二确定模块404,用于将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,直至所述目标损失函数收敛,得到优化后的语音识别系统。

需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述语音识别系统优化方法实施例中的对应过程,在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8,图8为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是个人计算机(personalcomputer,pc)、服务器等具有数据处理功能的设备。

如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种语音识别系统优化方法。

处理器用于提供计算和控制能力,支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种语音识别系统优化方法。

该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

应当理解的是,处理器可以是中央处理单元(centralprocessingunit,cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:

获取待识别语音,将所述待识别语音输入至语音识别系统进行分类识别,以通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值;当根据所述预测损失值确定所述预测标签类别不准确时,获取所述待识别语音对应的实际标签类别,将所述待识别语音及其对应的所述实际标签类别确定为训练数据;统计训练数据,根据统计的训练数据建立训练集;将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,直至所述目标损失函数收敛,得到优化后的语音识别系统。

在一些实施例中,所述处理器实现所述通过所述语音识别系统的标签预测模型预测得到所述待识别语音对应的预测标签类别,包括:

将所述待识别语音输入至所述语音识别系统的标签预测模型,对所述待识别语音进行特征提取得到所述待识别语音的特征,并补充所述待识别语音的特征对应的位置编码;

对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行解码,得到隐特征向量;

对所述隐特征向量进行线性变换,得到解码向量;

对所述解码向量进行softmax逻辑回归计算,得到所述语音识别系统的标签预测模型输出的所述待识别语音对应的预测标签类别。

在一些实施例中,所述处理器实现所述通过所述语音识别系统的主动学习损失预测模型预测得到所述标签预测模型的预测损失值,包括:

将所述隐特征向量输入至所述语音识别系统的主动学习损失预测模型,对所述隐特征向量进行全局池化,得到全局池化特征向量;

对所述全局池化特征向量进行全连接运算,得到全连接特征向量;

通过relu线性整流函数对所述全连接特征向量进行非线性映射,得到特征映射;

对所述特征映射进行全连接运算,得到所述语音识别系统的主动学习损失预测模型输出的预测损失值。

在一些实施例中,所述处理器实现所述将所述训练集输入至所述语音识别系统中对所述语音识别系统进行优化训练,计算目标损失函数,包括:

将所述训练集中的各个训练数据输入至所述语音识别系统,通过所述语音识别系统的标签预测模型预测得到所述训练数据中语音的预测标签类别,以及通过所述语音识别系统的主动学习损失预测模型预测得到针对所述训练数据中语音的预测损失值;

根据所述训练数据中语音对应的实际标签类别和预测标签类别,以及针对所述训练数据中语音的所述预测损失值,计算目标损失函数。

在一些实施例中,所述处理器实现所述根据所述训练数据中语音对应的实际标签类别和预测标签类别,以及针对所述训练数据中语音的所述预测损失值,计算目标损失函数,包括:

根据所述训练数据中语音对应的实际标签类别和预测标签类别,计算实际损失值;

计算所述实际损失值与针对所述训练数据中语音的所述预测损失值之间的损失;

根据计算的所述损失与所述实际损失值构造目标损失函数。

在一些实施例中,所述处理器实现所述对所述待识别语音进行特征提取得到所述待识别语音的特征,包括:

对所述待识别语音进行以帧为单位的预加强,并对预加强后的待识别语音进行快速傅里叶变换;

通过log梅尔谱滤波器对快速傅里叶变换后的待识别语音进行处理,得到滤波输出值;

依次对所述滤波输出值进行线性变换和层标准化,得到所述待识别语音的特征。

在一些实施例中,所述处理器实现所述对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行解码,得到隐特征向量,包括:

对所述待识别语音的特征和所述待识别语音的特征对应的位置编码进行多头注意力计算,得到多头注意力输出;

对所述多头注意力输出进行前馈计算,得到隐特征向量。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请语音识别系统优化方法的各个实施例。

其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文章

  • 日榜
  • 周榜
  • 月榜