农林渔牧食品/饮料服装/饰品纺织/造纸医疗/保健机械/机床家具/门窗喷涂/染料道路/铁路

摄影/光学乐器/声学照明/工业冶金/铸造安全/消防建筑/工具控制/调节计算,推算其他产品

模型训练方法、语音识别方法、装置、服务器及存储介质与流程

2021-08-13 19:22:00 来源：中国专利 TAG：模型方法装置构建器及

本申请涉及模型构建的技术领域，尤其涉及一种模型训练方法、语音识别方法、装置、服务器及存储介质。

背景技术：

随着新媒体行业的不断发展，语音数据的信道逐渐多样化，存在不同的带宽和编码格式，比如语音数据为8k或者16k采样率的录音数据，或者为ulaw，alaw，amr等编码格式。一些情况下，在语音数据的传输过程中，还会对语音数据进行压缩等处理。这些都给语音识别带来了困难和挑战。

目前的语音识别模型只能识别单一信道的语音数据，对于存在不同信道的语音数据的应用场景，需要训练多个分别与各信道的语音数据相匹配的语音识别模型，语音识别模型的鲁棒性较差，且因不同语音识别模型的训练数据无法共享，导致各个语音识别模型之间准确率相差较大，或者需要更多的训练数据，存在较大的弊端。

技术实现要素：

本申请的主要目的在于提供一种模型训练方法、语音识别方法、装置、服务器及存储介质，旨在提高语音识别模型的鲁棒性和扩展性，从而提高语音识别的灵活性和准确性。

第一方面，本申请提供一种模型训练方法，应用于服务器，所述服务器存储有特征提取模型和训练好的语音识别模型，所述方法包括：

获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；

将所述第一语音数据和第二语音数据输入所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；

根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；

根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；

若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；

将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；

微调所述融合模型，以获取目标语音识别模型。

第二方面，本申请还提供一种语音识别方法，包括：

获取待识别的目标语音数据；

将所述目标语音数据输入目标语音识别模型，得到所述目标语音数据对应的文本信息；

其中，所述目标语音识别模型是根据如上所述的模型训练方法进行训练得到的。

第三方面，本申请还提供一种模型训练装置，存储有特征提取模型和训练好的语音识别模型，所述模型训练装置包括：

获取模块，用于获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；

提取模块，用于将所述第一语音数据和第二语音数据输入至所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；

计算模块，用于根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；

确定模块，用于根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；

更新模块，用于若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；

融合模块，用于将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；

微调模块，用于微调所述融合模型，以获取目标语音识别模型。

第四方面，本申请还提供一种服务器，所述服务器存储有特征提取模型和训练好的语音识别模型，所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的模型训练方法或者语音识别方法的步骤。

第五方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的模型训练方法或者语音识别方法的步骤。

本申请提供一种模型训练方法、语音识别方法、装置、服务器及存储介质，本申请通过获取作为训练样本的语音数据，并对语音数据进行第一信号处理得到第一语音数据，对语音数据进行第二信号处理得到第二语音数据；将第一语音数据和第二语音数据输入特征提取模型，以提取第一语音数据的第一特征向量，以及第二语音数据的第二特征向量；根据第一特征向量和第二特征向量，计算第一语音数据与第二语音数据之间的互信息；根据第一语音数据与第二语音数据之间的互信息，确定特征提取模型是否收敛；若特征提取模型未收敛，则更新特征提取模型的模型参数，并通过训练样本继续训练更新模型参数后的特征提取模型，直至特征提取模型收敛；将收敛后的特征提取模型和训练好的语音识别模型进行融合，得到融合模型；微调融合模型，以获取目标语音识别模型。极大提高了目标语音识别模型的鲁棒性和扩展性，能够应用于不同应用场景，从而提高语音识别的灵活性和准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的步骤流程示意图；

图2为输出第一特征向量和第二特征向量的示意图；

图3为本申请实施例提供的一种语音识别方法的步骤流程示意图；

图4为本申请实施例提供的一种模型训练装置的示意性框图；

图5为本申请实施例提供的一种语音识别装置的示意性框图；

图6为本申请实施例提供的一种服务器的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种模型训练方法、语音识别方法、装置、服务器及存储介质。其中，该模型训练方法可应用于服务器中，该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。服务器存储有未训练的特征提取模型和训练好的语音识别模型。在一些实施例中，服务器存储有未训练的特征提取模型和未训练的语音识别模型，通过作为训练样本的多个语音数据对未训练的语音识别模型进行迭代训练，得到训练好的语音识别模型，本申请不做具体限定。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种模型训练方法的步骤流程示意图。

如图1所示，该模型训练方法包括步骤s101至步骤s107。

步骤s101、获取作为训练样本的语音数据，并对语音数据进行第一信号处理得到第一语音数据，对语音数据进行第二信号处理得到第二语音数据。

其中，语音数据为用户录制的语音，例如用户a通过录音设备录制3000条语音。第一信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，第一信号处理不等同于第二信号处理，第二信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，本申请不做具体限定。采样率包括8k、16k等，采样率调整包括调高或者降低语音数据的当前采样率；编码格式包括μlaw、alaw、amr等，编码格式调整包括调整语音数据的当前编码格式；压缩格式包括rar、zip等，压缩包括对语音数据的进行压缩处理，解压缩对语音数据的进行解压缩处理。

需要说明的是，生活中能经常接触到的语音存在着多种采样率以及多种编码格式，基于不同的传输过程还会对录音进行压缩或者其他处理，导致当前的语音识别模型不能很好地对语音数据进行识别，一些语音识别模型通过对训练数据进行降采样和升采样等操作，但并不能真正适用于上述复杂的真实情况。

需要说明的是，通过对语音数据进行第一信号处理，能够得到多种信道的第一语音数据，通过对语音数据进行第二信号处理，能够得到多种信道的第二语音数据，第一语音数据和第二语音数据作为训练数据，有助于提高目标语音识别模型的鲁棒性和扩展性，使得目标语音识别模型能够对不同信道的语音数据进行识别，可应用于不同场景。

步骤s102、将第一语音数据和第二语音数据输入特征提取模型，以提取第一语音数据的第一特征向量，以及第二语音数据的第二特征向量。

其中，特征提取模型例如为神经网络模型，用于提取第一语音数据和第二语音数据的语音特征，得到第一语音数据的第一特征向量以及第二语音数据的第二特征向量。值得注意的是，特征提取模型能够使用基于对比的自监督学习，通过遵循对比学习原则，使第一语音数据和第二语音数据进行编码构建表示。第一语音数据和第二语音数据基于相同的语音数据，表征的是不同的信道格式(不同采样率或编码格式等)，特征提取模型能够学习到更多信道格式的语音数据中的特征信息。

示例性的，如图2所示，特征提取模型包括第一特征提取器11和第二特征提取器12。将语音数据进行第一信号处理得到的第一语音数据输入至第一特征提取器11，得到第一语音数据的第一特征向量，将语音数据进行第二信号处理得到的第二语音数据输入至第二特征提取器12，得到第二语音数据的第二特征向量。

步骤s103、根据第一特征向量和第二特征向量，计算第一语音数据与第二语音数据之间的互信息。

通过预设的互信息计算公式，能够基于第一特征向量和第二特征向量得到第一语音数据与第二语音数据之间的互信息。第一语音数据与第二语音数据之间的互信息是两者之间的相关性的一种表示，互信息越高表示相关性越高，通过互信息能够用于调整特征提取模型的模型参数，使特征提取模型学习内容相关度高的语音特征。

其中，互信息计算公式为：x表示第一特征向量，y表示第二特征向量，p(x)表示第一特征向量的先验概率，p(y)表示第二特征向量的先验概率，p(x，y)表示收到y后推测发出x的后验概率。

在一实施例中，从第一特征向量中确定语音数据各帧对应的特征信息，得到多个第一帧特征信息；从第二特征向量中确定语音数据各帧对应的特征信息，得到多个第二帧特征信息；根据语音数据各帧各自对应的第一帧特征信息和第二帧特征信息，计算第一语音数据与第二语音数据之间的互信息。需要说明的是，语音数据包括多帧子数据，经过第一信号处理的第一语音数据包括多帧第一子数据，经过第二信号处理的第二语音数据包括多帧第二子数据。因此第一语音数据的第一特征向量中包括多帧第一帧特征信息，第二语音数据的第二特征向量中包括多帧第二帧特征信息，因而语音数据各帧的子数据对应至少一个第一帧特征信息和至少一个第二帧特征信息，根据语音数据各帧各自对应的第一帧特征信息和第二帧特征信息，套用预设的互信息计算公式，能够计算第一语音数据与第二语音数据之间的互信息，减小特征提取模型受信道的影响。

步骤s104、根据第一语音数据与第二语音数据之间的互信息，确定特征提取模型是否收敛。

在一实施例中，根据第一语音数据与第二语音数据之间的互信息，计算特征提取模型的损失值；若特征提取模型的损失值小于或等于预设损失值，则确定特征提取模型收敛；若特征提取模型的损失值大于预设损失值，则确定特征提取模型未收敛。需要说明的是，特征提取模型的损失值可根据互信息和表示互信息损失的第一权重计算得到，预设损失值可以根据实际情况进行设置，本实施例对此不做具体限定。通过互信息计算特征提取模型的损失值，能够准确地确定特征提取模型是否收敛。

其中，根据第一语音数据与第二语音数据之间的互信息，计算特征提取模型的损失值，包括：获取表示互信息损失的第一权重，并获取表示分类损失的第二权重；通过第一语音数据与第二语音数据之间的互信息与第一权重，确定特征提取模型的第一损失值；确定第一语音数据与第二语音数据的概率分布信息，并根据概率分布信息与第二权重，确定特征提取模型的第二损失值；将第一损失值与第二损失值相加，得到特征提取模型的损失值。其中，分类损失可采用二分类交叉熵方式计算得到。

示例性的，若λ表示互信息损失的权重，γ表示分类损失的权重，lglobal为第一语音数据与第二语音数据之间的互信息，llabel为第一语音数据与第二语音数据的概率分布信息。则第一损失值为λ·lglobal，第二损失值为γ·llabel，特征提取模型的损失值为l总＝λ·lglobal γ·llabel。

步骤s105、若特征提取模型未收敛，则更新特征提取模型的模型参数，并通过训练样本继续训练更新模型参数后的特征提取模型，直至特征提取模型收敛。

若特征提取模型未收敛，表明特征提取模型学习的第一语音数据和第二语音数据的内容相关度较低，容易受到不同信道的语音数据的影响。因此可根据特征提取模型的损失值更新特征提取模型的模型参数，并通过训练样本继续训练更新模型参数后的特征提取模型，即返回执行获取作为训练样本的语音数据的步骤并执行该步骤的后续步骤，以通过第一语音数据和第二语音数据对特征提取模型进行训练，直至特征提取模型收敛。

需要说明的是，若特征提取模型未收敛，继续对特征提取模型进行训练，可以最大化第一语音数据与第二语音数据之间的互信息，提高第一语音数据与第二语音数据的高维分布的相似性，从而实现比只使用逐帧的交叉熵损失的情况下获取更高的一致性，以提高语音识别模型的鲁棒性和扩展性。

在一实施例中，若特征提取模型收敛，则无需继续对特征提取模型进行训练，无需更新特征提取模型的模型参数，得到收敛后的特征提取模型。

步骤s106、将收敛后的特征提取模型和训练好的语音识别模型进行融合，得到融合模型。

特征提取模型用于提取第一语音数据和第二语音数据的语音特征，可包括第一特征提取器和第二特征提取器。训练好的语音识别模型可以是基于多个语音数据训练得到的，并预置于服务器，训练好的语音识别模型能够对语音数据进行语音识别，从而获取语音数据对应的文本信息。通过将收敛后的特征提取模型和训练好的语音识别模型进行融合，得到的融合模型的鲁棒性更高、扩展性更强。

在一实施例中，训练好的语音识别模型包括特征提取层和特征识别层，特征提取层用于提取语音数据的语音特征，特征识别层用于将提取的语音特征识别为对应的文本信息。将收敛后的特征提取模型和训练好的语音识别模型进行融合，得到融合模型包括：将收敛后的特征提取模型替代语音识别模型的特征提取层，得到融合模型；或者，将收敛后的特征提取模型连接语音识别模型的特征识别层，使得语音数据能够通过收敛后的特征提取模型输入至语音识别模型的特征识别层，完成语音识别。极大提高了融合模型的鲁棒性和扩展性，并提高语音识别的灵活性和准确性。

在一实施例中，训练好的语音识别模型包括特征识别层，特征识别层用于将提取的语音特征识别为对应的文本信息。将收敛后的特征提取模型连接语音识别模型的特征识别层，使得语音数据能够通过收敛后的特征提取模型输入至特征识别层，能够极大提高融合模型的鲁棒性和扩展性，并提高语音识别的灵活性和准确性。

步骤s107、微调融合模型，以获取目标语音识别模型。

得到融合模型之后，对融合模型进行微调，以优化融合模型的模型参数，得到目标语音识别模型，目标语音识别模型的鲁棒性更好，有利于提高目标语音识别模型进行语音识别的准确性。

在一实施例中，融合模型包括特征提取子模型和语音识别子模型；交替的对特征提取子模型或者语音识别子模型进行微调，直至特征提取子模型和语音识别子模型收敛，得到目标语音识别模型。需要说明的是，交替的对特征提取子模型或者语音识别子模型进行微调，即固定特征提取子模型和语音识别子模型中的一个模型的模型参数，微调另一个模型，然后进行交替。能达到在尽量少的对模型结构的改动下，减小不同信道的语音数据之间的信道差异，提高目标语音识别模型的扩展性和鲁棒性。

例如，先固定语音识别子模型的模型参数，并微调特征提取子模型的模型参数；再固定特征提取子模型的模型参数，并微调语音识别子模型的模型参数；再重复固定语音识别子模型的模型参数，并微调特征提取子模型的模型参数的步骤，如此反复交替的微调，直至微调后的特征提取子模型和微调后的语音识别子模型收敛，得到目标语音识别模型。

在一实施例中，确定待调整的目标模型，目标模型包括特征提取子模型和语音识别子模型；根据目标模型，交替的对特征提取子模型或者语音识别子模型进行微调，直至特征提取子模型和语音识别子模型收敛，得到目标语音识别模型。需要说明的是，对特征提取子模型或者语音识别子模型进行微调，即包括通过第一语音数据和第二语音数据对特征提取子模型或者语音识别子模型进行训练，并更新特征提取子模型或者语音识别子模型的模型参数，本实施例极大提高目标语音识别模型的扩展性和鲁棒性。

示例性的，若目标模型为特征提取子模型，则固定语音识别子模型的模型参数，微调特征提取子模型的模型参数，并确定特征提取子模型和语音识别子模型是否收敛；若特征提取子模型和语音识别子模型未收敛，则固定特征提取子模型的模型参数，微调语音识别子模型的模型参数，并确定特征提取子模型和语音识别子模型是否收敛；若特征提取子模型和语音识别子模型未收敛，则执行固定语音识别子模型的模型参数，微调特征提取子模型的模型参数的步骤，直至特征提取子模型和语音识别子模型收敛，得到目标语音识别模型。若目标模型为语音识别子模型，则执行上述固定特征提取子模型的模型参数，微调语音识别子模型的模型参数的步骤。

上述实施例提供的模型训练方法，通过获取作为训练样本的语音数据，并对语音数据进行第一信号处理得到第一语音数据，对语音数据进行第二信号处理得到第二语音数据；将第一语音数据和第二语音数据输入特征提取模型，以提取第一语音数据的第一特征向量，以及第二语音数据的第二特征向量；根据第一特征向量和第二特征向量，计算第一语音数据与第二语音数据之间的互信息；根据第一语音数据与第二语音数据之间的互信息，确定特征提取模型是否收敛；若特征提取模型未收敛，则更新特征提取模型的模型参数，并通过训练样本继续训练更新模型参数后的特征提取模型，直至特征提取模型收敛；将收敛后的特征提取模型和训练好的语音识别模型进行融合，得到融合模型；微调融合模型，以获取目标语音识别模型。极大提高了目标语音识别模型的鲁棒性和扩展性，能够应用于不同应用场景，从而提高语音识别的灵活性和准确性。

请参照图3，图3为本申请实施例提供的一种语音识别方法的步骤流程示意图。

如图3所示，该语音识别方法包括步骤s201至s202。

步骤s201、获取待识别的目标语音数据。

目标语音数据包括用户通过录音设备录制的语音数据，例如用户通过手机录制的录音数据，用户通过手机发出语音识别指令，以使服务器获取该录制的录音数据，并通过目标语音识别模型对该录音数据进行语音识别。

在一实施例中，获取待识别的目标语音数据，包括：获取待识别的语音数据，对目标语音数据进行信号处理，得到目标语音数据。信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，本申请不做具体限定。

步骤s202、将目标语音数据输入目标语音识别模型，得到目标语音数据对应的文本信息。

将目标语音数据输入目标语音识别模型，可以便捷且准确地得到目标语音数据对应的文本信息。其中，目标语音识别模型是根据如前述实施例的模型训练方法进行训练得到的。语音识别的灵活性和准确性更高。

在一实施例中，融合模型包括特征提取子模型和语音识别子模型；将目标语音数据输入特征提取子模型，得到语音特征向量；将语音特征向量输入语音识别子模型，得到目标语音数据对应的文本信息。通过特征提取子模型和语音识别子模型，文本信息的输出结果更加准确。

上述实施例提供的模型训练方法，通过获取待识别的目标语音数据，将目标语音数据输入目标语音识别模型，得到目标语音数据对应的文本信息，其中，目标语音识别模型是根据如前述实施例的模型训练方法进行训练得到的，能够应用于不同的应用场景，对多信道的语音数据进行语音识别，语音识别的灵活性和准确性更高。

请参照图4，图4为本申请实施例提供的一种模型训练装置的示意性框图，模型训练装置存储有特征提取模型和训练好的语音识别模型。

如图4所示，该模型训练装置300，包括：获取模块301、提取模块302、计算模块303、确定模块304、更新模块305、融合模块306和微调模块307。

获取模块301，用于获取作为训练样本的语音数据，并对语音数据进行第一信号处理得到第一语音数据，对语音数据进行第二信号处理得到第二语音数据；

提取模块302，用于将所述第一语音数据和第二语音数据输入至所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；

计算模块303，用于根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；

确定模块304，用于根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；

更新模块305，用于若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；

融合模块306，用于将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；

微调模块307，用于微调所述融合模型，以获取目标语音识别模型。

在一个实施例中，所述第一信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第二信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第一信号处理不等同于所述第二信号处理。

在一个实施例中，计算模块303还用于：

从所述第一特征向量中确定所述语音数据各帧对应的特征信息，得到多个第一帧特征信息；

从所述第二特征向量中确定所述语音数据各帧对应的特征信息，得到多个第二帧特征信息；

根据所述语音数据各帧各自对应的所述第一帧特征信息和所述第二帧特征信息，计算所述第一语音数据与第二语音数据之间的互信息。

在一个实施例中，确定模块304还用于：

根据所述第一语音数据与第二语音数据之间的互信息，计算所述特征提取模型的损失值；

若所述特征提取模型的损失值小于或等于预设损失值，则确定所述特征提取模型收敛；

若所述特征提取模型的损失值大于预设损失值，则确定所述特征提取模型未收敛。

在一个实施例中，确定模块304还用于：

获取表示互信息损失的第一权重，并获取表示分类损失的第二权重；

通过所述第一语音数据与第二语音数据之间的互信息与所述第一权重，确定所述特征提取模型的第一损失值；

确定所述第一语音数据与第二语音数据的概率分布信息，并根据所述概率分布信息与所述第二权重，确定所述特征提取模型的第二损失值；

将所述第一损失值与所述第二损失值相加，得到所述特征提取模型的损失值。

在一个实施例中，所述融合模型包括特征提取子模型和语音识别子模型；微调模块307还用于：

交替的对所述特征提取子模型或者所述语音识别子模型进行微调，直至所述特征提取子模型和语音识别子模型收敛，得到目标语音识别模型。

请参照图5，图5为本申请实施例提供的一种语音识别装置的示意性框图。

如图5所示，该语音识别装置400，包括：

获取模块401，用于获取待识别的目标语音数据；

输入模块402，用于将所述目标语音数据输入目标语音识别模型，得到所述目标语音数据对应的文本信息。

其中，所述目标语音识别模型是根据如上述实施例所述的模型训练方法进行训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述模型训练方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图6所示的服务器上运行。

请参阅图6，图6为本申请实施例提供的一种服务器的结构示意性框图。该服务器可以存储有特征提取模型和训练好的语音识别模型。

如图6所示，该服务器包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种模型训练方法或者语音识别方法。

处理器用于提供计算和控制能力，支撑整个服务器的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种模型训练方法或者语音识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(centralprocessingunit，cpu)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field-programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取作为训练样本的语音数据，并对所述语音数据进行第一信号处理得到第一语音数据，对所述语音数据进行第二信号处理得到第二语音数据；

将所述第一语音数据和第二语音数据输入所述特征提取模型，以提取所述第一语音数据的第一特征向量，以及所述第二语音数据的第二特征向量；

根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息；

根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛；

若所述特征提取模型未收敛，则更新所述特征提取模型的模型参数，并通过所述训练样本继续训练更新模型参数后的所述特征提取模型，直至所述特征提取模型收敛；

将收敛后的所述特征提取模型和训练好的所述语音识别模型进行融合，得到融合模型；

微调所述融合模型，以获取目标语音识别模型。

在一个实施例中，所述第一信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第二信号处理包括采样率调整、编码格式调整、压缩和/或解压缩，所述第一信号处理不等同于所述第二信号处理。

在一个实施例中，所述处理器在实现所述根据所述第一特征向量和所述第二特征向量，计算所述第一语音数据与第二语音数据之间的互信息时，用于实现：

从所述第一特征向量中确定所述语音数据各帧对应的特征信息，得到多个第一帧特征信息；

从所述第二特征向量中确定所述语音数据各帧对应的特征信息，得到多个第二帧特征信息；

根据所述语音数据各帧各自对应的所述第一帧特征信息和所述第二帧特征信息，计算所述第一语音数据与第二语音数据之间的互信息。

在一个实施例中，所述处理器在实现所述根据所述第一语音数据与第二语音数据之间的互信息，确定所述特征提取模型是否收敛时，用于实现：

根据所述第一语音数据与第二语音数据之间的互信息，计算所述特征提取模型的损失值；

若所述特征提取模型的损失值小于或等于预设损失值，则确定所述特征提取模型收敛；

若所述特征提取模型的损失值大于预设损失值，则确定所述特征提取模型未收敛。

在一个实施例中，所述处理器在实现所述根据所述第一语音数据与第二语音数据之间的互信息，计算所述特征提取模型的损失值时，用于实现：

获取表示互信息损失的第一权重，并获取表示分类损失的第二权重；

通过所述第一语音数据与第二语音数据之间的互信息与所述第一权重，确定所述特征提取模型的第一损失值；

确定所述第一语音数据与第二语音数据的概率分布信息，并根据所述概率分布信息与所述第二权重，确定所述特征提取模型的第二损失值；

将所述第一损失值与所述第二损失值相加，得到所述特征提取模型的损失值。

在一个实施例中，所述融合模型包括特征提取子模型和语音识别子模型；所述处理器在实现所述微调所述融合模型，以获取目标语音识别模型时，用于实现：

交替的对所述特征提取子模型或者所述语音识别子模型进行微调，直至所述特征提取子模型和语音识别子模型收敛，得到目标语音识别模型。

在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待识别的目标语音数据；

将所述目标语音数据输入目标语音识别模型，得到所述目标语音数据对应的文本信息；

其中，所述目标语音识别模型是根据如上述实施例所述的模型训练方法进行训练得到的。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述服务器的具体工作过程，可以参考前述模型训练方法或者语音识别方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请模型训练方法或者语音识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的服务器的内部存储单元，例如所述服务器的硬盘或内存。所述计算机可读存储介质也可以是所述服务器的外部存储设备，例如所述服务器上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种用于环保工程设备的降噪装置的制作方法

模型训练方法、语音识别方法、装置、服务器及存储介质与流程

相关文章

最热文献