发音检错方法及装置、发音检错模型的训练方法及装置与流程

2022-04-20 22:02:09 来源：中国专利 TAG：

本发明涉及发音检错技术领域，具体涉及一种发音检错方法及装置、发音检错模型的训练方法及装置。

背景技术

随着计算机技术和语音识别技术的发展，计算机辅助发音学习(ComputerAssisted Pronunciation Training，CAPT)成为智能语音技术领域的一个研究热点。CAPT系统可以实现对学习者发音水平的自动评估，并对发音错误进行反馈和指导。

发音检错即检测出用户发音过程中的错误，是CAPT系统中的重要环节。然而，现有的发音检错方法大多依赖语音片段的强制对齐，对强制对齐技术的精度要求比较高，强制对齐技术引入的误差会对后续步骤的效果产生较大的影响，从而导致发音检错的准确率大幅度下降。

技术实现要素：

有鉴于此，本发明实施例提供了一种发音检错方法及装置、发音检错模型的训练方法及装置，能够提高发音检错的准确率。

根据本发明实施例的第一方面，提供一种发音检错方法，包括：获取待检错语音信号及其对应的朗读文本；提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；获取至少一对混淆音素对的声学特征；利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错。

在本发明的一个实施例中，上述获取至少一对混淆音素对的声学特征，包括：获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素；根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵；将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

在本发明的一个实施例中，上述根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵，包括：对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段；分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量；对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

在本发明的一个实施例中，上述发音检错方法还包括：判断朗读文本中是否包含混淆音素；当朗读文本中包含混淆音素时，根据发音检错模型和混淆音素对应的音素分类模型的输出结果进行发音检错。

根据本发明实施例的第二方面，提供一种发音检错模型的训练方法，包括：获取训练样本，其中，训练样本包括语音信号样本及其对应的文本样本，其中语音信号样本包括朗读者对文本样本进行朗读而形成的语音信息；提取语音样本的声学特征，并将文本样本转化为音素序列；获取至少一对混淆音素对的声学特征；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练。

在本发明的一个实施例中，上述获取至少一对混淆音素对的声学特征，包括：获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素；根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵；将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

在本发明的一个实施例中，上述根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵，包括：对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段；分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量；对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

在本发明的一个实施例中，在基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练之前，上述发音检错模型的训练方法还包括：利用掩码替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过掩码替换后的音素序列，对发音检错模型进行语音识别训练，其中，发音检错模型识别并输出被替换位置对应的音素。

在本发明的一个实施例中，上述发音检错模型的训练方法还包括：构建至少一对混淆音素对对应的至少一个音素分类模型，以便于当文本样本和/或语音信号样本中包含混淆音素时，根据发音检错模型和音素分类模型的输出结果进行发音检错，其中，每对混淆音素对对应一个音素分类模型，每对混淆音素对包括第一音素和第二音素，音素分类模型用于输出混淆音素属于第一音素或第二音素的概率。

在本发明的一个实施例中，上述构建至少一对混淆音素对对应的至少一个音素分类模型，包括：对语音样本进行切分，获取至少一对混淆音素对中每对混淆音素对对应的多个语音片段；获取第一音素对应的多个语音片段中每个语音片段的向量，并获取第二音素对应的多个语音片段中每个语音片段的向量；根据第一音素对应的多个语音片段的向量和第二音素对应的多个语音片段的向量，训练第一音素与第二音素对应的音素分类模型。

根据本发明实施例的第三方面，提供一种发音检错装置，包括：第一获取模块，用于获取待检错语音信号及其对应的朗读文本；提取模块，用于提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；第二获取模块，用于获取至少一对混淆音素对的声学特征；检错模块，用于利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错。

根据本发明实施例的第四方面，提供一种发音检错模型的训练装置，包括：第一获取模块，用于获取训练样本，其中，训练样本包括语音信号样本及其对应的文本样本，其中语音信号样本包括朗读者对文本样本进行朗读而形成的语音信息；提取模块，用于提取语音样本的声学特征，并将文本样本转化为音素序列；第二获取模块，用于获取至少一对混淆音素对的声学特征；训练模块，用于基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练。

根据本发明实施例的第五方面，提供一种计算机可读存储介质，其上存储有计算机可执行指令，其特征在于，所述可执行指令被处理器执行时实现如上述任一所述的方法。

根据本发明实施例的第六方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于执行上述任一所述的方法。

根据本发明实施例提供的技术方案，通过获取待检错语音信号及其对应的朗读文本；提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；获取至少一对混淆音素对的声学特征；利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错，能够消除发音检错方法中强制对齐技术带来的误差，并提高对易混淆音素的区分性，从而提高发音检错的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明一实施例提供的发音检错方法的流程示意图。

图2所示为本发明一实施例提供的发音检错模型的训练方法的训练方式示意图。

图3所示为本发明一实施例提供的获取至少一对混淆音素对的声学特征的流程示意图。

图4所示为本发明一实施例提供的发音检错模型的训练方法的流程示意图。

图5所示为本发明另一实施例提供的发音检错模型的训练方法的流程示意图。

图6所示为本发明一实施例提供的语音识别训练的训练方式示意图。

图7所示为本发明一实施例提供的基于语音样本的声学特征和经过错误音素替换后的音素序列对发音检错模型进行检错训练的训练方式示意图。

图8所示为本发明一实施例提供的基于经过发音错误等级标注的语音样本的声学特征和音素序列，对发音检错模型进行检错训练的训练方式示意图。

图9所示为本发明一实施例提供的构建至少一对混淆音素对对应的至少一个音素分类模型的流程示意图。

图10所示为本发明一实施例提供的发音检错装置的框图。

图11所示为本发明一实施例提供的发音检错模型的训练装置的框图。

图12所示为本发明一实施例提供的电子设备的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的发音检错方法大多依赖语音片段的强制对齐。输入朗读文本和语音，利用强制对齐得到每个音素对应的语音片段，构建语音片段的表示向量，通过该向量预测检错结果。然而，当在连续语流中进行音素级别的检错时，由于音素发音时间很短，对强制对齐技术的精度要求比较高，强制对齐技术引入的误差会对后续步骤的效果产生较大的影响，从而导致发音检错的准确率大幅度下降。另外，现有发音检错方法对易混淆音的检错准确率较低。

针对上述问题，本发明实施例提供了一种发音检错方法及装置、发音检错模型的训练方法及装置，通过基于语音样本的整体声学特征训练发音检错模型，能够消除强制对齐技术带来的误差；另外，通过构建至少一对混淆音素对的声学特征，能够提高发音检错模型对易混淆音的区分性，从而提高发音检错的准确率。

图1所示为本发明一实施例提供的发音检错方法的流程示意图。该方法可以由计算机设备(例如，服务器)执行。如图1所示，该方法包括如下内容。

S110：获取待检错语音信号及其对应的朗读文本。

上述待检错语音信号可以是不同性别、不同年龄、不同方言的人对朗读文本的内容进行朗读而形成的语音信号。

具体地，本发明的实施例可以应用于口语检错场景下。给定朗读文本，对测试者的朗读语音进行音素级别的检错，例如，在中文情况下，分别检测每个字的声母、韵母、音调朗读是否正确，再如，在英文情况下，分别检测每个单词的元音、辅音、重音是否正确。

S120：提取待检错语音信号的声学特征，并将朗读文本转化为音素序列。

具体地，可以对待检错语音信号进行声学特征参数提取，例如，滤波器组(filter bank)特征参数提取或MFCC特征参数提取，得到其对应的声学特征。应当理解，上述描述仅为示例性描述，本发明对待检错语音信号的声学特征的提取方式不做具体限定。

具体地，可以针对不同语言的特点将朗读文本转化为音素序列，还可以进一步标出每个音素的起止时间等信息。音素(phone)，是语音中的最小的单位。可以依据单词的音节里的发音动作来分析，一个动作构成一个音素。例如，在中文中，有32个音素，音素可以分为声母、韵母。例如，针对中文朗读文本，其对应的音素序列可以由每个字的声母、韵母依次组成。以中文朗读文本为“发音检错”为例，其对应的音素序列可以为“f、a、y、in、j、ian、c、uo”。应当理解，其对应的音素序列还可以为“f、a、y、i、n、j、i、a、n、c、u、o”，本发明对音素序列的形式不做具体限定。

需要说明的是，本发明实施例提供的发音检错方法适用于不同语种。例如，针对英文，有48个音素，音素可以分为元音、辅音两大类。本发明实施例中的音素序列可以为各个音标组成的序列。应当理解，本发明实施例以应用在中文中作为示例进行说明，本发明实施例对待检错语音信号及朗读文本的语种不作具体限定。

S130：获取至少一对混淆音素对的声学特征。

例如，在汉语中，部分音素发音相近或在部分方言发音中混淆程度较高，容易对发音检错造成一定的困难，如前后鼻音的in/ing、en/eng等，舌尖中音的l/n、d/t等，平翘舌音的z/zh、s/sh、c/ch等。

S140：利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错。

具体地，可以将待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列输入发音检错模型。发音检错模型基于声学特征和音素序列，判断该待检错语音信号的发音是否与朗读文本相匹配，即待检错语音信号的发音是否正确。

在本发明的一个实施例中，如图2所示，发音检错模型可以为编码器-解码器(Encoder-Decoder)模型。待检错语音信号的声学特征和至少一对混淆音素对的声学特征融合后的声学特征作为编码器的输入，音素序列作为解码器的输入，发音检错模型的解码器输出关于每个音素是否发音错误的检错结果。

例如，可以将上述所有混淆音素对的针对性声学特征与待检错语音信号的声学特征进行拼接，作为发音检错模型中编码器输入的声学特征。例如，待检错语音信号的声学特征为10维，针对in/ing混淆音素对的声学特征为10维；针对en/eng混淆音素对的声学特征为10维；针对l/n混淆音素对的声学特征为10维等，可以将12对混淆音素对的针对性声学特征与待检错语音信号的声学特征进行拼接，得到130维的声学特征，作为发音检错模型中编码器的输入特征。

根据本发明实施例提供的技术方案，通过获取待检错语音信号及其对应的朗读文本；提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；获取至少一对混淆音素对的声学特征；利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错，能够消除发音检错方法中强制对齐技术带来的误差，并提高对易混淆音素的区分性，从而提高发音检错的准确率。

在本发明的另一实施例中，除了将朗读文本转化为音素序列，还可以获取朗读文本的声调序列。也就是说，上述步骤S120可以包括：将朗读文本转化为音素序列和声调序列。以中文朗读文本为“发音检错”为例，其对应的声调序列是“1、1、3、4”。需要说明的是，为了使声调序列和音素序列“f、a、y、in、j、ian、c、uo”长度一致，可以在声调序列每个元素之前添加一个空符号，即变为“空、1、空、1、空、3、空、4”。

在该实施例中，上述步骤S140具体可以包括：利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征以及音素序列和声调序列进行发音检错。

具体地，待检错语音信号的声学特征和至少一对混淆音素对的声学特征融合后的声学特征作为编码器的输入，音素序列和声调序列作为解码器的输入，发音检错模型的解码器输出关于每个音素是否发音错误的检错结果。

根据本发明实施例提供的技术方案，通过利用发音检错模型，基于语音样本的声学特征、至少一对混淆音素对的声学特征以及音素序列和声调序列进行检错训练，能够进行声调检错，从而进一步提高发音检错的准确率。

为了能够提升发音检错模型对易混淆音素的区分性，在本发明实施例中，可以针对上述每一对混淆音素对构建一组声学特征。具体地，如图3所示，上述步骤S130可以包括：

S131：获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素。

具体地，可以将大规模语音识别数据作为发音检错任务的语音样本。

S132：根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵。

具体地，可以对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段；分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量；对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

本发明实施例以in/ing混淆音素对为例。

具体地，可以将大规模语音识别数据作为发音检错任务的语音样本，利用强制对齐技术获取语言样本中所有第一音素(in)和第二音素(ing)对应的语音片段。

首先，可以对in对应的所有语音片段提取滤波器组(filter bank)特征，并对该滤波器组特征进行kmeans聚类，得到N个类中心向量

同样地，对ing对应的所有语音片段提取filter bank特征，并对该滤波器组特征进行kmeans聚类，得到N个类中心向量

其次，可以对和共计2N个类中心向量利用主成分分析(Principal Component Analysis，PCA)法进行降维得到其协方差矩阵W。

应当理解，还可以采用其他聚类方式对滤波器组特征进行聚类，本发明对聚类方式不做具体限定。另外，还可以采用其他方式对上述2N个类中心向量进行降维，本发明对降维方式也不做具体限定。

S133：将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

具体地，可以语音样本的声学特征分别乘以每对混淆音素对对应的协方差矩阵，获得每对混淆音素对的声学特征。

例如，提取所有语音样本的filter bank特征，并将所有语音样本的filter bank特征都乘以上述协方差矩阵W，从而得到针对in/ing混淆音素对的声学特征。

需要说明的是，按照上述方法可以依次构建针对en/eng、l/n、d/t、z/zh、s/sh、c/ch等每对混淆音素对的声学特征。

需要说明的是，上述至少一对混淆音素对的声学特征可以是提前构建好的(例如，训练发音检错模型时采用的至少一对混淆音素对的声学特征)，在发音检错过程中，直接将其与待检错语音信号的声学特征进行拼接，作为编码器的输入即可。

另外，应当理解，上述描述仅为示例性描述，本发明对至少一对混淆音素对的声学特征的获取方式不做具体限定。

在本发明的一个实施例中，上述发音检错方法还包括：判断朗读文本中是否包含混淆音素；当朗读文本中包含混淆音素时，根据发音检错模型和混淆音素对应的音素分类模型的输出结果进行发音检错。

需要说明的是，音素分类模型可以通过以下方法训练得到：对语音样本进行切分，获取至少一对混淆音素对对应的多个语音片段，其中，每类混淆音素对包括第一音素和第二音素；获取第一音素对应的多个语音片段中每个语音片段的向量，并获取第二音素对应的多个语音片段中每个语音片段的向量；根据第一音素对应的多个语音片段的向量和第二音素对应的多个语音片段的向量，训练第一音素与第二音素对应的音素分类模型，其中，音素分类模型用于输出混淆音素属于第一音素或第二音素的概率。

本发明实施例以in/ing混淆音素对为例对训练音素分类模型进行说明。

具体地，首先可以对语音样本进行强制对齐，获取所有in和ing音素对应的孤立语音片段。

针对每个in或ing对应的语音片段，可以提取该语音片段的filter bank特征，并经过训练好的发音检错模型的编码器进行前向运算，获得一组输出向量，对该组输出向量进行平均，从而得到该语音片段对应的向量表示。

将所有in的语音片段对应的向量表示记为所有ing的语音片段对应的向量表示记为其中Nin和Ning分别表示语料库中in和ing出现的次数。然后根据和训练音素分类模型。

在本发明一实施例中，可以根据和通过支持向量机(SVM)算法训练音素二分类模型，记为SVMin/ing。针对每类混淆音素对，重复上述步骤，可以得到多个SVM分类模型，例如SVMz/zh，SVMc/ch，SVMs/sh等。应当理解，上述音素分类模型还可以为CNN等神经网络模型，本发明对训练音素分类模型的具体方法不做具体限定。

在本发明实施例中，当朗读文本中不包含混淆音素时，可以直接根据训练好的发音检错模型的解码器的输出结果进行检错。

当朗读文本中包含混淆音素时，可以将发音检错模型与音素分类模型的结果进行融合，即，根据发音检错模型和音素分类模型的输出结果进行发音检错。

以音素in为例，首先根据训练好的发音检错模型的解码器的输出结果得到该位置读错的概率ped-error，然后找到音素分类模型中对应的SVM模型SVMin/ing，从中获取SVM预测结果为ing的概率，也即SVM模型认为该位置读错的概率psvm-error，最终的预测结果可以为两个模型的输出结果的平均，即perror＝(ped-error psvm-error)/2。

应当理解，上述将发音检错模型与音素分类模型的结果进行融合，除了求两个模型的输出结果的平均，还可以是两个模型的输出结果的加权相加，本发明对此并不做具体限定。

根据本发明实施例提供的技术方案，通过当朗读文本中包含混淆音素时，利用音素分类模型对强制对齐得到的孤立语音片段进行混淆音素的分类，将发音检错模型和音素分类模型的输出结果融合来进行发音检错，能够提高发音检错模型对混淆音素的检错效果；另外，当朗读文本中不包含混淆音素时，根据发音检错模型的输出结果来进行发音检错，本发明实施例提供的技术方案能够保证对混淆音素和非混淆音素均具有较好的检错效果。

图4所示为本发明一实施例提供的发音检错模型的训练方法的流程示意图。该方法可以由计算机设备(例如，服务器)执行。如图4所示，该方法包括如下内容。

S410：获取训练样本，其中，训练样本包括语音信号样本及其对应的文本样本，其中语音信号样本包括朗读者对文本样本进行朗读而形成的语音信息。

具体地，该语音信号样本可以是不同性别、不同年龄、不同方言的人对相同或不同文本的内容进行朗读而形成的语音识别语料，其中，文本样本可以理解成是对语音信号样本的标注，每个语音信号样本可以对应一个文本样本，一个文本样本可以对应多个语音信号样本。

S420：提取语音信号样本的声学特征，并将文本样本转化为音素序列。

具体地，可以对语音信号样本进行声学特征参数提取，例如，滤波器组(filter bank)特征参数提取或MFCC特征参数提取，得到其对应的声学特征。应当理解，上述描述仅为示例性描述，本发明对语音信号样本的声学特征的提取方式不做具体限定。

具体地，可以针对不同语言的特点将文本样本转化为音素序列，还可以标出每个音素的起止时间等信息。音素(phone)，是语音中的最小的单位。可以依据单词的音节里的发音动作来分析，一个动作构成一个音素。例如，在中文中，有32个音素，音素可以分为声母、韵母。例如，针对中文文本样本，其对应的音素序列可以由每个字的声母、韵母依次组成。以中文文本样本为“发音检错”为例，其对应的音素序列可以为“f、a、y、in、j、ian、c、uo”。应当理解，其对应的音素序列还可以为“f、a、y、i、n、j、i、a、n、c、u、o”，本发明对音素序列的形式不做具体限定。

需要说明的是，本发明实施例提供的发音检错模型的训练方法适用于不同语种。例如，针对英文，有48个音素，音素可以分为元音、辅音两大类。本发明实施例中的音素序列可以为各个音标组成的序列。应当理解，本发明实施例以应用在中文中作为示例进行说明，本发明实施例对语音信号样本和文本样本的语种不作具体限定。

S430：获取至少一对混淆音素对的声学特征。

例如，在汉语中，部分音素发音相近或在部分方言发音中混淆程度较高，容易对发音检错造成一定的困难，如前后鼻音的in/ing、en/eng等，舌尖中音的l/n、d/t等，平翘舌音的z/zh、s/sh、c/ch等。

S440：基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练。

具体地，可以将语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列作为发音检错模型的输入，对发音检错模型进行训练。发音检错模型基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和文本样本对应的音素序列，判断该语音信号样本的发音是否与文本样本相匹配，即语音信号样本的发音是否正确。

在本发明的一个实施例中，发音检错模型可以为编码器-解码器(Encoder-Decoder)模型。语音信号样本的声学特征和至少一对混淆音素对的声学特征混合后的声学特征作为编码器的输入，音素序列作为解码器的输入，发音检错模型的解码器输出关于每个音素是否发音错误的检错结果。

例如，可以将上述所有混淆音素对的针对性声学特征与语音信号样本的声学特征进行拼接，作为发音检错模型中编码器输入的声学特征。例如，语音信号样本的声学特征为10维，针对in/ing混淆音素对的声学特征为10维；针对en/eng混淆音素对的声学特征为10维；针对l/n混淆音素对的声学特征为10维等，可以将12对混淆音素对的针对性声学特征与语音信号样本的声学特征进行拼接，得到130维的声学特征，作为发音检错模型中编码器的输入特征，将音素序列作为解码器的输入特征对发音检错模型进行训练。

需要说明的是，本发明实施例中的解码器采用非自回归式的双向结构，以增强模型的建模能力。为便于描述，本发明实施例及后续实施例均以发音检错模型为编码器-解码器模型进行说明，应当理解，本发明对此不做具体限定。

根据本发明实施例提供的技术方案，通过利用语音信号样本的整体声学特征对发音检错模型进行检错训练，能够消除强制对齐技术带来的误差；另外，通过构造针对至少一对混淆音素对的声学特征；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练，能够提升发音检错模型对易混淆音的区分性，从而提高发音检错模型对易混淆音素检错的准确率。

在本发明的另一实施例中，除了将文本样本转化为音素序列，还可以获取文本样本的声调序列。也就是说，上述步骤S420可以包括：将文本样本转化为音素序列和声调序列。以中文文本样本为“发音检错”为例，其对应的声调序列是“1、1、3、4”。需要说明的是，为了使声调序列和音素序列“f、a、y、in、j、ian、c、uo”长度一致，可以在声调序列每个元素之前添加一个空符号，即变为“空、1、空、1、空、3、空、4”。

在该实施例中，上述步骤S430具体可以包括：基于语音信号样本的声学特征、至少一对混淆音素对的声学特征以及音素序列和声调序列，对发音检错模型进行检错训练。

具体地，语音信号样本的声学特征和至少一对混淆音素对的声学特征融合后的声学特征作为编码器的输入，音素序列和声调序列作为解码器的输入，发音检错模型的解码器输出关于每个音素是否发音错误的检错结果。

根据本发明实施例提供的技术方案，通过基于语音信号样本的声学特征、至少一对混淆音素对的声学特征以及音素序列和声调序列，对发音检错模型进行检错训练，能够进行声调检错，从而进一步提高发音检错的准确率。

为了能够提升发音检错模型对易混淆音素的区分性，在本发明实施例中，可以针对上述每一对混淆音素对构建一组声学特征。具体地，上述步骤S430可以包括：

S4310：获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素。

S4320：根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵。

具体地，首先，对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段。

其次，分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；并分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量。

然后，对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

S4330：将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

本发明实施例以in/ing混淆音素对为例。

具体地，可以将大规模语音识别数据作为发音检错任务的训练样本集，利用强制对齐技术获取训练样本集中所有第一音素(in)和第二音素(ing)对应的语音片段。

首先，可以对in对应的所有语音片段提取滤波器组(filter bank)特征，并对该滤波器组特征进行kmeans聚类，得到N个类中心向量

同样地，对ing对应的所有语音片段提取filter bank特征，并对该滤波器组特征进行kmeans聚类，得到N个类中心向量

其次，可以对和共计2N个类中心向量利用主成分分析(Principal Component Analysis，PCA)法进行降维得到其协方差矩阵W。

然后，可以提取训练样本集中所有语音样本的filter bank特征，并将所有语音样本的filter bank特征都乘以上述协方差矩阵W，从而得到针对in/ing混淆音素对的声学特征。

需要说明的是，按照上述方法可以依次构建针对en/eng、l/n、d/t、z/zh、s/sh、c/ch等每对混淆音素对的声学特征。

需要说明的是，上述至少一对混淆音素对的声学特征可以是在训练发音检错模型前构建好的，在训练发音检错模型时，直接将其与语音样本的声学特征拼接，作为编码器的输入即可。

另外，应当理解，上述描述仅为示例性描述，本发明对至少一对混淆音素对的声学特征的获取方式不做具体限定。

图5所示为本发明另一实施例提供的发音检错模型的训练方法的流程示意图。在本发明图4所示实施例的基础上延伸出本发明图5所示实施例，下面着重叙述图5所示实施例与图4所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本发明实施例提供的发音检错模型的训练方法中，在基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练之前，该方法还包括：

步骤S450：利用掩码替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过掩码替换后的音素序列，对发音检错模型进行语音识别训练，其中，发音检错模型识别并输出被替换位置对应的音素。

也就是说，可以先对发音检错模型进行语音识别训练，然后再对发音检错模型进行检错训练。

具体地，可以将大规模语音识别数据作为本发明实施例中的用于训练发音检错模型的语音信号样本，将大规模语音识别数据的文本样本转换为音素序列和声调序列。在解码器的输入端随机删除部分音素和声调，删除的部分可以用掩码[mask]代替。对于被替换的位置，在解码器的输出端预测出其对应的音素和声调，对于没有替换的位置，则输出端不做预测。然后，根据预测结果与标注数据(即，被替换位置对应的真实音素和声调)计算损失值，并通过反向传播损失值来更新发音检错模型的参数，直到损失值收敛。

以“检错”二字为例，如图6所示，可以将12对混淆音素对的针对性声学特征与带有“检错”语音信息的语音信号样本的声学特征进行拼接，作为发音检错模型中编码器输入的声学特征；在解码器的输入端删除音素序列中的音素“j”和“ian”，删除声调序列中的声调“3”，删除的位置用掩码[mask]代替。解码器可以根据输入的声学特征识别出被掩码[mask]替换的位置所对应的音素“j”和“ian”和声调“3”。

根据本发明实施例提供的技术方案，通过利用掩码替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过掩码替换后的音素序列，对发音检错模型进行语音识别训练，可以提高后续发音检错模型的发音检错的正确率。

在本发明的一个实施例中，上述步骤S440可以包括：利用错误音素替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过错误音素替换后的音素序列，对发音检错模型进行检错训练，其中，发音检错模型输出每个音素的位置是否被替换。

具体地，可以将大规模语音识别数据作为本发明实施例中的用于训练发音检错模型的语音信号样本，将大规模语音识别数据的文本样本转换为音素序列和声调序列。在解码器的输入端利用错误音素随机替换音素序列中部分音素或声调，使解码器的输出端预测每个位置是否被替换，例如，0可以表示未替换，即该位置朗读正确，1可以表示替换，即该位置朗读错误。

以“检错”二字为例，如图7所示，在解码器的输入端随机将音素“c”替换为音素“d”。发音检错模型以音素序列“j、ian、d、uo”为基准，根据输入的声学特征判断该语音信号样本中的每个位置是否朗读正确。例如，图7的解码器的输出端预测音素“d”位置朗读错误，其余位置朗读正确。

根据本发明实施例提供的技术方案，通过利用错误音素替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过错误音素替换后的音素序列，对发音检错模型进行检错训练，能够为发音检错模型提供预训练，同时可以解决比较明显的错读问题，提升发音检错模型的检错效果。

在本发明的另一个实施例中，上述步骤S440可以包括：基于经过发音错误等级标注的语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练，其中，发音检错模型输出每个音素位置的发音错误等级分类。

具体地，可以通过人工对语音信号样本进行精细标注，例如，根据每个音素、声调的发音情况，可以标注为“正确”、“错误”、“缺陷”三种情况。其中，“缺陷”可以是错误等级较轻微的，介于“正确”和“错误”之间的一种情况。如图8所示，基于标注数据对发音检错模型进行微调训练，发音检错模型可以对每个音素、声调位置都进行“正确”、“错误”、“缺陷”的三分类，例如，0表示正确，1表示错误，2表示缺陷。应当理解，上述“正确”、“错误”、“缺陷”仅为示例性描述，本发明对发音错误等级分类不做具体限定。

根据本发明实施例提供的技术方案，通过对语音信号样本进行发音错误等级标注，基于经过发音错误等级标注的语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练，使发音检错模型输出每个音素位置的发音错误等级分类，可以对发音检错模型进行精调训练。由于现有方案通常基于通用的大规模语音识别数据进行训练，当使用场景是特定场景(例如方言场景)时，效果可能下降，如果需要提升特定场景的效果，则需要收集对应场景的大规模语音识别语料，成本较高，本发明实施例通过使用标注的语音信号样本进行精调训练，针对需要提升特定场景的效果，只需标注相对较少的训练样本，成本较低。

需要说明的是，针对先对发音检错模型进行上述语音识别训练，然后再对发音检错模型进行检错训练的情况，可以在上述语音识别训练完成后，将发音检错模型中的语音识别模块(图6中的左斜线方块)更换为发音检错模块(图7或图8中的右斜线方块)，以便于进行发音检错训练。

在本发明的另一个实施例中，上述步骤S440包括：利用错误音素替换音素序列中的部分音素；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和经过错误音素替换后的音素序列，对发音检错模型进行检错训练，其中，发音检错模型输出每个音素的位置是否被替换；以及基于经过发音错误等级标注的语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练，其中，发音检错模型输出每个音素位置的发音错误等级分类。根据本发明实施例提供的技术方案，通过上述两种检错训练方法对发音检错模型进行训练，能够使发音检错模型获得更好的检错效果。

在本发明的一个实施例中，上述发音检错模型的训练方法还包括：构建至少一对混淆音素对对应的至少一个音素分类模型，以便于当文本样本和/或语音信号样本中包含混淆音素时，根据发音检错模型和音素分类模型的输出结果进行发音检错，其中，每对混淆音素对对应一个音素分类模型，每对混淆音素对包括第一音素和第二音素，音素分类模型用于输出混淆音素属于第一音素或第二音素的概率。

具体地，如图9所示，上述构建至少一对混淆音素对对应的至少一个音素分类模型，可以包括：

S910：对语音样本进行切分，获取至少一对混淆音素对中每对混淆音素对对应的多个语音片段。

具体地，以in/ing混淆音素对为例，可以对语音样本进行强制对齐，获取所有in和ing音素对应的孤立语音片段。

S920：获取第一音素对应的多个语音片段中每个语音片段的向量，并获取第二音素对应的多个语音片段中每个语音片段的向量。

在本发明一实施例中，针对每个in或ing对应的语音片段，可以提取该语音片段的filter bank特征，并经过训练好的发音检错模型的编码器进行前向运算，获得一组输出向量，对该组输出向量进行平均，从而得到该语音片段对应的向量表示。

应当理解，还可以通过其他方式获取每个语音片段的向量，本发明对此不做具体限定。

S930：根据第一音素对应的多个语音片段的向量和第二音素对应的多个语音片段的向量，训练第一音素与第二音素对应的音素分类模型。

例如，将步骤S920中所有in的语音片段对应的向量表示记为所有ing的语音片段对应的向量表示记为其中Nin和Ning分别表示语料库中in和ing出现的次数。然后根据和训练音素分类模型。

在本发明一实施例中，可以根据和通过支持向量机(SVM)算法训练音素二分类模型，记为SVMin/ing。针对每类混淆音素对，重复上述步骤，可以得到多个SVM分类模型，例如SVMz/zh，SVMc/ch，SVMs/sh等。应当理解，上述音素分类模型还可以为CNN等神经网络模型，本发明对训练音素分类模型的具体方法不做具体限定。

在本发明实施例中，当文本样本和/或语音信号样本中不包含混淆音素时，可以直接根据训练好的发音检错模型的解码器的输出结果进行检错。

当文本样本和/或语音信号样本中包含混淆音素时，可以将发音检错模型与音素分类模型的结果进行融合，即，根据发音检错模型和音素分类模型的输出结果进行发音检错。

以音素in为例，首先根据训练好的发音检错模型的解码器的输出结果得到该位置读错的概率ped-error，然后找到音素分类模型中对应的SVM模型SVMin/ing，从中获取SVM预测结果为ing的概率，也即SVM模型认为该位置读错的概率psvm-error，最终的预测结果可以为两个模型的输出结果的平均，即perror＝(ped-error psvm-error)/2。

应当理解，上述将发音检错模型与音素分类模型的结果进行融合，除了求两个模型的输出结果的平均，还可以是两个模型的输出结果的加权相加，本发明对此并不做具体限定。

根据本发明实施例提供的技术方案，通过训练音素分类模型，当文本样本和/或语音信号样本中包含混淆音素时，利用音素分类模型对强制对齐得到的孤立语音片段进行混淆音素的分类，将发音检错模型和音素分类模型的输出结果融合来进行发音检错，能够提高发音检错模型对混淆音素的检错效果。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图10所示为本发明一实施例提供的发音检错装置的框图。如图10所示，该发音检错装置1000包括：

第一获取模块1010，用于获取待检错语音信号及其对应的朗读文本；

提取模块1020，用于提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；

第二获取模块1030，用于获取至少一对混淆音素对的声学特征；

检错模块1040，用于利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错。

根据本发明实施例提供的技术方案，通过获取待检错语音信号及其对应的朗读文本；提取待检错语音信号的声学特征，并将朗读文本转化为音素序列；获取至少一对混淆音素对的声学特征；利用发音检错模型，基于待检错语音信号的声学特征、至少一对混淆音素对的声学特征和音素序列进行发音检错，能够消除发音检错方法中强制对齐技术带来的误差，并提高对易混淆音素的区分性，从而提高发音检错的准确率。

在本发明的一个实施例中，上述第二获取模块1030用于获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素；根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵；将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

在本发明的一个实施例中，上述第二获取模块1030用于对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段；分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量；对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

在本发明的一个实施例中，上述发音检错装置还包括判断模块1050，用于判断朗读文本中是否包含混淆音素；当朗读文本中包含混淆音素时，上述检错模块用于根据发音检错模型和混淆音素对应的音素分类模型的输出结果进行发音检错。

发音检错装置1000中各个模块的功能和作用的实现过程具体详见图1实施例中对应步骤的实现过程，在此不再赘述。

图11所示为本发明一实施例提供的发音检错模型的训练装置的框图。如图11所示，该发音检错模型的训练装置1100包括：

第一获取模块1110，用于获取训练样本，其中，训练样本包括语音信号样本及其对应的文本样本，其中语音信号样本包括朗读者对文本样本进行朗读而形成的语音信息；

提取模块1120，用于提取语音信号样本的声学特征，并将文本样本转化为音素序列；

第二获取模块1130，用于获取至少一对混淆音素对的声学特征；

训练模块1140，用于基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练。

根据本发明实施例提供的技术方案，通过利用语音信号样本的整体声学特征对发音检错模型进行检错训练，能够消除强制对齐技术带来的误差；另外，通过构造针对至少一对混淆音素对的声学特征；基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练，能够提升发音检错模型对易混淆音的区分性，从而提高发音检错模型对易混淆音素检错的准确率。

在本发明的一个实施例中，上述第二获取模块1130用于获取语音样本的声学特征，其中，语音样本包括至少一对混淆音素对中每对混淆音素对对应的多个语音片段，其中，每对混淆音素对包括第一音素和第二音素；根据每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段，获得每对混淆音素对对应的协方差矩阵；将语音样本的声学特征分别与每对混淆音素对对应的协方差矩阵融合，获得每对混淆音素对的声学特征。

在本发明的一个实施例中，上述第二获取模块1130用于对语音样本进行切分，获取每对混淆音素对中的第一音素对应的多个语音片段和第二音素对应的多个语音片段；分别提取第一音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第一类中心向量；分别提取第二音素对应的多个语音片段的声学特征并对其进行聚类，得到N个第二类中心向量；对N个第一类中心向量和N个第二类中心向量进行降维，得到协方差矩阵。

在本发明的一个实施例中，在基于语音信号样本的声学特征、至少一对混淆音素对的声学特征和音素序列，对发音检错模型进行检错训练之前，上述训练模块1140还用于利用掩码替换音素序列中的部分音素；基于语音信号样本的声学特征和经过掩码替换后的音素序列，对发音检错模型进行语音识别训练，其中，发音检错模型识别并输出被替换位置对应的音素。

在本发明的一个实施例中，上述发音检错模型的训练装置还包括分类模块1150，用于构建至少一对混淆音素对对应的至少一个音素分类模型，以便于当文本样本和/或语音信号样本中包含混淆音素时，根据发音检错模型和音素分类模型的输出结果进行发音检错，其中，每对混淆音素对对应一个音素分类模型，每对混淆音素对包括第一音素和第二音素，音素分类模型用于输出混淆音素属于第一音素或第二音素的概率。

在本发明的一个实施例中，上述分类模块1150用于对语音样本进行切分，获取至少一对混淆音素对中每对混淆音素对对应的多个语音片段；获取第一音素对应的多个语音片段中每个语音片段的向量，并获取第二音素对应的多个语音片段中每个语音片段的向量；根据第一音素对应的多个语音片段的向量和第二音素对应的多个语音片段的向量，训练第一音素与第二音素对应的音素分类模型。

在本发明的一个实施例中，上述发音检错模型包括编码器-解码器模型。

装置1100中各个模块的功能和作用的实现过程具体详见图4至图9实施例中对应步骤的实现过程，在此不再赘述。

图12所示为本发明一实施例提供的电子设备1200的框图。

参照图12，电子设备1200包括处理组件1210，其进一步包括一个或多个处理器，以及由存储器1220所代表的存储器资源，用于存储可由处理组件1210的执行的指令，例如应用程序。存储器1220中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1210被配置为执行指令，以执行上述发音检错方法或发音检错模型的训练方法。

电子设备1200还可以包括一个电源组件被配置为执行电子设备1200的电源管理，一个有线或无线网络接口被配置为将电子设备1200连接到网络，和一个输入输出(I/O)接口。电子设备1200可以操作基于存储在存储器1220的操作系统，例如Windows Server^TM，Mac OS X^TM，Unix^TM，Linux^TM，FreeBSD^TM或类似。

一种非临时性计算机可读存储介质，当存储介质中的指令由上述电子设备1200的处理器执行时，使得上述电子设备1200能够执行一种发音检错方法或发音检错模型的训练方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序校验码的介质。

另外，还需要说明的是，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案所记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

需要注意的是，以上列举的仅为本发明的具体实施例，显然本发明不限于以上实施例，随之有着许多的类似变化。本领域的技术人员如果从本发明公开的内容直接导出或联想到的所有变形，均应属于本发明的保护范围。

应当理解，本发明实施例中提到的第一、第二等限定词，仅仅为了更清楚地描述本发明实施例的技术方案使用，并不能用以限制本发明的保护范围。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：歌曲音频标注与对齐模型训练方法、设备及存储介质与流程

发音检错方法及装置、发音检错模型的训练方法及装置与流程

相关文献

最热文献