一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

预训练字符模型及字音转换神经网络模型

2022-06-01 08:11:04 来源:中国专利 TAG:


1.本发明涉及语音信息处理领域,尤其涉及一种预训练字符模型及字音转换神经网络模型。


背景技术:

2.在语音信息处理中,字音转换(grapheme-to-phoneme conversion)旨在通过某种算法或者模型预测单词的发音。由于一个发音词典不可能涵盖一种语言的全部单词,因此字音转换对依赖书写和发音的系统非常重要,比如语音合成和语音识别系统。当前,序列到序列的神经网络(sequence-to-sequence neural network)是一种主流的字音转换方法。
3.序列到序列的字音转换神经网络利用编码器-解码器框架来学习字符序列和音素序列之间的映射关系。lstm模型、cnn模型和transformer模型等序列到序列神经网络在字音转换任务上取得了良好的性能。其中,transformer模型因其自注意力机制的强大全局特征捕获能力而成为当前最优的字音转换神经网络。某些基于模仿学习的修正编辑距离的神经网络和transformer模型具有相当的性能。尽管如此,这些神经网络的训练往往需要大量的发音数据监督训练,而很多语言都很难获取它们的发音词典。为了解决这个问题,一些方法利用高资源语言的发音数据或者多模态的语音和发音数据来改进低资源语言的字音转换性能。基于音素映射的加权有限状态转换机、多语言字音转换神经网络和多模态字音转换神经网络等都能一定程度上降低低资源语言的字音转换错误率。然而,这些神经网络的性能都非常依赖于其它语言的发音数据或者其它模态的数据,而这些数据也是较难获取的。
4.因此,如何在不依赖于其它语言的发音数据或者其它模态的数据的前提下,能提高模型特征泛化性、降低字音转换错误率是需要解决的问题。
5.有鉴于此,特提出本发明。


技术实现要素:

6.本发明的目的是提供了一种预训练字符模型及字音转换神经网络模型,能不依赖于其它语言的发音数据或者其它模态的数据,提升模型特征泛化性,降低字音转换的错误率,进而解决现有技术中存在的上述技术问题。
7.本发明的目的是通过以下技术方案实现的:
8.本发明实施方式提供一种预训练字符模型,包括:
9.字符嵌入层、若干自注意力层和线性层;其中,
10.所述字符嵌入层设有输入端和输出端,所述输入端用于输入含掩码的单词对应的字符序列,所述输出端与各自注意力层依次连接,最后一层的自注意力层与所述线性层连接。
11.本发明实施方式还提供一种字音转换神经网络模型,包括:
12.编码器和解码器;其中,
13.所述编码器采用权利要求1所述的预训练字符模型,该编码器的输入为待字音转换的单词对应的字符序列,输出为单词的字符序列的上下文表征;
14.所述解码器,与所述编码器的输出端连接,该解码器能将输入的向右移位的音素序列,经音素嵌入层、多层的音素自注意力层和对字符序列的上下文表征的互注意力层以及线性层的处理,预测得出音素序列中各音素的概率分布,结合参考音素确定音素识别损失对整个神经网络模型进行训练;
15.测试时通过集束搜索预测输入待字音转换的单词的发音转换结果。
16.本发明实施方式进一步提供一种字音转换神经网络模型,包括:
17.编码器和解码器;其中,
18.所述编码器由本发明所述的预训练字符模型和组合编码器组成,所述预训练字符模型与所述组合编码器连接,该编码器的输入为待字音转换的单词对应的字符序列,输出为单词的字符序列的上下文表征;
19.所述解码器,分别与所述预训练字符模型和组合编码器的输出端连接,该解码器能将输入的向右移位的音素序列,经音素嵌入层、多层的音素自注意力层和对字符序列的字符上下文表征的组合注意力层以及线性层的处理,预测得出音素序列中各音素的概率分布,结合参考音素确定音素识别损失对整个神经网络进行训练;
20.测试时通过集束搜索预测输入待字音转换的单词的发音转换结果。
21.与现有技术相比,本发明所提供的预训练字符模型及字音转换神经网络模型,其有益效果包括:
22.通过采用自监督的预训练字符模型构建编码器,能利用掩码字符预训练任务在容易获取的无标签词表上提取泛化的上下文字符特征,然后通过微调和注意力机制提取特征的方式将预训练字符模型整合到下游的字音转换神经网络模型中,以提高字音转换神经网络的特征泛化性,降低字音转换的错误率。
附图说明
23.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
24.图1为本发明实施例提供的预训练字符模型的构成示意图;
25.图2为本发明实施例提供的一种微调预训练字符模型的字音转换神经网络模型的构成示意图;
26.图3为本发明实施例提供的另一种基于注意力机制嵌入预训练字符特征的字音转换神经网络模型的构成示意图。
具体实施方式
27.下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提
下所获得的所有其他实施例,都属于本发明的保护范围。
28.首先对本文中可能使用的术语进行如下说明:
29.术语“和/或”是表示两者任一或两者同时均可实现,例如,x和/或y表示既包括“x”或“y”的情况也包括“x和y”的三种情况。
30.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
31.术语“由
……
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
32.除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
33.当浓度、温度、压力、尺寸或者其它参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范围。除另有说明外,本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
34.术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
35.下面对本发明所提供的预训练字符模型及字音转换神经网络模型进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
36.如图1所示,本发明实施例提供一种预训练字符模型,包括:
37.字符嵌入层、若干自注意力层(正整数层,即自注意力层的层数为正整数)和线性层;其中,
38.所述字符嵌入层设有输入端和输出端,所述输入端用于输入含掩码的单词对应的字符序列,所述输出端与各自注意力层依次连接,最后一层的自注意力层与所述线性层连接。
39.所述线性层的输出与掩码字符识别损失层连接,所述掩码字符识别损失层分别接收所述线性层输出的预测掩码字符的概率分布以及参考的掩码字符进行整个神经网络模型的训练。
40.上述的预训练字符模型能在下游的字音转换任务中,作为编码器,或与编码器配合,输入一个单词对应的字符序列经过掩码处理后得到的字符序列,经字符嵌入层、多层的字符自注意力层(正整数层)以及线性层的处理,预测得出掩码字符中各字符的概率分布,结合参考的掩码字符确定掩码字符的识别损失进行整个神经网络的训练。
41.在下游的字音转换任务中,作为编码器可以输出经字符嵌入层和多层的自注意力层编码得到的单词的预训练上下文字符表征。
42.如图2所示,本发明实施例还提供一种字音转换神经网络模型,是一种微调预训练字符模型的字音转换神经网络模型,包括:
43.编码器和解码器;其中,
44.所述编码器采用上述的预训练字符模型,该编码器的输入为待字音转换的单词对应的字符序列,输出为单词的字符序列的上下文表征;
45.所述解码器,与所述编码器的输出端连接,该解码器能将输入的向右移位的音素序列,经音素嵌入层、多层的音素自注意力层(正整数层)和对字符序列的上下文表征的互注意力层以及线性层的处理,预测得出音素序列中各音素的概率分布,结合参考音素确定音素识别损失对整个字音转换神经网络模型进行训练;测试时通过集束搜索预测输入待字音转换的单词的发音转换结果。
46.上述字音转换神经网络模型中,所述解码器包括:
47.音素嵌入层、若干自注意力层(正整数层)、若干互注意力层(正整数层)、线性层和音素识别损失层;这里的互注意力层和标准transformer模型的互注意层相同,其中,
48.所述音素嵌入层设有输入端,用于输入向右移位的音素序列;
49.所述若干自注意力层与若干互注意力层按一层自注意力层接一层互注意力层的方式依次连接,其中,各互注意力层分别与所述编码器的输出端连接;
50.最后一层的所述互注意力层与所述线性层连接;
51.所述线性层的输出与所述音素识别损失层连接,所述音素识别损失层分别接收所述线性层输出的预测的音素的概率分布以及参考音素进行整个神经网络模型的训练;
52.测试时通过集束搜索预测输入待字音转换的单词的发音转换结果。
53.如图3所示,本发明实施例进一步提供一种字音转换神经网络模型,是一种基于注意力机制嵌入预训练字符特征的字音转换神经网络模型,包括:
54.编码器和解码器;其中,
55.所述编码器由上述的预训练字符模型和组合编码器组成,所述预训练字符模型与所述组合编码器连接,该编码器的输入为待字音转换的单词对应的字符序列,输出为单词的字符序列的上下文表征;
56.所述解码器,分别与所述预训练字符模型和组合编码器的输出端连接,该解码器能将输入的向右移位的音素序列,经音素嵌入层、多层的音素自注意力层和对字符序列的字符上下文表征的组合注意力层以及线性层的处理,预测得出音素序列中各音素的概率分布,结合参考音素确定音素识别损失对整个神经网络进行训练;
57.测试时通过集束搜索预测输入待字音转换的单词的发音转换结果。
58.上述字音转换神经网络模型中,所述编码器包括:
59.字符嵌入层和多层组合自注意力层;其中,
60.每层组合自注意力层均由并列设置的预训练注意力层和自注意力层,以及连接所述预训练注意力层与自注意力层的输出端的组合层构成,该组合层能在训练时随机输出两个输入向量组的一个,在测试时输出2个输入向量组中每个向量的平均值;
61.所述字符嵌入层设有输入端,用于输入待字音转换的单词对应的字符序列;
62.所述字符嵌入层的输出端依次与各组合自注意力层连接。
63.上述字音转换神经网络模型中,所述解码器包括:
64.音素嵌入层、多层自注意力层、多层组合互注意力层、线性层和音素识别损失层;其中,
65.每层所述组合互注意力层均由并列设置的预训练注意力层和互注意力层,以及连接所述预训练注意力层与互注意力层的输出端的组合层构成,这里的互注意力层和标准transformer模型的互注意层相同,该组合层能在训练时随机输出两个输入向量组的一个,在测试时输出2个输入向量组中每个向量的平均值;
66.所述音素嵌入层设有输入端,用于输入向右移位的音素序列;
67.所述若干自注意力层与若干组合互注意力层按一层自注意力层接一层组合互注意力层的方式依次连接,其中,各层组合互注意力层分别与所述编码器的输出端连接;
68.最后一层的所述组合互注意力层与所述线性层连接;
69.所述线性层的输出端与所述音素识别损失层连接,所述音素识别损失层分别接收参考音素与所述线性层输出的预测的音素的概率分布进行整个神经网络的训练;测试时通过集束搜索得到输入待字音转换的单词的发音转换结果。
70.本发明的自监督的预训练字符模型,利用掩码字符预训练任务在容易获取的无标签词表上提取泛化的上下文字符特征,然后通过微调和注意力机制提取特征的方式将预训练字符模型整合到下游的字音转换神经网络中形成字音转换神经网络模型,能提高字音转换神经网络的特征泛化性,降低字音转换的错误率。
71.综上可见,本发明实施例的预训练字符模型及字音转换神经网络模型,由于预训练字符模型是在无标签的大型词表数据上构建的,能使用预训练字符模型提取单词的泛化的上下文相关字符特征,因此可以通过将这些泛化的上下文相关的字符特征整合到下游的字音转换神经网络,降低字音转换的错误率,从而很好的解决了目前的字音转换模型对发音数据或者多模态的语音和发音数据需求很高,而这些有监督数据往往很难获取的问题。
72.为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的字音转换神经网络模型及字音转换方法进行详细描述。
73.实施例1
74.如图1所示,本发明实施例提供一种预训练字符模型,包括:
75.字符嵌入层、若干自注意力层(正整数层)和线性层;其中,
76.所述字符嵌入层设有输入端和输出端,所述输入端用于输入含掩码的单词对应的字符序列,所述输出端与各自注意力层依次连接,最后一层的自注意力层与所述线性层连接。
77.所述线性层的输出与掩码字符识别损失层连接,所述掩码字符识别损失层分别接收所述线性层输出的预测掩码字符的概率分布以及参考的掩码字符进行整个神经网络模型的训练。
78.该模型的输入是一个含掩码单词对应的字符序列,经过编码进行掩码字符的预测。
79.如图1所示,训练时,该预训练字符模型的输入是一个部分字符用掩码符号替换的单词对应的字符序列,然后使用多层transformer编码器结构对输入信息进行编码,最后接一个线性层作为分类器,预测掩码位置的原字符;该预训练字符模型的训练只需要无标签的单词列表数据,而不需要有标签的发音数据或者多模态的语音和发音数据。即该预训练字符模型能通过自监督训练获取上下文相关的字符特征。具体的,该模型的输入是含掩码的单个单词对应的字符序列x=[x1,x2,...,xn],其中掩码位点的xk用记号[mask]表示;模型的预测输出是[mask]位点的字符y=[y1,y2,...,yn],其中不是掩码位点的yk用填充符pad表示,填充符位置不会参与损失函数计算;该预训练字符模型与现有预训练的语言模型bert的区别在于:本发明的预训练字符模型的输入是含掩码的单个单词对应的字符序列,用于提取字符的上下文字符表征;而现有预训练的语言模型bert的输入是含掩码的单句或者双句对应的单词序列,用于提取单词的上下文语义表征;为了基于含掩码的输入字符序列预测掩码位置的字符,多层transformer编码器被用于建模输入字符的上下文特征。输入的掩码字符序列分别经过字符嵌入层、多个自注意力层和线性层预测掩码位置字符的概率分布。
[0080]
上述的预训练字符模型的训练过程中,通过随机梯度算法最小化神经网络模型在训练集的所有预测的掩码标签的平均交叉熵损失函数来进行神经网络参数的训练。预训练的掩码字符比例是20%,同时这些掩码字符会以80%:10%:10%的概率比变成掩码字符、随机字符或者原始字符,用于消除预训练和下游任务不一致的问题,即下游字音转换任务的输入字符序列不会遇到含掩码字符的单词。
[0081]
实施例2
[0082]
如图2所示,本发明实施例提供一种字音转换神经网络模型,是一种基于预训练字符模型构建的字音转换神经网络模型,可称为微调预训练字符模型的字音转换模型,包括:
[0083]
编码器和解码器;其中,
[0084]
所述编码器采用本发明的预训练字符模型;
[0085]
所述解码器为随机初始化的transformer解码器;
[0086]
该模型的输入是一个单词的字符序列,经过预训练字符模型的编码和随机初始化的transformer解码器的解码进行发音序列的预测。
[0087]
参见图2,该模型使用预训练字符模型作为编码器,该编码器输入是字符序列x=[x1,x2,...,xn],输出的是字符序列经过编码后的上下文单元特征解码器输入是向右移位的音素序列y=[start,y1,...,y
n-1
,yn](start表示序列的开头标记),预测的输出是音素序列y=[y1,y2,...,yn,end](end表示序列的终止标记);编码器输入的字符序列通过预训练字符模型输出单词的上下文表征,然后向右移位的音素序列经过解码器的音素嵌入层、多层的音素自注意力机制和音素对字符序列的上下文表征的互注意力机制以及线性层预测音素的概率分布。
[0088]
最后,在预测发音阶段,测试单词的字符序列输入到已经训练好的字音转换神经网络模型,然后解码器通过集束搜索生成后验概率最大的音素序列,即为测试单词的发音。具体的,本实施例的微调预训练字符模型的字音转换模型,其生成音素过程和普通的序列到序列字音转换神经网络模型基本相同。模型输入是单词对应的字符序列,经过编码器得到隐藏层;然后解码器的第1个输入是start标记,解码器预测第一个音素输出,紧接着把预测的音素输出作为解码器第2个输入,解码器预测第2个音素输出,以此类推,直到预测出结束符end结束。同时我们会采用集束搜索,在每个时刻对音素预测时将预测概率最大的前k个(k为正整数)音素序列作为候选,最终音素序列的预测结果是联合概率最大的那个音素序列。
[0089]
本实施例的预训练字符模型和字音转换神经网络的训练过程中,通过随机梯度算法最小化神经网络模型在训练集的所有预测标签的平均交叉熵损失函数来进行神经网络参数的训练。
[0090]
实施例3
[0091]
如图3所示,本发明实施例提供一种字音转换神经网络模型,是一种基于注意力机制整合预训练字符特征的字音转换模型,可称为基于注意力机制整合预训练字符特征的字音转换模型,包括:
[0092]
编码器和解码器;其中,
[0093]
所述编码器由本发明的预训练字符模型和组合编码器组成;其中,预训练字符模型的输入是字符序列,输出是上下文特征;
[0094]
所述解码器为引入预训练注意力机制的transformer解码器;
[0095]
其中,编码器的输入是字符序列和预训练字符模型的上下文特征,输出是编码器的上下文特征;解码器输入的是向右移位的音素序列、编码器的上下文特征和预训练字符模型的上下文特征,输出是预测的音素概率分布。
[0096]
该模型的输入是一个单词的字符序列,然后经过一个编码器和一个解码器预测音素的概率分布;编码器对输入的字符序列进行编码和特征整合,编码器在原始transformer编码器的基础上增加了一个注意力模块,用于从预训练字符模型中抽取输入字符序列的预训练字符特征;解码器基于编码器的字符特征和历史音素信息生成预测的音素序列;和编码器类似,解码器也是在原始transformer解码器上增加了一个从预训练字符模型中抽取输入单词的预训练字符特征的注意力模块。
[0097]
如图3所示,本实施例的字音转换神经网络模型使用注意力机制整合预训练字符特征到普通的transformer模型中,具体的,该模型的输入是字符序列x=[x1,x2,...,xn]和向右移位的音素序列y=[start,y1,...,y
n-1
,yn](start表示序列的开头标记),预测的输出是音素序列y=[y1,y2,...,yn,end](end表示序列的终止标记);首先,字符序列输入预训练字符模型生成字符序列的上下文表征,然后模型使用注意力机制将预训练特征分别整合到普通transformer的编码器和解码器;对于编码器,提取预训练字符特征的注意力模块的查询向量(query)是上一层的隐藏层结果,如果是第1层则是字符的嵌入向量;键向量(key)和值向量(value)都是预训练字符特征的向量;对于解码器,提取预训练字符特征的注意力模块的查询向量(query)是上一层的音素向量自注意力之后的结果,键向量(key)和值向量(value)都是预训练字符特征的向量;组合结构是一个训练时随机输出两个输入向量序列
中一个的操作,在测试时直接取两个输入向量序列的每个向量的均值。在编码器,字符序列经过字符嵌入、多层的自注意力层和预训练注意力层以及两者的组合输出字符的编码结果。在解码器,向右移位的音素序列经过音素嵌入、多层的自注意力层、预训练注意力层、互注意力层和组合结构以及线性层预测音素的概率分布。
[0098]
本实施例的预训练字符模型的构成如图1所示,与实施例1的预训练字符模型的构成相同,可参见实施例12,这里不再重复说明。
[0099]
本实施例的字音转换神经网络的训练过程中,通过随机梯度算法最小化神经网络模型在训练集的所有预测标签的平均交叉熵损失函数来进行神经网络参数的训练;预训练字符模型的参数是冻住的,不参与训练。
[0100]
最后,在预测发音阶段,测试单词的字符序列输入到已经训练好的字音转换神经网络,然后解码器通过集束搜索生成后验概率最大的音素序列,即为测试单词的发音。
[0101]
具体的,本实施例的基于注意力机制整合预训练字符特征的字音转换模型的音素预测与微调预训练字符模型的字音转换模型类似,再次不再重复。
[0102]
本发明提出的基于预训练字符模型的字音转换神经网络模型,只需要在大型的无标签的单词列表上通过自监督训练获取泛化的上下文表征,然后嵌入到下游的字音转换模型,从而改善字音转换模型的特征鲁棒性,降低字音转换的错误率,从而很好的解决了传统的字音转换神经网络模型对发音数据需求量很大,低资源语言的字音转换模型也需要混合低资源语言的发音数据和高资源语言的发音数据或者多模态的语音发音联合数据进行训练,而发音数据或者额外数据往往很难获取的问题。
[0103]
通过以下实验验证本发明所提出模型和方法的有效性。
[0104]
(1)实验设置
[0105]
使用荷兰语、塞尔维亚-克罗地亚语、保加利亚语和韩语的发音词典,它们的语系、字符系统见表1。从表1可以看出,四种语言属于不同的语系和字符系统。每个语言都有10000条发音记录。本文使用了两种场景进行实验,中资源场景和低资源场景。中资源场景分别有8000、1000、1000条记录用于训练、验证和测试。训练集用于训练提出的模型,验证集用于调整超参数,测试集用于测试字音转换的错误率。低资源场景把中资源场景的训练集随机采样1000条记录用于训练,验证集和测试集和中资源相同,便于两者进行对比。四种语言预训练的词表分别包含2.70万、3.50万、4.31万和1.41万的单词。对于每种语言,90%的单词用于训练预训练字符模型,剩下10%的单词构成预训练字符模型的验证集。
[0106]
表1:实验中使用的四种语言
[0107][0108]
所有模型均通过pytorch实现,adam参数优化器优化。预训练字符模型都是6层的
transformer编码器,隐藏层维度是256,注意力机制的多头数为4,学习率是1e-4,在训练集上进行了400轮训练,训练一次的批处理大小是1024,学习率预热的轮数是40,使用了label smoothing进行训练,smoothing系数为0.1。预训练字符模型训练的掩码比例是20%。中资源场景的字音转换模型是3层的transformer,隐藏层维度是256,注意力机制的多头数是4,学习率是1e-3,在训练集上进行了400轮训练,训练一次的批处理大小是1024、512或者256(根据验证集性能挑选),学习率预热的轮数是80,使用了label smoothing进行训练,smoothing系数为0.1,集束搜索的宽度是5。低资源场景的字音转换模型是2层的transformer,隐藏层维度是128,训练一次的批处理大小是16或者32(根据验证集性能挑选),其它参数与中资源场景的参数相同。
[0109]
(2)实验结果
[0110]
关于不同模型的字音转换错误率的实验结果如表2所示。基准模型是基于注意力机制的transformer模型和模仿学习的il模型,本发明的模型分别是实施例2的微调预训练字符模型的字音转换神经网络模型gbert fine-tuning、实施例3的基于注意力机制整合预训练字符特征的字音转换模型gbert attention和一个用于消融实验的字音转换模型gbert w/o fine-tuning(预训练字符模型gbert在训练时参数固定,不调整参数)。评价指标是发音预测的单词错误率wer和音素错误率per。除了il模型是引用论文[8]的10次实验的平均值和标准差结果,其他结果均为5次实验的平均值和标准差结果。
[0111]
通过表2中的中资源场景和低资源场景的结果表明:在基于序列到序列的transformer模型基础上,本发明实施例的基于预训练字符模型的方法gbert attention在中资源场景可以减少四种语言的字音转换错误率,在低资源场景,本发明的gbert fine-tuning方法可以减少除了韩语之外的三种语言的字音转换错误率。这些结果都说明了本发明基于预训练字符模型的神经网络字音转换方法的有效性。
[0112]
表2:不同模型在中资源和低资源字音转换任务上的单词错误率wer(%)和音素错误率per(%)
[0113]
[0114][0115]
综上可见,本发明实施例,本发明的基于预训练字符模型的字音转换神经网络模型,其优点在于:第一,在无标签的单词列表上面使用掩码字符任务进行预训练,以提取泛化的上下文字符特征;第二,利用微调预训练字符的字音转换模型和基于注意力机制整合预训练字符特征的字音转换模型,将预训练的字符特征嵌入下游的神经网络字音转换模型,来提高下游神经网络收敛特征的泛化性。实验结果表明,该模型与传统的序列到序列神经网络transformer模型相比,有效降低了单词发音的错误率,生成了更准确的发音。
[0116]
本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)或随机存储记忆体(random access memory,ram)等。
[0117]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献