语音翻译模型的训练方法、语音翻译方法、装置及设备与流程

2022-07-30 22:42:47 来源：中国专利 TAG：

1.本公开实施例涉及机器翻译技术领域，尤其涉及一种语音翻译模型的训练方法、语音翻译方法、装置及设备。

背景技术：

2.语音翻译是将某种语言的语音输入转化成其他语言的文本或语音，是打破语言障碍的关键技术之一。
3.语音翻译已经得到广泛应用，业务主要落地于日常对话聊天、大会同声传译以及视频实时字幕等应用场景。相关语音翻译技术，通过引入领域数据如asr 识别文本、规则或对抗学习生成领域文本等进行翻译增强。但是，仍然存在翻译质量不高、译文连贯性不强等诸多问题，导致语音翻译准确性不高，给用户交流带来不便。

技术实现要素：

4.本公开实施例中提供一种语音翻译模型的训练方法、语音翻译方法、装置、设备及介质，以实现对语音翻译的鲁棒性和泛化性进行优化，提升语音翻译质量。
5.第一方面，本公开实施例中提供了一种语音翻译模型的训练方法，所述训练方法包括：
6.进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务；
7.控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务；
8.依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型；
9.其中，所述语音翻译训练任务用于对参与语音识别的原文本进行翻译，所述辅助训练任务用于弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
10.第二方面，本公开实施例中还提供了一种语音翻译方法，语音翻译模型采用上述实施例中任一所述的语音翻译模型的训练方法获得，所述语音翻译方法包括：
11.获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列；
12.将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
13.第三方面，本公开实施例中还提供了一种语音翻译模型的训练装置，所述训练装置包括：
14.翻译任务控制模块，用于进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务；
15.训练辅助控制模块，用于控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务；
16.多任务联合模块，用于依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型；
17.其中，所述语音翻译训练任务用于对参与语音识别的原文本进行翻译，所述辅助训练任务用于弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
18.第四方面，本公开实施例中还提供了一种语音翻译装置，语音翻译模型采用本公开实施例提供的语音翻译模型的训练方法获得，所述使用装置包括：
19.获取模块，用于获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列；
20.翻译模块，用于将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
21.第五方面，本公开实施例中还提供了一种电子设备，所述电子设备包括：
22.至少一个处理器；以及
23.与所述至少一个处理器通信连接的存储器；其中，
24.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例中任一项所述的语音翻译模型训练方法和语音翻译方法。
25.第六方面，本公开实施例中还提供了一种计算机可读介质，所述计算机可读介质存储有计算机指令，所述计算机指令用于使处理器执行时实现上述实施例中任一项所述的语音翻译模型训练方法和语音翻译方法。
26.本公开实施例的技术方案，进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务以及控制语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务，进而依据语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，通过引入多个辅助训练任务对语音翻译任务进行辅助训练，弱化因语音识别偏差所得文本与文本语义偏差对语音翻译模型产生的翻译偏差，实现对语音翻译的鲁棒性和泛化性进行优化，降低原文受到错误干扰时译文出现漏译、错译、过翻译等情况。
27.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
28.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。
29.图1为本公开实施例提供的一种语音翻译模型的训练方法的流程图；
30.图2为本公开实施例提供的适用多任务辅助训练语音翻译模型的总体架构示意图；
31.图3为本公开实施例提供的另一种语音翻译模型的训练方法的流程图；
32.图4为本公开实施例提供的适用实现遮盖文本预测任务的原理示意图；
33.图5为本公开实施例提供的适用实现文本标点重标注任务的原理示意图；
34.图6为本公开实施例提供的适用实现文本语义对比学习任务的原理示意图；
35.图7为本公开实施例提供的一种语音翻译模型的训练装置的结构框图；
36.图8为本公开实施例提供的一种语音翻译方法的流程图；
37.图9为本公开实施例提供的一种语音翻译装置的结构框图；
38.图10为实现本公开实施例的语音翻译模型的训练方法的电子设备的结构框图。
具体实施方式
39.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
40.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
41.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
42.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
43.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为
ꢀ“
一个或多个”。
44.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
45.下述各实施例中，每个实施例中同时提供了可选特征和示例，实施例中记载的各个特征可进行组合，形成多个可选方案，不应将每个编号的实施例仅视为一个技术方案。此外，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。
46.图1为本公开实施例提供的一种语音翻译模型的训练方法的流程图，本实施例的技术方案可适用于对语音翻译模型进行训练以提高语音翻译鲁棒性的情况，该方法可以由语音翻译模型训练装置来执行，该装置可由软件和/或硬件实现，并一般集成在任何具有网络通信功能的电子设备上，该电子设备包括但不限于：电脑、个人数字助理等设备。如图1所示，本实施例的语音翻译模型的训练方法，可包括以下步骤s110-s130：
47.s110、进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务。
48.其中，语音翻译训练任务用于在模型训练过程中对参与语音识别的原文本进行翻译。
49.流式语音翻译可以是指流式地将一种语言的语音输入转化成其他语言的文本并进行输出的过程，其通常可包括语音识别与机器翻译两个阶段。流式语音翻译落地于日常
对话聊天、大会同声传译、视频实时字幕等场景，在人工智能大会等大型学术会议上已被广泛应用。
50.在对语音翻译模型进行模型训练阶段，可以获取语音识别前对应的原文本序列，将原文本序列作为训练样本输入到语音翻译模型中执行语音翻译训练任务以对参与语音识别的原文本进行翻译得到对应的译文，进而基于得到的译文对语音翻译模型进行训练更新。
51.s120、控制语音翻译模型同时执行语音翻译训练任务的辅助训练任务。
52.其中，辅助训练任务用于在模型训练过程中弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
53.流式语音翻译在落地场景下译文质量不高受机器翻译前序步骤的噪声传播影响，如收声设备杂音干扰、语音识别不正确、演讲者口误等，换言之机器翻译之前的语音识别的文本与参与语音识别的原文本出现不同，甚至是由于语气停顿等因素造成译文语义割裂，均会影响后续文本的机器翻译。
54.以下述两个翻译实例为例进行阐述，在下述的两个翻译场景中，实例1由于标点错误产生了冗余译文，实例2是由于语气停顿造成了译文语义割裂，极大地影响了译文可理解性。
55.表1 流式语音翻译样例
[0056][0057]
基于上述流式语音翻译仍然存在翻译质量不高的问题，本技术方案的语音翻译模型在基于鲁棒性机器翻译进行语言翻译训练任务的基础上，同时增加了语言翻译训练任务对应的辅助训练任务。
[0058]
参见图2，在进入模型训练阶段后，语音翻译模型不仅执行语音翻译训练任务，同时还需要执行语音翻译训练任务的辅助训练任务，通过辅助训练任务可以在对语音翻译模型进行训练的过程中，逐步弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差，这样就可以对执行的语音翻译训练任务进行自适应地校正，向降低文本敏感性的方向调整。
[0059]
s130、依据语音翻译训练任务与辅助训练任务，对语音翻译模型的网络参数进行
调整，得到训练更新后的语音翻译模型。
[0060]
根据本公开实施例的技术方案，进入对语音翻译模型进行训练时，通过引入多个辅助训练任务对语音翻译任务进行辅助训练，弱化因语音识别偏差所得文本与文本语义偏差对语音翻译模型产生的翻译偏差，实现对同声传译场景下语音翻译的鲁棒性和泛化性进行优化，并且本技术方案中基于鲁棒性机器翻译的语音翻译则可有效降低翻译模型对输出文本的敏感性，降低原文受到错误干扰时译文出现漏译、错译、过翻译等情况。
[0061]
图3为本公开实施例提供的另一种语音翻译模型的训练方法的流程图，本实施例的技术方案在上述实施例的基础上对前述实施例中的音翻译训练任务的辅助训练任务过程进行进一步优化，本实施例可与上述一个或多个实施例中各个可选方案结合。如图3所示，本实施例的语音翻译模型的训练方法，可包括以下步骤s310-s340：
[0062]
s310、进入模型训练阶段后，依据执行语音翻译训练任务所需的原文本序列，控制语音翻译模型执行语音翻译训练任务，得到语音翻译训练任务的损失函数得分。
[0063]
参见图2，获取执行语音翻译训练任务所需的原文本序列，原文本序列由参与语音识别的原文本组成。将原文本序列作为执行语音翻译训练任务所需的训练样本，输入到语音翻译模型中执行语音翻译训练任务得到语音翻译训练任务的损失函数得分，用以后续基于损失函数得分对语音翻译模型进行参数优化。
[0064]
s320、依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列；原文本序列包括参与语音识别的原文本。
[0065]
参见图2，语音翻译过程中会受到语音识别偏差得到的文本与文本语义偏差而导致对语音翻译模型产生翻译偏差。为了提升模型的泛化性与鲁棒性，尽可能降低上述因素对语音翻译的敏感性，减少因原文受到错误干扰时导致语音翻译过程中翻译译文出现漏译、错译、过翻译等情况，在执行每个辅助训练任务时不再选择使用原文本序列，而是结合每个辅助训练任务的任务特性，对执行语音翻译训练任务所需的原文本序列进行适配变化，得到与每个辅助训练任务匹配的辅助文本序列，用来执行辅助训练任务。
[0066]
在本实施例的一种可选方案中，依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，可包括：
[0067]
对原文本序列中部分序列内容进行文本遮盖处理，得到经文本遮盖处理后的辅助文本序列。
[0068]
其中，文本遮盖处理包括以下至少一项：对部分序列内容进行删除与对部分序列内容进行替换。
[0069]
参见图4，对应于遮盖文本预测任务这一类辅助训练任务，可以对原文本序列中的部分序列内容进行随机遮盖，比如对部分序列内容进行删除和/或对部分序列内容进行替换，得到一个区别于原文本序列的文本序列，并将其看作因语音翻译模型上游的语音识别错误导致出现的文本序列。
[0070]
可选地，对原文本序列中部分序列内容进行文本遮盖处理可包括：从获取的至少两个原文本序列中选取第一比例的原文本序列，并删除第一比例的原文本序列中的任意单词；从获取的至少两个原文本序列中选取第二比例的原文本序列，并从第二比例的原文本序列中随机选取单词替换为任意词典单词；从获取的至少两个原文本序列中选取第三比例的原文本序列，并从第三比例的原文本序列中随机选取单词替换为同一原文本序列
中的其他任意单词。其中，第一比例、第二比例与第三比例的总和为100％。比如，第一比例、第二比例与第三比例分别为50％、25％以及25％。
[0071]
在本实施例的另一种可选方案中，依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，可包括：
[0072]
对原文本序列中全部标点符号进行去除，得到经文本标点去除后的辅助文本序列。
[0073]
参见图5，对应于文本标点重标注任务这一类辅助训练任务，可以对原文本序列中所有的特殊标点符号全部进行剔除，得到一个区别于原文本序列的无标点文本序列，并将无标点的文本序列作为辅助文本序列执行语音翻译模型中语音翻译训练任务的辅助训练任务，以便通过辅助训练任务对语音翻译模型地训练显示地将原文本序列中的标点信息融入到语音翻译模型中。
[0074]
在本实施例的又一种可选方案中，依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，可包括：
[0075]
对原文本序列中部分序列内容进行文本遮盖处理，将遮盖后的文本与随机选取文本，组成用于进行文本语义对比学习的辅助文本序列。
[0076]
其中，文本遮盖处理包括以下至少一项：对部分序列内容进行删除与对部分序列内容进行替换。
[0077]
参见图6，对应于文本语义对比学习任务这一类辅助训练任务，可以获取对原文本序列中部分序列内容进行文本遮盖处理后的文本序列与从任意词典中随机选取的任意文本组成进行文本语义对比学习的辅助文本序列。其中，对原文本序列中进行文本遮盖处理的过程这里不再赘述，参见前述实施例。
[0078]
s330、将辅助文本序列输入到语音翻译模型执行语音翻译训练任务的辅助训练任务，得到辅助训练任务的损失函数得分。
[0079]
其中，辅助训练任务包括以下至少一项：对存在遮盖的文本的进行预测、对去除标点的文本进行标点重标注以及文本语义对比学习。
[0080]
可选地，语音翻译模型中语音翻译训练任务可使用交叉墒损失函数，辅助训练任务中的遮盖文本预测任务也可使用交叉墒损失函数。
[0081]
在本实施例的一种可选方案中，在执行遮盖文本预测任务时，将辅助文本序列输入到语音翻译模型执行语音翻译训练任务的辅助训练任务，得到辅助训练任务的损失函数得分，可包括步骤a1-a3：
[0082]
步骤a1、将经文本遮盖处理后的辅助文本序列输入到语音翻译模型的文本编码器。
[0083]
步骤a2、将文本编码器的输出送入语音翻译模型的多层感知器中对存在遮盖文本的辅助文本序列执行文本预测任务。
[0084]
步骤a3、依据对存在遮盖文本的辅助文本序列的文本预测结果与存在遮盖文本的辅助文本序列中文本删除或文本替换位置处的原文本字符，确定辅助训练任务中文本预测任务对应的损失函数得分。
[0085]
参见图4，语音翻译模型的上游任务是语音识别，语音识别不可避免会出现部分识别错误，而这部分识别错误在真实场景中就显得尤为突出。为此，本申请可引入遮盖文
本预测任务作为辅助训练任务为，通过在语音翻译模型中执行遮盖文本预测任务来对语音翻译模型进行不断训练更新，提升语音翻译模型对于自动语音识别asr的识别鲁棒性。
[0086]
参见图4，在对原文本序列中部分序列内容进行文本遮盖处理以获取经文本遮盖处理后的辅助文本序列时，可以同时在存在遮盖位置给出剔除或者替换词汇的原有文本作为训练标签。在文本编码器的输出经嵌入层embeddings送入语音翻译模型的多层感知器mlp后，多层感知器会对存在遮盖文本的辅助文本序列进行文本预测，以还原为原有的文本序列。其中，图中的文本编码器textencoder可以包括自注意力层self attention和前馈层feed forward。
[0087]
参见图4，存在遮盖文本的辅助文本序列的文本预测结果与存在遮盖文本的辅助文本序列中文本删除或文本替换位置处的原文本字符进行对比，采用遮盖文本预测任务对应的损失函数计算得到损失函数得分。其中，辅助训练任务中遮盖文本预测任务也可使用交叉墒损失函数。
[0088]
采用上述方式，通过在语音翻译训练过程中引入遮盖文本预测任务能够效地提升领域数据的多样性，尽可能避免因领域数据多样性偏弱所造成的语音翻译模型泛化性降低问题，降低语音翻译模型对输出文本的敏感性，提高语音翻译模型对于自动语音识别asr识别错误的鲁棒性。
[0089]
在本实施例的另一种可选方案中，在执行文本标点重标注任务时，将辅助文本序列输入到语音翻译模型执行语音翻译训练任务的辅助训练任务，得到辅助训练任务的损失函数得分，可包括步骤b1-b3：
[0090]
步骤b1、将经文本标点去除后的辅助文本序列输入到语音翻译模型的文本编码器。
[0091]
步骤b2、将文本编码器输出的文本字符对应的隐层向量表示送入语音翻译模型的多层感知器中对已去除标点的辅助文本序列执行文本标点重标注任务。
[0092]
步骤b3、依据标点重标注任务所预测的标点字符位置与原文本序列的标点字符位置，确定辅助训练任务中标点重标注任务对应的损失函数得分。
[0093]
相关的标点模型大部分都是通过语言模型结合语音识别的人声检测模块共同生成。但是，在实际应用场景中往往由于人为的停顿或者噪声，会极大地降低了标点生成的准确率。在一定范围内标点的正确率提高并不能直接提升译文的翻译质量，参见图5，本技术引入文本标点重标注任务作为辅助训练任务，通过文本标点重标注任务显式地将标点信息融入语音翻译模型中，以此来降低语音翻译模型对于文本标点的敏感性。
[0094]
参见图5，在执行文本标点重标注任务的过程中，文本标点去除后的辅助文本序列通过文本编码器后可输出每个位置的文本字符对应的隐层向量表示。在文本编码器的输出嵌入层embeddings送入语音翻译模型的多层感知器mlp后，多层感知器会基于每个位置的文本字符对应的隐层向量表示每个文本字符对应的位置是否存在标点字符进行预测，以在辅助文本序列中预测还原标点位置。
[0095]
参见图5，将标点重标注任务所预测的标点字符位置与原文本序列中真实的标点字符位置进行对比，采用标点重标注任务对应的损失函数计算得到对应的损失函数得分，以便后续基于损失函数得分进行模型参数更新。其中，辅助训练任务中的标点重标注任务也可使用交叉墒损失函数。
[0096]
采用上述方式，通过在语音翻译训练过程中引入文本标点重标注任务可显示地将标点信息融入到语音翻译模型中，尽可能降低语音翻译模型在翻译过程中对标点的敏感性，减少翻译模型在标点等特殊符号的过拟合，同时减少翻译模型对标点的依赖，降低语音翻译过程中因标点错误产生的冗余译文问题，提高语音翻译模型在翻译过程中的标点错误鲁棒性。
[0097]
在本实施例的又一种可选方案中，在执行文本语义对比学习任务时，将辅助文本序列输入到语音翻译模型执行语音翻译训练任务的辅助训练任务，得到辅助训练任务的损失函数得分，可包括步骤c1-c3：
[0098]
步骤c1、将辅助文本序列输入到所述语音翻译模型的文本编码器。
[0099]
步骤c2、将文本编码器提取的结束符对应的隐层状态送入语音翻译模型的多层感知器，通过多层感知器的暂退层输出辅助文本序列的文本语义表示。
[0100]
步骤c3、通过辅助文本序列中遮盖后文本的文本语义表示和随机选取文本的文本语义表示分别与原文本序列的文本语义表示的语义相似度，确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。
[0101]
相关的鲁棒性机器翻译方案都忽视了文本语义层面的信息，参见图6，本申请通过引入文本语义对比学习任务作为辅助训练任务，通过文本语义对比学习任务对语音翻译模型进行不断训练，可将文本语义层面的信息融合到鲁棒性机器翻译对应的语音翻译模型中。
[0102]
在将文本语义对比学习任务引入语音翻译训练任务需要满足以下配置：文本相似性与文本真实语义之间的相似性成线性相关；随机遮盖处理后的文本与原文本的文本相似性大于随机选取文本与原文本的文本相似性。基于以上的配置要求，可以利用文本语义对比学习任务实现将文本语义层面的信息融合到语音翻译模型中。
[0103]
参见图6，执行文本语义对比学习任务所需的辅助文本序列包括对原文本序列中部分序列内容进行文本遮盖处理的遮盖后文本与随机选取文本。遮盖处理后的文本通过文本编码器提取结束符对应的隐层状态，并通过多层感知器mlp 的暂退层dropout得到对应文本语义表示并作为正样本，随机选取文本通过文本编码器提取结束符对应的隐层状态，并通过多层感知器的暂退层dropout得到对应文本语义表示并作为负样本。
[0104]
参见图6，将辅助文本序列中遮盖后文本的文本语义表示作为正样本与将原文本序列的文本语义表示作为原样本以组成第一样本对，通过计算第一样本对中正样本与原样本间的语义相似度确定按照第一样本对执行辅助训练任务中文本语义对比学习任务对应的第一损失函数得分。
[0105]
参见图6，将辅助文本序列中随机选取文本的文本语义表示作为负样本与将原文本序列的文本语义表示作为原样本以组成第二样本对，通过计算第二样本对中负样本与原样本间的语义相似度确定按照第二样本对执行辅助训练任务中文本语义对比学习任务对应的第二损失函数得分。
[0106]
参见图6，通过比对第一损失函数得分与第二损失函数得分确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。其中，语义相近文本之间的向量表示被缩短，反之亦然。例如，正样本对应第一损失函数计算公式如下：
[0107][0108][0109]
其中，h(i)h(i) 表示原样本和正样本组成的第一样本对，t为温度系数参数，n表示样本个数，sim表示原样本和正样本之间的相似性；负样本同理可得到相同的损失函数，这里不再阐述。
[0110]
采样上述方式，通过在语音翻译训练过程中引入文本语义对比学习任务可充分考虑文本语义层面的信息，将语义层面的信息融合语音翻译模型中，通过正负样本与原始样本之间计算对比损失函数可以拉近经过遮盖处理的文本与未经过遮盖处理的文本之间的语义相似性，充分考虑译文连贯性问题，提升语音翻译模型的翻译疑问上下文连贯性，提高语音翻译模型在翻译过程中文本语义偏差的鲁棒性。
[0111]
s340、依据语音翻译训练任务与辅助训练任务，对语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型。
[0112]
在本实施例的一种可选方案中，依据语音翻译训练任务与辅助训练任务，对语音翻译模型的网络参数进行调整，可包括步骤d1-d3：
[0113]
步骤d1、确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重。
[0114]
步骤d2、将语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分。
[0115]
步骤d3、依据语音翻译模型的总损失函数得分，对语音翻译模型的网络参数进行调整。
[0116]
语音翻译训练任务与各个辅助训练任务的损失函数融合采用以下公式：
[0117]
l
all
＝[α1,α2,α3,α4].[l1,l2,l3,l4]
t
[0118]
其中，l
all
表示语音翻译训练任务与各个辅助训练任务的损失融合后的总损失函数得分，alpha(α)向量表示语音翻译训练任务或各个辅助训练任务对应的损失权重，l(i)表示对应任务的损失函数得分。
[0119]
采用上述方式，可以一开始就将语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分进行融合，利用融合后的总损失函数得分从整体上对语音翻译模型进行训练，由于是一开始融合因此在一定程度上能深度融合考虑因语音识别偏差得到的文本与文本语义偏差对语音翻译的偏差，尽可能减少领域数据多样性偏弱造成的模型泛化性偏低的问题。
[0120]
在本实施例的另一种可选方案中，依据语音翻译训练任务与辅助训练任务，对语音翻译模型的网络参数进行调整，可包括步骤e1-e2：
[0121]
步骤e1、依据执行语音翻译训练任务得到的损失函数得分，对语音翻译模型中语音翻译部分的网络参数进行单独调整。
[0122]
步骤e2、依据辅助训练任务的损失函数得分，对语音翻译模型中语音翻译部分的
辅助训练部分的网络参数进行单独调整。
[0123]
采用上述方式，可以利用语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分分别对各自的网络部分进行参数优化，可以为后续将各个任务的损失函数得分进行加权融合提供基础。
[0124]
在本实施例的一种可选方案中，依据语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，还可包括步骤f1-f3：
[0125]
步骤f1、在分别对语音翻译模型中语音翻译部分的网络参数与语音翻译部分的辅助训练部分的网络参数进行单独调整结束后，确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重。
[0126]
步骤f2、将语音翻译训练任务的损失函数得分与各个辅助训练任务的损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分。
[0127]
步骤f3、依据语音翻译模型的总损失函数得分，对语音翻译模型的网络参数进行调整。
[0128]
采用上述方式，利用语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分分别对各自的网络部分进行参数优化，在将各个任务对应的模型网络训练到一定程度后，将语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分进行融合，利用融合后的总损失函数得分从整体上对语音翻译模型进行训练，由于一开始各个网络已经训练差不多，因此可以加快后续的整体融合训练过程。
[0129]
根据本公开实施例的技术方案，进入对语音翻译模型进行训练时，通过引入多个辅助训练任务对语音翻译任务进行辅助训练，弱化因语音识别偏差所得文本与文本语义偏差对语音翻译模型产生的翻译偏差，实现对同声传译场景下语音翻译的鲁棒性和泛化性进行优化，能够有效地提升领域数据的多样性，提升同传场景下翻译质量，同时减少翻译模型对标点的依赖，并提升译文上下文连贯性，并且本技术方案中基于鲁棒性机器翻译的语音翻译则可有效降低翻译模型对输出文本的敏感性，降低原文受到错误干扰时译文出现漏译、错译、过翻译等情况。
[0130]
图7是本发明实施例中提供的一种语音翻译方法的流程图。本实施例可适用于对语音翻译模型进行使用的情况。该方法可由语音翻译装置来执行，该装置可以采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。如图7所示，本实施例的语音翻译方法，可包括以下步骤s710-s720：
[0131]
s710、获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列。
[0132]
其中，语音翻译模型采用上述实施例所述的语音翻译模型的训练方法获得。
[0133]
s720、将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
[0134]
图8为本公开实施例提供的一种语音翻译模型的训练装置的结构框图，本实施例的技术方案可适用于对语音翻译模型进行训练以提高语音翻译鲁棒性的情况，该装置可由软件和/或硬件实现，并一般集成在任何具有网络通信功能的电子设备上，该电子设备包括但不限于：电脑、个人数字助理等设备。如图8 所示，本实施例的语音翻译模型的训练方法，可包括：翻译任务控制模块810、训练辅助控制模块820以及多任务联合模块830。其
中：
[0135]
翻译任务控制模块810，用于进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务。
[0136]
训练辅助控制模块820，用于控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务。
[0137]
多任务联合模块830，用于依据所述语音翻译训练任务与所述辅助训练任务，对语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型。
[0138]
其中，所述语音翻译训练任务用于对参与语音识别的原文本进行翻译，所述辅助训练任务用于弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
[0139]
在上述实施例的基础上，可选地，训练辅助控制模块820包括：
[0140]
辅助文本确定单元，用于依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列；原文本序列包括参与语音识别的原文本；
[0141]
训练辅助控制单元，用于将所述辅助文本序列输入到语音翻译模型执行所述语音翻译训练任务的辅助训练任务，得到所述辅助训练任务的损失函数得分；
[0142]
其中，所述辅助训练任务包括以下至少一项：对存在遮盖的文本的进行预测、对去除标点的文本进行标点重标注以及文本语义对比学习。
[0143]
在上述实施例的基础上，可选地，辅助文本确定单元包括：
[0144]
对所述原文本序列中部分序列内容进行文本遮盖处理，得到经文本遮盖处理后的辅助文本序列；
[0145]
其中，所述文本遮盖处理包括以下至少一项：对部分序列内容进行删除与对部分序列内容进行替换。
[0146]
在上述实施例的基础上，可选地，训练辅助控制单元包括：
[0147]
将经文本遮盖处理后的辅助文本序列输入到语音翻译模型的文本编码器；
[0148]
将所述文本编码器的输出送入所述语音翻译模型的多层感知器中对存在遮盖文本的辅助文本序列执行文本预测任务；
[0149]
依据对存在遮盖文本的辅助文本序列的文本预测结果与存在遮盖文本的辅助文本序列中文本删除或文本替换位置处的原文本字符，确定辅助训练任务中文本预测任务对应的损失函数得分。
[0150]
在上述实施例的基础上，可选地，辅助文本确定单元包括：
[0151]
对所述原文本序列中全部标点符号进行去除，得到经文本标点去除后的辅助文本序列。
[0152]
在上述实施例的基础上，可选地，训练辅助控制单元包括：
[0153]
将经文本标点去除后的辅助文本序列输入到语音翻译模型的文本编码器；
[0154]
将所述文本编码器输出的文本字符对应的隐层向量表示送入语音翻译模型的多层感知器中对已去除标点的辅助文本序列执行文本标点重标注任务；
[0155]
依据标点重标注任务所预测的标点字符位置与原文本序列的标点字符位置，确定辅助训练任务中标点重标注任务对应的损失函数得分。
[0156]
在上述实施例的基础上，可选地，辅助文本确定单元包括：
[0157]
对所述原文本序列中部分序列内容进行文本遮盖处理，将遮盖后的文本与随机选取文本，组成用于进行文本语义对比学习的辅助文本序列。
[0158]
在上述实施例的基础上，可选地，训练辅助控制单元包括：
[0159]
将所述辅助文本序列输入到所述语音翻译模型的文本编码器；
[0160]
将所述文本编码器提取的结束符对应的隐层状态送入所述语音翻译模型的多层感知器，通过多层感知器的暂退层输出所述辅助文本序列的文本语义表示；
[0161]
通过所述辅助文本序列中遮盖后文本的文本语义表示和随机选取文本的文本语义表示分别与原文本序列的文本语义表示的语义相似度，确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。
[0162]
在上述实施例的基础上，可选地，训练辅助控制单元具体包括：
[0163]
将所述辅助文本序列中遮盖后文本的文本语义表示作为正样本与将原文本序列的文本语义表示作为原样本以组成第一样本对，通过计算第一样本对中正样本与原样本间的语义相似度确定按照第一样本对执行辅助训练任务中文本语义对比学习任务对应的第一损失函数得分；
[0164]
将所述辅助文本序列中随机选取文本的文本语义表示作为负样本与将原文本序列的文本语义表示作为原样本以组成第二样本对，通过计算第二样本对中负样本与原样本间的语义相似度确定按照第二样本对执行辅助训练任务中文本语义对比学习任务对应的第二损失函数得分；
[0165]
通过比对所述第一损失函数得分与所述第二损失函数得分确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。
[0166]
在上述实施例的基础上，可选地，多任务联合模块830包括：
[0167]
确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重；
[0168]
将语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分；
[0169]
依据语音翻译模型的总损失函数得分，对所述语音翻译模型的网络参数进行调整。
[0170]
在上述实施例的基础上，可选地，多任务联合模块830包括：
[0171]
依据执行所述语音翻译训练任务得到的损失函数得分，对所述语音翻译模型中语音翻译部分的网络参数进行单独调整；
[0172]
依据所述辅助训练任务的损失函数得分，对所述语音翻译模型中语音翻译部分的辅助训练部分的网络参数进行单独调整。
[0173]
在上述实施例的基础上，可选地，多任务联合模块830还包括：
[0174]
在分别对所述语音翻译模型中语音翻译部分的网络参数与语音翻译部分的辅助训练部分的网络参数进行单独调整结束后，确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重；
[0175]
将语音翻译训练任务的损失函数得分与各个辅助训练任务的损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分；
[0176]
依据语音翻译模型的总损失函数得分，对所述语音翻译模型的网络参数进行调
整。
[0177]
本发明实施例中所提供的语音翻译模型的训练装置可执行上述本发明任意实施例中所提供的语音翻译模型的训练方法，具备执行该语音翻译模型的训练方法相应的功能和有益效果，详细过程参见前述实施例中语音翻译模型的训练方法的相关操作。
[0178]
图9是本发明实施例中提供的一种语音翻译装置的结构框图。本实施例可适用于对语音翻译模型进行使用的情况。该装置可以采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。如图9所示，本实施例的语音翻译方法，可包括以下：获取模块910和翻译模块920。其中：
[0179]
获取模块910，用于获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列。
[0180]
其中，语音翻译模型采用上述实施例所述的语音翻译模型的训练方法获得。
[0181]
翻译模块920，用于将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
[0182]
下面参考图10，其示出了适于用来实现本公开实施例的电子设备1000的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0183]
如图10所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储装置1006加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理。在ram 1003中，还存储有电子设备1000操作所需的各种程序和数据。处理装置1001、rom 1002以及ram 603通过总线1004彼此相连。输入/ 输出(i/o)接口1005也连接至总线1004。
[0184]
通常，以下装置可以连接至i/o接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置1007；包括例如磁带、硬盘等的存储装置1006；以及通信装置1009。通信装置1009可以允许电子设备1000 与其他设备进行无线或有线通信以交换数据。虽然图10示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0185]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的语音翻译模型的训练方法或者语音翻译方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1006被安装，或者从rom 1002被安装。在该计算机程序被处理装置 1001执行时，执行本公开实施例的语音翻译模型的训练方法或者语音翻译方法中限定的上述功能。
[0186]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组
合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、 rf(射频)等等，或者上述的任意合适的组合。
[0187]
在一些实施方式中，客户端、服务器可以利用诸如http(hypertexttransfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络) 互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
[0188]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0189]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取至少两个网际协议地址；向节点评价设备发送包括所述至少两个网际协议地址的节点评价请求，其中，所述节点评价设备从所述至少两个网际协议地址中，选取网际协议地址并返回；接收所述节点评价设备返回的网际协议地址；其中，所获取的网际协议地址指示内容分发网络中的边缘节点。
[0190]
或者，上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：接收包括至少两个网际协议地址的节点评价请求；从所述至少两个网际协议地址中，选取网际协议地址；返回选取出的网际协议地址；其中，接收到的网际协议地址指示内容分发网络中的边缘节点。
[0191]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言— 诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c
”ꢀ
语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan) 或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0192]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多
个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0193]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0194]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0195]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom 或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0196]
根据本公开的一个或多个实施例，示例1提供了一种语音翻译模型的训练方法，所述训练方法包括：
[0197]
进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务；
[0198]
控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务；
[0199]
依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型；
[0200]
其中，所述语音翻译训练任务用于对参与语音识别的原文本进行翻译，所述辅助训练任务用于弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
[0201]
根据本公开的一个或多个实施例，示例2根据示例1所述的方法，控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务，包括：
[0202]
依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列；原文本序列包括参与语音识别的原文本；
[0203]
将所述辅助文本序列输入到语音翻译模型执行所述语音翻译训练任务的辅助训练任务，得到所述辅助训练任务的损失函数得分；
[0204]
其中，所述辅助训练任务包括以下至少一项：对存在遮盖的文本的进行预测、对去除标点的文本进行标点重标注以及文本语义对比学习。
[0205]
根据本公开的一个或多个实施例，示例3根据示例2所述的方法，依据执行语音翻
译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，包括：
[0206]
对所述原文本序列中部分序列内容进行文本遮盖处理，得到经文本遮盖处理后的辅助文本序列；
[0207]
其中，所述文本遮盖处理包括以下至少一项：对部分序列内容进行删除与对部分序列内容进行替换。
[0208]
根据本公开的一个或多个实施例，示例4根据示例2或3所述的方法，将所述辅助文本序列输入到语音翻译模型执行所述语音翻译训练任务的辅助训练任务，得到所述辅助训练任务的损失函数得分，包括：
[0209]
将经文本遮盖处理后的辅助文本序列输入到语音翻译模型的文本编码器；
[0210]
将所述文本编码器的输出送入所述语音翻译模型的多层感知器中对存在遮盖文本的辅助文本序列执行文本预测任务；
[0211]
依据对存在遮盖文本的辅助文本序列的文本预测结果与存在遮盖文本的辅助文本序列中文本删除或文本替换位置处的原文本字符，确定辅助训练任务中文本预测任务对应的损失函数得分。
[0212]
根据本公开的一个或多个实施例，示例5根据示例2所述的方法，依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，包括：
[0213]
对所述原文本序列中全部标点符号进行去除，得到经文本标点去除后的辅助文本序列。
[0214]
根据本公开的一个或多个实施例，示例6根据示例2或5所述的方法，将所述辅助文本序列输入到语音翻译模型执行所述语音翻译训练任务的辅助训练任务，得到所述辅助训练任务的损失函数得分，包括：
[0215]
将经文本标点去除后的辅助文本序列输入到语音翻译模型的文本编码器；
[0216]
将所述文本编码器输出的文本字符对应的隐层向量表示送入语音翻译模型的多层感知器中对已去除标点的辅助文本序列执行文本标点重标注任务；
[0217]
依据标点重标注任务所预测的标点字符位置与原文本序列的标点字符位置，确定辅助训练任务中标点重标注任务对应的损失函数得分。
[0218]
根据本公开的一个或多个实施例，示例7根据示例2所述的方法，依据执行语音翻译训练任务所需的原文本序列，确定执行辅助训练任务所需的辅助文本序列，包括：
[0219]
对所述原文本序列中部分序列内容进行文本遮盖处理，将遮盖后的文本与随机选取文本，组成用于进行文本语义对比学习的辅助文本序列。
[0220]
根据本公开的一个或多个实施例，示例8根据示例2或7所述的方法，将所述辅助文本序列输入到语音翻译模型执行所述语音翻译训练任务的辅助训练任务，得到所述辅助训练任务的损失函数得分，包括：
[0221]
将所述辅助文本序列输入到所述语音翻译模型的文本编码器；
[0222]
将所述文本编码器提取的结束符对应的隐层状态送入所述语音翻译模型的多层感知器，通过多层感知器的暂退层输出所述辅助文本序列的文本语义表示；
[0223]
通过所述辅助文本序列中遮盖后文本的文本语义表示和随机选取文本的文本语义表示分别与原文本序列的文本语义表示的语义相似度，确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。
[0224]
根据本公开的一个或多个实施例，示例9根据示例8所述的方法，通过所述辅助文本序列中遮盖后文本的文本语义表示和随机选取文本的文本语义表示分别与原文本序列的文本语义表示的语义相似度，确定辅助训练任务中文本语义对比学习任务对应的损失函数得分，包括：
[0225]
将所述辅助文本序列中遮盖后文本的文本语义表示作为正样本与将原文本序列的文本语义表示作为原样本以组成第一样本对，通过计算第一样本对中正样本与原样本间的语义相似度确定按照第一样本对执行辅助训练任务中文本语义对比学习任务对应的第一损失函数得分；
[0226]
将所述辅助文本序列中随机选取文本的文本语义表示作为负样本与将原文本序列的文本语义表示作为原样本以组成第二样本对，通过计算第二样本对中负样本与原样本间的语义相似度确定按照第二样本对执行辅助训练任务中文本语义对比学习任务对应的第二损失函数得分；
[0227]
通过比对所述第一损失函数得分与所述第二损失函数得分确定辅助训练任务中文本语义对比学习任务对应的损失函数得分。
[0228]
根据本公开的一个或多个实施例，示例10根据示例2所述的方法，依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，包括：
[0229]
确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重；
[0230]
将语音翻译训练任务损失函数得分与各个辅助训练任务损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分；
[0231]
依据语音翻译模型的总损失函数得分，对所述语音翻译模型的网络参数进行调整。
[0232]
根据本公开的一个或多个实施例，示例11根据示例2所述的方法，依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，包括：
[0233]
依据执行所述语音翻译训练任务得到的损失函数得分，对所述语音翻译模型中语音翻译部分的网络参数进行单独调整；
[0234]
依据所述辅助训练任务的损失函数得分，对所述语音翻译模型中语音翻译部分的辅助训练部分的网络参数进行单独调整。
[0235]
根据本公开的一个或多个实施例，示例12根据示例11所述的方法，依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，还包括：
[0236]
在分别对所述语音翻译模型中语音翻译部分的网络参数与语音翻译部分的辅助训练部分的网络参数进行单独调整结束后，确定语音翻译训练任务的损失函数权重以及各个辅助训练任务的损失函数权重；
[0237]
将语音翻译训练任务的损失函数得分与各个辅助训练任务的损失函数得分，按照各自的损失函数权重进行损失融合，得到语音翻译模型的总损失函数得分；
[0238]
依据语音翻译模型的总损失函数得分，对所述语音翻译模型的网络参数进行调整。
[0239]
根据本公开的一个或多个实施例，示例13提供了一种语音翻译方法，语音翻译模型采用示例1-12任一所述的语音翻译模型的训练方法获得，所述语音翻译方法包括：
[0240]
获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列；
[0241]
将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
[0242]
根据本公开的一个或多个实施例，示例14提供了一种语音翻译模型的训练装置，所述训练装置包括：
[0243]
翻译任务控制模块，用于进入模型训练阶段后，控制语音翻译模型执行语音翻译训练任务；
[0244]
训练辅助控制模块，用于控制所述语音翻译模型同时执行所述语音翻译训练任务的辅助训练任务；
[0245]
多任务联合模块，用于依据所述语音翻译训练任务与所述辅助训练任务，对所述语音翻译模型的网络参数进行调整，得到训练更新后的语音翻译模型；
[0246]
其中，所述语音翻译训练任务用于对参与语音识别的原文本进行翻译，所述辅助训练任务用于弱化因语音识别偏差得到的文本与文本语义偏差对语音翻译模型产生的翻译偏差。
[0247]
根据本公开的一个或多个实施例，示例15提供了一种语音翻译装置，语音翻译模型采用示例1-12任一所述的语音翻译模型的训练方法获得，所述使用装置包括：
[0248]
获取模块，用于获取待翻译语音，并对待翻译语音进行语音识别得到经语音识别得到的待翻译文本序列；
[0249]
翻译模块，用于将经语音识别得到的待翻译文本序列输入到训练完成的语音翻译模型的语音翻译部分中，获得所述待翻译文本序列的译文。
[0250]
根据本公开的一个或多个实施例，示例16提供了一种电子设备，所述电子设备包括：
[0251]
至少一个处理器；以及
[0252]
与所述至少一个处理器通信连接的存储器；其中，
[0253]
所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行示例 1-12中任一项所述的语音翻译模型的训练方法或者示例13所述的语音翻译方法。
[0254]
根据本公开的一个或多个实施例，示例17提供了一种计算机可读介质，所述计算机可读介质存储有计算机指令，所述计算机指令用于使处理器执行时实现示例1-12中任一项所述的语音翻译模型的训练方法或者示例13所述的语音翻译方法。
[0255]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0256]
此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本
公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0257]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于多麦克风的语音识别方法及装置与流程

语音翻译模型的训练方法、语音翻译方法、装置及设备与流程

相关文献

最热文献