一种语音翻译方法、装置和用于语音翻译的装置与流程

2022-02-19 13:32:05 来源：中国专利 TAG：

1.本发明涉及智能控制技术领域，尤其涉及一种语音翻译方法、装置和用于语音翻译的装置。

背景技术：

2.传统的语音翻译系统大多采用级联的方式进行工作，即采用“语音识别拼断句文本翻译”的策略，语音识别和文本翻译独立进行。然而，由于语音识别过程中容易受到环境、说话人口音等因素的影响，往往会导致语音识别结果出现错误。在级联的语音翻译系统中，语音识别结果为文本翻译的源语言数据，错误的语音识别结果会直接导致最终的翻译结果错误。
3.由此可见，传统的语音翻译系统的容错性差，容易出现错误累积，导致系统的翻译准确度较低。

技术实现要素：

4.本发明实施例提供一种语音翻译方法、装置和用于语音翻译的装置，可以提高翻译结果的准确度。
5.为了解决上述问题，本发明实施例公开了一种语音翻译方法，所述方法包括：
6.确定待翻译的语音数据对应的音素序列和语音识别结果；
7.对所述语音识别结果进行翻译处理，得到第一结果数据；
8.对所述音素序列进行文本转换处理，得到第二结果数据；
9.基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
10.可选地，所述基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果，包括：
11.对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据；
12.基于所述第三结果数据确定所述语音数据对应的翻译结果。
13.可选地，所述对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据，包括：
14.确定所述第一结果数据的第一系数和所述第二结果数据的第二系数；
15.根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权重控制参数；
16.根据所述权重控制参数对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据。
17.可选地，所述确定待翻译的语音数据对应的音素序列和语音识别结果，包括：
18.将待翻译的语音数据输入至语音识别系统中进行语音识别处理，得到所述语音数据对应的语音识别结果，所述语音识别系统包括声学模型和语言模型；
19.提取所述声学模型的隐藏层状态；
20.基于所述隐藏层状态和预设的音素状态表，确定所述语音数据对应的音素序列，所述音素状态表包含隐藏层状态与音素序列之间的映射关系。
21.可选地，所述对所述音素序列进行文本转换处理，得到第二结果数据，包括：
22.基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型；
23.基于目标音素模型对所述音素序列进行文本转换处理，得到第二结果数据。
24.可选地，所述基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型，包括：
25.获取第一训练样本集和第二训练样本集，所述第一训练样本集包括预设数量级的文本序列，所述第二训练样本集包含真实音频对应的真实音素序列；
26.基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，所述第三训练样本集包括所述第一训练样本集中的各个文本序列，以及每个文本序列对应的音素序列；
27.根据所述第三训练样本集对预先构建的音素模型进行迭代训练，得到第一音素模型；
28.基于所述第二训练样本集对所述第一音素模型的模型参数进行调整，得到目标音素模型。
29.可选地，所述基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，包括：
30.根据文本序列与音素序列之间的映射关系，生成文本音素对应表；
31.基于所述文本音素对应表对预先构建的音素预训练模型进行迭代训练，得到训练完成的音素预训练模型；
32.将所述第一训练样本集中的各个文本序列输入至训练完成的音素预训练模型中进行音素转换处理，得到所述第一训练样本集中各个文本序列对应的音素序列；
33.根据所述第一训练样本集以及所述第一训练样本集中各个文本序列对应的音素序列，生成第三训练样本集。
34.另一方面，本发明实施例公开了一种语音翻译装置，所述装置包括：
35.语音识别结果确定模块，用于确定待翻译的语音数据对应的音素序列和语音识别结果；
36.翻译处理模块，用于对所述语音识别结果进行翻译处理，得到第一结果数据；
37.文本转换处理模块，用于对所述音素序列进行文本转换处理，得到第二结果数据；
38.翻译结果确定模块，用于基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
39.可选地，所述翻译结果确定模块，包括：
40.加权求和子模块，用于对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据；
41.翻译结果确定子模块，用于基于所述第三结果数据确定所述语音数据对应的翻译结果。
42.可选地，所述加权求和子模块，包括：
43.系数确定单元，用于确定所述第一结果数据的第一系数和所述第二结果数据的第
二系数；
44.权重控制参数确定单元，用于根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权重控制参数；
45.加权求和单元，用于根据所述权重控制参数对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据。
46.可选地，所述语音识别结果确定模块，包括：
47.语音识别处理子模块，用于将待翻译的语音数据输入至语音识别系统中进行语音识别处理，得到所述语音数据对应的语音识别结果，所述语音识别系统包括声学模型和语言模型；
48.隐藏层状态提取子模块，用于提取所述声学模型的隐藏层状态；
49.音素序列确定子模块，用于基于所述隐藏层状态和预设的音素状态表，确定所述语音数据对应的音素序列，所述音素状态表包含隐藏层状态与音素序列之间的映射关系。
50.可选地，所述文本转换处理模块，包括：
51.音素模型训练子模块，用于基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型；
52.文本转换处理子模块，用于基于目标音素模型对所述音素序列进行文本转换处理，得到第二结果数据。
53.可选地，所述音素模型训练子模块，包括：
54.训练样本集获取单元，用于获取第一训练样本集和第二训练样本集，所述第一训练样本集包括预设数量级的文本序列，所述第二训练样本集包含真实音频对应的真实音素序列；
55.第三训练样本集生成单元，用于基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，所述第三训练样本集包括所述第一训练样本集中的各个文本序列，以及每个文本序列对应的音素序列；
56.迭代训练单元，用于根据所述第三训练样本集对预先构建的音素模型进行迭代训练，得到第一音素模型；
57.参数调整单元，用于基于所述第二训练样本集对所述第一音素模型的模型参数进行调整，得到目标音素模型。
58.可选地，所述第三训练样本集生成单元，包括：
59.文本音素对应表生成子单元，用于根据文本序列与音素序列之间的映射关系，生成文本音素对应表；
60.音素预训练模型训练子单元，用于基于所述文本音素对应表对预先构建的音素预训练模型进行迭代训练，得到训练完成的音素预训练模型；
61.音素转换处理子单元，用于将所述第一训练样本集中的各个文本序列输入至训练完成的音素预训练模型中进行音素转换处理，得到所述第一训练样本集中各个文本序列对应的音素序列；
62.第三训练样本集生成子单元，用于根据所述第一训练样本集以及所述第一训练样本集中各个文本序列对应的音素序列，生成第三训练样本集。
63.再一方面，本发明实施例公开了一种用于语音翻译的装置，所述装置包括有存储
器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如前述一个或多个所述的语音翻译方法的指令。
64.又一方面，本发明实施例公开了一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如前述一个或多个所述的语音翻译方法。
65.本发明实施例包括以下优点：
66.本发明实施例在确定待翻译的语音数据对应的语音识别结果之后，对所述语音识别结果进行翻译处理，得到第一结果数据，并通过引入待翻译的语音数据对应的音素序列，利用对所述音素序列进行文本转换处理得到的第二结果数据，对所述第一结果数据进行校正，基于第一结果数据和第二结果数据共同确定最终的翻译结果，降低了语音识别结果对翻译结果的影响，避免了语音翻译系统中的错误累计，故可以有效提升语音翻译系统整体的容错性和鲁棒性，提高翻译结果的准确度。
附图说明
67.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
68.图1是本发明的一种语音翻译方法实施例的步骤流程图；
69.图2是本发明的一种语音翻译方法的应用场景架构图；
70.图3是本发明的一种语音翻译系统的结构示意图；
71.图4是本发明的一种语音翻译装置实施例的结构框图；
72.图5是本发明的一种用于语音翻译的装置800的框图；
73.图6是本发明的一些实施例中服务器的结构示意图。
具体实施方式
74.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
75.方法实施例
76.参照图1，示出了本发明的一种语音翻译方法实施例的步骤流程图，所述方法具体可以包括如下步骤：
77.步骤101、确定待翻译的语音数据对应的音素序列和语音识别结果。
78.步骤102、对所述语音识别结果进行翻译处理，得到第一结果数据。
79.步骤103、对所述音素序列进行文本转换处理，得到第二结果数据。
80.步骤104、基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
81.参照图2，示出了本发明实施例提供的语音翻译方法的应用场景架构图。如图2所
示，本发明实施例的应用场景可以包括终端设备201和服务器202。其中，终端设备201与服务器202之间通过无线或有线网络连接。终端设备201包括但不限于智能音箱、智能手表、智能家居等智能设备，智能机器人、ai人工客服、银行信用卡催单电话系统，以及具有语音交互功能的智能电话、移动电脑、平板电脑等电子设备。服务器202可提供相关的语音服务，如语音识别、语音合成等服务，服务器202可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。终端201和服务器202均可单独用于执行本发明实施例中提供的语音翻译方法，终端201和服务器202也可用于协同执行本发明实施例中提供的语音翻译方法。
82.在一种可能的应用场景下，用户与终端设备201进行交互，终端设备201将用户输入的语音数据发送给服务器202。服务器202对终端设备201发送的语音数据执行本发明实施例提供的语音翻译方法，得到所述语音数据对应的翻译结果，并将所述翻译结果发送给终端设备201，终端设备201进行显示或者执行针对所述翻译结果的操作指令。
83.需要说明的是，本发明实施例中的架构图是为了更加清楚地说明本发明实施例中的技术方案，并不构成对本发明实施例提供的技术方案的限制，对于其他的应用场景架构和业务应用，本发明实施例提供的技术方法对于类似的问题，同样适用。
84.其中，待翻译的语音数据和所述语音数据对应的翻译结果的语种，可以为汉语、英语、法语、意大利语、德语等任意语种，当然也可以是任一的方言，在本发明实施例中，对待翻译的语音数据的语种和翻译结果的语种不做限制。同样，本发明实施例也不限制待翻译的语音数据的长度，比如，所述语音数据可以为一句话，或多句话等。并且，所述语音数据可以包括有效语音片段和带噪语音片段，也可以包含多个不同说话人对应的语音片段，等等。
85.在本发明实施例中，可以基于预先训练的语音识别模型，或者，语音识别系统，对所述语音数据进行语音识别处理，得到所述待翻译的语音数据对应的语音识别结果。其中，所述语音识别模型和所述语音识别系统均用于对输入的语音数据进行识别处理，识别所述语音数据对应的文本信息，得到语音识别结果。
86.示例性地，所述语音识别模型可以为神经网络模型，比如cnn(convolutional neural networks，卷积神经网络)模型、rnn(recurrent neural networks，循环神经网络)模型等。当然，所述语音识别模型也可以采用其他神经网络模型，本发明实施例对所述语音识别模型的模型结构不做具体限定。
87.所述语音识别系统可以由两个或两个以上用于语音处理的神经网络模型组合而成。例如，所述语音识别系统可以由前端的语音增强模型和后端的语言模型组合而成，其中，语音增强模型用于对输入的带噪语音数据进行增强处理，得到相对干净的语音数据。语言模型用于对输入的语音数据进行识别处理，识别出语音数据对应的文本信息。或者，所述语音识别系统可以由语言模型和声学模型组合，其中，语言模型用于对输入的语音数据进行识别处理，识别出语音数据对应的文本信息；声学模型可以为端到端的dnn(deep neural networks，深度神经网络)模型，用于对输入的语音数据进行音素识别，识别出语音数据对应的音素特征。所述语言模型与所述声学模型可以采用级联的方式进行组合得到语音识别系统，也可以采用端到端的连接方式进行组合，得到语音识别系统。同样，本发明实施例对语音识别系统的具体组成结构和组合方式不做具体限定。
88.可以理解，对于所述语音识别系统，可以根据精度要求等条件灵活选择每个环节所采用的模型，如此，每个环节均可采用最优配置，而不需要妥协任意一个环节的性能。换
而言之，本发明实施例中语音识别系统中涉及的语音增强模型和语言模型，或者，语音模型和声学模型，可以分别自由选择擅长相应领域的专用模型。
89.其中，音素序列是由所述语音数据包含的各个音素组成的有序序列。音素是根据语音数据的自然属性划分出来的最小语音单位。针对同一文本内容，不同语种对应的音素不同，例如，中文对应的音素通常包含韵母、声母、整体认音节等；英文对应的音素通常包含元音音素、辅音音素等。需要说明的是，在本发明实施例中，所述音素序列对应的语种与所述语音数据对应的语种相同。
90.此外，从生理性质来看，一个发音动作形成一个音素，针对同一文本内容，不同的方言的发音动作不同，对应的音素也可能不同。从声学性质来看，音素是从音质角度划分出来的最小语音单元，针对同一文本内容，不同说话人的音调、音色等不同，对应的音素也可能不同。
91.需要说明的是，对于一段语音数据，无论该语音数据对应什么语种、包含几个说话人，该语音数据的音素特征是固定的，不随时间、空间、存储方式的变化而改变，也即，每一段语音数据对应唯一的音素序列。
92.在本发明实施例中，可以直接将待翻译的语音数据输入至预先训练的声学模型中进行音素识别处理，得到所述语音数据对应的音素序列；也可以在基于语言模型和声学模型组成的语音识别系统对所述语音数据进行语音识别处理的过程中，提取所述声学模型的隐藏层状态，以及所述声学模型的隐藏层状态确定所述语音数据对应的音素序列。
93.在本发明实施例中，确定待翻译的语音数据对应的语音识别结果之后，可以进一步基于预先训练的翻译模型对所述语音识别结果进行翻译处理，得到第一结果数据。其中，翻译模型用于将所述语音识别结果从一种语言翻译成另一种语言，可以基于神经网络，例如卷积神经网络或者循环神经网络等预先训练而成。需要说明的是，预先训练的翻译模型可以是源语言和目标语言固定的翻译模型，仅可用于将待翻译的语音识别结果从该翻译模型预置的源语言翻译成预置的目标语言，可以通过预先训练多个源语言和目标语言固定的翻译模型实现待翻译的语音数据的多语言实时翻译。当然，预先训练的翻译模型也可以是多语言翻译模型。此外，在本发明实施例中，还可以根据用户发出的操作指令确定目标语种，然后根据用户选择的目标语种对所述语音识别结果进行翻译处理，得到目标语种对应的第一结果数据。
94.音素与文本之间存在映射关系，根据音素与文本之间的映射关系，对所述音素序列进行文本转换处理，就可以得到第二结果数据。
95.所述第一结果数据是通过对语音识别结果进行翻译处理得到的，如果语音识别结果中存在识别错误，就会直接导致翻译的第一结果数据错误。因此，为了提高翻译结果的准确度，本发明实施例引入了音素序列对应的第二结果数据对所述第一结果数据进行校正，基于第一结果数据和第二结果数据共同确定最终的翻译结果，降低了语音识别结果对翻译结果的影响，可以有效提升语音翻译系统整体的容错性和鲁棒性，提高翻译结果的准确度。
96.例如，假设待翻译的语音数据对应的真实文本为：“i will bend to introduce more on machines”，由于语音识别过程存在问题，实际得到的语音识别结果为：“i well bend to introduce more on machines”，显然，“will”被错误识别为了“well”。对语音识别结果进行翻译，得到第一结果数据：“我很乐意介绍更多关于机器的知识”，翻译结果与语
音数据表达的真实内容之间存在偏差。此时，引入该语音数据对应的音素序列<baywihlbehnihntraxduwsmaoroomaxshiynz>，对该音素序列进行文本转换处理，得到第二结果数据：“我将介绍更多关于机器的知识”。通过第二结果数据对第一结果数据进行校正，就可以修正“will”的错误识别导致的翻译错误，得到正确的翻译结果。
97.同理，如果对音素序列进行文本转换处理的过程中出现问题，导致第二结果数据错误，可以利用第一结果数据对所述第二结果数据进行校正，得到最终的翻译结果。换言之，在本发明实施例中，基于语音识别结果和音素序列共同确定最终的翻译结果，降低了语音识别结果和音素序列对翻译结果的影响，避免了语音翻译系统中的错误累积，提升了语音翻译系统整体的容错性和鲁棒性，提高了翻译结果的准确度。
98.需要说明的是，在本发明实施例中，音素序列、语音识别结果对应的语种，均与待翻译的语音数据的语种保持一致。第一结果数据、第二结果数据以及所述语音数据对应的翻译结果均为同一语种。
99.在对所述音素序列进行文本转换处理时，可以直接依据目标语种对应的音素与文本的映射关系，确定第二结果数据。其中，所述目标语种为翻译结果对应的语种。
100.在本发明的一种可选实施例中，步骤101所述确定待翻译的语音数据对应的音素序列和语音识别结果，包括：
101.步骤s11、将待翻译的语音数据输入至语音识别系统中进行语音识别处理，得到所述语音数据对应的语音识别结果，所述语音识别系统包括声学模型和语言模型；
102.步骤s12、提取所述声学模型的隐藏层状态；
103.步骤s13、基于所述隐藏层状态和预设的音素状态表，确定所述语音数据对应的音素序列，所述音素状态表包含隐藏层状态与音素序列之间的映射关系。
104.其中，所述语言模型用于对输入的语音数据进行识别处理，识别出语音数据对应的文本信息。所述声学模型可以为端到端的dnn(deep neural networks，深度神经网络)模型，用于对输入的语音数据进行音素识别，识别出语音数据对应的音素特征。所述语言模型与所述声学模型可以采用级联的方式进行组合得到语音识别系统，也可以采用端到端的连接方式进行组合，得到语音识别系统。
105.在本发明实施例中，若采用语言模型与声学模型组成的语音识别系统对所述语音数据进行语音识别处理，可以通过直接提取所述声学模型的隐藏层状态，基于所述隐藏层状态与音素序列之间的映射关系确定所述语音数据对应的音素序列，无需再额外对所述语音数据进行音素特征分析，简化了处理流程。
106.在本发明的一种可选实施例中，步骤103所述对所述音素序列进行文本转换处理，得到第二结果数据，包括：
107.步骤s21、基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型；
108.步骤s22、基于目标音素模型对所述音素序列进行文本转换处理，得到第二结果数据。
109.在本发明实施例中，可以通过预先训练的音素模型对所述音素序列进行文本转换处理，得到第二结果数据，以提高处理效率和准确度。若要保证音素模型的准确度和鲁棒性，需要通过大规模的音频训练数据对应的音素序列，以及所述音频训练数据对应的文本
序列，对音素模型进行训练。然而，在实际应用中，相较于文本训练数据，音频训练数据的数据量小，无法满足音素模型的训练需求。因此，在本发明实施例中，引入了音素预训练模型对预先构建的音素模型进行迭代训练，所述音素训练模型用于将文本训练数据转化为音素序列，基于转化的音素序列对音素模型进行训练，无需大规模的音频训练数据也能保证最终得到的目标音素模型的准确度和鲁棒性。
110.在本发明的一种可选实施例中，步骤s21所述基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型，包括：
111.子步骤s211、获取第一训练样本集和第二训练样本集，所述第一训练样本集包括预设数量级的文本序列，所述第二训练样本集包含真实音频对应的真实音素序列；
112.子步骤s212、基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，所述第三训练样本集包括所述第一训练样本集中的各个文本序列，以及每个文本序列对应的音素序列；
113.子步骤s213、根据所述第三训练样本集对预先构建的音素模型进行迭代训练，得到第一音素模型；
114.子步骤s214、基于所述第二训练样本集对所述第一音素模型的模型参数进行调整，得到目标音素模型。
115.其中，所述第一训练样本集中包含大规模下文本序列，将所述第一训练样本集中各个文本序列输入至音素预训练模型中进行音素转换处理，就可以得到大量的音素序列。
116.根据所述第一训练样本集和所述第一训练样本集中各个文本序列对应的音素序列，得到第三训练样本集。第三训练样本集中包含的训练数据的量级较大，但用于模型训练的音素序列是基于文本序列直接转化得到的，并不是真实音频数据对应的音素序列，包含的音素特征信息比较单一，无法包含不同说话人、不同方言等场景下的音素变化信息，基于所述第三训练样本集训练得到的音素模型的鲁棒性较差。因此，在本发明实施例中，通过第二训练样本集中的真实音频数据对应的真实音素序列进一步对所述音素模型进行优化，得到鲁棒性更强的目标音素模型，从而在没有大规模的音频训练数据的情况下，保证最终得到的目标音素模型的准确度和鲁棒性。
117.在本发明的一种可选实施例中，子步骤s212所述基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，包括：
118.p11、根据文本序列与音素序列之间的映射关系，生成文本音素对应表；
119.p12、基于所述文本音素对应表对预先构建的音素预训练模型进行迭代训练，得到训练完成的音素预训练模型；
120.p13、将所述第一训练样本集中的各个文本序列输入至训练完成的音素预训练模型中进行音素转换处理，得到所述第一训练样本集中各个文本序列对应的音素序列；
121.p14、根据所述第一训练样本集以及所述第一训练样本集中各个文本序列对应的音素序列，生成第三训练样本集。
122.音素与文本之间存在映射关系，根据音素与文本之间的映射关系，可以预先生成文本音素对应表。需要说明的是，针对同一文本内容，不同语种对应的音素不同；不同的方言的发音动作不同，对应的音素也可能不同；并且，同说话人的音调、音色等不同，对应的音素也可能不同，因此，可以针对不同的语种、方言、说话人等，分别生成对应的文本音素对应
表。
123.基于文本音素对应表可以训练音素预训练模型，以便根据音素预训练模型将预设数量级的文本序列批量转换为音素序列，提高转换效率。
124.在本发明的一种可选实施例中，步骤104所述基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果，包括：
125.步骤s31、对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据；
126.步骤s32、基于所述第三结果数据确定所述语音数据对应的翻译结果。
127.参照图3，示出了本发明实施例提供的一种语音翻译系统的结构示意图。如图3所示，在本发明实施例中，利用翻译模型对语音识别系统输出的语音识别结果进行翻译处理，得到第一结果数据；同时，利用音素模型对提取的音素序列进行文本转换处理，得到第二结果数据。
128.其中，所述第一结果数据为所述翻译模型的解码器decoder输出的解码向量，所述第二结果数据为所述音素模型的解码器decoder输出的解码向量。在本发明实施例中，所述翻译模型和所述音素模型的模型结构可以相同，例如，如图3所示，所述翻译模型和所述音素模型均采用encoder
‑
decoder结构。这样就可以保证得到的第一结果数据和第二结果数据的数据结构相同，便于直接对第一结果数据和第二结果数据进行加权求和运算，得到第三结果数据。然后，利用图3所示的分类网络层对所述第三结果数据转换为翻译结果，也即，计算第三结果数据对应的分布概率，基于所述分布概率预测翻译结果。
129.在对所述第一结果数据和第二结果数据进行加权求和时，可以预先确定第二结果数据对应的权重系数，根据权重系数对第一结果数据和第二结果数据进行加权求和。例如，假设第二结果数据的权重系数为α，则所述第三结果数据可以表示为：
130.output3＝output1 α*output2131.(1)
132.其中，output1表示第一结果数据，output2表示第二结果数据，output3表示第三结果数据。权重系数α的取值可以根据实际需求进行设置，例如，可以取α＝0.3。
133.当前，也可以采用其他方式对所述第一结果数据和所述第二结果数据进行加权求和，对此，本发明实施例不做具体限定。
134.在本发明的一种可选实施例中，步骤s31所述对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据，包括：
135.子步骤s311、确定所述第一结果数据的第一系数和所述第二结果数据的第二系数；
136.子步骤s312、根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权重控制参数；
137.子步骤s313、根据所述权重控制参数对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据。
138.在本发明实施例中，可以根据实际需求直接设置第二结果数据的权重系数α，也可以先确定第一结果数据的第一系数和第二结果数据的第二系数，然后再根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权
重控制参数。具体的，可以基于全连接网络确定第一结果数据对应的第一系数和第二结果数据对应的第二系数。其中，第一系数和第二系数确定后保持不变，所述权重结果系数随着第一结果数据和所述第二结果数据的变化而变化。假设第一系数为w
a
，第二系数为w
a
，则所述第二结果数据的对应的权重系数α可以表示为：
139.α＝sigmod(w
a
*output1 w
b
*output2)
140.(2)
141.其中，sigmod(x)为阈值函数，sigmod(w
a
*output1 w
b
*output2)用于计算w
a
*output1 w
b
*output2在0
‑
1上的概率分布，也即权重系数α。
142.基于上述公式(2)就可以根据第一结果数据和第二结果数据实时动态调整第二结果数据的权重系数，保证语音翻译系统整体的稳定性和准确度。
143.当然，也可以采用其他方式计算第二结果数据的权重系数，上述公式(2)仅为一种示例性说明，并不构成对本发明实施例的限制。
144.综上，本发明实施例在确定待翻译的语音数据对应的语音识别结果之后，对所述语音识别结果进行翻译处理，得到第一结果数据，并引入待翻译的语音数据对应的音素序列，利用对所述音素序列进行文本转换处理得到的第二结果数据，对所述第一结果数据进行校正，基于第一结果数据和第二结果数据共同确定最终的翻译结果，降低了语音识别结果对翻译结果的影响，避免了语音翻译系统中的错误累计，可以有效提升语音翻译系统整体的容错性和鲁棒性，提高翻译结果的准确度。
145.需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。
146.装置实施例
147.参照图4，示出了本发明的一种语音翻译装置实施例的结构框图，所述装置可以包括：
148.语音识别结果确定模块401，用于确定待翻译的语音数据对应的音素序列和语音识别结果；
149.翻译处理模块402，用于对所述语音识别结果进行翻译处理，得到第一结果数据；
150.文本转换处理模块403，用于对所述音素序列进行文本转换处理，得到第二结果数据；
151.翻译结果确定模块404，用于基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
152.在本发明的一种可选实施例中，所述翻译结果确定模块，包括：
153.加权求和子模块，用于对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据；
154.翻译结果确定子模块，用于基于所述第三结果数据确定所述语音数据对应的翻译结果。
155.在本发明的一种可选实施例中，所述加权求和子模块，包括：
156.系数确定单元，用于确定所述第一结果数据的第一系数和所述第二结果数据的第二系数；
157.权重控制参数确定单元，用于根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权重控制参数；
158.加权求和单元，用于根据所述权重控制参数对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据。
159.在本发明的一种可选实施例中，所述语音识别结果确定模块，包括：
160.语音识别处理子模块，用于将待翻译的语音数据输入至语音识别系统中进行语音识别处理，得到所述语音数据对应的语音识别结果，所述语音识别系统包括声学模型和语言模型；
161.隐藏层状态提取子模块，用于提取所述声学模型的隐藏层状态；
162.音素序列确定子模块，用于基于所述隐藏层状态和预设的音素状态表，确定所述语音数据对应的音素序列，所述音素状态表包含隐藏层状态与音素序列之间的映射关系。
163.在本发明的一种可选实施例中，所述文本转换处理模块，包括：
164.音素模型训练子模块，用于基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型；
165.文本转换处理子模块，用于基于目标音素模型对所述音素序列进行文本转换处理，得到第二结果数据。
166.在本发明的一种可选实施例中，所述音素模型训练子模块，包括：
167.训练样本集获取单元，用于获取第一训练样本集和第二训练样本集，所述第一训练样本集包括预设数量级的文本序列，所述第二训练样本集包含真实音频对应的真实音素序列；
168.第三训练样本集生成单元，用于基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，所述第三训练样本集包括所述第一训练样本集中的各个文本序列，以及每个文本序列对应的音素序列；
169.迭代训练单元，用于根据所述第三训练样本集对预先构建的音素模型进行迭代训练，得到第一音素模型；
170.参数调整单元，用于基于所述第二训练样本集对所述第一音素模型的模型参数进行调整，得到目标音素模型。
171.在本发明的一种可选实施例中，所述第三训练样本集生成单元，包括：
172.文本音素对应表生成子单元，用于根据文本序列与音素序列之间的映射关系，生成文本音素对应表；
173.音素预训练模型训练子单元，用于基于所述文本音素对应表对预先构建的音素预训练模型进行迭代训练，得到训练完成的音素预训练模型；
174.音素转换处理子单元，用于将所述第一训练样本集中的各个文本序列输入至训练完成的音素预训练模型中进行音素转换处理，得到所述第一训练样本集中各个文本序列对应的音素序列；
175.第三训练样本集生成子单元，用于根据所述第一训练样本集以及所述第一训练样本集中各个文本序列对应的音素序列，生成第三训练样本集。
176.综上，本发明实施例在确定待翻译的语音数据对应的语音识别结果之后，对所述语音识别结果进行翻译处理，得到第一结果数据，并引入待翻译的语音数据对应的音素序列，利用对所述音素序列进行文本转换处理得到的第二结果数据，对所述第一结果数据进行校正，基于第一结果数据和第二结果数据共同确定最终的翻译结果，降低了语音识别结果对翻译结果的影响，避免了语音翻译系统中的错误累计，可以有效提升语音翻译系统整体的容错性和鲁棒性，提高翻译结果的准确度。
177.对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
178.本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
179.关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
180.本发明实施例提供了一种用于语音翻译的装置，所述装置包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：
181.a11、确定待翻译的语音数据对应的音素序列和语音识别结果；
182.a12、对所述语音识别结果进行翻译处理，得到第一结果数据；
183.a13、对所述音素序列进行文本转换处理，得到第二结果数据；
184.a14、基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
185.可选地，所述基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果，包括：
186.对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据；
187.基于所述第三结果数据确定所述语音数据对应的翻译结果。
188.可选地，所述对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据，包括：
189.确定所述第一结果数据的第一系数和所述第二结果数据的第二系数；
190.根据所述第一结果数据、所述第二结果数据、所述第一系数和所述第二系数，确定所述第二结果数据对应的权重控制参数；
191.根据所述权重控制参数对所述第一结果数据和所述第二结果数据进行加权求和，得到第三结果数据。
192.可选地，所述确定待翻译的语音数据对应的音素序列和语音识别结果，包括：
193.将待翻译的语音数据输入至语音识别系统中进行语音识别处理，得到所述语音数据对应的语音识别结果，所述语音识别系统包括声学模型和语言模型；
194.提取所述声学模型的隐藏层状态；
195.基于所述隐藏层状态和预设的音素状态表，确定所述语音数据对应的音素序列，所述音素状态表包含隐藏层状态与音素序列之间的映射关系。
196.可选地，所述对所述音素序列进行文本转换处理，得到第二结果数据，包括：
197.基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型；
198.基于目标音素模型对所述音素序列进行文本转换处理，得到第二结果数据。
199.可选地，所述基于音素预训练模型对预先构建的音素模型进行迭代训练，得到目标音素模型，包括：
200.获取第一训练样本集和第二训练样本集，所述第一训练样本集包括预设数量级的文本序列，所述第二训练样本集包含真实音频对应的真实音素序列；
201.基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，所述第三训练样本集包括所述第一训练样本集中的各个文本序列，以及每个文本序列对应的音素序列；
202.根据所述第三训练样本集对预先构建的音素模型进行迭代训练，得到第一音素模型；
203.基于所述第二训练样本集对所述第一音素模型的模型参数进行调整，得到目标音素模型。
204.可选地，所述基于所述第一训练样本集和音素预训练模型，生成第三训练样本集，包括：
205.根据文本序列与音素序列之间的映射关系，生成文本音素对应表；
206.基于所述文本音素对应表对预先构建的音素预训练模型进行迭代训练，得到训练完成的音素预训练模型；
207.将所述第一训练样本集中的各个文本序列输入至训练完成的音素预训练模型中进行音素转换处理，得到所述第一训练样本集中各个文本序列对应的音素序列；
208.根据所述第一训练样本集以及所述第一训练样本集中各个文本序列对应的音素序列，生成第三训练样本集。
209.图5是根据一示例性实施例示出的一种用于语音翻译的装置800的框图。例如，装置800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。
210.参照图5，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。
211.处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。
212.存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。
213.电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系
units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。
222.服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
223.一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行图1所示的语音翻译方法。
224.一种非临时性计算机可读存储介质，当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时，使得装置能够执行一种语音翻译方法，所述方法包括：确定待翻译的语音数据对应的音素序列和语音识别结果；对所述语音识别结果进行翻译处理，得到第一结果数据；对所述音素序列进行文本转换处理，得到第二结果数据；基于所述第一结果数据和所述第二结果数据确定所述语音数据对应的翻译结果。
225.本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
226.应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
227.以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
228.以上对本发明所提供的一种语音翻译方法、一种语音翻译装置和一种用于语音翻译的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：吸音材料及其制备方法和应用该吸音材料的扬声器与流程

一种语音翻译方法、装置和用于语音翻译的装置与流程

相关文献

最热文献