一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

翻译方法、装置、设备及可读存储介质与流程

2022-10-26 06:47:05 来源:中国专利 TAG:


1.本技术属于计算机技术领域,具体涉及一种翻译方法、一种翻译装置、一种电子设备以及一种可读存储介质。


背景技术:

2.随着经济全球化以及互联网的飞速发展,机器翻译技术在促进政治、经济、文化交流等方面起到越来越重要的作用。
3.机器翻译技术运用语言学原理,借助深度学习自动进行对应翻译,目前已经能够对待翻译语言进行正确的语义翻译。但是,机器翻译技术所翻译得到的译文的正确性仍有待加强。
4.例如,在待翻译语言为中文的“老师让你去学校”时,现有的机器翻译技术所翻译的韩语译文为“(老师)(学校)(去)(让你)”。若此时说话者为学生时,显然不符合用户在日常生活的使用需求。
5.因此,如何翻译出正确的韩语译文成为亟待解决的技术问题。


技术实现要素:

6.本技术实施例的目的是提供一种翻译方法、装置、设备及可读存储介质,能够解决如何翻译出正确的韩语译文成为亟待解决的技术问题。
7.第一方面,本技术实施例提供了一种翻译方法,该方法包括:
8.获取第一翻译文本;
9.获取所述第一翻译文本对应的第一敬语规范;
10.根据所述第一翻译文本以及所述第一敬语规范,输出所述第一翻译文本的译文。
11.第二方面,本技术实施例提供了一种翻译装置,包括:
12.第一获取模块,用于获取第一翻译文本;
13.第二获取模块,用于获取所述第一翻译文本对应的第一敬语规范;
14.输出模块,用于根据所述第一翻译文本以及所述第一敬语规范,输出所述第一翻译文本的译文。
15.第三方面,本技术实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的翻译方法的步骤。
16.第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的翻译方法的步骤。
17.第五方面,本技术实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的翻译方法。
18.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介
质中,该程序产品被至少一个处理器执行以实现如第一方面所述的翻译方法。
19.在本技术实施例中,提供了一种翻译方法,该方法包括:获取第一翻译文本;获取第一翻译文本对应的第一敬语规范;根据第一翻译文本以及第一敬语规范,输出第一翻译文本的译文。通过第一敬语规范指示第一翻译文本的译文中包含符合场景的敬语表述。这样,基于第一翻译文本和第一敬语规范,得到的译文中包含符合场景的敬语表述,即可得到正确的译文。
附图说明
20.图1是本技术实施例提供的一种翻译方法的流程示意图;
21.图2是本技术实施例提供的一种最终输入训练好的翻译模型中的最终输入向量的示意图;
22.图3是本技术实施例提供的一种翻译模型的结构示意图;
23.图4是本技术实施例提供的一种第二训练样本的结构示意图;
24.图5a是本技术实施例提供的一种第一选取操作的示意图;
25.图5b是本技术实施例提供的一种中间译文的示意图;
26.图5c是本技术实施例提供的一种第一翻译文本的译文的示意图;
27.图6是本技术实施例提供的一种翻译装置的结构示意图;
28.图7是本技术实施例提供的一种电子设备的结构示意图;
29.图8为实现本技术实施例的一种电子设备的硬件结构示意图。
具体实施方式
30.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
31.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
32.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的翻译方法、装置、设备及可读存储介质进行详细地说明。
33.本技术实施例提供了一种翻译方法,如图1所示,该方法包括如下s1100-s1300:
34.s1100、获取第一翻译文本。
35.其中,第一翻译文本由用户输入。
36.可以理解的是,第一翻译文本为待翻译文本。第一翻译文本对应的语言不同于第一翻译文本对应的译文的语言。在本技术实施例中,第一翻译文本对应的译文的语言为可使用敬语表述的语言。例如,韩语、日语或藏语等。
37.在一个示例中,第一翻译文本的语言为中文,第一翻译文本对应的译文的语言可
以为韩语。
38.s1200、获取第一翻译文本的第一敬语规范。
39.其中,第一敬语规范用于指示第一翻译文本对应的译文是否需使用敬语表述。在需使用敬语表述的情况下,第一敬语规范还用于指示敬语类型。以及在敬语类型对应有不同等级的敬语的情况下,敬语规范还用于指示敬语类型对应的具体等级等。
40.在一个示例中,以第一翻译文本对应的译文的语言为韩语为例,敬语类型包括主语敬语、宾语敬语以及听者敬语,其中,听者敬语类型包括格式体的听者敬语和非格式体的听者敬语。基于此,第一敬语规范可以为:使用主语敬语、使用宾语敬语、使用非格式体的听者敬语、使用格式体的听者敬语。当然,第一敬语规范也可以为:不使用主语敬语、不使用宾语敬语以及不使用听者敬语。
41.其中,格式体的听者敬语包括尊敬阶、准平阶以及基本阶三个等级。非格式体的听者敬语包括准敬阶和非敬阶两个等级。
42.基于上述内容可知,对于一个第一翻译文本存在至少一个第一敬语规范。
43.在一个实施例中,上述s1200可通过用户指定以及根据第一翻译文本自动生成这两种方式来实现。
44.具体的,对于用户指定的方式,上述s1200的具体实现可以为:
45.示例性的,可显示所有敬语选项:主语敬语、宾语敬语、尊敬阶的格式体听者敬语、准平阶的格式体听者敬语、基本阶的格式体敬语、准敬阶的非格式体敬语以及非敬阶的非格式体敬语。由用户选中满足自身需求的至少选项。基于用户的选中操作,获取第一翻译文本的第一敬语规范。
46.对于根据第一翻译文本自动生成的方式,上述s1200的具体实现可以为如下三种方式:
47.第一种方式,上述s1200可通过如下s1210和s1211来实现:
48.s1210、根据第一翻译文本,确定第一翻译文本的成分。
49.在一个实施例中,上述s1210的具体实现可以为:使用语法分析,确定出第一翻译文本的句法结构;使用序列标注,对第一翻译文本中的每一词汇进行标注拆解;基于确定出的第一翻译文本的句法结构和标注,确定出第一翻译文本的成分。
50.在一个示例中,以第一翻译文本为“老师让你去学校”为例,根据语法分析,可确定出该第一翻译文本的句法结构为主谓宾结构。根据序列标注,对待翻译文本进行标注拆解,以将待翻译文本标注拆解为“老师”、“让你”、“去”“学校”四个词汇;基于确定出的主谓宾结构,以及所标注拆解出的“老师”、“让你”、“去”“学校”四个词汇,确定出第一翻译文本的成分为:主语“老师”、谓语“让你”、谓语“去”以及宾语“学校”。
51.在另一个实施例中,上述s1210的具体实现还可以为:将第一翻译文本输入至文本序列标注模型中,由文本序列标注模型输出第一翻译文本的成分。
52.其中,文本序列标注模型根据多组训练样本训练得到。一组训练样本中包括一个样本文本,以及该样本文本的成分。以及,其中,样本文本为与第一翻译文本语言相同的具有完整句法结构的语料,或者与第一翻译文本语言相同的短语的语料。
53.s1211、在第一翻译文本的成分包括目标成分的情况下,根据第一翻译文本中目标成分对应的词汇,确定第一敬语规范。
54.其中,目标成分为存在需使用敬语表述的可能性的成分。
55.在一个示例中,以第一翻译文本对应的译文的语言为韩语的情况下,目标成分为主语成分和宾语成分中的至少一个。基于此,在目标成分包括主语成分的情况下,上述s1200中的第一敬语规范具体为:指示是否使用主语敬语的敬语表述的敬语规范。对应的,在目标成分包括宾语成分的情况下,上述s1200中的第一敬语规范具体为:指示是否使用宾语敬语的敬语表述的敬语规范。
56.在本实施例中,在第一翻译文本的成分中包括目标成分的情况下,说明第一翻译文本对应的译文存在需使用敬语表述的可能性。此时,根据第一翻译文本中目标成分对应的词汇,确定第一敬语规范。
57.在一个实施例中,上述s1211的具体实现可以为:
58.根据目标成分对应的词汇以及第一映射关系表,在第一映射关系表中找查找与目标成分对应的词汇相匹配的词汇;在查找到的词汇属于需使用敬语表述的词汇集中的词汇时,确定敬语规范为:使用目标成分对应的敬语类型;在查找到的词汇属于无需使用敬语的词汇集中的词汇时,确定敬语规范为:不使用目标成分对应的敬语类型。
59.在一个示例中,在目标成分为:主语“老师”的情况下,使用目标成分对应的敬语类型具体为:使用主语敬语。
60.其中,第一映射关系表中包括有两个词汇集,其中一个词汇集为需使用敬语表述的词汇集,另一个词汇集为无需使用敬语表述的词汇集。以及,在第一映射关系表中找查找与目标成分对应的词汇相匹配的词汇的具体实现可以为:通过模糊匹配的方式,在第一映射关系表中找查找与目标成分对应的词汇相匹配的词汇。
61.在一个示例中,以第一翻译文本的译文的语言为韩语为例,需要使用敬语表述的词汇集中包括的词汇可以为:父母、老师、领导、上司以及历史人物等长辈词汇,以及学长、学姐、年长的同事等前辈的词汇。对应的,无需使用敬语表述的词汇集中包括的词汇可以为:儿孙、下属等晚辈的词汇。
62.第二种方式,通过如下s1220-s1222来实现:
63.s1220、根据第一翻译文本,确定第一翻译文本的成分。
64.需要说明的是,上述s1220的具体实现和上述s1210的具体实现类似,这里不再赘述。
65.s1221、在第一翻译文本的成分中包括目标成分的情况下,确定第一翻译文本中目标成分对应的词汇的词性。
66.需要说明的是,上述s1221中的目标成分与上述s1211中的目标成分说明相同,这里不再赘述。
67.在本实施例中,可根据词性判断方法,确定出目标成分对应的词汇的词性。
68.s1222、根据词性,确定第一敬语规范。
69.在本实施例中,上述s122的具体实现可以为:在词性为名词或代词的情况下,确定敬语规范为:使用目标成分对应的敬语类型;否则,确定敬语要求为:不使用目标成分对应的敬语类型。
70.在一个示例中,若目标成成分为:主语“老师”,由于“老师”是名词,因此,确定第一敬语规范为:使用主语敬语。
71.第三种方式,通过如下s1231和s1232来实现:
72.s1231、根据第一翻译文本,确定第一翻译文本对应的场合。
73.在本实施例中,第一翻译文本对应的场合包括正式场合和非正式场合。
74.在本技术的一个实施例中,上述s1231的具体实现可以为:将第一翻译文本输入至场景分类模型中,由场景分类模型确定出第一翻译文本对应的场合。
75.其中,分类模型根据多组训练样本训练得到。一组训练样本中包括一个样本文本,以及该样本文本对应的场合。样本文本为与第一翻译文本的语言相同的口语语料或书面语语料。在此基础上,在样本文本为与第一翻译文本的语言相同的口语语料的情况下,该样本文本对应的场合为非正式场合。对应的,在样本文本与第一翻译文本的语言相同的书面语语料的情况下,该样本文本对应的场合为正式场合。
76.s1232、根据场合,确定第一敬语规范。
77.在本实施例中,在场合为正式场合的情况下,确定第一敬语规范为:使用格式体的听者敬语。对应的,在场合为非正式场合的情况下,确定使用非格式体的听者敬语。
78.进一步的,在场合为正式场合的情况下,确定第一敬语规范为使用格式体的听者敬语中的准平阶。以及,在场合为非正式场合的情况下,确定第一敬语规范为使用非格式体的听者敬语中的准敬阶。
79.s1300、根据第一翻译文本以及敬语规范,输出第一翻译文本的译文。
80.在一个实施例中,上述s1300的具体实现可以为:根据第一翻译文本,确定第一翻译文本对应的包含所有敬语表述的译文组;从译文组中选取与敬语要求相匹配的译文并输出。
81.在本技术实施例中,提供了一种翻译方法,该方法包括:获取第一翻译文本;获取第一翻译文本对应的第一敬语规范;根据第一翻译文本以及第一敬语规范,输出第一翻译文本的译文。通过第一敬语规范指示第一翻译文本的译文中包含符合场景的敬语表述。这样,基于第一翻译文本和第一敬语规范,得到的译文中包含符合场景的敬语表述,即可得到正确的译文。
82.在译文对应的语言为韩语的情况下,基于本技术实施例提供的翻译方法可翻译出包含符合场景的敬语表述的正确的译文。
83.在另一个实施例中,上述s1300可通过如下s1310-1和s1310-5来实现:
84.s1310-1、基于训练好的翻译模型,确定第一翻译文本中每一成分的词向量、位置向量以及对应第一敬语规范的敬语向量。
85.在本实施例中,上述s1310-1中的翻译模型具体为改进的transformer模型。具体的,如图3所示,本技术实施例中改进的transformer模型为在原transformer模型包括一个输入层的基础上再增加一个输入层,即包括两个输入层。其中一个输入层用于接收第一翻译文本,以计算第一翻译文本中每一成分的词向量和位置向量。另一个输入层用于接收第一敬语规范,以计算第一敬语规范对应的敬语向量。在此基础上,上述s1310-1的具体实现包括下述s1310-10和s1310-11:
86.s1310-10、将第一翻译文本输入至第一输入层,得到第一翻译文本中每一成分的词向量及位置向量。
87.在本技术实施例中,第一输入层可利用word2vec、glove算法计算得到每一成分的
block输出的编码信息矩阵中学习每个单词与其他单词的相关性,从而得到多个注意力向量。进一步的,add&norm将前述多个注意力向量平均化并应用归一化以简化优化,之后传递至feed forward。feed forward将接收到向量转换为下一个encoder block或解码器可读的维度,即输出对应的编码信息矩阵。
103.其中,多头自注意力层multi-headattention采用的是一种scaleddot-productattention的计算方式,实验结果表明,multi-head可以在更细致的层面上提取不同head的特征,比单一head提取特征的效果更佳。该子层的多头注意力机制,利用不同的子空间的线性变换,学习到单词的不同表示,扩展了模型关注不同位置的能力,增强了注意力机制对关注句子内部单词之间作用的表达能力。
104.前馈全连接层feedforward是由两个全连接层组成,线性变换中间增添一个relu激活函数。multi-headattention进行的都是线性变换,全连接层将数据映射到高维空间再映射到低维空间,通过激活函数非线性变化可以学习到更加抽象的特征,即该feed forward层使得单词表示的表达能力更强,更加能够表示单词与上下文中其他单词之间的作用关系。
105.add表示残差连接,作用是为了将信息无损耗的传递的更深,来增强模型的拟合能力。
106.norm表示layer norm,层级别的数值标准化操作,作用是防止参数过大过小导致的学习过程异常,模型收敛特别慢的问题。
107.s1310-4、将编码信息矩阵和叠加向量输入至解码器中,得到成分对应的第一子译文。
108.在本技术的一个实施例中,上述s1310-4的具体实现可以为:
109.解码器接收编码信息矩阵后,首先输入一个开始字符,根据编码信息矩阵以及经过第一掩码处理的叠加向量,预测第一翻译文本中第一个成分对应的第一子译文;然后继续输入一个开始字符,根据编码信息矩阵、经过第二掩码处理的叠加向量以及已经预测出的第一子译文的向量,得到第二个成分对应的第一子译文;依次类推,得到每一成分对应的第一子译文。
110.其中,第一掩码处理的叠加向量为:将叠加向量中属于第一翻译文本中第一个成分之后的成分的向量进行掩码而得到的向量。同理,第二掩码处理的叠加向量为:将叠加向量中属于第一翻译文本中第二个成分之后的成分的向量进行掩码而得到的向量。
111.其中,解码器包含6个decoder block。每个decoder block包含3个层,分别是mask multi-headattention、multi-headattention、和feedforward。
112.以及,前一层的decoder block的输出作为下一层的decoder block的输入,具体的:
113.对于第一个decoder block,根据接收编码信息矩阵以及已经预测出的第一子译文的向量,得到第一个decoder block输出的解码信息矩阵;
114.对于第二个decoder block,接收第一个decoder block输出的解码信息矩阵,对其和编码信息矩阵进行解码处理,得到第二个decoder block输出的解码信息矩阵;
115.对于第三个decoder block,接收第二个decoder block输出的解码矩信息阵,对其和编码信息矩阵进行解码处理,得到第三个decoder block输出的解码信息矩阵;
116.对于第四个decoder block,接收第三个decoder block输出的解码信息矩阵,对其和编码信息矩阵进行解码处理,得到第四个decoder block输出的解码信息矩阵;
117.对于第五个decoder block,接收第五个decoder block输出的解码信息矩阵,对其和编码信息矩阵进行解码处理,得到第五个decoder block输出的解码信息矩阵;
118.对于第六个decoder block,接收第五个decoder block输出的解码信息矩阵,对其和编码信息矩阵进行解码处理,得到第六个decoder block输出的解码信息矩阵。
119.其中,对于mask multi-headattention:主要用以学习当前翻译和已经翻译的前文之间的关系;采用和multi-headattention一样计算方式,最大的区别在于需要遮掩“未来的信息”,将当前的单词和之后的单词全部掩码mask目的是对向量中某些值进行掩盖,避免无关位置的数值对运算造成影响。某一单词只能跟其之前的单词产生联系(因为当预测到某一单词时,其后的单词还是未知的),为了防止当前的生成的单词对未来的单词产生依赖性,在计算注意力时会屏蔽当前词后续的词。
120.对于multi-head attention,和mask multi-head attention最主要的区别在于将上一层decoder block的输出结果和编码器的输出结果作为输入进行计算;用以学习当前翻译和编码的特征向量之间的关系;接收编码器输出(包含了原始输入序列每个位置的编码信息)和解码器多头注意力机制输出的隐含向量经过线性变换后的结果,计算得到注意力权重矩阵和权重向量,该权重向量所表示的含义就是在解码时如何将注意力分配到输入的各个位置上。
121.对于,feed forward,与上述编码器中的feed forward中完全一样。
122.解码器通常还有一个线性变换层linear和softmax层,解码器最后会输出一个实数向量,即解码信息矩阵。线性变换层是一个简单的全连接神经网络,它可以把解码器产生的解码信息矩阵投射到一个比它大得多的、被称作对数几率的向量里,概率最高的单元格被选中,并且它对应的单词被作为这个时间步的输出。
123.以及,解码器的通常也还包括add&norm层,接在每一个decoder block中的每一个子层的后面。且add&norm层与编码器中add&norm层的作用相同。
124.需要说明的是,图3中input对应于本技术实施例中第一翻译文本。input embedding表示词向量,positional encoding表示位置向量,honorific embedding表示敬语向量。shifted dright表示的是输入开始字符。output表示的是已预测出的第一子译文。output embedding表示已预测出的第一子译文的向量。
125.s1310-5、将每一第一自译文按照输出顺序排列,得到译文。
126.在上述实施例的基础上,本技术实施例提供的翻译方法在上述s1310-1之前,还包括如下步骤s1320-1至s1320-6:
127.s1320-1、获取第一训练样本集,第一训练样本集中包括多组第一训练样本,第一训练样本包括翻译样本文本以及未包含敬语的第一样本译文。
128.在本技术实施例中,第一训练样本中的翻译样本文本的语言和本技术实施例中的第一翻译文本的语言相同。且第一训练样本中的未包含敬语的第一样本译文的语言和本技术实施例中第一翻译文本的译文的语言相同。以及,第一训练样本中未包含敬语的第一样本译文可根据传统的机器翻译技术得到,或者人工翻译得到。
129.s1320-2、对于任一第一训练样本中的第一样本译文,分析第一样本译文的成分。
130.在本技术实施例中,上述s1320-2的具体实现和上述s1210的相关实现类似,这里不再赘述。
131.s1320-3、根据第一样本译文的成分以及第二敬语规范,生成至少一种包含敬语的第二样本译文。
132.在本技术实施例中,在翻译样本文本的译文对应的语言为韩语的情况下,第二敬语规范指的是韩语的敬语规则,该规则至少包括如下规则:
133.规则一、在表示人的名词后面添加
“‑
(表示尊敬的词尾,无实际词义)”,如
““
(先生)”的敬语形式为“(敬语表述的“先生”)”;
134.规则二、名词具有表示尊敬的意思,事物的所有者是需要尊敬的人物时,通过对事物的尊敬间接地对人表示尊敬。例如,下面的单词和普通形态不同,具有尊敬的语义,如
““
(人)”的敬语形式为“(敬语表述的“人”)”、“(饭)”的敬语形式为“(敬语表述的“饭”)”、“(话)”的敬语形式为“(敬语表述的“话”)”;
135.规则三、在人物的名词后面添加表示尊敬的助词
“‑
(人物的名词作主语时使用的敬语助词,无实际词义)、
”“‑
(人物的名词作宾语时使用的敬语助词,无实际词义)”。例如“(爸爸在医院)”,主语敬语使用
““
(给妈妈买了礼物)”,宾语敬语使用
136.规则四、名词本身具有自我贬低的意思,为了抬高对方,说话者除了可以向对方表示尊敬外,还可以贬低自己或自己的所属物来实现尊敬对方的效果,类似中文中谦辞的使用。说话者自我贬低的表达形式多为指人的代词,例如“(我)”的敬语形式为“(敬语表述的“我”)”、(你)的敬语形式为“(敬语表述的“你”)”、“(我们)”的敬语形式为“(敬语表述的“我们”)”等;
137.规则五、听者敬语(在谓语处使用)的使用方法可分为:
138.1、添加尊敬词尾,在用作谓语的动词、形容词以及“(是)”动词的后面添加词尾“(表示尊敬的词尾,无实际词义)”,以表示对句子主语的尊敬。具体的,在谓语的词干以元音结束时添加“(表示尊敬的词尾,无实际词义)”,以辅音结束时添加“(表示尊敬的词尾,无实际词义)”。
139.2、动词本身具有尊敬的意思,无需添加尊敬词尾。例如,下面是在使用时不需要添加词尾的动词,例如“(吃)”、的敬语形式为“(敬语表述的“吃”)”(睡觉)的敬语形式为“(敬语表述的“睡觉”)”、(有)的敬语形式为“(敬语表述的“有”)”、“(给)”的敬语形式为“(敬语表述的“给”)”等。
140.3、利用终结词尾表示敬语。说话者根据自身和听者之间的关系决定说话的等级,尊敬等级通过终结词尾表现出来。例如,韩语的语法结构为主宾谓,因此为谓语部分的规则。该等级根据说话的场合分为格式体和非格式体,另外,根据尊敬的程度还可以分为五个等级,即尊敬阶、准敬阶、准平阶、基本阶和不定阶,每个等级的尊敬程度使用不同终结词尾。如下表1所示,在不同句式中,各敬语有其特有的终结词尾。需要说明的是,下述表1中的
终结词尾用于表示尊敬而无实际词义。
141.表1
[0142][0143]
结合上述第二敬语规范的说明,上述s1310-12的具体实现为:确定第一样本译文的成分,是否属于上述敬语规则中规定需要增加敬语的成分;在属于需要增加的情况下,在第一样本译文中对应的成分后,按照的敬语规则增加该成分匹配的敬语表述,或将该成分替换为对应的具体敬语。
[0144]
示例性的,在第一样本译文的成分中包括:主语“(先生)”的情况下,基于上述s1320-3,生成的一个第二样本译文为:在第一样本译文中的“(先生)”后增加
[0145]
以及,在第一样本译文的成分中包括:主语“(人)”的情况下,基于上述s1320-3,生成的一个第二样本译文为:将第一样本译文中的“(人)”替换为“(敬语表述的“人”)”。
[0146]
s1320-4、对第二样本译文中的敬语进行标记。
[0147]
在本技术实施例中,上述s1320-4的具体实现可以为:将第二样本译文中的敬语标记为:敬语对应的敬语类型,以及在敬语类型对应有具体等级的情况下,标记为敬语对应的具体等级。
[0148]
例如,以翻译样本文本为“老师让你去学校”,第二样本译文为
““
(老师让你去学校)”为例,执行上述s1320-4后,得到“(老师-主语-主语敬语)(学校-宾语)(去-谓语)(让你-谓语-不定阶)”。
[0149]
s1320-5、将第一训练样本中的翻译样本与任一对敬语进行标记的第二样本译文词汇对齐后作为第二训练样本。
[0150]
在本技术中,词汇对齐指的是:将翻译文本与第二样本译文中对应的词汇建立一一对应关系。
[0151]
以翻译样本文本为“老师让你去学校”,第二样本译文为
““
(老师让你去学校)”为例,上述s1320-5的具体体现形式可如图4所示。
[0152]
s1320-6、根据第二训练样本对预设模型进行训练,获得训练好的翻译模型。
[0153]
在本技术实施例中,将第二训练样本输入至预设模型中,得到训练好的翻译模型。其中,预设模型可以为网络参数为默认参数的改进的transformer模型。
[0154]
在一个实施例中,上述s1200还可通过如下s1241至s1244来实现:
[0155]
s1241、获取用户针对于目标内容的第一选取操作。
[0156]
其中,目标内容为第一翻译文本中的词汇或短语。
[0157]
在本实施例中,用户对待翻译文本中自身认为需要使用敬语表述的词汇或短语进行选取,以实现输入第一选取操作。其中,第一选取操作可以为一个滑动操作。
[0158]
在一个示例中,如图5a所示,在待翻译文本为“老师让你去学校”的情况下,通过选中“老师”实现输入第一选取操作。在此基础上,将“老师”作为目标内容。
[0159]
在一个实施例中,若用户选中待翻译文本中的非词汇或非短语,或无敬语表述的词汇或短语,则输出选取错误的提示信息。
[0160]
s1242、根据目标内容,输出子译文列表。
[0161]
其中,子译文列表包括目标内容对应的至少一种包含敬语标识的第二子译文,敬语标识表示对应第二子译文是否使用敬语。以及,在目标内容对应有多种敬语表述时,敬语标识还用于表示对应第二子译文所使用的具体敬语。
[0162]
在本实施例中,以第一翻译文本的译文的语言为韩语为例,上述s1214-2的具体实现可以为:在目标内容为主语的情况下,将目标内容输入至主语翻译模型中,得到子译文列表。其中,子译文列表中包括敬语标识为主语敬语的主语译文,以及敬语标识为非主语敬语的主语译文;
[0163]
在目标内容为宾语的情况下,将目标内容输入至宾语翻译模型中,得到子译文列表。其中,子译文列表中包括敬语标识为宾语敬语的宾语译文,以及敬语标识为非宾语敬语的宾语译文;
[0164]
在目标内容为谓语的情况下,将目标内容输入至谓语翻译模型中,得到子译文列表。其中,子译文列表中包括敬语标识为谓语敬语的谓语译文,以及敬语标识为非谓语敬语的谓语译文。谓语敬语的谓语译文即为听者敬语的译文,非谓语敬语的谓语译文即为非听者敬语的译文。听者敬语的译文进一步的又包括:尊敬阶的听者译文、准平阶的听者译文、基本阶的听者译文、准敬阶的听者译文以及不定阶听者译文。
[0165]
s1243、获取用户针对于第二子译文列表中的目标第二子译文的第二选取操作。
[0166]
在本实施例中,用户基于译文列表中敬语标识,选取符合自身需求的敬语表述的第二子译文,并将其作为目标第二子译文。
[0167]
s1244、将目标第二子译文作为第一敬语规范。
[0168]
在本技术第一个实施例中,上述s1300具体包括如下步骤:
[0169]
s1330-1、利用占位符替换第一翻译文本中第一敬语规范对应的内容,得到翻译中间文本。
[0170]
在本技术实施例中,以第一敬语规范为上述s1244中的目标第二子译文的情况下,第一翻译文本中第一敬语规范对应的内容为:目标第二子译文对应的目标内容。
[0171]
在本技术实施例中,根据目标内容对应的具体成分不同,采用不同的占位符。具体的,在目标内容对应的具体成分为主语的情况下,占位符可采用
““
s_subject
””
。在目标内
容对应的具体成分为宾语的情况下,占位符可采用“s_object”。在目标内容对应的具体成分为谓语的情况下,占位符可采用“s_predicate”。
[0172]
基于上述图5a的示例,待翻译中间文本为:s_subject让你去学校。
[0173]
s1330-2、对第一翻译中间文本进行翻译,得到保留占位符的中间译文。
[0174]
在一个实施例中,上述s1330-2的具体实现可以为:将待翻译中间文本输入至传统的机器翻译技术中,得到保留占位符的中间译文。
[0175]
需要说明的是,在本实施例中,在训练传统的机器翻译技术的情况下,所使用的第三训练样本中,第三样本文本中包含上述的占位符,且该第三样本文本对应的译文中保留该占位符以实现不对该占位符进行翻译。即,传统的机器翻译技术具备不翻译占位符的能力。
[0176]
在本技术的一个实施例中,为了避免用户看到保留占位符的中间译文,本技术实施例提供的翻译方法在上述s1330-2之前还包括如下步骤:
[0177]
s1330-21、将中间译文中的占位符替换为子译文列表中的任一第二子译文,得到更新后的中间译文。
[0178]
在本技术的一个实施例中,上述s1330-21的具体实现可以为:将中间译文中的占位符替换为子译文列表中第一个第二子译文,得到更新后中间译文。这样,可使得用户看到的是完整的译文。基于此,在上述图5a的基础上,通过上述s1330-21,所输出的中间译文如图5b所示。
[0179]
s1330-3、将中间译文中的占位符替换为第一敬语规范,得到第一翻译文本的译文。
[0180]
在一个示例中,在上述图5a和图5b的基础上,通过上述s1330-3得到如图5c所示的第一翻译文本的译文。
[0181]
本技术实施例提供的翻译方法,执行主体可以为翻译装置。本技术实施例中以翻译装置执行翻译的方法为例,说明本技术实施例提供的翻译装置。
[0182]
如图6所示,本技术实施例提供的翻译装置600包括第一获取模块610、第二获取模块620以及输出模块630,其中:
[0183]
第一获取模块610,用于获取第一翻译文本;
[0184]
第二获取模块620,用于获取第一翻译文本对应的第一敬语规范;
[0185]
输出模块630,用于根据所述第一翻译文本以及所述第一敬语规范,输出所述第一翻译文本的译文。
[0186]
在一个实施例中,第二获取模块620具体用于:根据所述第一翻译文本,确定所述第一翻译文本的成分;
[0187]
在所述第一翻译文本的成分中包括目标成分的情况下,根据所述第一翻译文本中所述目标成分对应的词汇,确定第一敬语规范。
[0188]
在一个实施例中,第二获取模块620具体用于:根据所述第一翻译文本,确定所述第一翻译文本的成分;
[0189]
在所述第一翻译文本的成分中包括目标成分的情况下,确定所述第一翻译文本中所述目标成分对应的词汇的词性;
[0190]
根据所述词性,确定第一敬语规范。
[0191]
在一个实施例中,第二获取模块620具体用于:根据所述第一翻译文本,确定所述第一翻译文本对应的场合;
[0192]
根据所述场合,确定第一敬语规范。
[0193]
在一个实施例中,输出模块630具体用于:基于训练好的翻译模型,确定所述第一翻译文本中每一成分的词向量、位置向量以及对应第一敬语规范的敬语向量;
[0194]
将所述第一翻译文本中的每一成分的词向量、位置向量以及所述敬语向量输入所述向量叠加层,得到叠加向量;
[0195]
将所述叠加向量输入至编码器中,得到编码信息矩阵;
[0196]
将所述编码信息矩阵和所述叠加向量输入至解码器中,得到所述成分对应的第一子译文;
[0197]
将每一所述第一子译文按照输出顺序排列,得到所述译文。
[0198]
在一个实施例中,本技术实施例提供的翻译装置600还包括训练模块,所述训练模块用于:
[0199]
获取第一训练样本集,所述第一训练样本集中包括多组第一训练样本,所述第一训练样本包括翻译样本文本以及未包含敬语的第一样本译文;
[0200]
对于任一第一训练样本中的所述第一样本译文,分析所述第一样本译文的成分;
[0201]
根据所述第一样本译文的成分以及第二敬语规范,生成至少一种包含敬语的第二样本译文;
[0202]
对所述第二样本译文中的敬语进行标记;
[0203]
将所述第一训练样本中的所述翻译样本文本与任一对敬语进行标记的所述第二样本译文词汇对齐后作为第二训练样本;
[0204]
根据所述第二训练样本对预设模型进行训练,获得所述训练好的翻译模型。
[0205]
在一个实施例中,输出模块630具体用于:
[0206]
利用占位符替换所述第一翻译文本中第一敬语规范对应的内容,得到翻译中间文本;
[0207]
对所述翻译中间文本进行翻译,得到保留所述占位符的中间译文;
[0208]
将所述中间译文中的所述占位符替换为所述第一敬语规范,得到第一翻译文本的译文。
[0209]
在本技术实施例中,提供了一种翻译装置,该装置包括:第一获取模块,用于获取第一翻译文本;第二获取模块,用于获取第一翻译文本对应的第一敬语规范;输出模块,用于根据第一翻译文本以及第一敬语规范,输出第一翻译文本的译文。通过敬语规范指示第一翻译文本的译文中包含符合场景的敬语表述。这样,基于第一翻译文本和第一敬语规范,得到的译文中包含符合场景的敬语表述,即可得到正确的译文。
[0210]
本技术实施例中的翻译装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(mobile internet device,mid)、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可
以为服务器、网络附属存储器(networkattached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
[0211]
本技术实施例中的翻译装置可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
[0212]
本技术实施例提供的翻译装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
[0213]
可选地,如图7所示,本技术实施例还提供一种电子设备700,包括处理器701和存储器702,存储器702上存储有可在所述处理器701上运行的程序或指令,该程序或指令被处理器601执行时实现上述翻译方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0214]
需要说明的是,本技术实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
[0215]
图8为实现本技术实施例的一种电子设备的硬件结构示意图。
[0216]
该电子设备1000包括但不限于:射频单元1001、网络模块1002、音频输出单元1003、输入单元1004、传感器1005、显示单元1006、用户输入单元1007、接口单元1008、存储器1009、以及处理器1010等部件。
[0217]
本领域技术人员可以理解,电子设备1000还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器1010逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
[0218]
其中,处理器1010,用于获取第一翻译文本;
[0219]
获取所述第一翻译文本对应的第一敬语规范;
[0220]
根据所述第一翻译文本以及所述第一敬语规范,输出所述第一翻译文本的译文。
[0221]
在本技术实施例中,提供了一种电子设备,该电子设备中的处理器用于:获取第一翻译文本;获取第一翻译文本对应的第一敬语规范;根据第一翻译文本以及第一敬语规范,输出第一翻译文本的译文。通过第一敬语规范指示第一翻译文本的译文中包含符合场景的敬语表述。这样,基于第一翻译文本和第一敬语规范,得到的译文中包含符合场景的敬语表述,即可得到正确的译文。在译文对应的语言为韩语的情况下,基于本技术实施例提供的翻译方法可翻译出包含符合场景的敬语表述的正确的译文。
[0222]
可选地,处理器1010,具体用于:
[0223]
根据所述第一翻译文本,确定所述第一翻译文本的成分;
[0224]
在所述第一翻译文本的成分中包括目标成分的情况下,根据所述第一翻译文本中所述目标成分对应的词汇,确定第一敬语规范。
[0225]
可选地,处理器1010,具体用于:
[0226]
根据所述第一翻译文本,确定所述第一翻译文本的成分;
[0227]
在所述第一翻译文本的成分中包括目标成分的情况下,确定所述第一翻译文本中
所述目标成分对应的词汇的词性;
[0228]
根据所述词性,确定第一敬语规范。
[0229]
可选地,处理器1010,具体用于:
[0230]
根据所述第一翻译文本,确定所述第一翻译文本对应的场合;
[0231]
根据所述场合,确定第一敬语规范。
[0232]
可选地,处理器1010,具体用于:
[0233]
基于训练好的翻译模型,确定所述第一翻译文本中每一成分的词向量、位置向量以及对应第一敬语规范的敬语向量;
[0234]
将所述第一翻译文本中的每一成分的词向量、位置向量以及所述敬语向量输入向量叠加层,得到叠加向量;
[0235]
将所述叠加向量输入至编码器中,得到编码信息矩阵;
[0236]
将所述编码信息矩阵和所述叠加向量输入至解码器中,得到所述成分对应的第一子译文;
[0237]
将每一所述第一子译文按照输出顺序排列,得到所述译文。
[0238]
可选地,处理器1010,还用于:
[0239]
获取第一训练样本集,所述第一训练样本集中包括多组第一训练样本,所述第一训练样本包括翻译样本文本以及未包含敬语的第一样本译文;
[0240]
对于任一第一训练样本中的所述第一样本译文,分析所述第一样本译文的成分;
[0241]
根据所述第一样本译文的成分以及第二敬语规范,生成至少一种包含敬语的第二样本译文;
[0242]
对所述第二样本译文中的敬语进行标记;
[0243]
将所述第一训练样本中的所述翻译样本文本与任一对敬语进行标记的所述第二样本译文词汇对齐后作为第二训练样本;
[0244]
根据所述第二训练样本对预设模型进行训练,获得所述训练好的翻译模型。
[0245]
可选地,处理器1010,具体用于:
[0246]
利用占位符替换所述第一翻译文本中第一敬语规范对应的内容,得到翻译中间文本;
[0247]
对所述翻译中间文本进行翻译,得到保留所述占位符的中间译文;
[0248]
将所述中间译文中的所述占位符替换为所述第一敬语规范,得到第一翻译文本的译文。
[0249]
应理解的是,本技术实施例中,输入单元1004可以包括图形处理器(graphics processing unit,gpu)10041和麦克风10042,图形处理器10041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1006可包括显示面板10061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板10061。用户输入单元1007包括触控面板10071以及其他输入设备10072中的至少一种。触控面板10071,也称为触摸屏。触控面板10071可包括触摸检测装置和触摸控制器两个部分。其他输入设备10072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
[0250]
存储器1009可用于存储软件程序以及各种数据。存储器1009可主要包括存储程序
或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器1009可以包括易失性存储器或非易失性存储器,或者,存储器1009可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch linkdram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器1009包括但不限于这些和任意其它适合类型的存储器。
[0251]
处理器1010可包括一个或多个处理单元;可选地,处理器1010集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器1010中。
[0252]
本技术实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0253]
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器rom、随机存取存储器ram、磁碟或者光盘等。
[0254]
本技术实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0255]
应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
[0256]
本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述翻译方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
[0257]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
[0258]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
[0259]
上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献