一种面向文本翻译人员的关键词提示方法

2022-04-13 16:14:04 来源：中国专利 TAG：

1.本发明涉及一种面向文本翻译人员的关键词提示方法，属于计算机应用和计算机辅助翻译技术领域。

背景技术：

2.计算机辅助翻译，是一种针对翻译人员的人机协作技术的统称，旨在利用计算机提升翻译人员在翻译生产过程中的效率。在现代化翻译工作中，文本翻译人员通常都会使用计算机辅助翻译系统。目前，计算机辅助翻译的核心目标在于：协助译员在处理翻译重复率较高的翻译工作时，提供翻译记忆和翻译候选，从而提高翻译人员的翻译效率，提升翻译质量、优化翻译流程。
3.现有的辅助翻译技术，主要关注翻译记忆的提供、术语翻译的提示等功能。然而，针对人工翻译工作中容易出现的一些错误却被忽略。例如，对于需要被翻译的源语言中的一些数字、计量单位、甚至标点符号等，常常因为翻译人员的疏忽，出现错译的情况，另一方面，一些重要的动词、名词或修饰成分，也会因为疏忽出现漏译、错译等现象。

技术实现要素：

4.本发明的目的是为了克服现有技术存在的不足，针对上述技术问题，创造性地提出一种面向文本翻译人员的关键词提示方法。本方法通过事先对输入源语言单词进行重要性标注，以提示翻译人员重点关注这些词汇，避免错译、漏译情况发生，提升翻译准确度。同时，翻译校对人员也可以利用本方法提升校对工作的效率。
5.本发明的创新点在于：首先，将输入序列转换为词向量序列，再将词向量序列通过自注意力神经网络编码器计算，得到输入的源语言句子中每个单词的重要性得分。将得分经过最大最小值缩放后，作为最终得分。根据最终得分，标注出输入源语言句子各个单词的重要性，用于提示翻译人员重点关注重要词汇。
6.为实现上述目的和技术，本发明采用的技术方案如下：
7.一种面向文本翻译人员的关键词提示方法，包括以下步骤：
8.首先进行相关定义，具体如下：
9.定义1：源语言句子
10.指被翻译的源语言句子，记为x，x＝{x1,
…
,xi,
…
,x
t
}，其中，t为源语言句子的长度，xi表示源语言句子中的单词。
11.定义2：目标语言句子
12.指由源语言经过翻译之后得到的目标语言句子，记作y，y＝{y1,
…
,y
t
}。
13.定义3：平行句对
14.是由源语言句子和对应的目标语言句子组成的句对，记作(x,y)；
15.由平行句对组成的数据集合称为平行数据。
16.定义4：词汇表
17.包含全部已知单词的列表，记作v；
18.列表为每个单词提供了编号，词汇表长度记为nv，单词w在词汇表的编号表示为v(w)；
19.其中，源语言单词组成的词汇表称为源语言词汇表，记为v
x
；目标语言单词组成的词汇表称为目标语言词汇表，记为vy。
20.定义5：独热编码
21.记作o，以整数向量表示；向量长度为词汇表长度，对于需要编码的整数n，独热编码中第n位为1，其他位均为0，整数n的独热编码记作o(n)。
22.定义6：词向量
23.指单词对应的分布式实数表示。以实数向量形式呈现，词向量的维度记为de。
24.定义7：词向量矩阵
25.按照词汇表顺序排列的词向量组成的二维实数矩阵，记作e，维度为nv×de
，即，其中，是实数域；若单词w对应的独热编码为ow,则w的词向量通过ow×
e计算得到，简写为owe；
26.源语言词向量矩阵记为e
x
，目标语言词向量矩阵记为ey。
27.定义8：激活函数
28.指神经网络中的激活函数，记作σ(
·
)。
29.定义9：自注意力神经网络编码器
30.记为ε(
·
)，其输入为实数矩阵，输出为维度为dm的实数向量和注意力权重向量w。其计算方法如下：
31.ε(e)＝uo×
(w
×
h(e)) boꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
32.其中，e表示输入的实数矩阵，由词向量序列组成；l表示矩阵列数，与句子长度对；h(e)表示编码器的隐藏层状态矩阵；
33.w和h(e)的计算方法如下：
34.w＝softmax(tanh(uwh(e)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0035][0036]
其中，uo、uw、uh、ug、bo、bh、bg均为模型中的自由参数矩阵，表示按位乘法，模型的维度记为dm，则，则σ表示激活函数。
[0037]
定义10：热力图
[0038]
是通过色彩亮度强弱，直观展示数值之间大小差异的图表。本发明中，亮度越低(颜色越深)，表明对应的数值越大。
[0039]
步骤1：根据定义1和定义4，将输入的源语言句子x＝{x1,
…
,x
t
}转换成单词编号组成的序列v(x)，v(x)＝{v(x1),
…
,v(x
t
)}，其中v(x
t
)表示源语言句子中第t个单词x
t
的编号。
[0040]
步骤2：根据定义5，将步骤1中单词编号序列转换为独热编码序列o(v(x))，o(v(x))＝{o(v(x1)),
…
,o(v(x
t
))}，其中o(v(x
t
))表示源语言句子中第t个单词x
t
的独热编
码。将o(v(x))简写为
[0041]
步骤3：根据定义6和定义7，将步骤2中的独热编码序列转换为词向量序列其中示源语言句子中第t个单词x
t
的词向量。将o
xex
简写为e
x
x＝{e
x
x1,
…
,e
x
x
t
}。
[0042]
步骤4：根据定义6和定义9，将步骤3中得到的词向量序列e
x
x作为自注意力神经网络编码器的输入，计算ε(e
x
x)：
[0043][0044]
w＝softmax(tanh(uwh(e
x
x)))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0045]
ε(e
x
x)＝uo×
(w
×
h(e
x
x)) boꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0046]
其中，h(e
x
x)表示输入词向量矩阵e
x
x后得到的编码器的隐藏层状态矩阵，ε(e
x
x)的值即为输入词向量矩阵e
x
x后得到句子编码。得到维度为dm的句子编码向量和元素个数为t的自注意力权重向量
[0047]
步骤5：将步骤4中得到的自注意力权重向量w进行最大最小值缩放。
[0048]
具体地，实现方法如下：
[0049]
首先，找到w中的最大值和最小值，分别记为w
max
和w
min
；
[0050]
然后，遍历w中的每一个元素，其中第i位的元素记为wi，wi∈w，有：
[0051][0052]
其中，表示缩放后的第i位的元素。由此得到缩放后的权重向量w
*
。将w
*
作为输入的源语言句子中每个单词的重要性得分。
[0053]
步骤6：将步骤5中缩放后的权重向量w
*
，即每个单词的重要性得分展示出来。具体可以根据定义10，采用热力图形式展示。
[0054]
有益效果
[0055]
本发明方法，与现有技术相比，具有如下有益效果：
[0056]
1.本发明方法，可以在翻译人员执行翻译操作前，自动提示翻译人员待翻译的源语言句子中的关键词，以提示翻译人员重点关注，能够有效预防对关键词的漏译或错译等问题的发生。
[0057]
2.本发明的关键词提示功能同样适用于目标语言句子，源语言和目标语言的关键词可以同时提示，以方便翻译人员翻译后的校对工作。
附图说明
[0058]
图1是本发明方法的实现流程图；
[0059]
图2是本发明实施例的可视化结果展示效果图。
具体实施方式
[0060]
下面结合附图及实施例对本发明所述方法进行详细叙述。图1为本发明方法的流程图。
[0061]
实施例
[0062]
以nist 2003中文到英文翻译测试数据中的源语言句子为例，x＝{
‘
人类’，
‘
共有’，
‘
二十三
‘
，’对
‘
，’染色体
′
，
′
。
′
}，介绍本发明提出的一种面向文本翻译人员的关键词提示方法的操作流程：
[0063]
步骤1：根据定义1和定义4，将输入的源语言句子x＝{
‘
人类’，
‘
共有’，
‘
二十三
‘
，’对
‘
，’染色体
‘
，
′
。
′
}转换成单词编号组成的序列：v(x)＝{994,956,4312,25,21968,4}；
[0064]
步骤2：根据定义5，将步骤1中单词编号序列转换为独热编码序列：步骤2：根据定义5，将步骤1中单词编号序列转换为独热编码序列：由于独热编码过长故以符号形式给出，以为例，其具体形式应为：
[0065]
步骤3：根据定义6和定义7，将步骤2中的独热编码序列转换为词向量序列：e
x
x＝{e
x
x1,e
x
x2,e
x
x3,e
x
x4,e
x
x5,e
x
x6}，其中每个向量的维度de的取值为512，以e
x
x6为例，其具体形式为：e
x
x6＝[0.07628387957811356,-0.030490420758724213,0.05357102304697037,
…
,-0.011583887040615082,0.013022661209106445,0.0565364733338356,-0.01634673774242401]；
[0066]
步骤4：根据定义6和定义9，将步骤3中得到的词向量序列e
x
x作为自注意力神经网络编码器的输入，按照公式(3)、公式(2)、公式(1)的方法计算ε(e
x
x)：
[0067][0068]
w＝softmax(tanh(uwh(e
x
x)))
[0069]
ε(e
x
x)＝uo×
(w
×
h(e
x
x)) bo[0070]
在本实施例中，dm＝512。σ(
·
)采用sigmoid函数：
[0071][0072]
得到元素个数为t＝6的自注意力权重向量w，w＝[0.1521,0.1370,0.1753,0.1089,0.2670,0.159]。
[0073]
步骤5：将步骤4中得到的自注意力权重向量w进行最大最小值缩放。
[0074]
具体地，实现方法如下：
[0075]
首先，找到w中的最大值和最小值，分别是w
max
＝0.2670和w
min
＝0.1089。
[0076]
然后，遍历w中的每一个元素，其中第i位的元素记为wi∈w，令：
[0077][0078]
得到缩放后的权重向量w
*
，w
*
＝[0.27639824,0.18202972,0.4210846,0.0062428913,0.9937571,0.3232182]。
[0079]
步骤6：根据定义10，将步骤5中缩放后的权重向量w
*
以热力图的形式展示出来，颜色越深表示数值越高，即对应的单词越重要，其具体形式见图2。
[0080]
至此，从步骤1到步骤6，完成了本方法的面向文本翻译人员的关键词提示操作中一个实施例的执行流程展示。
[0081]
以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公
开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于红外及可见光下的多尺度目标检测方法与流程

一种面向文本翻译人员的关键词提示方法

相关文献

最热文献