一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

机器翻译译文计算机辅助修正系统和方法与流程

2022-05-27 00:07:13 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,具体涉及机器翻译译文计算机辅助修正系统和方法。


背景技术:

2.机器翻译技术的发展给人们带来了极大的便利,尤其是专利申请文件翻译方面,能极大提高翻译效率。然而机器翻译引擎还存在一些缺点,比如一些如编号、网址、日期等信息往往只需原样呈现在译文里即可,现实中机器翻译引擎往往不能识别这些固定格式的信息,会将其错误地翻译成其它文字。对于译文质量要求严格的文件(例如专利申请文件),任何细微的差错都需要进行修正。目前的在线翻译工具,在完成机器翻译后,译文区域多数为纯文本编辑框,而且原文可能是无法直接进行文本内容拷贝的图像文件,此时用户在修改译文时,需要先选中待修改的内容,将其删除,再根据原文手动输入相应的内容,十分低效。


技术实现要素:

3.本发明致力于解决尤其是上述场景下对机器翻译译文进行修正时无法快速输入原文中相应内容的问题。
4.一方面,本发明提供了一种机器翻译译文计算机辅助修正系统,包括:原文候选词提取模块,用于对原文中特定规则词,使用正则表达式进行提取,作为候选词列表;译文检索词提取模块,用于根据译文中光标所处位置来确定译文修正检索词;包括存储器的候选词筛选模块,用于根据译文检索词提取模块提供的检索词从原文候选词提取模块提供的候选词列表中筛选出与检索词匹配的候选词,将筛选出的候选词作为候选词集并存储到存储器中,该存储器中的候选词供选择性地输出;以及下拉菜单生成模块,接收从候选词筛选模块输出的候选词,并基于接收到的候选词来生成选项标签,供用户直接从选项标签中选择正确的内容输入到译文中。
5.优选地,译文检索词提取模块将光标所处位置作为结束位置,将光标所处位置之前间隔一个字符的位置作为开始位置,开始位置和结束位置之间的字符作为检索词。
6.优选地,如果候选词集为非空集,则译文检索词提取模块将开始位置往前追加一个字符位置,候选词筛选模块基于新的检索词从候选词列表中筛选出与新的检索词匹配的候选词,用筛选出的与新的检索词匹配的候选词替换掉候选词集中的候选词并将与新的检索词匹配的候选词存储到存储器中;重复这一操作,直到候选词集为空集,此时候选词筛选模块将存储器中存储的上一次筛选出的候选词输出给下拉菜单生成模块。
7.这里,特定规则词可以包括日期、数字、字母和符号中的至少一种。
8.另外,原文候选词提取模块可以在对特定规则词提取后进行去重操作,从而候选词列表中没有重复出现的候选词。
9.另一方面,本发明提供了一种机器翻译译文计算机辅助修正方法,包括以下步骤:
对原文中特定规则词,使用正则表达式进行提取,作为候选词列表;根据译文中光标所处位置来确定译文修正检索词;根据检索词从候选词列表中筛选出与检索词匹配的候选词,将筛选出的候选词作为候选词集并将筛选出的候选词存储到存储器中,该存储器中的候选词供选择性地输出;以及根据所输出的候选词来生成选项标签,供用户直接从选项标签中选择正确的内容输入到译文中。
10.根据本发明的技术方案,如果用户需要对机器翻译译文进行修正,则在输入第一个字母、数字或符号时,系统便能弹出一个下拉框,下拉框里显示出包括该字母、数字或符号的所有候选词,用户可以回车或使用上下键来选择正确的候选词,完成输入;如果显示出的候选词数量较大,用户可以继续输入后续字母、数字或符号,随着输入位数的增加,显示出的候选词会减少,更加便于用户选择正确的候选词。
11.特别值得指出的是,根据本发明的一优选实施方案,下拉框中显示出的候选词是在初选后经过一次或多次精选确认而产生的,这样确保每次显示出的候选词都是范围尽可能小、精度尽可能高的候选词,更加有利于用户快速选择出正确的候选词,从而极大地提高了输入效率。
附图说明
12.以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
13.图1示意性示出了根据本发明一实施例的机器翻译译文计算机辅助修正系统;图2示意性示出了根据本发明一实施例的机器翻译译文计算机辅助修正方法;图3示意性示出了根据本发明一优选实施例的用于输出显示的候选词的筛选流程;图4是根据本发明一优选实施例的下拉框候选词显示界面截图;图5是根据本发明一优选实施例的用户通过下拉框候选词选择输入的界面截图。
14.标号说明1 机器翻译译文计算机辅助修正系统10 原文候选词提取模块20译文检索词提取模块30候选词筛选模块31 存储器40 下拉菜单生成模块。
具体实施方式
15.下面将结合附图,详细描述本发明的示例性实施例。
16.图1示意性示出了根据本发明一实施例的机器翻译译文计算机辅助修正系统1。如图1所示,机器翻译译文计算机辅助修正系统1包括原文候选词提取模块10、译文检索词提取模块20、候选词筛选模块30和下拉菜单生成模块40,其中候选词筛选模块30包括用于存储数据的存储器31。
17.具体而言,原文候选词提取模块10用于对翻译文件原文中特定规则词,使用正则表达式进行提取,作为候选词列表;其中特定规则词可以包括例如日期、数字、字母和符号
中的至少一种。正则表达式是本领域普通技术人员对文本中目标内容进行提取时惯用的技术手段,这里不作详细介绍。另外,能够理解的是,原文候选词提取模块10在对翻译文件原文中特定规则词进行初步遍历提取后,所生成的候选词列表中可能存在同一个候选词重复一次或多次出现的情况。如果不进行处理而直接使用这样的候选词列表,一旦存在候选词重复的现象,那么一方面会影响后续对候选词列表进行遍历筛选时的筛选效率,另一方面后续可能直接在最终呈现给用户进行选择的下拉框中出现重复的候选词。因此,作为一优选实施例,原文候选词提取模块10在对特定规则词提取后进行去重操作,使得候选词列表中没有重复出现的候选词。
18.译文检索词提取模块20用于根据译文中光标所处位置来确定译文修正检索词。例如,译文检索词提取模块20可以将光标所处位置作为结束位置,将光标所处位置之前间隔一个字符的位置作为开始位置,开始位置和结束位置之间的字符作为检索词。
19.候选词筛选模块30用于根据译文检索词提取模块20提供的检索词从原文候选词提取模块10提供的候选词列表中筛选出与检索词匹配的候选词,将筛选出的候选词作为候选词集并将筛选出的候选词存储到存储器31中,存储器31中的候选词供选择性地输出。这里,明显的是,对于某一确定的检索词,候选词筛选模块30遍历候选词列表后生成的候选词集要么是空集要么是非空集,只有当候选词列表中不存在与检索词匹配的候选词时,所生成的候选词集才是空集,其它情况则是非空集。对于非空集来说,检索词越短,候选词集中的候选词数量一般越多。另外,需要指出的是,与检索词相匹配可以定义为“候选词中包括检索词”。
20.作为一种选择:候选词筛选模块30可以直接用最短的检索词(例如一个字符)来遍历候选词列表,将筛选出的候选词作为候选词集并将筛选出的候选词存储到存储器31中。此时所生成的候选词集(只要是非空集)中肯定包括用户所需的正确的候选词,候选词筛选模块30可以将存储器31中存储的对应的候选词输出给下拉菜单生成模块40,供后续生成用户选项标签使用。这种方式虽然能确保最终提供给用户选择的下拉框中存在所需的正确的候选词,但是这种方式存在的不足之处在于:候选词集中的候选词数量也是相对而言最大的,也就是说下拉框中存在的候选词相对而言最多。
21.作为一种优选选择,为了尽可能地减少下拉框中供用户选择的候选词数量,换言之,为了尽可能精确地给出供用户选择的候选词,译文检索词提取模块20首先提取一个最短的检索词(例如一个字符),候选词筛选模块30用该最短的检索词来遍历候选词列表,如果生成的候选词集为非空集,则译文检索词提取模块20将开始位置往前追加一个字符位置,候选词筛选模块30基于新的检索词从候选词列表中筛选出与新的检索词匹配的候选词,用筛选出的与新的检索词匹配的候选词替换掉候选词集中的候选词并将与新的检索词匹配的候选词存储到存储器31中;重复这一操作,直到候选词集为空集,此时候选词筛选模块30将存储器31中存储的上一次筛选出的候选词(也就是候选词集为空集之前的那一次筛选出的候选词)输出给下拉菜单生成模块40。
22.下拉菜单生成模块40接收从候选词筛选模块30输出的候选词,并基于接收到的候选词来生成下拉框选项标签,供用户直接从选项标签中选择正确的内容输入到译文中。
23.图2示意性示出了根据本发明一实施例的机器翻译译文计算机辅助修正方法。参照图2,该机器翻译译文计算机辅助修正方法包括:步骤s10,对原文中特定规则词,使用正
则表达式进行提取,作为候选词列表;步骤s20,根据译文中光标所处位置来确定译文修正检索词;步骤s30,根据检索词从候选词列表中筛选出与检索词匹配的候选词,将筛选出的候选词作为候选词集并将筛选出的候选词存储到存储器中,该存储器中的候选词供选择性地输出;以及步骤s40,根据所输出的候选词来生成选项标签,供用户直接从选项标签中选择正确的内容输入到译文中。
24.下面参照图3详细描述根据本发明一优选实施例的输出到下拉菜单生成模块40的候选词的筛选流程。
25.在步骤s21,译文检索词提取模块20将光标所处位置作为结束位置,将光标所处位置之前间隔一个字符的位置作为开始位置。在步骤s22,译文检索词提取模块20将开始位置和结束位置之间的字符提取作为检索词。在步骤s31,候选词筛选模块30用步骤s22中提取的检索词来遍历候选词列表,筛选出与检索词匹配的候选词,生成候选词集并将筛选出的候选词存储到存储器31中。在步骤s32,候选词筛选模块30判断所生成的候选词集是否为空集。如果该候选词集为非空集,则至步骤s23,由译文检索词提取模块20将开始位置往前追加一个字符位置,接着至步骤s22,译文检索词提取模块20将新的开始位置和结束位置之间的字符提取作为检索词。接着在步骤s31,候选词筛选模块30基于新的检索词从候选词列表中重新筛选出与新的检索词匹配的候选词,用筛选出的与新的检索词匹配的候选词替换掉候选词集中原来的候选词并将与新的检索词匹配的候选词存储到存储器31中。接着继续在步骤s32,由候选词筛选模块30判断所生成的候选词集是否为空集。由图3可见,重复这一循环操作,直到候选词集为空集,此时至步骤s33,将存储器31中存储的上一次筛选出的候选词输出给下拉菜单生成模块40,供生成选项标签使用。
26.有必要指出的是,虽然上面的示例性实施例中,检索词是以一个字符开始进行循环迭代的,但本领域普通技术人员在本发明的教导下,能够理解:检索词也可以从两个字符、三个字符或者更多个字符开始迭代,只需相应调整迭代结果的判断方式及后续相应处理流程即可,在此不再详述。另外,虽然本发明示例性实施例中,为了便于描述,候选词筛选模块被描述为包括存储器,但是存储器显然也可以设置在候选词筛选模块之外,这不应理解为对本发明的限定。
27.接下来,为了便于更加清楚地理解本发明的优选实施方式,结合图4和图5,以假设翻译文件日文原文中内容“座標(x, 0.0067x2-0.6034x 79.729,
ꢀ‑
0.0067x2-0.3966x 20.271)”在中文译文中未能正确呈现而需要修正为例来进行说明。用户已删除了译文中错误的内容,当前译文中呈现的内容为“坐标(x,”,用户正根据原文输入正确的内容,假设刚输入到内容“坐标(x,0.”。
28.原文候选词提取模块10可以利用正则表达式“/\d /g”(“\d”代表数字,“ ”代表大于1个,“g”代表查找所有)对数字进行提取,提取的结果为“0、0067、2、0、6034、79、729、0、0067、2、0、3966、20、271”。原文候选词提取模块10同时可以利用正则表达式“/\d .\d .\d /g”(“\d”代表数字,“ ”代表大于1个,“.”代表任意字符,“g”代表查找所有)对日期以及数字进行提取,提取的结果为“0.0067x2、0.6034、79.729、0.0067x2、0.3966、20.271”。对所提取的结果进行合并,然后再做去重(去掉重复的数据)操作,所得结果作为候选词列表“0、0067、2、6034、79、729、3966、20、271、0.0067x2、0.6034、79.729、0.3966、20.271”。
29.译文检索词提取模块20读取光标位置,光标处于用户刚输入的数字“0.”之后,将
该位置作为结束位置,该位置之前一个字符的位置作为开始位置,开始位置和结束位置之间的字符“.”就是检索词。
30.候选词筛选模块30利用检索词“.”遍历候选词列表“0、0067、2、6034、79、729、3966、20、271、0.0067x2、0.6034、79.729、0.3966、20.271”,筛选出与检索词“.”相匹配的候选词为“0.0067x2”、“0.6034”和“0.3966”。这几个筛选出的候选词构成候选词集“0.0067x2、0.6034、0.3966”并将其存储到存储器31中。
31.此时,由于候选词集为非空集(也就是存在相匹配的候选词),故候选词筛选模块30并不直接将存储器31中的候选词“0.0067x2、0.6034、0.3966”输出给下拉菜单生成模块40。而是由译文检索词提取模块20将开始位置往前追加一个字符位置,将新的开始位置和结束位置之间的字符“,0.”提取作为检索词。接着候选词筛选模块30基于新的检索词“,0.”从候选词列表中重新进行筛选,没有相匹配的候选词,也就是匹配的候选词集为空集,这时将存储器31中存储的上一次筛选结果“0.0067x2、0.6034、0.3966”输出给下拉菜单生成模块40,生成选项标签供用户选择使用,如图4所示。
32.这时,用户可以使用鼠标或键盘上的上、下键,在下拉框中直接选择正确的候选词“0.0067x2”,进而输入到译文中,如图5所示。
33.根据本发明的机器翻译译文计算机辅助修正系统可以实施为设备上的特定硬件或者安装于设备上的软件或固件等。
34.在本发明所提供的实施方式中,应该理解到,所揭露方法和系统,可以通过其它的方式实现。以上所描述的实施方式仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。
35.另外,在本发明提供的实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
36.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
37.最后应说明的是:以上所述实施方式,仅为本发明的示例性具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施方式所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施方式技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求限定的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献