一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

分类模型训练方法、翻译方法、装置及电子设备与流程

2022-02-22 19:39:05 来源:中国专利 TAG:

技术特征:
1.一种分类模型训练方法,所述方法包括:获取双语平行语料,所述双语平行语料包括源语言语料和目标语言语料;确定所述源语言语料中的可翻译片段和不可翻译片段;所述可翻译片段是基于所述源语言语料中的无歧义片段确定的;基于所述可翻译片段和不可翻译片段,训练分类模型。2.根据权利要求1所述的方法,其中,所述确定所述源语言语料中的可翻译片段,包括:确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段;基于所述多个无歧义片段和各自对应的第一目标语言片段,确定所述源语言语料中的多个可翻译片段。3.根据权利要求2所述的方法,其中,所述基于所述多个无歧义片段和各自对应的第一目标语言片段,确定所述源语言语料中的多个可翻译片段,包括:对于每一无歧义片段,获取以所述无歧义片段为开头的至少一个源语言句子,对所述至少一个源语言句子进行翻译,得到各源语言句子各自对应的目标语言句子;基于各所述无歧义片段、各所述无歧义片段各自对应的第一目标语言片段和各所述目标语言句子,确定所述源语言语料中的多个可翻译片段。4.根据权利要求3所述的方法,其中,所述基于各所述无歧义片段、各所述无歧义片段各自对应的第一目标语言片段和各所述目标语言句子,确定所述源语言语料中的多个可翻译片段,包括:对于每一无歧义片段,获取所述目标语言句子中与所述无歧义片段对应的至少一个第二目标语言片段;将所述第一目标语言片段与所述至少一个第二目标语言片段满足预设的匹配条件的无歧义片段作为所述源语言语料中的可翻译片段。5.根据权利要求2所述的方法,其中,所述确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段,包括:将所述双语平行语料中的源语言词语和目标语言词语进行对齐处理;根据对齐之后的源语言词语和目标语言词语,确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段。6.根据权利要求5所述的方法,其中,所述根据对齐之后的源语言词语和目标语言词语,确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段,包括:根据对齐之后的源语言词语和目标语言词语,得到包含源语言词语的源语言片段和对应的至少一个目标语言片段;将对应一个目标语言片段的源语言片段作为无歧义片段,将所述无歧义片段对应的目标语言片段作为第一目标语言片段。7.根据权利要求1所述的方法,其中,所述基于所述可翻译片段和不可翻译片段,训练分类模型,包括:获取所述可翻译片段和不可翻译片段各自对应的类别标签;将所述可翻译片段、不可翻译片段、以及各自对应的类别标签作为训练样本集,训练分
类模型。8.一种翻译方法,所述方法包括:获取待翻译源语言片段;将所述待翻译源语言片段输入分类模型,在所述分类模型的分类结果为可翻译的情况下,翻译所述待翻译源语言片段;其中,所述分类模型是根据权利要求1-7中任一项所述的方法训练得到的。9.根据权利要求8所述的方法,还包括:在所述分类模型的分类结果为不可翻译的情况下,获取新的源语言片段,将所述待翻译源语言片段和所述新的源语言片段进行拼接,得到当前的待翻译源语言片段并输入所述分类模型;在当前的分类结果为可翻译的情况下,则对所述当前的待翻译源语言片段进行翻译;在当前的分类结果为不可翻译的情况下,则持续获取新的源语言片段并与上一次的待翻译源语言片段进行拼接后输入所述分类模型,直到当前的分类结果为可翻译,对当前的待翻译源语言片段进行翻译。10.一种分类模型训练装置,所述装置包括:获取模块,用于获取双语平行语料,所述双语平行语料包括源语言语料和目标语言语料;确定模块,用于确定所述源语言语料中的可翻译片段和不可翻译片段;所述可翻译片段是基于所述源语言语料中的无歧义片段确定的;训练模块,用于基于所述可翻译片段和不可翻译片段,训练分类模型。11.根据权利要求10所述的装置,其中,所述确定模块包括第一确定单元和第二确定单元;所述第一确定单元,用于确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段;所述第二确定单元,用于基于所述多个无歧义片段和各自对应的第一目标语言片段,确定所述源语言语料中的多个可翻译片段。12.根据权利要求11所述的装置,其中,所述第二确定单元,具体用于:对于每一无歧义片段,获取以所述无歧义片段为开头的至少一个源语言句子,对所述至少一个源语言句子进行翻译,得到各源语言句子各自对应的目标语言句子;基于各所述无歧义片段、各所述无歧义片段各自对应的第一目标语言片段和各所述目标语言句子,确定所述源语言语料中的多个可翻译片段。13.根据权利要求12所述的装置,其中,所述第二确定单元在基于各所述无歧义片段、各所述无歧义片段各自对应的第一目标语言片段和各所述目标语言句子,确定所述源语言语料中的多个可翻译片段时,用于:对于每一无歧义片段,获取所述目标语言句子中与所述无歧义片段对应的至少一个第二目标语言片段;将所述第一目标语言片段与所述至少一个第二目标语言片段满足预设的匹配条件的无歧义片段作为所述源语言语料中的可翻译片段。14.根据权利要求11所述的装置,其中,所述第一确定单元,具体用于:
将所述双语平行语料中的源语言词语和目标语言词语进行对齐处理;根据对齐之后的源语言词语和目标语言词语,确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段。15.根据权利要求14所述的装置,其中,所述第一确定单元在根据对齐之后的源语言词语和目标语言词语,确定所述源语言语料中的多个无歧义片段,以及所述多个无歧义片段各自对应的第一目标语言片段时,用于:根据对齐之后的源语言词语和目标语言词语,得到包含源语言词语的源语言片段和对应的至少一个目标语言片段;将对应一个目标语言片段的源语言片段作为无歧义片段,将所述无歧义片段对应的目标语言片段作为第一目标语言片段。16.根据权利要求10所述的装置,其中,所述训练模块,用于:获取所述可翻译片段和不可翻译片段各自对应的类别标签;将所述可翻译片段、不可翻译片段、以及各自对应的类别标签作为训练样本集,训练分类模型。17.一种翻译装置,所述装置包括:获取模块,用于获取待翻译源语言片段;翻译模块,用于将所述待翻译源语言片段输入分类模型,在所述分类模型的分类结果为可翻译的情况下,翻译所述待翻译源语言片段;其中,所述分类模型是根据权利要求1-9中任一项所述的方法训练得到的。18.根据权利要求17所述的装置,其中,所述翻译模块,还用于:在所述分类模型的分类结果为不可翻译的情况下,获取新的源语言片段,将所述待翻译源语言片段和所述新的源语言片段进行拼接,得到当前的待翻译源语言片段并输入所述分类模型;在当前的分类结果为可翻译的情况下,则对所述当前的待翻译源语言片段进行翻译;在当前的分类结果为不可翻译的情况下,则持续获取新的源语言片段并与上一次的待翻译源语言片段进行拼接后输入所述分类模型,直到当前的分类结果为可翻译,对当前的待翻译源语言片段进行翻译。19.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行权利要求1-9中任一项所述的方法。21.一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。

技术总结
本公开提供了一种分类模型训练方法、翻译方法、装置及电子设备,涉及自然语言处理、机器学习技术领域。方法包括:获取双语平行语料,双语平行语料包括源语言语料和目标语言语料;确定源语言语料中的可翻译片段和不可翻译片段;可翻译片段是基于源语言语料中的无歧义片段确定的;基于可翻译片段和不可翻译片段,训练分类模型。本公开技术方案,基于可翻译片段和不可翻译片段训练分类模型,将训练完成的分类模型应用到翻译中,可以使翻译的结果更加准确,满足高质量和低时延的需求。满足高质量和低时延的需求。满足高质量和低时延的需求。


技术研发人员:张睿卿 张传强 何中军 吴华
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2021.11.08
技术公布日:2022/2/8
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献