一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据处理方法、装置、设备及可读存储介质与流程

2022-04-30 18:10:05 来源:中国专利 TAG:

技术特征:
1.一种数据处理方法,其特征在于,包括:获取源文本数据,所述源文本数据为富样式文本数据;获取所述源文本数据中目标源词语的词语位置,基于所述目标源词语的词语位置在所述源文本数据中添加第一约束标签,所述目标源词语的样式为目标源样式;基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,所述第二约束标签是在所述目标文本数据中目标词语的词语位置添加的,所述目标词语为与所述目标源词语对应的词语,所述目标文本数据是对所述源文本数据进行翻译得到的;基于所述第一约束标签和所述第二约束标签将所述目标源样式映射为所述目标词语的目标样式,以得到包含所述目标样式的目标文本数据。2.根据权利要求1所述的方法,其特征在于,所述获取源文本数据之前,所述方法还包括:获取第一样本数据和第二样本数据,所述第二样本数据是对所述第一样本数据进行翻译得到的,所述第一样本数据为富样式文本数据;对所述第一样本数据和所述第二样本数据进行对齐处理,以确定所述第一样本数据中的样本词语与所述第二样本数据中的样本词语之间的样本对应关系;获取所述第一样本数据中第一样本词语的样本词语位置,基于所述样本词语位置在所述第一样本数据中添加第一样本约束标签,所述第一样本词语的样式为第一样式;获取参考样本,基于添加第一样本约束标签后的第一样本数据、所述样本对应关系以及所述参考样本,训练得到目标处理模型;所述基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,包括:采用所述目标处理模型基于添加第一约束标签后的源文本数据和所述词语间的对应关系,得到添加了第二约束标签的目标文本数据。3.根据权利要求2所述的方法,其特征在于,所述对所述第一样本数据和所述第二样本数据进行对齐处理,以确定所述第一样本数据中的样本词语与所述第二样本数据中的样本词语之间的样本对应关系,包括:对所述第一样本数据和第二样本数据进行分词处理,得到n个第一单词和m个第二单词之间的第一对应关系,第一单词为所述第一样本数据中的单词,第二单词为所述第二样本数据中的单词,n、m均为正整数;基于所述n个第一单词和所述m个第二单词之间的第一对应关系,确定i个第一词语与j个第二词语之间的第二对应关系,第一词语为所述n个第一单词中的至少一个单词组成的词语,第二词语为所述m个第二单词中的至少一个单词组成的词语,i、j均为正整数;基于所述第二对应关系确定所述第一样本数据和所述第二样本数据是否对齐,若所述第一样本数据和所述第二样本数据对齐,则将对齐关系作为所述源文本数据中的样本词语与所述目标文本数据中的样本词语之间的样本对应关系。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二对应关系确定所述第一样本数据和所述第二样本数据是否对齐,包括:采用对齐一致性原则确定第一目标词语和第二目标词语是否对齐,所述第一目标词语
为所述i个第一词语中的任意一个,所述第二目标词语为所述j个第二词语中的任意一个,所述对齐一致性原则用于指示所述第一样本数据中的多个连续词语组成的词语与所述第二样本数据中的多个连续词语组成的词语是否对应;若所述第一目标词语和所述第二目标词语对齐,则确定所述第一样本数据和所述第二样本数据对齐;若所述第一目标词语和所述第二目标词语未对齐,则确定所述第一样本数据和所述第二样本数据未对齐。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第一目标词语和所述第二目标词语对齐,则获取所述第一样本数据中的第一关键词语,以及第二样本数据中的第二关键词语;对所述第一关键词语和所述第二关键词语进行匹配;若所述第一关键词语和所述第二关键词语匹配,则执行确定所述第一样本数据和所述第二样本数据对齐的步骤。6.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第一目标词语和所述第二目标词语对齐,则检测所述样本数据中是否存在对空词;若所述样本数据中存在对空词,则分别将所述对空词加入第一邻居词语和第二邻居词语中,得到第一组合词语和第二组合词语,所述第一邻居词语和所述第二邻居词语为所述样本数据中与所述对空词相邻的两个词语,所述样本数据为所述第一样本数据和所述第二样本数据中的任意一个;从所述第一组合词语或所述第二组合词语中确定目标组合词语;基于所述目标组合词语对所述第一样本数据中的样本词语和所述第二样本数据中的样本词语之间的样本对应关系进行调整。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述目标词语的目标样式对所述目标文本数据进行渲染,以得到渲染后的包含目标样式的目标文本数据;调用关联的用户终端输出所述渲染后的包含目标样式的目标文本数据。8.一种数据处理装置,其特征在于,包括:文本获取模块,用于获取源文本数据所述源文本数据为富样式文本数据;第一添加模块,用于获取所述源文本数据中目标源词语的词语位置,基于所述词语位置在所述源文本数据中添加第一约束标签,所述目标源词语的样式为目标源样式;第二添加模块,用于基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,所述目标文本数据是对所述源文本数据进行翻译得到的,所述第二约束标签是在所述目标文本数据中目标词语的词语位置添加的,所述目标词语为与所述目标源词语对应的词语;数据映射模块,用于基于所述第一约束标签和所述第二约束标签将所述目标源样式映射为所述目标词语的目标样式,以得到包含所述目标样式的目标文本数据。9.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信
功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以使得所述计算机设备执行权利要求1-7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-7任一项所述的方法。

技术总结
本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质,涉及人工智能领域,其中,方法包括:获取富样式的源文本数据,源文本数据为富样式文本数据;获取源文本数据中目标源词语的词语位置,基于词语位置在源文本数据中添加第一约束标签,目标源词语的样式为目标源样式;基于添加第一约束标签后的源文本数据和词语间的对应关系,得到添加了第二约束标签的目标文本数据,第二约束标签是在目标文本数据中目标词语的词语位置添加的;基于第一约束标签和第二约束标签将目标源样式映射为第二约束标签对应的目标词语的目标样式,以得到包含目标样式的目标文本数据。采用本申请实施例,可以使得文本翻译更完整,提高数据处理准确性。确性。确性。


技术研发人员:李尔楠 熊明钧 孟凡东 周杰
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.18
技术公布日:2022/4/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献