一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理方法、装置、存储介质、电子设备及系统与流程

2022-07-30 20:28:50 来源:中国专利 TAG:

技术特征:
1.一种文本处理方法,其特征在于,包括:获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;将所述索引关系存储至索引数据库;根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。2.根据权利要求1所述的方法,其特征在于,所述获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,包括:获取输入的需要改写的示例文本和与所述示例文本对应的短语改写示例对,所述短语改写示例对包括示例改写短语和与所述示例改写短语对应的示例替换短语;根据所述短语改写示例对中的示例改写短语,在预构建的文本与短语的倒排索引中召回与所述示例改写短语对对应的召回文本;将所述召回文本和所述示例文本确定为所述目标示例文本,并将所述短语改写示例对确定为所述目标短语改写示例对。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标示例文本和所述目标短语改写示例对,生成索引关系,包括:确定所述目标示例改写短语在所述目标示例文本中的第一向量表示,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息;根据所述第一向量表示和所述目标短语改写示例对,生成索引关系。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应针对所述索引数据库的更新请求,对所述索引数据库中的索引关系进行更新,其中,所述更新请求包括删除请求和修改请求中的一种。5.根据权利要求1-4中任一所述的方法,其特征在于,所述根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写,包括:响应获取到的所述输入文本,在所述输入文本中包括待改写短语的情况下,根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本;在确定所述输入文本为需要改写的文本的情况下,根据与所述输入文本对应的索引关系对所述输入文本中的待改写短语进行改写处理。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:对所述输入文本进行分词,得到多个短语结果;针对每一所述短语结果,在预构建的短语字典树中匹配与该短语结果匹配的短语,所述短语字典树通过所述目标示例改写短语进行构建;在成功匹配到与所述短语结果对应的短语的情况下,确定所述输入文本包括所述待改写短语。7.根据权利要求5所述的方法,其特征在于,所述索引关系通过第一向量表示和所述目标短语改写示例对组成,所述第一向量表示用于表征所述目标示例改写短语在所述目标示例文本中的上下文语义信息,所述根据所述索引数据库中的索引关系,确定所述输入文本是否为需要改写的文本,包括:
获取所述输入文本中的待改写短语的第二向量表示,所述第二向量表示用于表征所述待改写短语在所述输入文本中的上下文语义信息;根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的目标向量表示;在所述目标向量表示与所述第二向量表示的距离小于预设距离阈值的情况下,确定所述输入文本为需要改写的文本。8.根据权利要求7所述的方法,其特征在于,所述索引数据库的数据结构为图结构,所述根据所述第二向量表示在所述索引数据库中查找与所述第二向量表示的距离最近的目标向量表示,包括:根据所述第二向量表示,采用朴素查找算法在所述索引数据库中查找与所述第二向量表示的距离最近的目标向量表示。9.一种文本处理装置,其特征在于,包括:第一获取模块,用于获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;生成模块,用于根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;存储模块,用于将所述索引关系存储至索引数据库;改写模块,根据所述索引数据库,对获取的输入文本进行文本改写。10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-8中任一项所述方法的步骤。11.一种电子设备,其特征在于,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。12.一种文本处理系统,其特征在于,包括:索引数据库;索引服务器;干预平台,用于获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;所述索引服务器用于从所述干预平台获取所述目标示例文本和所述目标短语改写示例对,根据获取的所述目标示例文本和所述目标短语改写示例对,生成索引关系,并将所述索引关系存储至所述索引数据库;所述索引服务器还用于根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写。13.根据权利要求12所述的系统,其特征在于,还包括:语料数据库,用于存储预构建的文本与短语的倒排索引;所述干预平台还用于获取输入的需要改写的示例文本和与所述示例文本对应的短语改写示例对,在所述语料数据库中预构建的文本与短语的倒排索引中召回与示例改写短语对对应的召回文本,并将所述召回文本和所述示例文本确定为所述目标示例文本,并将所
述短语改写示例对确定为所述目标短语改写示例对,所述短语改写示例对包括所述示例改写短语和与所述示例改写短语对应的示例替换短语。14.根据权利要求12所述的系统,其特征在于,还包括:干预数据库;所述干预平台还用于将获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对存储至所述干预数据库中,并生成索引建立请求发送至所述索引服务器;所述索引服务器还用于响应所述索引处理请求,从所述干预数据库中获取所述目标示例文本与所述目标示例文本对应的目标短语改写示例对。15.根据权利要求12所述的系统,其特征在于,还包括:应用端,用于将所述输入文本发送至所述索引服务器。

技术总结
本公开涉及一种文本处理方法、装置、存储介质、电子设备及系统,方法包括:获取需要改写的目标示例文本与所述目标示例文本对应的目标短语改写示例对,所述目标短语改写示例对包括目标示例改写短语和与所述目标示例改写短语对应的目标示例替换短语;根据所述目标示例文本和所述目标短语改写示例对,生成索引关系;将所述索引关系存储至索引数据库;根据所述索引数据库中的索引关系,对获取的输入文本进行文本改写,解决了因采用模型进行文本改写而模型需要离线更新进而影响文本在线改写的实时性的问题。实时性的问题。实时性的问题。


技术研发人员:曹军 孙泽维 王明轩 欧阳宇星 程亦曲 庞赛康 胡凯
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2022.05.07
技术公布日:2022/7/29
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献