一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种文本处理方法、装置、设备和存储介质与流程

2022-04-02 06:31:20 来源:中国专利 TAG:

技术特征:
1.一种文本处理方法,其特征在于,包括:对待处理文本进行切分操作,得到n个文本序列;针对所述n个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;对编码后的n个所述文本序列进行编码,得到所述待处理文本对应的编码结果,并根据所述编码结果,确定所述待处理文本的文本类型。2.根据权利要求1所述的方法,其特征在于,所述针对所述n个文本序列中的每一文本序列,结合所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列,包括:针对所述n个文本序列执行多轮编码操作,得到编码后的n个所述文本序列;其中,每一轮编码操作如下:针对上一次编码操作得到的所述n个文本序列中的每一文本序列,将所述文本序列,与其前后相邻的文本序列中的至少部分文本数据进行组合,得到组合文本序列,对所述组合文本序列进行编码,得到编码后的组合文本序列,在所述编码后的组合文本序列中,删除与所述至少部分文本数据对应的编码数据,得到本次编码操作后的所述文本序列。3.根据权利要求2所述的方法,其特征在于,所述文本序列的长度为第一预设文本长度;所述针对上一次编码操作得到的所述n个文本序列中的每一文本序列,将所述文本序列,与其前后相邻的文本序列中的至少部分文本数据进行组合,得到组合文本序列,包括:从所述n个文本序列的第一个文本序列开始,将预设窗口以所述第一预设文本长度为步长在所述n个文本序列中进行滑动,并将每次滑动之后,所述预设窗口内包含的片段确定为所述组合文本序列;所述预设窗口的窗口大小为第二预设文本长度;所述第二预设文本长度为所述第一预设文本长度与所述至少部分文本数据的数据长度之和。4.根据权利要求1所述的方法,其特征在于,所述文本序列包含指示所述文本序列语义信息的预设字符;所述对编码后的n个所述文本序列进行编码,得到所述待处理文本对应的编码结果,包括:将n个所述文本序列中每一文本序列包含的预设字符进行汇总,得到与所述待处理文本对应的字符序列;对所述字符序列进行编码,得到所述待处理文本对应的编码结果。5.根据权利要求1-4任一所述的方法,其特征在于,所述针对所述n个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列,包括:基于预设的第一编码单元,针对所述n个文本序列中的每一文本序列,结合所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;所述对编码后的n个所述文本序列进行编码,得到所述待处理文本对应的编码结果,包括:基于预设的第二编码单元,对编码后的n个所述文本序列进行编码,得到所述待处理文本对应的编码结果。6.根据权利要求5所述的方法,其特征在于,所述第一编码单元与所述第二编码单元包
括bert模型,所述bert模型包含至少一个transformer层;所述对所述组合文本序列进行编码,包括:利用所述第一编码单元包含的与本次编码操作对应的transformer层对所述组合文本序列进行编码;所述对所述字符序列进行编码,包括:利用所述第二编码单元包含的至少一个transformer层对所述字符序列进行编码。7.根据权利要求6所述的方法,其特征在于,所述bert模型为通过文本训练样本集进行预训练得到的模型。8.根据权利要求7所述的方法,其特征在于,所述bert模型的输入长度为第三预设文本长度;所述第三预设文本长度大于所述第二预设文本长度;所述利用所述第一编码单元包含的与本次编码操作对应的transformer层对所述组合文本序列进行编码,包括:将所述组合文本序列进行字符补全操作,得到第三预设文本长度的第一输入序列;将所述第一输入序列输入所述第一编码单元包含的与本次编码操作对应的transformer层进行编码;所述利用所述第二编码单元包含的至少一个transformer层对所述字符序列进行编码,包括:将所述字符序列进行字符补全操作,得到第三预设文本长度的第二输入序列;将所述第二输入序列输入所述第二编码单元包含的至少一个transformer层进行编码。9.一种文本处理装置,其特征在于,包括:切分模块,对待处理文本进行切分操作,得到n个文本序列;第一编码模块,针对所述n个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;第二编码与分类模块,对编码后的n个所述文本序列进行编码,得到所述待处理文本对应的编码结果,并根据所述编码结果,确定所述待处理文本的文本类型。10.一种电子设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现如权利要求1-8任一所述的文本处理方法。11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于使处理器执行如权利要求1-8任一所述的文本处理方法。

技术总结
本申请提出一种文本处理方法、装置、设备和存储介质。该方法可以包括:对待处理文本进行切分操作,得到N个文本序列;针对所述N个文本序列中的每一文本序列,基于所述文本序列前后相邻的文本序列中的至少部分文本数据,对所述文本序列进行编码,得到编码后的所述文本序列;对编码后的N个所述文本序列进行编码,得到所述待处理文本对应的编码结果,并根据所述编码结果,确定所述待处理文本的文本类型。确定所述待处理文本的文本类型。确定所述待处理文本的文本类型。


技术研发人员:唐锦阳 郭亚 祝慧佳
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2021.12.29
技术公布日:2022/4/1
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献