一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文档摘要处理方法、装置、设备及介质与流程

2022-05-11 16:11:13 来源:中国专利 TAG:

技术特征:
1.一种文档摘要处理方法,其特征在于,包括以下步骤:对目标文档进行切分生成多个第一文本片段;通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理,获取每个所述第一文本片段的语义向量;通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码,生成每个所述第一文本片段对应的第二文本片段;对每个所述第一文本片段的语义向量进行分类处理,生成每个所述第一文本片段的文本类别;根据每个所述第一文本片段的文本类别,以及每个所述第一文本片段对应的第二文本片段,确定每个所述第一文本片段对应的摘要文本片段;根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容。2.根据权利要求1所述的方法,其特征在于,所述对目标文档进行切分生成多个第一文本片段,包括:确定所述第一模型预设的文本长度阈值;根据预设的标点符号和用于上下文关联的滑动窗口对所述目标文档进行切分,生成多个第一文本片段,其中,切分位置前后相邻的第一文本片段中的部分内容重叠,每个所述第一文本片段的长度小于或者等于所述文本长度阈值。3.根据权利要求1所述的方法,其特征在于,所述第一模型为预先训练的抽取式语言模型,所述通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理,获取每个所述第一文本片段的语义向量,包括:根据预设词表对每个所述第一文本片段进行映射,获取所述词表中与所述第一文本片段对应的编码数据;将所述第一文本片段对应的编码数据输入预先训练的抽取式语言模型,获取每个所述第一文本片段的语义向量。4.根据权利要求1所述的方法,其特征在于,所述第二模型为预先训练的生成式语言模型,所述通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码,生成每个所述第一文本片段对应的第二文本片段,包括:将所述第一文本片段的语义向量输入预先训练的生成式语言模型,根据所述第一文本片段的语义向量逐字依次生成字符,获取与每个所述第一文本片段对应的第二文本片段。5.根据权利要求1所述的方法,其特征在于,所述对每个所述第一文本片段的语义向量进行分类处理,生成每个所述第一文本片段的文本类别,包括:将每个所述第一文本片段的语义向量输入所述摘要处理模型中的全连接层分类模型进行二分类,获取每个所述第一文本片段的文本类别,其中,所述文本类别为表示摘要类型的第一类别,或者,所述文本类别为表示非摘要类型的第二类别。6.根据权利要求1所述的方法,其特征在于,所述根据每个所述第一文本片段的文本类别,以及每个所述第一文本片段对应的第二文本片段,确定每个所述第一文本片段对应的摘要文本片段,包括:当所述第一文本片段的文本类别为摘要类别,通过所述摘要处理模型的处理计算所述第一文本片段的第一置信度,以及与所述第一文本片段对应的第二文本片段的第二置信
度;在所述第一置信度和所述第二置信度均大于预设阈值的情况下,若所述第一置信度大于所述第二置信度,则将所述第一文本片段作为其自身对应的摘要文本片段,或者,若所述第二置信度大于所述第一置信度,则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段,或者,若所述第二置信度等于所述第一置信度,则将所述第一文本片段为其自身对应的摘要文本片段,或,将所述第二文本片段为所述第一文本片段对应的摘要文本片段。7.根据权利要求6所述的方法,其特征在于,还包括:在所述第一置信度大于预设阈值,以及所述第二置信度不大于预设阈值的情况下,则将所述第一文本片段作为其自身对应的摘要文本片段;或者,在所述第二置信度大于预设阈值,以及所述第一置信度不大于预设阈值的情况下,则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段;或者,在所述第一置信度和所述第二置信度均不大于预设阈值的情况下,确定所述第一文本片段不存在对应的摘要文本片段。8.根据权利要求6所述的方法,其特征在于,还包括:当所述第一文本片段的文本类别不为摘要类别,通过所述摘要处理模型的处理计算与所述第一文本片段对应的第二文本片段的第二置信度;在所述第二置信度大于预设阈值的情况下,则将所述第二文本片段作为所述第一文本片段对应的摘要文本片段;或者,在所述第二置信度不大于预设阈值的情况下,确定所述第一文本片段不存在对应的摘要文本片段。9.根据权利要求1所述的方法,其特征在于,所述根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容,包括:将至少一个所述第一文本片段本身作为对应的抽取式文本片段,以及将至少一个所述第一文本片段对应的所述第二文本片段作为对应的生成式文本片段;将至少一个所述抽取式文本片段与至少一个所述生成式文本片段进行拼接,生成所述目标文档的摘要内容。10.一种文档摘要处理装置,其特征在于,包括:切分模块,用于对目标文档进行切分生成多个第一文本片段;获取模块,用于通过预先训练的摘要处理模型中的第一模型对每个所述第一文本片段进行编码处理,获取每个所述第一文本片段的语义向量;第一生成模块,用于通过所述摘要处理模型中的第二模型对每个所述第一文本片段的语义向量进行解码,生成每个所述第一文本片段对应的第二文本片段;第二生成模块,用于对每个所述第一文本片段的语义向量进行分类处理,生成每个所述第一文本片段的文本类别;确定模块,用于根据每个所述第一文本片段的文本类别,以及每个所述第一文本片段对应的第二文本片段,确定每个所述第一文本片段对应的摘要文本片段;第三生成模块,用于根据每个所述第一文本片段对应的摘要文本片段生成所述目标文档的摘要内容。
11.一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9中任一所述的文档摘要处理方法。12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9中任一所述的文档摘要处理方法。13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如权利要求1-9任一项所述的文档摘要处理方法。

技术总结
本公开实施例涉及一种文档摘要处理方法、装置、设备及介质,其中该方法包括:对目标文档切分生成多个第一文本片段;通过摘要处理模型中的第一模型对每个第一文本片段编码处理,获取语义向量;通过摘要处理模型中的第二模型对每个第一文本片段的语义向量解码,生成对应的第二文本片段;对每个第一文本片段的语义向量分类处理,生成每个第一文本片段的文本类别;根据每个第一文本片段的文本类别,以及每个第一文本片段对应的第二文本片段,确定每个第一文本片段对应的摘要文本片段;根据每个第一文本片段对应的摘要文本片段生成目标文档的摘要内容。本公开实施例中,确保了生成的摘要内容更贴合目标文档,并且语言通顺、连贯性较好。连贯性较好。连贯性较好。


技术研发人员:潘璋 李长亮 姬子明 李小龙
受保护的技术使用者:北京金山数字娱乐科技有限公司
技术研发日:2021.12.31
技术公布日:2022/5/10
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献