一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文本处理方法、装置、电子设备和存储介质与流程

2021-12-07 20:34:00 来源:中国专利 TAG:

技术特征:
1.一种文本处理方法,包括:获取商品的介绍文本,所述介绍文本包括多个句子;将所述介绍文本划分为多个部分,并确定所述多个部分的每个部分的中心句;在所述每个部分中,按照随机变量p~e(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,p表示取与所述部分的中心句距离排序为i的句子的概率,e(
·
)表示指数分布;将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。2.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:在所述每个部分中,随机获取所述部分中的任意一个句子作为对应的中心句。3.根据权利要求1所述的方法,所述确定所述多个部分的每个部分的中心句包括:计算所述每个部分包括的句子两两之间的相似度,在所述每个部分中,计算每个句子分别与其它句子的相似度的和,得到所述每个部分中每个句子的总相似度;在所述每个部分中,选取总相似度最高的句子作为对应的中心句。4.根据权利要求1所述的方法,所述将所述介绍文本划分为多个部分包括:利用聚类算法,将所述多个句子中的至少部分句子分割为所述多个部分。5.根据权利要求1至4任意一项所述的方法,还包括:获取基于所述输入文本得到的所述商品的多个摘要;根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。6.根据权利要求5所述的方法,还包括:将所述商品的多个摘要中的任意一个摘要输入所述训练好的摘要生成模型,生成与所述商品的多个摘要相同或不同的所述商品的摘要。7.根据权利要求5所述的方法,所述摘要生成模型为基于rnn、cnn或transformer的sequence

to

sequence模型。8.一种文本处理装置,包括:获取模块,用于获取商品的介绍文本,所述介绍文本包括多个句子;划分模块,用于将所述介绍文本划分为多个部分;确定模块,用于确定所述每个部分的中心句;采样模块,用于在所述每个部分中,按照随机变量p~e(λ)进行采样,得到所述每个部分对应的采样句,其中,λ=1/进行采样的部分中的句子数量,p表示取与所述部分的中心句距离排序为i的句子的概率,e(
·
)表示指数分布;合并模块,用于将所述每个部分对应的采样句进行合并,得到输入文本,所述输入文本用于生成所述商品的摘要。
9.根据权利要求8所述的装置,还包括:生成模块,用于基于所述输入文本,生成所述商品的多个摘要;构建模块,用于根据所述多个摘要,构建多个训练样本,每个所述训练样本包括两个不同的摘要,所述两个不同的摘要中的一个摘要作为预设摘要生成模型的输入,另一个摘要作为所述摘要生成模型的输出;训练模块,用于利用所述多个训练样本,训练所述摘要生成模型,得到训练好的摘要生成模型,所述训练好的摘要生成模型用于根据所述商品的多个摘要中的任意一个摘要,生成与所述商品的多个摘要相同或不同的所述商品的摘要。10.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任一项所述的方法。11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1至7中任一项所述的方法。

技术总结
本公开提供了一种文本处理方法、装置、电子设备和存储介质,应用于文本处理技术领域,包括:获取商品的介绍文本,该介绍文本包括多个句子,将介绍文本划分为多个部分,并确定多个部分的每个部分的中心句,在每个部分中,按照随机变量P~E(λ)进行采样,得到每个部分对应的采样句,将每个部分对应的采样句进行合并,得到输入文本。得到输入文本。得到输入文本。


技术研发人员:李浩然
受保护的技术使用者:北京京东世纪贸易有限公司
技术研发日:2021.02.01
技术公布日:2021/12/6
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献