一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

文章标题生成方法、装置、存储介质及电子设备

2022-12-07 16:58:13 来源:中国专利 TAG:

技术特征:
1.一种文章标题生成方法,其特征在于,包括以下步骤:根据文本摘要算法从目标文章中提取目标摘要;基于预训练的标题生成模型和所述目标摘要,生成第一候选文章标题;基于所述标题生成模型和所述目标文章,生成第二候选文章标题;计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题;所述标题生成模型的训练方法包括以下步骤:获取训练用的原始文本集,所述原始文本集包括原始文章和原始标题;对所述原始文本集进行预处理,得到格式规范的输入数据,所述预处理为将所述原始文本集的格式统一化处理;将预处理后的输入数据向改良后的gpt-2模型输入并进行训练,所述改良后的gpt-2模型为在gpt-2模型的下游增加fc层,得到预训练的标题生成模型。2.根据权利要求1所述的文章标题生成方法,其特征在于,计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题的步骤包括:计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,将与所述第二候选文章标题匹配度最高的所述第一候选文章标题作为目标文章标题。3.根据权利要求1所述的文章标题生成方法,其特征在于,计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题的步骤包括:计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,以及计算所述第一候选文章标题的标题通顺度;根据所述标题匹配度和所述标题通顺度确定所述第一候选文章标题的目标文章标题。4.根据权利要求1所述的文章标题生成方法,其特征在于,将预处理后的输入数据向改良后的gpt-2模型输入并进行训练,得到预训练的标题生成模型的步骤包括:向改良后的gpt-2模型中输入所述输入数据,所述改良后的gpt-2模型输出每个预测的token值,根据所述预测的token值和原始token值计算所述改良后的gpt-2模型的损失值,根据所述损失值不断优化所述改良后的gpt-2模型,得到预训练的标题生成模型。5.根据权利要求1所述的文章标题生成方法,其特征在于,所述根据文本摘要算法从目标文章中提取目标摘要的步骤包括:计算目标文章的总字符长度和句子数量,根据所述目标文章的总字符长度和所述句子数量计算摘要长度;使用textrank算法计算所述目标文章中每句话占整篇所述目标文章的权重,按照权重顺序降序排序,根据所述权重顺序和所述摘要长度选取目标句子,再根据所述目标句子在所述目标文章中的顺序拼接成目标摘要。6.根据权利要求1所述的文章标题生成方法,其特征在于,所述基于所述标题生成模型和所述目标文章,生成第二候选文章标题的步骤为:向预训练的标题生成模型中导入目标文章,得到预测标题列表;对所述预测标题列表中的各个预测标题通过kenlm计算困惑度,将各个所述预测标题
的困惑度升序排序,将所述预测标题困惑度小于预设困惑度的所述预测标题作为第二候选文章标题。7.一种文章标题生成装置,其特征在于,所述装置包括:提取模块,用于根据文本摘要算法从目标文章中提取目标摘要;第一生成模块,用于基于预训练的标题生成模型和所述目标摘要,生成第一候选文章标题;第二生成模块,用于基于所述标题生成模型和所述目标文章,生成第二候选文章标题;计算模块,用于计算所述第一候选文章标题和所述第二候选文章标题的标题匹配度,根据所述标题匹配度从所述第一候选文章标题中确定目标文章标题;所述标题生成模型的训练方法包括以下步骤:获取训练用的原始文本集,所述原始文本集包括原始文章和原始标题;对所述原始文本集进行预处理,得到格式规范的输入数据,所述预处理为将所述原始文本集的格式统一化处理;将预处理后的输入数据向改良后的gpt-2模型输入并进行训练,所述改良后的gpt-2模型为在gpt-2模型的下游增加fc层,得到预训练的标题生成模型。8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任一项所述的文章标题生成方法。9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的文章标题生成方法。

技术总结
本发明提供一种文章标题生成方法、装置、存储介质及电子设备,该生成方法包括:根据文本摘要算法从目标文章中提取目标摘要;基于预训练的标题生成模型和目标摘要,生成第一候选文章标题;基于标题生成模型和目标文章,生成第二候选文章标题;计算第一候选文章标题和第二候选文章标题的标题匹配度,根据标题匹配度从第一候选文章标题中确定目标文章标题。本发明将标题生成模型和目标摘要生成的第一候选文章标题和标题生成模型和目标文章生成的第二候选文章标题进行匹配计算,根据匹配计算结果从第一候选文章标题中得到贴合目标文章内容的标题作为目标文章标题,从而提高文章标题生成的精确度。生成的精确度。生成的精确度。


技术研发人员:熊汉卿 阙越 谭林丰 郝书乐
受保护的技术使用者:华东交通大学
技术研发日:2022.11.07
技术公布日:2022/12/6
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献