一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的新闻文本摘要生成方法

2022-07-23 11:16:45 来源:中国专利 TAG:

技术特征:
1.一种基于深度学习的新闻文本摘要生成方法,其特征在于,所述方法包括以下步骤:1)通过爬虫算法爬取新闻网站上的新闻标题和新闻文本,每一个新闻文本和新闻标题组成一个story文件,文本与标题之间用@highlight标识符分隔;2)将上述的story文件用stanford corenlp工具包进行分句分词,通过贪婪算法,选择出新闻文本中与标题句子rouge-1/2指标分数最高的前三个句子打上label标签,最后生成确定格式的标注文本作为训练数据和验证数据;3)文本摘要生成方法使用的是抽取 生成的策略,先使用抽取式模型从新闻文本抽取出与标题相关度高的句子,然后将抽取出来的句子作为指导信号作用于另外一个生成式模型,去指导摘要的生成;4)抽取式模型采用bert网络模型获取句子表示,inter-sentence transformer层作为摘要层,来对确定格式的标注文本作文本摘要抽取式的训练;同时,用另两个bert网络模型作为两个编码器,解码器采用transformer的decoder端,对输入文本和指导信号进行文本摘要生成式的训练,指导信号是打上label的关键句子,实现过程如下:4.1)给定token化的文本x=[cls,x1,x2,

,x
n
,sep]其中cls和sep是每个句子的句首和句尾插入的token,x
t
是文本t位置上的token,将文本x输入bert模型后,得到文本的隐藏表示h=[h1,h2,
……
h
m
],进一步获取每个句子句首的clstoken的隐藏表示t=[t1,t2,

t
t
];4.2)将隐藏表示t传输给由两层transformer encoder layer组成的摘要层,输出得到h
l
,然后经过一个sigmoid层,得到每个句子的分数y=[y1,y2,

y
n
],根据标注文本的label标签l=[l1,l2,

l
n
],然后使用二分类交叉熵损失函数对抽取式模型进行训练:],然后使用二分类交叉熵损失函数对抽取式模型进行训练:y
i
=σ(w
o
h
l
b
o
)#(3)l
n
=-[l
n
·
logy
n
(1-l
n
)
·
log(1-y
n
)]#(5)其中l表示transformer encoder layer的层数,mhatt是对transformer encoder layer层的输出h
l-1
做多头注意力运算,是经过层归一化操作ln之后的输出,然后对该输出做ffn前馈网络运算,生成第l层的输出向量h
l
,σ是sigmoid运算,w
o
是权重参数,b
o
是偏差,y
i
是第i个句子的预测分数,n是句子的个数,l
n
是第n个句子的标签,y
n
是第n个句子的预测分数;4.3)将token化的输入文本x=[x1,x2,

,x
n
]与token化的指导信号g=[g1,g2,

,g
m
]分别输入给生成式模型的两个编码器bert模型,分别得到隐藏表示h
x
=[h
x1
,h
x2
,

,h
xn
],h
g
=[h
g1
,h
g2
,

,h
gm
];4.4)生成式模型的解码器端首先对上一层的输出y做一次self attention操作,其次利用cross attention机制关注指导信号并生成相应表示y1,然后再经过一个cross attention层,根据y1来处理整个输入文本,得到表示y2,最后经过一个前馈网络层,得到中间输出y3,经过6层decoder layer之后,输出词的概率分布,计算损失,训练模型;
y=ln(y selfatt(y)0#(6)y1=ln(y crossatt(y,g))#(7)y2=ln(y1 crossatt(y1,x))#(8)y3=ln(y2 ffn(y2))#(9)其中,ln是层归一化操作,selfatt是自注意力机制,crossatt是交叉注意力机制,ffn是前馈网络运算,y是解码器端上一层的输出向量,g是指导信号的向量表示,x是输入文档的向量表示,y1是在y的基础上融合了指导信号g的向量表示,y2是在y1的基础上融合了输入的文档向量x的向量表示,y3是解码器端decoder层的输出;5)训练完成后,将抽取式模型和生成式模型分别保存;6)生成摘要时将一段新闻文本先输入到抽取式模型中,抽取出模型认为的候选摘要,然后将候选摘要和新闻文本再输入至生成式模型,得到最终的摘要。

技术总结
一种基于深度学习的新闻文本摘要生成方法,包括以下步骤:1)爬取新闻标题和新闻文本,获得原始数据;2)对数据进行预处理,获得模型所需的数据格式;3)利用Bert模型作为核心来构建抽取式和生成式的摘要生成系统;4)抽取式模型先对输入文本抽取出与标题相关度高的句子,用作生成式模型的指导信号;5)输入文本和指导信号输入给生成式模型,生成最终摘要;6)将生成摘要与参考摘要进行对比评价。本发明结合抽取式与生成式摘要模型对新闻文本进行摘要生成,可以让冗长的文本精简化,快速获取其中的关键信息。关键信息。关键信息。


技术研发人员:李永强 吴毕亮 冯远静 范陈强 赵永智 姚辉 李文伟 林栋 叶衍统 汤家睿 薛志豪
受保护的技术使用者:浙江工业大学
技术研发日:2022.05.26
技术公布日:2022/7/22
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献