一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

标题生成方法、装置、设备及介质与流程

2022-06-01 10:17:22 来源:中国专利 TAG:


1.本技术涉及人工智能技术领域,具体而言,涉及一种标题生成方法、装置、设备及介质。


背景技术:

2.近年来,随着互联网技术的不断发展,用户对网络阅读的需求量呈指数增长,其网络阅读的内容包括新闻、电子书等等。在用户阅读的过程中,阅读的文章所对应的标题起着至关重要的作用。一个好质量的标题不仅要通顺,同时还要求标题与文章的相关性以及标题是否满足用户的喜好,这样才能吸引用户的阅读兴趣。好的标题不仅能准确描述对应的文本信息,另外还可以通过热点词汇增加曝光率、点击量。
3.那么如何使生成的标题同时满足用户的喜好以及标题与文章的相关性,是本领域技术人员需要关注的重点。


技术实现要素:

4.为解决上述技术问题,本技术的实施例提供了一种标题生成方法、装置、设备及介质,以使生成的标题可以在满足用户的喜好的同时,还可以保证标题与文章的相关性。
5.第一方面,本技术提供一种标题生成方法,包括:提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
6.根据本发明优选实施例,获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,包括:统计第一预设时间段内所有用户的历史浏览记录,得到每个备选词的全局热度值;以及统计第一预设时间段内目标用户的历史浏览记录,得到每个备选词的目标热度值;根据每个备选词的全局热度值以及目标热度值,得到每个备选词当前的第一热度值。
7.根据本发明优选实施例,根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值,包括:根据历史热度统计记录,获取每个备选词在第二预设时间段内的多个第一热度值;其中,每个第一热度值中包含有对应的时间信息;根据多个第一热度值的时间信息,计算相邻时间对应的第一热度值之间的热度差值;根据热度差值以及当前时间对应的第一热度值,得到每个备选词的第二热度值。
8.根据本发明优选实施例,根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列,包括:根据第一预设权重参数对每个备选词的第一热度值进行加权处理,得到加权处理后的第一热度加权值,以及根据第二预设权重参数对每个备选词的第二热度值进行加权处理,得到加权处理后的第二热度加权值;将第一热度加权值以及第二热
度加权值进行求和处理,得到每个备选词的综合热度值;根据每个备选词的综合热度值对每个备选词进行排序,得到备选词序列。
9.根据本发明优选实施例,根据备选词序列获取原始文章中各个词的注意力特征,包括:根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,以及根据排序后的备选词,得到原始文章中各个词的重要系数;根据原始文章中各个词的自注意力系数以及原始文章中各个词的重要系数,得到原始文章中各个词的注意力特征。
10.根据本发明优选实施例,根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,包括:将原始文章中各个词输入前向的自注意力网络,得到原始文章中各个词的第一自注意力向量;将原始文章中各个词输入后向的自注意力网络,得到原始文章中各个词的第二自注意力向量;将第一自注意力向量和第二自注意力向量进行融合,获得原始文章中各个词的自注意力系数。
11.根据本发明优选实施例,原始文章包括原始正文信息以及原始标题信息,提取原始文章中的关键词,得到关键词集合,包括:对原始正文信息以及原始标题信息执行分词以及去停用词中的至少一种预处理操作,得到原始正文信息对应的正文词汇以及原始标题信息对应的标题关键词;获取正文词汇的词频逆文本频率值,根据正文词汇的词频逆文本频率值对正文词汇进行筛选,得到原始正文信息对应的正文关键词;对标题关键词以及正文关键词进行拼接,得到关键词集合。
12.第二方面,本技术提供一种标题生成装置,包括:关键词提取模块,用于提取原始文章中的关键词,得到关键词集合;知识图谱匹配模块,用于将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;热度计算模块,用于获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;排序模块,用于根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;标题生成模块,用于根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
13.第三方面,本技术提供一种计算机设备,计算机设备包括存储器和处理器;存储器,用于存储计算机程序;处理器,用于执行的计算机程序并在执行的计算机程序时实现上述标题生成方法的步骤。
14.第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时使处理器实现上述标题生成方法的步骤。
15.本技术实施例公开的标题生成方法、装置、设备及介质,通过提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱进行匹配,得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。由于在获取标题信息时,不仅考虑到了原始文章本身的信息,而且还考虑到了原始文章中各个词汇的当前热度以及热度变化趋势,在标题生成过程中提取用户对于不同词汇的喜爱程度的信息,使得生成标题信息在能够反映出原始文本的核心内容的前提下,还能够保证生成的标题满足用户的偏好。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
17.图1是本技术实施例提供的标题生成方法的应用环境示意图;
18.图2是本技术实施例提供的标题生成方法的流程图;
19.图3是本技术实施例提供的标题生成方法的数据流程示意图;
20.图4是本技术实施例提供的标题生成装置的示意性框图;
21.图5是本技术实施例提供的计算机设备的示意性框图。
具体实施方式
22.这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
23.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
24.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
25.还需要说明的是:在本技术中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
26.下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
27.图1示出了本技术示例性实施例的运行环境的一种系统架构示意图,参考图1所示,该系统可以包括用户终端110、服务器120以及网络。用户终端110以及服务器120之间通过网络通信连接,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
28.用户终端110可以是硬件,也可以是软件。当用户终端110为硬件时,可以是各种电子设备,包括但不限于车载智能终端、智能手机、平板电脑以及智能手环等等。当用户终端110为软件时,可以安装在上述所列举的电子设备中。
29.服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
30.其中,本技术实施例提供的标题生成方法可以使用于标题生成装置中,该标题生
成装置可以集成在计算机设备中,该计算机设备可以是服务器120也可以是用户终端110。
31.应该理解,图1中的用户终端110以及服务器120的数目仅仅是示意性的,仅用于理解本技术实施例,具体用户终端110以及服务器120的数量均应当结合实际情况灵活确定。
32.请参阅图2,图2为本技术实施例提供的标题生成方法的一个流程示意图。如图2所示,该方法包括步骤s210至步骤s250。
33.步骤s210、提取原始文章中的关键词,得到关键词集合。
34.原始文章指的是待生成标题的文章,原始文章中的关键词指的是可以体现原始文章关键内容的词汇。
35.示例性地,可以是周期性地对原始文章进行标题生成,以将最新生成的标题信息作为该原始文章的标题,使原始文章对应的标题实时符合当前热度;也可以是检测到标题生成触发事件时,对原始文章进行标题生成,以将当前生成的标题信息作为该原始文章的标题,例如检测到原始文章的点击量小于预设点击量阈值时,对该原始文章的标题进行重新生成,以通过更符合当前热度的标题提升原始文章的点击量。
36.例如,可以是服务器存储有原始文章,服务器周期性对原始文章进行标题生成操作,以将最新生成的标题信息作为该原始文章的标题。当服务器接收到用户终端针对原始文章的获取请求时,服务器将该原始文章以及该原始文章的标题信息发送给用户终端。
37.例如,可以是用户终端存储有原始文章,当服务器接收到用户终端针对原始文章的标题获取请求时,服务器生成该原始文章对应的标题信息,以将该标题信息发送给用户终端。
38.在一些实施方式中,原始文章包括原始正文信息以及原始标题信息,提取原始文章中的关键词,得到关键词集合,包括:对原始正文信息以及原始标题信息执行分词以及去停用词中的至少一种预处理操作,得到原始正文信息对应的正文词汇以及原始标题信息对应的标题关键词;获取正文词汇的词频逆文本频率值,根据正文词汇的词频逆文本频率值对正文词汇进行筛选,得到原始正文信息对应的正文关键词;对标题关键词以及正文关键词进行拼接,得到关键词集合。
39.原始文章可以是携带有原始标题信息的文本,即原始文章包括原始正文信息以及原始标题信息,原始标题信息可以是人为撰写的标题,也可以是机器生成的标题。例如,带标题的新闻稿件、带标题的日志等。可以理解的是,在不同的应用场景中,原始文章具有不同的内容,本技术实施例不对原始文章的内容进行具体限定。
40.因为原始文章包含有各种噪声信息,如语气词、人称、感叹词等停用词以及无意义词,因此需要对原始文章进行去停用词预处理,以减少噪声信息对后续标题生成产生的影响。
41.示例性地,将原始正文信息以及原始标题信息与停用词库进行匹配,以过滤原始正文信息以及原始标题信息中与停用词库匹配成功的词,实现对原始正文信息以及原始标题信息进行去噪的效果,进而得到原始正文信息对应的正文标准文本以及原始标题信息对应的标题标准文本。其中,停用词库包括但不限于:语气词、人称、感叹词等停用词以及无意义词。
42.进一步地,对正文标准文本以及标题标准文本进行分词预处理,得到原始正文信息对应的正文词汇以及原始标题信息对应的标题关键词,预设的分词方式包括但不限于:
通过第三方分词工具或者分词算法等。其中,常见的第三方分词工具包括但不限于:stanford nlp分词器、ictclas分词系统、ansj分词工具和hanlp中文分词工具等。分词算法包括但不限于:最大正向匹配(maximum matching,简称mm)算法、逆向最大匹配(reverse direction maximum matching method,简称rmm)算法、双向最大匹配(bi-directional matching method,简称bm)算法、隐马尔科夫模型(hidden markov model,简称hmm)和n-gram模型等。
43.可以理解的是,原始标题信息中的词汇相对原始正文信息中的词汇更加重要,因此不对原始标题信息中的词汇进行过滤,即直接将预处理后的原始标题信息中的词汇作为标题关键词。
44.进一步地,计算原始正文信息中每个正文词汇的保留概率。可以理解的是,一个正文词汇的保留概率越大,则该正文词汇相对于原始正文信息越重要。
45.示例性地,对正文词汇的保留概率的计算可以是采用词频逆文本频率(term frequency-inverse document frequency,简称tf-idf)算法计算。计算正文词汇在对应的原始正文信息中的词汇数量,并计算原始正文信息的分词总量;将词汇数量除以分词总量,得到正文词汇在原始正文信息中的词频。然后获取建立词典的对应的生成文件,并计算生成文件的文件总量;从生成文件中获取包含有正文词汇的目标文件,并计算目标文件的目标数量;计算文件总量与目标数量的比值,并计算比值的对数值,得到目标词汇的逆文档频率。计算词频与逆文档频率的乘积,得到正文词汇的保留概率,将保留概率大于概率阈值的正文词汇作为正文关键词。
46.需要说明的是,在本技术的技术方案中,对获取的正文关键词的数量并不进行限定,可以根据不同系统中的需要,任意设定获取的正文关键词的数量。
47.然后,对标题关键词以及正文关键词进行拼接,得到关键词集合。进一步地,根据预设知识图谱对关键词集合中的关键词进行匹配,将匹配成功的关键词作为备选词,以得到备选词集合。
48.步骤s220、将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合。
49.知识图谱本质上是一种经过加工的语义网络,是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边表示为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。而基于知识图谱所形成的关系网络并不是结构化的数据,因此,可以从知识图谱中获取更多信息。
50.示例性地,可以获取原始文章的类型信息,以根据原始文章的类型信息选取对应的知识图谱,并根据选取后的知识图谱对关键词集合进行匹配。
51.示例性地,根据知识图谱对关键词集合进行匹配的过程,可以采用简单的字符匹配,例如,将关键词集合的各个关键词与知识图谱中的各个节点对应的实体进行匹配,将知识图谱中与关键词集合中的各个实体匹配的关键词作为备选词。
52.示例性地,根据知识图谱对关键词集合进行匹配的过程,还可以采用计算关键词集合中的各个关键词与知识图谱的各个节点对应的词汇之间的相似度,以将相似度大于相
似度阈值的关键词作为备选词。
53.可以理解的是,获取根据知识图谱对关键词集合进行匹配的具体方法可以根据实际应用情况进行灵活选择,本技术对此不做限定。
54.通过将关键词集合与知识图谱进行匹配,得到匹配后的备选词集合,可以过滤掉其它干扰数据,以方便后续进行标题生成。
55.步骤s230、获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值。
56.第一热度值用于表征每个备选词的当前热度。例如,统计包含备选词的标题的阅读量、下载量、评论量、点赞量、转发量等,热度值越高代表该标题越受用户的欢迎,同时代表标题中的每个备选词也越受用户的欢迎。
57.第二热度值用于表征每个备选词的热度变化情况,通过热度变化情况的趋势,可以预测备选词在下一时间段是否受用户欢迎。例如,每天均记录一次知识图谱中每个图谱节点对应的备选词的第一热度值,获取备选词集合中每个备选词在7天内的所有第一热度值,以根据每个热度值的变化情况,预测在下一时间段内的第一热度值的大小,得到第二热度值。通过考虑当前时间点之前备选词的第一热度值的变化情况,可以对下一时间段的热度词汇进行预测,以保证修改后的标题更加符合在下一时间段内用户的喜好。
58.在一些实施方式中,获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,包括:统计第一预设时间段内所有用户的历史浏览记录,得到每个备选词的全局热度值;以及统计第一预设时间段内目标用户的历史浏览记录,得到每个备选词的目标热度值;根据每个备选词的全局热度值以及目标热度值,得到每个备选词当前的第一热度值。
59.目标用户指的是针对原始文章生成的标题所展示的对象,可以理解的是,所有用户中的每个用户均可以是目标用户。历史浏览记录指的是记录文章的用户浏览情况的信息,包括但不限于对应文章被用户点击的次数,对应文章被用户阅读的时长等信息。
60.第一预设时间段可以根据实际场景需求设定,例如,统计1天内含有备选词的标题所对应的文章的阅读量、阅读时长等数据,以根据阅读量、阅读时长等数据的变化对每个备选词的第一热度值进行及时更新。
61.需要说明的是,也可以对不同时间段的所有用户的历史浏览记录以及目标用户的历史浏览记录分别进行统计,统计所有用户的历史浏览记录以及目标用户的历史浏览记录对应的时间段具体可以根据实际情况灵活选择,本技术对此不做限制。
62.举例来说,获取第一预设时间段所有用户的历史浏览记录,以获取所有用户的历史浏览记录中每个文章的标题。当历史浏览记录的文章标题中包含有备选词时,将这些文章的阅读量、阅读时长等数据作为该备选词的热度数据。根据所有用户的历史浏览记录统计每个备选词的热度数据,以得到每个备选词的全局热度值。
63.进一步地,获取第一预设时间段目标用户的历史浏览记录,以获取目标用户的历史浏览记录中每个文章的标题。当历史浏览记录的文章标题中包含有备选词时,将这些文章的阅读量、阅读时长等数据作为该备选词的热度数据。根据目标用户的历史浏览记录统计每个备选词的热度数据,以得到每个备选词的目标热度值。
64.可以理解的是,在本技术的具体实施方式中,涉及到用户的历史浏览记录等相关
的数据,当本技术以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
65.示例性地,可以根据预设权重值对全局热度值以及目标热度值进行加权求和,以得到第一热度值。
66.通过同时考虑备选词在所有用户中的热度情况以及对应目标用户的热度情况,使第一热度值更加准确,进而使后续修改后的标题在满足大众热度的同时,也能考虑不同用户之间的热度差异,针对不同目标用户生成不同的标题。
67.在一些实施方式中,根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值,包括:根据历史热度统计记录,获取每个备选词在第二预设时间段内的多个第一热度值;其中,每个第一热度值中包含有对应的时间信息;根据多个第一热度值的时间信息,计算相邻时间对应的第一热度值之间的热度差值;根据热度差值以及当前时间对应的第一热度值,得到每个备选词的第二热度值。
68.对知识图谱中每个词汇在不同时间下的第一热度值进行统计记录,以得到历史热度统计记录,以根据历史热度统计记录获取备选词集合中每个备选词对应的第一热度值的变化情况。
69.可以理解的是,第二预设时间段包括多个第一预设时间段,多个第一预设时间段中包含有获取备选词当前的第一热度值所对应的时间段。
70.示例性地,每个第一热度值中包含有对应的时间信息,根据时间信息对每个第一热度值进行时间先后的排序,以分析第一热度值基于时间轴上的数值变化情况。其中,可以通过相邻时间对应的第一热度值之间的热度差值来表征热度值的变化情况。
71.举例来说,备选词a在第二预设时间段内各个第一预设时间段下的第一热度值包括t1、t2、t3以及t4,其中,t4是备选词a当前时间对应的第一热度值,t1与t2对应的时间信息为相邻时间,其热度差值为b1;t2与t3对应的时间信息为相邻时间,其热度差值为b2;t3与t4对应的时间信息为相邻时间,其热度差值为b3。因此,根据热度差值以及当前时间对应的第一热度值,得到备选词a的第二热度值为b1 b2 b3 t4。
72.步骤s240、根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列。
73.通过第一热度值以及第二热度值获取备选词集合中每个备选词的词汇重要程度,可以理解的是,第一热度值以及第二热度值越高,则对应的备选词越受用户欢迎,即该备选词越重要;第一热度值以及第二热度值越低,则对应的备选词越不受用户欢迎,即该备选词越不重要。
74.在一些实施方式中,根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列,包括:根据第一预设权重参数对每个备选词的第一热度值进行加权处理,得到加权处理后的第一热度加权值,以及根据第二预设权重参数对每个备选词的第二热度值进行加权处理,得到加权处理后的第二热度加权值;将第一热度加权值以及第二热度加权值进行求和处理,得到每个备选词的综合热度值;根据每个备选词的综合热度值对每个备选词进行排序,得到备选词序列。
75.可以理解的是,第一预设权重参数以及第二预设权重参数可以根据实际场景需求设定,本技术对此不做限定。
76.例如,第一预设权重参数为0.3,第二预设权重参数为0.7,根据第一预设权重参数以及第二预设权重参数对第一热度值以及第二热度值进行加权求和后,得到备选词的综合热度值,且该综合热度值更关注下一时间词汇热度。
77.示例性地,可以将备选词以及综合热度值作为键值对,然后根据每个备选词的综合热度值的大小,按照从大至小的顺序,对每个键值对排序,以得到备选词序列。
78.步骤s250、根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
79.在一些实施例中,可以预先训练一个标题生成模型,该标题生成模型用于对原始文章的原始标题进行修改。
80.在一些实施方式中,可以使用预训练语言模型对标题生成模型进行训练,例如,根据预训练语言模型(例如t5模型、gpt3模型)的训练权重,对标题生成模型进行训练,以使标题生成模型可以更快达到训练收敛。
81.可选地,该标题生成模型为一个seq2seq模型,seq2seq模型的输入是一个序列(原始文章),输出也是一个序列(生成的标题)。例如,该标题生成模型采用rnn、lstm、blstm或者gru等,本技术实施例不对该标题生成模型的形式进行具体限定。
82.其中,seq2seq模型包含有编码层,编码层用于指将输入的离散单词映射成连续向量,换言之,将单词映射至嵌入空间,得到该单词的词向量,从而能够将稀疏的单词压缩成一个稠密的词向量,方便计算机进行文本处理。
83.其中,该解码层用于基于上述编码器的输出,结合注意力机制,以预测该原始文章的标题信息。
84.注意力机制(attention mechanism):一种基于注意力系数的加权机制,可应用于seq2seq模型的解码部分,以对解码部分中产生的隐向量进行加权,使得隐向量更加聚焦于文本核心的语义信息,使得seq2seq模型倾向于输出具有较高注意力系数的隐向量所指示的摘要信息。
85.在一些实施方式中,根据备选词序列获取原始文章中各个词的注意力特征,包括:根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,以及根据排序后的备选词,得到原始文章中各个词的重要系数;根据原始文章中各个词的自注意力系数以及原始文章中各个词的重要系数,得到原始文章中各个词的注意力特征。
86.相对位置指的是原始文章的各个词之间的相对位置。将原始文章输入自注意力网络,以得到原始文章中各个词的自注意力系数。其中,自注意力网络为带相对位置编码的自注意力网络,能够确定各个词之间的相对位置,并将该相对位置编码为相对位置编码。因此,原始文章中各个词的自注意力系数用于表征各个词在原始文章中的重要程度。
87.示例性地,先将原始文章进行词向量转换处理,得到原始文章的词向量,将词向量输入至双向长短时记忆网络(blstm或bilstm,bidirectional long short-term memory)编码器的隐层,并通过blstm编码器的隐层对原始文章的词向量进行编码处理,以得到各个词的自注意力系数,即从而得到原始文章的隐状态。
88.在一些实施方式中,根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,包括:将原始文章中各个词输入前向的自注意力网络,得到原始文章中各个词的第一自注意力向量;将原始文章中各个词输入后向的自注意力网络,得到原始
文章中各个词的第二自注意力向量;将第一自注意力向量和第二自注意力向量进行融合,获得原始文章中各个词的自注意力系数。
89.示例性的,自注意力网络包括前向的自注意力网络和后向的自注意力网络。前向的自注意力网络可以称为是前向的带相对位置编码的自注意力网络。后向的自注意力网络可以称为是后向的带相对位置编码的自注意力网络。
90.可选地,上述第一自注意力向量以及第二自注意力向量进行融合,即可得到原始文章中各个词的自注意力系数。
91.可选地,融合方式包括但不限于:拼接、按元素相加、双线性汇合、按元素相乘等,本技术实施例不对融合方式进行具体限定。
92.由于使用前向掩码能得到后面词汇对前面词汇的依赖关系,使用后向掩码能够得到前面词汇对后面词汇的依赖关系,所以使用前向掩码和后向掩码能够得到双向依赖关系。
93.进一步地,通过排序后的备选词,得到原始文章中各个词的重要系数。示例性地,备选词的第一热度值以及第二热度值越高,则该备选词在排序结果中越靠前,即该备选词的重要系数越大。可以根据备选词的第一热度值以及第二热度值对应的综合热度值,计算得到备选词的重要系数;也可以根据排序后的备选词中的排序位置,匹配备选词在排序位置对应的重要系数。
94.重要系数用于表示备选词集合中每个备选词对于用户的喜爱程度的权重系数。基于重要系数,对各个词的自注意力系数进行加权,得到原始文章中各个词的注意力特征。
95.在上述过程中,可以基于原始文章中各个词的注意力特征,确定至少一个预测概率,一个预测概率用于表示原始文章中各个词在一个时刻出现在待生成的标题中的可能性;获取至少一个时刻中预测概率最大的词所构成的词汇序列;将该词汇序列确定为标题信息。
96.可选地,对解码层中任一神经元,获取该神经元的隐向量之后,基于该神经元的隐向量、该神经元对应的注意力特征,能够获取到该隐向量匹配于原始文章中各个词的预测概率,将预测概率最大的词确定为该标题信息中与该神经元对应位置的词汇。其余神经元的处理过程以此类推,最终输出原始文章对应的标题信息。
97.在一些实施方式中,还包括对生成的标题信息进行评分操作,例如检测生成的标题是否覆盖重要的关键词,检测生成的标题是否连贯,检测生成的标题和原始文章的相关度,检测生成标题后的文章的热度相对于标题生成前的文章的热度的变化等。
98.可选的,本实施例可以通过预先训练的标题评价模型得到标题信息对应的文本质量评价信息,本实施例中预先训练的标题评价模型包括特征提取网络和文本评价网络。通过特征提取网络获取标题信息的每个字符对应的融合向量;通过文本评价网络获取标题信息对应的文本质量评价信息。
99.其中,字向量用于表示字符的标识信息,不同的字符对应不同的字向量;例如,“文”对应的字向量与“本”对应的字向量不同,不同的字符通过不同的字向量唯一标识;文本向量用于表示字符在标题信息中的语义信息,语义越接近的字符对应的文本向量距离越近。
100.示例性地,在对每个字符对应的字向量以及文本向量进行融合处理的过程中,首
先对每个字符对应的字向量以及文本向量进行求和处理,得到每个字符对应的和向量,再根据每个字符对应的和向量进行融合处理得到融合向量,其中融合向量表示每个字符对应的语义信息。
101.进一步地,将每个字符对应的融合向量输入至已训练的文本评价网络的均值化处理层,已训练的文本评价网络的均值化处理层对每个字符对应的融合向量进行均值化处理,得到标题信息对应的文本质量评价向量;并将得到的文本质量评价向量输入至已训练的文本评价网络的评价信息获取层,已训练的文本评价网络的评价信息获取层对文本质量评价向量进行归一化处理,得到标题信息对应的文本质量评价信息。
102.示例性地,文本评价网络可以通过文本质量评价向量计算标题信息的通顺度以及标题信息和原始文章的相关度,根据通顺度以及相关度对标题信息进行打分,得到文本质量评价信息。通顺度以及相关度可以用概率表示,其范围为0~1。
103.通过对标题信息进行评价,以得到标题信息的文本质量评价信息,进而可以根据文本质量评价信息了解标题生成的情况,以在文本质量评价信息表征标题信息质量较差时,可以对标题生成过程中的知识图谱、标题生成模型等及时进行优化。
104.请参阅图3,图3为本技术另一实施例提供的标题生成方法的数据流程示意图。
105.如图3所示,对原始文章进行关键词提取操作,以得到关键词集合,以及根据原始文章的类型信息,获取类型信息对应的知识图谱。对知识图谱中的图谱节点对应的实体以及关键词集合中的关键词进行匹配,将匹配成功的实体所对应的词汇作为备选词,以得到备选词集合。然后获取历史浏览记录,以根据历史浏览记录对备选词集合中的每个备选词进行热度值计算,并根据计算结果对每个备选词排序,得到备选词序列。进一步地,将备选词序列以及原始文章输入基于注意力机制的标题生成模型中,以得到标题生成模型输出的标题信息。
106.本技术提供的标题生成方法,通过提取原始文章中的关键词,得到关键词集合;将关键词集合中的关键词和预设知识图谱进行匹配,得到备选词集合;获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。由于在获取标题信息时,不仅考虑到了原始文章本身的信息,而且还考虑到了原始文章中各个词汇的当前热度以及热度变化趋势,在标题生成过程中提取用户对于不同词汇的喜爱程度的信息,使得生成标题信息在能够反映出原始文本的核心内容的前提下,还能够保证生成的标题满足用户的偏好。
107.请参阅图4,图4是本技术一实施例提供的一种标题生成装置的示意框图,该标题生成装置可以配置于服务器或计算机设备中,用于执行前述的标题生成方法。
108.如图4所示,标题生成装置400包括:关键词提取模块410、知识图谱匹配模块420、热度计算模块430、排序模块440以及标题生成模块450。
109.关键词提取模块410用于提取原始文章中的关键词,得到关键词集合;
110.知识图谱匹配模块420用于将关键词集合中的关键词和预设知识图谱的图谱节点进行匹配,根据匹配成功的图谱节点得到备选词集合;
111.热度计算模块430用于获取备选词集合中每个备选词的当前热度,得到每个备选
词的第一热度值,以及根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值;
112.排序模块440用于根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列;
113.标题生成模块450用于根据备选词序列获取原始文章中各个词的注意力特征,以根据注意力特征生成标题信息。
114.在一些实施方式中,基于前述方案,获取备选词集合中每个备选词的当前热度,得到每个备选词的第一热度值,包括:统计第一预设时间段内所有用户的历史浏览记录,得到每个备选词的全局热度值;以及统计第一预设时间段内目标用户的历史浏览记录,得到每个备选词的目标热度值;根据每个备选词的全局热度值以及目标热度值,得到每个备选词当前的第一热度值。
115.在一些实施方式中,基于前述方案,根据每个备选词的第一热度值的变化趋势,得到每个备选词的第二热度值,包括:根据历史热度统计记录,获取每个备选词在第二预设时间段内的多个第一热度值;其中,每个第一热度值中包含有对应的时间信息;根据多个第一热度值的时间信息,计算相邻时间对应的第一热度值之间的热度差值;根据热度差值以及当前时间对应的第一热度值,得到每个备选词的第二热度值。
116.在一些实施方式中,基于前述方案,根据第一热度值以及第二热度值对每个备选词进行排序,得到备选词序列,包括:根据第一预设权重参数对每个备选词的第一热度值进行加权处理,得到加权处理后的第一热度加权值,以及根据第二预设权重参数对每个备选词的第二热度值进行加权处理,得到加权处理后的第二热度加权值;将第一热度加权值以及第二热度加权值进行求和处理,得到每个备选词的综合热度值;根据每个备选词的综合热度值对每个备选词进行排序,得到备选词序列。
117.在一些实施方式中,基于前述方案,根据备选词序列获取原始文章中各个词的注意力特征,包括:根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,以及根据排序后的备选词,得到原始文章中各个词的重要系数;根据原始文章中各个词的自注意力系数以及原始文章中各个词的重要系数,得到原始文章中各个词的注意力特征。
118.在一些实施方式中,基于前述方案,根据原始文章中各个词的相对位置信息,得到原始文章中各个词的自注意力系数,包括:将原始文章中各个词输入前向的自注意力网络,得到原始文章中各个词的第一自注意力向量;将原始文章中各个词输入后向的自注意力网络,得到原始文章中各个词的第二自注意力向量;将第一自注意力向量和第二自注意力向量进行融合,获得原始文章中各个词的自注意力系数。
119.在一些实施方式中,基于前述方案,原始文章包括原始正文信息以及原始标题信息,提取原始文章中的关键词,得到关键词集合,包括:对原始正文信息以及原始标题信息执行分词以及去停用词中的至少一种预处理操作,得到原始正文信息对应的正文词汇以及原始标题信息对应的标题关键词;获取正文词汇的词频逆文本频率值,根据正文词汇的词频逆文本频率值对正文词汇进行筛选,得到原始正文信息对应的正文关键词;对标题关键词以及正文关键词进行拼接,得到关键词集合。
120.需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,
上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
121.本技术的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
122.示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
123.请参阅图5,图5是本技术实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。
124.如图5所示,该计算机设备500包括通过系统总线520连接的处理器510、存储器530和网络接口540,其中,存储器530可以包括非易失性存储介质和内存储器。
125.非易失性存储介质可存储操作系统550和计算机程序560。该计算机程序560包括程序指令,该程序指令被执行时,可使得处理器510执行任意一种标题生成方法。
126.处理器510用于提供计算和控制能力,支撑整个计算机设备500的运行。
127.内存储器530为非易失性存储介质中的计算机程序560的运行提供环境,该计算机程序560被处理器510执行时,可使得处理器510执行任意一种标题生成方法。
128.该网络接口540用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备500的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备500的限定,具体地计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
129.应当理解的是,处理器510可以是中央处理单元(central processing unit,简称cpu),该处理器510还可以是其他通用处理器、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器510可以是微处理器或者该处理器510也可以是任何常规的处理器等。
130.其中,处理器510用于运行存储在存储器中的计算机程序560,以实现本技术实施例提供的任一种标题生成方法。
131.本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序中包括程序指令,程序指令被执行时实现本技术实施例提供的任一种标题生成方法。
132.其中,计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备,例如计算机设备上配备的插接式硬盘,智能存储卡(smart media card,简称smc),安全数字(secure digital,简称sd)卡,闪存卡(flash card)等。
133.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利
要求的保护范围为准。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献