融合近邻标题图的新闻话题发现方法

2022-07-10 09:25:11 来源：中国专利 TAG：

1.本发明涉及融合近邻标题图的新闻话题发现方法，属于自然语言处理技术领域。

背景技术：

2.新闻具有特殊性，每一篇新闻文档和标题都包含了案件要素，在描述同一案件的不同话题下有很多要素相近的新闻文档和标题，如果让人来通过肉眼识别这些不同话题下的新闻比较容易区分，但是如果表征质量不高，计算机很难做到人的识别准确率。sun等人通过改进的single-pass增量文本聚类算法,在相似度的计算中添加了时间因素，以话题为粒度对新闻信息进行组织,实现网络新闻话题的发现；hu等人在基于lda主题模型的狄利克雷过程混合模型(dpm-m)的基础上融入先验知识改进话题发现的性能；li等人提出了一种基于lda的分层分类模型作为特征提取技术来提取潜在主题以减少数据稀疏的影响，并构建与语料库相关的主题特征向量，为稀有类别训练更健壮的分类模型。然而已有的话题发现方法中，对于同一案件下的新闻文档建模，捕获的主题信息和主题词由于相似度过高而被归为同一个主题下，同样不能够很好地区分同一案件不同话题下的新闻文档。如何既考虑到同一案件话题下新闻文档的联系，又考虑到具有相似案件要素的新闻文档的区别是领域新闻的话题发现任务有待解决的难题之一。

技术实现要素：

3.本发明提供了融合近邻标题图的新闻话题发现方法，构造出相似标题的关联关系，同时为避免仅有标题的偏置和噪声数据影响，把文档的特征加入到标题的编码过程中去，引入指导模块使模型的两部分向同一方向更新迭代参数，提升新闻话题发现任务的性能。
4.本发明的技术方案是：融合近邻标题图的新闻话题发现方法，所述方法的具体步骤如下：
5.step1、通过爬虫技术爬取近年来如“百度新闻”、“新浪新闻”等各大新闻网站的热点案件舆情新闻，选取了“某维权案”等十余个网民关注度较高的案件的共计17889 条相关新闻进行新闻话题数据集的构建。通过对爬取的新闻进行分析使每条新闻只属于一个案件话题，人工标注新闻与哪个案件话题相关，经过数据筛选和预处理，保存为json格式的文件。
6.step2、通过在话题发现的过程中引入标题的关联关系，构建近邻标题图，通过图卷积网络提取标题的全局特征；为避免噪声数据的影响，同时使用深度网络提取新闻文档的局部特征，加入到标题的编码过程中去，从而更好地实现话题新闻聚类。
7.所述步骤step1的具体步骤为：
8.step1.1、通过爬虫技术爬取各大新闻网站和公众号平台近年来的重点新闻，选取了“奔维权案”、等十余个网民关注度较高的案件话题新闻共计17889条；
9.step1.2、数据的筛选和预处理过程包括对新闻数据和案件话题相关性的人工校
准，去除非案件话题相关的数据和重复的数据，去除特殊符号和链接等；
10.step1.3、采用人工标注，获得新闻话题数据集；通过对爬取的新闻进行分析使每条新闻只属于一个案件话题，人工标注新闻与哪个案件话题相关。
11.作为本发明的优选方案，所述step2的具体步骤如下：
12.step2.1、编码新闻话题数据集中标题部分，通过bert预训练模型训练完成后能够获得标题的表示，以便接下来构建近邻标题图；
13.step2.2、采用k近邻算法构建新闻近邻标题图来提取新闻标题的全局特征；
14.step2.3、提取新闻话题数据集中文档的局部特征，使用深度神经网络自编码器来学习有效的数据表示；
15.step2.4、构建的近邻标题图蕴含了标题全局结构信息，使用图卷积网络提取近邻标题图中的结构特征，并将自编码器提取到的文档局部特征集成到图卷积网络中；通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中；
16.step2.5、将step2.3和step2.4进行聚类优化训练，经过训练达到稳定后，将图卷积网络最终输出的聚类分布作为新闻话题发现的最终结果。
17.作为本发明的优先方案，所述step2.1具体包括：
18.bert模型是由多个transformer模型组合而成的，其训练方式分为两个任务：其一是随机选择15％的词用于预测，其中80％采用mask符号遮盖，10％用随机词替换，其余保持不变，这使得模型倾向于依赖上下文来预测词汇，具备一定的纠错能力；其二是预测两句话是否为连贯文本，因此bert模型在结束训练后能够获得新闻标题的单词表示和句子表示；
19.具体如下，设新闻话题集中标题title样本数为n，title＝{title1,title2,
…
,titlen}，每条新闻标题长度为s，e＝{e1,e2,
…
,es}为每条标题中词的集合，将标题的词向量输入到bert模型中进行编码，得到每条标题的向量表示，将所有的标题词向量输入到 bert模型中编码，最终得到融合语义信息后的标题向量表示t，t＝{t1,t2,
…
,tn}。
20.作为本发明的优先方案，所述step2.2具体包括：
21.设标题数据t∈rn×a，其中每行ti代表第i个标题样本，n是样本数，a代表维度；对于每个标题样本，首先找到它的前k个相似度最高的邻居作为邻居节点，并通过边来连接，以构成近邻标题图；利用向量的点积运算来计算任意两个新闻标题之间的相似度矩阵s
ij
，它是一个n
×
n维矩阵；
[0022][0023]
对于任意两个标题节点ti和tj，令w
ij
为节点之间的权重；如果节点之间有边相连，则w
ij
＞0，若没有边相连，则w
ij
＝0；由于构建的近邻标题图是无向权重图，因此w
ij
＝w
ji
；图中任意节点的度为和它连接的所有边的权重之和；
[0024][0025]
通过计算每个节点的度，得到一个只有主对角线有值的节点度矩阵d∈rn×n；
[0026][0027]
主对角线的值表示第i行第i个点的度数，计算所有节点之间的权重，得到n
×
n 维的邻接矩阵m，其第i行第j个元素就是权重w
ij
，w
ij
＝s
ij
。
[0028]
作为本发明的优先方案，所述step2.3具体包括：
[0029]
采用文档特征提取模块提取新闻话题数据集中文档的局部特征，使用深度神经网络自编码器来学习有效的数据表示；
[0030]
自编码器是一种表示模型，利用输入数据作为参考，不利用标签监督，以用来提取特征和降维；自编码器将输入映射到特征空间，再映射回输入空间进行数据重构；设自编码器有l层，编码器学到的第l层的表示为h
(l)
；
[0031]h(l)
＝σ(w
enc(l)h(l-1)
b
enc(l)
)
ꢀꢀ
(4)
[0032]
其中σ为relu函数，w
enc(l)
为编码器中第l层的变换矩阵，b
enc(l)
为偏置，h
(0)
表示为原始文档数据x；
[0033]
解码器部分将特征映射回输入空间，得到原始数据的重构
[0034]h(l)
＝σ(w
dec(l)h(l-1)
b
dec(l)
)
ꢀꢀ
(5)
[0035]wdec(l)
为解码器中第l层的变换矩阵，b
dec(l)
为偏置，重构数据
[0036]
文档特征提取模块的损失函数为
[0037][0038]
通过最小化重构误差和梯度下降算法不断优化网络参数进行训练。
[0039]
作为本发明的优先方案，所述step2.4具体包括：
[0040]
进行标题全局特征的提取：
[0041]
构建的近邻标题图蕴含了标题全局结构信息，使用图卷积网络提取近邻标题图中的结构特征，并将自编码器提取到的文档局部特征集成到图卷积网络中，图卷积网络第l层提取的表示通过卷积运算得到；
[0042][0043]
其中为归一化的拉普拉斯矩阵，i 为邻接矩阵m的单位对角阵，d为节点度矩阵，将图卷积网络学到的前一层表示u
(l-1)
向下一层传播得到新的表示u
(l)
；
[0044]
为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征，将两种表示u
(l-1)
和h
(l-1)
通过融合因子结合在一起，得到一种更全面的数据表示；
[0045]
[0046]
α是平衡两种表示的权重系数，通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中，融合两种表示后，将输入到图卷积网络中得到表示u
(l)
；
[0047][0048]
以此类推得到图卷积网络最后一层输出的表示u
(l)
；网络的输出端连接了一个 softmax多分类器，最终输出的结果为分布u；
[0049][0050]
得到的结果u是一个概率分布，其元素u
ij
表示新闻样本i属于簇中心j的概率；
[0051]
作为本发明的优先方案，所述step2.5具体包括：
[0052]
通过指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练；其中，文档特征提取模块用于提取新闻话题数据集中文档的局部特征，使用深度神经网络自编码器来学习有效的数据表示；标题全局特征提取模块用于：构建的近邻标题图蕴含了标题全局结构信息，使用图卷积网络提取近邻标题图中的结构特征，并将自编码器提取到的文档局部特征集成到图卷积网络中；通过融合因子逐层连接自编码器和图卷积网络将文档的局部特征有效融合到标题的全局特征中；
[0053]
对于第i个样本和第j个簇，引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μi之间的距离；
[0054][0055]
其中hi是表示h
(l)
的第i行，μi是经过k-means算法初始化后的簇心，将q
ij
视为文档样本i被分配到簇j的概率，q即为所有文档样本分配到簇的分布；
[0056]
为了得到高置信度的分配来迭代聚类结果，提高聚类准确度，构造一个目标分布p来辅助模型训练；
[0057][0058]
在目标分布p中，每一个在文档样本分配分布q中的聚类分配都被先平方再归一化处理，这样获得更高置信度的聚类分配，迫使簇内的样本更加接近簇心，簇与簇间的距离最大化，分配更加清晰。指导模块的损失函数之一为分布q和目标分布 p之间的kl散度损失；
[0059][0060]
通过最小化损失函数更新参数，目标分布使自编码器学习到更接近簇心的样本文档聚类表示；
[0061]
为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致，需要将两个模块统一在同一目标分布中，因此使用目标分布p指导图卷积网络输出的蕴含标题全局特征的样本分布u，指导模块的损失函数之二为分布u和目标分布p之间的kl
散度损失；
[0062][0063]
通过指导模块的不同权重参数将两种不同表示的聚类分配统一在同一个损失函数中，模型的整体损失函数为
[0064][0065]
为平衡损失函数一和损失函数二的权重参数；整个模型经过训练达到稳定后，将图卷积网络最终输出的聚类分布u作为新闻话题发现的最终结果。
[0066]
进一步地，通过预先训练的bert中文语料库来表征新闻话题数据集中的标题，词表为bert模型自带词表，bert模型包含12层transformer网络，每层网络包含12 个注意力头，模型参数为110m，隐藏层维数为768；文档特征提取模块中自编码器的维数为“输入-768-768-2000-10”，标题全局特征提取模块中图卷积层尺寸与自编码器相同，近邻标题图中k的个数取值为10，话题簇初始簇心由k-means算法经过20 次初始化获得，融合因子中平衡参数α设置为0.5；模型训练轮次为200，学习率为 1e-3，优化器采用adam。
[0067]
本发明的有益效果是：
[0068]
(1)针对新闻话题发现，如何既考虑到同一案件话题下新闻文档的联系，又考虑到具有相似案件要素的新闻文档的区别，同时如何得到高质量的新闻文档和标题的表征，提出一种联合新闻标题和新闻文档的表征进行话题建模的方法，设计了一个融合近邻标题关联关系图的话题模型来改进话题发现任务的准确性；
[0069]
(2)提出的融合因子可以使学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征，从而提升模型的表征效果；
[0070]
(3)使用指导模块将标题全局特征提取模块和文档特征提取模块统一到同一个框架中同时进行端到端的聚类优化训练，以提升话题簇的内聚性。
附图说明
[0071]
图1为本发明中的流程图。
具体实施方式
[0072]
实施例1：如图1所示，融合近邻标题图的新闻话题发现方法，所述方法的具体步骤如下：
[0073]
step1、通过爬虫技术爬取近年来如“百度新闻”、“新浪新闻”等各大新闻网站的热点案件舆情新闻，选取了“某维权案”等十余个网民关注度较高的案件的共计17889 条相关新闻进行新闻话题数据集的构建。通过对爬取的新闻进行分析使每条新闻只属于一个案件话题，人工标注新闻与哪个案件话题相关，经过数据筛选和预处理，保存为json格式的文件。
[0074]
step1.1、通过爬虫技术爬取各大新闻网站和公众号平台近年来的重点新闻，选取了“奔维权案”等十余个网民关注度较高的案件话题新闻共计17889条；
[0075]
step1.2、数据的筛选和预处理过程包括对新闻数据和案件话题相关性的人工校
准，去除非案件话题相关的数据和重复的数据，去除特殊符号和链接等；
[0076]
step1.3、采用人工标注，获得新闻话题数据集；通过对爬取的新闻进行分析使每条新闻只属于一个案件话题，人工标注新闻与哪个案件话题相关。实验数据集规模如表1所示：
[0077]
表1实验数据集统计信息
[0078][0079]
step2、通过在话题发现的过程中引入标题的关联关系，构建近邻标题图，通过图卷积网络提取标题的全局特征；为避免噪声数据的影响，同时使用深度网络提取新闻文档的局部特征，加入到标题的编码过程中去，从而更好地实现话题新闻聚类。
[0080]
step2.1、标题编码模块用于编码新闻话题数据集中标题部分，通过bert预训练模型训练完成后能够获得标题的表示，以便接下来构建近邻标题图。bert模型是由多个transformer模型组合而成的，其训练方式分为两个任务：其一是随机选择15％的词用于预测，其中80％采用mask符号遮盖，10％用随机词替换，其余保持不变，这使得模型倾向于依赖上下文来预测词汇，具备一定的纠错能力；其二是预测两句话是否为连贯文本。因此bert模型在结束训练后能够获得新闻标题的单词表示和句子表示。
[0081]
具体如下，设新闻话题集中标题title数量为n，title＝{title1,title2,
…
,titlen}，每条新闻标题长度为s，e＝{e1,e2,
…
,es}为每条标题中词的集合，将标题的词向量输入到bert模型中进行编码，可以得到每条标题的向量表示，将所有的标题词向量输入到bert模型中编码，最终得到融合语义信息后的标题向量表示t，t＝{t1,t2,
…
,tn}。
[0082]
step2.2、近邻标题图构建模块采用k近邻算法构建新闻近邻标题图来提取新闻标题的全局特征。设标题数据t∈rn×a，其中每行ti代表第i个标题样本，n是样本数，a代表维度。对于每个标题样本，首先找到它的前k个相似度最高的邻居作为邻居节点，并通过边来连接，以构成近邻标题图。利用向量的点积运算来计算任意两个新闻标题之间的相似度矩阵s
ij
，它是一个n
×
n维矩阵。
[0083][0084]
对于任意两个标题节点ti和tj，令w
ij
为节点之间的权重。如果节点之间有边相连，则w
ij
＞0，若没有边相连，则w
ij
＝0。由于我们构建的近邻标题图是无向权重图，因此w
ij
＝w
ji
。图中任意节点的度为和它连接的所有边的权重之和。
[0085][0086]
通过计算每个节点的度，得到一个只有主对角线有值的节点度矩阵d∈rn×n。
[0087][0088]
主对角线的值表示第i行第i个点的度数。计算所有节点之间的权重，得到n
×
n 维的邻接矩阵m，其第i行第j个元素就是权重w
ij
，w
ij
＝s
ij
。
[0089]
step2.3、文档特征提取模块的作用是提取新闻话题数据集中文档的局部特征，本发明使用深度神经网络自编码器来学习有效的数据表示。自编码器是一种表示模型，利用输入数据作为参考，不利用标签监督，以用来提取特征和降维。自编码器将输入映射到特征空间，再映射回输入空间进行数据重构。设自编码器有l层，编码器学到的第l层的表示为h
(l)
。
[0090]h(l)
＝σ(w
enc(l)h(l-1)
b
enc(l)
)
ꢀꢀ
(4)
[0091]
其中σ为relu函数，w
enc(l)
为编码器中第l层的变换矩阵，b
enc(l)
为偏置。h
(0)
表示为原始文档数据x。
[0092]
解码器部分将特征映射回输入空间，得到原始数据的重构
[0093]h(l)
＝σ(w
dec(l)h(l-1)
b
dec(l)
)
ꢀꢀ
(5)
[0094]wdec(l)
为解码器中第l层的变换矩阵，b
dec(l)
为偏置，重构数据
[0095]
文档特征提取模块的损失函数为
[0096][0097]
通过最小化重构误差和梯度下降算法不断优化网络参数进行训练。
[0098]
step2.4、构建的近邻标题图蕴含了大量的标题全局结构信息，使用图卷积网络提取近邻标题图中的结构特征，并将自编码器提取到的文档局部特征集成到图卷积网络中，这样模型就可以同时提取到数据的两种不同特征。图卷积网络第l层提取的表示通过卷积运算得到。
[0099][0100]
其中为归一化的拉普拉斯矩阵，i 为邻接矩阵m的单位对角阵，d为节点度矩阵。将图卷积网络学到的前一层表示u
(l-1)
向下一层传播得到新的表示u
(l)
。
[0101]
为了使图卷积网络学习到的新闻话题数据特征同时具有标题的全局特征和文档的局部特征，将两种表示u
(l-1)
和h
(l-1)
通过融合因子结合在一起，得到一种更全面的数据表示。
[0102][0103]
α是平衡两种表示的权重系数，通过融合因子逐层连接自编码器和图卷积网络可以将文档的局部特征有效融合到标题的全局特征中。融合两种表示后，将输入到图卷
积网络中得到表示u
(l)
。
[0104][0105]
以此类推得到图卷积网络最后一层输出的表示u
(l)
。网络的输出端连接了一个 softmax多分类器，最终输出的结果为分布u。
[0106][0107]
模型得到的结果u是一个概率分布，其元素u
ij
表示新闻样本i属于簇中心j的概率。
[0108]
step2.5、指导模块将文档特征提取模块和标题全局特征提取模块统一到一个框架中同时进行端到端的聚类优化训练。
[0109]
对于第i个样本和第j个簇，引用自由度为1的student-t分布作为核函数衡量自编码器的表示hi和簇心μi之间的距离。
[0110][0111]
其中hi是表示h
(l)
的第i行，μi是经过k-means算法初始化后的簇心。我们将q
ij
视为文档样本i被分配到簇j的概率，q即为所有文档样本分配到簇的分布。
[0112]
为了得到高置信度的分配来迭代聚类结果，提高聚类准确度，构造一个目标分布p来辅助模型训练。
[0113][0114]
在目标分布p中，每一个在文档样本分配分布q中的聚类分配都被先平方再归一化处理，这样可以获得更高置信度的聚类分配，迫使簇内的样本更加接近簇心，簇与簇间的距离最大化，分配更加清晰。指导模块的损失函数之一为分布q和目标分布p之间的kl散度损失。
[0115][0116]
通过最小化损失函数更新参数，目标分布p使自编码器学习到更接近簇心的样本文档聚类表示。
[0117]
为了使标题全局特征提取模块和文档局部特征提取模块在训练迭代过程中趋于一致，需要将两个模块统一在同一目标分布中，因此也可以使用目标分布p指导图卷积网络输出的蕴含标题全局特征的样本分布u。指导模块的损失函数之二为分布u 和目标分布p之间的kl散度损失。
[0118][0119]
通过指导模块的不同权重参数可以将两种不同表示的聚类分配统一在同一个损失函数中，模型的整体损失函数为
[0120][0121]
为平衡损失函数一和损失函数二的权重参数。整个模型经过训练达到稳定后，可以将图卷积网络最终输出的聚类分布u作为新闻话题发现的最终结果。
[0122]
step2.6、通过预先训练的bert中文语料库来表征新闻话题数据集中的标题，词表为bert模型自带词表，bert模型包含12层transformer网络，每层网络包含12个注意力头，模型参数为110m，隐藏层维数为768；文档特征提取模块中自编码器的维数为“输入-768-768-2000-10”，标题全局特征提取模块中图卷积层尺寸与自编码器相同，近邻标题图中k的个数取值为10，话题簇初始簇心由k-means算法经过20 次初始化获得，融合因子中平衡参数设置为0.5；模型训练轮次为200，学习率为 1e-3，优化器采用adam。
[0123]
为了说明本发明的效果，设置了3组对比实验。第一组实验验证话题发现性能的提升，第二组实验验证本发明模型的有效性，第三组实验验证不同融合因子权重系数对模型有效性的影响。
[0124]
(1)话题发现性能提升验证
[0125]
在基线模型中分别使用step1构建的新闻话题数据集作为模型输入进行对比实验，选取5个模型作为基准模型，分别为：经典k-means算法，ae kmeans，dec，dcn， idec，实验结果如表2所示。
[0126]
表2基线模型的性能比较
[0127][0128]
分析表2可知，本发明方法与其他基准模型相比取得了更优的性能，与idec基线模型相比准确率(acc)提升了7.06％，标准化互信息(nmi)提升了6.15％，调整兰德系数(ari)提升了8.26％。这是因为基线方法在做新闻话题发现任务时，通常只着重提取文档自身的局部特征，而同一新闻不同话题下的新闻文档包含了许多相似案件要素信息，基线方法不能很好地区分。本发明的模型利用图卷积网络提取了近邻标题间的关联关系，并将其与文档的局部特征融合起来以增强标题的表示，从而实现话题建模更好的效果。这也证明了通过融入近邻标题图，联合标题与文档进行话题建模是有效的。本发明模型在三个性能指标都达到最优结果，表明本发明的有效性。
[0129]
(2)模型有效性验证
[0130]
为了验证本发明模型各个模块的有效性，将模型拆解为标题全局特征模块-指导模块和文档特征模块-指导模块两个子模型，三个评价指标保持不变，最优结果用加粗表示。测试结果如表3所示：
[0131]
表3简化模型性能分析
[0132][0133]
分析表3可知，本发明的主模型，即使用标题特征与文档特征结合起来建模，效果提升明显。去除模型中的标题特征部分，只利用文档局部特征和指导模块进行建模效果最差，虽然文档中包含了大量的案件要素信息，但是同一案件下不同话题的新闻文档要素有很多相似之处，噪声数据多，容易出现同一案件下划分为同一话题簇的数据却本该属于不同话题，或属于同一类型的案件却不是同一案件的情况。只利用标题全局特征和指导模块建模，效果比仅用文档特征要好一些，因为模型提取到了近邻标题间的结构关系，但是由于标题篇幅的限制，所涵盖案件话题信息的内容有限，容易出现标题的信息偏置。可见，在获取新闻之间的关联关系的基础上，同时引入文档表征增强标题的表示避免偏置可以更好地实现新闻话题发现，这也从侧面验证了本发明的有效性。
[0134]
(3)不同融合因子权重系数对模型有效性的影响验证
[0135]
为了验证调整融合因子的权重系数α是否对模型性能有提升，本发明做了如下实验。取步长为0.2的多个α值分别做对比实验，最优的一组实验结果加粗表示。测试结果如表4所示：
[0136]
表4不同融合因子权重系数对模型有效性的影响分析
[0137][0138]
分析表4可知，当α取0.5时，本发明模型达到了最好的效果，而当α取值比 0.5大或者比0.5小时，模型的性能都有所下降。因为α是融合因子的平衡权重系数，起到平衡标题全局特征和文档局部特征的作用。当α过大时，文档的局部特征权重就被削弱，模型只能学习到近邻标题图的关联关系，缺乏文档的内容信息，容易产生标题的信息偏置，图卷积网络容易产生过度平滑，同时模型失去了自编码器的重构损失，新闻话题发现的准确性会降低；当α过小时，标题的全局特征权重被削弱，模型学习到的表征几乎全部来自文档自身，相似要素不能得到很好的区分，新闻话题发现的准确性同样会降低。因此，将融合因子的权重系数α设置为0.5可以很好地融合两种特征，也印证了本发明的有效性。
[0139]
通过以上实验数据证明了本发明融合近邻标题图，联合新闻标题和文档的表征进行话题建模，构造出相似标题的关联关系，同时为避免仅有标题的偏置和噪声数据影响，把文档的特征加入到标题的编码过程中去，引入指导模块使模型的两部分向同一方向更新迭代参数能够有效的进行新闻表征，提高新闻话题发现任务的聚类准确性。实验表明本发明的方法相比多个基线模型取得了最优的效果。针对新闻话题发现任务，本发明提出的一种融合近邻标题图的新闻话题发现方法对领域新闻话题发现性能提升是有效的。
[0140]
上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述
实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

融合近邻标题图的新闻话题发现方法

相关文献

最热文献