新闻事件处理方法、装置、计算机设备和存储介质与流程

2022-06-29 15:50:19 来源：中国专利 TAG：

1.本发明涉及大数据分析技术领域，特别是涉及新闻事件处理方法、装置、计算机设备和存储介质。

背景技术：

2.随着互联网技术的迅速发展和普及，越来越多的用户通过网络获取最新的咨询信息，新闻频道就是其中网站提供的一种供用户浏览和订阅新闻的比较方便的方式，通过新闻频道用户希望全面地了解新闻所报导的事件，甚至订阅该事件的后续事件报导。
3.新闻通常报道最近发生的事件，而对于持续一段时间的科技金融类事件比如上市，起诉等持续时间比较长的事件，只浏览单次报道不能更好的了解事件背景，发展过程等。为了更好的报道当前的事件，需要整理事件发展的历史；传统的做法通过人工搜索，过滤整理相关事件的新闻并按照时间顺序追踪整个过程。这种做法需要耗费较多的人力资源，也导致新闻发布不及时。

技术实现要素：

4.本技术提供了一种新闻事件处理方法、装置、计算机设备和存储介质。
5.第一方面提供了一种新闻事件处理方法，包括：
6.获取目标新闻事件，提取所述目标新闻事件的属性，其中，所述属性包括所述目标新闻事件的摘要、命名实体和类型；
7.将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到所述目标新闻事件第一向量表示；
8.基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件；
9.若是，则确定所述历史新闻事件的摘要的第二向量表示；
10.确定所述第一向量表示与所述第二向量表示的相似度，并根据比对结果确定所述目标新闻事件的所有相关新闻事件；
11.将所述目标新闻事件和所有所述相关新闻事件按照新闻事件发生时间排列。
12.在一些实施例中，所述提取所述目标新闻事件的属性中提取所述目标新闻事件的摘要，包括：
13.将所述目标新闻事件进行切句得到句子列表；
14.将所述句子列表输入摘要提取模型，得到所述目标新闻事件的摘要；其中，所述摘要提取模型是在bert模型中的前馈反向层后，添加奇偶句编码层，得到编码器；从transformer模型中提取解码器，组合所述编码器和所述解码器，得到所述摘要提取模型。
15.在一些实施例中，所述提取所述目标新闻事件的属性中提取所述目标新闻事件的命名实体，包括：
16.所述目标新闻事件的摘要输入预配置的bert-bilstm-crf模型中，得到所述目标
新闻事件的摘要中的命名实体；其中，所述bert-bilstm-crf模型包括：bert预训练模型层、bilstm网络层以及crf推理层，所述bert预训练模型层用于将每个字符进行编码得到对应字符的字向量；所述bilstm网络层用于将所述字向量组成的序列双向编码获取新的特征向量；所述crf推理层用于基于所述新的特征向量输出概率最大的命名实体。
17.在一些实施例中，所述提取所述目标新闻事件的属性中提取所述目标新闻事件的类型，包括：
18.采用lda模型对训练新闻事件进行聚类，对各类训练新闻进行类别标注；
19.将所述训练新闻事件和所述新闻事件的类别标注作为作为bert模型的训练数据，对所bert模型进行训练，得到类型分析模型；
20.将所述目标新闻事件的摘要输入所述类型分析模型，得到所述目标新闻事件的类型。
21.在一些实施例中，所述基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，包括：
22.在所述新闻数据库中搜索与所述目标新闻事件的类型相同的历史新闻事件；
23.根据所述目标新闻事件的类型，确定所述历史新闻事件的关键命名实体；
24.从与所述目标新闻事件的类型相同的历史新闻事件中筛选出与所述目标新闻事件有相同关键命名实体的历史新闻事件。
25.在一些实施例中，所述确定所述第一向量表示与所述历史新闻事件的摘要的向量表示的相似度，包括：
26.根据所述第二向量表示，在预配置的向量数据库中进行相似搜索，确定所述向量数据库中是否存在所述第二向量表示的相似向量表征信息；所述向量数据库存储有进行历史新闻事件处理时对所述历史新闻事件处理得到的向量表示；
27.根据所述第一向量表示与所述向量数据库中的向量表示之间的余弦相似度确定所述向量数据库中是否存在所述第一向量表示的相似向量表示。
28.在一些实施例中，所述将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入中，所述向量生成模型的训练方法包括：
29.获取多篇相同训练新闻和多篇相似训练新闻；
30.对所述目标新闻事件进行基础信息分析，提取所述训练新闻的摘要；
31.将相同的训练新闻的摘要作为正样例输入向量生成模型，将相似训练新闻的摘要作为负样例输入向量生成模型，向量生成模型利用bert模型，将摘要转换为一个向量，并经过平均池化层，输出的2个向量进行相似度计算，得到两个训练新闻的相似度；
32.根据所述两个训练新闻的相似度对所述向量生成模型进行训练。
33.第二方面提供了一种新闻事件处理装置，包括：
34.属性提取单元，用于获取目标新闻事件，提取所述目标新闻事件的属性，其中，所述属性包括所述目标新闻事件的摘要、命名实体和类型；
35.向量表示单元，用于将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到所述目标新闻事件的第一向量表示；
36.筛选单元，用于基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件；若是，则确定所述历
史新闻事件的摘要的第二向量表示；
37.相似度判断单元，用于确定所述第一向量表示与所述历史新闻事件的摘要的向量表示的相似度，并根据比对结果确定所述目标新闻事件的相关新闻事件；
38.排序单元，用于将所述目标新闻事件和所述相关新闻事件按照新闻事件发生时间排列。
39.第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行上述所述目标新闻事件处理方法的步骤。
40.第四方面提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行上述所述目标新闻事件处理方法的步骤。
41.上述新闻事件处理方法、装置、计算机设备和存储介质，首先获取目标新闻事件，提取所述目标新闻事件的属性，其中，所述属性包括所述目标新闻事件的摘要、命名实体和类型；其次将所述目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到所述最近新闻事其次件的向量表示；再次基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定所述新闻数据库中是否存满足所述相似筛选规则的历史新闻事件；若是，则确定所述历史新闻事件的摘要的向量表示；最后确定所述目标新闻事件的第一向量表示与所述历史新闻事件的摘要的向量表示的相似度，并根据比对结果确定所述目标新闻事件的相关新闻事件；将所述目标新闻事件和所述相关新闻事件按照新闻事件发生时间排列。因此，本技术通过sbert模型，相同新闻的文本比较转为向量的相似度比较问题，同时依托于预配置的向量数据库，预先得到所有历史新闻的向量表征信息，使得语义级相同新闻的判断具备在亿级新闻数量级中，仍然可以在100毫秒内(典型值)完成结果的输出，即相较于现有技术，能够很好地提高匹配结果精度以及匹配效率。
附图说明
42.图1为一个实施例中提供的新闻事件处理方法的实施环境图；
43.图2为一个实施例中新闻事件处理方法的流程图；
44.图3为一个实施例中新闻事件处理方法的孪生网络模型的结构示意图；
45.图4为一个实施例中新闻事件处理装置的结构框图。
具体实施方式
46.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
47.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于
清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
48.为了便于理解，首先对本发明实施例涉及的技术术语进行解释：
49.孪生神经网络(siamese neural network)，又名双生神经网络，是基于两个人工神经网络建立的耦合构架。孪生神经网络以两个样本为输入，输出其嵌入高维度空间的表征，以比较两个样本的相似程度。狭义的孪生神经网络由两个结构相同，且权重共享的神经网络拼接而成。广义的孪生神经网络，或“伪孪生神经网络(pseudo-siamese network)”，可由任意两个神经网拼接而成。孪生神经网络通常具有深度结构，可由卷积神经网络、循环神经网络等组成。在监督学习范式下，孪生神经网络会最大化不同标签的表征，并最小化相同标签的表征。在自监督或非监督学习范式下，孪生神经网络可以最小化原输入和干扰输入(例如原始图像和该图像的裁减)间的表征。孪生神经网络可以进行小样本/单样本学习(one-shot learning)，且不容易被错误样本干扰，因此可用于对容错率要求严格的模式识别问题，例如人像识别、指纹识别、目标追踪等。
50.bert(bidirectional encoder representations from transformers)是一个预训练的模型，bert的新语言表示模型，它代表transformer的双向编码器表示。与最近的其他语言表示模型不同，bert旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此，预训练的bert表示可以通过一个额外的输出层进行微调，适用于广泛任务的最先进模型的构建，比如问答任务和语言推理，无需针对具体任务做大幅架构修改。
51.simhash是常用的文本去重hash算法之一，类似于md5、crc32等。原理是通过对文本数据提取的关键词做权重计算，最终将一篇大段的文本映射为仅8字节的hash值。其本身并不支持直接对文本进行相似性分析计算，但其产生的hash结果值可通过海明距离算法进行比对，从而计算出文本间的相似度。因为海明距离的计算所针对的是simhash的结果，并不是原有的文本数据，其计算量非常小，而且simhash结果可在取得文本数据后就提前计算取得。
52.如图2所示，在一个实施例中，提出了一种新闻事件处理方法，具体可以包括以下步骤：
53.步骤201、获取目标新闻事件，提取目标新闻事件的属性，其中，属性包括目标新闻事件的摘要、命名实体和类型。目标新闻事件可理解为在当前时刻之前较短时间段内发生的任意新闻事件，本实施例对该较短时间段不做具体限定，本领域技术人员可根据所要查找的目标新闻事件发生的时间进行设定。
54.在一些实施例中，提取历史新闻事件的标题和摘要，包括：
55.步骤2011、将历史新闻事件进行切句得到句子列表；
56.其中，采用[cls]分割历史新闻事件。
[0057]
步骤2012、将句子列表输入摘要提取模型，得到历史新闻事件的标题和摘要；其中，摘要提取模型是在bert模型中的前馈反向层后，添加奇偶句编码层，得到编码器；从transformer模型中提取解码器，组合编码器和解码器，得到摘要提取模型。
[0058]
其中，可从bert模型所在的程序管理库中直接接收bert模型。bert模型(bidirectional encoder representations from transformers)是一种当前已公开的通用自然语言处理框架，内部结构包括嵌入层、多头注意力机制层及前馈反向层，其中嵌入层
的作用是将文本用矩阵进行表示，多头注意力机制层的作用是从矩阵文本中提取得到文本特征，前馈反向层的作用是根据文本特征调解bert模型的内部参数，达到优化bert模型的目的。
[0059]
奇偶句编码层的主要目的是识别句子中词语数量是奇数还是偶数，从而对奇数句和偶数句执行分开编码。其中，奇偶句编码层包括结巴分词程序，利用结巴分词程序拆分句子得到多组词语，并遍历多组词语的数量，从而完成对句子中词语数量的识别。
[0060]
transformer模型是一种开源的自然语言处理模型，包括解码器，本实施例中，从数据库中接收transformer模型，并提取出解码器。
[0061]
在一些实施例中，提取目标新闻事件的属性中提取目标新闻事件的命名实体，包括：
[0062]
目标新闻事件的摘要输入预配置的bert-bilstm-crf模型中，得到目标新闻事件的摘要中的命名实体；其中，bert-bilstm-crf模型包括：bert预训练模型层、bilstm网络层以及crf推理层，bert预训练模型层用于将每个字符进行编码得到对应字符的字向量；bilstm网络层用于将字向量组成的序列双向编码获取新的特征向量；crf推理层用于基于新的特征向量输出概率最大的命名实体。
[0063]
本实施例基于bert模型构建的命名实体识别模型，很好的解决了标注数据不足以及实体边界模糊时实体识别困难，精度不高的问题，提高实体识别模型的性能和识别准确率。
[0064]
在一些实施例中，提取目标新闻事件的属性中提取目标新闻事件的类型，包括：
[0065]
采用lda模型对训练新闻事件进行聚类，对各类训练新闻进行类别标注；
[0066]
将训练新闻事件和新闻事件的类别标注作为作为bert模型的训练数据，对所bert模型进行训练，得到类型分析模型；
[0067]
将目标新闻事件的摘要输入类型分析模型，得到目标新闻事件的类型。
[0068]
可以理解的是，进行bert模型训练。分别从每个新闻类别下的所有新闻文本中筛选出与预设阈值相同数量的新闻文本作为训练数据输入bert模型中进行训练。之所以选用bert模型进行训练，是因为bert模型引入了自注意力机制，将文本表征为特征向量，该特征向量是一种基于词的特征提取，是一种通用的特征，因此打乱句子中词的顺序，并不会影响到bert模型的特征向量，因此能够用于本方法中来面对训练数据不平衡的问题。经过本步骤筛选之后，各类新闻类别下的作为训练数据的新闻文本数量达到了平衡，训练后的bert模型的精度较高。
[0069]
具体地，本实施方式中的bert模型是基于transformer架构(基于自注意力机制的全新神经网络架构)实现，将训练数据输入bert模型中进行训练包括；基于masked lm任务以及下一句预测任务对bert模型进行预训练；将训练数据输入bert模型中，对bert模型进行微调从而使得bert模型与训练数据相匹配。将待分类的目标新闻事件输入训练后的bert模型中进行分类。因为本实施方式的bert模型的精度比较高，所以分类效果非常好，准确率非常高。
[0070]
步骤202、将目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到目标第一向量表示；
[0071]
可以理解的是，向量生成模型是孪生网络，由于孪生网络由两个并行的bert模型
组成，每次输入的数据是一组句子对，因此需要对数据做一些加工处理完成训练。需要构造相似句子和相同的句子，在该实施例中相同是指语义级别意义上的相同。训练过程是将上述两个问题输入到孪生网络的bert模型中，两个bert模型共享参数，分别取最后一层的输出，采用平均池化策略,对所有token的每一维度输出取平均值作为embedding向量。假设第一个句子的输出向量为u，第二个句子的输出向量为v，采用cos相似度作为优化的目标函数。使用这个新的网络进行训练，对bert网络进行fine turning。
[0072]
如图3所示，孪生网络利用bert预训练模型，从文本中得到句子(sentence)的向量，并经过池化(pooling)，和全连接层(dense)，得到2个输出(u,v)，并对输出值进行余弦相似度的计算，得到最终相似的概率值。
[0073]
步骤203、基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定新闻数据库中是否存满足相似筛选规则的历史新闻事件；
[0074]
可以理解的是，历史新闻事件处理时，对历史新闻事件的标题和摘要进行分词以及事件分类的结果写入elasticsearch。elasticsearch是一个基于lucene的搜索服务器，该步骤也就是将历史新闻写入搜索服务器，建立一个能够根据事件分类搜索到新闻的数据库。具体地，包括：
[0075]
(1)提取历史新闻事件的摘要
[0076]
(2)提取提取摘要中的命名实体；
[0077]
(3)根据摘要，确定历史新闻事件的分类；
[0078]
(4)对历史新闻事件进行唯一id的标注；
[0079]
(5)建立历史新闻事件与摘要、命名实体、关键词历史新闻事件分类以及唯一id的链接关系；
[0080]
(6)将历史新闻事件和链接关系存储至历史新闻数据库中。
[0081]
在一些实施例中，基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，包括：
[0082]
步骤2031、在新闻数据库中搜索与目标新闻事件的类型相同的历史新闻事件；
[0083]
步骤2032、根据目标新闻事件的类型，确定历史新闻事件的关键命名实体；
[0084]
其中，根据目标新闻事件的类型确定关键命名实体，例如，事件分类为上市，提取公司作为二次确定的命名实体，组成一个事件命名实体；事件分类为诉讼，提取公司公司为关键实体，组成公司a 诉讼公司b。该步骤也就是，利用关键词(命名实体)对召回的历史新闻过滤，保留相同实体和相同事件的历史新闻。
[0085]
步骤2033、从与目标新闻事件的类型相同的历史新闻事件中筛选出与目标新闻事件有相同关键命名实体的历史新闻事件。
[0086]
可以理解的是，历史新闻事件的摘要、命名实体和类型都是预先存储在新闻数据库中的，进行相似搜索即可，能够很好地提高匹配效率。
[0087]
步骤204、若新闻数据库中存在满足相似筛选规则的历史新闻事件，则确定历史新闻事件的摘要的向量表示；
[0088]
在一些实施例中，确定第一向量表示与历史新闻事件的摘要的第二向量表示的相似度，包括：
[0089]
步骤2041、根据第二向量表示，在预配置的向量数据库中进行相似搜索，确定向量
数据库中是否存在第二向量表示的相似向量表征信息；向量数据库存储有进行历史新闻事件处理时对历史新闻事件处理得到的向量表示；
[0090]
可以理解的是，历史新闻事件的摘要通过sbert模型再平均池化后得到的向量，插入milvus向量数据库中(milvus支持近实时搜索，插入落盘即可检索)。对该历史新闻事件向量在milvus或faiss等向量数据库中进行检索。
[0091]
步骤2042、根据第一向量表示与向量数据库中的向量表示之间的余弦相似度确定向量数据库中是否存在第一向量表示的相似向量表示。
[0092]
步骤205、确定第一向量表示与历史新闻事件的摘要的向量表示的相似度，并根据比对结果确定目标新闻事件的相关新闻事件；将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
[0093]
如图4所示，在一个实施例中，提供了一种新闻事件处理装置，该新闻事件处理装置可以集成于上述的计算机设备110中，具体可以包括：
[0094]
属性提取单元411，用于获取目标新闻事件，提取目标新闻事件的属性，其中，属性包括目标新闻事件的摘要、命名实体和类型；
[0095]
第一向量表示单元412，用于将目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到目标新闻事件的第一向量表示；
[0096]
筛选单元413，用于基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定新闻数据库中是否存满足相似筛选规则的历史新闻事件；
[0097]
第二向量表示单元414，用于当若新闻数据库中存在满足相似筛选规则的历史新闻事件，则确定历史新闻事件的摘要的第二向量表示；
[0098]
相似度判断单元415，用于确定第一向量表示与第二向量表示的相似度，并根据比对结果确定目标新闻事件的相关新闻事件；将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
[0099]
在一个实施例中，提出了一种计算机设备，计算机设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取目标新闻事件，提取目标新闻事件的属性，其中，属性包括目标新闻事件的摘要、命名实体和类型；将目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到目标新闻事件的第一向量表示；基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定新闻数据库中是否存满足相似筛选规则的历史新闻事件；若是，则确定历史新闻事件的摘要的第二向量表示；确定第一向量表示与历第二向量表示的相似度，并根据比对结果确定目标新闻事件的相关新闻事件；将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
[0100]
在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收理赔请求，并根据理赔请求确定理赔数据，理赔数据可以包括：获取目标新闻事件，提取目标新闻事件的属性，其中，属性包括目标新闻事件的摘要、命名实体和类型；将目标新闻事件的摘要作为预训练好的向量生成模型的输入，得到目标新闻事件的第一向量表示；基于预设的相似筛选规则，在预配置的新闻数据库中进行搜索，确定新闻数据库中是否存满足相似筛选规则的历史新闻事件；若是，则确定历史新闻事件的摘要的第二向量表示；确定目标第一向量表
示与第二向量表示的相似度，并根据比对结果确定目标新闻事件的相关新闻事件；将目标新闻事件和相关新闻事件按照新闻事件发生时间排列。
[0101]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，rom)等非易失性存储介质，或随机存储记忆体(random access memory，ram)等。
[0102]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0103]
以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：连接点提取方法、装置、计算机设备及存储介质与流程

新闻事件处理方法、装置、计算机设备和存储介质与流程

相关文献

最热文献