一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种舆情文本展示方法和装置与流程

2022-05-21 14:08:26 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,具体地,涉及一种舆情文本展示方法和装置。


背景技术:

2.在实际应用场景中,会产生各种与对象相关的舆情文本,这些舆情文本通常与对象关联展示。
3.现有技术将与对象相关的所有舆情文本均与该对象关联展示,例如,舆情文本a、b、c、d均与企业1相关,将a、b、c、d均与企业1关联展示。
4.但是,不同媒体发布的舆情文本可能存在相同或相似度比较高的情况,导致展示的舆情文本较为冗余,例如,舆情文本a由媒体1发布,舆情文本b是由媒体2发布,舆情文本b是由舆情文本a转载获得,两者的内容相同,但是均与企业1关联展示。


技术实现要素:

5.本发明的目的是提供一种舆情文本展示方法和装置,以解决相关技术中存在的问题。
6.第一方面,本发明实施例提供一种舆情文本展示方法,所述方法包括:
7.获取目标舆情文本;
8.对所述目标舆情文本进行分词,根据得到的若干分词结果,生成目标特征向量;
9.从所述目标舆情文本中提取与目标对象关联的若干目标实体;
10.查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
11.根据查询结果和所述目标特征向量,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似;
12.根据所述识别结果,确定是否展示与所述目标对象关联的目标舆情文本。
13.可选地,
14.所述根据得到的若干分词结果,生成目标特征向量,包括:
15.根据所述若干分词结果和预设的窗口尺寸,生成若干词组;
16.根据所述若干词组,生成共现矩阵;其中,所述共现矩阵的元素为同时包含所述元素的行值和列值的词组的数量;
17.根据所述共现矩阵,生成所述目标特征向量。
18.可选地,
19.所述根据所述共现矩阵,生成所述目标特征向量,包括:
20.根据所述共现矩阵,确定各个所述分词结果的特征向量及其权重;
21.根据各个所述分词结果的特征向量及其权重,确定所述目标特征向量。
22.可选地,
23.所述根据查询结果和所述目标特征向量,识别所述目标舆情文本是否与所述舆情
文本库中的舆情文本相似,包括:
24.响应于所述舆情文本库中包含多个所述候选舆情文本,获取各个所述候选舆情文本的特征向量;
25.针对每个所述候选舆情文本:根据所述目标特征向量和所述候选舆情文本的特征向量,确定所述目标舆情文本是否与所述候选舆情文本相似。
26.可选地,
27.所述根据查询结果和所述目标特征向量,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似,包括:
28.响应于所述舆情文本库中不包含所述候选舆情文本,获取所述目标舆情文本的发布时间,根据所述目标舆情文本的发布时间,从所述舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个所述待识别舆情文本的特征向量;
29.针对每个所述待识别舆情文本:根据所述目标特征向量和所述待识别舆情文本的特征向量,确定所述目标舆情文本是否与所述候选舆情文本相似。
30.可选地,
31.所述舆情文本库中包含与所述若干目标实体关联的候选舆情文本;
32.所述根据所述识别结果,确定是否展示与所述目标对象关联的目标舆情文本,包括:
33.响应于所述目标舆情文本与所述候选舆情文本不相似,则将所述目标舆情文本与所述目标对象关联展示。
34.可选地,
35.所述舆情文本库中包含与所述若干目标实体关联的候选舆情文本;
36.所述根据所述识别结果,确定是否展示与所述目标对象关联的目标舆情文本,包括:
37.响应于所述目标舆情文本与所述候选舆情文本相似、且所述候选舆情文本与所述目标对象关联展示,获取所述目标舆情文本的发布时间和/或发布来源,确定所述目标舆情文本的发布时间和/或发布来源是否满足预设的更新条件,如果是,将与所述目标对象关联展示的所述候选舆情文本替换为所述目标舆情文本。
38.可选地,
39.所述更新条件,包括:所述目标舆情文本的发布时间晚于所述候选舆情文本的发布时间,和/或,所述目标舆情文本的发布来源的级别高于所述候选舆情文本的发布来源。
40.可选地,
41.所述获取目标舆情文本,包括:
42.获取初始舆情文本;
43.确定所述初始舆情文本中是否包含html标签或图片,如果是,删除所述初始舆情文本中的所述html标签或所述图片,得到所述目标舆情文本。
44.可选地,
45.所述获取目标舆情文本,包括:
46.获取初始舆情文本;
47.确定所述初始舆情文本中是否包含设定干扰词,如果是,删除所述初始舆情文本
中的所述干扰词,得到所述目标舆情文本。
48.第二方面,本发明实施例提供了一种舆情文本展示装置,包括:
49.获取模块,配置为获取目标舆情文本;
50.特征提取模块,配置为对所述目标舆情文本进行分词,根据得到的若干分词结果,生成目标特征向量;
51.实体提取模块,配置为从所述目标舆情文本中提取与目标对象关联的若干目标实体;
52.查询模块,配置为查询预设的舆情文本库中是否包含与所述若干目标实体关联的候选舆情文本;其中,所述舆情文本库中存储舆情文本及其关联的实体;
53.识别模块,配置为根据查询结果和所述目标特征向量,识别所述目标舆情文本是否与所述舆情文本库中的舆情文本相似;
54.展示模块,配置为根据所述识别结果,确定是否展示与所述目标对象关联的目标舆情文本。
55.第三方面,本发明实施例提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所述方法的步骤。
56.第四方面,本发明实施例一种电子设备,包括:
57.存储器,其上存储有计算机程序;
58.处理器,用于执行所述存储器中的所述计算机程序,以实现上述任一实施例所述方法的步骤。
59.采用上述技术方案,至少能够达到如下技术效果:本发明实施例对于获取的目标舆情文本并不直接与目标对象关联展示,而是基于从目标舆情文本中提取的实体及目标特征向量,识别目标舆情文本是否与舆情文本库中的舆情文本相似,并基于识别结果,确定是否展示该目标舆情文本。通过该方法可以避免展示同一个对象的多个相似舆情文本,造成展示内容冗余,从而使用户无法快速地获取有效信息。同时,该方法基于提取的实体对舆情文本库中的舆情文本进行筛选,避免将目标舆情文本与舆情文本库中的全部舆情文本进行比对,能够提高相似舆情文本的识别效率,降低识别过程的资源消耗。
60.本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
61.附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
62.图1是本发明一示例性实施例示出的一种舆情文本展示方法的流程图。
63.图2是本发明一示例性实施例示出的一种舆情文本展示装置的框图。
64.图3是本发明一示例性实施例示出的一种电子设备的框图。
具体实施方式
65.以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
66.应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,
和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
67.需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
68.如图1所示,本发明实施例提供了一种舆情文本展示方法,包括:
69.步骤101:获取目标舆情文本。
70.舆情文本可以为新闻、博客和微博等。舆情文本中可以与一个或多个对象相关联,该对象可以是企业、个体工商户和公益机构等。舆情文本可以包括题目、正文等部分。
71.例如,媒体发布了一条新闻,该新闻的标题为“北京bb网络科技有限公司于今日在港交所上市”,由于该新闻中包括企业名称“北京bb网络科技有限公司”,因此,该新闻与“北京bb网络科技有限公司”相关联。
72.在实际应用场景中,可以通过爬虫工具采集舆情文本,本发明实施例将与目标对象关联的舆情文本作为目标舆情文本。下述实施例将以目标舆情文本仅与目标对象关联为例进行说明,如果目标舆情文本与多个目标对象关联,则针对每个目标对象分别执行:根据识别结果,确定是否展示与目标对象关联的目标舆情文本。
73.除了获取目标舆情文本,还可以获取目标舆情文本的发布时间、目标舆情文本的发布来源等信息。
74.步骤102:对目标舆情文本进行分词,根据得到的若干分词结果,生成目标特征向量。
75.在本发明实施例中,可以使用现有的分词工具对目标舆情文本进行分词,如jieba、snownlp等。例如,目标舆情文本为“aaa的数据准确”,经过分词后,得到“aaa、的、数据、准确”共4个分词结果。
76.步骤103:从目标舆情文本中提取与目标对象关联的若干目标实体。
77.以目标对象为企业为例,目标实体可以为企业全称、企业简称、企业字号和企业法人名称等信息。本发明实施例可以采用现有的实体识别方法从目标舆情文本中提取目标实体,现有的实体识别方法可以是ner(named entity recognition,命名实体识别),或者基于设定的规则提取实体。提取的目标实体将与目标舆情文本关联存储在舆情文本库中。需要说明的是,步骤102和步骤103的执行顺序并不固定,步骤103可以先于步骤102执行,也可以与步骤102同时执行。
78.步骤104:查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本;其中,舆情文本库中存储舆情文本及其关联的实体。
79.除了舆情文本及其关联的实体,舆情文本库中还可以存储舆情文本的特征向量。本发明实施例基于目标实体进行查询,以确定舆情文本库中是否包含与目标舆情文本具有相同实体的候选舆情文本。如果存在多个目标实体,则分别基于各个目标实体进行查询,一
个目标实体可以关联多个候选舆情文本,不同的目标实体也可以关联同一个候选舆情文本。“查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本”可以替换为“查询预设的舆情文本库中是否包含与若干目标实体相同的实体”。
80.步骤105:根据查询结果和目标特征向量,识别目标舆情文本是否与舆情文本库中的舆情文本相似。
81.在步骤105或步骤106之后,该方法还包括将目标舆情文本添加到舆情文本库中。将目标舆情文本添加到舆情文本库中的目的是保证后续舆情文本识别过程的准确度。
82.步骤106:根据识别结果,确定是否展示与目标对象关联的目标舆情文本。
83.在本发明实施例中,如果确定展示目标舆情文本,则可以展示目标舆情文本的全部或部分内容,除了目标舆情文本,还可以展示目标舆情文本的发布时间、发布来源和与目标对象关联的若干目标实体等信息。
84.本发明实施例对于获取的目标舆情文本并不直接与目标对象关联展示,而是基于从目标舆情文本中提取的实体及目标特征向量,识别目标舆情文本是否与舆情文本库中的舆情文本相似,并基于识别结果,确定是否展示该目标舆情文本。通过该方法可以避免展示同一个对象的多个相似舆情文本,造成展示内容冗余,从而使用户无法快速地获取有效信息。同时,该方法基于提取的实体对舆情文本库中的舆情文本进行筛选,避免将目标舆情文本与舆情文本库中的全部舆情文本进行比对,能够提高相似舆情文本的识别效率,降低识别过程的资源消耗。
85.在本发明的一个实施例中,根据得到的若干分词结果,生成目标特征向量,包括:
86.根据若干分词结果和预设的窗口尺寸,生成若干词组;
87.根据若干词组,生成共现矩阵;其中,共现矩阵的元素为同时包含元素的行值和列值的词组的数量;
88.根据共现矩阵,生成目标特征向量。
89.窗口尺寸用于表征相邻词组具有相同分词结果的数量。例如,分词结果为:aaa、的、数据、准确、aaa、的、技术、不错。如果窗口尺寸为1,则生成的词组包括:(aaa,的)、(的,数据)、(数据,准确)、(aaa,的)、(的,技术)、(技术,不错)。如果窗口尺寸为2,则生成的词组包括:(aaa,的,数据)、(的,数据,准确)、(aaa,的,技术)、(的,技术,不错)。窗口尺寸一般由用户根据需求预先设定,窗口尺寸增大,可以包含更多的非相邻词的共现特征,但同时距离较远的词语的共现概率较低,会对识别结果造成干扰。
90.以窗口尺寸等于1为例,生成的共现矩阵如下所示。
[0091][0092]
该共现矩阵的行值从左到右分别为aaa、的、数据、准确、技术、不错,列值从上到下分别为aaa、的、数据、准确、技术、不错。第1行第1列表示同时包含“aaa、aaa”的词组的数量,由于上述并没有出现包含两个aaa的词组,因此,该元素的值为0。第1行第2列表示同时包含“的、aaa”的词组的数量,上述存在两个词组(aaa,的)、(aaa,的),均包括“的、aaa”,因此,该元素的数量为2。
[0093]
本发明实施例基于相邻分词结果生成词组,并根据词组构建共现矩阵,通过该共现矩阵获得的特征向量能够反映分词结果的共现特征,捕捉分词结果间的语义特征。由此,在识别舆情文本是否相似的过程中,考虑了词语之间的语义相似性,能够获得更加准确的识别结果。
[0094]
在实际应用场景中,在对目标舆情文本进行分词之后,还可以包括:统计各种分词结果的词频,按照词频由高到低的顺序,从若干分词结果中选定若干关键词。根据若干分词结果和预设的窗口尺寸,生成若干词组,包括:根据若干关键词和预设的窗口尺寸,生成若干词组。
[0095]
本发明实施例基于词频对分词结果进行筛选,以便于去除词频较低的分词结果的干扰,同时减小特征向量的维数及计算量,提高识别效率。
[0096]
在本发明的一个实施例中,根据共现矩阵,生成目标特征向量,包括:
[0097]
根据共现矩阵,确定各个分词结果的特征向量及其权重;
[0098]
根据各个分词结果的特征向量及其权重,确定目标特征向量。
[0099]
在本发明实施例中,共现矩阵的每一行对应一种分词结果,每一列对应一种分词结果。行对应的分词结果即为行值,列对应的分词结果即为列值。
[0100]
共现矩阵的列(或行)表示该列(或行)对应分词结果的特征向量,根据各个分词结果的特征向量,可以得到目标特征向量。
[0101]
沿用上例,“aaa”的特征向量为(0,2,0,0,0,0),“的”的特征向量为(2,0,1,0,1,0),“数据”的特征向量为(0,1,0,1,0,0),“准确”的特征向量为(0,0,1,0,0,0),“技术”的特征向量为(0,1,0,0,0,1),“不错”的特征向量为(0,0,0,0,1,0)。在本发明实施例中,分词结果的权重为分词结果的特征向量中各元素之和,例如,“aaa”的权重为2,“的”的权重为4,“数据”的权重为2,“准确”的权重为1,“技术”的权重为2,“不错”的权重为1。分词结果的权重反映了分词结果的词频,本发明通过权重区分不同词频分词结果在识别过程中的重要程度,提高识别结果的准确度。
[0102]
在本发明实施例中,将各个分词结果的特征向量分别乘以对应的权重,得到调整后的各个分词结果的特征向量,将调整后的各个分词结果的特征向量相加,得到目标特征向量。
[0103]
例如,调整后的“aaa”的特征向量为(0,4,0,0,0,0),调整后的“的”的特征向量为(8,0,4,0,4,0),调整后的“数据”的特征向量为(0,2,0,2,0,0),调整后的“准确”的特征向量为(0,0,1,0,0,0),调整后的“技术”的特征向量为(0,2,0,0,0,2),调整后的“不错”的特征向量为(0,0,0,0,1,0),将调整后的分词结果的特征向量相加,得到目标特征向量为(8、8、5、2、5、2)。
[0104]
在实际应用场景中,可以通过其他的方式计算分词结果的权重,例如,分词结果的权重=分词结果的特征向量中各元素之和/共现矩阵各元素之和。
[0105]
在计算目标特征向量的过程中,也可以不考虑分词结果的权重,此时,根据共现矩阵,确定各个分词结果的特征向量;根据各个分词结果的特征向量,确定目标特征向量。
[0106]
在本发明的一个实施例中,根据查询结果和目标特征向量,识别目标舆情文本是
否与舆情文本库中的舆情文本相似,包括:
[0107]
响应于舆情文本库中包含多个候选舆情文本,获取各个候选舆情文本的特征向量;
[0108]
针对每个候选舆情文本:根据目标特征向量和候选舆情文本的特征向量,确定目标舆情文本是否与候选舆情文本相似。
[0109]
具体地,可以从舆情文本库中获取各个候选舆情文本的特征向量。在本发明实施例中,计算目标特征向量和候选舆情文本的特征向量的相似度,如果该相似度大于预设的相似度阈值,则确定目标舆情文本与候选舆情文本相似。可以通过计算目标特征向量与候选舆情文本的特征向量之间的欧氏距离、余弦距离等方式,确定目标特征向量和候选舆情文本的特征向量的相似度。例如,目标特征向量和候选舆情文本的特征向量的相似度为两者欧氏距离的倒数。
[0110]
本发明实施例基于从目标舆情文本中提取的实体,确定候选舆情文本,减少后续识别过程的计算量,提高展示效率。
[0111]
在本发明的一个实施例中,根据查询结果和目标特征向量,识别目标舆情文本是否与舆情文本库中的舆情文本相似,包括:
[0112]
响应于舆情文本库中不包含候选舆情文本,获取目标舆情文本的发布时间,根据目标舆情文本的发布时间,从舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个待识别舆情文本的特征向量;
[0113]
针对每个待识别舆情文本:根据目标特征向量和待识别舆情文本的特征向量,确定目标舆情文本是否与候选舆情文本相似。
[0114]
考虑到相同或相似度高的舆情文本的发布时间通常间隔时间较短,在舆情文本中不存在候选舆情文本时,本发明实施例根据舆情文本的发布时间,筛选与目标舆情文本发布时间更接近的待识别舆情文本,在减少后续计算量的基础上,保证识别结果的准确度。
[0115]
在本发明的一个实施例中,舆情文本库中包含与若干目标实体关联的候选舆情文本;
[0116]
根据识别结果,确定是否展示与目标对象关联的目标舆情文本,包括:
[0117]
响应于目标舆情文本与候选舆情文本不相似,则将目标舆情文本与目标对象关联展示。
[0118]
在本发明实施例中,如果目标舆情文本与候选舆情文本不相似,说明舆情文本库中不存在于目标舆情文本相似的舆情文本,则可以直接展示目标舆情文本,该目标舆情文本不会与已展示的舆情文本构成相似。通过本发明实施例,用户可以通过展示页面及时获取目标舆情文本。在本发明实施例中,可以在将目标舆情文本与目标对象关联展示之后,将目标舆情文本添加到舆情文本库中。
[0119]
在本发明的一个实施例中,舆情文本库中包含与若干目标实体关联的候选舆情文本;
[0120]
根据识别结果,确定是否展示与目标对象关联的目标舆情文本,包括:
[0121]
响应于目标舆情文本与候选舆情文本相似、且候选舆情文本与目标对象关联展示,获取目标舆情文本的发布时间和/或发布来源,确定目标舆情文本的发布时间和/或发布来源是否满足预设的更新条件,如果是,将与目标对象关联展示的候选舆情文本替换为
目标舆情文本。
[0122]
如果目标舆情文本的发布时间和/或发布来源不满足预设的更新条件,则当前展示的候选舆情文本不需要更新,可以将目标舆情文本添加到舆情文本库中。
[0123]
在本发明的一个实施例中,可以确定目标舆情文本的发布时间是否晚于候选舆情文本的发布时间,如果是,将与目标对象关联展示的候选舆情文本替换为目标舆情文本。考虑到最新发布的舆情文本可能反映对象的最近动态,因此,本发明实施例通过比较舆情文本的发布时间,确定展示的舆情文本,以保证展示的舆情文本的时效性。
[0124]
在本发明的一个实施例中,可以确定目标舆情文本的发布来源的级别是否高于候选舆情文本的发布来源,如果是,将与目标对象关联展示的候选舆情文本替换为目标舆情文本。考虑到高级别媒体发布的舆情文本可信度更高,因此,本发明实施例将优先展示发布来源的级别更高的舆情文本,以保证展示的舆情文本的可靠性更高。媒体级别包括:十大门户、中央门户、重点综合门户、重点垂直门户、重点地方门户、新媒体、海外媒体、综合门户、垂直门户和地方门户等。
[0125]
在本发明的一个实施例,还可以确定是否目标舆情文本的发布时间晚于候选舆情文本的发布时间、且目标舆情文本的发布来源的级别高于候选舆情文本的发布来源,如果是,将与目标对象关联展示的候选舆情文本替换为目标舆情文本。本发明实施例从发布时间和发布来源两个层面考虑,保证展示的舆情文本的时效性和可靠性。
[0126]
在本发明的一个实施例中,获取目标舆情文本,包括:
[0127]
获取初始舆情文本;
[0128]
确定初始舆情文本中是否包含html标签或图片,如果是,删除初始舆情文本中的html标签或图片,得到目标舆情文本。
[0129]
在采集初始舆情文本的过程中,由于解析错误,可能导致初始舆情文本中包含html标签,为了降低html标签对后续实体提取和特征提取过程造成干扰,本发明实施例先删除初始舆情文本中的html标签。
[0130]
在本发明实施例中,考虑到图片在后续文本识别的过程中并不能提供有效的特征信息,本发明实施例将初始舆情文本中的图片删除。
[0131]
在本发明实施例中,获取目标舆情文本,包括:
[0132]
获取初始舆情文本;
[0133]
确定初始舆情文本中是否包含设定干扰词,如果是,删除初始舆情文本中的干扰词,得到目标舆情文本。
[0134]
媒体在转载其他媒体发布的舆情文本时,通常在舆情文本中标记“转载”等相关信息,为了避免这些词对后续识别过程造成干扰,本发明实施例从初始舆情文本中删除这些干扰词,干扰词可以为“转载”、“转自”、“转载自”等。考虑到转载信息一般出现在初始舆情文本的开头或结尾部分,因此,本发明实施例可以仅对初始舆情文本的开头和/或结尾部分进行分词,并将得到的分词结果与预设的干扰词进行匹配,以确定初始舆情文本中是否包括干扰词。例如,仅对初始舆情文本的第一段和最后一段进行分词。
[0135]
如图2所示,本发明一种舆情文本展示装置,包括:
[0136]
获取模块201,配置为获取目标舆情文本;
[0137]
特征提取模块202,配置为对目标舆情文本进行分词,根据得到的若干分词结果,
生成目标特征向量;
[0138]
实体提取模块203,配置为从目标舆情文本中提取与目标对象关联的若干目标实体;
[0139]
查询模块204,配置为查询预设的舆情文本库中是否包含与若干目标实体关联的候选舆情文本;其中,舆情文本库中存储舆情文本及其关联的实体;
[0140]
识别模块205,配置为根据查询结果和目标特征向量,识别目标舆情文本是否与舆情文本库中的舆情文本相似;
[0141]
展示模块206,配置为根据识别结果,确定是否展示与目标对象关联的目标舆情文本。
[0142]
在本发明的一个实施例中,特征提取模块202,配置为根据若干分词结果和预设的窗口尺寸,生成若干词组;根据若干词组,生成共现矩阵;其中,共现矩阵的元素为同时包含元素的行值和列值的词组的数量;根据共现矩阵,生成目标特征向量。
[0143]
在本发明的一个实施例中,特征提取模块202,配置为根据共现矩阵,确定各个分词结果的特征向量及其权重;根据各个分词结果的特征向量及其权重,确定目标特征向量。
[0144]
在本发明的一个实施例中,识别模块205,配置为响应于舆情文本库中包含多个候选舆情文本,获取各个候选舆情文本的特征向量;针对每个候选舆情文本:根据目标特征向量和候选舆情文本的特征向量,确定目标舆情文本是否与候选舆情文本相似。
[0145]
在本发明的一个实施例中,识别模块205,配置为响应于舆情文本库中不包含候选舆情文本,获取目标舆情文本的发布时间,根据目标舆情文本的发布时间,从舆情文本库中筛选出发布时间间隔小于设定时间间隔的待识别舆情文本,获取各个待识别舆情文本的特征向量;针对每个待识别舆情文本:根据目标特征向量和待识别舆情文本的特征向量,确定目标舆情文本是否与候选舆情文本相似。
[0146]
在本发明的一个实施例中,舆情文本库中包含与若干目标实体关联的候选舆情文本;展示模块206,配置为响应于目标舆情文本与候选舆情文本不相似,则将目标舆情文本与目标对象关联展示。
[0147]
在本发明的一个实施例中,舆情文本库中包含与若干目标实体关联的候选舆情文本;展示模块206,配置为响应于目标舆情文本与候选舆情文本相似、且候选舆情文本与目标对象关联展示,获取目标舆情文本的发布时间和/或发布来源,确定目标舆情文本的发布时间和/或发布来源是否满足预设的更新条件,如果是,将与目标对象关联展示的候选舆情文本替换为目标舆情文本。
[0148]
在本发明的一个实施例中,更新条件,包括:目标舆情文本的发布时间晚于候选舆情文本的发布时间,和/或,目标舆情文本的发布来源的级别高于候选舆情文本的发布来源。
[0149]
在本发明的一个实施例中,获取模块201,配置为获取初始舆情文本;确定初始舆情文本中是否包含html标签或图片,如果是,删除初始舆情文本中的html标签或图片,得到目标舆情文本。
[0150]
在本发明的一个实施例中,获取模块201,配置为获取初始舆情文本;确定初始舆情文本中是否包含设定干扰词,如果是,删除初始舆情文本中的干扰词,得到目标舆情文本。
signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的相似舆情文本识别方法。
[0161]
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
[0162]
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
[0163]
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献