一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种确定目标对象的方法和装置与流程

2022-02-25 22:39:16 来源:中国专利 TAG:


1.本发明涉及数据挖掘技术领域,并且更具体地,涉及一种确定目标对象的方法和装置,以及存储介质和电子设备。


背景技术:

2.目前,每天都会有大量的新闻舆情产生,不同的舆情内容关联的对象也不相同,而且网络用户对不同舆情内容的关注程度也不相同。对于海量舆情内容涉及的对象,有些用户会希望从当前舆情内容中寻找到需要关注的对象,然后根据需要关注的对象在一定时间内的舆情内容,对所述需要关注的对象的状态进行检测,从而能够在需要关注的对象中挖掘出在一段时间内舆情内容的数量,或者受关注程度有显著变化的对象作为目标对象,并根据目标对象的信息快速地发现有关目标对象的重要动态,为及时做出决策提供重要依据。但由于舆情内容的数量庞大以及内容繁杂,导致有决策需求的用户无法从众多的数据内容中及时高效地挖掘出目标对象,因此无法满足用户后续针对目标对象的舆情内容挖掘和辅助决策的需求。


技术实现要素:

3.本发明要解决的问题为从舆情内容中挖掘出目标对象,从而为有决策需求的用户推断目标对象当前的动态,及时做出决策提供参考。然而,由于舆情内容的数量庞大和内容繁杂,目前尚缺乏有效地识别目标对象的技术手段。
4.为了解决现有技术中对于有决策需求的用户无法对众多的舆情内容中及时高效地确定目标对象的技术问题,本发明的实施例提供一种确定目标对象的方法和装置,以及存储介质和电子设备。
5.根据本发明实施例的一个方面,提供了一种确定目标对象的方法,所述方法包括:
6.获取当前舆情内容;
7.确定与所述当前舆情内容相关联的当前对象;
8.获取预设时间段内与所述当前对象相关联的舆情内容;其中,所述与当前对象相关联的舆情内容包括所述当前对象的信息项;
9.基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列;
10.确定所述待检测序列与预先生成的模板序列的匹配值,根据所述匹配值确定所述当前对象是否为目标对象。
11.可选地,在本发明上述各方法实施例中,所述确定与所述当前舆情内容相关联的当前对象,包括:
12.采用预先建立的对象实体字典,将所述当前舆情内容与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述当前舆情内容相关联的当前对象。
13.可选地,在本发明上述各方法实施例中,其中基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列,包括:
14.确定所述预设时间段包括的多个时间单元;
15.确定各个所述当前对象的信息项的发布时间;
16.按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内,并确定所述当前对象在每个时间单元内的信息项的数量;
17.按照时间顺序,基于所述当前对象在每个时间单元内的信息项的数量确定所述当前对象的待检测序列。
18.可选地,在本发明上述各方法实施例中,其中基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列包括:
19.确定所述预设时间段包括的多个时间单元;
20.确定各个所述当前对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
21.按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内;
22.对每个所述时间单元内的当前对象的信息项进行分组,并统计每个所述时间单元内每组当前对象的信息项的数量;
23.根据每个所述时间单元内每组当前对象的信息项的数量和信息项的数据来源的权重,确定所述当前对象在每个所述时间单元内的热值;
24.按照时间顺序,基于所述当前对象在每个所述时间单元内的热值确定所述当前对象的待检测序列。
25.可选地,在本发明上述各方法实施例中,所述根据所述匹配值确定所述当前对象是否为目标对象,包括:
26.当所述匹配值小于或等于匹配阈值时,确定所述当前对象为目标对象。可选地,在本发明上述各方法实施例中,所述确定所述待检测序列与预先生成的模板序列的匹配值,包括:
27.计算所述待检测序列与所述模板序列中各个元素之间的距离,生成距离矩阵(a
ij
)n×n;
28.确定从所述距离矩阵(a
ij
)n×n的元素a
11
至元素a
nn
的最佳路径,其中,所述最佳路径上的元素和最小,i,j,n为自然数,1≤i,j≤n;
29.将所述最佳路径上的元素和作为所述待检测序列与所述模板序列的匹配值。
30.可选地,在本发明上述各方法实施例中,在获取所述当前舆情内容之前,还包括:
31.获取热门话题,确定与所述热门话题相关联的历史对象;
32.获取预设时间段内与所述历史对象相关联的舆情内容,基于预设时间段内的舆情内容确定所述模板序列,其中,与所述历史对象相关联的舆情内容包括所述历史对象的信息项。
33.可选地,在本发明上述各方法实施例中,所述获取热门话题,确定与所述热门话题相关联的历史对象,包括:
34.采用预先建立的对象实体字典,将所述热门话题与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述热门话题相关联的历史对象。
35.可选地,在本发明上述各方法实施例中,所述基于预设时间段内的舆情内容确定所述模板序列包括:
36.确定所述预设时间段包括的多个时间单元;
37.确定各个所述历史对象的信息项的发布时间;
38.按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内,并确定所述历史对象在每个所述时间单元内的信息项的数量;
39.按照时间顺序,基于所述历史对象在每个时间单元内的信息项的数量确定模板序列。
40.可选地,在本发明上述各方法实施例中,所述基于预设时间段内的舆情内容确定所述模板序列包括:
41.确定所述预设时间段包括的多个时间单元;
42.确定各个所述历史对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
43.按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内;
44.对每个所述时间单元内的历史对象的信息项进行分组,并统计每个所述时间单元内每组历史对象的信息项的数量;
45.根据每个所述时间单元内每组历史对象的信息项的数量和信息项的数据来源的权重,确定所述历史对象在每个时间单元内的热值;
46.按照时间顺序,基于所述历史对象在每个时间单元内的热值确定模板序列。
47.根据本发明实施例的另一个方面,本发明提供一种确定目标对象的装置,所述装置包括:
48.第一获取模块,用于获取当前舆情内容;
49.第一对象模块,用于确定与所述当前舆情内容相关联的当前对象;
50.第二获取模块,用于获取预设时间段内与所述当前对象相关联的舆情内容;其中,与所述当前对象相关联的舆情内容包括所述当前对象的信息项;
51.检测序列模块,用于基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列;
52.第二对象模块,用于确定所述待检测序列与预先生成的模板序列的匹配值,根据所述匹配值确定所述当前对象是否为目标对象。
53.可选地,在本发明上述各装置实施例中,所述第一对象模块确定与所述当前舆情内容相关联的当前对象,包括:
54.采用预先建立的对象实体字典,将所述当前舆情内容与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述当前舆情内容相关联的当前对象。
55.可选地,在本发明上述各装置实施例中,所述检测序列模块基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列,包括:
56.确定所述预设时间段包括的多个时间单元;
57.确定各个所述当前对象的信息项的发布时间;
58.按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内,并确定所述当前对象在每个时间单元内的信息项的数量;
59.按照时间顺序,基于所述当前对象在每个时间单元内的信息项的数量确定所述当前对象的待检测序列。
60.可选地,在本发明上述各装置实施例中,所述检测序列模块基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列包括:
61.确定所述预设时间段包括的多个时间单元;
62.确定各个所述当前对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
63.按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内;
64.对每个所述时间单元内的当前对象的信息项进行分组,并统计每个所述时间单元内每组当前对象的信息项的数量;
65.根据每个所述时间单元内每组当前对象的信息项的数量和信息项的数据来源的权重,确定所述当前对象在每个所述时间单元内的热值;
66.按照时间顺序,基于所述当前对象在每个所述时间单元内的热值确定所述当前对象的待检测序列。
67.可选地,在本发明上述各装置实施例中,所述第二对象模块根据所述匹配值确定所述当前对象是否为目标对象,包括:
68.当所述匹配值小于或等于匹配阈值时,确定所述当前对象为目标对象。
69.可选地,在本发明上述各装置实施例中,所述第二对象模块确定所述待检测序列与预先生成的模板序列的匹配值,包括:
70.计算所述待检测序列与所述模板序列中各个元素之间的距离,生成距离矩阵(a
ij
)n×n;
71.确定从所述距离矩阵(a
ij
)n×n的元素a
11
至元素a
nn
的最佳路径,其中,所述最佳路径上的元素和最小,i,j,n为自然数,1≤i,j≤n;
72.将所述最佳路径上的元素和作为所述待检测序列与所述模板序列的匹配值。
73.可选地,在本发明上述各装置实施例中,所述装置还包括模板序列模块,用于获取热门话题,确定与所述热门话题相关联的历史对象;以及获取预设时间段内与所述历史对象相关联的舆情内容,基于预设时间段内的舆情内容确定所述模板序列,其中,与所述历史对象相关联的舆情内容包括所述历史对象的信息项。
74.可选地,在本发明上述各装置实施例中,所述模板序列模块获取热门话题,确定与所述热门话题相关联的历史对象,包括:
75.采用预先建立的对象实体字典,将所述热门话题与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述热门话题相关联的历史对象。
76.可选地,在本发明上述各装置实施例中,所述模板序列模块基于预设时间段内的舆情内容确定所述模板序列包括:
77.确定所述预设时间段包括的多个时间单元;
78.确定各个所述历史对象的信息项的发布时间;
79.按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内,并确定所述历史对象在每个所述时间单元内的信息项的数量;
80.按照时间顺序,基于所述历史对象在每个时间单元内的信息项的数量确定模板序列。
81.可选地,在本发明上述各装置实施例中,所述模板序列模块基于预设时间段内的
舆情内容确定所述模板序列包括:
82.确定所述预设时间段包括的多个时间单元;
83.确定各个所述历史对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
84.按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内;
85.对每个所述时间单元内的历史对象的信息项进行分组,并统计每个所述时间单元内每组历史对象的信息项的数量;
86.根据每个所述时间单元内每组历史对象的信息项的数量和信息项的数据来源的权重,确定所述历史对象在每个时间单元内的热值;
87.按照时间顺序,基于所述历史对象在每个时间单元内的热值确定模板序列。
88.根据本发明实施例的又一方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一实施例所述的方法。
89.根据本发明实施例的又一方面,本发明提供一种电子设备,所述电子设备包括:
90.处理器;
91.用于存储所述处理器可执行指令的存储器;
92.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现本发明上述任一实施例所述的方法。
93.基于本发明上述实施例提供的确定目标对象的方法和装置,以及存储介质和电子设备,其方法包括:获取当前舆情内容;确定与所述当前舆情内容相关联的当前对象;获取预设时间段内与所述当前对象相关联的舆情内容;基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列;确定所述待检测序列与预先生成的模板序列的匹配值,根据所述匹配值确定所述当前对象是否为目标对象。由此,本发明实施例通过对热门话题中涉及的历史对象的舆情内容进行挖掘,建立模板序列,为从当前舆情内容涉及的对象中确定目标对象提供了比较基准,而且由于生成模板序列时,可以对热门话题中涉及的多个历史对象的舆情内容进行挖掘,从而使得模板序列能够适应更多的确定目标对象的场景,提高了识别目标对象的准确性,使后续用户针对目标对象的舆情内容发现问题并做出对应决策更具有针对性和高效性,大大节省了用户筛选目标对象的时间,提高了用户决策的效率。
94.下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
95.通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
96.图1为本发明一示例性实施例提供的确定目标对象的方法的流程图;
97.图2为本发明一示例性实施例提供的确定目标对象的装置的结构示意图;
98.图3为本发明一示例性实施例提供的电子设备的结构示意图。
具体实施方式
99.下面,将参考附图详细地描述本发明的示例实施例。显然,所描述的示例实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的
示例实施例的限制。
100.应注意到:除非另外具体说明,否则在这些示例实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
101.本领域技术人员可以理解,本发明示例实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
102.还应理解,在本发明示例实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
103.还应理解,对于本发明示例实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
104.另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
105.还应理解,本发明对各个示例实施例的描述着重强调各个示例实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
106.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
107.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
108.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
109.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
110.本发明示例实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
111.终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
112.示例性方法
113.图1为本发明一示例性实施例提供的确定目标对象的方法的流程图,本实施例可应用在电子设备上。如图1所示,本示例实施例所述的确定目标对象的方法100从步骤101开始。
114.在步骤101,获取当前舆情内容。
115.互联网中每时每刻都有海量的数字化内容传播,这些数字化内容都可以作为舆情内容,对当前时刻的舆情内容进行采集即可获取当前舆情内容。
116.在步骤102,确定与所述当前舆情内容相关联的当前对象。
117.相同的舆情内容可以从不同角度进行筛选,从而获取用户需要的舆情内容。比如,对于企业决策者而言,其需要获取有竞争关系的企业的舆情内容,对于投资者而言,其需要获取的是自己关注的行业,或者公司的舆情内容,等等。
118.可选地,所述确定与所述当前舆情内容相关联的当前对象,包括:
119.采用预先建立的对象实体字典,将所述当前舆情内容与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述当前舆情内容相关联的当前对象。
120.在一实施例中,对于关注企业动态的用户,可以针对已经存在的企业,建立包含已知企业名称的对象实体字典,然后将获取的当前舆情内容与所述对象实体字典进行匹配,当所述当前舆情内容中存在对象实体字典中的企业名称字段时,则确认该企业为与所述当前舆情内容相关联的当前对象。比如,当对象实体字典中存在“xx公司”,而某条舆情内容中也出现“xx公司”时,则认为“xx公司”为当前对象。
121.在步骤103,获取预设时间段内与所述当前对象相关联的舆情内容;其中,所述与所述当前对象相关联的舆情内容包括所述当前对象的信息项。
122.在确定所述当前舆情内容相关联的当前对象后,为了确定所述当前对象是否为目标对象,则需要获取当前对象在一个时间段内的舆情内容,比如,对于当前对象“xx公司”,当前舆情内容是1月15日的数据,那么可以预设一个时间段为1周,通过获取1月9日至1月14日的舆情内容,并和1月15日的舆情内容一起组成一周内当前对象“xx公司”相关联的舆情内容,从而为接下来确定当前对象“xx公司”是否为目标对象提供数据支撑。对于获取的舆情内容,可以根据实际需要确定所述舆情内容的组成。比如,对于“xx网”1月15日发布的“xx公司上市”的舆情内容,若只需要知晓其具体信息和发布时间的,则舆情内容只包括信息项“xx公司上市”和信息项的发布时间“1月15日”,若还需要在上述两项的基础上增加信息项的数据来源的,则舆情内容将包括发布时间“1月15日”、信息项“xx公司上市”和数据来源“xx网”。
123.在步骤104,基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列。
124.可选地,其中基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列,包括:
125.确定所述预设时间段包括的多个时间单元;
126.确定各个所述当前对象的信息项的发布时间;
127.按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内,并确定所述当前对象在每个时间单元内的信息项的数量;
128.按照时间顺序,基于所述当前对象在每个时间单元内的信息项的数量确定所述当前对象的待检测序列。
129.在一个实施例中,预设时间段是1周,时间单元为1天,所述预设时间段包括7个时间单元。确定“xx公司”舆情内容发布时间为1月9日至15日后,按照所述发布时间将包含当前对象“xx公司”的信息项划分到对应的时间单元内,并统计“xx公司”在1月9日至15日的时
间段内,每天的信息项的数量分别为20,10,30,20,40,70,110,则按照1月9日至1月15日的时间顺序,生成一个序列[20,10,30,20,40,70,110],则所述序列为“xx公司”的待检测序列。
[0130]
但是,由于实际中,可能不同的公司由于影响力的不同,舆情内容中的信息项的数量级也不同,因此,为了排除数量级别不同对确定目标对象的影响,还可以对根据信息项的数量生成的待检测序列进行归一化操作,从而消除由于信息项的数量级别不同造成引起的误差。比如,对于“xx公司”的待检测序列[20,10,30,20,40,70,110]进行最大最小归一化,则归一化后,所述待检测序列变为[0.1,0,0.2,0.1,0.3,0.6,1]。
[0131]
可选地,其中基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列包括:
[0132]
确定所述预设时间段包括的多个时间单元;
[0133]
确定各个所述当前对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
[0134]
按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内;
[0135]
对每个所述时间单元内的当前对象的信息项进行分组,并统计每个所述时间单元内每组当前对象的信息项的数量;
[0136]
根据每个所述时间单元内每组当前对象的信息项的数量和信息项的数据来源的权重,确定所述当前对象在每个所述时间单元内的热值;
[0137]
按照时间顺序,基于所述当前对象在每个所述时间单元内的热值确定所述当前对象的待检测序列。
[0138]
在一个实施例中,还是获取“xx公司”在1月9日至15日的时间段内的舆情内容,此时,所述舆情内容中包括了信息项的数据来源,并且,根据数据来源的不同,为数据来源设置不同的权重。比如将数据来源划分为a,b,c,d四个级别,对应权重分别为10,5,2,1。按照发布时间将信息项划分到7个时间单元后,对每天的信息项进行分组。所述分组可以按照信息项之间的匹配度进行。比如“xx公司”1月15日的信息项有110条,其中,包含“xx公司上市”的信息项划分为a组,a组的信息项有20条,a组中a级信息项10条,b级信息项5条,c级信息项2条,其他信息项3条;包含“xx公司”和“上市”的信息项划分为b组,b组的信息项有15条,b组中b级信息项5条,c级信息项7条,其他信息项3条,只包含“xx公司”的为不匹配组,共有信息项75条。由于a级数据来源的权重最大,因此,在计算热值时,可以默认为对于每组信息项,取级别最高的数据来源对应的权重,则计算“xx公司”1月15日的热值时,其热值为20*10 15*5=275。采用类似的方法可以确定“xx公司”1月9日至14日的热值,并按照1月9日至15日的顺序,根据各自对应的热值生成待检测序列,同样地,也可以对所述待检测序列进行最大最小归一化,生成归一化后的待检测序列。
[0139]
在步骤105,确定所述待检测序列与预先生成的模板序列的匹配值,根据所述匹配值确定所述当前对象是否为目标对象。
[0140]
可选地,所述根据所述匹配值确定所述当前对象是否为目标对象,包括:
[0141]
当所述匹配值小于或等于匹配阈值时,确定所述当前对象为目标对象。
[0142]
可选地,所述确定所述待检测序列与预先生成的模板序列的匹配值,包括:
[0143]
计算所述待检测序列与所述模板序列中各个元素之间的距离,生成距离矩阵
(a
ij
)n×n;
[0144]
确定从所述距离矩阵(a
ij
)n×n的元素a
11
至元素a
nn
的最佳路径,其中,所述最佳路径上的元素和最小,i,j,n为自然数,1≤i,j≤n;
[0145]
将所述最佳路径上的元素和作为所述待检测序列与所述模板序列的匹配值。
[0146]
可选地,在获取所述当前舆情内容之前,还包括:
[0147]
获取热门话题,确定与所述热门话题相关联的历史对象;
[0148]
获取预设时间段内与所述历史对象相关联的舆情内容,基于预设时间段内的舆情内容确定所述模板序列,其中,与所述历史对象相关联的舆情内容包括信所述历史对象的信息项。
[0149]
可选地,所述获取热门话题,确定与所述热门话题相关联的历史对象,包括:
[0150]
采用预先建立的对象实体字典,将所述热门话题与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述热门话题相关联的历史对象。
[0151]
在网络平台上,存在根据不同的标准而生成的各种榜单,其中,最常见的就是按照一定时间段内的网络用户的关注度,根据关注度的数值由大到小而生成的热门话题榜单,比如,热搜榜,热点榜等,所述热门话题榜单中的内容可视为当前网络用户最为关注的内容,即热门话题,所述关注度可通过网络用户的点击次数、搜索次数、点赞次数、评论次数等确定。通过对热门话题中涉及的用户关注的对象进行特征挖掘,可以更有针对性地确定用户关注的目标对象。确定历史对象的可以采用与确定当前舆情内容相关联的当前对象相同的方法,即基于预先建立的对象实体字典,将获取的热门话题与对象实体字典中的对象进行匹配。为了使获得的模板序列能够尽可能的适用于不同的场景,因此,可以筛选一定数量的历史对象,比如30个。
[0152]
可选地,所述基于预设时间段内的舆情内容确定所述模板序列包括:
[0153]
确定所述预设时间段包括的多个时间单元;
[0154]
确定各个所述历史对象的信息项的发布时间;
[0155]
按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内,并确定所述历史对象在每个所述时间单元内的信息项的数量;
[0156]
按照时间顺序,基于所述历史对象在每个时间单元内的信息项的数量确定模板序列。
[0157]
在一个实施例中,依然预设时间段为1周,时间单元为1天,共7个时间单元。对于筛选出的历史对象中的一个,比如“xxx公司”,从其对应热门话题的发布时间1月7日起,获取其从1月1日至1月7日的舆情内容,则根据舆情内容中信息项的发布时间,将各个所述信息项划分到1月1日至1月7日这7个时间单元,其中,按照时间顺序,1月1日至1月7日的信息项的数量分别为10,5,30,20,40,25,105。将所述信息项的数量生成序列[10,5,30,20,40,25,105],对该序列进行最大最小归一化,则归一化为该序列变为[0.05,0,0.25,0.15,0.35,0.2,1]。将涉及的若干个公司得到的归一化后的序列中,位于相同位置的数字求取算术平均值,则所述算术平均值的结果构成的序列即为模板序列,使用归一化后的序列进行匹配,能将舆情内容的数量级不同的公司放到同一个水平,从而提高后续利用模板序列确定目标公司的准确性。
[0158]
在一个实施例中,假设按照步骤104中统计“xx公司”的信息项的数量生成的待检
测序列为[0.1,0,0.2,0.1,0.3,0.6,1],而模板序列为(0.1,0.3,0.3,0.3,0.2,0.6,1),则计算所述待检测序列与所述模板序列中各个元素之间的距离,生成距离矩阵(a
ij
)7×7;确定从所述距离矩阵(a
ij
)7×7的元素a
11
至元素a
nn
的最佳路径,其中,所述最佳路径上的元素和最小,那么最终两个序列的最佳路径的规划距离为|0.1-0.1| |0-0.1| |0.2-0.1| |0.1-0.1| |0.3-0.3| |0.3-0.3| |0.3-0.3| |0.3-0.2| |0.6-0.6| |1-1|=0.3,则0.3为两个序列的匹配值,假设设置的匹配阈值为0.4,按照待检测序列和模板序列的最佳路径的规划距离,也就是匹配值越小,两个序列的相似度越高的准则,由于0.3小于0.4,则“xx公司”的待检测序列与模板序列相似度高,是目标对象。
[0159]
如果我们使用传统方法计算两个序列的欧几里得距离,即计算两个序列各个对应的点之间的距离之和,那最终两条序列的距离为|0.1-0.1| |0-0.3| |0.2-0.3| |0.1-0.3| |0.3-0.2| |0.6-0.6| |1-1|=0.7。而0.7大于0.4,由此可见,采用传统方法,则“xx公司”则会认为与模板序列相似度低,不是目标对象,因此采用本发明的动态时间规划规划匹配法能更准确地对序列进行相似度匹配,挖掘传统方法无法识别的目标对象。
[0160]
可选地,所述基于预设时间段内的舆情内容确定所述模板序列包括:
[0161]
确定所述预设时间段包括的多个时间单元;
[0162]
确定各个所述历史对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
[0163]
按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内;
[0164]
对每个所述时间单元内的历史对象的信息项进行分组,并统计每个所述时间单元内每组历史对象的信息项的数量;
[0165]
根据每个所述时间单元内每组历史对象的信息项的数量和信息项的数据来源的权重,确定所述历史对象在每个时间单元内的热值;
[0166]
按照时间顺序,基于所述历史对象在每个时间单元内的热值确定模板序列。
[0167]
在一个实施例中,可以采用与生成当前对象的热值相同的方法生成每个历史对象的热值,并按照时间顺序生成一个热值序列,所述热值序列进行归一化后得到归一化的热值序列,再将若干个归一化的热值序列位于相同位置的数字求取算术平均值,则所述算术平均值的结果构成的序列即为模板序列。
[0168]
示例性装置
[0169]
图2是本发明一示例性实施例提供的确定目标对象的装置的结构示意图。如图2所示,本实施例所述的确定目标对象的装置包括:
[0170]
第一获取模块201,用于获取当前舆情内容;
[0171]
第一对象模块202,用于确定与所述当前舆情内容相关联的当前对象;
[0172]
第二获取模块203,用于获取预设时间段内与所述当前对象相关联的舆情内容;其中,与所述当前对象相关联的舆情内容包括所述当前对象的信息项;
[0173]
检测序列模块204,用于基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列;
[0174]
第二对象模块205,用于确定所述待检测序列与预先生成的模板序列的匹配值,根据所述匹配值确定所述当前对象是否为目标对象。
[0175]
在一实施例中,所述第一对象模块202确定与所述当前舆情内容相关联的当前对
象,包括:
[0176]
采用预先建立的对象实体字典,将所述当前舆情内容与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述当前舆情内容相关联的当前对象。
[0177]
在一实施例中,所述检测序列模块204基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列,包括:
[0178]
确定所述预设时间段包括的多个时间单元;
[0179]
确定各个所述当前对象的信息项的发布时间;
[0180]
按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内,并确定所述当前对象在每个时间单元内的信息项的数量;
[0181]
按照时间顺序,基于所述当前对象在每个时间单元内的信息项的数量确定所述当前对象的待检测序列。
[0182]
在一实施例中,所述检测序列模块204基于所述预设时间段内的舆情内容确定所述当前对象的待检测序列包括:
[0183]
确定所述预设时间段包括的多个时间单元;
[0184]
确定各个所述当前对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
[0185]
按照所述发布时间将各个所述当前对象的信息项划分到各自对应的时间单元内;
[0186]
对每个所述时间单元内的当前对象的信息项进行分组,并统计每个所述时间单元内每组当前对象的信息项的数量;
[0187]
根据每个所述时间单元内每组当前对象的信息项的数量和信息项的数据来源的权重,确定所述当前对象在每个所述时间单元内的热值;
[0188]
按照时间顺序,基于所述当前对象在每个所述时间单元内的热值确定所述当前对象的待检测序列。
[0189]
在一实施例中,所述第二对象模块205根据所述匹配值确定所述当前对象是否为目标对象,包括:
[0190]
当所述匹配值小于或等于匹配阈值时,确定所述当前对象为目标对象。
[0191]
可选地,在本发明上述各装置实施例中,所述第二对象模块确定所述待检测序列与预先生成的模板序列的匹配值,包括:
[0192]
计算所述待检测序列与所述模板序列中各个元素之间的距离,生成距离矩阵(a
ij
)n×n;
[0193]
确定从所述距离矩阵(a
ij
)n×n的元素a
11
至元素a
nn
的最佳路径,其中,所述最佳路径上的元素和最小,i,j,n为自然数,1≤i,j≤n;
[0194]
将所述最佳路径上的元素和作为所述待检测序列与所述模板序列的匹配值。
[0195]
在一实施例中,所述装置还包括模板序列模块206,用于获取热门话题,确定与所述热门话题相关联的历史对象;以及获取预设时间段内与所述历史对象相关联的舆情内容,基于预设时间段内的舆情内容确定所述模板序列,其中,与所述历史对象相关联的舆情内容包括所述历史对象的信息项。
[0196]
在一实施例中,所述模板序列模块206获取热门话题,确定与所述热门话题相关联的历史对象,包括:
[0197]
采用预先建立的对象实体字典,将所述热门话题与所述对象实体字典中的对象进行匹配,基于匹配结果确定与所述热门话题相关联的历史对象。
[0198]
在一实施例中,所述模板序列模块206基于预设时间段内的舆情内容确定所述模板序列包括:
[0199]
确定所述预设时间段包括的多个时间单元;
[0200]
确定各个所述历史对象的信息项的发布时间;
[0201]
按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内,并确定所述历史对象在每个所述时间单元内的信息项的数量;
[0202]
按照时间顺序,基于所述历史对象在每个时间单元内的信息项的数量确定模板序列。
[0203]
可选地,在本发明上述各装置实施例中,所述模板序列模块206基于预设时间段内的舆情内容确定所述模板序列包括:
[0204]
确定所述预设时间段包括的多个时间单元;
[0205]
确定各个所述历史对象的信息项的发布时间和数据来源,其中,不同的数据来源具有不同的权重;
[0206]
按照所述发布时间将各个所述历史对象的信息项划分到各自对应的时间单元内;
[0207]
对每个所述时间单元内的历史对象的信息项进行分组,并统计每个所述时间单元内每组历史对象的信息项的数量;
[0208]
根据每个所述时间单元内每组历史对象的信息项的数量和信息项的数据来源的权重,确定所述历史对象在每个时间单元内的热值;
[0209]
按照时间顺序,基于所述历史对象在每个时间单元内的热值确定模板序列。
[0210]
本实施例提供的确定目标对象的装置获取预设时间段内与历史对象相关联的舆情内容生成模板序列,然后对当前舆情内容涉及的当前对象,根据预设时间段内与当前对象相关联的舆情内容确定待检测序列,并确定所述待检测序列与模板序列的相似度,根据所述相似度确定当前对象是否为目标对象的步骤与本实施例提供的确定目标对象的方法的步骤相同,达到的技术效果也相同,此处不再赘述。
[0211]
示例性电子设备
[0212]
图3是本发明一示例性实施例提供的电子设备的结构示意图。该电子设备可以是第一设备和第二设备中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。图3图示了根据本公开实施例的电子设备的框图。如图3所示,电子设备包括一个或多个处理器31和存储器32。
[0213]
处理器31可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
[0214]
存储器32可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器31可以运行所述程序指令,以实现上文所述的本公开的各个实施例的软件程序的确定目标对象的方法以及/或者其他期望的功能。在一个示
例中,电子设备还可以包括:输入装置33和输出装置34,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0215]
此外,该输入装置33还可以包括例如键盘、鼠标等等。
[0216]
该输出装置34可以向外部输出各种信息。该输出设备34可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0217]
当然,为了简化,图3中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
[0218]
示例性计算机程序产品和计算机可读存储介质
[0219]
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定目标对象的方法中的步骤。
[0220]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0221]
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的确定目标对象的方法中的步骤。
[0222]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0223]
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0224]
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0225]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
[0226]
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0227]
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0228]
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献