一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于知识图谱的信息挖掘方法及其相关设备与流程

2022-05-26 20:40:22 来源:中国专利 TAG:


1.本技术涉及大数据技术领域,尤其涉及一种基于知识图谱的信息挖掘方法及其相关设备。


背景技术:

2.产业间关系分为支撑关系和带动关系。支撑关系主要体现在为主体产业链提供保障与支持的产业部门主要是生产要素部门,如土地、设施、设备、原材料、能源、资金、技术、人才、信息、中介服务等。没有这些支撑产业或者虽有而不力,主体产品或服务的生产过程或者不能开始,或者无法继续。因此,某类产品或服务的产业部门不可能孤立存在,必然要与保障、支持的产业部门建立起生死相依的关系。市场环境发生变化时,产业链各个环节都会发生变化。带动关系主要体现在由于某类产品或服务产业的存在与发展,带动和影响了其他产品或服务产业发展,因而形成的主体产业与被带动的产业之间的连接关系。
3.在这个过程中,产业链环环相扣,一个环节阻滞,上下游企业都无法运转。然而,如何在兼顾外部环境影响因素的同时对巨大的行业网络进行高效准确的信息挖掘,确定其中占据主导作用的行业及企业是当前面临的巨大挑战。


技术实现要素:

4.本技术实施例的目的在于提出一种基于知识图谱的信息挖掘方法及其相关设备,以解决行业信息挖掘准确率低下的技术问题。
5.为了解决上述技术问题,本技术实施例提供一种基于知识图谱的信息挖掘方法,采用了如下所述的技术方案:
6.获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
7.对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
8.计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
9.进一步的,所述根据所述供需数据构建多个不同所述行业对应的子知识图谱的步骤包括:
10.从所有所述行业中选取一个行业作为目标行业,根据所述供需数据获取与所述目标行业存在供需关系的关联行业;
11.根据所述供需数据计算所述关联行业供给或需求所述目标行业的交易量占所述目标行业总额的比例;
12.通过所述比例和所述供需关系,构建所述目标行业和所述关联行业的数据关系表;
13.导入所述数据关系表至图数据库系统,得到所述目标行业的子知识图谱。
14.进一步的,所述根据所述行业网络和所述企业信息构建得到总知识图谱的步骤包括:
15.根据所述企业信息确定所述行业网络中与所述企业存在关联关系的目标行业;
16.基于所述企业和所述目标行业的关联关系补全所述子知识图谱,得到所述总知识图谱。
17.进一步的,所述根据所述企业信息确定所述行业网络中与所述企业存在关联关系的目标行业的步骤包括:
18.获取预设的评估算法和参考企业,根据所述评估算对所述企业信息和所述参考企业进行相似度计算,得到所述企业信息对应的关联评分;
19.确定所述关联评分最高的参考企业对应的行业为所述目标行业。
20.进一步的,所述计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业的步骤包括:
21.获取所述行业网络中的节点个数,根据所述节点个数对所述度中心性进行归一化,得到标准度中心性;
22.确定所述标准度中心性最大的行业为所有所述行业网络中的关键行业。
23.进一步的,所述根据所述度中心性确定所述行业网络的关键行业的步骤还包括:
24.计算每个所述行业在所述行业网络中的介中心性;
25.根据所述介中心性和所述度中心性,计算所述行业网络中每个不同行业的影响评分,确定所述影响评分最大的行业为所述行业网络中的关键行业。
26.进一步的,所述计算每个所述行业在所述行业网络中的介中心性的步骤包括:
27.确定所述行业网络中任意两个行业之间的最短路径;
28.计算所有所述最短路径中行业的重合率,将所述重合率为所述行业在所述行业网络的介中心性。
29.为了解决上述技术问题,本技术实施例还提供一种基于知识图谱的信息挖掘装置,采用了如下所述的技术方案:
30.第一构建模块,用于获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
31.第二构建模块,用于对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
32.确认模块,用于计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
33.为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
34.获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
35.对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企
业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
36.计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
37.为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
38.获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
39.对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
40.计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
41.本技术通过获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱,通过该子知识图谱可以对关键行业进行精确获取;之后,对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱,实现了对企业的统一规范化整理,进一步提高了关键企业的获取效率和准确率;而后,计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业,最终,实现了对关键行业的高效且精确地挖掘,并使得根据该关键行业在总知识图谱中进一步查找得到具有较大影响力的关键企业,进一步实现了对资源精确调整,提高了资源的利用率。
附图说明
42.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1是本技术可以应用于其中的示例性系统架构图;
44.图2根据本技术的基于知识图谱的信息挖掘方法的一个实施例的流程图;
45.图3是行业最短路径示意图;
46.图4是根据本技术的基于知识图谱的信息挖掘装置的一个实施例的结构示意图;
47.图5是根据本技术的计算机设备的一个实施例的结构示意图。
48.附图标记:基于知识图谱的信息挖掘装置400、第一构建模块401、第二构建模块402以及确认模块403。
具体实施方式
49.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明
中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
50.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
51.为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
52.如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
53.用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
54.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
55.服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
56.需要说明的是,本技术实施例所提供的基于知识图谱的信息挖掘方法一般由服务器/终端设备执行,相应地,基于知识图谱的信息挖掘装置一般设置于服务器/终端设备中。
57.应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
58.继续参考图2,示出了根据本技术的基于知识图谱的信息挖掘的方法的一个实施例的流程图。所述的基于知识图谱的信息挖掘方法,包括以下步骤:
59.步骤s201,获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
60.在本实施例中,供需数据为每个行业的产出规模和两两行业之间的供需数据,通过爬虫或wind客户端下载可以得到每个月各个行业的供需数据。例如,获取得到批发和零售业三月的供需数据为10万亿,建筑业的供需数据为5万亿,批发和零售业提供2万亿至建筑业。在得到供需数据时,根据该供需数据构建得到对应行业的子知识图谱。具体地,在得到供需数据时,根据该供需数据确定两个不同行业之间的供需关系,基于该供需关系构建行业-供需关系-行业的三元组,将该三元组构建输入至图谱构建工具(如neo4j图数据库系统)中,基于该图谱构建工具构建得到不同行业对应的子知识图谱。一个行业即对应一个子知识图谱。
61.步骤s202,对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获
取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
62.在本实施例中,在得到子知识图谱时,获取预设的划分标准,该划分标准可以是行业规范的划分标准,例如,按照行业规范的划分标准可以将行业划分为门类、大类、中类和小类,其中,门类包括农、林、牧、渔业、采集业和制造业等,每个门类下则包括多个大类,大类包括多个中类,中类包括多个小类。因此,根据该划分标准将每个行业对应的子知识图谱划分不同大小的行业网络,如行业中类网络和行业小类网络,行业网络即为由多个行业组成的网络,一个行业网络按照划分标准由多个子知识图谱组成。之后,获取企业的企业信息,其中,该企业信息包括企业的生产信息和产品信息等信息,通过企业的官网等公开网站可以获取到该企业信息。根据该企业信息和行业网络,构建得到不同行业网络和企业的三元组,基于该三元组构建得到总知识图谱。其中,总知识图谱中包括多个子知识图谱。
63.需要强调的是,为进一步保证上述总知识图谱的私密和安全性,上述总知识图谱还可以存储于一区块链的节点中。
64.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
65.步骤s203,计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
66.在本实施例中,在得到行业网络后,计算每个不同行业在其对应的行业网络中的度中心度。其中,度中心度为每个行业在行业网络中对其他行业的影响程度,影响程度越高则该行业的度中心度越高。具体地,在大多数行业网络中,行业节点的度遵守幂律分布,度很大的节点(即行业)的数量只占一个行业网络中节点总数量的少部分,而度较小的节点(即行业)的数量往往占据大多数。因此,计算行业网络中每个行业与其他行业的连接数,根据该连接数确定每个行业的度中心性,该度中心性的计算公式具体如下所示:
[0067][0068]
其中,di为每个行业的度中心性,i表示当前行业编号,j为行业网络中行业总数,a为连接数。在得到行业在行业网络中的度中心性时,将当前行业网络中度中心性最大的行业确定该行业网络中的关键行业。之后,根据该关键行业在总知识图谱中查找到与该关键行业距离最近的企业,确定该距离最近的企业为当前关键行业的关键企业。其中,在总知识图谱中距离关键行业越近则表示该企业在该关键行业中的贡献程度越大,距离关键行业越远则表示该企业在该关键行业中的贡献程度越小;该贡献程度可通过企业在该关键行业中的份额等信息综合计算得到。
[0069]
本技术实现了对关键行业的高效且精确地挖掘,并使得根据该关键行业在总知识图谱中进一步查找得到具有较大影响力的关键企业,进一步实现了对资源精确调整,提高了资源的利用率。
[0070]
在本实施例的一些可选的实现方式中,上述根据所述供需数据构建多个不同所述行业对应的子知识图谱的步骤包括:
[0071]
从所有所述行业类别中选取一个行业作为目标行业,根据所述供需数据获取与所述目标行业存在供需关系的关联行业;
[0072]
根据所述供需数据计算所述关联行业供给或需求所述目标行业的交易量占所述目标行业总额的比例;
[0073]
通过所述比例和所述供需关系,构建所述目标行业和所述关联行业的数据关系表;
[0074]
导入所述数据关系表至图数据库系统,得到所述目标行业的子知识图谱。
[0075]
在本实施例中,在构建不同行业的子知识图谱时,从获取的所有行业中选取一个行业作为目标行业,并获取与该目标行业存在供需关系的关联行业。该供需关系可以通过目标行业与其他行业的供需数据是否为零确定;若该目标行业与其他行业的供需数据不为零,则确定该目标行业与其他行业存在供需关系,该其他行业即为关联行业;若该目标行业与其他行业的供需数据为零,则确定该目标行业与其他行业不存在供需关系。
[0076]
在得到关联行业时,根据该供需数据计算关联行业供给或需求该目标行业的交易量占该目标行业的总额的比例。例如,批发和零售业供给(20.1%)至建筑业,建筑业需求(12.6%)至金融业。通过该比例和供需关系,构建目标行业和关联行业的数据关系表,即将该比例和供需关系作为目标行业和关联行业的字段内容,将该目标行业和关联行业名称作为字段标识,基于该字段内容和字段标识构建得到该数据关系表;之后,导入该数据关系表至图数据库系统(如neo4j),生成目标行业的子知识图谱。
[0077]
本实施例通过目标行业和关联行业之间的供需关系和占比,生成子知识图谱,实现了对不同行业子知识图谱的精确构建,使得通过该子知识图谱能够进一步精确获取到关键行业。
[0078]
在本实施例的一些可选的实现方式中,上述根据所述行业网络和所述企业信息构建得到总知识图谱的步骤包括:
[0079]
根据所述企业信息确定所述行业网络中与所述企业存在关联关系的目标行业;
[0080]
基于所述企业和所述目标行业的关联关系补全所述子知识图谱,得到所述总知识图谱。
[0081]
在本实施例中,在得到该企业信息时,根据该企业信息确定和行业网络中行业关联的目标行业。其中,目标行业为行业网络中与该企业关系最紧密的行业,根据企业的生产产品或对口领域可以确定该企业对应的目标行业。在得到不同企业分别对应的目标行业时,基于该企业和目标行业的关联关系对子知识图谱进行补全,得到总知识图谱。具体地,在得到不同企业分别对应的目标行业时,根据企业和目标行业的关联关系,构建企业、关联关系和目标行业的三元组,基于该三元组和子知识图谱通过图数据库系统(如neo4j)处理,得到总知识图谱。
[0082]
本实施例通过企业和目标行业对子知识图谱进行补全,得到总知识图谱,使得通过该总知识图谱能够精确获取到关键行业中的关键企业。
[0083]
在本实施例的一些可选的实现方式中,上述根据所述企业信息确定所述行业网络中与所述企业存在关联关系的目标行业的步骤包括:
[0084]
获取预设的评估算法和参考企业,根据所述评估算对所述企业信息和所述参考企业进行相似度计算,得到所述企业信息对应的关联评分;
[0085]
确定所述关联评分最高的参考企业对应的行业为所述目标行业。
[0086]
在本实施例中,评估算法可以采用逻辑回归算法、决策树算法和随机森林等分类算法,通过该分类算法对当前的企业信息进行分类,得到企业信息对应的行业。除此之外,该评估算法还可以采用协同过滤算法,具体地,采集多组参考企业和该参考企业对应的行业标签,根据该协同过滤模型计算该参考企业和企业信息的相似度,将该相似度作为该企业信息的关联评分;确定关联评分最大的参考企业的行业标签为该企业信息的目标标签,该目标标签对应的行业即为当前的企业信息对应的目标行业。
[0087]
本实施例通过计算每个企业信息对应的关联评分,实现了对企业所属行业的精确识别,进一步提高了总知识图谱构建的准确性。
[0088]
在本实施例的一些可选的实现方式中,上述计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业的步骤包括:
[0089]
获取所述行业网络中的节点个数,根据所述节点个数对所述度中心性进行归一化,得到标准度中心性;
[0090]
确定所述标准度中心性最大的行业为所有所述行业网络中的关键行业。
[0091]
在本实施例中,除了根据度中心性确定同一行业网络中不同行业的关键行业以外,还可以对不同行业网络的行业的度中心性进行归一化,从所有不同行业网络确定最终中的关键行业。具体地,在得到每个行业在行业网络中的度中心性时,获取每个行业网络中的节点个数,该节点个数为每个行业网络中行业的总数量。根据该节点个数对每个行业的度中心性进行归一化,得到标准度中心性,该标准度中心性的计算公式如下所示:
[0092][0093]
其中,n为节点所属行业网络的节点个数,di为每个行业的度中心性。在得到每个行业对应的标准度中心性时,对所有行业网络中的行业的标准度中心性进行排序,确定标准度中心性最大的行业为关键行业。
[0094]
本实施例通过对度中心性进行归一化,实现了对所有行业网络中行业的统一衡量,进一步提高了关键行业获取的准确率。
[0095]
在本实施例的一些可选的实现方式中,上述根据所述度中心性确定所述行业网络的关键行业的步骤还包括:
[0096]
计算每个所述行业在所述行业网络中的介中心性;
[0097]
根据所述介中心性和所述度中心性,计算所述行业网络中每个不同行业的影响评分,确定所述影响评分最大的行业为所述行业网络中的关键行业。
[0098]
在本实施例中,对于某些行业并不能仅通过度中心性衡量其在行业网络中的重要程度。因此,在计算得到每个行业在其对应行业网络中的度中心性之后,还可以计算每个行业在该行业网络的介中心性;根据该介中心性和度中心性进一步确定在行业网络中影响力最大的行业,将该行业作为关键行业。
[0099]
具体地,节点的介数表示一个网络中经过该节点的最短路径的数量,在一个网络中节点的介数越大,则该节点在节点间的通信中所起的作用越大。计算每个行业网络中任
意两个节点(行业)的所有最短路径,确定该最短路径中节点的重合率,该重合率即为该节点的介中心性。在得到不同节点的介中心性和度中心性时,根据该介中心性和度中心性,计算得到行业网络中每个行业的影响评分;该影响评分可通过该介中心性和度中心性进行加权求和计算得到。而后,确定该影响评分最大的节点(行业)为行业网络中的关键行业。
[0100]
本实施例通过介中心性和度中心性确定关键行业,进一步提高了关键行业的准确性。
[0101]
在本实施例的一些可选的实现方式中,上述计算每个所述行业在所述行业网络中的介中心性的步骤包括:
[0102]
确定所述行业网络中任意两个行业之间的最短路径;
[0103]
计算所有所述最短路径中行业的重合率,将所述重合率为所述行业在所述行业网络的介中心性。
[0104]
在本实施例中,一个行业与不同的其他行业之间仅存在一条最短路径,在该最短路径中则可能会经过不同的节点(行业)。如下图3所示,图3为行业最短路径示意图,从行业a到行业b的最短路径,和从行业b到行业c的最短路径之间均经过了行业h,该行业h即为最短路径中的重合行业。在计算该行业h的重合率时,则通过计算经过该h的最短路径的个数可以确定其对应的重合率。具体地,确定行业网络中任意两个行业之间的最短路径,该行业的最短路径为两个行业之间所需经过节点(行业)最少的路径;确定在该行业网络中所有最短路径中行业的重合率,该重合率即为经过该行业(节点)的最短路径在最短路径总数的比值,将该比值作为该行业在行业网络中的介中心性。
[0105]
本实施例通过计算行业的重合率,确定行业在行业网络的介中心性,使得通过该介中心性可以对行业进行进一步地精确评估。
[0106]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0107]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0108]
进一步参考图4,作为对上述图2所示方法的实现,本技术提供了一种基于知识图谱的信息挖掘装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0109]
如图4所示,本实施例所述的基于知识图谱的信息挖掘装置400包括:第一构建模块401、第二构建模块402以及确认模块403。其中:
[0110]
第一构建模块401,用于获取不同行业的供需数据,根据所述供需数据构建多个不同所述行业对应的子知识图谱;
[0111]
在本实施例的一些可选的实现方式中,第一构建模块401包括:
[0112]
获取单元,用于从所有所述行业中选取一个行业作为目标行业,根据所述供需数据获取与所述目标行业存在供需关系的关联行业;
[0113]
第一计算单元,用于根据所述供需数据计算所述关联行业供给或需求所述目标行业的交易量占所述目标行业总额的比例;
[0114]
构建单元,用于通过所述比例和所述供需关系,构建所述目标行业和所述关联行业的数据关系表;
[0115]
导入单元,用于导入所述数据关系表至图数据库系统,得到所述目标行业的子知识图谱。
[0116]
在本实施例中,供需数据为每个行业的产出规模和两两行业之间的供需数据,通过爬虫或wind客户端下载可以得到每个月各个行业的供需数据。例如,获取得到批发和零售业三月的供需数据为10万亿,建筑业的供需数据为5万亿,批发和零售业提供2万亿至建筑业。在得到供需数据时,根据该供需数据构建得到对应行业的子知识图谱。具体地,在得到供需数据时,根据该供需数据确定两个不同行业之间的供需关系,基于该供需关系构建行业-供需关系-行业的三元组,将该三元组构建输入至图谱构建工具(如neo4j图数据库系统)中,基于该图谱构建工具构建得到不同行业对应的子知识图谱。一个行业即对应一个子知识图谱。
[0117]
第二构建模块402,用于对所述子知识图谱进行划分,得到所述子知识图谱对应的行业网络,获取不同企业的企业信息,根据所述行业网络和所述企业信息构建得到总知识图谱;
[0118]
在本实施例的一些可选的实现方式中,第二构建模块402包括:
[0119]
第一确认单元,用于根据所述企业信息确定所述行业网络中与所述企业存在关联关系的目标行业;
[0120]
补全单元,用于基于所述企业和所述目标行业的关联关系补全所述子知识图谱,得到所述总知识图谱。
[0121]
在本实施例的一些可选的实现方式中,确认单元包括:
[0122]
第二计算单元,用于获取预设的评估算法和参考企业,根据所述评估算对所述企业信息和所述参考企业进行相似度计算,得到所述企业信息对应的关联评分;
[0123]
第二确认单元,用于确定所述关联评分最高的参考企业对应的行业为所述目标行业。
[0124]
在本实施例中,在得到子知识图谱时,获取预设的划分标准,该划分标准可以是行业规范的划分标准,例如,按照行业规范的划分标准可以将行业划分为门类、大类、中类和小类,其中,门类包括农、林、牧、渔业、采集业和制造业等,每个门类下则包括多个大类,大类包括多个中类,中类包括多个小类。因此,根据该划分标准将每个行业对应的子知识图谱划分不同大小的行业网络,如行业中类网络和行业小类网络,行业网络即为由多个行业组成的网络,一个行业网络按照划分标准由多个子知识图谱组成。之后,获取企业的企业信息,其中,该企业信息包括企业的生产信息和产品信息等信息,通过企业的官网等公开网站可以获取到该企业信息。根据该企业信息和行业网络,构建得到不同行业网络和企业的三元组,基于该三元组构建得到总知识图谱。其中,总知识图谱中包括多个子知识图谱。
[0125]
需要强调的是,为进一步保证上述总知识图谱的私密和安全性,上述总知识图谱还可以存储于一区块链的节点中。
[0126]
本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0127]
确认模块403,用于计算每个所述行业在所述行业网络中的度中心性,根据所述度中心性确定所述行业网络的关键行业,基于所述关键行业在所述总知识图谱中查找得到所述关键行业的关键企业。
[0128]
在本实施例中,在得到行业网络后,计算每个不同行业在其对应的行业网络中的度中心度。其中,度中心度为每个行业在行业网络中对其他行业的影响程度,影响程度越高则该行业的度中心度越高。具体地,在大多数行业网络中,行业节点的度遵守幂律分布,度很大的节点(即行业)的数量只占一个行业网络中节点总数量的少部分,而度较小的节点(即行业)的数量往往占据大多数。因此,计算行业网络中每个行业与其他行业的连接数,根据该连接数确定每个行业的度中心性,该度中心性的计算公式具体如下所示:
[0129][0130]
其中,di为每个行业的度中心性,i表示当前行业编号,j为行业网络中行业总数,a为连接数。在得到行业在行业网络中的度中心性时,将当前行业网络中度中心性最大的行业确定该行业网络中的关键行业。之后,根据该关键行业在总知识图谱中查找到与该关键行业距离最近的企业,确定该距离最近的企业为当前关键行业的关键企业。其中,在总知识图谱中距离关键行业越近则表示该企业在该关键行业中的贡献程度越大,距离关键行业越远则表示该企业在该关键行业中的贡献程度越小;该贡献程度可通过企业在该关键行业中的份额等信息综合计算得到。
[0131]
在本实施例的一些可选的实现方式中,确认模块403包括:
[0132]
归一化单元,用于获取所述行业网络中的节点个数,根据所述节点个数对所述度中心性进行归一化,得到标准度中心性;
[0133]
第三确认单元,用于确定所述标准度中心性最大的行业为所有所述行业网络中的关键行业。
[0134]
在本实施例中,除了根据度中心性确定同一行业网络中不同行业的关键行业以外,还可以对不同行业网络的行业的度中心性进行归一化,从所有不同行业网络确定最终中的关键行业。具体地,在得到每个行业在行业网络中的度中心性时,获取每个行业网络中的节点个数,该节点个数为每个行业网络中行业的总数量。根据该节点个数对每个行业的度中心性进行归一化,得到标准度中心性,该标准度中心性的计算公式如下所示:
[0135][0136]
其中,n为节点所属行业网络的节点个数,di为每个行业的度中心性。在得到每个
行业对应的标准度中心性时,对所有行业网络中的行业的标准度中心性进行排序,确定标准度中心性最大的行业为关键行业。
[0137]
在本实施例的一些可选的实现方式中,确认模块403还包括:
[0138]
第三计算单元,用于计算每个所述行业在所述行业网络中的介中心性;
[0139]
第四计算单元,用于根据所述介中心性和所述度中心性,计算所述行业网络中每个不同行业的影响评分,确定所述影响评分最大的行业为所述行业网络中的关键行业。
[0140]
在本实施例的一些可选的实现方式中,第三计算单元包括:
[0141]
确认子单元,用于确认所述行业网络中任意两个行业之间的最短路径;
[0142]
计算子单元,用于计算所有所述最短路径中行业的重合率,将所述重合率为所述行业在所述行业网络的介中心性。
[0143]
在本实施例中,对于某些行业并不能仅通过度中心性衡量其在行业网络中的重要程度。因此,在计算得到每个行业在其对应行业网络中的度中心性之后,还可以计算每个行业在该行业网络的介中心性;根据该介中心性和度中心性进一步确定在行业网络中影响力最大的行业,将该行业作为关键行业。
[0144]
具体地,节点的介数表示一个网络中经过该节点的最短路径的数量,在一个网络中节点的介数越大,则该节点在节点间的通信中所起的作用越大。计算每个行业网络中任意两个节点(行业)的所有最短路径,确定该最短路径中节点的重合率,该重合率即为该节点的介中心性。在得到不同节点的介中心性和度中心性时,根据该介中心性和度中心性,计算得到行业网络中每个行业的影响评分;该影响评分可通过该介中心性和度中心性进行加权求和计算得到。而后,确定该影响评分最大的节点(行业)为行业网络中的关键行业。
[0145]
本实施例提出的基于知识图谱的信息挖掘装置,实现了对关键行业的高效且精确地挖掘,并使得根据该关键行业在总知识图谱中进一步查找得到具有较大影响力的关键企业,进一步实现了对资源精确调整,提高了资源的利用率。
[0146]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
[0147]
所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是,图中仅示出了具有组件61-63的计算机设备6,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0148]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0149]
所述存储器61至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器61可以是所述计算机
设备6的内部存储单元,例如该计算机设备6的硬盘或内存。在另一些实施例中,所述存储器61也可以是所述计算机设备6的外部存储设备,例如该计算机设备6上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中,所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件,例如基于知识图谱的信息挖掘方法的计算机可读指令等。此外,所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0150]
所述处理器62在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中,所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据,例如运行所述基于知识图谱的信息挖掘方法的计算机可读指令。
[0151]
所述网络接口63可包括无线网络接口或有线网络接口,该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。
[0152]
本实施例提出的计算机设备,实现了对关键行业的高效且精确地挖掘,并使得根据该关键行业在总知识图谱中进一步查找得到具有较大影响力的关键企业,进一步实现了对资源精确调整,提高了资源的利用率。
[0153]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于知识图谱的信息挖掘方法的步骤。
[0154]
本实施例提出的计算机可读存储介质,实现了对关键行业的高效且精确地挖掘,并使得根据该关键行业在总知识图谱中进一步查找得到具有较大影响力的关键企业,进一步实现了对资源精确调整,提高了资源的利用率。
[0155]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0156]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献