一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

知识图谱的创建方法、信息获取的方法、装置和设备与流程

2021-10-22 22:14:00 来源:中国专利 TAG:方法 数据处理 图谱 装置 获取


1.本发明涉及大数据处理技术领域,尤其涉及一种知识图谱的创建方法、信息获取的方法、装置和设备。


背景技术:

2.多年来,生产工作中数据获取方式仍采用人工结构化查询语言(structured query language,sql)查询的形式为主,因为数据获取的过程,通常是先从数据点,到专题数据点,然后再获取到相应的数据,例如先获取某一应用(application,app)业务的数据,再从该app中找某一专项服务的专题数据,然后再从专题数据中找每一类型服务的数据,这样的数据获取效率比较低。
3.为了提高数据获取的效率,目前先基于数据仓库建立数据的知识图谱,然后基于知识图谱中相应的实体节点和实体节点之间的关系信息获取相应的数据,但是目前知识图谱的构建方式致使数据获取的效率依然不高。其中,实体节点为某一个app的名称、每个项目的名称,或者某一专项服务的名称等。


技术实现要素:

4.本发明一个或多个实施例描述了一种知识图谱的创建方法、信息获取的方法、装置和设备,有效提高了数据获取的效率。
5.为了解决上述技术问题,本发明是这样实现的:
6.第一方面,提供了一种知识图谱的创建方法,该方法可以包括:
7.获取第一数据,第一数据包括多个实体名称、数据指标和时间周期,以及多个实体名称之间的属性信息;
8.根据预设的图谱关系,多个实体名称之间的属性信息、数据指标和时间周期,创建知识图谱;其中,预设的图谱关系中包括时间周期的节点。
9.第二方面,提供了一种信息获取的方法,该方法可以包括:
10.接收输入的关键词,关键词包括实体名称、数据指标和时间周期中的至少一项;
11.按照知识图谱的图谱关系生成与关键词相关联的信息;其中,知识图谱是第一方面所述方法创建的知识图谱。
12.第三方面,提供了一种知识图谱的创建装置,该装置可以包括:
13.获取单元,用于获取第一数据,第一数据包括多个实体名称、数据指标和时间周期,以及多个实体名称之间的属性信息;
14.创建单元,用于根据预设的图谱关系,多个实体名称之间的属性信息、数据指标和时间周期,创建知识图谱;其中,预设的图谱关系中包括时间周期的节点。
15.第四方面,提供了一种信息获取的装置,该装置可以包括:
16.接收单元,用于接收输入的关键词,关键词包括实体名称、数据指标和时间周期中的至少一项;
17.生成单元,用于按照知识图谱的图谱关系生成与关键词相关联的信息;其中,知识图谱是第三方面所述装置创建的知识图谱。
18.第五方面,提供了一种计算设备,计算设备包括至少一个处理器和存储器,存储器用于存储有计算机程序指令,处理器用于读取并执行计算机程序指令,以控制计算设备实现第一方面至第二方面任意一个方面的方法。
19.第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序,若计算机程序在计算机中执行,则令计算机执行第一方面至第二方面任意一个方面的方法。
20.本发明实施例的方案中,通过预设的图谱关系创建基于实体名称、数据指标和时间周期作为节点的知识图谱,在数据获取过程中,可基于知识图谱中实体名称、数据指标和时间周期的节点关系快速,准确的获取相应的数据,提高了数据获取的效率。同时,将时间周期作为知识图谱的节点创建知识图谱,简化了知识图谱中各节点的关系线。
附图说明
21.从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中,相同或相似的附图标记表示相同或相似的特征。
22.图1是本发明实施例提供的一种知识图谱的结构示意图;
23.图2是本发明实施例提供的一种知识图谱的创建方法的流程示意图;
24.图3是本发明实施例提供的一种知识图谱的设计框架示意图;
25.图4是本发明实施例提供的一种信息获取的方法示意图;
26.图5是本发明实施例提供的一种知识图谱的创建装置的结构示意图;
27.图6是本发明实施例提供的一种数据获取的装置的结构示意图;
28.图7是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
29.下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
30.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种测量的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
31.对于大数据处理,目前数据的获取存在以下问题,首先通常采用sql查询的形式进行数据查询,数据获取效率比较低。其次,数据的价值释放不足,需要用户有较高的数据解读能力,才能从数据表现转化为数据处理动作,即数据解读要求高。再次,大多数情况下,专
业分析师的精力难以满足大量的数据分析要求,且大部分工作人员的工作无法获得及时的数据决策支持,即数据分析资源稀缺。最后,数据分析中各个数据维度的分析过程繁琐,且容易丢掉重要维度数据的分子,即分析能力不足。
32.为了解决以上问题,数据库通过关系表的方式,也就是二维的方式组织数据和数据之间的关系,这种方式不能很好的建立数据之间的关联关系,且不能或者不能清楚的表达数据的来源和结果。同时,直接通过关系表的方式获取数据,存在以下缺点:1、数据获取难度比较大,因为大多的数据数据库都是按照雪花模型的方式构建出来的,即数据存储比较分散,查询数据过程中,数据之间的关系比较凌乱,且复杂,计算量比较大;2、无法提供数据的归因分析,多指标关联洞察的智能化服务,因为数据都是通过单独表的方式来存储的,无法计算数据之间的关系,数据之间相互的影响,从而只能提供一些建议的智能化服务。
33.因此,将数据库中的数据图谱化,形成知识图谱,采用一种数据关系的方式来描述数据和管理数据,从而实现比较高效的提供数据处理服务但是现在的知识图谱数据关系庞大和冗余,在智能化的服务中,很多计算需要很长一段时间(比如365天)的数据,对于这样的数据计算,计算量会很大,且计算效率低,存储成本也比较高。
34.为了解决上述问题,本发明实施例提供了一种图谱的创建方法、信息获取的方法,装置和设备,通过在知识图谱中添加附属有时序信息(或称为时间周期)的数据节点,如图1所示,以购物商城为例进行说明。在图1所示的知识图谱中添加了时间周期的数据节点,相比现有技术中,时间周期作为各数据节点的关系线存在于知识图谱中,简化了知识图谱的关系线,且在数据获取过程中,可以基于知识图谱中实体节点和实体节点之间的关系信息,快速、准确的获取相应的数据,提高了数据获取的效率。
35.在图1所示的知识图谱中包括多个数据节点,如“a电商”,“品牌”,“商家”,“核心通道”,“会场通道”,“品牌_a电商”,“核心通道_a电商”,“商家_a电商”,“会场通道_a电商”,等,这些数据节点也可以称为实体节点;还包括“时间周期1_指标1”,“时间周期2_指标1”等数据指标和时间周期,数据指标和时间周期也是知识图谱中的数据节点。图1仅仅是一个图谱示意图,在知识图谱中还可以包括其他实体节点与实体节点、实体节点与数据指标和时间周期之间的关系信息;还可以包括其他购物商城,比如b购物商城、c购物商城等行业之间的关系信息。
36.下面结合附图对本发明实施例提供的技术方案进行描述。
37.图2是本发明实施例提供的一种知识图谱的创建方法的流程示意图。如图2所示,该方法可以包括以下步骤:
38.s110,获取第一数据,第一数据包括多个实体名称、数据指标和时间周期,以及多个实体名称之间的属性信息。
39.从数据库获取第一数据,第一数据可以是基于应用端提交的需要做数据分析的数据,第一数据包括多个实体名称,数据指标和时间周期,其中,实体名称可以是app的名称、项目的名称,商品的名称,或者专项服务的名称等,例如“a电商”,“品牌”,“商家”,“会场通道”等。实体名称也可以是app的名称、项目的名称,商品的名称,或者专项服务的名称的组合,例如“品牌_a电商”,“商家_a电商”,“会场通道_a电商”等。
40.数据指标是指用于标定实体名称数据量的指标,也可以称为目标参数,可以是资源转移数量(如交易量),商品的销售量,商品的浏览量,项目的成本和盈利,等等。
41.时间周期是时间概念,可以是预设时间段,例如可以是1小时、1天、七个月、1年等等。
42.多个实体名称之间的属性信息是指在知识图谱中,实体名称和实体名称之间的关系信息,包括但不仅限于实体名称的定义,实体名称的层级信息,实体名称与实体名称的之间的关系信息,实体名称与数据指标、时间周期之间的关系信息,等等。
43.比如,如图1所示,实体名称与实体名称之间的关系信息,包括“a电商”,“品牌”,“商家”,“核心通道”,“会场通道”等实体名称的定义;“a电商”,“品牌”,“商家”,“核心通道”,“会场通道”之间的关系信息;包括“品牌_a电商”,“核心通道_a电商”,“商家_a电商”,“会场通道_a电商”之间的关系信息;以及“a电商”和“品牌”,与“品牌_a电商”之间的层级关系,“a电商”,和“商家”,与“商家_a电商”之间的层级关系,等等。
44.s120,根据预设的图谱关系,多个实体名称之间的属性信息、数据指标和时间周期,创建知识图谱,其中,预设的图谱关系中包括时间周期的节点。
45.数据库一般是基于雪花模型来设计的。雪花模型是指当一个或多个维度表没有直接连接到事实表,而是通过其他维表连接到事实表上,其图解就像多个雪花连接在一起,故称为雪花模型。
46.事实表是数据库中用来存储主题的主干内容的,数据库中可以包括一个或多个事实表,以日常工作量为例进行说明,日常工作量可以包括以下属性:工作日期、人员、上班时长、加班时长、工作性质、是否外勤、工作内容、审核人;其中上班时长和加班时长是主干内容,也就是工作量主体的基内容;其他的信息,如工作日期、人员、性质、是否外勤等都是可以分类的,例如工作日期有年、月、日的层次,人员有上下级关系,是否外勤也有外勤和正常上班两类考勤分类,通常把能够分类的属性单独列出来作为维度表。
47.事实表通常包括一个由多个部分组成的索引,用于维护事实和维度的关系。
48.本发明实施例知识图谱的创建基于雪花模型来设计,预先设计图谱关系,主要包含分层的维度设计(或称为维度设计)关系设计、属性设计和规则设计,如图3所示。
49.概念设计是将所有的数据维度抽象成概念,概念具有不同的层级。这里的概念是指类(class)的集合,如事物性概念和事件类概念,如图1所示的分类“商家”,“会场通道”等。
50.概念设计包括概念定义、概念范围和概念层级。如图1所示,“商家”、“品牌”等概念定义。概念范围是指允许的服务范畴,比如允许经营销售的商品,换句话讲是一种经营销售商品的法律约束。概念层级是指设置多少层级关系,可以设置多级概念,包括零级概念、一级概念、二级概念、
……
,等等。
51.关系设计包括概念间关系、概念内关系和概念层级关系。如图1所示,“a电商整体”为零级概念;“a电商”,“品牌”,“商家”,“核心通道”,“会场通道”,属于一级概念;“品牌_a电商”,“核心通道_a电商”,“商家_a电商”,“会场通道_a电商”属于二级概念,“时间周期1_指标1”和“时间周期2_指标1”属于三级概念;零级概念、一级概念、二级概念和三级概念之间的连线为层级间关系,层级内关系可以是“b电商”与“a电商”之间的关系(图1中未示出)。
52.属性设计包括主键属性、指标属性和时间周期属性。主键属性是指构建事实表的索引关系,以便于查询事实数据与维度表中分类数据的关系,在本发明实施例中,事实数据可以是数据指标。指标属性可以包括资源转移量(如交易量),商品被浏览次数等。时间周期
属性设置数据被汇总的时间段,比如1小时、1天、1个月、1年等等。
53.规则设计包括统一指标词、统一时间词、统一维度词。例如,相同数据指标词作为知识图谱的一个节点,或者相同时间词的作为知识图谱的一个节点,或者相同维度(或称为实体名称)的作为知识图谱的一个节点。
54.预设计好知识图谱关系后,基于预设计的图谱关系,以及获取的第一数据中的多个实体名称之间的属性信息、数据指标和时间周期创建知识图谱,创建的知识图谱中,时间周期是作为节点存在的。
55.本发明实施例通过将时间周期作为数据节点添加到知识图谱中,在数据获取过程中,可基于知识图谱中实体名称、数据指标和时间周期的节点关系快速,准确的获取相应的数据,提高了数据获取的效率。同时,将时间周期作为知识图谱的节点创建知识图谱,减少了知识图谱中的关系线,简化了知识图谱。
56.可选地,在一个实施例中,预设的图谱关系包括多个实体名称组成的节点的定义,节点的范围和节点的层级,以及节点之间的关系、节点内的关系、节点的层级关系。实体名称是指在图谱关系设计中,每个层级概念中的被划分类的维度,如一级概念中的“a电商”,“品牌”,“商家”,“核心通道”,“会场通道”,二级概念中的“品牌_a电商”,“核心通道_a电商”,“商家_a电商”,“会场通道_a电商”等。这里的节点是指概念。
57.可选地,在一个实施例中,根据预设的图谱关系,多个实体名称之间的属性信息、数据指标和所述时间周期,创建知识图谱,包括:
58.对多个实体名称之间的属性信息、数据指标和时间周期进行聚类;根据预设的图谱关系和聚类后的实体名称、数据指标和时间周期的数据作为知识图谱的节点,创建知识图谱。
59.对不同实体名称、不同数据指标、不同时间周期的数据进行聚类,并将依据预设的图谱关系和聚类后的实体名称、数据指标和时间周期的数据作为知识图谱的节点,创建知识图谱。
60.可选地,在一个实施例中,根据预设的图谱关系和聚类后的实体名称、数据指标和时间周期的数据作为知识图谱的节点,创建知识图谱,包括:
61.根据预设的图谱关系和聚类后相同实体名称、相同数据指标和不同的时间周期对应的数据作为知识图谱的节点,创建知识图谱。
62.本发明实施例通过将时间周期作为数据节点添加到知识图谱中,在数据获取过程中,可基于知识图谱中相同实体名称、相同数据指标或相同时间周期的节点关系快速,准确的获取相应的数据,可提高了数据获取的效率。
63.可选地,在一个实施例中,该方法还可以包括:
64.预设概述模板,概述模板用于将基于创建的知识图谱获取到的数据编辑为概述模板的格式,以提供用户阅读。
65.图2方法创建的知识图谱可作为数据库中数据获取的一个插件应用,也可以作为一个数据库系统应用,在本发明实施例中不限定其具体应用场景。
66.图4是本发明实施例提供的一种信息获取的方法示意图。如图4所示,该方法可以包括以下步骤:
67.s210,接收输入的关键词,关键字包括实体名称、数据指标和时间周期中的至少一
项。
68.当需要从数据库中获取所需的数据时,基于图2中创建的知识图谱从数据库中获取。
69.接收基于应用端的关键字输入,关键字可以包括实体名称、数据指标或者时间周期中的至少一项。s220,按照知识图谱的图谱关系生成与所关键词相关联的信息。
70.基于知识图谱关系,以及关键字从数据库中获取与关键字相关联的数据。在预设关系图谱中,设计了概念定义、概念范围、概念层级、概念间关系、概念内关系、概念层级关系、主键属性、指标属性、时间周期属性、统一指标词、统一时间词和统一维度词(或称为实体名称),因此图2创建的知识图谱可以提供任一多关系的数据查询服务,从各个实体名称、数据指标和时间周期都可以快速、准确的获取相应的数据,提高了数据获取的效率。
71.同时,基于知识图谱中各实体名称组成的概念之间的关系、各实体名称组成的概念内的关系,以及各实体名称组成的概念层级之间的关系,各实体名称、数据指标和时间周期的关系可以进行实体名称相应数据的贡献分析、数据路径的智能分析,数据的归因分析,提高了数据分析能力。
72.比如,接收到的待搜索关键字为时间周期1(如1个月)和数据指标1(如交易量),那么基于知识图谱获取知识图谱中所有实体名称对应的各个图谱路径下的1个月的交易量。
73.又比如,在数据获取过程中,进行数据贡献分析,获取所有品牌1个月内的交易量,得到a品牌的1月内的交易量占据品牌销售1个月总交易量的60%,那么分析认为a品牌的贡献最大。
74.又比如,数据归因处理,以获取a品牌5月份和6月份交易量为例,获取5月份a品牌交易量为1000,6月份所有品牌交易量990,6月份相比5月份交易量降低了1%,数据分析得到x商家的退货量为10,归因分析是x商家销售模式出了问题。需说明的是,这里仅仅是举例说明,具体情况可根据实际情况分析。
75.本发明实施例基于图2所示实施例创建的知识图谱,进行关键字查询,可以通过知识图谱的各层级的实体名称、数据指标和时间周期进行智能化,快速、准确的获取数据。同时可提供数据分析,以及数据归因的分析,提高了数据分析能力。
76.可选地,在一个实施例中,该方法还可以包括:
77.s230,接收用户选择的概述模板;将生成的与关键词相关的信息按照概述模板的格式编辑生成展示信息。
78.其中,概述模板可以是编辑好的固定格式的模板,也可以是个性化设置的模板,可基于用户需要设计,并由用户自主选择待呈现信息的概述模板,提高了用户体验。
79.可选地,在一个实施例中,在将生成的关键词相关的信息按照概述模板的格式编辑生成展示信息之后,所述方法还包括:
80.s240,展示所述展示信息,以便于用户阅读。
81.在一个实施例中,该展示信息可以是app中的通知信息,向用户推送并展示报告信息,报告内容是依据用户配置的关键词推送的内容,比如设置生日信息推送,可通过提取app中相应通信录中朋友的生日日期,在相应的日期推送发送祝福语给生日的朋友的推送信息。
82.图1至图4描述了知识图谱的创建方法、信息获取的方法,下面结合附图5至7对本
发明实施例提供的知识图谱的创建装置和数据获取的装置进行描述。
83.图5是本发明实施例提供的一种知识图谱的创建装置,该装置500包括获取单元510和创建单元520。
84.获取单元510,用于获取第一数据,第一数据包括多个实体名称、数据指标和时间周期,以及多个实体名称之间的属性信息。
85.创建单元520,用于根据预设的图谱关系,多个实体名称之间的属性信息、数据指标和所述时间周期,创建知识图谱;其中,预设的图谱关系中包括时间周期的节点。
86.可选地,在一个实施例中,预设的图谱关系包括多个实体名称组成的节点的定义、节点的范围和所述节点的层级,以及节点之间的关系、节点的层级关系。
87.可选地,在一个实施例中,创建单元520具体用于:对多个实体名称之间的属性信息、数据指标和时间周期进行聚类;根据预设的图谱关系和聚类后的实体名称、数据指标和时间周期的数据作为知识图谱的节点,创建知识图谱。可选地,在一个实施例中,创建单元520具体用于,根据预设的图谱关系和聚类后相同实体名称、相同数据指标和不同的时间周期对应的数据作为知识图谱的节点,创建知识图谱。
88.本发明实施例的装置的各个单元可以实现图2中的知识图谱的创建方法,为简洁描述在此不再赘述。本发明实施例提供的装置通过将时间周期以数据节点的形式添加到知识图谱中,在数据获取过程中,可以基于知识图谱的关系信息快速、准确的获取数据,提高了数据获取的效率。
89.图6是本发明实施例提供的一种信息获取的装置,该装置600包括接收单元610和生成单元620。
90.接收单元610,用于接收输入的关键词,关键词包括实体名称、数据指标和时间周期中的至少一项。
91.生成单元620,用于按照知识图谱的图谱关系生成与关键词相关联的信息;其中,知识图谱是图5所述装置创建的知识图谱。
92.可选地,在一个实施例中,接收单元610,还用于接收用户选择的概述模板;生成单元620,还用于将生成的与关键词相关联的信息按照概述模板的格式编辑,生成展示信息。
93.可选地,在一个实施例中,装置600还包括展示单元630,用于展示信息。
94.本发明实施例提供的装置的各个单元可以是实现图4所示信息获取的方法,为简洁描述,在此不再赘述。基于图5装置创建的知识图谱,依据接收到的关键词进行数据获取,可以通过知识图谱的关系信息快速、准确的获取到数据,提高了数据获取的效率。
95.图7是本发明实施例还提供了一种计算设备的结构示意图。图7所示的计算设备可以实现知识图谱的创建方法、数据处理的方法。
96.该设备可以包括处理器701以及存储有计算机程序指令的存储器702。
97.具体地,上述处理器701可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,asic),或者可以被配置成本技术实施例的一个或多个集成电路。
98.存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(hard disk drive,hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,usb)驱动器或者两个及其以上这些的组合。在合适的
情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在综合网关设备的内部或外部。在特定实施例中,存储器702是非易失性固态存储器。在特定实施例中,存储器702包括只读存储器(rom)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、电可改写rom(earom)或闪存,或者两个或及其以上这些的组合。
99.处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现图2和图4所示实施例中的任意一种方法。
100.在一个示例中,该设备还可包括总线704。其中,如图7所示,处理器701、存储器702和收发器703通过总线704连接并完成相互间的通信。
101.总线704包括硬件、软件或两者。举例来说而非限制,总线可包括加速图形端口(agp)或其他图形总线、增强工业标准架构(eisa)总线、前端总线(fsb)、超传输(ht)互连、工业标准架构(isa)总线、无限带宽互连、低引脚数(lpc)总线、存储器总线、微信道架构(mca)总线、外围组件互连(pci)总线、pci-express(pci-x)总线、串行高级技术附件(sata)总线、视频电子标准协会局部(vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线703可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
102.本发明实施例还提供了与上述指示图谱的创建方法、数据处理的方法对应的计算机可读存储介质。在一种可能的实施例中,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机中执行时,令计算机执行本发明实施例下述方法中至少一种方法中的步骤:知识图谱的创建方法和数据处理的方法。
103.需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
104.本领域的技术人员可以清楚地了解到,本发明的方法过程并不限于所描述和示出的具体步骤,任何熟悉本技术领域的技术人员在领会本发明的精神后,在本发明揭露的技术范围内作出各种改变、修改和添加,或者等效替换以及改变步骤之间的顺序,这些修改或替换都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜