一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种知识图谱处理方法和系统与流程

2022-02-19 07:03:29 来源:中国专利 TAG:


1.本说明书涉及数据处理技术领域,特别涉及知识图谱处理方法和系统。


背景技术:

2.在各种业务领域中,都有对应的数据,各个业务领域需要利用数据,以实现业务上的任务或目标,例如,可以通过训练样本对模型进行训练,得到具有分类、关系预测等能力的模型。知识图谱数据包括实体及关系,可以涵盖更加全面或完整的信息。如果能从知识图谱中提取丰富的图谱特征,并为各业务领域的任务或目标所用,将有助于极大提升工作效率。
3.因此,亟需知识图谱处理方法和系统,来提升业务应用的效果。


技术实现要素:

4.本说明书一个方面提供一种知识图谱处理方法,包括:基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱;所述共享知识图谱基于一个或多个业务域的知识图谱融合得到;对所述目标子图谱进行处理,以提取一种或多种图谱特征,所述图谱特征包括以下中的部分或全部:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征;将所述图谱特征提供给目标业务域的目标数据处理任务;其中,所述图谱特征用于与任务定制化特征一同作为所述目标数据处理任务的输入特征,以实现目标数据处理任务。
5.本说明书另一个方面提供一种知识图谱处理系统,包括:子图谱确定模块,用于基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱;所述共享知识图谱基于一个或多个业务域的知识图谱融合得到;图谱特征获取模块,用于对所述目标子图谱进行处理,以提取一种或多种图谱特征,所述图谱特征包括以下中的部分或全部:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征;任务处理模块,用于将所述图谱特征提供给目标业务域的目标数据处理任务,其中;所述图谱特征用于与任务定制化特征一同作为所述目标数据处理任务的输入特征,以实现目标数据处理任务。
6.本说明书另一个方面提供一种知识图谱处理装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现所述的知识图谱处理方法。
附图说明
7.本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
8.图1是根据本说明书一些实施例所示的一种知识图谱处理系统的应用场景示意
图;
9.图2是根据本说明书一些实施例所示的一种知识图谱处理系统的框图;
10.图3是根据本说明书一些实施例所示的一种知识图谱处理方法的示例性流程图;
11.图4是根据本说明书一些实施例所示的一种目标子图谱的处理方法的示意图;
12.图5是根据本说明书一些实施例所示的一种共享知识图谱的示意图。
具体实施方式
13.为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
14.应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
15.如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
16.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
17.图1是根据本说明书的一个或多个实施例所示的知识图谱处理系统的应用场景示意图。
18.应用场景100可以涉及各个业务领域的各种业务场景,例如,涉及安全、保险、支付、财富等业务领域。
19.在不同的业务领域有着各种业务场景的数据处理任务。例如,在支付业务领域中,需要判断多个支付账号是否属于同一商户以对业务数据中大量的支付账号的归属进行清理,又例如,可以判断多个商户是否属于同一所有者,以明确各个商户之间的业务关系。在具体的数据处理任务中,业务方可能会基于本业务域已有的数据提取与任务相关的特征(或称为任务定制化特征)。示例性的,对于判断多个支付账号是否属于同一商户的数据处理任务,业务方可以提取各个支付账号(可以表现为付款码形式)的地理位置信息,进而通过位置间的距离,从而确定哪些支付账号属于同一商户(如距离较近的支付账号大概率属于同一商户)。可以认为,地理位置信息与任务密切相关,且有直观的可解释性,可以认为地理位置信息属于任务定制化特征。然而,除了这类与任务关联密切的特征外,还可以从大量业务数据中挖掘出相对广泛、抽象的辅助特征。例如,每个支付账号可以有多个属性,如注册时间、地点、注册设备标识等,而属于同一商户的支付账号可能具有相似的属性分布以及支付关系分布,因此,如果能基于业务数据构建知识图谱,并获得各支付节点的节点表征向
量,那么这些节点表征向量可以作为辅助特征,连同任务定制化特征一起完成数据处理任务(如结合支付账号的地理位置间的距离以及节点表征向量的相似性确定属于同一商户的多个支付账号),辅助特征作为任务定制化特征的补充可能进一步提高预测准确性。
20.有鉴于此,本说明书一些实施例提出根据数据处理任务相关的实体和/或关系构建知识图谱,提取图谱特征为数据处理任务所用,以提高业务应用的效率。对于各个业务领域,都可以基于利用数据构建的知识图谱进行数据处理任务。在一些实施例中,各个业务领域在进行数据处理任务时,可以基于业务任务或业务目标形成知识图谱数据处理(如图谱数据加工、图模型训练等)到业务应用的链路,不同的业务应用,则需要建立各自的图谱数据处理到业务应用的链路。其中,不同业务应用的图谱数据处理包含的工作可能是重复的,令投入的资源和人力造成浪费。另外,单个业务领域的业务数据覆盖有限,如果能将多个业务领域的数据打通共享,将更加有益于数据处理任务高效、准确的实现。
21.鉴于上述情况,本说明一些实施例提供了一种知识图谱处理方法和系统,基于一个或多个业务域的知识图谱融合得到的共享知识图谱来进行知识图谱数据处理,包括基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱,并对目标子图谱进行处理,以提取一种或多种图谱特征,图谱特征可以包括:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征等。再将图谱特征提供给目标业务域的目标数据处理任务,以将图谱特征用于与任务定制化特征一同作为目标数据处理任务的输入特征,实现目标数据处理任务。通过本说明书一些实施例提供的知识图谱处理方法和系统,将各业务领域的数据处理链路的知识图谱构建以及图谱特征部分提炼出来,由知识图谱平台统一实现,为各业务领域提供多样化的图谱特征,有效提高了数据处理效率、节省资源和人力成本。另一方面,本说明书提供的方法或系统使得目标业务方能够引入各业务领域的数据以使用更完善的知识图谱数据来进行数据处理任务,以大幅度提升业务任务或目标的实现效果。
22.如图1所示,知识图谱处理系统的应用场景100可以包括服务器110

1、110

2、110

3等多个服务器、处理设备120和网络130。
23.服务器110

1、110

2、110

3等多个服务器可以分别对应多个平台或业务领域。服务器110

1、110

2、110

3、

可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息如多种图谱特征,可以实现平台或业务领域的各种数据处理任务。在一些实施例中,服务器110

1、110

2、110

3、

中的每一个可以是单一服务器或服务器组。该服务器组可以是集中式或分布式的(例如,服务器110

1可以是分布式系统),可以是专用的也可以由其他设备或系统同时提供服务。在一些实施例中,服务器110

1、110

2、110

3、

可以是区域的或者远程的。在一些实施例中,服务器110

1、110

2、110

3、

可以在云平台上实施,或者以虚拟方式提供。仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
24.在一些实施例中,服务器110

1、110

2、110

3、

中的任一个或以上个可以存储对应平台或业务领域的数据,例如数据实例、知识图谱等。
25.服务器110

1、110

2、110

3、

中的任一个或以上个可以包括处理器112。处理器112可以处理从其他设备或系统组成部分中获得的数据和/或信息,例如多种图谱特征。处理器可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本技术中描
述的功能。在一些实施例中,处理器112可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理器112可以包括中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
26.在一些实施例中,处理设备120可以对应知识图谱平台的服务器。处理设备120可以处理从其他设备或系统组成部分中获得的数据和/或信息。处理设备120可以基于这些数据、信息和/或处理结果执行程序指令,以执行一个或多个本技术中描述的功能。例如,处理设备120可以通过网络130从服务器110

1、110

2、110

3、

中的两个或以上获取两个或以上知识图谱,以得到融合了多个业务领域的知识图谱的共享知识图谱。处理设备120可以基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱,并对目标子图谱进行处理,以提取一种或多种图谱特征,以及将图谱特征提供给服务器110

1、110

2、110

3、

。在一些实施例中,处理设备120可以包含一个或多个子处理设备(例如,单核处理设备或多核多芯处理设备)。仅作为示例,处理设备120可以包括中央处理器(cpu)、专用集成电路(asic)、专用指令处理器(asip)、图形处理器(gpu)、物理处理器(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编辑逻辑电路(pld)、控制器、微控制器单元、精简指令集电脑(risc)、微处理器等或以上任意组合。
27.网络130可以连接系统的各组成部分和/或连接系统与外部部分。网络130使得系统各组成部分之间以及与系统与外部部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络130可以是有线网络或无线网络中的任意一种或多种。例如,网络130可以包括电缆网络、光纤网络、电信网络、互联网、局域网络(lan)、广域网络(wan)、无线局域网络(wlan)、城域网(man)、公共交换电话网络(pstn)、蓝牙网络、紫蜂网络(zigbee)、近场通信(nfc)、设备内总线、设备内线路、线缆连接等或其任意组合。在一些实施例中,系统各部分之间的网络连接可以采用上述一种方式,也可以采取多种方式。在一些实施例中,网络130可以是点对点的、共享的、中心式的等各种拓扑结构或者多种拓扑结构的组合。在一些实施例中,网络130可以包括一个或以上网络接入点。例如,网络130可以包括有线或无线网络接入点,例如基站和/或网络交换点130

1、130

2、

,通过这些网络接入点,系统100的一个或多个组件可连接到网络130以交换数据和/或信息。
28.图2是根据本说明书一些实施例所示的一种知识图谱处理系统的框图。
29.在一些实施例中,知识图谱处理系统200可以实现于处理设备120上。
30.在一些实施例中,知识图谱处理系统200可以包括子图谱确定模块210、图谱特征获取模块220和任务处理模块230。在一些实施例中,知识图谱处理系统200还可以包括召回模块240。在一些实施例中,图谱特征获取模块220还可以包括图谱分解单元221和同质图谱特征获取单元222。
31.在一些实施例中,子图谱确定模块210可以用于基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱;所述共享知识图谱基于一个或多个业务域的知识图谱融合得到。在一些实施例中,子图谱确定模块210还可以用于获取所述目标子图谱的宏观特征,所述宏观特征包括以下中的一种或多种:实体数量、图谱的度分布、图谱的连通度分布、图谱的数据质量评分;基于所述宏观特征确定所述目标
子图谱是否满足要求,若不满足则对目标子图谱进行修改或者重新从所述共享知识图谱中获取目标子图谱。
32.在一些实施例中,图谱特征获取模块220可以用于对所述目标子图谱进行处理,以提取一种或多种图谱特征,所述图谱特征包括以下中的部分或全部:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征。在一些实施例中,所述图结构特征包括以下中的一种或多种:度信息、pagerank值、点聚类系数、紧密中心性、本征向量中心性、共同邻居指标、katz指标、随机游走相似性。
33.在一些实施例中,所述目标子图谱可以为异质图谱。在一些实施例中,图谱分解单元221可以用于将目标子图谱分解成多个同质图谱。
34.在一些实施例中,同质图谱特征获取单元222可以用于对同质图谱分别进行处理,以提取一种或多种图谱特征。
35.在一些实施例中,任务处理模块230可以用于将所述图谱特征提供给目标业务域的目标数据处理任务;其中,所述图谱特征用于与任务定制化特征一同作为所述目标数据处理任务的输入特征,以实现目标数据处理任务。在一些实施例中,所述目标数据处理任务为实体分类、实体间关系预测或者实体集合挖掘。
36.在一些实施例中,召回模块240可以用于基于所述目标数据处理任务从共享知识图谱中召回若干候选节点;所述候选节点为目标数据处理任务的处理对象;其中,召回的方式包括基于检索条件在共享知识图谱中查询以获得所述候选节点,或者基于目标向量通过向量检索从共享知识图谱中获取所述候选节点。
37.应当理解,所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd

rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
38.需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。
39.图3是根据本说明书一些实施例所示的一种知识图谱处理方法的示例性流程图。
40.在一些实施例中,方法300可以由处理设备120执行。在一些实施例中,方法300可以由部署于处理设备120上的知识图谱处理系统200实现。
41.如图3所示,该方法300可以包括:
42.步骤310,基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱。
43.在一些实施例中,该步骤310可以由子图谱确定模块210执行。
44.知识图谱是指由一系列表示实体的节点和表示实体之间关系的边构成的知识库。
45.其中,实体是对客观个体的广泛抽象,其可以指物理世界中的有形物体,如自然人、汽车、商户等,也可以指无形的对象,如支付账号、身份标识、wifi账号、资金、程序代码等等。实体可以具有多种类型,例如,自然人、商户、支付账号、身份标识、wifi账号都可以是一种实体类型。其中,每一种实体可以对应有多个实体实例,例如自然人这一实体可以包括张三、李明、王念等数据实例。
46.实体之间可以具有关系,例如商户a与商户b有业务往来、商户c是商户a的子商户、张三是商户a的管理者等。实体间关系可以具有多种类型,例如属于关系、雇佣关系、支付关系等。
47.共享知识图谱是指可以为多种业务领域所用的知识图谱,在一些实施例中共享知识图谱可以是两个或以上知识图谱融合得到,其中,共享知识图谱中的数据可以来自一个业务领域,也可以来自多个业务领域。在一些实施例中,所述多个业务领域可以是相关的业务领域,如金融、支付、安全等类似或交叉的业务领域。
48.在一些实施例中,共享知识图谱可以基于对多个业务域(例如保险、支付等)的知识图谱融合得到。具体的,可以获取多个业务域的知识图谱,通过属性标化算子对各知识图谱中的节点属性或边属性进行标准化处理,或者通过实体融合算子将各知识图谱中的相同节点进行融合,又或者通过链指算子在节点之间建立新的关系等进行图谱融合。如图5所示,可以对知识图谱1、知识图谱2进行知识图谱融合,其中机械a和机具a融合为一个实体机具a,得到包括了该2个知识图谱的共享知识图谱3,且2个知识图谱的图谱数据进行了表达统一和数据连通共享。
49.一般来说,共享知识图谱数据覆盖较广,但其规模也较大。例如,节点数量达到千亿级别。目标业务域是指待进行的业务应用所对应的业务域,其可以是参与图谱融合的多个业务域中的一个,也可以是其他业务领域。在业务域中,可以涉及一个或多个实体类型。例如,在支付领域,涉及商户、自然人、支付账号、身份标识、营业执照、手机号等多个实体类型。在一些实施例中,可以基于目标业务域常见的数据处理任务确定其涉及的多个实体类型,进而基于目标业务域涉及的一个或多个实体类型,从共享知识图谱中选取所述若干节点及其边。
50.基于目标业务域涉及的一个或多个实体类型,从共享知识图谱中选取若干节点及其边,是指从共享知识图谱中选取对应目标业务域涉及的实体类型的节点,以及这些节点所关联的边。例如,目标业务域为支付领域,涉及的实体类型包括商户、自然人、支付账号、身份标识、营业执照、手机号,则可以将属于商户的实体(如第一便利店、第二超市等)、属于自然人的实体(如张三、李明、王念等)、属于支付账号的实体(如账号51522、账号51324等)、属于身份标识的实体(如身份标识3123、身份标识3224等)、属于营业执照的实体(如营业执照编号321、营业执照编号311等)、属于手机号的实体(手机号212367、手机号212346等)所对应的节点选取出来,以及将这些节点关联的边也选取出来。
51.在一些实施例中,选取的若干节点和边可以包括目标业务域的多种数据处理任务所涉及或相关的实体类型和实体间关系。例如,在支付领域,数据处理任务可以包括判断多个支付账号是否为同一个商户、判断多个商户是否是同一个经营者等,则选取的若干节点
和边包括前述这些数据处理任务会涉及或相关的实体类型和实体间关系对应的节点和边。
52.在一些实施例中,可以通过各种选取方法将所需的节点和边从共享知识图谱中选取出来。例如,可以基于实体类型、关系信息等检索条件在共享知识图谱中查询,以获得所需的节点和边。
53.在本说明书中,基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取出的若干节点和边构成的知识图谱可以称为目标子图谱。
54.在一些实施例中,得到目标子图谱后,可以获取目标子图谱的宏观特征。宏观特征是指能够反映图谱整体特点或统计信息的特征。在一些实施例中,宏观特征可以包括以下中的一种或多种:实体数量、图谱的度分布、图谱的连通度分布、图谱的数据质量评分等。
55.其中:实体数量是指图谱中所包括实体的数量,例如1万个,实体数量可以反映目标子图谱的数据规模。图谱的度分布是指图谱中各个节点或实体的度的情况,度是指一个节点连接的边的数量,也是指一个节点连接其它节点的数量,度可以包括出度和入度,出度是指从该节点出发指向其他节点的边的数量,入度是指指向该节点的边的数量,度分布可以反映图谱(如目标子图谱)热点分布。图谱的连通度分布是指各个节点的连通程度的分布情况,连通是指节点间有边可达,连通程度较好的区域中的节点的关联越广泛或越充分,连通程度较差的区域中的节点的关联较为单一。图谱的数据质量评分是指图谱的节点和边的数据质量的评分,数据空缺越多和/或数据准确性越低,数据质量评分越低。
56.在一些实施例中,可以基于目标子图谱的宏观特征对目标子图谱进行评估。在一些实施例中,可以基于宏观特征确定目标子图谱是否满足要求,例如实体数量是否大于阈值、图谱的度分布是否满足条件、图谱的连通度分布是否满足条件、图谱的数据质量评分是否大于阈值等等。其中,要求可以根据实际需求或经验确定,本实施例对此不做限制。
57.在一些实施例中,若基于所述宏观特征确定所述目标子图谱不满足要求,则可以对目标子图谱进行修改(例如从共享知识图谱中补充节点、补充边、补充节点对应的实体的相关信息、补充边对应的实体间关系的相关信息等)或者基于新的检索条件重新从所述共享知识图谱中获取目标子图谱,以得到符合要求的目标子图谱。
58.步骤320,对所述目标子图谱进行处理,以提取一种或多种图谱特征。
59.在一些实施例中,该步骤320可以由图谱特征获取模块220执行。
60.图谱特征是指知识图谱中包含的特征信息,可以包括以下中的部分或全部:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征。
61.节点表征向量是指用于表征节点信息(如节点类型、节点属性信息)的向量,边表征向量是指用于表征边信息(如边类型、边属性信息)的向量。在一些实施例中,可以通过图神经网络模型如gnn、gcn、graph lstm等对目标子图谱进行表示学习,以得到各个节点的节点表征向量、各个边的边表征向量。
62.图结构特征是指图谱中的结构信息特征,其可以刻画具有特定含义的结构信息。
63.在一些实施例中,图结构特征可以包括以下中的一种或多种:度信息、pagerank值、点聚类系数、紧密中心性、本征向量中心性、共同邻居指标、katz指标、随机游走相似性等。在一些实施例中,图结构特征可以通过统计、图结构算法、模型计算等方法得到。
64.度信息是指节点的度的信息,度是指一个节点连接的边的数量,也是指一个节点连接其它节点的数量,度可以包括出度和入度,出度是指从该节点出发指向其他节点的边
的数量,入度是指指向该节点的边的数量。
65.pagerank值是用于表征节点在图谱中的重要性的指标。在一些实施例中,节点的pagerank值可以基于节点所连接边的情况、节点所连接的其它节点的pagerank值确定。例如,节点张三连接了边,则可以对该节点的加分,若节点张三未连接边则可以对该节点的减分,以及将节点张三的各个邻居节点的pagerank值加权平均得到节点张三的一个评分,基于邻居节点加权平均得到的评分、加分、减分,可以得到节点张三的综合评分,并作为节点张三的pagerank值。
66.点聚类系数是用于描述一个节点的邻接节点之间的关联程度的指标,例如,用于描述一个节点的邻接节点之间相互连接的程度,邻接节点之间的边越多,点聚类系数越高。作为示例,多位粉丝是明星a的邻接节点,但粉丝之间很少关联或没有关联,明星a这个节点的点聚类系数较低。
67.紧密中心性是用于表示一个节点到其它节点的路径长短的指标,可以用一个节点到其他所有节点的平均最短路径来表征,平均最短路径的值越小,则这个点到其他所有点的路径越短,说明这个节点距离其他所有点节越近。
68.本征向量中心性(或称为特征向量中心性)用于表示在无限长度的随机游走下,一个节点被访问的似然。本征向量中心性可以通过节点的特征向量得分来表征。连接的其它相邻节点特征向量得分更高的节点会比相邻节点特征向量得分更低的节点得分高。特征向量得分较高可以表示该节点与许多自身特征向量得分较高的节点相连接,即越靠近中心。
69.共同邻居指标是指用于表征两个节点之间的潜在关系和相近程度的指标。可以通过各种共同邻居算法得到,例如通过共同邻居算法得到两个节点所共有的邻居节点,进一步基于邻居节点推测两个节点之间的潜在关系和相近程度。
70.katz指标是用于刻画从一个节点出发,有多少条路径可以到达另外一个节点的指标。例如,可以获取一个节点到另一个节点所有路径的集合,对路径集合的路径长度求和,得到一个节点到另一个节点的路径长度(例如一个节点a到另一个节点点b要经过3条边,则节点a到节点b的路径的集合为3条路径,其中一条路径可以认为其长度为1,对路径集合的路径长度求和得到节点a到节点b的路径长度为3),基于路径长度可以得到对应的katz值。
71.随机游走相似性是指基于从一个特定的节点出发沿随机选中的相邻边进行多步游走到达其他节点的随机游走方式,来确定的节点间相似性。在一些实施例中,随机游走相似性可以通过随机游走模型、局部随机游走模型等计算得到。例如,可以通过随机游走模型得到节点的转移概率向量,通过计算两个节点转移概率向量的相对熵可以得到该两个节点的相似性。其中,转移概率是指从一个特定节点出发经过多步随机游走后到达网络其他节点的概率,转移概率向量为从一个特定节点出发经过多步随机游走后到达网络其他所有节点的概率的向量表示。
72.图谱中文本信息的语义特征是指图谱数据中的文本信息(例如节点的属性信息、边的属性信息等)的语义特征。在一些实施例中,可以通过自然语言处理模型、特征提取算法或特征表征算法等各种方法获取图谱中文本信息的语义特征。例如,可以通过将文本信息输入自然语言处理模型如bert、rnn、transformer、esim等,得到对应的文本表征向量,以文本表征向量来表示文本信息的语义特征。
73.图谱规则特征是指各种图谱规则的特征。其中,图谱规则是指节点、边的相关规则
或图谱数据的规律,可以用作业务的推理、决策、校验,也可以作为约束,例如爸爸的爸爸是爷爷,企业只能有一个法人,都是图谱规则。在一些实施例中,可以通过人工挖掘得到图谱规则特征。又例如,可以通过sfe等规则挖掘算法得到图谱规则特征。
74.通过本实施例,可以针对目标业务域常见的各种数据处理任务,统一得到多种和多样化的图谱特征,其中,多种图谱特征如图结构特征、图谱规则特征、语义特征可以为图谱的特征信息提供特定的含义,令图谱特征更加具象化和具有可解释性。
75.在一些实施例中,目标子图谱中可以包括多种不同类型的实体(如人、支付账号、wifi账号等)对应的多种不同类型的节点和多种不同类型的实体间关系(如属于关系、雇佣关系、支付关系等)对应的多种不同类型的边,即目标子图谱为异质图谱。
76.在一些实施例中,目标子图谱为异质图谱时,可以将目标子图谱分解成多个同质图谱,对同质图谱分别进行处理,以提取一种或多种图谱特征。关于将目标子图谱分解成多个同质图谱以提取一种或多种图谱特征的更多具体内容可参见图4及其相关说明。
77.步骤330,将所述图谱特征提供给目标业务域的目标数据处理任务;其中,所述图谱特征用于与任务定制化特征一同作为所述目标数据处理任务的输入特征,以实现目标数据处理任务。
78.在一些实施例中,该步骤330可以由任务处理模块230执行。
79.目标数据处理任务是指待进行的数据处理任务,可以包括业务应用的各种数据处理任务。
80.在一些实施例中,目标数据处理任务可以为实体分类、实体间关系预测、实体集合挖掘等。
81.实体分类是指对实体进行分类(如二分类、多分类等)的任务。例如,对一个实体xx科技公司,确定其对应的风险类别。
82.实体间关系预测是指对实体间的关联关系进行预测的任务。例如,对于实体张三和多家企业,预测张三与企业之间的关联关系,以得到张三所就职的企业是哪一家。又例如,对于多个支付账号,预测多个支付账号之间的关联关系,以确定多个支付账号是否属于同一个商户。
83.实体集合挖掘是指对多个实体构成的实体集合进行挖掘,进而了解其团体情况、团体内各实体的角色等相关团体信息。例如,对于多个自然人构成的实体集合,判定该多个人是否为一个犯罪团伙,以及确定该多个人中,哪些人是团伙的核心成员。
84.在一些实施例中,可以通过各种任务处理方法来实现目标数据处理任务,例如图谱推理方法、模型预测方法等。本实施例对此不做限制。
85.在一些实施例中,将得到的一种或多种图谱特征提供给目标业务域,目标业务方可以在图谱特征中,选择可以用于目标数据处理任务的一种或多种图谱特征(例如,节点表征向量和边表征向量,或者一种或多种图结构特征,或者节点表征向量、边表征向量和图谱规则特征,或者节点表征向量、边表征向量和语义特征),将选择的图谱特征作为目标数据处理任务的输入特征,以实现目标数据处理任务,得到处理任务结果。
86.在一些实施例中,可以将选择的图谱特征与任务定制化特征一起作为目标数据处理任务的输入特征,以实现目标数据处理任务,得到处理任务结果。
87.在目标业务域,图谱特征作为一种输入补充或背景知识被使用,与之相对应的特
征是任务定制化特征。任务定制化特征是指基于目标数据处理任务,对目标业务域已有的数据进行针对性的特征提取得到的,一般来说,其与目标数据处理任务相关性更强或者与处理结果的关联具有更加直观的可解释性。在一些实施例中,可以将除了来自知识图谱平台提供的图谱特征以外的目标数据处理任务的输入特征,称为任务定制化特征。或者说,任务定制化特征一般产生于目标业务域,或者由目标业务方根据目标数据处理任务提取。在某种程度上可以理解为,不同的目标数据处理任务具有不同的任务定制化特征,但是可以共享作为辅助的图谱特征。关于任务定制化特征的示例性说明还可以参见图1的相关内容,在此不再赘述。
88.作为示例,目标数据处理任务为判断多个支付账号是否属于同一个商户,可以从得到的多种图谱特征中选取支付账号的图结构特征(例如,反映向所述支付账号转账的终端设备在转账时是否连接有相同的wifi等媒介)、图谱规则特征和语义特征,将选取的图谱特征与任务定制化特征一起作为目标数据处理任务的输入特征,以判断多个支付账号是否属于同一个商户。又例如,对于文本中分词的类型标注,除了使用分词的语义特征(即任务定制化特征)外,还可以获取同义词图谱的分词对应的节点表征向量,将其作为辅助信息与语义特征一同作为分词类型标注的输入特征。通过本实施例,通过构建与目标业务域相关的目标子图谱,并产出多种图谱特征,可以为该业务域中具体的处理任务带来增益,更加高效和效果更好地完成数据处理任务,得到更准确的任务结果。并且,基于具有特定含义的图谱特征如图结构特征、图谱规则特征和语义特征,可以为各种数据信息对数据处理任务结果的影响或作用提供解释,可以进一步提高任务的实现效果(如预测任务、识别任务等的准确性)。
89.在一些实施例中,目标数据处理任务的实现还可以包括基于目标数据处理任务从共享知识图谱中召回若干候选节点,以对候选节点进行目标数据处理任务,得到针对候选节点的处理任务结果。例如,对于需要预测张三在哪一家公司任职的目标数据处理任务,为了减小数据处理压力,可以从共享知识图谱中基于一定的原则选出张三可能就职的多个候选公司节点。之后,可以获取张三的个人信息以及各候选节点的相关特征作为任务定制化特征,从图谱特征中获取自然人与公司节点间的图结构特征作为辅助信息,进而从多个候选公司节点中预测出张三所在的公司。换句话说,候选节点可以是目标数据处理任务的处理对象。又例如,可以从共享知识图谱中获取多组节点,进而得到多个候选节点集合,以便预测这些候选节点集合的性质。在一些实施例中,召回候选节点可以由召回模块240执行。
90.在一些实施例中,可以基于检索条件,在共享知识图谱中查询以获得候选节点。例如,召回模块240可以基于张三的居住地信息从共享知识图谱中查询相同地理信息的多个公司节点作为候选节点。又例如,召回模块240可以从共享知识图谱中查询点聚类系数较大的多组节点,进而得到多个候选节点集合。
91.在一些实施例中,还可以基于目标向量通过向量检索从共享知识图谱中获取所述候选节点。例如,目标数据处理任务为判断多个支付账号是否属于同一个商户,可以确定一个目标支付账户(如目标商户的支付账户),对目标支付账户生成对应的特征表示向量即目标向量,将该目标向量与知识图谱中各节点的节点表征向量进行匹配,得到与目标向量匹配或相似(如向量距离小于设定阈值)的节点表征向量,并将匹配或相似的节点表征向量对应的支付账户节点作为候选节点。
92.在一些实施例中,可以通过对图谱的表示学习得到图谱中各节点(包括支付账户节点)的节点表征向量,由于节点表征向量会融合各节点邻居节点或边的信息,以及图结构特征等多种图谱特征,可以提升匹配的准确性和覆盖率,进而提升候选节点召回的准确性和覆盖率。同时,基于向量检索可以大大缩短召回时间,进一步提高工作效率。
93.图4是根据本说明书一些实施例所示的一种目标子图谱的处理方法的示意图。
94.在一些实施例中,方法400可以由处理设备120实现。在一些实施例中,方法400可以由知识图谱处理系统200中的图谱分解单元221和同质图谱特征获取单元222实现。
95.如图4所示,该方法400可以包括:
96.步骤410,将目标子图谱分解成多个同质图谱。
97.在一些实施例中,该步骤410可以由图谱分解单元221执行。
98.在一些实施例中,目标子图谱为异质图谱,可以将目标子图谱分解成多个同质图谱,其中,同质图谱是指只包括一种实体类型和一种关系类型的知识图谱。例如,目标子图谱为包括人、支付账号、wifi账号这几种实体类型和这几种实体间的多种类型关系的异质图谱a,可以将该目标子图谱a分解为如下几个同质图谱:只包括人以及人之间人际关系的同质图谱(可以称为社交图谱)b、只包括支付账号以及支付账号之间支付关系的同质图谱(可以称为支付图谱)c、只包括wifi账号以及wifi账号之间绑定关系的同质图谱(可以称为使用介质图谱)d。
99.在一些实施例中,可以通过各种图谱分解方法或图谱提取方法来将作为异质图谱的目标子图谱分解成多个同质图谱。例如,可以通过对属于同一实体类型的节点和属于同一关系类型的边进行提取,进而构建得到对应的同质图谱。
100.步骤420,对同质图谱进行处理,以提取一种或多种图谱特征。
101.在一些实施例中,该步骤420可以由同质图谱特征获取单元222执行。
102.在一些实施例中,可以对分解得到的同质图谱进行图谱数据处理,以提取得到多种图谱特征。关于对图谱进行图谱数据处理以得到多种图谱特征的方法的更多内容可以参见步骤320及其相关描述,此处不再赘述。对于多个不同的同质图谱,可以通过对多个同质图谱分别进行图谱数据处理,得到对应的多套图谱特征(一套图谱特征可以包括同质图谱的一种或多种图谱特征)。
103.对于不同的同质图谱,其可以具有不同的图结构含义(如人的社交关系结构、支付账号的支付关系结构、wifi账号的所属关系结构),对应的图谱特征即可以表征不同的图结构含义。通过本实施例,对于作为异质图谱的目标子图谱,可以得到更加详细和具象化,且具有多种不同结构含义的多套图谱特征。
104.应当注意的是,上述有关流程和方法的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程和方法进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。例如,对流程和方法中的步骤顺序进行改变,对不同流程和方法中的步骤进行组合等。
105.本说明书实施例还提供一种知识图谱处理装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现知识图谱处理方法。所述方法可以包括:基于目标业务域涉及的一个或多个实体类型从共享知识图谱中选取若干节点及其边,得到目标子图谱;所述共享知识
图谱基于多个业务域的知识图谱融合得到;对所述目标子图谱进行处理,以提取一种或多种图谱特征,所述图谱特征包括以下中的部分或全部:节点表征向量、边表征向量、图结构特征、图谱中文本信息的语义特征、图谱规则特征;将所述图谱特征提供给目标业务域的目标数据处理任务;其中,所述图谱特征用于与任务定制化特征一同作为所述目标数据处理任务的输入特征,以实现目标数据处理任务。
106.本说明书实施例可能带来的有益效果包括但不限于:(1)在基于知识图谱进行数据处理任务时,利用多业务域数据融合的共享知识图谱以使用更完善的知识图谱数据来进行数据处理任务,并更加有效地利用知识图谱数据包括的各种信息,得到多种和多样化的图谱特征,对于不同的业务应用,可以从中选择所需的图谱特征以利用更完善的特征数据来实现目标数据处理任务,更加高效,且可以大幅度提升业务任务或目标的实现效果;(2)基于从共享知识图谱中确定的目标子图谱,得到多种和多样化的具有特定含义的多种图谱特征如图结构特征、图谱规则特征、语义特征,可以为各种数据信息在业务应用结果中的影响或作用提供解释,可以有效地帮助进一步提高业务任务或目标的实现效果(如预测任务、识别任务等的准确性)。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
107.上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
108.同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
109.此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
110.计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、rf、或类似介质,或任何上述介质的组合。
111.本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编
写,包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c 、c#、vb.net、python等,常规程序化编程语言如c语言、visual basic、fortran2003、perl、cobol2002、php、abap,动态编程语言如python、ruby和groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(lan)或广域网(wan),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(saas)。
112.此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
113.同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
114.一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有
±
20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
115.针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
116.最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献