一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

知识图谱的构建方法、装置、电子设备及介质与流程

2022-05-06 10:35:59 来源:中国专利 TAG:


1.本技术中涉及数据处理技术,尤其是一种知识图谱的构建方法、装置、电子设备及介质。


背景技术:

2.大数据时代的崛起,以及人工智能的研究重心从感知智能过渡到认知智能的事实,推进了知识图谱的热兴。
3.其中,知识图谱是用图模型描述知识和建模关系的语义网络,作为认知智能的底层支撑,行业知识图谱对于ai赋能传统行业升级具有重大意义,同时在传统行业落地、产业智能化中发挥着重要的作用。
4.然而,现有的行业图谱构建方法粒度较细,这也导致覆盖面较窄,无法处理多场景的企业业务。


技术实现要素:

5.本技术实施例提供一种知识图谱的构建方法、装置、电子设备及介质。用以解决相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
6.其中,根据本技术实施例的一个方面,提供的一种知识图谱的构建方法,包括:构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;将所述样本实体集合输入到所述本体图中,得到初始知识图谱;将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
7.可选地,在基于本技术上述方法的另一个实施例中,所述构建本体图,包括:构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,构建用于所述各个企业联系方式的子图谱层;以及,构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
8.可选地,在基于本技术上述方法的另一个实施例中,所述利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,包括:若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
9.可选地,在基于本技术上述方法的另一个实施例中,所述将所述样本实体集合输入到所述本体图中,得到初始知识图谱,包括:根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
10.可选地,在基于本技术上述方法的另一个实施例中,在所述得到所述初始知识图谱之后,还包括:对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
11.可选地,在基于本技术上述方法的另一个实施例中,所述将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,包括:对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
12.可选地,在基于本技术上述方法的另一个实施例中,所述对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱,包括:获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
13.其中,根据本技术实施例的又一个方面,提供的一种知识图谱的构建装置,其特征在于,包括:构建模块,被配置为构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;生成模块,被配置为利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;
输入模块,被配置为将所述样本实体集合输入到所述本体图中,得到初始知识图谱;所述生成模块,被配置为将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
14.根据本技术实施例的又一个方面,提供的一种电子设备,包括:存储器,用于存储可执行指令;以及显示器,用于与所述存储器以执行所述可执行指令从而完成上述任一所述知识图谱的构建方法的操作。
15.根据本技术实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述知识图谱的构建方法的操作。
16.本技术中,可以构建一个包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图,并利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本技术的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
17.下面通过附图和实施例,对本技术的技术方案做进一步的详细描述。
附图说明
18.构成说明书的一部分的附图描述了本技术的实施例,并且连同描述一起用于解释本技术的原理。
19.参照附图,根据下面的详细描述,可以更加清楚地理解本技术,其中:图1为本技术提出的一种知识图谱的构建方法示意图;图2-图3为本技术提出的知识图谱的整体架构示意图;图4为本技术提出的一种知识图谱的构建电子装置的结构示意图;图5为本技术提出的一种知识图谱的构建电子设备的结构示意图。
具体实施方式
20.现在将参照附图来详细描述本技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本技术的范围。
21.同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
22.以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本技术及其应用或使用的任何限制。
23.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适
当情况下,所述技术、方法和设备应当被视为说明书的一部分。
24.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
25.另外,本技术各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本技术要求的保护范围之内。
26.需要说明的是,本技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
27.下面结合图1-图3来描述根据本技术示例性实施方式的用于进行知识图谱的构建方法。需要注意的是,下述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。
28.本技术还提出一种知识图谱的构建方法、装置、电子设备及介质。
29.图1示意性地示出了根据本技术实施方式的一种知识图谱的构建方法的流程示意图。如图1所示,该方法包括:s101构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图。
30.s102,利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种。
31.s103,将样本实体集合输入到本体图中,得到初始知识图谱。
32.s104,将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
33.相关技术中,大数据时代的崛起,以及人工智能的研究重心从感知智能过渡到认知智能的事实,推进了知识图谱的热兴。知识图谱是用图模型描述知识和建模关系的语义网络,作为认知智能的底层支撑,行业知识图谱对于ai赋能传统行业升级具有重大意义,同时在传统行业落地、产业智能化中发挥着重要的作用。
34.其中,知识图谱可以将海量结构化和非结构化的数据转化为网状知识结构,该网络中结点表示实体(entity)或概念(concept),边代表实体、概念之间的各种现实语义关系,这一过程实现了大数据到知识图谱实体、概念、关系的映射,转化后的结构化知识赋予机器理解数据的能力,基于此机器可以学习指定行业的高精度知识。
35.另外,知识图谱中的关系蕴含着巨大的价值,结合逻辑规则、统计学、深度学习,可赋予机器认知智能的“推理”能力,推理出实体或概念之间的隐含关系。根据知识图谱的覆盖面划分,包括通用知识图谱和行业知识图谱。行业知识图谱起步较晚,对准确度要求较高,有严格的具有行业意义的数据模式,模式层的构建需要大量行业知识,因此构建初期需要行业内的专家协助,大部分领域内的行业知识图谱目前都属于探索阶段。
36.目前相关学者沉淀的技术大多或是针对具体的某一个领域,例如包括针对金融领域构建知识图谱,或是没有考虑领域知识特性的粗粒度方法,例如包括提供了一个泛化的知识图谱构建方法,无法支撑知识图谱在赋能传统行业的业务落地。
37.进一步的,如图2-图3所示,首先,本技术中可以对全行业图谱的模式层进行本体建模,得到本体图。其次,基于本体图,以数据驱动的方式,集合多个实体识别模型针对多数据源进行实体抽取完成实体扩展,同时得到实体的并列关系和上下位关系。然后,利用实体分解和实体合并技术完成多源知识融合。
38.最后,则需要通过舍弃置信度较低的知识来保障图谱质量,此过程为质量评估阶段。最后得到初始知识图谱,并在后续基于初始知识图谱可以进行图计算挖掘新关系,完成图谱的知识推理与挖掘。对于推理的新关系再次进行质量评估,使用筛选的质量较高关系来增量更新初始知识图谱,最后得到目标知识图谱。
39.本技术中,可以构建一个包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图,并利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本技术的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
40.可选地,在基于本技术上述方法的另一个实施例中,所述构建本体图,包括:构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,构建用于所述各个企业联系方式的子图谱层;以及,构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
41.可选地,在基于本技术上述方法的另一个实施例中,所述利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,包括:若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
42.可选地,在基于本技术上述方法的另一个实施例中,所述将所述样本实体集合输入到所述本体图中,得到初始知识图谱,包括:根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
43.可选地,在基于本技术上述方法的另一个实施例中,在所述得到所述初始知识图谱之后,还包括:对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
44.可选地,在基于本技术上述方法的另一个实施例中,所述将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,包括:对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
45.可选地,在基于本技术上述方法的另一个实施例中,所述对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱,包括:获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
46.进一步的,对于本技术中的构建本体图来说,可以包括如下步骤:一种方式中,本技术对本体图建模包括四部分,分别是:招投标联系人子图谱层的本体构建、招投标上下游子图谱层的本体构建、企业联系方式子图谱层的本体构建、以产业链为导向的行业-企业-产品子图谱层的本体构建。
47.其中,对于招投标联系人子图谱层的本体构建来说,其可以包括企业/组织类本体三个:即招标企业、招标组织、代理机构。以及,包括人本体类三个:即招标项目负责人、招标联系人、代理联系人。以及,包括企业属性两个:电话、邮箱,其中,属性附属于招标项目负责人、招标联系人和代理联系人三个本体。需要说明的是,该子图谱包含一类关系:contact_in表示此联系用户在此企业任职,关联了人本体类和企业/组织本体类。
48.其中,对于招投标上下游子图谱本体构建来说,其可以包括招标企业/组织、代理机构、投标企业、中标企业四类本体。其中四类关系分别是:投标企业指向招标企业/组织的:tb关系表示投标企业曾经参与过该招标企业/组织的招标项目、中标企业指向招标企业/组织的:tw关系表示该中标企业曾经参与过该招标企业/组织的招标项目并中标、代理机构指向招标企业/组织的:ta关系表示该代理机构曾经代理过该招标企业/组织的招标项目、投标企业之间的:th关系表示两个投标企业共同投标过同一个招标企业/组织的招标项目。
49.其中,对于企业联系方式子图谱构建来说,其可以包括上游企业本体、中游企业本体、下游企业本体、招标企业/组织本体、代理机构本体、投标企业本体、中标企业本体,每个本体都有五个属性分别是电话、邮箱、qq、wechat微信、website官网。
50.其中,对于以产业链导向的行业-企业-产品跨三领域的子图谱构建来说,其中企
业类本体根据产业链划分为上游企业本体、中游企业本体、下游企业本体,产品类本体相应地划分为上游产品本体、中游产品本体、下游产品本体,行业类本体有上游行业、中游行业、下游行业。其中关系包括四类,分别是:上游企业本体指向中游企业本体、中游企业本体指向下游企业本体的:com_up_down关系,表示企业在产业链中的上下游关系;上游企业指向上游产品、中游企业指向中游产品、下游企业指向下游产品的:product关系,用来描述企业与企业经营范围的产品的事实;上游产品指向中游产品、中游产品指向下游产品的:material关系,表示原材料关系,例如产品a指向产品b,表示a是b的原材料;上游产品指向上游行业、中游产品指向中游行业、下游产品指向下游行业的:pro_indu关系,描述特定产品属于特定行业的事实;上游企业指向上游行业、中游企业指向中游行业、下游企业指向下游行业的:com_pro关系,表示该企业属于被指向行业。
51.进一步的,对于本技术提出的利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合的过程中,可以包括:首先,本技术中的多数据源可以为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种。进一步的,对于本技术提出的利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合的过程中,可以针对不同的数据源使用不同的模型抽取实体。包括以下四部分的其中至少一种:第一部分:对招标数据使用企业实体抽取模型抽取招标企业、投标企业、中标企业、代理机构,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,进而得到该样本实体集合。
52.第二部分:对中标数据使用和上述一致的企业实体抽取模型抽取招标企业和代理机构,以及和上述一致的联系人信息抽取模型抽取代理机构联系人、招标项目负责人、招标联系人,进而得到该样本实体集合。
53.第三部分:若数据源对应于企业信息的联系信息数据,例如企业官网、电商平台等,使用企业联系信息抽取模型,抽取企业实体,以及该企业对应的电话、邮箱、qq、wechat微信、website网站等属性,进而得到该样本实体集合。
54.第四部分:若数据源对应于企业信息的企业经营范围数据,企业经营范围数据例如为企业官网、百度百科简介、各电商平台、垂直行业站点、财报等,使用深度学习模型抽取包含经营范围的句子然后抽取句子中包含的产品实体,进而得到该样本实体集合。
55.进一步的,若确定实体抽取完成,则可以根据建模的本体结构,给相应的实体指定本体结构中定义好的关系,以得到一个初始知识图谱。
56.一种方式中,对于得到初始知识图谱之后,需要对构建好的知识图谱进行质量评估,通过舍弃置信度较低的知识来保证知识图谱的质量。
57.进一步的,本技术对知识图谱进行质量评估的过程主要可以为以下三类:实体信息错误的上下位关系、实体信息属性有偏差、实体信息关系之间存在逻辑错误。
58.举例来说,比如企业实体a不会出现指向自己的投标关系环、如果a代理b,则不可
能存在b代理a的事实、a和b都与电话p产生关系,则很大概率有一个关系不是事实。质量评估过程除了利用规则推理方法,还可以通过各个实体关系的置信度,来舍弃其中置信度较低的关系,保留置信度高的关系。
59.另外,由于行业知识图谱需要支撑数据决策等场景,所以对知识图谱的质量有较高要求,因此质量评估阶段在行业知识图谱构建过程中承担着较重要的角色,每经历一次图谱数据扩充都需要进行质量评估,严格把控图谱的质量才能保证知识图谱在基于大数据的智能决策分析、基于知识图谱的ai检索、智能推荐等行业应用中落地,真正实现为传统行业赋能。
60.一种方式中,本技术在将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱的过程中,可以包括对初始知识图谱中的实体信息进行实体分解以及实体合并,具体为:其中,实体分解的场景是一个命名实体在不同的上下文中表达不同的含义,利用实体分解技术可以将同名不同义的实体理解为正确的含义链接到正确的实体,例如“苹果”可以表示一种水果,也可以表示科技公司,实体分解可以根据上下文的含义将命名实体链接到正确的实体。
61.实体合并是指将文本中具有共指关系的实体聚合成一个实体,比如“十字对开冰箱”、“双开四门冰箱”、“十字四门冰箱”共同指代“十字对开四门冰箱”,需要利用规则及相应的实体合并算法将“十字对开冰箱”、“双开四门冰箱”、“十字四门冰箱”合并为实体“十字对开四门冰箱”。这样可以将来自多个数据源的企业实体、产品实体融合。
62.一种方式中,本技术在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱的过程中,可以包括:获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
63.具体的,比如存在企业实体a指向企业实体c的tb(投标)关系、企业实体b指向企业实体c的tb(投标)关系,那么可推理出企业a和企业b之间存在th(同行)关系的事实。比如存在企业实体a指向企业实体b的tw(中标)关系,则可以推理出企业实体a指向企业实体b的tb(投标)关系这一事实。
64.另外,还可以利用基于知识图谱表示学习的推理方法,如transe,还可以利用图模型进行关系补全,如gcn、rgcn,这类方法是将实体和关系都表示为向量,通过向量之间的计算代替图的遍历和搜索来预测两实体之间存在的关系(即预测三元组的存在),这类方法的优势是实体和关系的向量表示包含了实体原有的语义信息,同时利用图谱结构完成知识推理与挖掘。
65.通过应用本技术的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
66.可选的,在本技术的另外一种实施方式中,如图4所示,本技术还提供一种知识图谱的构建装置。其中包括:
构建模块201,被配置为构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;生成模块202,被配置为利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;输入模块203,被配置为将所述样本实体集合输入到所述本体图中,得到初始知识图谱;所述生成模块202,被配置为将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。
67.本技术中,可以构建本体图之后,利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合;将样本实体集合输入到本体图中,得到初始知识图谱;将初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。通过应用本技术的技术方案,可以构建一个能够应用于所有传统制造业的知识图谱,其中包括招标数据、中标数据、联系信息数据以及企业经营范围数据的图谱数据,从而避免了相关技术中存在的,现有的行业图谱构建方法粒度较细以及覆盖面较窄进而导致识别准确率不高的问题。
68.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:构建用于所述反映用户类本体与对应企业类本体之间关联关系的子图谱层,其中所述用户类本体包括企业招投标联系人,所述企业类本体包括招标企业、招标组织以及代理机构;以及,构建用于所述反映各个招标企业类本体之间关联关系的子图谱层,所述招标企业类本体包括招标企业/组织、代理机构、投标企业以及中标企业;以及,构建用于所述各个企业联系方式的子图谱层;以及,构建用于所述企业类本体、行业类本体与对应产品类本体之间关联关系的子图谱层,所述产品类本体包括上游产品本体、中游产品本体以及下游产品本体,所述行业类本体包括上游行业、中游行业以及下游行业。
69.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:若所述数据源对应于所述企业信息的招标数据以及中标数据,利用企业实体抽取模型抽取所述数据源中包括的招标企业、投标企业、中标企业、代理机构;以及,使用联系人信息抽取模型抽取招标联系用户、招标项目负责用户、代理机构联系用户,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的企业经营范围数据,利用企业联系信息抽取模型抽取所述数据源中包括的企业实体,以及该企业对应的联系方式,得到所述样本实体集合;和/或,若所述数据源对应于所述企业信息的联系信息数据,利用深度学习模型抽取所述数据源中包括的产品实体,得到所述样本实体集合。
70.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:根据所述本体图的本体结构,将所述样本实体集合中的样本数据输入至所述本体图对应的结构中,得到所述初始知识图谱。
71.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:对所述初始知识图谱进行质量评估,并在通过所述质量评估后,将所述初始知识图谱中的实体信息进行知识融合,其中所述质量评估对应于确定实体信息间的关系以及实体信息属性。
72.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:对所述初始知识图谱中的实体信息进行实体分解以及实体合并,得到所述待挖掘知识图谱,其中所述实体分解用于处理筛选出来的名称相同但含义不同的实体信息,所述实体合并用于处理筛选出来的含义相同但名称不同的实体信息。
73.在本技术的另外一种实施方式中,构建模块201,被配置执行的步骤包括:获取各个实体间的原有关系,并利用图模型将所述各个实体以及所述各个实体间的原有关系进行向量转换,实现对所述待挖掘知识图谱进行实体相互关系挖掘,得到所述目标知识图谱。
74.图5是根据一示例性实施例示出的一种电子设备的逻辑结构框图。例如,电子设备300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
75.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备处理器执行以完成上述知识图谱的构建方法,该方法包括:构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;将所述样本实体集合输入到所述本体图中,得到初始知识图谱;将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
76.在示例性实施例中,还提供了一种应用程序/计算机程序产品,包括一条或多条指令,该一条或多条指令可以由电子设备的处理器执行,以完成上述知识图谱的构建方法,该方法包括:构建本体图,包括:构建包含企业招投标联系人、企业上下游、企业联系方式和以产业链为导向的行业-企业-产品的子图谱层的本体图;利用多个实体识别模型针对多数据源进行实体抽取,得到样本实体集合,所述多数据源为企业信息对应的招标数据、中标数据、联系信息数据以及企业经营范围数据的至少一种;将所述样本实体集合输入到所述本体图中,得到初始知识图谱;将所述初始知识图谱中的实体信息进行知识融合,得到待挖掘知识图谱,并在对所述待挖掘知识图谱进行实体相互关系挖掘后,得到用于处理企业业务的目标知识图谱。可选地,上述指令还可以由电子设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。
77.本领域技术人员可以理解,示意图5仅仅是电子设备300的示例,并不构成对电子设备300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备300还可以包括输入输出设备、网络接入设备、总线等。
78.所称处理器302可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器302也可以是任何常规的处理器等,处理器302是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分。
79.存储器301可用于存储计算机可读指令,处理器302通过运行或执行存储在存储器301内的计算机可读指令或模块,以及调用存储在存储器301内的数据,实现电子设备300的各种功能。存储器301可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备300的使用所创建的数据等。此外,存储器301可以包括硬盘、内存、插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)或其他非易失性/易失性存储器件。
80.电子设备300集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,也可以通过计算机可读指令来指令相关的硬件来完成,的计算机可读指令可存储于一计算机可读存储介质中,该计算机可读指令在被处理器执行时,可实现上述各个方法实施例的步骤。
81.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求指出。
82.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献