企业知识图谱的生成方法、装置、设备和存储介质与流程

2022-04-24 18:34:38 来源：中国专利 TAG：

1.本公开的实施例一般涉及信息处理技术领域，并且更具体地，涉及企业知识图谱的生成方法、设备和存储介质。

背景技术：

2.随着网络的广泛应用，各领域的网络数据正在处于飞速增长中。如何更方便地在海量的网络数据中获取有价值的数据和信息，已成为各领域人员都需要面对的问题。例如，在企业知识领域中，技术人员往往需要利用企业相关的知识数据来查找特定应对策略。尤其是，在企业相关的信息对象之间的关系中，往往也存在技术人员需要了解的信息。
3.在当前的企业知识管理中，基本都是以数据库技术进行存储，以固定的数据处理模型进行分析提取，以人为定义的方式进行描述和交换。申请人在实现本公开技术方案的工程中发现现有的企业知识管理存在以下问题：结构固定无法满足通用的自然语言描述的信息分析；固定的格式导致交换时无法互相兼容；无法使用通用信息处理技术，从而降低了企业信息数据库的通用性和广泛性。

技术实现要素：

4.根据本公开的实施例，提供了一种满足提高企业信息数据库的通用性和广泛性的需求的方案。
5.在本公开的第一方面，提供了一种企业知识图谱的生成方法，所述方法包括获取企业数据，所述企业数据包括描述企业业务过程、管理过程、公文过程的初始信息；利用预先训练的企业数据模型对所述企业数据进行处理，生成实体关系组，所述实体关系组包括从所述企业数据中提取出企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系；对所述实体关系组进行融合，生成企业知识图谱。
6.在本公开的第三方面，提供了一种企业知识图谱的生成装置，所述装置包括原始数据获取模块，用于获取企业数据，所述企业数据包括描述企业业务过程、管理过程、公文过程的初始信息；数据处理模块，用于利用企业数据模型对所述企业数据进行处理，生成实体关系组，所述实体关系组包括从所述企业数据中提取出企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系；生成模块，用于对所述实体关系组进行融合，生成企业知识图谱。
7.在本公开的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。
8.在本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。
9.应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
10.通过本公开的实施例的企业知识图谱的生成方法生成的知识图谱，能够实现在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。
附图说明
11.结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：
12.图1示出了本公开实施例的企业知识图谱的生成方法的流程图；
13.图2示出了本公开实施例的企业知识图谱的生成方法的流程图；
14.图3示出了本公开实施例的企业知识图谱的生成装置的框图；
15.图4示出了本公开实施例的企业知识图谱的生成设备的结构示意图。
具体实施方式
16.为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。
17.另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a 和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。
18.本公开实施例中提及的知识图谱(knowledge graph)，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
19.本公开的实施例中，通过采用神经网络模型对企业数据进行处理，生成实体关系组，并对实体关系组进行融合，生成企业知识图谱，能够实现知识图谱在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。
20.具体地，如图1所示，为本公开实施例的企业知识图谱的生成方法的流程图。从图1中可以看出，本实施例的方法，可以包括以下步骤：
21.s101：获取企业数据，所述企业数据包括描述企业业务过程、管理过程、公文过程的初始信息。
22.在本实施例中，在对自然语言描述的企业知识进行处理时，首先需要获取企业数据，所述企业数据为描述企业知识的初始信息。
23.在一些实施例中，所述企业数据包括文档(公文、表单、扫描文件)、邮件、新闻页、用户显示界面等数据。对于非自然语言描述的企业数据，需要首先进行转换，将其转换为自然语言描述的企业数据，例如，对扫描文件进行ocr识别，对网页进行主题提取等。
24.s102：利用企业数据模型对所述企业数据进行处理，生成实体关系组，所述实体关系组包括从所述企业数据中提取出企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系。
25.在实际应用中，由于信息的不确定性和自然语言描述的不准确性，使得企业数据难以采用自动化处理方式。同时，由于可能是从不同的数据来源处收集到企业相关的数据，则在所收集的企业相关的数据中，通常会存在相同含义的企业信息具有不同的描述。因此，可以通过归一化处理对企业相关的收集数据进行整合，从中提取出用于构建企业知识图谱的初始信息，其中，该初始信息可以包含企业信息中的实体以及实体之间的关系。
26.为了解决这个问题，本公开实施例利用自然语言处理技术，对企业数据进行处理，自动化地提取出有价值的企业数据以进行描述和信息交换。
27.具体地，可以利用企业数据模型对所述企业数据进行处理。本实施例的企业数据模型是一个预先训练好的神经网络模型，该模型通过以下方式训练得到：
28.获取大量历史企业数据，标识出所述训练样本的企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系，生成训练样本；
29.然后将所述训练样本输入到预先建立的神经网络模型，对所述训练样本进行学习，输出训练样本中的企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系，当输出结果与标识结果的相似度大于预设阈值时，对神经网络的模型的参数进行修正；
30.重复上述过程，直到当输出结果与标识结果的相似度小于所述预设阈值。
31.通过预先训练的企业数据模型对所述企业数据进行处理，提取出企业数据生成实体关系组，所述实体关系组包括从所述企业数据中提取出的企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系。
32.以“面向生产环境的情报威胁处理工具包”为例，首先需要切词，将整个句子切分为多个词组，然后提取每个词组的词性，最后再提取词组之间的关系。上面的句子可以切词为“面向/生产环境/的/情报/威胁/处理/工具包”，“面向”是动词，“生产环境”是名词，“的”是连词，“情报”是名词，“威胁”是动词，“处理”是动词，“工具包”是名词，“面向”和“生产环境”之间是动宾关系，“面向”和“的”之间是右附加关系，“面向”和“情报”之间是定中关系，“情报”和“威胁”之间是主谓关系，“威胁”和“处理”是动宾关系，“处理”和“工具包”是动宾关系。则企业知识实体即为切词后的各词组，企业知识实体的属性即为各词组的词性，企业知识实体间的关联关系即为词组间的逻辑关系。
33.s103：对所述实体关系组进行融合，生成企业知识图谱。
34.在利用企业数据模型对所述企业数据进行处理，生成实体关系组后，进而将生成的实体关系组进行融合，生成企业知识图谱。
35.本公开的实施例中，通过采用神经网络模型对企业数据进行处理，生成实体关系组，并对实体关系组进行融合，生成企业知识图谱，能够实现知识图谱在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。
36.作为本公开的一个可选实施例，在上述实施例中，所述企业数据包括结构化数据、半结构化数据和非结构化数据。例如，语序错误或者语句中带有标点符合，则一般认为是半结构化数据，而对于乱码以及不规范用于则认为是非结构化数据，而对于不存在上述表述问题的语句则认为是结构化数据，因此，利用企业数据模型对所述企业数据进行处理时，只需要对所述企业数据中的半结构化数据和非结构化数据进行处理。
37.因此，在利用企业数据模型对所述企业数据进行处理之前，还应当对所述企业数
据进行结构化识别，将所述企业数据划分为结构化数据、半结构化数据和非结构化数据。其中，对所述企业数据进行结构化识别，也可以利用神经网络模型实现。
38.如图2所示，为本公开实施例的企业知识图谱的生成方法的流程图。本实施例的方法，可以包括以下步骤：
39.s201：获取企业数据，所述企业数据包括描述企业业务过程、管理过程、公文过程的初始信息。
40.s202：对所述企业数据进行结构化识别，将所述企业数据划分为结构化数据、半结构化数据和非结构化数据。
41.s203：利用企业数据模型对所述企业数据中的半结构化数据和非结构化数据进行处理，生成实体关系组。
42.上述步骤的具体实现过程可以参见实施例一，在此不再赘述。
43.s204：对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。
44.在本实施例中，对所述实体关系组进行融合，生成企业知识图谱，可以具体为：
45.对所述实体关系组进行聚类分析，将同一聚类中具有不同描述信息的实体关系组进行合并，将不同聚类中具有相同描述信息的实体关系组区分为不同的实体关系组。根据同一聚类中的实体关系组进行关系推断，建立同一聚类中的实体关系组之间的关联关系。并对融合后得到的知识图谱进行质量评估，并将评估合格后的知识图谱加入到知识库。
46.s205：对知识库中的原知识图谱进行更新和扩展，建立新知识图谱和原知识图谱之间的关联关系，并将满足预设条件的新知识图谱和原知识图谱进行融合。
47.在知识库中加入新知识图谱后，对知识库中的原知识图谱进行更新和扩展，建立新知识图谱和原知识图谱之间的关联关系，并将满足预设条件的新知识图谱和原知识图谱进行融合。
48.本实施例的方法，能够取得与上述实施例相类似的技术效果，在此不再赘述。
49.在一些实施例中，所述企业知识图谱的生成方法，还包括在生成知识图谱后的知识应用。
50.在一些实施例中，生成知识图谱后，可以利用生成的知识图谱进行知识比对(即和其他知识图谱中的知识进行对比)，知识证明和知识检索(即基于一个实体和与该实体直接或间接存在关联关系的其他实体进行其他实体或者关联关系的检索)，以及知识更新(即当发现本知识图谱中不包含的信息时，对本知识图谱进行更新)。
51.在一些实施例中，将所生成的知识图谱通过统一的用户界面提供给用户，用户可以通过所述知识图谱迅速获得所需要的知识文档，例如，通过所述知识图谱，用户可以查询、检索到对应的企业数据，所述企业数据可以通过统一的文档数据库进行管理，并制定相应的知识文档目录结构，对目录的属性进行定义，包括发布、回复、共享、创建、审批、移动等操作权限，以及附件、模板、信息链接等属性，发布在此目录下文档自动获得此属性。
52.在一些实施例中，设定文档的查看、编辑、发布等操作权限；可以对文档的关键字进行自由的升序或者降序的排列；通过统计、监控等功能对文档发布、阅读等情况作出分析。
53.在一些实施例中，知识图谱对应的知识文档可以通过多种方式共享，例如，通过文档目录查看、通过内外网站查看、通过“最新文档”查看最新创建的文档、通过快速搜索或高级搜索查看、通过即时通讯或工作流程推送、批量共享、订阅等方式。
54.前述各实施例的方法，通过采用神经网络模型对企业数据进行处理，生成实体关系组，并对实体关系组进行融合，生成企业知识图谱，能够实现知识图谱在交换时更好的互相兼容，同时能够使用通用信息处理技术对自然语言描述的信息进行分析处理。
55.所生成的知识图谱支持以事业部、部门、产品线进行分类；支持知识分享(如：关注某文档可直接分享至其他人)；知识图谱支持全文检索、可通过关键字搜索出知识图谱对应的文档，包含文档中内容，文档根据权限显示。
56.需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。
57.以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。
58.图3示出了根据本公开的实施例的企业知识图谱的生成装置400的方框图。如图3所示，装置300包括：
59.原始数据获取模块302，用于获取企业数据，所述企业数据包括描述企业业务过程、管理过程、公文过程的初始信息；
60.数据处理模块304，用于利用企业数据模型对所述企业数据进行处理，生成实体关系组，所述实体关系组包括从所述企业数据中提取出企业知识实体、所述企业知识实体的属性以及所述企业知识实体间的关联关系；
61.生成模块306，用于对所述实体关系组进行融合，生成企业知识图谱。
62.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
63.图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。如图所示，设备400包括中央处理单元(cpu)401，其可以根据存储在只读存储器(rom)402中的计算机程序指令或者从存储单元408加载到随机访问存储器(ram)403中的计算机程序指令，来执行各种适当的动作和处理。在ram 403中，还可以存储设备400操作所需的各种程序和数据。cpu 401、 rom 402以及ram 403通过总线404彼此相连。输入/输出(i/o)接口405 也连接至总线404。
64.设备400中的多个部件连接至i/o接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元 408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/ 或各种电信网络与其他设备交换信息/数据。
65.处理单元401执行上文所描述的各个方法和处理，例如方法100、200。例如，在一些实施例中，方法100、200可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由rom 402和/或通信
单元409而被载入和/或安装到设备400上。当计算机程序加载到ram 403并由cpu 401执行时，可以执行上文描述的方法100、200的一个或多个步骤。备选地，在其他实施例中，cpu401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法 100、200。
66.本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。
67.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
68.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器 (cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
69.此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
70.尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种恶意代码的分类方法、装置、设备及存储介质与流程

企业知识图谱的生成方法、装置、设备和存储介质与流程

相关文献

最热文献