一种数据存储方法及相关装置与流程

2022-06-01 16:56:07 来源：中国专利 TAG：

1.本技术涉及数据存储技术领域，特别涉及一种数据存储方法、数据存储装置、服务器以及计算机可读存储介质。

背景技术：

2.在数据处理技术中，知识存储作为知识图谱构建过程中最重要的环节之一，是关乎着知识图谱是否能够落地使用最关键的一步。逻辑层面的表示(即数据类型)是从人的角度对知识图谱的数据进行描述，物理层面的存储是从计算机的角度对数据进行组织。但是，在专业领域由于行业的特殊性和知识的壁垒，需要设计一套适用于专业领域知识图谱存储的方案，保证知识图谱能顺利落地，支持其他应用进行调用和计算。
3.相关技术，关于知识图谱的相关技术中，是利用合适的数学模型来描述知识图谱的数据，然后基于这些数学模型将数据存储到数据库中，方便调用和计算。知识图谱的基本表示模型是三元组模型，表示成《主体(subject),谓词(predicate)，客体(object)》的形式。知识图谱另一种表示的模型是图模型，通常表示为简单图，实际应用中需要转换为有向无环图，或者是概率图的形式。但是，相关技术中无论采用何种的存储方案，都无法有效的将知识数据中各种类型的数据均高效存储，降低了知识数据进行存储的效率，同时也降低了存储的性能，造成了存储资源的浪费。
4.因此，如何提高对于知识数据进行存储的性能是本领域技术人员关注的重点问题。

技术实现要素：

5.本技术的目的是提供一种数据存储方法、数据存储装置、服务器以及计算机可读存储介质，通过数据类型对知识源数据进行存储，然后将抽取得到的知识图谱数据根据数据层次进行存储，应对了不同类型的数据进行存储，提高了数据存储的效率和性能。
6.为解决上述技术问题，本技术提供一种数据存储方法，包括：
7.根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据；
8.对所述知识源数据进行知识抽取处理，得到知识图谱数据；
9.根据数据层次将所述知识图谱数据存储于对应的数据库中；其中，所述数据层次包括模式层和实例层。
10.可选的，根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据，包括：
11.将获取到的文本数据存储于mysql数据库中，将获取到的行列数据存储于关系数据库中；
12.将所述mysql数据库的文本数据和所述关系数据库的行列数据均标记为所述知识源数据。
13.可选的，对所述知识源数据进行知识抽取处理，得到知识图谱数据，包括：
14.根据自然语言处理模型对所述知识源数据进行知识抽取处理，得到所述知识图谱数据。
15.可选的，根据数据层次将所述知识图谱数据存储于对应的数据库中，包括：
16.按照数据层次将所述知识图谱数据分为模式层数据和实例层数据；
17.将所述模式层数据存储于图数据库中；
18.将所述实例层数据存储于大数据平台中。
19.可选的，还包括：
20.根据预设周期对所述知识图谱数据进行数据更新处理。
21.可选的，根据预设周期对所述知识图谱数据进行数据更新处理，包括：
22.采用相似度算法按照预设周期对所述识图谱数据进行数据更新处理。
23.本技术还提供一种数据存储装置，包括：
24.知识源存储模块，用于根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据；
25.知识图谱抽取模块，用于对所述知识源数据进行知识抽取处理，得到知识图谱数据；
26.知识图谱存储模块，用于根据数据层次将所述知识图谱数据存储于对应的数据库中；其中，所述数据层次包括模式层和实例层。
27.可选的，还包括：
28.数据更新模块，用于根据预设周期对所述知识图谱数据进行数据更新处理。
29.本技术还提供一种服务器，包括：
30.存储器，用于存储计算机程序；
31.处理器，用于执行所述计算机程序时实现如上所述的数据存储方法的步骤。
32.本技术还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数据存储方法的步骤。
33.本技术所提供的一种数据存储方法，包括：根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据；对所述知识源数据进行知识抽取处理，得到知识图谱数据；根据数据层次将所述知识图谱数据存储于对应的数据库中；其中，所述数据层次包括模式层和实例层。
34.通过不同的数据类型对获取到的文本数据和行列数据在对应的数据库中存储为知识源数据，然后将抽取得到的知识图谱数据根据不同的数据层次进行存储，实现了应对不同类型的数据进行存储，提高了数据存储的效率和性能。
35.本技术还提供一种数据存储装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不作赘述。
附图说明
36.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据
提供的附图获得其他的附图。
37.图1为本技术实施例所提供的一种数据存储方法的流程图；
38.图2为本技术实施例所提供的一种数据存储装置的结构示意图。
具体实施方式
39.本技术的核心是提供一种数据存储方法、数据存储装置、服务器以及计算机可读存储介质，通过数据类型对知识源数据进行存储，然后将抽取得到的知识图谱数据根据数据层次进行存储，应对了不同类型的数据进行存储，提高了数据存储的效率和性能。
40.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
41.相关技术，关于知识图谱的相关技术中，是利用合适的数学模型来描述知识图谱的数据，然后基于这些数学模型将数据存储到数据库中，方便调用和计算。知识图谱的基本表示模型是三元组模型，表示成《主体(subject),谓词(predicate)，客体(object)》的形式。知识图谱另一种表示的模型是图模型，通常表示为简单图，实际应用中需要转换为有向无环图，或者是概率图的形式。但是，相关技术中无论采用何种的存储方案，都无法有效的将知识数据中各种类型的数据均高效存储，降低了知识数据进行存储的效率，同时也降低了存储的性能，造成了存储资源的浪费。
42.因此，本技术提供一种数据存储方法，通过不同的数据类型对获取到的文本数据和行列数据在对应的数据库中存储为知识源数据，然后将抽取得到的知识图谱数据根据不同的数据层次进行存储，实现了应对不同类型的数据进行存储，提高了数据存储的效率和性能。
43.以下通过一个实施例，对本技术提供的一种数据存储方法进行说明。
44.请参考图1，图1为本技术实施例所提供的一种数据存储方法的流程图。
45.本实施例中，该方法可以包括：
46.s101，根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据；
47.本步骤旨在根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据。也就是，将获取到的数据源的数据存储于对应的数据库中。其中，从数据源获取到的数据包括文本数据和行列数据。
48.进一步的，为了提高数据源数据进行存储的效率，本步骤可以包括：
49.步骤1，将获取到的文本数据存储于mysql数据库中，将获取到的行列数据存储于关系数据库中；
50.步骤2，将mysql数据库的文本数据和关系数据库的行列数据均标记为知识源数据。
51.可见，本可选方案中主要是对如何进行数据源存储进行说明。本可选方案中将获取到的文本数据存储于mysql数据库中，将获取到的行列数据存储于关系数据库中；将mysql数据库的文本数据和关系数据库的行列数据均标记为知识源数据。其中，将文本数据
和行列数据进行存储的过程可以以预设先后顺序执行，也可以同时执行，在此不做具体限定。
52.s102，对知识源数据进行知识抽取处理，得到知识图谱数据；
53.在s101的基础上，本步骤旨在对知识源数据进行知识抽取处理，得到知识图谱数据。本步骤也就是获取到知识图谱的过程。
54.其中，对知识源数据进行数据抽取的过程可以采用现有技术提供的任意一种知识抽取的过程，在此不做具体限定。
55.进一步的，为了提高对知识源数据进行提取的准确性，本步骤可以包括：
56.根据自然语言处理模型对知识源数据进行知识抽取处理，得到知识图谱数据。
57.可见，在本可选方案中主要是采用自然语言处理模型对知识源数据进行知识抽取处理，得到该知识图谱数据。其中，采用自然语言处理模型可以是对知识源数据中的逻辑数据进行更好的识别处理，以便提高对逻辑数据进行处理的准确性。其中，本可选方案中可以采用现有技术提供的任意一种现有技术提供的自然语言处理模型，在此不做具体限定。
58.s103，根据数据层次将知识图谱数据存储于对应的数据库中；其中，数据层次包括模式层和实例层。
59.在s102的基础上，本步骤旨在根据数据层次将该知识图谱数据存储于对应的数据库中。其中，该数据层次包括模式层和实例层。
60.其中，模式层数据的存储形式主要包括概念、属性的存储，以点和边的形式。主要存储在图数据库中。其中，对于实例层的存储可以是存储知识图谱的实体数据，也可以是知识源数据中行列数据。
61.进一步的，为了对本技术的技术方案进行说明，本步骤方案可以包括：
62.步骤1，按照数据层次将知识图谱数据分为模式层数据和实例层数据；
63.步骤2，将模式层数据存储于图数据库中；
64.步骤3，将实例层数据存储于大数据平台中。
65.可见，本可选方案主要是如何存储知识图谱数据进行说明。本可选方案中首先按照数据层次将知识图谱数据分为模式层数据和实例层数据；然后，将模式层数据存储于图数据库中；最后，将实例层数据存储于大数据平台中。
66.可选的，本实施例还可以包括：
67.根据预设周期对知识图谱数据进行数据更新处理。
68.可见，本可选方案中还可以根据预设周期对该知识图谱数据进行数据更新处理。由于在数据库中存储的知识源数据是不断更新的，因此，还需要将不断更新出的知识图谱数据进行更新处理。
69.进一步的，上一可选方案中可以包括：
70.采用相似度算法按照预设周期对识图谱数据进行数据更新处理。
71.可见，在本可选方案中主要是采用相似度算法对该知识图谱数据进行数据更新处理，以便提高数据更新处理的效果。
72.综上，本实施例通过不同的数据类型对获取到的文本数据和行列数据在对应的数据库中存储为知识源数据，然后将抽取得到的知识图谱数据根据不同的数据层次进行存储，实现了应对不同类型的数据进行存储，提高了数据存储的效率和性能。
73.以下通过一个具体的实施例，对本技术提供的一种数据存储方法进行说明。
74.本实施例中主要是对税收知识数据进行存储，进一步的还对对应的税收知识图谱数据进行存储。其中，税收知识图谱是依托业务、技术、数据手段，将税收领域的知识进行提取、归纳、整合，从而形成一套计算机可理解、可维护、可计算的数据、知识、信息的表达。其中，税收知识图谱包括知识构建和知识可视化两个大的模块，知识构建又包括知识获取、知识建模、知识抽取、知识融合、质量控制五个部分，知识可视化包括知识森林和知识关系两个部分。通过以上过程形成的知识，如何进行计算机可理解、可维护和可计算，需要设计一套完整的知识存储体系。
75.本实施例中，该方法可以包括：
76.步骤1，税法文本和纳税人画像数据为主的知识源的存储。知识源是税收知识图谱建立的知识来源，主要是两种类型的知识源。一种是以文本为主的税法法规，包括18个税收基本法，以及相关的单项规定，以及税收征管法和发票管理办法等程序法文件，主要是文本法规形式存在。另一种是以数据，标准的行列数据为主的知识源，主要是纳税人的信息，包括纳税人的申报数据、发票数据、登记数据等。
77.其中，知识源的存储，文本型的数据存储在mysql数据库中，纳税人画像数据存储在大数据平台阿里云odps和数据仓库oracle中。存储的量级分别为，文本数据50w篇税法文本，3亿条纳税人画像数据。
78.步骤2，知识图谱概念、实体、属性、关系存储。从知识源到知识图谱，中间需要经过知识抽取的过程，知识抽取的结果是以三元组表示的基本单元。三元组是由概念-实体-属性组成的最小单元。
79.其中，知识图谱的存储也包括两个部分，一部分是模式层的存储，主要存储在图数据库中，模式层主要包括概念、属性的存储，以点和边的形式存在(存储的具体内容见后文模式层存储)。另一部分实例层存储，主要存储的是知识图谱的实体数据，也即是知识源中纳税人画像的部分。实例层主要存储在大数据平台，即阿里云的odps(open data processing service，开放数据处理服务)数据库中，也有一部分存储在oracle数据仓库中。
80.由于实例层存储的数据量级较大，在存储的过程中会对一部分的关系类型的数据提取成图的形式，如投资关系、交易关系、任职关系等，这一部分数据可以通过图数据库的存储来压缩存储空间。同时，由于这一类型的数据，在应用的过程中会涉及到多个路径的查询。比如，查询一个纳税人和其关联的上家企业，关联的下家企业之间的关系，以及查询该企业的买卖关系中有没有通过路径形成的环状回流。
81.此外，对上述存储的结果，需要结合一定的时期进行定期更新，更新的过程需要有几个部分，如新增的概念的属性，需要对应到该概念的节点；新增的概念，直接添加；新增的实体，如已经有就需要进行更新，如没有也需要新增，同时要与该实体所属的概念进行对齐。
82.该过程属于实体融合的过程，可以通过实体融合算法实现，该实体融合算法主要是解决新增或者外来库的三元组如何与知识图谱中现有的三元组进行统一化、标准化的问题。
83.其中，实体融合的过程，可以采用了一种相似度的算法，对新增的实体，实体的定
义短文本，与库中原有实体短文本进行相似度匹配。匹配度大于90％的实体，默认为当前实体，则新增的实体属性也会新添加到该实体上。
84.其中，知识存储的内容可以包括：
85.(1)实体：指的是有可区别性且独立存在的事物。如“税友”。同时，大数据平台的画像、关系、档案数据都是实体的组成部分；
86.(2)概念：具有某种特性的实体构成的集合。如“增值税一般纳税人”；
87.(3)事件：是由对象发起，经过一系列动作，达成某个结果的过程。如“增值税小规模纳税人月增值税销售额小于10万事件”，“增值税小规模纳税人免征增值税事件”；
88.(4)属性：概念、实体、事件的特征描述，包括注释属性、数据属性、对象属性。如注释属性
-“
概念名称(
‘
增值税纳税人’)”，数据属性
-“
销售额(nan)”，对象属性-概念“增值税”、事件“增值税小规模纳税人免征增值税事件”。
89.对于不同类别的知识，在知识图谱中属于不同的存储层级，可以包括：
90.模式层：schema的存储包括概念、属性的存储(注释属性、数据属性、对象属性)；
91.实例层：实体的存储，包括画像数据、关系数据、档案数据的整合，同时需要和模式层定义的相关概念、属性建立链接。
92.在具体的应用环境中，存储架构的选型可以包括架构设计、技术选型两个部分。架构设计主要明确前台到后台的数据层级、功能模块、数据流向、api接口等，针对存储主要考虑底层数据库的选择和接口的调用。技术选型包括etl(extract-transform-load，数据仓库技术)工具、schema工具、服务调度工具等，针对存储主要考虑数据库的型号、版本、配置。
93.其中，数据库选型可以包括：模式层概念、事件、属性统一用arangodb图数据库的方式存储，事件规则用oracle关系数据库的方式存储。实例层由于目前在大数据平台中，考虑用oracle存储，对于关系类数据同样以arangodb图数据存储。可以保证模式层和实例层数据库型号、版本、配置的统一。但是模式层和实例层存储的结构和形式完全不同。
94.其中，工具选型可以包括：etl工具、知识抽取工具。
95.其中，模式层存储从知识类别上分为概念存储、事件存储、属性存储三种，从存储模式上分为注释属性存储、数据属性存储、对象属性存储。模式层主要以图数据库存储，因此需要将每种类别，拆分成点和边的形式，将数据分类填充进去，原则是保证存储方便、crud(create、retrieve、update、delete增删改查)方便、计算方便。
96.在图数据库中，概念是一个对象，以点的形式存储；事件也是一个对象，以点的形式存储；属性既可以是对象又可以是数据还可以是实体，存储方式多样，可存储为点，也可以存储为边，一个概念(事件)可以是另一个概念(事件)的对象属性，一个实体(数据、事件)也可以是一个概念(事件)的注释属性。
97.其中，概念和事件的区别，可以包括：
98.事件只有注释属性，无论事件规则、适用范围、事件对象和结果都有确定的值。而概念除了注释属性有确定值以外，数据属性和对象属性都只有属性值类型而没有确定值。
99.事件没有包含关系，不会因为被包含而继承上位事件的属性，而概念中存在include包含关系，被包含概念要继承包含概念的除注释属性外的数据属性和对象属性。
100.事件没有实例，也不是事件实例的集合，可以认为是一种逻辑规则和不同逻辑规则之间的关系。
101.进一步的，对注释属性进行存储。
102.其中，注释属性是指概念属性中包含具体的属性值的属性。
103.其中，注释属性的特点如下：
104.注释属性只存在于模式层，实例层没有注释属性；同时注释类型属性为当前概念独有的属性，不会被包含概念继承。注释属性既有数据类型，也有实体类型。
105.例如，概念“增值税纳税人”，数据类型注释属性“名称”，注释属性值“增值税纳税人”。在图数据库中，数据类型的注释属性存储在概念点属性内部，以json格式存在。
106.同样，概念“增值税纳税人”，对象类型的注释属性“13号文件”实体，概念与实体之间的关系“来源于”。在图数据库中，实体类型的注释属性以点的形式存在，概念与实体类型注释属性的关系以边的形式存在。
107.进一步的，对数据属性进行存储。
108.其中，数据属性是指概念属性中不包含具体属性值的属性。
109.其中，数据属性的特点如下：
110.数据属性在模式层只有属性值类型，需要在与实例产生“链接”的时候才会有具体属性值。数据属性在概念存在包含关系的时候，需要被下位概念继承。schema构建只考虑模式层存储。数据属性作为节点，只有出度边，没有入度边，“只出不进”。
111.例如，概念“增值税纳税人”，数据属性“纳税人识别号”，模式层只能存储属性类型为“数值”，没有具体的值。只有对应到实例层，例如实例“税友”，属性“纳税人识别号”，属性值“91330100719597557y”。在图数据库中，数据属性以点的形式存在，数据属性值以边的形式存在。
112.概念“增值税小规模纳税人”包含“增值税纳税人”，因此需要继承“增值税纳税人”的数据属性，需要新增“纳税人识别号”到“增值税小规模纳税人”的属性边。
113.进一步的，对对象属性进行存储。
114.其中，对象属性主要是概念、事件类型的属性。
115.其中，对象类型特点如下：
116.对象属性都以节点形式存在。对象属性在概念存在包含关系的时候，需要被下位概念继承。对象属性作为当前概念属性的同时也有自身的属性。对象属性与当前概念之间的关系作为边，边上的值是一种关系类型。对象属性既有出度边，又有入度边，“有出有进”。
117.例如，概念“增值税纳税人”，概念类型的对象属性(概念)“增值税”，属性关系“缴纳”。概念类型的对象属性(事件)“增值税纳税人月销售额10w以下事件”，属性关系“事件对象”。概念“增值税小规模纳税人”包含“增值税纳税人”，因此需要继承“增值税纳税人”的对象据属性，需要新增“增值税纳税人月销售额10w以下事件”到“增值税小规模纳税人”的属性边，同时新增“增值税小规模纳税人”到“增值税”的属性边。在图数据库中，对象(概念、事件)都以点的形式存在，当前概念和对象属性之间的关系以边的形式存在。
118.可见，本实施例可以通过不同的数据类型对获取到的文本数据和行列数据在对应的数据库中存储为知识源数据，然后将抽取得到的知识图谱数据根据不同的数据层次进行存储，实现了应对不同类型的数据进行存储，提高了数据存储的效率和性能。
119.下面对本技术实施例提供的数据存储装置进行介绍，下文描述的数据存储装置与上文描述的数据存储方法可相互对应参照。
120.请参考图2，图2为本技术实施例所提供的一种数据存储装置的结构示意图。
121.本实施例中，该装置可以包括：
122.知识源存储模块100，用于根据数据类型将获取到的文本数据和行列数据存储至对应的数据库中，并标记为知识源数据；
123.知识图谱抽取模块200，用于对知识源数据进行知识抽取处理，得到知识图谱数据；
124.知识图谱存储模块300，用于根据数据层次将知识图谱数据存储于对应的数据库中；其中，数据层次包括模式层和实例层。
125.可选的，该装置还可以包括：
126.数据更新模块，用于根据预设周期对知识图谱数据进行数据更新处理。
127.本技术实施例还提供一种服务器，包括：
128.存储器，用于存储计算机程序；
129.处理器，用于执行所述计算机程序时实现如以上实施例所述的数据存储方法的步骤。
130.本技术实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的数据存储方法的步骤。
131.说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
132.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
133.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
134.以上对本技术所提供的一种数据存储方法、数据存储装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本技术原理的前提下，还可以对本技术进行若干改进和修饰，这些改进和修饰也落入本技术权利要求的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：安全带检测方法、装置、设备及存储介质与流程

一种数据存储方法及相关装置与流程

相关文献

最热文献