一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种面向领域机理知识库的构建方法与流程

2021-12-15 01:22:00 来源:中国专利 TAG:


1.本发明属于计算机服务技术领域和工业互联网领域,涉及一种面 向领域机理知识库的构建方法。


背景技术:

2.随着工业互联网的发展,我国对推动传统工业转型升级,实现各 种生产和服务资源在更大范围、更高效率、更加精准的优化配置方面 愈发重视。领域机理知识库是一种特殊且常用的数据库,其构建有利 于实现工业“制造”到“智造”的转型,但高效率地构建领域机理知 识库是目前研究的主要难点。在以往的研究中,大多数学者忽略了本 体所能表达的详细内容,缺少完整的本体建模框架,影响知识库的构 建效率,以至于影响知识库的可推理能力。其次,领域知识是复杂多 样的,通过现有的本体描述方法无法较好的展示领域知识,缺少领域 知识库的构建方法。本体需要能力化、逻辑化和更细致化的描述。


技术实现要素:

3.为了解决现有技术中存在的以上问题,本发明从本体建模的角度 分析,提出了一种基于三层模型的面向领域机理知识库的构建方法。 本发明完善了本体的描述信息——将描述力度从概念和实例信息细 化到能力信息,根据划分子图的目的和侧重点不同,将三层模型划分 为三个视图,增加了对模型的剖析角度。用新的本体模型,以更高效 率、更普适性的方式组织领域实例信息,构建更全面的领域机理知识 库。以用户需求为导向,根据细粒度的能力信息检索满足能力的条件, 最终检索出满足能力的实例或者视图。
4.本发明的目的是通过以下技术方案实现的:
5.一种面向领域机理知识库的构建方法,包括如下步骤:
6.步骤s1、对领域机理的结构化和非结构化数据进行获取和处理, 具体步骤如下:
7.(1)网络爬取或合作公司提供结构化数据和非结构化文数据;
8.(2)对非结构化数据进行分句、分段,得到可标注的非结构化 文本;
9.(3)对结构化数据利用已有技术进行异常数据处理;
10.步骤s2、基于三层模型,对步骤s1得到的结构化数据进行本体 构建,具体步骤如下:
11.(1)根据结构化数据构建本体模型,包括抽象概念层的顶级概 念、次级概念和抽象能力概念,例如以人工方式构建;
12.(2)根据结构化数据对领域数据关系分类,完成三层模型中的 关系构建;
13.(3)根据视图概念划分视图模型;
14.所述三层模型包括对抽象概念层、概念实例层、能力层、组成视 图、能力视图和模式视图,其中:
15.抽象概念层由抽象概念组成,抽象概念按照顶级抽象概念、次级 抽象概念、能力抽象概念以及用于扩展的抽象概念进行组织;
16.概念实例层由抽象概念层中的抽象概念对应的具体实例组成,包 含顶级抽象概念的具体实例、次级抽象概念的具体实例、能力抽象概 念的具体实例以及用于扩展的抽象概念的具体实例;
17.能力层从工艺目标的角度出发进行定义,将总的工艺目标分解成 多个工艺子目标,满足各工艺子目标需要满足某个条件,该条件代表 了一种或多种具体的能力要求,即实现由总工艺目标

子工艺目标

条 件

能力实例

概念实例的串联;
18.组成视图是对抽象概念层和概念实例层的描述,反映了领域概念 和其实例间的关系,在抽象概念层,提取出表示组成关系的节点和关 系,形成组成视图;
19.能力视图是对能力层的描述,描述了领域概念实例的具体能力, 结合实际工艺目标,反映了目标、能力、条件与具体实例的对应关系;
20.模式视图描述工艺目标的分解和逻辑判断的表示,即将总目标分 解为多个可连接的工艺子目标;
21.实例间关系分成八类,如下所示:
22.triple={(head
entity
,relation,tail
entity
)|head
entity
∈class,tail
entity
∈class}
23.triple1={(a
i
,r,a
j
)|a
i
,a
j
∈abstractions,r=include}
24.triple2={(a,r,i)|a∈abstractions,r=has_instance}
25.triple3={(i
i
,r,i
j
)|i
i
,i
j
∈instances,r=include}
26.triple4={(i
i
,r,i
j
)|i
i
,i
j
∈instances,r=has_capability}
27.triple5={(i,r,g)|i∈instances,g∈goals,r=include_goals}
28.triple6={(g,r,o)|g∈goals,o∈operations,r∈{require_and,req uire_or}}
29.triple7={(o,r,g)|o∈operations,g∈goals,r=include}
30.triple8={(o,r,condition)|o∈operations,condition∈con ditions,r=include}
31.triple1表示抽象概念之间的包含关系所构成的三元组;triple2表 示抽象概念和概念实例之间的has_instance关系所构成的三元组; triple3表示概念实例之间的包含关系所构成的三元组;triple4表示概 念实例与能力之间关系的三元组;triple5表示概念实例与工业目标之 间关系的三元组;triple6表示工业目标与操作符之间关系的三元组; triple7表示操作符与工艺子目标之间关系的三元组;triple8表示操作 符与条件之间关系的三元组;
32.步骤s3、对步骤s1得到的可标注的非结构化文本数据进行知识 抽取,得到实体关系对,即三元组数据,具体步骤如下:
33.(1)对非结构化文本数据进行命名实体识别,利用常见工具如 词法分析工具lac,以及句法依存分析工具ddparser得到头尾实体 对;
34.(2)对采样的非结构化文本句子进行人工标注,得到句子的头 尾实体内容机器所在位置,以及头尾实体的关系,利用deepke处理 非结构化数据,得到按关系表分类的三元组对;
35.步骤s4、将步骤s3得到的三元组数据按照步骤s2构建的本体 模型进行一定的数
据填充后,导入neo4j数据库中,具体步骤如下:
36.(1)按照分类结果基于三层模型进行部分数据填充,完善三层 模型结构,导入neo4j数据库中;
37.(2)添加抽象能力和具体能力的关系、根据实例属性添加实例 和具体能力的关系;
38.(3)构建结果分析操作验证。
39.相比于现有技术,本发明具有如下优点:
40.1、本发明从本体结构方面,明确提出了本体的构建规则——三 层模型,作为一种更细粒度的本体构建模型,分别从抽象概念层、概 念实例层和能力层规定领域知识库的结构,使得领域机理知识库构建 过程更加清晰,对节点数据的填充也变得有据可依、有论可查。
41.2、本发明根据不同层或同层的不同节点间的关系抽象出了八类 关系模型,对于领域机理知识库的关系填充给出了依据。
42.3、本发明完善了对本体结构的分析角度,增加了组成视图、模 式视图以及能力视图,使得对本体结构的描述信息更加完整。
43.4、本发明提出的能力层概念是基于工艺目标的,从总的工艺目 标分解出子工艺目标,根据相应的判断条件检索概念实例,从而得到 更满足用户需求的细粒度的实例。
44.5、本发明根据三层模型给出了领域机理知识库的具体构建方法, 抽象出了构建流程,使得构建步骤更加明确。
附图说明
45.图1为面向领域机理知识库的构建流程图。
46.图2为三层模型的总体设计图。
47.图3为三层模型的组成视图。
48.图4为三层模型的能力视图。
49.图5为三层模型的模式视图。
50.具体实施方式
51.下面结合附图对本发明的技术方案作进一步的说明,但并不局限 于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发 明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
52.本发明提供了一种基于三层模型的面向领域机理知识库的构建 方法,关于三层模型的总体设计图如图2所示,该模型包括对抽象概 念层、概念实例层、能力层、组成视图、能力视图和模式视图的定义 和语义描述,具体如下:
53.(1)抽象概念层定义和描述:抽象概念层是由抽象概念组成, 抽象概念按照顶级抽象概念,次级抽象概念和能力抽象概念,以及用 于扩展的抽象概念进行组织。
54.(2)概念实例层定义和描述:概念实例层是由抽象概念层中的 抽象概念对应的具体实例组成,包含顶级抽象概念的具体实例、次级 抽象概念的具体实例和具体能力等。
55.(3)能力层定义和描述:能力层是从工艺目标的角度出发,分 解成多个工艺子目标,满足各工艺子目标需要指标满足某个条件,该 指标映射在概念实例层,是某个实例特有的属性决定,实现了从能力 层向实例层的检索。
56.(4)实例间关系的定义和描述:
57.triple是模型表示中所有三元组的集合,分成八类。如下所示:
58.triple={(head
entity
,relation,tail
entity
)|head
entity
∈class,tail
entity
∈class}
59.triple1={(a
i
,r,a
j
)|a
i
,a
j
∈abstractions,r=include}
60.triple2={(a,r,i)|a∈abstractions,r=has_instance}
61.triple3={(i
i
,r,i
j
)|i
i
,i
j
∈instances,r=include}
62.triple4={(i
i
,r,i
j
)|i
i
,i
j
∈instances,r=has_capability}
63.triple5={(i,r,g)|i∈instances,g∈goals,r=include_goals}
64.triple6={(g,r,o)|g∈goals,o∈operations,r∈{require_and,require_or}}
65.triple7={(o,r,g)|o∈operations,g∈goals,r=include}
66.triple8={(o,r,condition)|o∈operations,condition∈conditions,r=include}
67.从三层模型的组成上定义:包含类(class)、关系(relation)、 属性(property)、函数(function)、约束(constraint)和公理(axiom)。 其中类(class)包含抽象概念集合(abstractions)、实例集合 (instances)、能力集合(capabilities)、工艺目标集合(goals)、 操作集合(operations)和条件集合(conditions)。abstractions是某 领域中概念的集合;instances是某领域中概念对应实例的集合;
68.capabilities是某领域中概念和实例具有的能力的集合;goals是某领 域中要实现的目标的集合;operations是某领域中包含的复杂的逻辑 操作符的集合;conditions是某领域中涉及到的条件的集合。
69.triple1表示抽象概念之间的包含关系所构成的三元组;triple2表 示抽象概念和概念实例之间的has_instance关系所构成的三元组; triple3表示概念实例之间的包含关系所构成的三元组;triple4表示概 念实例与能力之间关系的三元组;triple5表示概念实例与工业目标之 间关系的三元组;triple6表示工业目标与操作符之间关系的三元组; triple7表示操作符与工艺子目标之间关系的三元组;triple8表示操作 符与条件之间关系的三元组。
70.(5)组成视图定义和描述:组成视图是对三层模型的抽象概念 层和概念实例层的描述。反映了领域概念和其实例间的关系。在抽象 概念层,提取出表示组成关系的节点和关系,形成组成视图,组成视 图仅表示组成部件组成关系。如图3所示,a1,a2是抽象概念层元素, a1描述的是领域的顶级抽象概念,a2描述的是领域的次级抽象概念, 为a1的子概念。i
1n
和i
2n
是概念实例层的元素。分别是a1和a2的实 例。上述元素通过关系r1=has_instance和关系r2=include形成组成视 图。
71.(6)能力视图定义和描述:能力视图是对三层模型的第三层, 即能力层的描述。描述了领域概念实例的具体能力;结合实际工艺目 标,反映了目标、能力、条件与具体实例的对应关系。从工艺目标的 角度出发,检索工艺目标,分解成多个工艺子目标,满足各工艺子
目 标需要指标满足某个条件,该指标映射在实例层,是某个实例特有的 属性决定。这样就实现了从能力层到概念实例层的检索,同理,也可 实现能力层向抽象概念层的检索。能力视图结构如图4所示。其中 a3描述的是抽象能力,为能力视图的顶层概念,抽象能力也是抽象概 念,故也属于抽象概念层。a3是a2的子概念,描述的是次级抽象概 念的抽象能力。i
3n
是a3的实例。g描述的是工业目标(需求),c 描述的是满足工业目标需要的条件。op表示条件中涉及的运算操作 符。通过关系r1=has_instance、r2=include和r5=operation形成能力视 图。
72.(7)模式视图定义和描述:模式视图描述工艺目标的分解和逻 辑判断的表示,如图5所示。即将总目标分解为多个可连接的工艺子 目标,对子目标的具体的逻辑判断方式包括逻辑与、逻辑或等。
73.上述七种定义和描述,阐明了三层模型的具体定义内容和方法。 包括对本体抽象概念层、概念实例层和能力层的定义方式,规定了每 层应当描述的实例类型。又给出了八种模型中关系的定义,明确三元 组的类别,构建知识库时数据类别更加明晰。最后明确了模型中视图 的概念,包括组成视图、能力视图和模式视图,将结构信息、需求信 息以及逻辑信息分离表示,使得对知识库的分析角度更加多元化。
74.领域知识库是根据本体构建的,基于以上对三层模型定义,面向 领域机理知识库的构建流程如图1所示,具体流程如下:
75.步骤s1、数据获取与数据处理:
76.步骤(1)网络爬取或合作公司提供结构化数据和非结构化文数 据;
77.步骤(2)非结构化数据则依据相关领域的文本描述数据进行分 句、分段,得到可标注的非结构化数据;
78.步骤(3)结构化数据存储在mysql数据库中并人工进行异常数 据处理。
79.步骤s2、利用mysql中的结构化数据进行领域本体构建:
80.(1)结构化数据中存储了抽象概念、抽象实例和抽象能力,抽 取对应表的列名,人工方式构建。
81.(2)利用prot
é
g
é
软件定义属性和关系,构建领域本体关系构建。
82.(3)确定视图。将抽象概念层和概念实例层组合形成组成视图, 同理得到能力视图和模式视图。
83.步骤s3、基于可标注的非结构化文本数据进行领域知识抽取:
84.(1)命名实体抽取:对非结构化文本数据的句子进行分词和词 性标注使用百度lac词法分析工具和自定义的领域词表。将分词结 果输入依存句法分析系统ddparser识别句子中核心关系,再结合主 谓关系来确定本句子主语。依据动宾关系、介宾关系等确认其他实体, 和主语配对作为候选的头尾实体对,生成输出结果。
85.(2)基于deepke(一个基于pytorch的深度学习中文关系抽取 处理套件,基于预定义的关系表给出关系的分类结果)训练分类模型 以完成关系抽取,得到(头实体,关系,尾实体)三元组。
86.步骤s4、领域机理知识库构建:
87.(1)将知识抽取得到的三元组基于三层模型进行扩充,导出为 json文件,并批量导入neo4j数据库。
88.(2)添加两类关系,即(抽象能力,include,具体能力)和(实 例,has_capability,具体能力),并进行人工微调。
89.(3)构建结果分析操作验证。
90.实施例:
91.本实施例提供了一种面向服装领域机理知识库的构建方法,所述 方法包括以下步骤:
92.步骤s1、服装领域数据获取与数据处理:
93.(1)面料、辅料数据获取与数据处理。从企业内部数据库获取 最新的结构化面料、辅料数据。利用爬虫将获取的数据解析为关系型 数据,按照面、辅料类别与信息分别存储至mysql的不同表当中作 为原始数据存储。将所有面料数据按照其数据规范的二级分类进行主 机分类,得到面料分类表。对于辅料数据,相较于面料数据增加三级 分类。
94.(2)鲁绣数据获取与数据处理。鲁绣数据也是合作公司提供, 人工提取有用的数据,将其进行整理归纳得到多条可标注的非结构化 数据。
95.(3)能力层的数据获取与处理。面辅料的分类是服装设计师选 择面料考虑的首要因素。从互联网上爬取了面料、辅料相关的文本化 数据,训练关系抽取的网络模型,便于进行关系抽取。在非结构化文 本获取的方面,在搜索引擎上查询了面辅料相关的介绍网站,并将其 分句分段和异常处理,获取到用于数据集标注的非结构化文本。基于 三层模型,通过非结构化文本数据完善了服装面辅料的能力层,从而 方便构建完整的服装知识库。
96.步骤s2、服装领域本体构建:
97.(1)确定抽象概念层。在服装领域的本体种,高级概念a1是“服 装”,次级概念a2包括“面料”、“辅料”“服装生产工艺单”等 节点,抽象能力a3表示面辅料拥有的抽象能力,包括“吸湿性”、
ꢀ“
弹性”、“纹理”、“用法”等节点。
98.(2)确定概念实例层。a1的实例为服装的用料方案,即组装清 单。次级概念a2的实例是具体型号的面料、辅料等。抽象能力a3 的实例是具体能力,通常是相应能力的影响参数的具体值或范围。
99.(3)确定能力层。服装的定制目标即为需求,也即工艺目标g。 将总工艺目标拆分为对吸湿性或纹理等具体能力有要求的子目标,连 接细粒度的工艺目标与能力实例间的关系,以确定能力层。
100.(4)确定视图。各个视图本质上是本体的相应子图,用于知识 库的分析和可视化,无需具体构建。
101.步骤s3、服装领域知识抽取:
102.针对面料、辅料和鲁绣这类非结构化文本描述数据,进行命名实 体识别和关系抽取。
103.(1)命名实体识别过程包括:利用现有词法分析工具lac和自 定义字典(主要包括服装领域的专有词汇),完成分词和词性标注。 利用ddparser识别动宾关系、介宾关系等,得到和主语配对的头尾 实体对。
104.(2)关系抽取过程包括:定义服装领域的关系表,涵盖常见的 实体关系对(头实体,关系,尾实体),如(产品,特点,描述), 对采样的每个描述语句进行标注,依据关系表填充数据,并记录头实 体、尾实体在句中出现的位置。利用cnn分类模型,将所有描述进 行归
类,抽取出实体关系对。
105.步骤s4、服装领域知识库的构建:
106.将s3步骤得到的实体关系对,划分不同概念的实例数据。如抽 象概念“面料”包括概念实例麻织物、化纤织物等,面料具有的抽象 能力如质感等,包含具体能力质感厚实等。将工艺目标与子工艺目标、 子工艺目标与具体能力等也与前述的关系形成实体关系对这样的三 元组导入neo4j数据库。对知识库进行分析,根据工艺目标检索出实 例,检索鲁绣相关知识等。最终得到服装领域知识库组成如表1所示。
107.表1服装领域知识库组成
108.
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献