一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

高速列车产品结构树知识融合方法、装置和程序产品与流程

2022-09-03 23:08:33 来源:中国专利 TAG:


1.本发明涉及列车异构知识融合技术领域,尤其涉及一种高速列车产品结构树知识融合方法、装置和程序产品。


背景技术:

2.高速列车的生命周期包括设计、制造、运维多个阶段,随着多阶段历史数据的积累,形成了大量的经验知识,能够为产品的设计、制造及运维各阶段提供经验知识。然而,这些经验知识存储于不同平台,各生命周期阶段知识来源不一且形式结构复杂,一般采用知识图谱对经验知识进行组织和表示,从而更好的获取经验知识。
3.知识图谱被称作有学识的ai,常常被用于融合多源数据来构建大规模知识库。知识图谱本质上是一种语义知识库,是一种语义网络,用于表示实体之间的语义关系,适合于描述高速列车的复杂结构知识。
4.现有技术中,由于高速列车的知识来源复杂,存在于不同阶段的不同层级中,导致不同阶段构建的知识图谱具有异构的特点,使得各阶段知识相互关联表现不明、知识不互通,以及知识冗余且异构等问题。


技术实现要素:

5.本发明提供一种高速列车产品结构树知识融合方法、装置和程序产品,用以解决现有技术中多阶段知识冗余且异构、不同阶段构建的知识图谱异构的缺陷,实现各阶段知识图谱融合,使各阶段领域知识互通互联关系更加清晰。
6.本发明提供一种高速列车产品结构树知识融合方法,包括:
7.获取高速列车多元数据的组织分析数据,构建本体模式,并根据所述本体模式构建领域知识图谱;
8.将所述领域知识图谱融合为阶段知识图谱,其中,所述阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,所述阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现;
9.基于所述组织分析数据的阶段领域结构树,进行所述阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
10.根据本发明提供的高速列车产品结构树知识融合方法,所述获取高速列车多元数据的组织分析数据,构建本体模式,并根据所述本体模式构建领域知识图谱,包括:
11.基于高速列车多元数据,获取组织分析数据,其中,所述组织分析数据包括:数据来源、领域阶段、领域结构树和阶段领域结构树,所述阶段领域结构树包括:产品族主结构树、设计实例结构树、装配实例结构树;
12.基于组织分析数据,获取数据服务的上下文信息、数据类型并构建本体模式;
13.根据所述阶段领域结构树获取全局本体,基于全局本体获取局部本体,并结合本体模式获取数据构建领域知识图谱。
14.根据本发明提供的高速列车产品结构树知识融合方法,所述数据来源包括结构化数据、半结构化数据和非结构化数据。
15.根据本发明提供的高速列车产品结构树知识融合方法,所述阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,包括:
16.基于预先获取的语料数据,训练获取命名实体识别模型,其中,对所述语料数据进行实体标注和序列标注后输入所述命名实体识别模型;
17.基于所述命名实体识别模型,获取所述领域知识图谱中的实体对应的本体概念;
18.基于所述领域知识图谱中的实体对应的本体概念与所述领域结构树中本体概念的对照结果,获取所述阶段知识图谱的本体概念映射关系。
19.根据本发明提供的高速列车产品结构树知识融合方法,所述阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现,包括:
20.将所述领域知识图谱的实体的属性进行规范化,其中,所述属性的类型包括结构化属性和非结构化属性;
21.基于所述阶段知识图谱的本体概念映射关系,获取存在映射关系的相同本体概念下的聚类实体;
22.基于结构化属性的单位和约束匹配,利用最小编辑距离,确定所述聚类实体中结构化属性相似度;
23.基于非结构化属性的语义特征向量,利用所述语义特征向量的余弦相似度,确定所述聚类实体的非结构化属性相似度;
24.基于所述结构化属性相似度和非结构化属性相似度,确定实体综合相似度,实现所述阶段知识图谱的实体对齐。
25.根据本发明提供的高速列车产品结构树知识融合方法,所述基于所述组织分析数据的阶段领域结构树,进行所述阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合,包括:
26.基于所述阶段领域结构树的编码属性,构建产品编码结构树,实现本体对齐;
27.将所述阶段领域结构树的实体属性规范化;
28.获取所述阶段领域结构树的本体概念下的聚类实体;
29.基于所述聚类实体,确定实体综合相似度,以获得所述阶段领域结构树的本体概念下的各领域阶段实体之间的映射关系,其中,所述综合相似度包括结构化属性相似度和非结构化属性相似度。
30.本发明还提供一种高速列车产品结构树知识融合装置,包括:
31.构建模块,用于获取高速列车多元数据的组织分析数据,构建本体模式,并根据所述本体模式构建领域知识图谱;
32.第一融合模块,用于将所述领域知识图谱融合为阶段知识图谱,其中,所述阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,所述阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现;
33.第二融合模块,用于基于所述组织分析数据的阶段领域结构树,进行所述阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
34.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述高速列车产品结构树知识融合方法。
35.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述高速列车产品结构树知识融合方法。
36.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述高速列车产品结构树知识融合方法。
37.本发明提供的高速列车产品结构树知识融合方法、装置和程序产品,通过对高速列车多元数据的组织分析,阶段领域结构树和领域结构树,基于领域结构树,通过本体模式构建领域知识图谱,基于领域知识图谱,基于实例数据的命名实体识别输出的本体概念进行映射对齐,且基于聚类实体利用多信息融合相似度进行实体对齐,将异构的领域知识图谱融合为阶段知识图谱,实现阶段的数据融合;同时,基于阶段领域结构树,构建产品编码结构树实现阶段领域结构树的本体对齐,并通过建立各阶段实体之间的映射关系实现阶段领域结构树中实例数据层的映射融和,实现高速列车各阶段知识图谱的融合,使得高速列车领域数据之间互通互联关系更加清晰,进一步解决了高速列车领域多阶段数据的异构、冗余问题。
附图说明
38.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
39.图1是本发明提供的高速列车产品结构树知识融合方法的流程示意图;
40.图2是本发明提供的本体模式的构建流程示意图;
41.图3是本发明提供的阶段知识图谱的本体对齐流程示意图之一;
42.图4是本发明提供的阶段知识图谱的本体对齐流程示意图之二;
43.图5是本发明提供的各阶段知识图谱的融合流程示意图;
44.图6是本发明提供的高速列车产品结构树知识融合装置的结构示意图;
45.图7是本发明提供的电子设备的结构示意图。
具体实施方式
46.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
47.下面结合图1-图5描述本发明的高速列车产品结构树知识融合方法。
48.图1是本发明提供的高速列车产品结构树知识融合方法的流程示意图,如图1所示,该方法包括:
49.步骤110、获取高速列车多元数据的组织分析数据,构建本体模式,并根据本体模
式构建领域知识图谱。
50.可选地,图2是本发明提供的本体模式的构建流程示意图,如图2所示,该方法包括:
51.基于高速列车多元数据,获取组织分析数据,其中,组织分析数据包括:数据来源、领域阶段、领域结构树和阶段领域结构树,阶段领域结构树包括:产品族主结构树、设计实例结构树、装配实例结构树;
52.基于组织分析数据,获取数据服务的上下文信息、数据类型并构建本体模式;
53.根据阶段领域结构树获取全局本体,基于全局本体获取局部本体,并结合本体模式获取数据构建领域知识图谱。
54.可选地,高速列车数据具有阶段性的特点,其产品全生命周期可分为设计、制造、运维三个阶段,不同阶段的数据具有不同的特点,在设计阶段,包括但不限于需求数据、几何数据、属性参数数据,上述数据对应于具体的设计实例,而设计实例是通过一个元模型进行实例化得到的,元模型与设计实例之间存在一对多的关系;通过设计实例,生产制造会得到多个对应的制造实例,用于具体装配;运维阶段的数据是在具体的装配实例中产生,因此,装配实例与设计实例之间存在多对一的关系。因此,依据数据来源特点分析,构建阶段领域结构树和领域结构树。示例地,运维阶段的故障领域结构树和维修领域结构树均属于领域结构树,阶段领域结构树划分如表1所示:
55.表1阶段领域结构树划分及对应数据特点
[0056][0057]
可选地,如图2所示,采用自上而下的方式构建领域知识图谱的本体,结合数据来源、领域阶段及对应的领域结构树,采用七步法构建本体模式,本体模式的构建步骤包括:获取数据服务的上下文信息、获取数据类型、设计本体概要模型、实例化验证评估、本体的形式化表示、定义类及类的层次结构和定义属性及约束,其中,设计本体概要模型、实例化验证评估、本体的形式化表示三个步骤中,结合数据层实例数据进行迭代优化,获取最优的
本体模式。
[0058]
可选地,将设计、制造、运维各阶段的阶段领域结构树作为全局本体,将全局本体进行局部扩展以获得局部本体,结合上述本体模式获取知识形成领域知识图谱。
[0059]
可选地,数据来源包括结构化数据、半结构化数据和非结构化数据。结构化数据通过d2rq工具进行转换,将关系型数据库的表名直接映射至rdf中的类,字段映射为类的属性,类之间的关系则从表示关系的表中得出;半结构化数据采用模板匹配的方式进行实体关系的获取,非结构化数据可应用nlp技术及基于深度学习模型进行命名实体识别和关系抽取。
[0060]
步骤120、将领域知识图谱融合为阶段知识图谱,其中,阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现。
[0061]
图3是本发明提供的阶段知识图谱的本体对齐流程示意图之一,图4是本发明提供的阶段知识图谱的本体对齐流程示意图之二,如图3-图4所示,阶段知识图谱的本体融合方法包括:
[0062]
基于预先获取的语料数据,训练获取命名实体识别模型,其中,对语料数据进行实体标注和序列标注后输入命名实体识别模型;
[0063]
基于命名实体识别模型,获取领域知识图谱中的实体对应的本体概念;
[0064]
基于领域知识图谱中的实体对应的本体概念与领域结构树中本体概念的对照结果,获取阶段知识图谱的本体概念映射关系。
[0065]
可选地,如图3-图4所示,将领域知识图谱对应的阶段领域结构树的本体作为阶段知识图谱的对齐本体,将领域知识图谱对应的阶段领域结构树的实体作为阶段知识图谱的对齐实体,实现阶段知识图谱的融合。
[0066]
可选地,如图3所示,获取领域知识图谱的本体o1(a1,a2,
……
,am)和实体g1(e1,e2,
……
,en)以及对应阶段的阶段领域结构树的本体o2(b1,b2,
……
,bq),其中,ai表示本体o1中的概念,ei表示本体o1中概念ai下的实体集,bj表示阶段领域结构树的本体o2中的概念,本体对齐的结果为一个映射关系f:ai-》bj,映射集合中的ai-》bj表示本体o1中的概念ai与本体o2中的概念bj具有相等或包含关系,相等或包含关系判定如下:
[0067]
对于概念ai下的实体ei,对于一个映射关系f:ai-》bj,
[0068]
若且则ai=bj;
[0069]
若且则
[0070]
可选地,如图4所示,在命名实体识别模型中输入本体o1中概念ai的实体集ei,将命名实体识别模型的输出概念与本体o2中的概念bj进行比照,若两者相同则输出映射关系f:ai-》bj,继续查找是否存在相同映射,若不存在,则判断是否存在本体o1中概念ai的映射,若存在,则将该映射加入已有映射集合,若不存在,则创建该映射集合。
[0071]
可选地,命名实体识别模型采用bert-bilstm-crf模型,命名实体识别模型的构建和训练步骤如下:
[0072]
1)获取语料数据
[0073]
语料数据包括但不限于网页和领域词典的文本数据,网页中的文本数据通过爬虫方式从网页中获取,如百度百科、中国知网,将关键词设为领域相关词汇,将获取的文本数
据进行人工预处理、脏数据去除,获取最终用于训练的语料数据。
[0074]
2)实体标注
[0075]
通过brat工具对获取的语料数据进行领域实体的标注,示例地,将“转向架”标注为“系统”,将“车轴”标注为“零件”等,并通过程序编写将标注完成的语料进行bio序列标注,示例地,将“转向架”标注为“bii”形式,并将标注数据分为训练集、测试集和验证集,且数据量比例为8:1:1。
[0076]
3)命名实体识别模型构建和训练
[0077]
基于bert-bilstm-crf模型构建命名实体识别模型,对训练集进行分词、去停用词、获取初始词向量,将获取的初始词向量输入bert模型中进行微调训练得到输出的词向量,之后将输出的词向量输入到bilstm-crf模型中,进行序列标注,其中,crf模型用于提高序列标注结果的准确度,输出概率最大的标注序列;将训练集输入构建的模型中进行训练,将得到的结果通过验证集进行验证,知道得到最好的训练结果,最后输出概率最大的序列标注结果。
[0078]
可选地,阶段知识图谱的实体融合的方法包括:
[0079]
将领域知识图谱的实体的属性进行规范化,其中,属性的类型包括结构化属性和非结构化属性;
[0080]
基于阶段知识图谱的本体概念映射关系,获取存在映射关系的相同本体概念下的聚类实体;
[0081]
基于结构化属性的单位和约束匹配,利用最小编辑距离,确定聚类实体中结构化属性相似度;
[0082]
基于非结构化属性的语义特征向量,利用语义特征向量的余弦相似度,确定聚类实体的非结构化属性相似度;
[0083]
基于结构化属性相似度和非结构化属性相似度,确定实体综合相似度,实现阶段知识图谱的实体对齐。
[0084]
示例地,实体属性规范化方式包括但不限于:人工方式。采用人工方式对实体的属性进行规范化,包括但不限于属性名称、属性值、属性值的单位,如,对数值型结构化属性中的单位“克”和“g”进行统一规范化为“g”,对文本型非结构化属性中的属性名称“环境最高温度”和“最高环境温度”,统一规范化为“最高环境温度”。
[0085]
可选地,经过阶段知识图谱的本体映射,将实体按照本体中的概念标签进行分类,将相同概念标签下的实体进行聚类,将存在映射关系的两个本体概念下的实体作为待对齐实体,得到概念标签下的聚类实体。即,获取映射关系(ai,bj)及ai下的实体集ei和bj下的实体集ej,经实体聚类后,输出聚类实体集ei、ej。
[0086]
可选地,实体结构化属性相似度的计算方法包括:
[0087]
对于数值型结构化属性,对单位和约束进行匹配,单位和约束匹配模板如表2所示。
[0088]
表2单位和约束匹配模板
[0089]
约束(constraint)单位(unit)标志(flag)不得大于mm1不大于%1
≤mm1不得超过升1不大于mm1不低于年2不少于km2不得小于mm2
±
g6
±
kn6
±
mm6
[0090]
采用最小编辑距离计算每个公共属性的编辑距离相似度,编辑距离相似度的计算公式如式(1)所示:
[0091][0092]
其中,p
ai
表示实体a的第i个属性,p
bi
表示实体b的第i个属性,edit(v
ai
,v
bi
)表示实体a与实体b第i个公共属性属性值的最小编辑距离,len(v
ai
)和len(v
bi
)分别表示实体a和实体b第i个公共属性的长度。
[0093]
结构化属性相似度的计算公式如式(2)所示:
[0094][0095]
其中,wi表示第i个公共属性的权重,t表示公共属性数量。
[0096]
可选地,非结构化属性相似度的计算方法包括:
[0097]
对于实体中的非结构化文本属性,通过相应属性的描述文本和领域词典进行词嵌入构造非结构化文本属性的语义特征向量,通过计算语义特征向量的余弦相似度来获取非结构化文本属性的相似度。
[0098]
1)获取词向量
[0099]
将文本的描述文本作为训练语料库,使用jieba分词和ltp停词库对文本进行预处理,将文本经过随机初始化构建词向量,并经cbow模型和bilstm模型训练,获取综合词向量。
[0100]
2)非结构化属性相似度计算
[0101]
获取每个待对齐实体对的非结构化文本属性的特征向量,利用实体a的每个非结构化文本属性特征向量va和实体b的每个非结构化文本属性特征向量vb计算余弦相似度,余弦相似度计算公式如式(3)所示:
[0102][0103]
其中,f
ai
表示实体a的第i个非结构化文本属性,f
bi
表示实体b的第i个非结构化文本属性,v
ai
表示实体a的第i个非结构化文本属性对应的特征向量,v
bi
表示实体b的第i个非结构化文本属性对应的特征向量,|v
ai
|和|v
bi
|分别表示特征向量v
ai
和v
bi
的模长,sim(f
ai
,fbi
)表示实体对间每个非结构化属性的余弦相似度,设置余弦相似度阈值为0.6,选取余弦相似度最高的属性对,若余弦相似度大于0.6,则归为相似属性,记录相似度,循环比较后得到t个相似属性对,计算实体a与实体b的非结构化文本相似度,非结构化文本相似度如式(4)所示:
[0104][0105]
可选地,将结构化属性相似度与非结构化属性相似度进行权值归一,获取实体综合相似度,实体综合相似度如式(5)所示:
[0106]
sime(a,b)=w1·
simz(a,b) w2·
simf(a,b)
ꢀꢀꢀꢀꢀ
(5),
[0107]
其中,w1为结构化属性相似度权值,w2为非结构化属性相似度权值。
[0108]
对于领域知识图谱概念ai中的每个实体a通过实体综合相似度sime(a,b)值对阶段领域结构树中的映射概念bi中的实体b进行降序排序,生成最优候选序列,选取相似度最高且大于设定阈值的实体b当作可对齐实体。
[0109]
步骤130、基于组织分析数据的阶段领域结构树,进行阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
[0110]
可选地,图5是本发明提供的各阶段知识图谱的融合流程示意图,如图5所示,该方法包括:
[0111]
基于阶段领域结构树的编码属性,构建产品编码结构树,实现本体对齐;
[0112]
将阶段领域结构树的实体属性规范化;
[0113]
获取阶段领域结构树的本体概念下的聚类实体;
[0114]
基于聚类实体,确定实体综合相似度,以获得阶段领域结构树的本体概念下的各领域阶段实体之间的映射关系,其中,综合相似度包括结构化属性相似度和非结构化属性相似度。
[0115]
可选地,阶段领域结构树中,产品主族结构树拥有元节点编码作为唯一标识,设计实例结构树中同时拥有元节点编码和模块编码,其中模块编码作为唯一标识,装配实例结构树中同时拥有元节点编码、模块编码和制造码,其中制造码作为唯一标识,三者之间的映射关系为元节点编码:模块编码:制造码=1:n:n2。产品编码结构树本体的构建过程中,对于概念的描述使用的是统一的方式,因此,本体概念已经实现对齐。
[0116]
可选地,实例数据层的映射融合表现为建议各阶段领域结构树实体之间的映射关系,产品主族结构树m1(a1,a2,
……
,am),设计实例结构树m2(b1,b2,
……
,bn),装配实例结构树m3(c1,c2,
……
,cq),其中,ai表示m1中相应概念标签下的实体集,bi表示m2中相应概念标签下的实体集,ci表示m3中相应概念标签下的实体集,将三个阶段领域结构树下的实体进行两两对齐,对齐结果为一个映射关系f:ai-》bi或者f:ai-》ci或者f:bi-》ci。
[0117]
可选地,可通过人工方式对数值型结构化属性的单位和约束进行统一,对文本型非结构化属性中相同属性的属性名称进行统一,实现属性规范化。
[0118]
可选地,在不同的阶段领域结构树中,获取相同概念标签下的实体进行聚类,获得聚类实体。
[0119]
可选地,步骤130中的实体综合相似度的计算方法与步骤120中的实体综合相似度
的计算方法相同,此处不作赘述。实体综合相似度计算完成后,为两个实体之间建立映射关系,得到三元组(a,映射,b),并存储该映射关系。
[0120]
示例地,以运维阶段中的故障知识图谱和维修知识图谱为例,对阶段知识图谱融合进行示例说明,以设计实例结构树和装配实例结构树为例对阶段知识图谱的融合进行示例说明。
[0121]
步骤110、故障本体和维修本体均属于运维阶段,在构建故障本体模式和维修本体模式时,将装配实例结构树作为全局本体,并基于七步法构建本体模式,分别构建处故障本体模式和维修本体模式。其中,故障和维修的数据分别来源于故障记录文本和维修手册,均属于非结构化数据,采用基于bert-bilstm-crf模型进行实体抽取,构建故障知识图谱和维修知识图谱。
[0122]
步骤120、阶段知识图谱融合
[0123]
由于故障知识图谱和维修知识图谱均属于运维阶段,因此,将装配实例结构树本体作为对齐本体,将装配实例结构树实体作为对齐实体,实现阶段领域知识图谱的融合。
[0124]
1)本体概念层的映射对齐
[0125]
获取故障知识图谱本体o1(a1,a2,
……
am)、故障知识图谱实体g1(e1,e2,
……
,en)和装配实例结构树本体o2(b1,b2,
……
bq),将故障知识图谱中概念下的实体输入到命名实体识别模型中,如,将系统、子系统、部件等概念下的实体,如转向架、构架等实体输入命名实体识别模型,输出结果与本体o2的概念进行比对后,得出实体识别结果为(转向架,系统)、(构架,子系统),则建立映射关系f:系统-》系统、子系统-》子系统,其中,故障知识图谱中概念系统下的实体均属于装配实例结构树本体中的实体,具有相等关系。
[0126]
表3部分映射集合
[0127][0128]
同理,获取维修知识图谱本体、维修知识图谱实体和装配实例结构树本体,将概念结构、维修方法、维修策略等概念下的实体输入命名实体识别模型中,进行命名实体识别,得到实体识别结果为(转向架,系统)、(车轴,零件)等,建立映射关系f:结构-》系统、结构-》零件,由于维修知识图谱中概念结构下的实体包含装配实例结构树本体中概念系统、零件、子系统下的实体,因此,概念结构与概念系统、子系统、部件、零件之间为包含关系,建立的部分映射集合如表3所示。
[0129]
2)基于多信息融合相似度计算的实例层实体对齐
[0130]
(1)属性规范化
[0131]
在故障知识图谱中,采用人工方式,对实体属性如制造码、名称、制造商、制造日期
等进行规范化,使得相同属性具有相同的名称。
[0132]
(2)实体聚类
[0133]
经本体映射融合后,得到映射概念关系(系统,系统)、(子系统,子系统)、(部件,部件)、(零件,零件),按照概念标签获取相应概念下的实体,从而得到聚类实体集,以概念标签“系统”为例,将故障知识图谱中概念标签“系统”下的实体集与装配实例结构树中概念“系统”下的实体经过相似度计算得到对齐实体对。取出故障知识图谱实体中概念标签“系统”下的实体集为(转向架(ca358505_zxj_0001),转向架(ca360305_zxj_0004),
……
),装配实例结构树概念标签“系统”下的实体集为(厦门01转向架,福建01转向架
……
)
[0134]
(3)结构化属性相似度计算
[0135]
故障知识图谱实体中转向架(ca358505_zxj_0001)和装配实例结构树实体中福建01转向架和厦门01转向架的部分公共属性相似度计算结果如表4所示。
[0136]
实体厦门01转向架和实体福建01转向架中,总的结构化属性相似度计算结果如式(6)-式(7)所示:
[0137]
厦门01转向架:
[0138]
福建01转向架:
[0139][0140]
表4故障实体部分公共属性相似度计算结果
[0141]
公共属性名称厦门01转向架福建01转向架制造码10.2生产日期10.2轴重10.8设计速度10.6
[0142]
(4)非结构化属性相似度计算
[0143]
故障知识图谱实体中转向架(ca358505_zxj_0001)和装配实例结构树实体中福建01转向架和厦门01转向架的部分公共属性相似度计算结果如表5所示。
[0144]
表5故障实体部分公共属性相似度计算结果
[0145]
属性名称厦门01转向架福建01转向架转向架型式11车轮型式11车轮踏面型式11车轴材料0.90.6制动盘材料0.80.7
[0146]
相似度阈值设为0.6,将相似度大于0.6的属性对取出,计算非结构化属性相似度。实体厦门01转向架和实体福建01转向架中,总的结构化属性相似度计算结果如式(8)-式(9)所示:
[0147]
厦门01转向架:
[0148]
福建01转向架:
[0149]
(5)实体综合计算度计算
[0150]
将结构化属性相似度和非结构化属性相似度进行权值归一得到实体的综合相似度。将非结构化属性相似度权值设为0.8,结构化属性相似度权值设为0.2,转向架(ca358505_zxj_0001)”和装配实例结构树实体中厦门01转向架和福建01转向架的综合相似度计算结果如式(10)-式(11)所示:
[0151]
厦门01转向架:sime(a,b)=0.8
×
2.3 0.2
×
0.94=2.028
ꢀꢀꢀꢀꢀꢀꢀꢀ
(10),
[0152]
福建01转向架:sime(a,b)=0.8
×
0.15 0.2
×
0.86=0.292
ꢀꢀꢀꢀꢀꢀꢀ
(11)。
[0153]
将预置设为0.8,对综合相似度降序排序得到最优候选序列排序:厦门01转向架。得到最终对齐实体对:(转向架(ca358505_zxj_0001),厦门01转向架)。
[0154]
步骤130、阶段领域结构树本体的映射融合
[0155]
1)实体聚类
[0156]
以设计实例结构树和装配实例结构树中的概念标签“系统”为例,获取相应概念标签下的聚类实体ai(crh380a,crh3a,
……
)和bi(厦门01转向架,福建01转向架,
……
)。
[0157]
2)相似度计算
[0158]
(1)设计实例结构树实体crh380a和装配实例结构树实体中厦门01转向架和福建01转向架的部分公共属性相似度计算结果如表6所示。
[0159]
表6部分公共属性相似度计算结果
[0160]
公共属性名称厦门01转向架福建01转向架元节点编码11模块编码10.7轴重11适应环境温度10.8
[0161]
总的结构化属性相似度计算结果如式(12)-式(13)所示:
[0162]
厦门01转向架:
[0163]
福建01转向架:
[0164]
(2)非结构化属性相似度计算
[0165]
设置相似度阈值为0.6,选取相似度最高的属性对,若相似度大于0.6,则归为相似属性,设计实例结构树实体crh380a和装配实例结构树实体中厦门01转向架和福建01转向架的非结构化属性相似度计算结果如表7所示。
[0166]
表7非结构化属性相似度计算结果
[0167]
属性名称厦门01转向架福建01转向架转向架型式11
车轮型式11车轮踏面型式11车轴材料0.90.6制动盘材料0.80.7
[0168]
将相似度大于0.6的属性对取出,非结构化属性相似度如式(14)-式(15)所示:
[0169]
厦门01转向架:
[0170]
福建01转向架:
[0171]
(3)实体综合相似度计算
[0172]
将非结构化属性相似度权值设为0.8,结构化属性相似度权值设为0.2,设计实例结构树中实体“crh380a”和装配实例结构树中的实体厦门01转向架和福建01转向架的综合相似度计算结果如(16)-式(17)所示:
[0173]
厦门01转向架:sime(a,b)=0.8
×
2.3 0.2
×
0.94=2.028
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(16),
[0174]
福建01转向架:sime(a,b)=0.8
×
2.06 0.2
×
0.86=1.82
ꢀꢀꢀꢀꢀꢀꢀ
(17)。
[0175]
将阈值设为0.8,对实体综合相似度降序排序,得到最优候选序列排序:(厦门01转向架,福建01转向架),进而得到最终对齐实体对:(crh380a,厦门01转向架),建立映射关系,得到三元组(crh380a,映射,厦门01转向架)。
[0176]
本发明提供的高速列车产品结构树知识融合方法,通过对高速列车多元数据的组织分析,阶段领域结构树和领域结构树,基于领域结构树,通过本体模式构建领域知识图谱,基于领域知识图谱,基于实例数据的命名实体识别输出的本体概念进行映射对齐,且基于聚类实体利用多信息融合相似度进行实体对齐,将异构的领域知识图谱融合为阶段知识图谱,实现阶段的数据融合;同时,基于阶段领域结构树,构建产品编码结构树实现阶段领域结构树的本体对齐,并通过建立各阶段实体之间的映射关系实现阶段领域结构树中实例数据层的映射融和,实现高速列车各阶段知识图谱的融合,使得高速列车领域数据之间互通互联关系更加清晰,进一步解决了高速列车领域多阶段数据的异构、冗余问题。
[0177]
下面对本发明提供的高速列车产品结构树知识融合装置进行描述,下文描述的高速列车产品结构树知识融合装置与上文描述的高速列车产品结构树知识融合方法可相互对应参照。
[0178]
本发明还提供一种高速列车产品结构树知识融合装置,图6是本发明提供的高速列车产品结构树知识融合装置的结构示意图,如图6所示,高速列车产品结构树知识融合装置200包括:构建模块201、第一融合模块202、第二融合模块203,其中:
[0179]
构建模块201,用于获取高速列车多元数据的组织分析数据,构建本体模式,并根据本体模式构建领域知识图谱;
[0180]
第一融合模块202,用于将领域知识图谱融合为阶段知识图谱,其中,阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现;
[0181]
第二融合模块203,用于基于组织分析数据的阶段领域结构树,进行阶段领域结构
树本体的映射融合,用以实现各阶段知识图谱的融合。
[0182]
本发明提供的高速列车产品结构树知识融合装置,通过对高速列车多元数据的组织分析,阶段领域结构树和领域结构树,基于领域结构树,通过本体模式构建领域知识图谱,基于领域知识图谱,基于实例数据的命名实体识别输出的本体概念进行映射对齐,且基于聚类实体利用多信息融合相似度进行实体对齐,将异构的领域知识图谱融合为阶段知识图谱,实现阶段的数据融合;同时,基于阶段领域结构树,构建产品编码结构树实现阶段领域结构树的本体对齐,并通过建立各阶段实体之间的映射关系实现阶段领域结构树中实例数据层的映射融和,实现高速列车各阶段知识图谱的融合,使得高速列车领域数据之间互通互联关系更加清晰,进一步解决了高速列车领域多阶段数据的异构、冗余问题。
[0183]
可选地,构建模块201,具体用于:
[0184]
基于高速列车多元数据,获取组织分析数据,其中,组织分析数据包括:数据来源、领域阶段、领域结构树和阶段领域结构树,阶段领域结构树包括:产品族主结构树、设计实例结构树、装配实例结构树;数据来源包括结构化数据、半结构化数据和非结构化数据;
[0185]
基于组织分析数据,获取数据服务的上下文信息、数据类型和本体概要模型,构建本体模式;
[0186]
根据阶段领域结构树获取全局本体,基于全局本体获取局部本体,并结合本体模式获取数据构建领域知识图谱。
[0187]
可选地,第一融合模块202,具体用于:
[0188]
基于预先获取的语料数据,训练获取命名实体识别模型,其中,对语料数据进行实体标注和序列标注后输入命名实体识别模型;
[0189]
基于命名实体识别模型,获取领域知识图谱中的实体对应的本体概念;
[0190]
基于领域知识图谱中的实体对应的本体概念与领域结构树中本体概念的对照结果,获取阶段知识图谱的本体概念映射关系。
[0191]
可选地,第一融合模块202,具体用于:
[0192]
将领域知识图谱的实体的属性进行规范化,其中,属性的类型包括结构化属性和非结构化属性;
[0193]
基于阶段知识图谱的本体概念映射关系,获取存在映射关系的相同本体概念下的聚类实体;
[0194]
基于结构化属性的单位和约束匹配,利用最小编辑距离,确定聚类实体中结构化属性相似度;
[0195]
基于非结构化属性的语义特征向量,利用语义特征向量的余弦相似度,确定聚类实体的非结构化属性相似度;
[0196]
基于结构化属性相似度和非结构化属性相似度,确定实体综合相似度,实现阶段知识图谱的实体对齐。
[0197]
可选地,第二融合模块203,具体用于:
[0198]
基于阶段领域结构树的编码属性,构建产品编码结构树,实现本体对齐;
[0199]
将阶段领域结构树的实体属性规范化;
[0200]
获取阶段领域结构树的本体概念下的聚类实体;
[0201]
基于聚类实体,确定实体综合相似度,以获得阶段领域结构树的本体概念下的各
领域阶段实体之间的映射关系,其中,综合相似度包括结构化属性相似度和非结构化属性相似度。
[0202]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备300可以包括:处理器(processor)310、通信接口(communications interface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行高速列车产品结构树知识融合方法,该方法包括:
[0203]
获取高速列车多元数据的组织分析数据,构建本体模式,并根据本体模式构建领域知识图谱;
[0204]
将领域知识图谱融合为阶段知识图谱,其中,阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现;
[0205]
基于组织分析数据的阶段领域结构树,进行阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
[0206]
此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0207]
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的高速列车产品结构树知识融合方法,该方法包括:
[0208]
获取高速列车多元数据的组织分析数据,构建本体模式,并根据本体模式构建领域知识图谱;
[0209]
将领域知识图谱融合为阶段知识图谱,其中,阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,阶段知识图谱的实体融合是基于聚类实体利用多信息融合相似度进行实体对齐而实现;
[0210]
基于组织分析数据的阶段领域结构树,进行阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
[0211]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的高速列车产品结构树知识融合方法,该方法包括:
[0212]
获取高速列车多元数据的组织分析数据,构建本体模式,并根据本体模式构建领域知识图谱;
[0213]
将领域知识图谱融合为阶段知识图谱,其中,阶段知识图谱的本体融合是基于实例数据的命名实体识别输出的本体概念进行映射对齐而实现,阶段知识图谱的实体融合是
基于聚类实体利用多信息融合相似度进行实体对齐而实现;
[0214]
基于组织分析数据的阶段领域结构树,进行阶段领域结构树本体的映射融合,用以实现各阶段知识图谱的融合。
[0215]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0216]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
[0217]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献