一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于复杂网络的工业大数据的社团划分及向量表征方法与流程

2022-03-05 04:56:10 来源:中国专利 TAG:


1.本发明涉及工业互联网数据分析技术领域,尤其涉及一种基于复杂网络的工业大数据的社团划分及向量表征方法。


背景技术:

2.在工业4.0时代背景下,工业互联网相关技术快速发展,以设备密集型、设备中心型工业企业纷纷启动智能化、智慧化转型项目,基于传感器技术、物联网传输技术、大数据计算等技术,实现工业设备的连接、监控,数字孪生的构建,预测性维护、生产效率优化、安全保障、生产优化等一系列智慧化应用的落地,并产生价值。
3.工业大数据分析和建模并构建智慧化应用的前题是可以采集到工业实时数据,工业传感器(温度、湿度、压力、流量、光谱、速度、震动等等)和工业控制系统(plc/dcs)是当前工业领域数据采集的最主要手段。
4.工业制造大数据中蕴含了海量知识,一方面,对于制造企业实际生产流程优化和经营改善具有极大价值;另一方面,不同企业的制造大数据知识融合与汇聚,将极大的触发更深层次的数据“链式反应”,揭示企业生产、管理、经营状态和运行发展规律,对于指导企业产品优化、生产流程优化、维护过程优化、供应链优化等具有重要意义。工业制造大数据知识图谱是提升制造企业对大数据综合利用的重要手段。工业制造大数据知识汇聚、知识表征、知识融合和各类基于工业制造大数据知识图谱的顶层应用的构建存在体量大、价值密度稀疏、时序变化等难点问题。如何提升工业制造大数据知识图谱应用效率,降低计算规模、提升价值密度是一个重要的挑战问题。
5.知识图谱(knowledge graph)技术是近年来兴起的热门人工智能技术,它可以被广泛地应用在知识表达、自动推理、对话生成、自动问答等人工智能系统中。表示学习(也称为表征学习,representation learning)是将考虑的实体或关系计算出相应的向量化表示的方法,它是深度学习的最核心技术。知识图谱表征学习就是利用机器学习技术自动获取每一个实体或者关系的向量化表达。表征学习旨在将研究对象的语义信息表示为稠密低维实体向量,知识图谱表征学习主要是面对知识图谱中的实体和关系进行表征学习,使用建模方法将实体和关系在低维稠密向量空间中,然后进行计算和推理,即简单说:将三元组表示成向量的这个过程就称为表示学习。传统的知识图谱在表征学习方面,通常对整个图谱上的实体和关系进行向量化表示,其共同特点都是采用翻译的方式将实体或关系映射到低维向量空间,当知识图谱规模不大、对图谱的更新要求不高的时候,传统的方法是有效的。但是,对应工业制造大数据而言,由于各类机器数据(生产设备、传感器、各类系统)规模超量、实时性强,传统的面向全局网络的实体向量表征计算方法已经无法满足其需求。


技术实现要素:

6.针对上述现有技术的不足,本发明提供一种基于复杂网络的工业大数据的社团划分及向量表征方法。
7.为解决上述技术问题,本发明所采取的技术方案是:一种基于复杂网络的工业大数据的社团划分方法,包括如下步骤:
8.步骤1:初始化工业制造大数据的知识图谱g=(v,e):假设初始m0个节点,并形成n0个初始默认社团{g1,g2,

,g
n0
},其中,元素v为工业制造大数据在知识图谱中的节点或顶点(vertex或node),元素e为知识图谱的边(edge或link);
9.步骤2:引入工业制造大数据的新节点c
p
∈{v1,v2,

,vn},计算c
p
与初始知识图谱g中的任意一个节点c的链接概率π(c
p
,c),其中c∈{g1,g2,

,g
n0
};
[0010][0011]
其中,f(c
p
,c)表示节点c
p
和c的嵌入向量embedding在知识图谱向量空间中的相似性,k(c)表示节点c在知识图谱网络中的拓扑重要程度,α∈[0,1]是权重条件因子。
[0012]
所述权重条件因子α采用gridsearch自动调参的方法,α取值范围为{1,0.8,0.6,0.4,0.2,0.1}。
[0013]
所述函数f(c
p
,c)采用向量内积的计算方法,即其中,ec为节点c
p
和c的向量表征。
[0014]
所述知识图谱网络中的拓扑重要程度k(c)的计算方法如下:
[0015][0016]
其中,edge(c,ci)∈{0,1},当edge(c,ci)=1时,节点c与ci有直接边关联,当edge(c,ci)=0时,节点c与ci没有直接边关联,n为知识图谱网络的总节点数。
[0017]
步骤3:随机选择初始知识图谱g中与新节点c
p
链接概率最大的前s个节点作为目标节点并与新节点c
p
建立链;
[0018]
步骤4:重复步骤2和步骤3直到所有的新节点全部加入社团{g1,g2,

,g
n0
},得到工业制造大数据的新的知识图谱社团集合{g1,g2,

,gn},n为新的知识图谱中社团的个数。
[0019]
另一方面,本发明还提供一种采用上述基于复杂网络的工业大数据的社团划分方法对工业大数据进行向量表征的方法,包括如下步骤:
[0020]
步骤1:采用基于复杂网络的工业大数据的社团划分方法对工业制造大数据的知识图谱社团进行划分,得到工业制造大数据的知识图谱社团网络{g1,g2,

,gn};
[0021]
步骤2:对于任意节点v∈v,计算v到其所在的社团gi中“簇首”的路径长度,过程如下:
[0022]
步骤2.1:社团gi中的拓扑重要程度最大的节点为社团gi内的簇首节点,描述如下:
[0023][0024]
其中,z(.)为簇首节点c'的计算公式,q(c,gi)表示社团gi中的任意节点c与社团gi中的其他节点关联边数,为社团gi内所有节点度的平均值,σ2(gi)表示社团gi内所有节点度的方差;
[0025]
步骤2.2:计算v到其所在的社团gi中簇首节点c'的路径长度d
vc


[0026]
假设v到c'的路径集合为path={p1,p2,

,pn},选择v到c'的路径集合中边数最少的那条路径,用p
min
=min{path}表示;
[0027]
取路径p
min
的路径长度,即这条路径上边的个数:
[0028]dvc

=len(p
min
)
[0029]
其中,len(.)为路径长度的计算式。
[0030]
步骤3:对于社团gi,计算gi中“簇首”的向量表征e
c'
,计算公式如下:
[0031][0032]
其中,c'为簇首节点,r为知识图谱向量关系空间,t为以簇首节点c'为head的尾tail节点,(c',r,t)∈g代表了簇首节点c'的所有直接邻居节点集合,π(c',r,t)为权重因子,用于控制从邻居节点传播embedding到簇首节点的不同权重。
[0033]
进一步的,采用自注意力机制(self-attention)来定义所述权重因子π(c',r,t),如下:
[0034][0035]
其中,ec和e
t
代表知识图谱嵌入表示的节点初始的向量表征,d为用于控制点积值范围的常数。
[0036]
步骤4:聚合“簇首”节点的向量表征e
c'
和节点v的向量表征ev,生成聚合后的节点v的向量表征g(v),方法如下:
[0037][0038]
其中,leakyrelu是深度学习的激活函数,表示智能乘积element-wise product操作,w1和w2是深度学习的可学习权重系数。
[0039]
采用上述技术方案所产生的有益效果在于:本发明提供的方法面向大规模工业制造数据知识图谱环境、基于复杂网络模型的知识图谱实体向量表征学习、聚合和更新计算方法,利用复杂网络社团划分选择社团内的“簇首”节点,对社团内任意节点v的表征计算和聚合过程,同时考虑了网络拓扑重要性和节点之间embedding的兼容性。簇首节点的向量表征是预先计算的,因此,当计算任意节点v的向量表征时,不需要对它在整个网络上的邻居节点进行遍历,只需要考虑簇首节点的向量表征、以及任意节点和簇首节点之间的兼容性和节点间的网络距离,通过这种方式能够将知识图谱的规模降低至少一个数量级。本发明的方法能够有效降低工业制造大数据知识图谱网络的计算规模,解决工业制造大数据知识图谱顶层应用算法的可扩展性、提升大规模制造大数据知识图谱环境下图谱表征的计算效率。
附图说明
[0040]
图1为本发明实施例中基于复杂网络的工业大数据的社团划分方法的流程图;
[0041]
图2为本发明实施例中基于复杂网络的工业大数据的社团结构划分示意图;
[0042]
图3为本发明实施例中采用基于复杂网络的工业大数据的社团划分方法对工业大
数据进行向量表征的方法的流程图。
具体实施方式
[0043]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0044]
如图1所示,本实施例中基于复杂网络的工业大数据的社团划分方法如下所述。
[0045]
步骤1:初始化工业制造大数据的知识图谱g=(v,e):假设初始m0个节点,并形成n0个初始默认社团{g1,g2,...,g
n0
},其中,元素v为工业制造大数据在知识图谱中的节点或顶点,元素e为知识图谱的边;
[0046]
所述基于复杂网络的工业大数据的社团结构划分大致如图2所示,其中包含4个社团分别为group1、group2、group3和group4,每个社团内包含数量不同的节点,如a、b和w。
[0047]
步骤2:引入工业制造大数据的新节点c
p
∈{v1,v2,

,vn},计算c
p
与初始知识图谱g中的任意一个节点c的链接概率π(c
p
,c),其中c∈{g1,g2,

,g
n0
};
[0048][0049]
其中,f(c
p
,c)表示节点c
p
和c的嵌入向量embedding在知识图谱向量空间中的相似性,k(c)表示节点c在知识图谱网络中的拓扑重要程度,α∈[0,1]是权重条件因子。
[0050]
所述权重条件因子α采用gridsearch自动调参的方法,α取值范围为{1,0.8,0.6,0.4,0.2,0.1}。
[0051]
所述函数f(c
p
,c)采用向量内积的计算方法,即其中,ec为节点c
p
和c的向量表征。
[0052]
所述知识图谱网络中的拓扑重要程度k(c)的计算方法如下:
[0053][0054]
其中,edge(c,ci)∈{0,1},当edge(c,ci)=1时,节点c与ci有直接边关联,当edge(c,ci)=0时,节点c与ci没有直接边关联,n为知识图谱网络的总节点数。
[0055]
步骤3:随机选择初始知识图谱g中与新节点c
p
链接概率最大的前s个节点作为目标节点并与新节点c
p
建立链;
[0056]
本实施例中,对于知识图谱网络,当一个已知节点c
p
加入某个已知社团gi并与gi中的节点建立链接关系时,既要考虑gi中的任意节点c在gi中的拓扑重要程度,同时又要考虑节点c
p
与c的“兼容性”。因为根据复杂网络的基本思想,选择拓扑重要程度越高的节点与之建立连接,意味着可靠性、查询效率可能会越高,同时节点之间路径长度以及网络负载也会越小。选择“兼容性”高的节点则意味着可能会传播有效的信息会更大。在这里,兼容性是指在知识图谱向量表示空间中节点c
p
和c的embedding的相似性(或者向量空间的距离)。
[0057]
步骤4:重复步骤2和步骤3直到所有的新节点全部加入社团{g1,g2,

,g
n0
},得到工业制造大数据的新的知识图谱社团集合{g1,g2,

,gn},n为新的知识图谱中社团的个数。
[0058]
社团内节点联系紧密且路径可达,社团间节点联系稀疏且社团之间的节点不重
叠,即对于网络g,若满足且对gj,当gi≠gj时,有则称任意gi为知识图谱社团。社团的划分符合复杂网络的小世界社团(cluster)特征,而社团内节点的连接规则是基于复杂网络中“无标度”特性建立起的连接关系,并且社团与社团之间的节点存在迁移。如图2所示,社团内节点之间、社团间节点之间的连接关系分别对应复杂网络中的“短程连接”、“长程连接”。
[0059]
另一方面,本发明实施例中还提供一种采用上述基于复杂网络的工业大数据的社团划分方法对工业大数据进行向量表征的方法,其流程如图3所示,包括如下步骤:
[0060]
步骤1:采用基于复杂网络的工业大数据的社团划分方法对工业制造大数据的知识图谱社团进行划分,得到工业制造大数据的知识图谱社团网络{g1,g2,

,gn};
[0061]
步骤2:对于任意节点v∈v,计算v到其所在的社团gi中“簇首”的路径长度,过程如下:
[0062]
步骤2.1:社团gi中的拓扑重要程度最大的节点为社团gi内的簇首节点,描述如下:
[0063][0064]
其中,z(.)为簇首节点c'的计算公式,q(c,gi)表示社团gi中的任意节点c与社团gi中的其他节点关联边数,为社团gi内所有节点度的平均值,σ2(gi)表示社团gi内所有节点度的方差;
[0065]
步骤2.2:计算v到其所在的社团gi中簇首节点c'的路径长度d
vc


[0066]
假设v到c'的路径集合为path={p1,p2,

,pn},选择v到c'的路径集合中边数最少的那条路径,用p
min
=min{path}表示;
[0067]
取路径p
min
的路径长度,即这条路径上边的个数:
[0068]dvc

=len(p
min
)
[0069]
其中,len(.)为路径长度的计算式。
[0070]
步骤3:对于社团gi,计算gi中“簇首”的向量表征e
c'
,计算公式如下:
[0071][0072]
其中,c'为簇首节点,r为知识图谱向量关系空间,t为以簇首节点c'为head的尾tail节点,(c',r,t)∈g代表了簇首节点c'的所有直接邻居节点集合,π(c',r,t)为权重因子,用于控制从邻居节点传播embedding到簇首节点的不同权重。
[0073]
进一步的,采用自注意力机制来定义所述权重因子π(c',r,t),如下:
[0074][0075]
其中,ec和e
t
代表知识图谱嵌入表示的节点初始的向量表征,d为用于控制点积值范围的常数。
[0076]
步骤4:聚合“簇首”节点的向量表征e
c'
和节点v的向量表征ev,生成聚合后的节点v的向量表征g(v),方法如下:
[0077][0078]
其中,leakyrelu是深度学习的激活函数,表示智能乘积element-wise product操作,w1和w2是深度学习的可学习权重系数。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献