一种基于拓扑结构的图像图谱化实现方法与流程

2022-04-27 03:31:03 来源：中国专利 TAG：

1.本发明涉及自然语言处理技术，具体涉及一种基于拓扑结构的图像图谱化实现方法。

背景技术：

2.网络拓扑图(network topology)，指由路由器、计算机、交换机、打印机等网络节点设备与通信介质组成的网络结构图，简而言之就是将各网络节点设备与通信介质直观的在图示中体现。网络拓扑图有星型、分布式、环形、蜂窝、总线、树形、网状等多种分类的拓扑结构。网络拓扑图的作用是将各网络节点与接口之间的连接关系直观明了的体现，反应网络中各实体间的结构关系。目前存在大量的网络拓扑图，这些网络拓扑图大多是以图像的形式存在，如何快速的从这些包含网络拓扑图的图像中提取出有用的信息显得十分必要。最简单的方式是人工对照图像中的拓扑结构进行图谱的绘制，但该方法不仅耗时长，还容易出现绘制错误的情况。

技术实现要素：

3.本发明的目的在于提出一种基于拓扑结构的图像图谱化实现方法。
4.实现本发明目的的技术解决方案为：一种基于拓扑结构的图像图谱化实现方法，包括如下步骤：
5.步骤1：训练数据准备
6.收集网络设备图标的相关图像，将单个网络设备图标独立出来，生成训练数据和验证数据；
7.步骤2：语义模型训练
8.利用unet语义分割网络进行语义分割模型训练，利用训练后的模型对输入图像的语义信息进行提取；
9.步骤3：膨胀和腐蚀处理
10.利用膨胀和腐蚀算法对步骤2得到的语义结果进行处理，利用腐蚀算法去除图像中的噪声点，利用膨胀算法对图像中的连接线进行加粗；
11.步骤4：连通区域标定
12.利用连通区域标定方法对步骤3中的处理结果进行实例划分，得到不同的实例对象，获取每个实例对象的类别、大小、位置等信息；
13.步骤5：自然语言处理
14.利用自然语言处理方法对实例对象进行结果补充，并纠正语义分割模型识别可能出现的错误实例；
15.步骤6：图谱绘制
16.将步骤5得到的结果进行图谱绘制，修改其中存在的错误信息，最后以json 格式输出结果。
17.进一步的，步骤1中，训练数据准备，具体方法为：
18.步骤1.1：收集包含网络设备图标的相关图像，网络设备主要指交换机、路由器、服务器等，然后处理每一张图像，确保单个图像中仅包含一个设备图标；
19.步骤1.2：对处理后的独立设备图标的背景部分做透明化处理，只留下设备图标的主体，然后按照独立图标进行分类，同一类别的图标放在同一个文件夹下进行存储；
20.步骤1.3：从不同类别的独立图标中随机抽取数量不等的图标，统一裁剪为 512*512的尺寸，构造图像语义分割模型的训练数据集和验证数据集。
21.进一步的，步骤3中，膨胀和腐蚀处理，具体方法为：
22.步骤3.1：将步骤2得到的语义分割结果进行复制作为结果图，选用腐蚀核，将腐蚀核与结果图左上角对齐，查看腐蚀核中1所在位置对应结果图中的位置处是否有0，若有0，则将结果图中整个核的位置都置为0，否则不做处理，这样，结果图中暗的区域会变大，噪声点会被过滤掉；
23.步骤3.2：在腐蚀核为1的位置处，若有一处位置为255，则将腐蚀后的结果图中整个核的位置都置为255，否则不做处理，这样，结果图中亮的区域会变大，图片中的连接线会变粗。
24.进一步的，步骤4中，连通区域标定，具体方法为：
25.步骤4.1：将步骤3膨胀后的结果图像作为输入，按像素扫描图像第一行，把行中连续的同类别像素组成一个团，并记下起点start、终点end以及所在的行号；
26.步骤4.2：按上述步骤逐行扫描图像剩余行，如果与前一行中的所有团都没有重合区域，则给它一个新的标号；如果仅与上一行中一个团有重合区域，则将上一行的那个团的标号赋给它，并将当前团以及上一行重叠的团的标号写入一个等价对；如果与上一行的2个以上的团有重合区域，则给当前团赋一个相连团的最小标号，并将当前团以及上一行重叠的团的标号写入一个等价对；
27.步骤4.3：将等价对转换为等价序列，每一个序列需要给一个相同的标号，从1开始，给每个等价序列一个标号，之前不在等价对中团的将会作为独立的等价序列参与标号；
28.步骤4.4：遍历最初得到的团的标号，查找等价序列，给予它们上一步得到的新的标号；
29.步骤4.5：将每个团的新标号填入标记图像中，即得到每个实例对象的类别、大小、位置信息。
30.进一步的，步骤5中，自然语言处理，具体方法为：
31.步骤5.1：遍历步骤4得到的实例对象；
32.步骤5.2：对文字类别实例，利用正则表达式提取文字中的ip、mac地址并保留；
33.步骤5.3：对带有文字描述的非文字类别实例，利用命名实体识别对描述文字进行类别判定，若与原类别一致，则保留该实例，若不一致，则将其加入待确定列表中，后续进行人工校验。
34.一种基于拓扑结构的图像图谱化实现系统，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
35.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的
计算机程序，所述处理器执行所述计算机程序时，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
36.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
37.本发明与现有技术相比，其显著优点在于：能够通过图像识别中的语义分割模型自动的从包含网络拓扑结构的图像中提取出结构化的图谱信息，从而节省了人力和物力。另外加入了自然语言处理方法，使得提取结果更加全面准确。
附图说明
38.图1是基于拓扑结构的图像图谱化实现的流程图；
39.图2是语义分割的流程图；
40.图3是命名实体识别的流程图。图4是核示意图。图5是包含拓扑结构的测试图。图6是测试图片的语义分割效果图。图7是图谱可视化结果图。
具体实施方式
41.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
42.本发明基于拓扑结构的图像图谱化实现方法，所涉及流程包括以下步骤：
43.步骤1：训练数据准备
44.收集网络设备图标的相关图像，将单个网络设备图标独立出来，进行分类存放，然后使用工具将收集的图像生成训练数据和验证数据。
45.步骤1.1：收集包含网络设备图标的相关图像，网络设备主要指交换机、路由器、服务器等，然后处理每一张图像，确保单个图像中仅包含一个设备图标。
46.步骤1.2：对处理后的独立设备图标的背景部分做透明化处理，只留下设备图标的主体，然后按照独立图标进行分类，同一类别的图标放在同一个文件夹下进行存储。
47.步骤1.3：从不同类别的独立图标中随机抽取数量不等的图标，统一裁剪为 512*512的尺寸，构造图像语义分割模型的训练数据集和验证数据集。
48.步骤2：语义模型训练
49.利用深度学习语义分割算法进行模型训练，训练后的模型可用于输入图像的语义信息提取。
50.步骤2.1：采用现有语义模型中较为流行的unet语义分割网络，将步骤1准备好的训练数据集和验证数据集作为数据输入，进行语义分割模型的训练。
51.步骤2.2：语义分割模型训练完成后，将测试图像作为数据输入，进行语义分割，语义分割后的结果也是图像，其尺寸与输入图像的尺寸相同，且图像中的每一像素所属类
别均已得到。
52.步骤3：膨胀和腐蚀处理。
53.利用膨胀和腐蚀算法对输入图像进行处理，主要是利用腐蚀算法去除图像中的噪声点，利用膨胀算法对图像中的连接线等进行加粗，方便后续对结果进行标定。所述腐蚀与膨胀是数字形态学里的两个基本操作，一般用于二值图像(rgb 图也可以用)。腐蚀类似于“领域缩减”，即让图像中暗的区域变大，而膨胀类似于“领域扩张”，即让图像中亮的区域变大。
54.步骤3.1：将步骤2得到的包含语义信息的图像进行复制作为结果图，选用如附图4所示的结构作为腐蚀核(也可选用其它的结构)，将腐蚀核与结果图左上角对齐，查看核中1所在位置对应结果图中的位置处是否有0，若有0，则将结果图中整个核的位置都置为0，否则不做处理，这样，结果图中暗的区域会变大，噪声点会被过滤掉。
55.步骤3.2：膨胀处理与腐蚀操作类似，同样选用图4所示的核，但与腐蚀不同的是，在核为1的位置处，只要有一处位置为255，则将腐蚀后的结果图中整个核的位置都置为255，否则不做处理，这样，结果图中亮的区域会变大，图像中的连接线会变粗。
56.步骤4：连通区域标定。
57.由于图像包含的实例可能分属多个不同的类别，故不再利用二值图像进行连通域的标定，而是利用图像每个像素所属类别进行连通域的判定，从而得到每个实例对象的类别、大小以及位置信息等。
58.步骤4.1：将步骤3膨胀后的结果图像作为输入，按像素扫描图像第一行，把行中连续的同类别像素组成一个序列(称为一个团，run)，并记下起点start、终点end以及所在的行号。
59.步骤4.2：按上述步骤逐行扫描图像剩余行，如果组成的序列与前一行中的所有团都没有重合区域(即当前团与上一个同像素类别的团没有像素处于同一列)，则给它一个新的标号；如果它仅与上一行中一个团有重合区域，则将上一行的那个团的标号赋给它；如果它与上一行的2个以上的团有重合区域，则给当前团赋一个相连团的最小标号，并将上一行的这几个团以及当前团的标号写入一个等价对(代表这几个团属于同一类)。
60.步骤4.3：将等价对转换为等价序列，每一个序列需要给一个相同的标号，因为它们都是同一个类别。从1开始，给每个等价序列一个标号。这里给等价序列重新标号，之前不在等价对中的将会作为独立的等价序列参与标号，例如
61.等价对为《1,2》《1,6》《3,7》《9,3》《8,1》《8,10》《11,5》《11,8》《11,12》《11,13》《11,14》《15,11》，
62.经过转换后的等价序列为：
63.标号1:1-2-5-6-8-10-11-12-13-14-15
64.标号2:3-7-9
65.标号3:4
66.不在等价对中的4将参与等价序列的标号，新标号为3。
67.步骤4.4：遍历最初得到的团的标号，查找等价序列，给予它们上一步得到的新的标号。
68.步骤4.5：将每个团的新标号填入标记图像中，即可得到每个实例对象的类别、大
小、位置等信息。
69.步骤5：自然语言处理。
70.出于语义分割模型存在分类错误及充分利用图像包含的文字实例信息的考虑，在实例提取之后加入自然语言处理，进一步提高结果的准确性。
71.步骤5.1：遍历步骤4得到的实例对象。
72.步骤5.2：对文字类别实例，利用正则表达式提取文字中的ip、mac地址 (如“/^([0-9a-fa-f]{2})(([/\s:][0-9a-fa-f]{2}){5})$/”可用于匹配mac地址)等信息，即若与正则表达式匹配成功，则将该文字实例进行保留。
[0073]
步骤5.3：对带有文字描述的非文字类别实例，利用命名实体识别进行类别判定，若与原类别一致，则继续，若不一致，进行特殊标识。
[0074]
步骤6：图谱绘制
[0075]
将实例结果进行图谱绘制，并人工校验其中存在特殊标识的实例对象，最后以json格式输出结果。
[0076]
步骤6.1：利用图谱绘制工具对步骤5得到的实例对象结果进行可视化显示。
[0077]
步骤6.2：人工校验其中存在特殊标识的实例对象，然后进行结果保存。
[0078]
步骤6.3：将最终结果以json格式进行输出。
[0079]
本发明还提出一种基于拓扑结构的图像图谱化实现系统，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
[0080]
一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
[0081]
一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，基于所述的基于拓扑结构的图像图谱化实现方法，完成基于拓扑结构的图像图谱化。
[0082]
实施例
[0083]
为了验证本发明方案的有效性，进行如下实施例。
[0084]
步骤1：收集相关训练数据进行语义分割模型的训练。
[0085]
步骤2：输入一张具有拓扑结构的测试图像，如图5所示。图中包含终端、路由器，打印机等内容。
[0086]
步骤3：将测试图像作为语义分割模型的输入(语义分割模型的训练与其它深度学习的算法模型训练过程一样，这里不再详细讲述)，经过语义分割模型处理后，得到测试图像的语义信息。
[0087]
步骤4：经过语义分割模型处理后，得到了图片中的语义信息，但其中仍包含一些噪声，需要做进一步处理。选用图4所示的核结构对步骤3得到的结果做腐蚀和膨胀处理，然后对得到的结果，利用连通区域标定方法进行连通域识别，最终得到实例信息，如图6所示。
[0088]
步骤5：经过步骤7，得到图像中包含的各示例信息，如图7左下方的实例将包含“类别：终端、描述：192.168.0.5”等信息。此时，需要对结果做进一步处理，得到更为准确的实例对象。对图7中所包含的每一个实例进行如下处理：针对文字实例，若ip、mac地址等
匹配成功，则进行保留，否则予以删除；针对实例所带描述，进行命名实体识别，若识别结果与实例原有类别不一致，则进行特殊标识。
[0089]
步骤6：得到最终的实例结果后，利用相关可视化插件对提取的图谱结果进行可视化展示，如图7所示。经过人工校验带有特殊标识的实例结果后，以json (如{“entity”:[{“id”:“1”,“name”:“192.168.0.5”,“type”:“ip”},{“id”:“2”,“name”:
ꢀ“
192.168.0.1”,“type”:“路由器”}]},“relation”:[{“from”:“2”,“to”:“1”}])格式输出结果。
[0090]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0091]
以上所述实施例仅表达了本技术的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本技术构思的前提下，还可以做出若干变形和改进，这些都属于本技术的保护范围。因此，本技术专利的保护范围应以所附权利要求为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于DSL布局引擎的多表聚合方法与流程

一种基于拓扑结构的图像图谱化实现方法与流程

相关文献

最热文献