一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种针对物联网数据的自动语义标注系统的制作方法

2022-04-06 20:58:40 来源:中国专利 TAG:


1.本发明属于物联网技术和语义网技术结合领域,涉及一种针对物联网数据的自动语义标注系统。


背景技术:

2.物联网技术的快速发展,使各种物联网产品层出不穷,一方面,硬件价格下降,另一方面,日常设备和器具配备了功能更强的硬件,导致传感器节点的数量不断增加。海量数据需要各种操作才能实现高质量的数据处理,如实时报告、空间分布、传感器的多样性以及有效处理数据等。由于传感器设备来源于不同厂商,不同传感器具有不同的数据输出格式、精度、数据长度,即使同一类型传感器由于设计原因和厂商的不同,数据的输出形式也会存在差别。同时,这些异构数据还极大增加了物联网各系统之间资源协同交互、数据融合及分析推理的复杂度,并且还为数据资源的跨域共享及重用带来了极大困难与局限性。因此造成了数据之间相互孤立,不能发挥出数据价值的最大效用。对于数据资源的有效处理是实现智能服务的前提,但机器却难以对这些异构数据进行融合共享操作。因此,如何屏蔽数据间异构性和孤立性,更好地理解不同设备所产生的数据信息含义,挖掘出各类数据的深层价值,从而提高数据利用率,满足复杂多变的上层应用需求,这已成为目前物联网数据处理领域所研究的热点问题。
3.在物联网中语义标注技术来解决对海量、多源、异构的物联网数据的统一描述问题,通过使用一种国际标准化的数据描述语言为基础来实现异构数据之间的互操作,从而提升物联网主体理解信息、关联信息的能力。对物联网数据使用语义描述背后的关键思想是实现物联网数据的表示、形式化和增强互操作性。本体可以用来存储语义概念,这些语义概念表示真实世界中的现象和属性,由于标准化的数据表示,机器也可以理解这些现象和属性。
4.现有的物联网数据自动语义标注、处理方法和系统一般只针对物联网设备进行语义描述,且未对任何数据进行处理达到异构数据源的相同语义表示,现有的标注字典生成方法只适用于文本内容,且不适用于大规模数据集;现有技术根据语义信息相似度筛选本体概念,准确率和效率都低。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种对物联网传感器数据进行自动语义标注系统,基于kma聚类算法,实现数据分类,提升物联网主体(计算机、各类终端应用)理解信息、关联信息的能力,并提升语义注释准确性和效率,实现较大规模数据的精准标注,减少计算机资源消耗。
6.为达到上述目的,本发明提供如下技术方案:
7.一种针对物联网数据的自动语义标注系统,包括物联网传感器数据预处理模块、物联网领域本体模块、数据rdf处理模块和语义标注模块;
8.所述物联网传感器数据预处理模块用于对传感器数据进行分析预处理,对感知数据进行格式和位置分析,并使用聚类算法挖掘数据中隐含的知识信息,为语义标注做准备。
9.所述物联网领域本体模块用于表示物联网中传感器节点数据的语义概念和概念的属性、关系;包括传感器节点信息、数据类型、环境状态等概念。
10.所述数据rdf处理模块用于将经过预处理的物联网传感器数据流格式化成本体中的数据形式,即转换成包含语义信息的rdf格式数据;rdf三元组是语义网数据表示的基础,构建rdf数据集是实现语义标注的一项基础性工作。
11.所述语义标注模块使用基于swrl语言定义的推理规则为经过聚类分析后的rdf三元组格式的传感器数据流添加概念和属性。该规则的语法基于语义web规则语言(swrl),该语言可以根据元数据信息和外部数据资源提取规则,实现自动定义标签,swrl中定义的规则遵循语法形式:其中consequent是用于标记概念和属性以及实现先行规则的预期名称。
12.进一步,所述物联网传感器数据预处理模块使用kma聚类算法,将数据降维处理并挖掘出数据中隐含的知识信息,最终将数据输出为json格式。
13.进一步,所述kma聚类算法,该算法基于k-modes和蚁群聚类两种机器学习算法改进,具体算法步骤如下:
14.1)任意选择k个对象作为初始聚类中心;
15.2)将每个对象指定给最相似的中心;
16.3)更新集群质心;
17.4)合并集群质心;
18.5)返回到步骤2),直到质心不再更改为止;
19.6)对每个数据对象到相应的聚类中心k分配初始不同的信息素ω,保证簇中各样本路径上的信息素要多于各簇之间的信息素;
20.7)根据路径上的信息素计算蚂蚁转移概率,将数据分类到相似簇中;
21.8)完成一次遍历后,信息素更新迭代;
22.9)当最小距离不再变化或者达到设定的迭代次数时,算法终止,输出最优聚类结果;
23.此过程完成数据分类处理并挖掘出数据中隐含的知识信息,最终输出json格式文档。
24.进一步,所述物联网领域本体模块是基于传感器网络本体(ssn)的相关概念和关系,并结合具体的物联网环境,添加额外的概念、属性和关系集合,所构建的物联网领域本体是针对物联网数据的知识集合。
25.进一步,ssn本体没有对传感器进行分类且对传感器数据描述能力不足,因此,构建适用于传感器数据自动语义标注的本体,必须要结合目前构建本体相关技术,参照经典本体的构建形式及内容,遵循以下步骤的本体构建流程完成面向物联网领域本体的设计与实现。
26.所述构建物联网领域本体,包括以下步骤:
27.确定领域概念;
28.建立概念的数据类型属性;
29.建立概念间的父子类关系;
30.建立概念与概念间的关系;
31.建立概念的实例,确定实例间的关系;
32.形成本体的逻辑体系结构。
33.进一步,所述数据rdf处理模块采用rdf转换算法,将经过预处理输出json格式文档中的数据转换为具有主语、谓语和宾语形式的rdf三元组。其中的rdf三元组用于表示数据信息,并使其能在应用程序交换过程中保持稳定,达到不丢失语义信息的效果。rdf数据可以使用xml或者turtle格式的文档进行描述。
34.进一步,语义标注模块使用基于swrl语言定义的推理规则为经过聚类分析后的rdf三元组格式的传感器数据流添加概念和属性;swrl语言中定义的规则遵循语法形式为:其中consequent用于标记概念和属性以及实现先行规则的预期名称。
35.进一步,语义标注模块首先解析物联网领域本体,将物联网领域本体中定义的概念、属性和关系作为语义标注规则基准信息集,根据该基准信息集对聚类分析后包含知识信息的rdf三元组数据,使用swrl语言标记聚类结果中提取的未命名概念和属性,并将语义信息实时集成到物联网环境中的异构传感器流数据中,从而实现自动语义标注,最终将标注后的数据存入allegrograph图形数据库并更新本体。
36.本发明的有益效果在于:
37.本发明有效去除了部分重复数据并且显著提高了数据分析效率,从而在提高语义标注准确率的同时提高了数据利用率。
38.本发明可以更准确地描述语义信息,提高系统的整体准确性。
39.本发明实现了从资源中获取知识的自动化。
40.针对传统人工语义标注和半自动语义标注的人力资源、设备资源占用大及处理时延迟高等问题,本发明可有效的减少人力和资源浪费,极大提升标注效率。
41.本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
42.为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
43.图1语义标注系统模型图;
44.图2本体构建流程图;
45.图3kma聚类算法流程图;
46.图4rdf转换算法流程图;
47.图5领域本体图。
具体实施方式
48.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
49.其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
50.本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
51.结合附图1,本发明是针对物联网传感器数据的自动语义标注方法和系统,包含了传感器数据预处理模块、物联网领域本体模块、数据rdf处理模块和语义标注模块。本发明在数据预处理模块主要使用结合k-modes聚类算法和蚁群聚类算法改进的kma聚类算法挖掘数据中隐藏的知识信息,通过计算不同样本集之间在欧几里德空间中的距离和蚁群遍历中的信息素形成聚类。基于kma聚类算法遵循以下步骤:
52.(1)任意选择k个对象作为初始聚类中心;
53.(2)将每个对象指定给最相似的中心;
54.(3)更新集群质心;
55.(4)合并集群质心;
56.(5)返回到步骤2,直到质心不再更改为止;
57.(6)对每个数据对象到相应的聚类中心k分配初始不同的信息素ω,保证簇中各样本路径上的信息素要多于各簇之间的信息素;
58.(7)根据路径上的信息素计算蚂蚁转移概率,将数据分类到相似簇中;
59.(8)完成一次遍历后,信息素更新迭代;
60.(9)当最小距离不再变化或者达到设定的迭代次数时,算法终止,输出最优聚类结果。
61.经过kma聚类算法处理的数据分为不同簇,同一簇内的数据代表相同的概念信息和知识信息,不同簇内数据代表了不同的概念信息和知识信息,算法流程图如附图3所示。
62.物联网领域本体模块用于表示该领域内传感器节点信息、数据类型、环境状态等概念及其属性、关系。基于w3c标准中的ssn本体和应用领域具体环境中的实际情况进行本体构建。此外领域本体的建模准则主要参考gruber于1995年提出的本体建模五条准则:明确性和客观性、全面性、一致性、最大单调可扩展性、最小承诺和最小编码偏好。
63.实施中采用附图2所示的本体构建流程作为物联网领域本体的建模步骤,并遵循gruber提出的五条建模准则,同时以topbraid composer企业版软件作为本体建模工具以及使用rdf作为本体建模语言,最终所构建的本体如附图5所示。
64.建模步骤为:
65.1)确定领域概念;
66.2)建立概念的数据类型属性;
67.3)建立概念间的父子类关系;
68.4)建立概念与概念间的关系;
69.5)建立概念的实例,确定实例间的关系;
70.6)形成本体的逻辑体系结构。
71.本体使用rdf描述语言,因此需要将经过聚类处理的数据,转化为与本体一致的rdf描述。本发明使用rdf转换算法,给数据添加三元组信息,形成rdf三元组,算法流程图如附图4所示,转化算法遵循以下步骤:
72.(1)确定命名空间;
73.(2)确定主语、谓语和宾语;
74.(3)添加三元组信息;
75.语义标注模型使用swrl语言定义推理规则,以下为swrl语言的示例:
76.istempsensor(?temp)&lessthan(?tval,10)=》coldtemp
77.该语句描述如果满足先决条件“来自温度传感器数据”并且“测量值低于10”,则可使用以上条件推理出该概念结果为“低温”。在实现过程中,可以考虑不同传感器类型或其组合可能产生的状态来手动定义规则。
78.但是,在大规模数据处理场景中,手动定义规则不是一种可行的办法,因此需要构造能够自动提取规则的机制,通过解析物联网领域本体,将解析结果作为语义标注基准规则。根据本体中传感器类型,可以推断出可作为概念或属性的注释信息,如温度,光照,功耗,位置和故障信息等,并将注释完成的数据存入allegrograph图形数据库。
79.通过用于查看、查询和管理allegrograph数据库的图形化用户接口agwebview,可以获取经过语义标注的rdf数据,并在命名图上进行sparql查询和rdfs 本体推理。在查询历史数据信息时使用sparql语言可以对allegrograph数据库进行查询。
80.综上所述,通过以上实施方式的具体描述,本领域的技术人员可以清晰的了解到实施步骤,从而借助所需要的软硬件平台来自行实现。本发明设计的一种针对物联网数据的自动语义标注方法和系统,可以将物联网数据处理技术和语义技术相结合,并使用kma聚类算法进行数据分类、挖掘知识信息,并将物联网领域本体的概念、属性和关系作为基准信息集,并使用swrl语言将数据标注上语义信息,从而提高语义标注效率和精确度。实现物联网传感器数据的自动语义标注,提升物联网主体(计算机、各类终端应用)理解信息、关联信息的能力,并为其所获取到的数据提供结构一致且含义明确的语义描述,有利于物联网主体之间更好地理解彼此所产生的数据信息,从而提高数据的利用率和互操作性能,实现物联网系统之间数据的有效共享,提升整个物联网系统运行效率。
81.最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技
术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献