物联网数据管理研究
扫描二维码
随时随地手机看文章
引言
物联网(InternetofThings,IoT)是通过射频识别(RFID)、无线传感器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通讯,以实现智能化识别、定位、跟踪、监控和管理的一种网络,被称为继计算机、互联网之后世界信息产业的第三次浪潮。物联网是由多项信息技术融合而成的新型技术体系,目前多个国家都在花巨资进行深入研究,主要集中在射频识别RFID技术、无线传感技术、纳米技术、嵌入技术、云计算和IPV6等。
物联网是在互联网基础上的延伸和扩展的网络,它将终端延伸和扩展到了任何物品与物品之间。计算机和互联网的出现创造了大量数据,物联网创造出的数据将远多于互联网,物联网包含了数以亿级的节点,代表各种对象,从小型的无处不在的传感器设备、手持设备到大型网络服务器和超级计算机集群,数据每时每刻都在大量产生,且形式多样,如结构化数据、半结构化数据、流数据和多维数据等,有对决策贡献大的数据,也有帮助较小的数据,还有噪声数据,各种数据性质不同,处理的方式、存储的手段以及在此之上的信息提取方法各不相同,这些数据在不同的系统或场合中被使用、重用或引用,比如数据的查询、分析等。对如此海量数据的有效处理、存储和管理是物联网得以广泛应用的关键所在。而现有国内外对物联网的研究多集中在体系结构、RFID、传感网络和标准化以及物联网中间件等,对数据方面的研究比较少,KeithG.Jeffery等指出传统数据库不适于管理物联网数据,AnneJames等指出了物联网数据库结构的研究方向。鉴于此,本文在分析物联网数据特点的和现有数据管理技术的基础上,从数据模型、数据预处理与集成、存储与索引和查询分析等几个方面对物联网数据进行了有益的探索。
1物联网数据分析
1.1物联网数据的特点
物联网涉及领域多,遍及智能交通、环境保护、政府工作、公共安全、平安家居、智能消防、工业监测、环境监测、老人护理、个人健康、花卉栽培、水系监测、食品溯源、敌情侦查和情报搜集等多个领域,每个领域都有各自不同的特点,同时领域之间还有合作。因此物联网中数据具有如下特点:
海量;
共享;
类型多样,包含着关系型数据、半结构化数据、流数据和多维数据和无结构的文档等;
数据有噪声、不一致、不确定,由于采集的数据的准确度受仪器的精度制约,同时在网络传输过程(特别是无线网络传输)中,数据的准确性受到带宽、传输延时、能量等因素影响,而在传感器网络应用与RFID应用中,周围环境也会影响原始数据的准确度。
1.2物联网数据的组成
物联网中数据有离散的,有连续的,其中既有已存在的输入数据源,也有在对数据进行分析和处理的过程中产生的中间数据和最终结果数据,但大体上可以分为如下几类:
RFID标签数据:射频标识是利用无线电波来对物品进行识别和追踪的的常用技术,在标签里面存储着物品的编码,如EPCGlobal的EPCCode,此类数据多以比较简单的元组形式出现(OID,RID,T),表示某个时刻某个阅读器读到标签数据。
地址/唯一名称数据:物联网中用来标识一个物体的有可能是IP地址,如IPv4和IPv6,还有可能使用类似于DNS的层次命名结构如EPCGlobal的ONS。在底层,有的物品还可能采用简单的唯一标识符的方式,比如UUIDs(UniversallyUniqueIdentifiers)和GUIDs(GloballyUniqueIdentifiers)。
描述性数据:物联网中的大部分数据来源于此,是描述物品的基本信息、状态过程信息和体系信息的数据或者元数据,只有知道这些数据才能最大限度的使用物联网提供的服务和便利。
位置和环境数据:这些数据有的来自GPS,有的来自本地定位系统,如蜂窝基站、Wi-Fi访问点和电视塔。
传感器数据:这是数据进入物联网的渠道之一,通过组建无线传感网络用来监测气候、温度、湿度等,是一些多维的时间序列数据。
历史数据:对这些数据的访问频率不同,必须对数据分类,制定相应保存数据和数据归档的策略。
物理模型:为了提升物联网的功能,要包含一些常用的物理模型比如力学的、光学的、声学的,电磁学的,以便于对物理场景的建模和仿真。
设备的状态和命令数据:物联网可用于遥控设备,所以物联网记录了大量的命令数据以及设备的实时反馈信息,以便于将来的追踪和分析。
1.3数据流转过程
物联网中数据的流转过程如下:
利用射频识别、二维码、传感器等感知、捕获、测量技术随时随地对物品进行信息采集和获取;
将物品信息转换为适合网络传输的数据格式,如EPCGlobal采用PML文件格式传输数据。
将物品的信息通过网络传输到信息处理中心,该中心要具有海量感知信息的计算与处理能力,采用云计算平台实现信息存储资源和计算能力的分布式共享,为海量信息的高效利用提供支撑。
服务和应用是物联网的最终价值体现,各种应用通过访问处理中心获取物品的详细信息。
2物联网数据管理
工业界和学术界虽然都把对物联网的研究提到一个很高的程度,但是要想让物联网真正发挥作用,就要充分利用它的海量数据,从中发现潜在的价值。因此基于云计算平台的信息处理中心对数据的有效管理是物联网得以应用的关键。
通过上述物联网数据分析可知,物联网中存在着结构化数据如关系数据库,半结构化数据如XML数据,流数据如时间序列数据,还有一些文档、图片、声音、视频等数据,而这些数据之间又可能存在着千丝万缕的联系,采用什么样的数据模型来有效的进行数据的表示、操作和约束,采用什么样的存储和索引技术,采用什么样的查询分析方法是物联网数据管理应解决的问题,同时还要解决诸如数据保护、数据隐私、数据安全性、数据归档等问题。
2.1现有数据管理技术分析
现有成熟的数据管理技术是关系数据库,用来管理结构化的数据。各种企业应用系统和办公系统都采取这种方式,常见数据库如SQLSERVER、ORACLE、MYSQL、DB2等,这是一种基于二维表的数据结构,数据操作基于严格的数据操纵语言SQL,通过保持事务的ACID特性、加锁机制、时间戳、两阶段锁协议和并发控制等来保证数据的一致性和相容性。关系数据库是一种模式优先的管理方式,也就是说数据间的联系是经过需求分析已经确定好了的,而且数据类型和长度也是在数据库中预先定义好的。关系数据库中数据源比较单一,就是一系列的二维表,而且在整个数据管理过程中关系模式变动很少。虽然随着数据量的增大和数据异地存储的需要,又出现了分布式数据库。但是其核心还是关系型的。
而物联网中的数据源形式多样,没有统一的模式,数据存在着千丝万缕的联系,且联系是松散的、滞后的,而人们使用数据多以服务的形式来调用,而事务的ACID特性不适用于Web事务处理,因为单个的Web服务本质上来说是自治的并且只负责自身的一致性,这就会和用户的全局事务产生冲突,例如预定一次旅游,不仅要预定酒店还要预定机票,用户只关心预定旅游是否成功,但是预定机票和酒店是两套独立的系统,很有可能其中一项不成功,所以两阶段提交过程是不可行的。所以不能采用传统的关系数据库技术来管理物联网数据。
XML是管理半结构化数据的常用技术,具有自描述性,是针对异构数据的交换提出的,常用来实现模式滞后的数据集成。XML采用层次性的数据模型,通过XQuery进行数据查询。但是它多用于描述数据,如关于数据的数据-元数据就是一个很好的例子,而且XML采用树状结构在操作实现方面也不足,重要的是不能处理语义信息。
面对数据管理呈现的特点:海量、共享、多样性、不确定。工业界和学术界进行了新的尝试。
在云计算的数据管理技术中最著名的是谷歌提出的BigTable[8],这是一种为了管理结构化数据而设计的分布式存储系统,这些数据可以扩展到非常大的规模,例如在数千台商用服务器上的达到PB(Petabytes)规模的数据,通过采用列存储和用三级的层次化的方式来存储位置信息以提高存取效率和获得高扩展性。这种数据管理技术虽然已经投入使用,但是对类似数据库中的Join操作效率太低,表内数据需要切分存储,数据类型限定为string类型过于简单。
数据管理面临的挑战又产生了一种新的数据管理技术-数据空间。数据空间[9]是一种从数据到模式的管理方式,它不依赖严格的数据模式,数据模式可以是松散的、滞后的,数据模式是在数据的基础上,根据主体需求逐步演化出来的。它由主体、数据集和服务构成,其中主体是数据空间的拥有者,数据集是与主体相关的所有可控数据的集合,它包含对象以及对象间的联系,数据集随着时间的推移和业务的扩展越来越大,主体通过服务对数据空间进行管理,例如数据分类、查询、更新、索引等。但是对于数据空间的研究还处在起步阶段,实现的原型系统还是围绕个人数据空间管理如文件系统和桌面捜索。
2.2物联网数据管理框架
基于上述物联网数据的分析,结合现有数据管理技术,本文提出一个基于云计算平台的物联网数据管理框架,然后从数据模型、数据预处理与集成、数据查询、存储索引等几个方面,对物联网数据管理的相
关技术进行了研究,提出了如图1所示的物联网数据管理框架。该框架主要包括数据预处理与集成、分布式的数据中心,其中数据中心要解决数据模型、数据存储与索引、查询分析处理等问题。
2.3数据预处理与集成
这是物联网数据管理应用不可缺少的组成部分。它包含3方面的内容:
(1)数据清洗,这是物联网数据管理需要考虑的重要问题,要对不准确、不精确的数据进行数据清洗、转换等处理,包括处理缺失值,删除重复数据等,同时要考虑物联网数据采集的特殊性,如采用基于对监控对象动态聚簇建模和高效的关联度维护来估算真实的小组,在此基础上进行有效的清洗;
(2)将准确数据转化为不精确的数据或者将细粒度数据转换为粗粒度数据,从而达到安全和隐私保护等特殊目的,如采用(k,8)-匿名模型;
(3)针对物联网多类型的数据源,对不同的数据格式采用不同的数据抽取技术,从特定数据项中抽取特征信息按照物联网数据模型要求进行形式化表示,并通过模式匹配确定数据对象在数据中心中是否已经存在,以便决定下一步工作,从而完成数据集成工作。
面向服务(SOA)是最近发展起来的一种架构模型,它具有较高的可靠性和自恢复能力。它的数据交换基于XML,目前WebService是实现SOA的最佳途径,以服务的形式向外界提供灵活多样的功能。通过服务描述语言(WSDL),提供对服务接口的抽象描述,通过建立在SOAP规范基础上的消息传递机制实现服务间或服务与应用间的信息传递。
物联网的支撑设备包括高性能计算平台、海量存储以及管理系统及数据库等,数据预处理与集成可采用面向服务的架构,通过自行创建一组高内聚低耦合的服务或者调用云计算平台提供的服务来完成特定的功能。面向服务架构以及云计算基础设施,必定促进物联网数据的集成。
2.4数据模型
定义与场景相匹配的模型是数据管理的首要任务,数据模型包括数据结构、数据操作和数据约束,是数据管理技术的基础和核心,它应该能够概括物联网数据的特点,提供高效的数据服务。
物联网数据存在着不确定性,可能世界(PossibleWorld)模型是描述不确定性数据的通用模型,该模型包含若干个可能世界实例,所有可能世界实例的发生概率之和等于1。针对于具体的应用发展出了各种相应的模型,如针对关系型数据、半结构化数据、流数据和多维数据的模型。物联网中存在着类型多样的数据,不可能用统一的模型来表,只能分而治之,将不同类型的数据源作为可能实例,然后再进行综合。物联网实现了人与人、人与物、物与物之间的互联,以人与物为主体,每个主体有自己的基本信息如标识、组成、位置、遥感数据等,还有与主体相关的过程处理等信息,主体与主体之间还存在着联系,可以把这些信息建立起一系列资源视图,形成以主体为节点,以主体间联系为边的图,从而实现对各种数据类型的数据源(如文档、关系数据库、XML文档、数据流等)的统一表示,当对物联网数据发出请求时,转化为对每种类型数据的操作和约束。
2.5数据存储与索引
有效的存储和索引技术能够大幅提高数据管理效率。数据中心不仅要存储内容数据还要存储元数据信息。根据物联网数据的特点,采用分布式的方式来存储数据,主要还是采用现有的数据存储技术,比如关系数据库、概要数据结构、文档树等,不同类型的数据存储在不同的地方,关键是如何获得这些位置信息。可以采用分层结构,第一级为根,包含所有存储元数据的位置信息,第二级为元数据层,每个元数据单元包含着用户数据的位置信息。第三层是具体的用户数据。数据分布时,要全面考虑数据传输次数、数据量大小、数据间依赖关系以及数据中心间网络带宽等因素。同时为了提高数据的可靠性,要用冗余的方式来存储数据,即为同一份数据存储多个副本,同时要保持数据的同步性。
2.6查询分析处理
查询分析处理是数据管理的最终目标,也是物联网价值的最终体现。查询分析不仅仅基于关键字的查询和数据模式的结构化查询,要能通过数据世系、联机分析处理、数据挖掘等达到应用的目地。世系是数据管理的重要内容,可用于追踪不同数据源间和同一数据源内部数据的产生和演化过程,物联网数据的冗余性、不一致性可非常严重,追踪数据的世系可以用来考察数据质量的评价、数据核查以及数据引用等。联机分析处理和数据挖掘一直是近些年的研究热点,针对关系数据库和数据仓库的分析和挖掘已经取得了很大进展,有一定的借鉴性,但是在实施分析处理和数据挖掘时要充分考虑数据的特点以及具体的应用。
3结语
目前在国内外物联网的研究和开发都是热点,各个国家都将物联网作为战略性的产业予以重点关注和推进。只有将物联网的数据有效地管理起来,才能真正发挥它的作用。本文阐述了物联网数据的特点和组成,分析了物联网数据管理面临的问题,提出了物联网数据管理框架。但是物联网数据管理还面临着重大的挑战。虽然物联网数据模型可以采用可能世界模型,但是可能世界实例呈指数增长,遍历所有可能世界实例需要耗费不可估量的时空开销;另外物联网数据的存储和处理虽然可借助于云平台,在云基础架构中,物理资源共享也带来了新的数据安全和隐私危机;数据世系研究虽然取得了很大进展,但是针对物联网数据的海量性和不确定性使世系关系更复杂。