基于物联网海量数据处理的数据库技术分析与研究
扫描二维码
随时随地手机看文章
引言
随着物联网技术的快速发展,在农业、工业、交通、医疗、环保等领域每时每刻都在产生大量的数据。在各行业业务的不断扩大、信息化的不断深入的背景下,数据已渗透到企业日常业务的各个应用场景之中。用户对于海量数据的处理和实施分析的及时高效性越来越重视,快速有效的海量数据处理和实时分析技术将有助于企业快速了解市场行情变化、迅速做出决策,从而占得发展先机。同时该需求也对数据库技术提供更高要求。
物联网中不同类型子系统的海量异构数据需要统一的处理及存储,那么就要求该海量数据处理方法能融合多个不同网络、多个数据源、异构的海量数据并且能对这些数据进行高效快速的处理,同时,该海量数据处理任务需要对包括网络资源、计算资源、存储资源等多种资源进行统一的规划和调度,为数据处理分配合适的资源,将任务分散到多个联网的节点上并行计算,可以有效地加快海量数据处理的速度。而传统的数据处理技术和数据库管理系统(DBMS)已经无法完全适用于物联网海量数据的处理与存储管理。因此,本文通过对物联网海量数据处理的实时数据库技术进行分析与研究,选择满足海量数据处理需求的实时数据库技术。
1物联网海量信息处理关键技术分析
物联网中感知设备种类繁多,并且来自不同类型网络,需要物联网的海量数据处理方法能融合多个不同类型网络、多个数据源、异构的海量数据并对这些数据进行高效快速的处理,从中筛选获取有价值的信息,对有价值信息进行综合分析,从而提供智能决策。
1.1多源数据融合扌技术
在不同物联网节点上获取的信息具有不同的数据类型特征,针对多源异构的海量数据需建立统一的层次化表达数据结构和本体标注,为多源数据信息的融合提供标准的格式,结合多源异构数据的数据聚类、时空转换与度量等技术,解决不同来源数据的一体化有效利用问题。
1.2物联网海量数据存储、检索和查询技术
物联网在应用中广泛部署感知设备,采集生成大量实时、多源、多粒度、多纬度流数据,其数据规模可达到TB甚至是PB级;开展物联网海量数据的存储、检索和查询等技术研究,对集中有效地处理这些海量数据,高效性管理,高实时性地统一定制所需数据给用户,以达到这些技术与用户信息系统间的完美结合具有重要意义。
存储机制:采用就近存储原则,提供一个全局摘要视图节点,各数据归档节点将自己的数据分布情况通知给全局摘要视图节点,查询请求首先被发送到全局摘要视图节点,并能快速定位到数据所在网络节点,避免泛洪式查询;设计存储磁盘容量耗尽时的数据回收机制,根据查询历史统计结果和当前系统存储容量情况,为不同类型数据动态配置数据生存周期。对超过生存周期的数据将被新增数据覆盖。由于物联网数据具有一次写、很少修改、多次读、不删除的特点,对于单个网络节点的数据存储技术,建议采用非关系型数据库技术。
索引机制研究:物联网数据包括时态流数据和空间流数据。研究根据归档的数据种类,自动创建最优化的索引算法。对于时态流数据,主要查询类型为间隔查询。对于空间类型的流数据来说,可以用查询操作方式来寻找某个区域内所有符合条件的对象,并运用多维索引技术,建立最优索引,使系统满足效率实时处理要求。
2物联网数据库技术要求
数据大小、数值范围、索引。物联网中存在数据的大小和数值范围是极其巨大的,物联网系统中涉及到众多不同类型风格的数据对象,不能仅对数据库编目进行管理,所以索引对物联网实时数据库要求很高。
查询语言。数据库管理系统查询语言以前基本上都基于结构化数据,而可扩展标记语言(XML)提供了一种更为松散结构的数据表现方式,并且支持自定义数据描述的方式,该方式能够整合文档、网页以及关系数据库等数据源进行查询。
多相性和完整性。物联网由众多独立的感知或网络节点组成,每个节点有着不同的保存数据方式,随着物联网数据量的不断增长和不同类型系统的日益增多,异构性和互操作性的问题是物联网实时数据库需要面对的重要问题。
时间序列集聚。传统的查询语言如SQL,已经不适合进行时间序列数据的查询,需要将物联网实时数据以时间有序的方式组织并存储起来,对于提高查询任务的性能及支持快速查询响应至关重要。针对物联网实时数据的时序特征,最佳的时间采样周期极大地依赖于数据性质和应用领域,需要物联网实时数据库能定义合适的查询设备,提供连续数据采样服务。
3物联网实时数据库技术分析
本文针对物联网海量数据的特性和对实时数据库技术的要求进行分析。
3.1分布式内存数据库技术
分布式数据库是传统数据库技术与网络技术相结合的产物。一个分布式数据库是在物理空间中分布在计算机网络各个节点上,但在逻辑上可以属于同一系统的数据集合,图1所示是分布式数据库的系统架构。该分布式内存数据库技术具有局部物理空间自治与逻辑全局共享性、数据的冗余性、数据的独立性以及系统的透明性等特点。分布式数据库管理系统支持全局控制集中、全局控制分散、全局控制部分分散的控制方式;由局部场地数据库管理系统、全局数据库管理系统、全局数据字典、通信管理组成,负责建立和管理局部数据库,实现场地自治能力,执行局部应用等功能以及提供分布透明性,协调全局事物的执行并协调各局部数据库管理系统,保证数据库的全局一致性,实现更新同步等功能。数据库技术与人工智能技术、网络通信技术、并行计算技术等互相渗透,互相结合,成为当前数据库技术发展的主要特征。
在这个系统中,要满足以下要求:
各网络节点内存数据库保持其自治性;
内存数据库集群化,通过读写分离,垂直和水平切分策略应对海量数据存储;
多种数据切分方式,在总体垂直切分模式基础上进行水平切分,应对不同的应用和数据所需要做不同的处理;
各节点内存数据库间相互协调,促使每个内存数据库都可以作为其他结点的服务端;
保持数据分布的透明性,满足数据的分布性和数据库间的协调性特点,结合内存数据库之间平衡的改进,解决物联网海量数据实时处理的要求;
内存数据库持久化,内存数据库中的数据变化需要复制到与磁盘数据库上,通过两级数据库及异步写来完成持久化。
3.2基于云技术的分布式实时数据库技术(DRTDBS)
“基于云技术的分布式实时数据库”架构如图2所示,将实时数据库技术与云计算技术进行深度融合,通过分布在世界各地的云计算中心服务器集群实现具有数据库规模可扩展、可伸缩,数据库管理系统可靠性、可维护性高的分布式实时数据库系统,该系统包含了数据处理压缩、数据检索、数据存储虚拟化技术、冲突处理、内容分发网络技术、事务调度、故障监测与恢复、负载均衡等多项功能,在实时性、分布式、虚拟化基础上实现海量数据存储、高并发事务处理、存储加密处理、分布式冗余备份、系统动态扩展等功能。
在分布式实时数据库的构架中,数据采集器和数据库服务器节点的服务组件均通过分布式通讯服务平台的中间件接口接入该平台,实现同其他服务组件的交互。各组件以服务的方式与其他功能组件进行连接、调用,可以实现数据交互的自由、高效。另外通过与同样接入该服务的其他节点的进行通讯连结,数据的收发也可以通过分布式通讯服务平台的接口实现。分布式通讯服务平台通过内部的缓冲队列和异步调用机制,使节点在数据发送时无需关心接收节点的状态,在接收数据时将通过消息回调实现节点数据获取。分布式数据存储检索平台如图3所示。
多台数据采集器和数据服务器所需的数据存储、检索服务组件通过云服务接入平台形成统一的数据存储、数据检索服务并对外提供该服务,突破了以往单台实时数据处理服务器的孤岛模式,形成一个去中心化的、对等的分布式数据存储、数据检索等功能的系统。数据采集器或数据服务器将采集的实时数据通过服务平台发送到统一的数据存储服务功能模块进行实时数据的存储。而客户端则通过平台接口或是Web服务器连接入到通讯服务平台,并向统一的数据查询服务申请和进行数据查询。对通过分布式通讯服务平台向其他节点发送数据的服务器节点来说,数据发送成功就可以认定为数据写入成功。当节点接收到数据时,会通过回调接口完成数据的接收。
4结语
本文结合物联网海量数据的特征,列举了物联网海量数据处理关键技术及物联网对实时数据库技术的要求;着重分析研究了分布式数据库技术和基于云技术实时数据库技术来解决物联网海量数据处理的问题。第一,分布式内存数据库系统中各节点内存数据库能保持其自治性、数据的分布性和数据库间的协调性等特点,结合其数据分布的透明性满足了数据库间平衡的改进,就能很好地解决物联网海量数据实时处理的要求。第二,本文通过研究高性能分布式存储技术与云计算技术,基于分布式应用服务,多台数据采集器和数据服务器的数据存储、检索服务组件通过云服务接入平台结成一个统一的数据存储、数据检索服务并对外提供服务,形成一个去中心化的、对等的分布式数据存储、数据检索系统并支持系统规模动态扩展,适合并满足物联网海量数据处理需求。
20211122_619b98e92a454__基于物联网海量数据处理的数据库技术分析与研究