如何有效的处理物联网中的海量数据
扫描二维码
随时随地手机看文章
物联网,即“万物相连的互联网”,是互联网基础上的延伸和扩展的网络,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现在任何时间、任何地点,人、机、物的互联互通。
当前物联网进展中,从技术发展趋势呈现出智能化的特征,从管理应用发展趋势呈现标准化的特征。伴随着物联网的应用场景的拓展,会对企业的自动化、信息化进程产生重要的影响。在物联网的应用必然会产生海量数据,那么我们该如何有效的处理这些海量数据呢?
什么是数据处理?
为了理解物联网传感器收集的大量数据,我们需要对其进行处理。换句话说,数据处理是对数据的采集、存储、检索、加工、变换和传输,目的是将原始数据转换为有用的信息。其中,数据是数字、符号、字母和各种文字的集合。数据处理的输出的是信息,并能以不同的形式呈现,例如纯文本文件、图表、电子表格或图像。
数据处理过程通常遵循一个由三个基本阶段组成的循环:输入、处理和输出。
输入:输入是数据处理周期的第一阶段,这是一个将收集到的数据转换成机器可读形式以便计算机处理的阶段。
处理:在处理阶段,计算机将原始数据转换成信息。转换是通过使用不同的数据操作技术来执行的。
输出:这是处理后的数据转换成人类可读形式并作为有用信息呈现给最终用户的阶段。
那么,数据处理是如何工作的呢?
数据处理的方法
物联网的大规模应用会产生海量的数据,为了减轻系统的负荷,可以对数据的分级处理和降维处理。分级处理可以有效的减轻系统的负荷;降维处理可以有效的压缩数据量,是处理一些数据必须进行的步骤,并且已在大规模的图像处理算法中得到应用。
数据的分级处理
从信息处理的角度,物联网可以分为三个层次:
1.底层是局部区域的协同感知。多个同类或异类的传感器办同感知被测目标,获得立体的丰富的感知数据,通过局部区域的信息处理和融合,能够获得高精度的、可靠的感知信息;2.第二层是传输过程中的数据处理。包括面向无线传输网络状态的感知信息的进一步聚合和融合处理,自适应传输链路状态的应用层编码和传送协议优化,以及数据的安全传输处理,使得海量信息能够高效的、可靠和安全的传输;3.第三层是应用支撑层上的基于各类物联网应用的共性支撑、服务决策、协调控制等。物联网的信息是超大规模的海量信息,需要利用感知信息具有的时间和空间的关联特性,实现不同空间区域上的多粒度的分级存储和检索,提高资源利用率和信息获取效率。提出一种基于多级数据处理的嵌人式中间件系统的解决方案,系统集合了数据过滤、数据聚合和数据处理等功能,可在一定程度上提高大型应用系统的整体效率。
数据的降维处理
随着信息技术的发展,特别是物联网技术的应用,人们将会不分时间和地点,可以方便的获得大量的信息,人们获得的数据量将以指数形式快速增长。这些数据具有快速更新、数据维数更高、非结构化等特点。
目前人们对这些数据的处理还没有形成相应的有效方法,传统的数据分析方法在处理这些数据集合时,往往效果并不好,甚至在某些情况下失效。蕴含在数据中的知识和规律我们无法得知,将会导致数据灾难问题。因此,人们就迫切希望去认识和探索这些数据之间的奥秘。而如何能有效的利用这些高维数据是人们面临的基本问题。
在很多情况下,我们可以首先将数据的维数将到一个合理的大小,同时尽可能多的保留原始的信息,然后再将降维处理后的数据送入信息处理系统。这样的做法是非常有用的。而降维算法也是一些机器学习、数据挖掘方法的组成部分。对数据降维处理,结合一些具体的业务需求,是一个行之有效对海量数据进行处理的方法。
降维算法主要分为线性降维算法和非线性降维算法。降维的实质就是寻找投影变换:从高维空间到低维空间变换。现在有一种最小量嵌入算法,在保持局部等距和角度不变的约束条件下,就能很好的揭示数据内在的流形结构。
数据处理的注意事项
既然我们已经知道了数据的分级和降维处理,那么在物联网中涉及到这些问题时,有注意事项需要我们了解:
期望的输出
即使数据处理周期从输入阶段开始,我们也应该首先考虑想要的输出。换句话说,我们对什么样的信息感兴趣?一个示例是,在机器的温度超过阈值时接收警报。
数据的存储
一旦我们弄清楚想要的输出是什么,我们就必须找到一种方法来获得它。传感器收集的数据必须以适当的形式存储,以便将其转换为我们正在寻找的信息。
例如,当机器运行时,我们可以定期(例如每10分钟)接收数据。我们可能希望利用这些数据来计算自上次维护以来机器已经运行了多少小时。我们还可以检测这些数据中的趋势,并对何时达到特定的小时数进行预估(如果使用量保持在相同的水平)。
由于传感器收集的数据量可能很大,我们应该购买可扩展的云服务来存储数据。此外,我们还应该制定一个数据保留政策,以便定时清理不必要的数据。我们拥有的数据越多,保存的时间越长,存储数据的成本就越高。另一方面,更少的数据意味着更少的见解和历史参考。因此,我们必须在成本和想要存储的数据量之间进行优先级排序和平衡。
更新频率
在执行数据处理之前,重要的是要确定更新频率和资源消耗(如计算能力、功率)之间的良性平衡。“良性平衡”完全取决于物联网用例。
在某些用例中,必须立即知道收集的数据是如何影响输出的,然而,这需要实时的数据处理,这可能非常消耗资源。在其他一些用例中,收集到的数据,每天处理一次就足够了。
小结
在物联网数据处理方面,我们正处于一个充满挑战的时刻,这个时刻充满了机遇,也充满了风险。通过收集、处理和分析物联网数据,消费者和组织可以获得有价值的见解,帮助他们成长并对未来做出更好的决策。