浅析大数据技术及大数据分析特征!
扫描二维码
随时随地手机看文章
大数据需要特殊的技术,主要包括大规模并行处理(MPP)数据库、数据挖掘网络、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据技术分为整体技术和关键技术两个方面。
1.整体技术
整体技术主要有数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
2.关键技术
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
大数据采集技术:数据采集是通过RFID射频技术、传感器以及移动互联网等方式获得的各种类型的结构化及非结构化的海量数据。大数据采集一般分为大数据智能感知层和基础支撑层: 大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统。实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。
在实现技术层面确实差别会很大,但是总体的分析流程其实和传统的数据分析差不多,也是有着:数据采集、预处理、数据存储、数据分析这样的过程。但因为大数据分析数据量十分庞大的特点,导致这些过程在处理技术上都要依托相应的底层框架。这也使得大数据分析具有以下特点:
数据存储也很关键:数据量的急剧增加使得对数据的存储也有更高的要求。实际应用中,往往处理的是海量的动态增加的数据,因此对数据库的存储查询也有着较高的要求,多用分布式数据库进行按类汇总存储。
多为云计算、云存储环境:大数据处理对实验环境有着较高的要求,通常都是在普通计算机的集群上实现处理操作。也可以远程使用云计算、云存储资源,这也是我们使用很多的大数据平台它的一个逻辑,平台即服务。但如果我们只是自己做一下集群实验的话,可以用两三台电脑来部署;也可以在一台电脑上分出三个有虚拟机,可以把它们看成是三台计算机,只不过他们在同一台电脑上,是人为虚拟分出来的计算机,也可以通过这个虚拟机的方式来模拟多机集群计算。
小编也是在几年前接触过大数据技术的课程,偏实现层面。很复杂,且Hadoop只是这些众多框架的一部分,还有很多的辅助实现其他功能的框架,是一个大的软件生态。这些都是传统数据分析转向大数据分析要面临的门槛,且这还只是一部分,当然如果要涉足大数据还是得知道大数据的一些特性,包括常见的数据问题要怎么处理解决等。对零基础的读者来说,这一块要有一个漫长的学习周期,且还要有一定的环境条件供练习。
只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报。准确是一个在讨论大数据时时常被忽略的一个属性,部分原因是这个属性相对来说比较新,尽管它与其他的属性同样重要。准确是一个与数据是否可靠相关的属性,也就是那些在数据科学流程中会被用于决策的数据(而这不同于与传统的数据分析流程),精确性与信噪比有关。
在大数据中发现哪些数据对商业是真正有效的,这在信息理论中是个十分重要的概念。并不是所有的数据源都具有相等的可靠性,在这个过程中大数据的精确性会趋于变化,如何增加可用数据的精确性是大数据面临的主要挑战。数据价值密度低,商业价值高,以视频为例,在连续不间断监控过程中,可能有用的数据仅仅有一两秒。