大数据:改变游戏规则的技术
扫描二维码
随时随地手机看文章
不管你怎么看,大数据既让人头疼,又是一大机遇。从 一大堆结构化和非结构化的数据中实时展现有用事实的能力, 也许能帮助政府机构更好地决策,简化流程,细化服务。
定义
尽管关于大数据没有一个统一的定义,但大数据主要指 的是规模超过一般数据库软件工具能力(捕获能力、存储能力、管理能力和分析能力)的数据集。关于大数据的定义,每个 行业不尽相同,主要看使用的软件工具以及数据集的规模。
系统地认识大数据
大数据的发展主要由网络的爆炸性发展而推动。行业观 察员估计,2008年,网络接入数量首次超过了全球人口 ;到 2020年,预计网络接入数量将超过500亿。
麦肯锡对大数据进行大量研究后表示,2010年,全球所 有机构硬盘上储存的新数据数量超过了 7艾字节,而消费者 在个人电脑和笔记本电脑上储存的新数据也达到6艾字节。1 艾字节的数据量是美国国会图书馆数据量的四倍。市场研究 公司IDC说,在美国联邦政府,数据量每两年就翻一番,且 近期没有速度放缓的趋势。
公私行业的很多机构都面临着大数据处理的挑战。例如,如何从这些数据中获得运营价值。大数据“大”在何处是个 不容易回答的问题。NIST信息技术实验室信息存取处负责人 Ashit Talukder表示,大数据很难捕获、存储、捜索、分享和 分析,而且增长很快。Talukder说:“大数据可能包含了百亿 甚至万亿条记录,它们结构松散,甚至没有结构。”
Talukder表示,这些记录大部分都是混杂的,且模式多样, 分布在多个网络或云环境中。这些记录还彼此联系,数据来 源多样。
同时,AIIM近期的一份调查显示,60%的IT执行官认 为把结构化和非结构化的数据集联系起来“非常有用”。调查 中,超过半数的被调查者表示,他们认为对非机构性数据展 开深入分析“很有价值”(56%)或“非常有价值”(18%)。
大数据的主要特点
大数据主要有如下特点(3V):
-容量(Volume) ——超大数据规模;
-速度(Velocity)——数据流速快;
•种类(Variety)—涉及各种数据、网络和节点等。
此外,当提到方法时,大数据通常指的是数据分析的发 现方法,即可用数据或使用数据的能力以独特的方式结合后产 生了其他方法不可能产生的发现。当前,政府机构收集的数 据中只有一小部分进行了处理和分析。Talukder表示,大数据 的容量和复杂性引发了很多挑战。然而,大数据也为“知识型” 分析和发现(而非“假设性”发现)提供了巨大潜能。“它有 望解决以前无法解决的问题,并从以前未处理的数据中获得新 的发现。”
云中的大数据
云计算为大数据提供了一个优化储存、计算、存取和虚 拟的环境。根据NIST,云的互通性可以让不同云中的数据集 彼此协作,增强了共享、协作和分析多个大型数据集的能力。
云计算创造了一个独一无二的作为主机、存储、处理和 存取大数据的机会,这种灵活的方式可随时随地按需存取数 据。政府机构很快有望利用云计算应对大数据的挑战:
•为上百万研究人员提供强大的研究工具;
-极大地缩短费时研究的周期;
-利用规模经济极大减少IT研究开支。
除了云计算能帮助政府机构分析大数据流这一潜在优势 外,Talukder坚持认为,要让大数据分析的承诺变为现实, 还有很多地方需要改善。例如,我们需要大数据软件、运算法则、硬件和基础设施方面更好的标准,量度和互通性。基础数学 和统计学需要发展,包括大数据的机器学习,大数据的分析 和类型认知,以及二次抽样和不确定性的量度标准。
Talukder还对大量复杂数据的运算法则提出了更高要求, 同时还应增强大数据的虚拟化和实用性,更好的集群、分类 和安全以及隐私保护。另外,大数据存储、计算和显示/虚拟 化方面的网络、硬件和软件基础设施技术的技术改进也很有 必要。事实上,云计算和大数据配合默契(见表1)。
表1云计算和大数据的配合意义
云计算和大数据配合默契 |
|
云供应商 按需自助服务 无处不在的网络接入 资源共享 快速适应性 限制接入的(公私)混合云 |
大数据需求 故障容差 多种协议 灵活性(存储、内存、网络等) 灵活性(节点分配/拆卸) 安全数据接入 |
大数据分析的兴起
大数据分析可以在多个领域部署,通过数据使用得出的 实验证据解决运行流程中的主要问题,挖掘新的发现,而不 是利用传统的分析方法。以下一些主要行业和领域,还能从 大数据分析中获益:
-环境和地球科学;
-医疗科学;
•天文学;
-网络安全;
•辩论学(物理和电脑/网络的辩论学);
•检测;
•社会媒体分析;
•复杂网络系统的设计和运营;
•交通物流优化;
•知识产权管理;
•天气预报;
•自然资源的开采和保护;
•灾后预测性评估。
Gartner的研究中强调应向更加“情景感知化”的安全模 式转变。例如,网络上来自传感器和其他设备的数据可用于 抵御网络威胁,即使其他已授权的安全工具都认为是安全的。Gartner预测,大数据分析将有助于增强监管力度,协助各种 机构在提供云服务时更好地管理数据和系统。
大数据要求大思路
据预测,未来两年,美国政府机构将再增加1艾字节的 数据量,这相当于6 200万个16 GB iPad的数据量!
当数据的增长速度与转移这些数据(很大一部分是视频、音频、社会媒体等方式生成的非机构性数据)所需的带宽和 网速相关联时,问题就变得非常清晰:大数据的规模和复杂 性超过了标准工具在一定时间内能捕获、存储、管理和分析的 能力。
NetApp公司美国公共行业首席技术官员Dale Wickizer 说:“在数据处理方面,各机构都处在转折点上,开展业务也 变得困难。如果不加以改变,数据会把你淹没,成为基础设 施的沉重开支和风险负担。但如果你知道如何利用它,它就 会变成一个资本。”
最近,MeriTalk的调查也证实了这个说法。总的来说,政府机构的负责人都希望能有更好的方式来利用数据提高效 率,加速决策并改善预测能力。各机构预计,当前,他们只存 取了49%的数据,利用了 46%的计算能力,只有44%的人需 要利用大数据来开展工作。
随着大数据越来越成为存储方面的挑战,非常有必要让 既懂存储又了解联邦政府的专家介入。
20211020_616eebdd13fba__大数据