解析大数据的定义与特征
扫描二维码
随时随地手机看文章
大数据研究专家维克托·迈尔-舍恩伯格曾经说过:世界的本质是数据。在他看来,认识大数据之前,世界原本就是一个数据时代;认识大数据之后,世界不可避免地分为大数据时代、小数据时代。
随着社会不断发展的脚步,各类数据不断累积,如果说小数据时代的各类分析调研更多的是靠样本采集,那么现在,不管从数据的维度还是层次来看,数据体量的累积已经到了一个非常夯实的阶段。
在这两个时代的过渡中,人们也自然而然的从先前的样本思维转变成大数据时代需要具备的整体思维,以更好的运用大数据,或者说,抽样调查将成为过去时,对所有数据进行分析处理才是大数据时代应有的思维方式。
大数据的多种定义
对于大数据的具体定义和价值,大多数人都停留在知其然而不知其所以然的阶段。
但这也并不妨碍大数据这一词汇在大众心中的高度,它代表着先进,代表着高科技,代表着不可预知但可以预见的未来世界。
麦肯锡最早提出了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
对于大数据的定义,权威机构们给出了不同的表述:
世界知名咨询企业Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
还有一些是这样表述的,大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”
不管是信息资产还是数据集合,这些定义无不在昭示着大数据对于人们未来社会的价值。
大数据的特征
大数据(BigData)是指「无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。」业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。
Volume,数据体量巨大。如果单单从存储量方面来考量的话,从最小的数据存储单位bit开始,按顺序往上Byte、KB、MB、GB、TB、PB、EB……那么截至目前,人类生产的所有印刷材料的数据量可达数百PB,而历史上有记载开始人类说过的所有的话的数据量大约要以EB来衡量。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。
Variety,数据类型繁多。类型的多样性让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
Value,价值密度低。价值密度的高低与数据总量的大小成反比。数据总量越大,无效冗余的数据则越多,如何通过强大的机器算法迅速地完成数据的价值“提纯”是目前大数据背景下亟待解决的难题。
Velocity,处理速度快。这是大数据区分于传统数据挖掘的最显著特征,根据IDC“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
大数据的类型大致可分为三类:
传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。
机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。
社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。