大数据的本质是怎样的
扫描二维码
随时随地手机看文章
事实上并非如此,从历史上来说,现代统计学的起源是南丁格尔用大量的统计数据和方法制作出了后世有名的“南丁格尔玫瑰图”从而奠定了现代护理学的基础,救助了许多战场士兵的生命。从此以后许多国家(尤其是美国和法国)都开始致力于大量收集各种居民数据,这种数据的搜集称之为“人口普查”。人口普查可以看作是现在“大数据”的原型,统计学家事实上200年前就开始做这样的事情了。所以“大数据”并不是2010年中以后的事情,这是许多不了解统计学的人的偏见。
从学科发展的角度来说,统计科学家几十年前也开始注重研究如何处理“大数据”的问题,比如说当我们有大量的观测量,同时又有大量的解释变量的时候应该如何做?所以说觉得“大数据”问题是近几年才出现,并且缺少学术上的关注的想法也是完全错误的。传统统计学者比谁都更关心“大数据”所导致的问题。别的不说,我们熟知的“抽样”统计的方法,最初就是为了解决数据量太过庞大,然而计算能力并无法允许我们直接采用全样本进行估计而设计的。
2. 用传统统计学无法处理大数据是因为编程技术不足么?
2010年之后,大多数人觉得“分布式”计算是未来处理大数据的主要方向,分布式计算主要的想法是: “组件之间彼此进行交互以实现一个共同的目标。把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算,再上传运算结果后,将结果统一合并得出数据结论的科学。
然而人们由于过度迷信这种分布式运算带来的“便利之处”,早就忘了很久以前,我们可能就已经存在解决问题之道,并且可能甚至比分布式运算来得更好。统计学者们在50年前就开始研究如何利用数据的抽象原理来快速求解及其复杂的整体最优问题,并且早早地在抽象数学和具象的计算远离之间构架起了桥梁。
分布式处理技术事实上很多时候与之前发现的技术相比并不具备太大优势,其最主要的优势在于:“使用世界各地上千万志愿者计算机的闲置计算能力,通过互联网进行数据传输(志愿计算)。”这样简单粗暴的计算方式让我们不再去思考如何优雅地解决问题,而是把注意力更多地放在如何“更快地得到答案”以及“更实用”这两点上。
在这种思维模式下,人们越来越少真正去思考数据背后的意义,以及如何策略性地选择和分析数据的问题。很可惜,现在市场上的声音只剩下了“大数据”狂热者们的摇旗呐喊:“统计有什么用?只要算法足够精妙,计算机足够强大就行了”。
3. 是不是只有学了“大数据”专业才能在大公司找到工作?
许多“大数据”爱好者都觉得只有学了大数据专业才有可能会被谷歌或者亚马逊这样的大公司录取。
当然这样的想法也不是空穴来风,在巨大的市场需求驱动下,现在的确是”大数据“的黄金年代,美国仅仅2014年就有440万与大数据相关的工作被提供,而大多数的这类职位的需求都是:“你需要懂得计算机编程,以及处理数据”。这就使得许多传统统计方向毕业的学生直接被拒之门外,只能望洋兴叹。
另一方面在大量的市场需求下,许多人有了滥竽充数鱼目混珠的机会,这优秀的数据工作者和“普通的”数据工作者往往很难在第一时间被市场分辨出来。这就导致了市场上有太多数据工作者,但是极少数的人能够够格称得上“数据科学家”。大多数时候,一个“数据科学家”的职位往往意味着你需要有很多的工作经验,或者是名校的统计或者计算机系的博士文凭。真正的好公司也不傻,大家只愿意支付高额薪水给那些真正可以“读懂”数据的人。而读懂二字背后意味着不是只是会跑跑程序画画统计图就够了的。