大数据分析概要
扫描二维码
随时随地手机看文章
大数据分析面临的主要挑战
大数据是一项艰巨的挑战。众所周知,当今时代,数据正以爆炸式的速度增长,世界上总共有多少数据,没人能给出确切的答案。
谷歌前首席执行官埃里克•施密特称,“我们现在创造出来的信息量相当于过去整个人类历史创造出来的文明。从数字时代开始到2003年,我们只创造出5艾字节的信息。但是,我们现在每两天就能创造出5艾字节的信息,而且信息增长的速度还在不断加快。”
这个数据似乎有些言过其实。RJMetrics首席执行官RobertJ.Moore,在最近的TEDx演讲栏目中提到,2002年,只有23艾字节的信息被记录和复制,但我们现在每七天就能更新和转移这么多数据。
Gartner称,企业数据在未来5年内将增长650%。IDC的说法是,全世界的信息在一年半内即可翻一倍。IDC称,2011年,我们创造了1.8泽字节(1.8兆GBs)的信息,若要将这些信息储存在电子设备中,则需要575亿台规格为32G的iPad,将如此多的iPad连接起来,长度是万里长城的两倍。
数据的创造脚步势必加快,尤其是当今机器对机器通讯技术的成本降低,人们获取技术更为便捷。试想一下,所有传感器网络、防盗警报器、车辆远程通讯系统等加在一起,将会创造出多么庞大的数据。
IBM称,我们每一天都能创造出2.519字节的信息。数据正在指数式增长,并且,当今世界上90%的数据都是在过去两年内创造出来的。这些数据来自各个地方,比如传感器收集气象信息上传到社交网站,数字图像和数字视频,电子商务交易记录,GPS坐标等等。
当然,在早期人类历史上,像推特之类的简短信息并没有记录下来,所以对比只能到此为止。实际生活中,每一天我们都在创造如下数据:
•超过2.04亿封电子邮件消息;
•超过200万的谷歌查询;
48小时更新的YouTube视频;
68.4万条分享在Facebook上的内容;
•10万余条推特;
•27.2万美元的电子商务投资;
3600张分享在Instagram新照片;
•将近350篇新发布的WordPress博客。
图1所示是人们每天所创造的数据示意图。
图1每天所创造的数据示意图(图片来源于:DOMO)
大数据面临的挑战在于,不同系统中到处都能储存数据。打破相互独立的数据系统,标准化操作是当今面临的主要任务。另外一个主要任务是创建大数据平台,可以存储结构化数据和非结构化数据。
当你进入大数据这块领域时,你会发现更多神秘的挑战。比如,传统数据库最初并没有用到多核处理器。因此,它们在
处理数据的时候速度较慢。这导致“快速数据”概念的出现,像ParStream之类的小型公司正试图克服数据库遗留的问题。
从累积到分析
我们需要处理许多数据。积累数据是一回事,而处理数据则是另外一回事。收集报纸、吞拿鱼空罐子和小野猫的人,不会被人们视作为一个有辨别力的收集者。想象一下,你也不会到废物囤积者家中学习历史,因为那儿可用的信息不多。相反,我们一般会去从古董收藏家那获得知识。
尽管有了数据,这个世界上还是有很多囤积者。当今数字储存价格低廉,因此人们把所有数据都储存起来。确切地说,他们从不会自找麻烦,删除数据。网络存储方面也是一样,在开始低收费之前,在线存储供应商甚至还会定期免费放出几个GB的数据,供客户使用。
当今,许多企业正在努力处理无止境扩张的数据,因为如果不这么做的话,企业将失去竞争力。
IBM称,数据的指数化增长将给许多企业留下严重的盲点。IBM研究发现,企业领导经常许可一些无数据支撑的决策,或者他们的决策是基于置信度不高的信息之上。更令人惊讶的是,半数企业领导者表示,他们尚未找到可以让工作效率变高的信息途径。
虽然大多数企业领导者和有关人员知道,与工作相关的数据确实存在,但不知道哪里可以获得这些数据。即使他们已经有一个大致的想法,他们还不清楚如何将想法提炼,应用到实际生活中。他们试图寻找这些相关数据,但始终没法确定数据的实时性和准确性。
大数据分析旨在处理上述问题。我们追求的不只是原始数据,而是分析这些数据的技术。
大数据分析体系
当技术达到能将数据独立性打破、数据分析能力提高时,商业即可转换成各种形式。分析大数据技术的进步能让研究人员在数分钟之内解码人体DNA,这项技术让基因公司(如23andme公司)成功运转。
同时,研究人员能够预测预谋的袭击地点,特定的疾病是由哪种基因引起,分析你在Facebook上最有可能回复的广告内容。
事实上,由PNAS发布的最新研究显示,你在Facebook上点击“赞”的内容表明了自己的性格特征,比如你的智力、性别、性取向、政治倾向或者其他个人信息。
然而,部分商业观察并没有令人惊讶,比如喜欢"小商业星期六”的人可能比典型Facebook用户的年龄要大;有些商业观察让人困惑,比如喜欢油条与智商高有关。当然,关联并不等于因果关系,这有可能是随机的统计噪声。但是,大数据分析能识别统计噪声。
经营大数据的商业案例比喜欢油条更有说服力。例如,为提高最近热门剧集《纸牌屋》的收视率,网飞公司(Netflix)挖掘用户数据,从中加入一些必要的因素。运用用户数据,同样促使他们的情景喜剧《发展受阻》起死回生。
另外一个例子是来自世界上最大的移动运营商之
法国电信,该运营商发布了DataforDevelopment项目,为象牙海岸的客户提供用户数据。数据有共计25亿条匿名记录,包括500万人之间的通话记录和互通短信。
许多研究人员访问数据集,给法国电信发出建议,认为这些数据可以成为公司发展项目的基础。在所提议的项目中,有一项是通过追踪手机数据,了解人们在紧急情况下的去向,以此来提高公共安全的。另一个项目是怎样用手机数据来了解疾病的传播。事实上,推特已在海地霍乱爆发时成功运用了该项功能。
美国国家安全局的Prism项目就是依赖大数据分析而运行的。这个项目将手机通话记录、电子邮件来往、即时通讯聊天、社交媒体等数据元导出,并进行处理。
政府官员支持这个项目,因为他们认为大数据分析是关键的防御措施。如果某人被认定为恐怖组织的嫌疑人,他的通话记录可以显示出其他的行踪,帮助国土安全部的官员锁定最有可能即将被袭击的目标。
大数据分析市场
当今,大数据分析市场仍处于起步阶段。SoftwareAG、Oracle、IBM、Microsoft,SAP、EMC、HP等大型软件公司互相争抢充满生机的新企业,如Datameer、AlpineDataLabs、SiSense、Cloudmeter。
大型公司花费数十亿美元,收购数据管理和分析的软件公司,如Apema、Jacada、MoreITResources、Vertica、Vivisimo等,这些新公司都是依靠风险投资基金得以运行的。
更为复杂的是,一些老公司在市场中也有一席之位,其中包括Pentaho、Splunk、Jaspersoft公司。
许多研究大数据分析的新型企业也有其市场定位,如分别定位于社会营销(DataSift)、电视广告购物(RocketFuel),应用性能(Cloudmeter)、求职招聘(Bright.com)等领域。
根据Wikibon的调查,2012年大数据市场总额将达到114亿美元。2013年则将达到181亿美元,比2012年增长61%。到2017年,总额将达470亿美元。以上数字意味着,在2012-2017年,大数据市场总额在以年均31%的速度增长。
显然,投资商们还有很大空间,因为市场领域仍是商家抢占的地盘。他们希望,在不久的将来,有更多数据能被整合。
这就是大数据的目标,我们追求的不只是初始数据,而是分析数据的技术。图2所示是大数据分析的主要分布。
图2大数据分析的企业分布(图片来源于:DataLanscape.com)
展望未来一一大数据的趋势
(1)开放源代码
大数据获得动力,关键在于开放源代码,帮助分解和分析数据。Hadoop和NoSQL数据库便是其中的赢家,他们让其他技术商望而却步、处境很被动。
毕竟,我们需要清楚怎样创建一个平台,既能解开所有的数据,克服数据相互独立的障碍,又能将数据重新上锁。
(2)市场细分
当今,许多通用的大数据分析平台已投入市场,人们同时期望更多平台的出现,可以运用在特殊领域,如药物创新、客户关系管理、应用性能的监控和使用。若市场逐步成熟,在通用分析平台之上,开发特定的垂直应用将会实现。但现在的技术有限,除非考虑利用潜在的数据库技术作为通用平台(如Hadoop、NoSQL)。
人们期望更多特定的垂直应用出现,把目标定为特定领域的数据分析,这些特定领域包括航运业、销售业、网上购物、社交媒体用户的情绪分析等。
同时,其他公司正在研发小规模分析引擎的软件套件。比如,社交媒体管理工具,这些工具以数据分析做为基础。
(3)预测分析
建模、机器学习、统计分析和大数据经常被联系起来,用以预测即将发生的事情和行为。有些事情是很容易被预测的,比如坏天气可以影响选民的投票率,但是有些却很难被准确预测。例如,中间选民改变投票决定的决定性因素。
但是,当数据累加时,我们基本上有能力可以大规模尝试一个连续的基础。网上零售商重新设计购物车,来探索何种设计方式能使销售利润最大化。根据病人的饮食、家族史和每天的运动量,医生有能力预测未来疾病的风险。
当然,在人类历史的开端,我们就已经有各种预测。但是,在过去,许多预测都是基于直觉,没有依靠完整的数据集,或者单单靠的是常识。
当然,即便有大量数据支撑你的预测,也不表明那些预测都是准确的。2007年和2008年,许多对冲基金经理和华尔街买卖商分析市场数据,认为房地产泡沫将不会破灭。根据历史的数据,可以预测出房地产泡沫即将破裂,但是许多分析家坚持原有的观点。
另一方面,预测分析在许多领域流行起来,例如欺诈发现(比如在外省使用信用卡时会接到的电话),保险公司和顾客维系的风险管理。
重新聚焦于人为决策?
机器学习能力不断提升,逐步成为分析套件里的必要工具。此时,不要惊讶,人类因素正渐渐淡化。
企业主经常尝试限制人为误差。任何网络安全专家,通过详细讨论后指出,安全漏洞是由人为误差而引起的,比如过度依赖弱口令,不慎进入钓鱼网站或其他安全系数低的网站。
然而,即使机器学习能力不断提升,机器也只能提问我们事先设定的问题。这会给我们带来很大限制:若依赖于机器,我们究竟可以得到多少。
人为因素对大数据的出现十分关键。大数据领域最有名的两位预言家和先驱者是BillyBeane和NateSilver。Beane曾推广一个想法:将各种各样的数据联系起来,这些数据都是关于被低估的运动员的特质。接着把这些运动员召集起来,组成一支棒球队上场比赛。这支较为经济的团队竟能与实力雄厚的队伍(比如洋基队)进行抗衡。
有部分人不相信NateSilver的预测,开发出不依赖于数据分析的软件,比如UnskewedPolls(中文译为非倾斜民意调查,但其实不然)。因为许多人认为Silver只是数据库轮询方面的专家,但实际上他在大数据分析领域也十分在行。
在不同情况下,最重要的不是机器搜集数据、得到初始数据,而是人为顶端分析,只有人为因素才使这些数据有意义。人们可以将民意调查的数据视为罗夏墨迹测验的结果。
Silver则不然,他输入大量数据,观察各种民意调查在不同阶段的情况,并参考影响差误范围的因素,最后他能做出惊人的准确预测。
相似地,每个棒球队经理十分看重占垒率和其他得分统计,但是很少能像Beane领导的As队伍一样,他用如此少的资金就能抗衡实力雄厚的球队。寻找被低估的运动员比寻找天才球员更需要投入精力。你需要知道怎样合理地和其他球队经纪人协商、交易,你还需要思考,究竟哪一位球员能适应新创建的队伍。
当大数据分析逐渐成为主流,它将会变得和其他早期的技术一样普遍。大数据分析也会逐步成为一种日常工具,但关键还在于人为操作。
20211023_6172f069d13ee__大数据分析概要