大数据技术需要面对的现实
扫描二维码
随时随地手机看文章
对于很多企业来说,大数据只是一个模糊的目标,而不是现实。然而,这是一个目标,越来越多的企业正在推动他们的首要任务清单。正如Gartner的调查所显示的那样,每个人都热衷于加入大数据的大潮,但真正理解其中原因的人却相对较少。大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。正如Gartner的分析师Svetlana Sicular所指出的,阻碍大数据采用的迷思取决于企业采用大数据的曲线在哪里。2014年,许多愚蠢的大数据神话将被数据驱动应用程序的经验增长所取代。没有人能一下子从大数据新手变成久经世故的人。这就是为什么对大数据项目的敏捷方法如此重要的原因,正如我在这里写的和之前在Strata会议上介绍的。失败是必然的。关键是最小化失败的成本,这就是为什么像Hadoop这样的开源技术对大数据的成功如此关键。
Sicular以以下方式展示了大数据的成功之路:
她指出,在这个过程中,阻碍我们进步改变的神话。Sicular识别出的第一组大数据神话可以归结为对大数据含义的核心误解,以及随之而来的对工作所需的正确技术的困惑。例如,Sicular识别出的第一个大数据神话是一个根深蒂固的信念,即大数据是一个数据量的问题。她发现,现实要微妙得多:大数据是高容量、高速度和高多样性的信息资产,需要成本效益高、创新的信息处理形式,以增强洞察力和决策能力。事实上,包括来自新华帝合作伙伴的研究(如右图所示)在内的多项研究都表明,对于大多数大数据项目来说,数据的速度和多样性是最重要的特征。
因此,另一个长期存在的神话——大数据就是hadoop——阻止企业探索更符合实际的大数据使用的技术,比如NoSQL技术(用于不同数据类型的实时处理)和“逻辑数据仓库”,完成Sicular的技术栈促使企业考虑这些技术。一旦企业已经超越了这些新手的错误,他们就准备好处理更高级的神话。在这个“意识到”阶段,企业有更好的理解,数据很重要,如何处理它,但他们错误的认为可以解决他们所有的问题如果有足够多的数据,并错误地认为同龄人远远领先于他们。
因此,Sicular将大数据问题与那些“业务问题”隔离开来,这些业务问题的问题是事先不知道的,回答这些问题的数据类型可能会有所不同,而且可能需要非结构化的数据。换句话说,当你想先存储数据,然后再查询数据时,大数据是有用的。如果您知道应该对事务性收银机数据提出什么问题,而这些数据恰好适合关系数据库,那么您可能就不会遇到大数据问题。如果您存储的是相同的数据,以及一系列天气、社交和其他数据,以试图找到可能影响销售的趋势,那么您可能需要这样做。
这并不是说唯一重要的数据是企业外部的非结构化数据。事实上,事实可能恰恰相反。正如“黑暗数据”所假设的那样。对于所有研究大数据机遇的企业来说,最大的兴趣在于如何利用现有数据仓库中的未充分利用的数据。当被问及目前哪些数据企业在分析时,事务性数据和日志数据是最受欢迎的两个回答。许多最有趣的数据已经存在于大型机和企业内的关系数据库中,但是在过去管理不善。大数据项目通常应该从已有的数据开始,但没有得到有效利用。
Sicular的第三阶段是企业积极试验他们的数据,但仍然因为缺乏技术和不成熟的技术而感到困惑。在这个阶段,企业转向神秘的数据科学家,发现她很难找到,而且也不一定是这个工作的合适人选。Sicular并没有把重点放在寻找“数据科学家”上,而是敦促企业组建一个“拥有多种技能的多学科团队,以迎接技术挑战,解决采用大数据的复杂业务问题。”考虑到对数据提出正确问题的重要性,这一点至关重要。语境很重要,不同的人对如何看待自己的数据有不同的看法。大数据的后阶段采用充满了一些意想不到的现实——Hadoop是不像一些希望,廉价的实现,企业往往不是利用商品硬件和购买昂贵的机器,和更多的,但也有一些不错的惊喜,像这样一个事实:大数据技术相对容易的程序。有趣的是,企业走得越远,就越意识到结构化数据是多么宝贵的财富。虽然非结构化数据可能占到数据总量的80%,但目前还不到大数据价值的80%。正如Sicular指出的那样,“结构化数据经过了改进,其密度和质量都比同等数量的非结构化数据高得多。”
据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。“随着大数据技术在管理/订购非结构化数据方面变得越来越好,这种情况可能会随着时间的推移而改变,但这在今天已经成为现实。”所有这些都提醒我们,我们所相信的大数据可能并不真实。因此,以谦逊的态度对待大数据项目是至关重要的。