数据的未来:规模更大、速度更快、无处不在
扫描二维码
随时随地手机看文章
时至今日企业要处理的数据与日俱增。由于他们既要快速地处理数据又要传递更多具体可用的信息,处理过程还要接近实时,这都是不小的挑战。具备创新头脑的企业总是对数据沉迷,渴望能理清它们,并从中获取有用的讯息。这是持续的挑战。当人类掌控数据的能力变强,探索并分析数据的欲望也会越来越浓。
大规模数据分析正迈入越来越多的新商业领域。不论是高管、销售、市场营销、客户关系、财务、运营乃至物流,几乎是现代企业的商业范畴都可以取得越来越多的数据并从中转化成竞争优势,改善现有的业务流程,建立新的应用。数据分析也不再是数据学家的专利。它成了现今一般的日常商业工具,且无处不在。数据分析工具和软件的开发工作也构成了新挑战,当技術普及,开发者的一大任务,就是将高度复杂的技术变得简单直接,從而让与日俱增的新用户能容易上手。。所以,衡量的指标不仅在于规模,「可用性」也是很重要。
以搜索为核心
数据分析不管「大」不大都归结于搜索的能力。人们总希望从数据中获得新洞察和知识。十年前,向一般用户提起「搜索」二字,没几个人能立刻体会其带来的可能性。但是像Elasticsearch这样的开源技术,一切新问题都能透过「搜索」二字找出;要跨越先前的心理障碍可说十分简单。我们看过很多用户利用我们的技术应用于各种场景而不仅仅是常规的搜索。用户一直创新地利用我们的平台,从另一角度看也标志着开源能带来的好处。用户甚至也没能想像到自己的创新力能达至另一水平。
按照定义,「大」数据大致是混合多样的。名为“Elasticsearch”的搜索功能结合了数据分析、文本及结构搜索,是一种灵活的组合。而数据的形式并不重要,不论是典型的网页/文档还是Foursquare上的一个位置、银行的交易、网站服务器的日志或各式各样的度量指标;数据的形式和数量也没太大关系,无论是结构化还是非结构化的数据,人们想要探索就可搜索。更进一步的说,即使数据本身的内容很复杂只要搜索可行也会变得无关紧要。
搜索的未来
如果我们回头看看过去几十年来企业数据分析的发展,这些趋势在很大程度上都取决于搜索技术的进步,从而实现新的、更强大的搜索用途。要有能力搜索数据的不同维度、不同方面的相关性、搜索非结构化数据、又或者仅是搜索更多的新数据,存储和索引技术在其中肯定起了作用。然而这大多是为了制造出新的、更强大的搜索方式。如图分析和机器学习等最新的数据技术就是更成熟的搜索应用。图分析允许用户在无需基础数据的情况下寻找新关联。现今世界,搜索技术几乎压倒性地拥有一切可能性。这提供了一种更快速、更强大的方式探索数据,进而了解重要趋势和关系。图亦提供了一套综合分析,方便决定那些趋势值得深入分析并持续监测。即使是机器学习,核心也需要有搜索技术的支持。搜索技术一直以来都是用来查看随时间发展的数据行为,并以此辨识重要事件的关键指标。常见例子有IT运维其中历史应用程序、服务器和网络日志上的分析,所得都用于识别可能会发生的系统故障。
过去公司会要求熟练的数据科学家建立统计模型,并为每个指标确定极限。这是一个复杂而艰巨的任务。尽管如此,在使用模型来监控实时数据时,仍可能产生较高的误报。
结果是行为分析仅限于大型关键任务、数据中心和金融交易等高回报的领域。但是机器学习,又或更具体地说,行为分析工具的能力正在快速增长,足夠以更高的准确度自动生成机器学习模型。三四年前要一整队研究数据的科学团队才能做到的事,现在各种现成的软件工具就可以为各机构所用。这同时为不同业务的领域开辟了新的以搜索为主的应用方向。
在所有的业务当中,需要分析的数据量未来都不会减少。但大小只是一个维度。「大」可以是一场变化──更大、更快更实时甚至具备预测性。而数据分析也在自我进化,懂得从数据中了解并学习。可见将来这些技术都会被整个企业无以复加的用户所应用。