开源项目Alluxio进军中国市场,把数据虚拟化
扫描二维码
随时随地手机看文章
起源
Alluxio源自于加州大学伯克利AMP实验室(也是Apache Mesos和Apache Spark的发源地)的博士研究项目,自2013年4月开源以来,已有超过100个组织机构的近千名贡献者参与其研究、使用以及开发中,包括阿里巴巴、Alluxio、百度、卡耐基梅隆大学(CMU)、京东、IBM、Intel、南京大学,Red Hat、腾讯、加州大学伯克利分校(UC Berkeley)和Yahoo等。
“历史上的分布式存储系统,基本都是间接性创新,比如更快、更便宜、更容易使用,”Alluxio创始人兼CEO李浩源博士表示,而Alluxio是一套新逻辑上的存储系统——相当于一个中间虚拟层,介于计算框架和现有的存储系统之间。
原理
“用户数据依旧存放在原来的各类存储系统中(如Amazon S3,Microsoft Azure,OpenStack Swift,Apache HDFS,Ceph,IBM Cleversafe, OSS),Alluxio提供与各个存储对接的驱动程序,通过统一的数据访问接口向上对接计算框架(如Apache Spark,Presto,TensorFlow)。此外相对于最初的数据存储系统,Alluxio贴近计算,利用分布式的管理内存或者SSD等存储资源构成一层计算的缓存层,对计算任务起到加速的作用并减少读写磁盘。
对于用户而言,Alluxio在做让数据标准化的事情。数据消费者如大数据分析或者机器学习算法可以不用关心数据原本在何处如何存放(云端还是专用存储设备),只需要连接上Alluxio就可以打通数据通路。”李浩源博士告知。
就好比虚拟机,虚拟机的逻辑是提供虚拟化的计算资源,而Alluxio则提供虚拟化了的数据。
李浩源表示,这样一来,Alluxio有几个优势:
第一,应用层很容易访问混合云上的数据。将来企业用数据很可能有是一种混合的部署,一部分在公有云上(比如阿里云, 腾讯云, 华为云等)以降低成本,部分核心数据在专用存储设备上(比如EMC ECS,IBM Cleversafe,NetApp NFS)。现在Alluxio提供了统一的数据访问界面之后,可以更加简化而高效的读取混合云而避免复杂的数据迁移以及计算驱动的数据ETL。第二,性能提升。新一代存储架构的一个趋势是将存储、计算分离的,Alluxio可以在此基础上,通过算法调度数据,让热数据离计算很近,从而提升计算效率。第三,统一后,可以更有效的进行数据管理。尤其是应用在机器学习、AI等需要大量数据的场景中,Alluxio可以将性能提升几倍到十几倍。
应用
根据公开资料,百度采用Alluxio使他们数据分析流水线的吞吐量提升了30倍。 巴克莱银行使用Alluxio将他们的作业分析的耗时从小时级降到秒级。李浩源补充:“很多企业客户利用Alluxio下面跑对象存储,上层跑AI、机器学习应用,由于Alluxio解决了此前的架构、生态系统问题,可以让上层任何应用都能访问对象存储,目前有应用在反欺诈、手机导航路线规划、电商推荐系统等场景。”
据悉,Alluxio分开源社区版和付费企业版。企业版根据不同地区、客户使用的节点情况收取年费,在欧美市场客单价在几十万到百万美元规模,客户多集中在金融、电信、电商等行业。
而Alluxio公司方面,团队大部分在美国。已经于2015年获得750万美元A轮融资,早期投资人包括Andreessen Horowitz 等,之后会发力中国市场。