面对AI以及未来,我们需要怎样靠谱的存储方案?
扫描二维码
随时随地手机看文章
经过短短几年时间的发展,全社会共同见证了AI从技术崛起到产业崛起的过程。ICT市场的关注重点也从最开始的自然语义识别、机器视觉、逻辑判断等纯技术领域向着智慧医疗、智慧金融、智慧交通、智慧政府等产业应用领域转变。而这种转变不仅是数字化转型的一部分,更实践了AI从技术趋势到产业落地再到商机发掘的完整价值链条。在这场涉及整个IT领域和全行业应用的历史性变革之中,技术、产品、方案和应用都在高速发展。其中,机遇很多,挑战亦不小。
众所周知,AI应用是对算力的巨大挑战,每一次推理都需要复杂且不断重复的数值计算来完成,而训练AI的过程更是要面对海量数据的反复计算。在发展AI的过程中,庞大的算力需求甚至带来了整个数据中心的架构改变。而这也正是异构计算以及对应的管理方式成为近些年服务器和数据中心行业变革的重点。
AI时代,计算之外的基础架构变革虽然AI的产生和应用基于计算,但AI对于整个基础架构领域的影响却并没有止步于计算。
作为AI产业的上游,算法的产生需要长时间、高强度的训练过程。而数据正是驱动这一过程高速进行的重要燃料之一。要保证AI引擎的持续高效运行,承载数据的存储系统也必须要跟上时代的脚步。
正如同AI带来了算力市场的变革,另一场针对AI的存储设备革新也在如火如荼。
非结构化:伴随数据库和统计学的发展,人们已经有非常多的手段和工具来管理和处理结构化的数据。但在机器视觉、语音语义识别等主流的AI应用领域当中,非结构化的视频、图片、音频才是数据的主要类别。在No-SQL之外,企业用户仍旧迫切需要一套专门针对AI应用的非结构化数据管理解决方案。
庞大的文件规模:从数据的角度来看,AI同样是一种典型的大数据应用。而这种数据的“大”并非只是单纯意义的容量大,更意味着文件数量的庞大。要获得高精度的AI模型,训练集的内容会非常可观。在实际的应用当中,这样的训练集至少都要包含数万个文件,而除此之外还要有验证集和测试集;而有时,文字或图片类AI训练库的样本空间更是高达数十万个文件。更何况,在训练的过程当中,AI训练程序还会产生大量的过程数据和纪录。当一套存储系统要面对同时进行的数套AI训练应用时,超大规模文件管理也就成了AI对存储提出的新挑战。
IO优化:传统环境下,评判存储系统性能的高低通常需要在不同的读写比例下进行测试;这一比例可能是3:7、4:6、5:5等等。但对于AI应用来说,传统存储读写平衡的情况似乎很少出现,更多的是在训练过程中对海量数据的大量读操作。换句话说,AI训练是一个典型的输入很多、输出很少的应用。另一方面,由于AI的训练通常以计算集群方式进行,因此,与数据源一样,存储结构也需要从串行变为并行。而在这一过程中不同数据节点的负载均衡也同样值得关注。
数据生命周期管理:在AI与行业深度融合的当下,企业越来越需要具备场景属性的AI应用。换句话说,只有用生产数据训练出来的AI才能更好的在生产场景中发挥价值。但显然,任何生产数据的获得与管理都不是一件“便宜”的事情。因此,专门针对AI训练进行调整的数据生命周期管理系统也就顺理成章的构成了AI对存储系统挑战的另一个维度。
以上只是AI对于存储架构带来挑战的几个主要层面,在具体的应用当中,实际的技术层挑战还有更多。
要应对这些存储挑战,解决方案提供者不仅要了解存储、有深厚的技术底蕴,更要了解AI应用形态,具备丰富的AI实践经验。但在当今市场上,能把存储技术和丰富的AI经验融合到一起、并通过强大的产品力将之打造为方案的厂牌真的存在吗?
为AI插上腾飞的翅膀
AI应用带给存储的挑战并不小,但我们真的需要一套专门针对AI需求再开发一套新的存储系统吗?
仔细分析AI带给IA的挑战,无论数据类型、数据模式、数据管理还是对多种不同用户的数据输出,其都是数据湖的另一种特化应用形态。因此,在数字化转型和AI发展道路上,企业只需找到一款能够对AI提供更好支持的数据湖存储便可实现一举多得。
2020年7月,IBM针对数据湖市场发布了全新的ESS 5000系列存储,并通过一系列针对AI应用的全面优化为市场带来了应用、效能以及成本三个维度上的全新平衡。
作为IBM Elastic Storage System家族的新成员,ESS 5000系列是一款面向文件的数据湖产品。通过使用磁盘介质,ESS 5000系列能够为企业的各类存储需求提供更低的成本。ESS 5000目前包含2种型号,标准机柜构型的SL型号和采用加深机柜的SC型号。其中SL型号能够以260TB/u的密度提供552TB至8.8PB的存储空间;而采用加深机柜的SC型号则能够以375TB/u的密度提供1-13.5PB的存储空间。
采用磁盘系统并不意味着ESS 5000在性能上会受到任何限制。相反,通过进一步的IO优化,在典型的12节点配置当中,ESS 5000能够提供55GB/s的超高读取速度,相对于目前市场上其他的磁盘类文件存储系统,读取性能至少提升300%。
而在配合基于NVMe闪存的ESS 3000时,企业便能够在简化存储系统结构的同时满足更高性能和容量方面的需求。
打造包容AI的宽广数据湖当然,性能、容量与扩展性方面的提升和型号的简化只是ESS 5000对于企业用户的见面礼,其真正的价值在于内部对于各类先进架构的支持、融合与更新。
1、全面与云融合
ESS 5000是一款与云架构全面融合的产品。通过与红帽RedHat Open Shift容器平台的全面兼容,各类基于容器的AI应用可以在ESS 5000上进行方便的数据索引,降低AI训练在数据准备阶段所需的时间和工作量。
2、更多数据源支持
ESS 5000支持更多类型的数据源,而这些数据源不仅可以来自于传统的业务系统,更可以来自移动端、物联网、传感器等新一代数据源。而这样的设计不仅让AI应用能够获得更多、更广泛的业务数据,更可以扩展整个企业数据湖的宽度,为基于数据的精细化管理和业务转型铺平道路。
3、更全面数据生命周期管理
由于目前的AI技术仍旧需要通过海量数据来获取业务洞察,所以无论AI或其他数字化应用,寻求数据的多维度价值都是其核心目的。而在这一应用形态长期不变的前提下,数据的生命周期管理和其在不同介质、系统中的高效移动就成为了加速数据价值体现的关键一步。作为广受好评的元数据管理解决方案,IBM Spectrum系列软件有着极高的人气和应用范围。而新推出的ESS 5000系列则可以与Spectrum Discover、Spectrum Scale Data Acceleration for AI等方案进行联合容器化部署,增强AI应用中的数据移动、数据管理,并降低备份产生的空间损失,为数据生命周期管理补齐AI短板。
4、YB级命名空间
针对AI训练中所需的庞大文件数量和集群产生的海量过程文件,ESS 5000还能够支持YB级别(10的24次方)的命名空间,为AI更复杂的卷积应用创造前提。
以AI为契机,探索存储新未来AI是眼下ICT及数字化转型中最主要的方向之一,在为商业应用提供全新模式的同时,AI给整个基础架构带来的新需求、新挑战也让越来越多企业意识到,在基础设施的构建过程中,每一种设备都需要具备面向未来和全新应用的兼容能力。
而IBM在ESS 5000上所展示的技术和应用方式正是这种未来思维模式的结晶。通过架构简化、多方案融合、容器化以及面向应用的细致优化,ESS能够让企业数据湖应对AI所带来的的一系列挑战。而具备这样能力的数据湖也正是数据价值得以进一步体现的前提。
IBM免费咨询专线400-669-2039
【IT葡萄皮】(公众号:itopics)由资深媒体人张垞运营。从业十二年的深度观察,只为一篇不吐不快的科技评论。
联系方式
电话:18612920630
电子邮件:69240891@163.com
微信:z87136954
QQ:87136954
免责声明:本文内容由21ic获得授权后发布,版权归原作者所有,本平台仅提供信息存储服务。文章仅代表作者个人观点,不代表本平台立场,如有问题,请联系我们,谢谢!