当前位置:首页 > 芯闻号 > 美通社全球TMT
[导读]北京2024年7月2日 /美通社/ -- AIGC作为当下最火的技术话题,其业务流程涉及到数据的采集、处理、训练、推理和归档五个阶段,每个阶段都面临着不同的存储需求和挑战。随着数据量的爆炸性增长,特别是随着多模态数据的快速增长,对存储系统的扩展性和服务兼容性也提出了新的挑战。 ...

北京2024年7月2日 /美通社/ -- AIGC作为当下最火的技术话题,其业务流程涉及到数据的采集、处理、训练、推理和归档五个阶段,每个阶段都面临着不同的存储需求和挑战。随着数据量的爆炸性增长,特别是随着多模态数据的快速增长,对存储系统的扩展性和服务兼容性也提出了新的挑战。

在2024年数据基础设施技术峰会上,浪潮信息分布式存储产品线架构师Lance Sun博士发表了题目为"高效数据编排,加速释放数据潜能"的主旨演讲,详细讨论了高效数据编排对于解决上述挑战,并释放数据潜能的重要性。

浪潮信息Lance SUN:高效数据编排,加速数据在AI场景释放潜能


AIGC带来的存储挑战凸显了数据的重要性

首先,Lance Sun博士详细介绍了AIGC对存储提出的需求和挑战,让我们对AIGC的业务流程和对数据存储的需求有了更深入的认识。

第一个是巨量多模态数据的挑战。很多大语言模型都采用了来自Common Crawl的数据集,这个组织在过去17年已经采集了2500亿网页,现在还在持续收集更多。IDC预测,到2025年,全球数据总量将超过175ZB,这种增长对存储系统的多样性和扩展性带来了挑战。

第二个挑战是对超大读写带宽的需求。在训练阶段,checkpoint的管理是关键,良好的存储性能应在12分钟内完成checkpoint的读写操作,确保不拖慢整个训练过程。同时,由于GPU成本高昂,更高的存储性能可以减少显卡的等待时间,减少资源浪费。

第三个挑战是对于读写IOPS的更高需求。千亿级文件的快速访问对IOPS有着极高要求,在某些采用shuffle洗牌策略的训练过程,如果IOPS性能不够,会导致元数据服务器产生大量的通信阻塞,同时会造成GPU集群等待,影响训练效率,造成资源浪费。

第四个挑战在于数据全生命周期管理。在数据清洗和标注算法日益发展的今天,数据作为企业的核心资产,企业需要对数据进行长期保存。于是,如何将数据以较低的成本安全存储起来,也成为更重要的课题。

为了说明高质量数据的重要性,Lance Sun博士还提到了ImageNet数据集。作为高质量的数据集,它极大地推动了深度学习算法的发展。2012年,AlexNet在ImageNet挑战赛上取得成功,这不仅验证了深度学习模型处理复杂视觉任务的能力,也激发了后续研究和多种新算法的产生。

由此可见,数据的采集和高质量的数据清洗,对AI的发展至关重要的。过去十多年的时间里,语言类模型的数据集规模,模型参数规模,AI芯片计算能力和数据存储需求都发生了显著变化。

AIGC在数据归集面临的挑战与浪潮信息的解决之道

在数据存储方面,随着数据集规模和多样性增加,越发依赖更大规模的存储服务器集群。Lance Sun博士介绍称,很多传统行业都积累了大量数据,这些数据需要在不同的存储系统间进行高效的数据流转以支持AI和大数据分析,这在现有的存储架构中造成了数据流动的效率问题。

事实上,多数据中心和异构存储环境中数据迁移面临很多挑战,对此,Lance Sun博士总结了三点:

第一点,数据访问分散。数据迁移的过程对用户来说是不透明的,严重依赖第三方迁移软件,而且受网络波动和存储性能的影响,容易导致数据迁移时间过长,增加操作的不确定性和复杂性。

第二点,空间和时间成本的浪费。迁移过程常用纠删或副本机制来提高可靠性,但这会导致时间和空间成本大幅增加。此外,这一过程还严重依赖于第三方迁移软件的性能,不同存储平台的使用容量差异可能导致数据副本迁移时出现容量不均衡问题。

第三点,运维复杂性增加。由于不同存储产品的特性差异,使得存储厂商各自发展出不同的运维管理系统,数据的频繁迁移或长时间迁移导致数据管理混乱,导致运维时间和成本显著增加。

为了应对多数据中心和异构存储环境中数据管理和迁移挑战,浪潮信息存储进行了大量工作,基于AS13000构建了一套全局数据管理平台。

浪潮信息Lance SUN:高效数据编排,加速数据在AI场景释放潜能


在全局数据管理平台的最上层,通过一个统一的全局命名空间提供用户视角的完全统一,确保所有数据都可以通过一个统一的入口进行访问和管理,极大地简化了数据操作流程。

第二个层面,系统支持多种标准协议接口,包括Linux的NFS、对象存储的S3、大数据的HDFS、容器化的CSI接口以及Windows环境下的SMB协议。这样的设计使得平台能够广泛兼容各种应用和环境,满足不同场景的需求。

最后一层,AS13000引入了智能数据编排和缓存系统。智能数据编排引擎利用人工智能算法自动让数据在热、温、冷存储之间的流转,优化数据存储效率。而高效的缓存系统可以为短期内频繁使用的极热数据提供快速访问能力,加速数据的流转。

最终,用户可以基于AS13000的全局数据管理平台实现数据在任何地点,任何时间以任何类型可视可管可流动。

Lance Sun博士还指出了市场上一些方案的不足。比如,一些方案在数据采集阶段使用了混闪对象存储,而在训练阶段使用全闪存储技术。然而,数据在两个存储集群的流转非常低效,数迁移过程中,经常由于网络波动造成文件断传。

相比之下,AS13000由于在一套系统内引入了多协议融合互通技术,直接省去了数据迁移的过程,大大提高了训练数据的准备效率,以确保数据在训练和处理阶段的高效率和低延迟访问。 

AIGC存储的技术展望

AIGC技术的影响力日益扩大,各大存储厂商对此高度重视,存储系统的创新和演进均将AIGC作为核心考量。在演讲的最后,Lance Sun博士详细介绍了浪潮信息存储在AIGC领域的未来发展关键方向和技术动向,并表示浪潮存储将持续深度融入AI生态系统。

在行业技术方面,GPU直连存储技术已在众多文件系统层面广泛应用,其在大文件读写方面的性能表现尤为出色。浪潮信息与英伟达及业界厂商紧密合作,致力于推动完整技术体系和标准的落地。

在行业基准评测方面,浪潮信息积极参与权威的AI性能测试基准—MLperf Storage评测,并在多项负载性能评测中表现优异,帮助企业选择最适用于AI场景的存储系统。

存储的安全问题同样不容忽视。英伟达在2024年的GTC大会上提到包括加密计算在内的多种安全技术,而在存储层面,同样需要提供强有力的数据保护措施。浪潮信息存储正在多租户权限隔离、防勒索等数据保护技术领域进行深入探索。

谈到未来发展,Lance Sun博士表示,存储性能的持续优化是浪潮信息存储的核心目标。浪潮信息将继续通过软硬件结合的持续创新,力求在智算产业和AI产业中实现快速落地,推动整个行业的进步。

2024年,AIGC依然是最热技术话题,其迅猛的发展速度和广阔的应用前景吸引了众多关注和创新力量。凭借在数据存储领域的持续创新和深耕,浪潮信息正站在这场技术革新的前沿。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

超级智能何时能够到来?影响几何?少数大模型专制的局面,是喜是忧?人工智慧的“幻觉”,是想象力还是BUG?针对这些问题,在由芯原股份主办的“RISC-V和生成式AI论坛”的圆桌讨论环节上,我们找到了答案。

关键字: 大模型 AGI AI ASI 芯原

2024世界人工智能大会一连四日(7月4日至7日)于上海举行,主题是“以共商促共用,以善治促善智”。国务院总理李强出席开幕式并发表主旨演讲。香港工业人工智能及机械人研发中心(FLAIR)首次亮相参会,以“未来工厂”为主题...

关键字: AI 人工智能

联合国旗下世界知识产权组织(World Intellectual Property Organization,简称WIPO)不久前发布报告称,在生成式AI专利申请方面中国远超其它国家,包括美国。

关键字: 生成式AI 专利 AI

7月4日至6日,2024世界人工智能大会暨人工智能全球治理高级别会议(以下简称“大会”)于上海世博展览馆举办。作为我国矿山无人驾驶运输行业的佼佼者,易控智驾在首次参加展会的同时,正式发布全新一代露天矿无人驾驶运输解决方案...

关键字: AI 自动驾驶

为了更好地满足AI实际用例的需求,今年Arm推出了一系列先进的解决方案,包括面向消费电子设备的全新计算子系统——Arm终端计算子系统(CSS),内涵基于Arm第五代GPU架构构建的全新GPU和最新的Armv9.2 CPU...

关键字: ARM AI

7月4日消息,在2024世界人工智能大会上,图灵奖得主罗杰·瑞迪表示,AI是一个新物种,这个物种比我们人类要强大很多倍。

关键字: 图灵 AI

7月5日消息,近日,中国工程院院士、阿里云创始人王坚公开表示,美国AI人工智能发展的瓶颈是电力,这对中国来说不是问题。

关键字: AI ChatGPT 人工智能

北京——2024年7月3日 日前,Gartner®发布了2024年《云AI开发者服务魔力象限》报告1,亚马逊云科技被列为“领导者”之一,在“执行能力”上处于最高位置。这已经是亚马逊云科技连续5年位列Gartner®云AI...

关键字: AI 深度学习 基础模型

无数企业都在研究AI,突然之间数据变得极为珍贵。AWS最近公布的一份报告显示,中小企业如果在业务运营中整合了数据分析技术,那么它更有可能使用AI,更有可能超越同行。

关键字: AI大模型 AWS AI

北京2024年7月3日 /美通社/ -- 7月1日,"2024全球数字经济大会•人工智能专题论坛"在北京举办。大会发布了"北京市通用人工智能产业创新伙伴计划(第三批)"成员名单,软通动力凭借在人工智能领域的深厚积累和创新...

关键字: 人工智能 模型 AI BSP
关闭