当前位置:首页 > 原创 > 刘岩轩
[导读]数据中心可以看作是一台大号的计算机,而云计算同样也符合冯诺依曼结构:数据从存储设备中取出,通过网络传送到计算单元,运算结果通过网络传输至存储设备中保存。 因此要实现更高性能的运算,更高效地支持LLM等新兴应用,算力、网力和存力,三者缺一不可。

数据中心可以看作是一台大号的计算机,而云计算同样也符合冯诺依曼结构:数据从存储设备中取出,通过网络传送到计算单元,运算结果通过网络传输至存储设备中保存。 因此要实现更高性能的运算,更高效地支持LLM等新兴应用,算力、网力和存力,三者缺一不可。

当算力向着异构计算方向发展,实现指数级的增加、网络向着更快速方向演进,进入400GE、800GE时代时,作为寸力代表的SSD,又有什么样的技术趋势?平头哥在2023年阿里云栖大会上给出了答案——旗下首颗自研SSD主控芯片“镇岳510”正式发布。


云计算应用追新逐日,数据基座面临存力挑战

存力指的是存储设备的能力,主要有性能、能效、可靠性和时延四个方面的指标。对于SSD而言,性能通常指的是读写带宽和读写IOPS;能效比指的是每消耗一瓦功耗可以提供多少的性能;可靠性指的是SSD的纠错能力,通常用UBER表示,也就是每读取多少笔数据会出现一次数据纠错失败;时延则是指的SSD从收到命令到返回响应的时间。

据平头哥产品总监周冠锋介绍,新兴应用对于云计算中的存力提出了更高的要求。

作为计算数据来源和结果数据的目的地,SSD吞吐率的高低将直接制约整个计算系统的性能;云上的一个业务请求通常会被分散到多个SSD中并发执行,任何一块SSD的时延抖动都会造成这个那个业务的请求延迟。此外,更高的存储密度、更好的能效表现,同样不可或缺。

今天发布的镇岳510是平头哥旗下第一颗SSD主控芯片,支持先进的PCIe 5.0接口和DDR5.0技术,内置玄铁910 RISC-V多核CPU,采用平头哥自研紧耦合芯片架构,对SSD任务进行高度抽象,可固化任务硬化为加速算子以提升性能。

据悉,镇岳510每秒可处理高达340万笔IO,每瓦功耗可提供42万笔IO访问。相比目前主流的PCIe 4.0SSD,镇岳510在相同的性能下,仅主控芯片即每年节省260万度电,按照一度电排放0.785千克二氧化碳计算,每年可减少二氧化碳排放2千吨。

镇岳510还内置了创新的IO自动化处理机制,前端IO解析与处理,由专用硬件模块自动完成,实现了业界领先的超低的时延(4μs),可以带给应用极佳的体验,比业界SSD降低30%以上。

在可靠性方面,镇岳510内置了平头哥自研的高性能LDPC纠错算法,编码效率逼近香农极限,同时ErrorFlow相比业内SSD更优一个数量级;借助平头哥自研闪存电压预测算法,可以在各种闪存的不同工况、寿命、温度等条件下,准确预测闪存电压漂移,进一步降低LDPC解码器的输入误码率。其实现了低至10^-18的UBER,相当于每读取百亿亿笔数据,才可能有一笔数据纠错失败。

虽然算力是越高越好,但其实不同的上层应用,对于底层的数据基座也有着差异化的需求。例如AI推理,更关注带宽和时延这两个参数;而AI推理,则更看重IOPS这个参数。而说到对于云上业务场景的理解,以及对于未来云计算技术趋势的判断,作为阿里云的独立芯片公司,平头哥是非常了解的。


镇岳510的定义和架构:灵活性和高效计算之间的平衡之术

为了实现紧密的软硬件耦合,从而达到整体更高的数据中心下效能,底层的SSD芯片在设计的时候要充分考虑到上层应用的IO模型。

对于产品定义,平头哥内部架构团队花了超过半年的时间反复审度,最终确定了镇岳510的设计目标,在灵活性和高效之间实现了最佳的平衡。

首先对于标准的选择上,2023年是企业级SSD从PCIe4.0向PCIe5.0迈进的元年,因此平头哥提前规划了这颗支持PCle5.0的SSD底座芯片。

而在灵活性和高效的平衡上,业界每一家SSD主控芯片的设计都有所不同,主要分为“命令流”和“数据流”两种。所谓的命令流,就是类似于纯SoC,更多的依赖CPU跑各种软件来实现命令的解析、拆分、各种表象管理以及后端应用组装下发等工作。这种方式拥有更高的灵活性。所谓的数据流,就是类似于当前镇岳510这样进行硬件大幅度卸载的设计方案,通过专门的硬件加速器来运行特定的工作任务,从而实现这些任务的高效稳定运行。

对于镇岳510而言,选择哪些功能卸载到硬件加速器上去跑,哪些仍然在CPU中去处理,就是一个非常棘手的问题。把所有的任务都放在专门硬件加速器中去做,就会主控芯片的丧失灵活性,而某些工作任务放在CPU中去处理,又得不到更好的加速。如何取舍?这需要对于云上应用场景的深刻理解。

据周冠锋分享,平头哥的SSD芯片的设计团队在前在设计前期是经过了大量的多种方案的对比,最终选择了当前一个最平均、最平衡的设计方案——既能通过硬件加速获得高效,同时又把一些关键的软件任务仍然留使用CPU来运行,这样获得灵活性。


为云而生,软硬件紧密耦合开启软件定义闪存时代

作为一款SSD主控芯片,镇岳510是为SSD而生,更是了云而生,最终是为了云上应用而生。以应用作为最终目的,将SSD与数据库进行紧密的软硬件耦合,这才是镇岳510这块硬件拼图的使命。

作为一家云服务商,阿里云拥有全栈的软件核心技术,而镇岳510在芯片层面也和阿里云的软件层面进行了一些配合,实现诸多对于云计算非常有价值的关键特性。

首先,镇岳510支持定制化ZNS协议,通过存储软件与NAND特性完美契合,达到数据排布的最优化,后台操作的最小化,从而进一步消除SSD接口税。

其次,镇岳510提供了IO粒度的优先级调度,实现了全链路QoS优化。延迟敏感型与带宽敏感型IO实现了精细化的区分处理,从而提升了延迟敏感型IO的SLA。

第三,镇岳510支持智能卸载功能。将可靠性计算任务卸载至SSD,实现全路径存储语义校验,同时也减轻了服务器主机算力开销。

将采用镇岳510主控的“镇岳SSD”与阿里云的统一存储平台“飞天盘古”相结合,就组成了阿里云从芯片到系统的全栈自研分布式存储。两者协同增强了云存储的灵活性,并推动数据中心向软件定义闪存的方向迈进。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭