80%云服务商面临的“联网危机”,为何必须是FPGA?
扫描二维码
随时随地手机看文章
随着数据洪流时代的到来,在摩尔定律放缓和登纳德缩放比例接近瓶颈下,数据中心是去年一年谈及最多的关键词。对于FPGA厂商,则是围绕异构计算和加速器进行发力。赛灵思总裁兼CEO VictorPeng 在2018年曾明确宣布“数据中心优先”、“加速核心市场发展”、“驱动自适应计算”是公司三大战略。
日前,赛灵思(Xilinx)宣布推出业界首款“一体化 SmartNIC 平台”——AlveoU25。所谓“一体化”指的是真正在单颗器件上实现“网络”、“存储”和“计算加速”功能的完美融合。而这款两款新产品则仍然是面向数据中心,为2级和3级云服务中心运营商、电信和私有云数据中心运营商解决现有的严峻问题。另外,一些本计划展出的产品和概念性产品被披露。21ic中国电子网记者受邀参加此次线上访谈。
80%的云服务供应商仍然面临“联网危机”
据赛灵思数据中心事业部产品及平台营销副总裁Donna Yasay介绍表示,当前来说,数据中心面临的最大的问题就是“联网危机”。众所周知,数据中心正随着5G、AIoT等应用爆炸式增长,而数据中心内部流量在业内称之为“横向流量”,据统计,这种“横向流量”年复合增长率在25%以上。
图1:Donna Yasay,赛灵思数据中心事业部产品及平台营销副总裁
云服务器会在CPU和软件中使用很多SDN功能,在数据量增长同时许多额外的工作涌入云数据中心服务器,而很多工作量并非应用级的处理,仅仅是将数据包进行传输处理。因此,这样的情况导致正在发生的事情便是这些工作会挤占CPU的资源,将大量CPU处理能力耗费在应用之外。
因此在此方面云服务商面临的问题便是需要卸载挤占CPU资源的解决方案,如果是公有云的话,对核心内容处理的挤占也会影响到利润。边缘一级云服务提供商诸如亚马逊、微软在很多年前便意识到这个问题,这些公司的做法是从服务器上卸载联网功能,转移到统称为SmartNIC的技术来解决这种问题。
利用这种SmartNIC技术可以有效解决“联网危机”,亚马逊收购了一家名为Annapurna Labs的初创公司,专门开发这样的器件,将服务器联网的这类工作卸载,并利用器件制造SmartNIC。无独有偶,微软也已经公开宣布再将FPGA集成到SmartNIC上,也从服务器上卸载超级管理功能中的联网,目前已有数以百万计的部署。
但事实上,据统计有超过80%的云服务节点目前不提供SmartNIC接入,并且仍然使用传统NIC继续在软件上运行联网功能。为何会出现这样的现象?究其原因在于这些二级、三级服务商并没有强大的研发团队,也没有雄厚的研发资源能够自行设计测试,并进行大规模部署。所以市面上目前急需的是现成的、方便的、开箱即用的解决方案,能够符合即插即用的标准,无需开发即可享受卸载带来的优势。而赛灵思本次发布的Alveo U25 SmartNIC平台便拥有这样的优势。
图2:数据中心面临联网危机
一张卡,三重效
Donna Yasay为记者介绍表示,假若云服务商可以将这项工作负载卸载下来并高效地在一个SmartNIC平台运行,就意味着可以完成更多的工作量,换言之同样的工作量所需的服务器数量也会更少。因此,硬件方面的节约可以大大降低云服务商的资本支出,另外数据中心功耗的降低也能够节约运营成本,这两方面边可为运营商的带来很大的优势。
这一最新产品线被赛灵思命名为Alveo™ SmartNIC,而这条产品线则从Alveo U25 SmartNIC(下文简称“U25”)开始,后续将推出更多型号的系列产品。Donna Yasay为记者解释表示,之所以称之为一体化平台是因为,此前的解决方案仅仅关注的是网络或存储方面,而这套解决方案融合了嵌入式网络、存储并且还加入了计算加速的功能,在一张卡上实现了“三重功效”。
图3:业界首款一体化 SmartNIC 平台重磅发布
U25作为在AlveoSmartNIC路线图上的首个产品,是基于赛灵思的FPGA技术的一款产品,因此是可灵活应变且可编程的。Donna Yasay表示,FPGA可以说是隐藏在幕后的英雄,可为客户提供一个完全经过测试并且验证的比特文件,能够上载到卡片的启动,并且能够符合标准的行业API,。
根据Donna Yasay的介绍,系列产品主要实现的功能是无缝集成嵌入网络、存储、计算卸载以及加速功能,这一切都将真正地在这个单个平台上实现。值得一提的是,一站式(turn-key)应用是快速部署的关键,能够大大帮助80%还没有办法使用SmartNIC的云服务供应商,Open vSwitch、IPSEC、SSL等一站式加速应用支持将为客户提供全面的加速。另外,部分客户需要支持自有协议堆栈和卸载功能,因此可编程能力非常重要。Donna Yasay强调,该系列产品全线支持赛灵思Vitis™统一开发环境( 拥抱开源的Xilinx描绘了AI之下的刚柔并济: Vitis AI平台正式开放下载)。
SmartNIC为何偏偏要用FPGA
赛灵思FPGA SmartNIC平台正因基于FPGA技术,因此可以处理非常广泛的工作负载。FPGA在计算应用方面的能力是有目共睹的,在机器学习、推断数据库、加速视频转码等方面表现十分突出;当然在联网方面表现也是非常优异,能够非常迅速地进行信息包的处理和查询;而在存储方面,能够支持压缩、加密和重复数据删除等各种工作。Donna Yasay坦言,目前而言,没有哪一项技术可以实现三个领域的三项全能。
FPGA缘何成为SmartNIC平台的优选
其一,灵活性。云服务商在面对瞬息万变的世界,需要在短短几周时间部署一个开放模型,还要顺应变化开发新功能,如果采用ASIC技术是做不到的,除非重新设计,但这要耗费好几年时间。FPGA自身拥有的灵活可编程性,就非常容易开发新功能,并重新编程设计,这便是它的关键优势之一。
其二,功耗性能。FPGA对比基于SoC的SmartNIC,SoC的SmartNIC一般来说需要通用目的处理路径,虽然这种器件非常灵活,但性能并不理想,因为一定数量的CPU功率电路只能容纳一定数量的CPU核。通过已知数据包所需时钟周期及具有的核心数量,很容易推算出2000~3000万数据包/秒,这已是该模式的极限。这一数字或许在当今端口速度普遍是25G的情况下还是足够使用的,然而很快运营商将过渡到200G到400G速度,显然是不够用的。
FPGA则不受这些问题影响,因为在数据包处理上,是通过管线形式实现。通过管线形式处理,净通量大约是每个时钟周期一个数据包,时钟周期频率为300Hz,对于FPGA技术来说可以说是不费吹灰之力,因此经产出约为3亿数据包/秒,面对未来200G的网络来说已绰绰有余。当然假若在性能方面,FPGA仍然还有扩展空间,使用多条管线即可。
Donna Yasay强调,对于云服务商来说,真正重要的则是功耗和性能。据介绍,在同样功耗水平上, FPGA所能够处理的数据包的数量是SoC的四倍,单位功耗性能比SoC优越十倍。
其三,动态可调。FPGA技术是动态可重配置的,这意味着,无需重置卡上FPGA即可升级现有的功能或者动态增加新的功能。另外,这也意味着云服务商可在没有任何停机的情况下,重启网络接口,不需要暂停SmartNIC卡或重启服务器。
图4:赛灵思 FPGA SmartNIC 平台的核心属性
Alveo U25 SmartNIC还有哪些秘密
据Donna Yasay介绍,该产品支持2个25G以太网端口,通过SFP28支持,紧凑的封装尺寸下,可以完美适配任何云服务商和PCle Gen3 x 8。而更多PCle Gen4、Gen5方面则在将来的型号中实现。值得一提的是,U25还支持开箱即用的特性,诸如隧道卸载、校验、TCP片断卸载、RSS、SR-IOV等标准基础功能都会被装载到平台上,相关驱动也是一应俱全。
从参数上来看,U25的FPGA拥有ZYNQ级的器件和超过52万的LUT,并嵌入式内核A53处理单元,可进行控制层处理,另外还搭载6G DDR4 SDRAM,可用作数据包的缓冲、表扩展或表单查询等。
图5:Alveo U25 SmartNIC 适配器特性
需要注意的是,近期赛灵思最新收购了Solarflare通讯公司,Alveo SmartNIC系列将全部采用这家通讯公司的Onload技术。根据Donna Yasay的介绍,赛灵思通过并购该公司的IP,充分融合进入SmartNIC平台,同时吸收该公司的团队和专业技术来开发今后需要的功能和驱动。这项技术已在金融科技领域得到了非常好的验证,同时也是Solarflare多年独步天下非常重要的优势。
Onload技术简单解释起来便是,可不经过内核直接把数据包送到用户空间。一般来说,如果没有这项技术支持的话,来自适配器的数据包需要首先进入主机内核,通过DCP堆栈穿过内核空间和用户空间,还会引起接触转换,最终进入到运用的套接字(Socket)。如果有Onload技术支持情况下,便可略过内核,直接进入到用户空间,并由TCP/IP堆栈,将数据输送到符合标准的套接字中。
解释这么多,应用了Onload究竟意味着什么?
使用Onload意味着数据包在输送时刻降低时延,据Donna Yasay介绍,经过标准的内核情况相比,时延可降低80%。不止如此,内核和用户间的接触转换也被省去了,因此服务器的效率有了大大提升。任何类似基于TCP的应用,无论是数据库还是服务器的负载平衡器或其他类型应用,这项技术都可将基于TCP的应用性能提高最多400%。
图6:Alveo SmartNIC 全部采用 Onload 技术
上文也有提到U25及该系列产品全面支持Vitis,在SmartNIC平台的堆栈上,均已部署在现有的Alveo卡上,包括openstack联网库。这意味着,开发者能够访问除了上述功能以外的Vitis的所有库,诸如AI视频、数据库、基因组学等,并可充分利用这些IP和功能。除此以外,开发者还可以享受赛灵思在SDN安全深度信息检测等领域提供的联网库功能。Donna Yasay强调,以上的所有功能都得到了动态可重配置的支持,通过赛灵思的运行时库上载到Alveo U25 SmartNIC平台。
图7:SmartNIC 平台堆栈
“这款产品所面对的目标用户非常广泛,而侧重点主要在于云服务提供商,因为这些服务商需要的是现成的SmartNIC解决方案卸载和加速。”Donna Yasay如是说。
图8:目标最终用户
“U25是Alveo SmartNIC的开端,正因数据中心一直是处于前沿的技术,性能的更迭与高端产品是必要的,未来在端口速度方面将从2 x 100慢慢过渡到2 x 200上。”Donna Yasay这样对记者介绍。
由于疫情原因,赛灵思原本准备发布另外一款产品和概念性产品。具体是:
世界首款基于FPGA的OCP和OAM概念验证板
1、符合开放计算项目( OCP )尺寸规格的全新产品
这是世界首款基于FPGA的OCP,是Solarflare传统适配器产品线的延伸,被赛灵思命名为XtrmeScale ™ X2562。DonnaYasay表示,在收购Solarflare后,适配器也是基于该公司最新的ASIC,而正因市场对封装尺寸的严苛要求,X2562使用的是OCP3.0封装尺寸。当然,这款适配器包含了Solarflare适配器所有的标准化功能,同时也包括Onload。
图9:XtremeScale™ X2562适配器特性
2、OpenCompute 加速器模块(OAM) 参考架构
作为一款概念性产品,赛灵思旨在为客户展示其在OAM方面的参考架构。这款产品使用的是Virtex UltraScale + VU37P FPGA,这是一款非常高端的FPGA并配备8G HBM存储器。HBM对于很多应用来说,诸如数据库搜索、机器学习推断等应用来说非常适合,因为这本身耗费的内存是极大的,目前赛灵思已和关键合作客户进行相关参考设计。
图10:OpenCompute 加速器模块(OAM)特性
一个平台,广泛加速
这几年,数据中心是顶级大厂的竞争核心,当然赛灵思在此方面的大动作从来都是接连不断。据赛灵思大中华区销售副总裁唐晓蕾(Maria Tang)介绍表示,通过过去几年的努力,越来越多的数据中心现在已经开始越来越以赛灵思的产品为中心发布。
图11:唐晓蕾(Maria Tang),赛灵思大中华区销售副总裁
“现如今,通过很多论文与文献,可以看到赛灵思的加速卡已越来越多地扮演着重要的角色,而赛灵思数据中心的重心不光是在计算上,而在于平台。”唐晓蕾强调,为何说Alveo是最重要的产品,因为在传统上CPU主要进行顺序执行,GPU主要进行并行计算,而赛灵思的Alveo则是二者兼顾的。
图12:Alveo具有独特的优势
整个生态系统之中,除了Vitis,Alveo作为赛灵思的重要产品线,可为客户提供多维度的计算能力,包括计算能力和存储加速,而现如今发布的U25则还会提供网络、存储和计算加速三重能力。
图13:赛灵思Alveo 的产品线(新产品U25见图4)
随着摩尔定律的终结和登纳德缩放比例定律逐渐失效的现在,数据中心转向加速卡时代是必然的,而5G与万物互连的概念逐渐普及,数据中心加速需求也将越来越大。谈及加速卡,唐晓蕾坦言,未来加速卡格局要从三个角度看,一是计算,计算加速特别在云端上是计算加速的重点;二是网络,怎样实现网络的可扩展性、可视化、智能化;三是存储,在存储上不论是带宽的占用,还是成本都拥有很有大的挑战。
唐晓蕾强调,Alveo系列产品研发和推出上主要面对的是数据中心客户面对的瓶颈和业务痛点。因此,更多新的产品仍然值得关注。