224核+36TB内存+3D NAND闪存盘+FPGA=?
扫描二维码
随时随地手机看文章
2020年6月19日,英特尔公司在“‘芯’存高远,智者更强”的英特尔®数据创新峰会暨新品发布会上,围绕最新推出的第三代至强可扩展处理平台和人工智能(AI)应用,推出了包括全新处理器、内存、存储、FPGA的解决方案,21ic中国电子网记者应邀参加本次发布会。
01
第三代英特尔至强可扩展处理器
首先介绍英特尔全新的第三代英特尔®至强®可扩展处理器,新产品的代号为“Cooper Lake”,仍然采用的是14nm的工艺制造,最高28核心、56线程,这意味着用于8路服务器将支持多达224个处理器内核、448线程。而第三代产品线,在今年下半年将有基于10nm Ice Lake的单路、双路市场产品推出,补充构成完整的第三代家族。
提到英特尔,个人用户首先想到的是“酷睿”(Core)或“奔腾”(Pentium),而作为经常与服务器和工作站打交道的电子工程师,则首先会想到“至强”(Xeon)或“傲腾”(Optane)。
正如字面意思,至强处理器的侧重点便是数据处理和稳定性,在很久以前至强处理器细分为E3、E5、E7几个系列,名称刚好对应了i3、i5、i7。但与酷睿不同的是,至强并不集成核心显卡,另外照顾到全天候运行的大型服务器,普遍来说主频和超频性能会低于酷睿系列,只搭载一个睿频加速功能,追求极致的稳定性。
而在2017年,英特尔推出了全新的产品线英特尔至强可扩展处理器,命名上也采用了更加符合主流、直观易懂的“铜牌”、“银牌”、“金牌”、“铂金”的分级。
至强处理器到底强在哪?多核心、多线程,支持多路CPU,支持更大内存和内存带宽,支持更高缓存,更丰富的指令集,更稳定出色的性能。
英特尔表示,第三代产品与5年前的平台相比拥有1.9倍的平均性能提升与1.98倍的数据库性能提升。
需要注意的是,本次推出的第三代至强可扩展处理器不单纯的是频率、核心数、内存支持的硬参数提升,新产品的核心关键点是首批内置bfloat16的主流服务器CPU,还支持最新一代的英特尔®傲腾™持久内存200系列(在第二节将深入讲解),部分型号还支持英特尔Speed Select技术优化处理资源、提高工作负载和性能利用率。而第三代至强主要面向的主要是四路和八路系统。
图3:第三代至强处理器的主要突破
所谓bfloat16即是英特尔®深度学习加速(英特尔®DL Boost)功能当前主打的指令集技术,简单来说,bfloat16这项技术可以通过一半的比特数对软件做出很小的修改,便可达到与32位浮点数(FP32)同等水平的模型精度。
据英特尔公司数据中心事业部副总裁、英特尔至强处理器和存储事业部总经理Lisa Spelman介绍,bfloat16这项功能主要面向人工智能(AI)应用训练和推理性能加速,搭载4颗第三代至强铂金8380H处理器的英特尔参考平台下,ResNet-50图像分类训练吞吐量性能提升达1.93倍,BERT Squad推理吞吐量性能提升高达1.9倍。
从型号方面来讲,Cooper Lake第三代至强可扩展处理器拥有11种不同的型号,分为至强铂金8300、至强金牌6300、至强5300三个子系列,均以H和HL编号结尾,区别在于HL支持单路最多4.5 TB内存,H支持1.12 TB内存。
从型号上来看,参数最为强大的至强铂金8380HL拥有28核心56线程,高速缓存达38.5MB,最高睿频频率4.3GHz,支持四路到八路扩展。而其他型号方面,则根据需求不同,拥有不同截然不同的参数选择,主要针对AI训练、内存密集型应用、虚拟机三种不同应用场景平衡成本。
02
第二代傲腾持久内存
上文也提及第三代至强可扩展处理器的一大亮点就是支持傲腾持久内存200系列,是傲腾持久内存的第二代产品,单条最大容量为512GB,热设计功耗可达12-15瓦。英特尔表示,在傲腾持久内存200系列与上一代持久内存相比,内存带宽平均增幅25%,在运行要求严苛的工作负载时带宽增加多达39%。
图7:英特尔傲腾持久内存200系列模组
傲腾200系列单条容量上拥有128GB、256GB、512GB三种选择,热设计功耗分别为15W、18W、18W,最高温度84℃,而在外部也拥有散热外壳。
图8:英特尔傲腾200系列单条参数
傲腾系列为何被称之为持久内存?这主要是从特性方面所讲的,众所周知存储器分为易失存储器(DRAM为主)和非易失存储器(NAND为主),而傲腾则属于介于DRAM和NAND之间的PMem(Persistent memory),断电也不会丢失数据。不过,傲腾系列并非要取代DRAM和NAND,而是与之共存,填补二者之间在容量和性能的空档。
因此,需要注意的是,傲腾200系列能够与传统DDR 4 DIMM共存,共有1.5 TB的DRAM并排占用相同的主板插槽,而第三代至强处理器平台支持每个通道一个IntelOptanePMem 200系列模块,而这一模块则是单个插槽可支持6条傲腾200内存,即每个插槽提供3TB的PMem。
DRAM与6条傲腾200内存,相当于每个插槽(路)提供4.5 TB的总存储容量!而每路4.5TB,八路系统就是36 TB的内存!
Lisa Spelman表示,自去年2019年4月傲腾持久内存问世以来,目前已收货超过270份订单,200多家世界500强企业已采用这项技术,从POC到销售转换率超过85%。软银、SK Telecom、西门子均从傲腾技术中获益,国内企业则主要包括金山云、快手、平安云、中通快递等。
03
除了PMem内存以外,英特尔还推出了一款基于最先进的96层TLC 3D NAND介质的固态盘(SSD),采用Intel PCle Gen4控制器,具有增强的管理功能和可扩展性,可为AI和大数据分析负载实现性能与容量的更优平衡。
英特尔表示,与上一代NVme NAND相比,在PCle-3的表现上拥有高达33%的性能提升以及40%的延迟降低。
图11:采用TLC 3D NAND介质的优势
从参数来看,这些SSD具有U.2 15mm的尺寸,D7-P5500提供1.92 TB、3.84 TB、7.68 TB三种选择,而D7-5600则拥有1.6 TB、3.2 TB、6.4 TB三种选择。
图12:两个系列SSD产品的具体参数
从功能方面来看,两个系列SSD产品内置TCG Opal 2.0和AES-XTS 256 bit加密,拥有增强的SMART监控功能,可使用Telemetry 2.0访问各种存储数据,拥有优化的TRIM架构作为后台运行而不会干扰工作负载,具有内置的自检Power-Loss imminent(PLI)功能从而防止在低电量或故障情况下丢失数据。
04
不难看出,上文所发布的新产品都是专门为人工智能(AI)而生的,针对AI英特尔也即将发布新品Stratix 10 NX FPGA。
Stratix® 10 FPGA家族的这款新产品也是第一款专为AI优化的FPGA。Stratix 10 NX FPGA核心芯片采用14nm工艺,与标准的Stratix 10 FPGA DSP模块相比拥有高达15倍的INT8吞吐量,可实现高带宽、低延迟的AI加速。
图13:Stratix 10 NX产品
Stratix® 10 NX FPGA为何能在AI上性能如此暴增?关键点有三:
其一,内置的AI张量块是针对AI算法进行调整的。模块包含AI应用程序中通常使用的密集的较低精度乘法器,而在架构上则针对广泛AI计算的通用矩阵-矩阵或矢量-矩阵乘法进行了调整,从而高效支持大小矩阵。
另外,AI张量块乘法器具有INT8和INT4的基本精度,通过共享指数支持硬件支持FP16和FP12数字格式。所有加法或累加都可以使用INT32或IEEE754单精度浮点(FP32)精度执行,并且多个AI张量块可以级联在一起以支持更大的矩阵。
图14:AI张量块高层示意图
其二,使用了EMIB堆叠了HBM2和高带宽DRAM。集成的内存堆栈允许将大型的持久AI模型存储在芯片上,从而通过较大内存带宽降低延迟,帮助解决大型模型中的内存受限性能挑战。
图15:Stratix 10 NX FPGA使用EMIB技术
其三,拥有高达57.8G PAM4收发器,并才用了硬知识产权(IP)。提供了多节点的AI推理解决方案所需的可扩展性和灵活性,从而减少或消除在多节点设计中的带宽连接这一限制因素。05
随着第三代至强可扩展处理器平台及相关产品的发布,国内厂商也在跟进之中。
会上,腾讯云副总裁刘颖表示,从1998年腾讯成立之初就已携手英特尔持续在数据中心的基础设施建设领域进行了技术合作。
他表示,随着第三代至强的发布,也将推出一系列的全新云产品。基于第三代英特尔至强可扩展处理器,腾讯星星海实验室自研了首款四路服务器。这个服务器采用了腾讯全新定制的英特尔高密CPU,整机密度较上一代提升了116%。
基于新的英特尔处理器,腾讯云推出的云开发Serverless服务启动时间不超过100毫秒,处于行业领先。
这款四路服务器通过差异化的散热器方案,使CPU单点的散热能力提升22%,大幅降低了CPU温度;风扇节能达30%。同时,继续使用英特尔RAS技术,使得设备宕机率下降高达50%,大幅提升了系统稳定性。
无独有偶,金山云CDN及视频云产品中心总经理宗劼表示,金山云也与英特尔持续在优化AI处理效果,在使用英特尔各种技术后,整体媒体处理效应上提升130%。
“在边缘服务器上,金山云与英特尔紧密合作,通过使用最新的SSD技术,利用 SSD+MemCache+AIO的第三代DMA技术,使得整个边缘的处理能力提升400%。同时在网络传输上面,通过与英特尔的合作,使得PAAS的边缘处理效能提升了超过200%。”
国电南瑞集团子矜技术团队首席架构师徐戟表示,传统的运维自动化系统只是针对一些单一指标进行计算,这种CPU的消耗量是很小的。但如果每个模型都需计算,就是大量的计算资源。如果数据中心当中有几十万台设备,这样的计算量是相当大的,所以要通过分布式的方法进行计算。在此方面,正在与英特尔的联合团队进行健康模型进行深度分析和优化。通过目前的效果来看,取得了不错的效果,对预测的准确性和时长都有了很大的提高。
06
为何都是AI相关产品
英特尔缘何在本次发布会上一口气发布如此多AI相关产品?英特尔公司市场营销集团副总裁兼中国区总经理王锐告诉记者,这是因为英特尔目前是一家以数据为驱动力的厂商,而智能技术的洞察则围绕在终端客户的需求上,具体体现在三点:
1、现在是行业转折性技术的历史交汇,推动智能进入新的发展拐点。AI让网络和边缘更智能,5G和边缘让AI无处不在,AI和5G让边缘解锁新机遇。AI、5G、智能边缘的三方汇合,创造了智能技术飞速更新迭代的需求和条件。
2、当前正在爆发的云经济,以后会成为常态,这也会促进整个产业乃至社会加速向智能化转型。
3、更值得期待的是,AI、5G、智能边缘的组合加上云经济的催化会为新业务的增长带来巨大发展机遇。
王锐认为,推动智能变革需要重点解决三大挑战:
1、传统基础设施已经不能满足智能化的新需求,很多企业需要从云到端实现基础设施的升级。
2、应用场景多元复杂,要推动智能规模化应用,就需要根据需求制定不同的解决方案。
3、生态还处于发展早期,只有生态高度协作才能带来产业效益的最大化。
众所周知,英特尔是一家产品覆盖CPU、FPGA、ASIC、封装、存储、软件等方面的IDM厂商,拥有着构建全面产品的领导力。因此基于趋势和挑战,英特尔推出了一套的解决方案。
图16:英特尔公司市场营销集团副总裁兼中国区总经理 王锐
英特尔公司市场营销集团副总裁 兼中国区行业解决方案部总经理梁雅莉表示,英特尔的价值包含在客户的解决方案之中。作为一家技术产品提供商,英特尔一直在不断推出新的产品和技术,来积极配合客户的数字化需求。
她表示,“在中国,发展产业生态最重要的一点,是要真正扎根于本土的市场特点和用户需求。中国是英特尔全球最大的单一区域市场,在互联网的“上半场”、也就是消费者互联网的发展历程中,中国已经成为全球的领先者。现在随着“新基建”的推进、5G的大发展,中国必定会成为互联网“下半场”的领跑者,这是一个产业互联网狂飙突进的阶段。产业市场的需求会比消费者市场更多样、更复杂,从而也有更多的技术方案提供商,分布在大大小小的各个行业。英特尔未来的成功,离不开与众多的老朋友新伙伴在产业互联网的新时代深化合作。”
图17:英特尔公司市场营销集团副总裁 兼中国区行业解决方案部总经理梁雅莉
在发布会的最后,王瑞表示,英特尔的2030年战略及目标建立在持续履行企业社会责任的承诺上,并诚邀大家通过科技赋能,集体行动创造一个负责任的、包容的和可持续的未来。