英特尔AI策略全解析(1):延伸四大产品线
扫描二维码
随时随地手机看文章
英特尔决心全力发展AI,明年现有的Xeon E5、Xeon Phi处理器平台都将推出新一代产品,并将以Xeon搭配新开发的「Lake Crest」芯片,专攻类神经网络的加速应用
【英特尔AI应用主打4种服务器处理器】若要在数据中心环境当中建构AI系统,英特尔预计将提供4种运算平台:Xeon、Xeon Phi、Xeon搭配FPGA(Arria 10)、Xeon搭配Nervana(Lake Crest),分别主打基本用途、高效能、低延迟与可程序化、类神经网络加速等不同需求。图片来源:iThome
这一年来,除了云端服务、大数据、行动应用持续走红以外,人工智能(AI)无疑是下一个即将起飞的热门IT技术,许多人已经开始积极投入机器学习、深度学习的开发与应用,绘图处理器大厂Nvidia今年的营收、获利、股价持续上涨,也与此有关,而同样是处理器大厂的英特尔,现在也对AI的发展寄予厚望,并正式宣布调整以AI为重的策略,全力发展软硬件技术,以支持相关的发展。
在11月18日举行的「Intel AI Day」活动当中,英特尔执行长Brian Krzanich提出了他们的愿景,并期盼能推动AI普及,将AI变得更平民化,进而引领AI运算时代的来临,使英特尔能够成为加速AI发展的催化剂。
而就更实际的产品而言,英特尔在服务器端处理器平台上,也针对AI有所布局。在2017年,现有的Xeon E5、Xeon Phi处理器平台都将推出新一代产品,同时,除了以Xeon搭配FPGA(Field Programmable Gate Array)芯片Altera Arria 10之外,英特尔也将以Xeon搭配新开发的「Lake Crest」芯片,专攻类神经网络的加速应用。
值得注意的是,Lake Crest的形式是一张基于硅芯片的独立加速卡,技术源自于英特尔今年8月并购的新创公司Nervana Systems,该产品将于2017年第一季问世。之后,英特尔还将推出Xeon结合这种新型态加速AI处理机制的芯片,研发代号称为「Knights Crest」,届时,采用这颗芯片的服务器直接具有系统开机的能力,无需搭配Xeon处理器。
英特尔AI服务器平台的发布时程
在2016这一年,英特尔已经推出了FPGA的系统单芯片解决方案Arria 10,以及Xeon Phi x200系列(Knights Landing)。2017年他们将发表新的Xeon Phi(Knights Mill),以及深度学习专用的运算芯片Lake Crest,而在通用服务器级处理器Xeon系列,基于Skylake微架构的产品也将问世。
强化平行处理与向量处理性能,Xeon与Xeon Phi支持新指令集英特尔在2017年即将推出的服务器产品,还包括采用Skylake微架构的新一代Xeon处理器,以及Xeon Phi(代号为Knights Mill)。
以现行的Xeon E5-2600 v4系列处理器而言,根据英特尔提供的效能测试数据,若执行大数据与AI领域经常会运用的Apache Spark软件环境,效能提升的幅度,可望达到18倍之高(以今年推出的Xeon E5-2699 v4搭配MKL 2017 Update 1链接库,对上Xeon E5-2697 v2搭配F2jBLAS链接库)。
英特尔表示,在初期出货给特定云端服务业者的「Skylake」Xeon处理器版本(preliminary version)当中,将会加入更多整合式加速运算的进阶特色。例如,新的进阶向量延伸指令集AVX-512,可针对机器学习类型工作负载的执行,提升相关的推理论断能力。至于Xeon新平台其他增益的功能与组态支持,预计将会在2017年中正式发布时,才会揭露。
若单看AVX-512这套指令集,目前只有今年6月推出的Xeon Phi x200系列处理器(Knights Landing)支持,接下来,英特尔的主力通用服务器平台Xeon处理器,会在下一代采用Skylake微架构的产品当中支持。
因此,就目前而言,英特尔现有处理器所支持的AVX指令集,总共可分为三代:Sandy Bridge和Ivy Bridge微架构处理器,内建的是第一代AVX,Haswell和Broadwell微架构处理器改为AVX2,而Skylake微架构和Knights Landing是采用AVX512。基本上,前两代的AVX指令集,都是基于128位SIMD缓存器,可延伸到256位。
至于Xeon Phi的下一代产品 「Knights Mill」,英特尔表示,会把深度学习的应用效能,提升到现有Xeon Phi处理器(7290)的4倍,并同样具备直接内存访问(Direct Memory Access)的能力——最高可存取到400GB(Knights Landing是以384GB的DDR4内存,搭配16GB的MCDRAM)。
同时,在横向扩展到32节点的系统环境当中,目前的Xeon Phi也已经能大幅缩短机器学习的训练时间,成效差距可达到31倍之大。