英特尔利用神经网络芯片推倒了人工智能技术
扫描二维码
随时随地手机看文章
(文章来源:教育新闻网)
在今年的英特尔AI峰会上,该芯片制造商展示了其第一代神经网络处理器(NNP):用于训练的NNP-T和用于推理的NNP-I。两条产品线现在都已投入生产,并已交付给最初的客户,活动中出现了其中的两家,分别为Facebook和百度,以赞扬新的切片机。
专用的NNP设备代表了英特尔迄今为止对AI市场的最深推动,挑战了Nvidia,AMD和一系列针对专门为人工智能部署专用芯片的客户的初创公司。就NNP产品而言,该客户群是由超大型公司(如Google,Facebook,Amazon等)固定的,这些公司的业务现在都由人工智能提供支持。
三年前,英特尔收购了Nervana Systems时,甚至没有设想到推论线NNP-I。那时,饶和他的团队正在开发一种训练芯片,该芯片只是在侧面进行推断。它不被认为是值得专业化的东西。当然,现在,推理已被普遍认为是一种独特的工作负载,它对低延迟,低功耗和特殊数学有其特殊的需求。
第一代推理处理器NNP-I 1000采用Intel的10纳米工艺实现,根据SKU的不同,其功耗在10瓦至50瓦之间。它由12个推理计算引擎和2个IA CPU内核组成,这些内核通过高速缓存一致性互连挂钩。它可以执行混合精度数学,特别强调使用INT8进行的低精度计算。NNP-I 1000提供两种产品:NNP I-1100(包含一个NNP-I芯片的12瓦M.2卡)和NNP I-1300(由以下设备供电的75瓦PCI-Express卡)两个筹码。NNP I-1100提供高达50 TOPS,而NNP I-1300提供高达170 TOPS。
Rao声称,一旦将功率考虑进去,就根据MLPerf基准测试,就每瓦性能而言,NNP-I将成为推理领导者。他说,它还提供了非凡的密度,“您可以将每秒最多的推论推入单个机架单元中。”通过英特尔的测量,它还提供了Nvidia T4 GPU的计算密度的3.7倍。结果,Rao说:“我们可以运行更大的模型,更复杂的模型,并并行运行数十个模型。”
为了支持数据中心(尤其是超大规模数据中心)所需的可伸缩性级别,英特尔已经开发了与此类环境相关的解决方案堆栈。特别是,该公司开发了使用Kubernetes挂钩将NNP-I应用程序容器化的软件。它还提供了支持功能即服务(FaaS)模型的参考软件堆栈,该模型是基于云的推理的新兴范例。
Facebook的AI主管Misha Smelyanskiy加入Rao,解释说其Glow机器学习编译器已移植到NNP-I硬件上,这暗示着这家社交媒体巨头已开始至少在其某些数据中心中安装这些设备。Smelyanskiy没有提供有关这些部署范围的任何详细信息,但确实提到了新硬件可以提供的一些关键推理应用程序,包括照片标记,语言翻译,内容推荐以及垃圾邮件和虚假帐户检测。Smelyanskiy解释说,这些针对Facebook的专用ASIC的价值在于,它们“使ML工作负载的执行具有高性能和高能效性。”
NNP-T 1000 ASIC完全是另一种芯片,提供了更大的计算能力。它由多达24个Tensor处理核心(支持FP32和bfloat16数字格式),55 MB至60 MB的片上SRAM,32 GB的高带宽存储器(HBM)和片间链接(ICL)组成16112 Gb /秒的通道数ASIC以两种尺寸形式提供:PCI Express卡(NNP-T 1300)或夹层卡(NNP-T 14000)。PCI-Express卡的最大功耗为300瓦,而Mezzanine卡的最大功耗为375瓦。
ICL链接可用于跨越系统的多个级别,用作跨节点中的卡,机架中的节点和POD中的机架的无缝连接结构。一个节点最多可以构建八个卡,并且可以连接这些卡以构建多机架POD。在AI峰会活动上,他们演示了一个带有480个NNP-T卡的10机架POD,无需使用开关。结构是使NNP-T平台能够大规模使用以训练这些数十亿参数模型(在合理的时间内)的关键设计元素。Rao解释说:“横向扩展可能是培训中最重要的问题,任何新的培训体系结构都必须考虑这一点。”借助32卡NNP-T机架,英特尔在标准图像分类模型ResNet-50和自然语言处理的高级模型BERT上展示了95%的缩放效率。