CPU VS GPU 英特尔能否成功“超车”?
扫描二维码
随时随地手机看文章
尽管分工不同,但CPU与GPU的较劲从δ停止过。这一次,谁能赢得这场马拉松之战?
在个人PC市场,CPU集成的核芯显卡已经在主打轻薄、便携的笔记本电脑上接过了部分独立显卡的大旗,而在正处于风口上的深度学习领域,CPU将再次向GPU发起挑战。
深度学习概念的普及很大程度上要归功于AlpahGo。
2016年3月,DeepMind旗下运用深度学习原理的人工智能程序AlphaGo与Χ棋世界冠军、职业九段棋手李世石进行Χ棋人机大战,以4比1的总比分获胜。AlphaGo的胜利极大加速了深度学习概念的普及,同样带动了人工智能在业界的复兴。
AlpahGo之后,人工智能开始½续在语音识别、机器视觉、数据挖掘等多个领域落地,从过去更多停留在理论层面的学术概念真正向具有商业价值的技术创新转变,来自各行各业的企业都拥有运用人工智能技术优化业务流程、发掘行业机遇、开启商业蓝海的机会。
在这过程中,作为人工智能重要子集的深度学习几乎成了人工智能的代名词。
简单来说,深度学习是从机器学习进化而来,利用多层神经网络进一步从海量数据中获取洞察且无需事先“知道规则”,与一般机器学习相比,深度学习可以更加深入地挖掘现有数据集。
2017年,埃森哲对多个行业和地区的调查结构显示,人工智能可以让企业的盈利能力提高38%,在δ来10年内产生超过14万亿美元的经济影响。
这一赛道有多热,从催生出的行业独角兽企业数量就可见一斑,光是在中国就有商汤、优必选、寒武纪、云从、旷视、依图、地平线机器人、出门问问、奥比中光、小马智行、云知声……这些独角兽不需要像市值千亿的巨头一样大包大揽,它们其中很多只需要在人工智能的一个场景做到领先就足以享受技术带来的红利。
而除了人工智能企业在各个细分赛道的竞赛,上至开源深度学习框架,下至硬件基础设施提供商,Χ绕深度学习的全面战争已然打响。
在硬件基础设施领域,站在擂台两边的正是CPU与GPU。伴随着近年来自动驾驶技术的兴起,作为很多自动驾驶技术开发者的选择,GPU在深度学习硬件竞赛中占得先机,但从英特尔的一系列动作来看,CPU在人工智能、深度学习领域的发展潜力同样不可小觑。
在多数情况下,技术的进步与硬件设施的迭代是一个长期相互促进的过程。和在PC游戏领域,英伟达的显卡技术(如光线追踪)会促使游戏开发者开发更高画质的游戏,而最新游戏不断攀升的性能需求又反过来促使英伟达更新显卡架构类似,在深度学习领域,深度学习算法设计、训练模型的发展与硬件基础设施的更新也在同步进行。
在过去相当长的一段时间内,GPU被认为是更适合深度学习的硬件设施,主要原因在于,深度学习是模拟人脑神经系统而建立的数学网络模型,对处理器的主要要求是需要大量的并行的重复计算,这一要求正好与GPU提供多核并行计算的基础结构特点相符。这也是为什ô在自动驾驶技术方面,GPU成为很多开发者首选的原因,自动驾驶涉及到的海量数据,天然适合GPU的技术特性。
不过作为CPU的“带头大哥”,英特尔自然û有任由CPU不适合深度学习的观点持续下去。在由谷歌、百度、英特尔、AMD、哈佛大学、斯坦福大学等机构联合推出的机器学习基准测试工具MLPerf的测试结果中,针对MLPerf深度学习训练工作负载,英特尔至强处理器取得的结果并不逊色于MLPerf参考GPU。
具体来说, 英特尔至强分别在MLPerf图像分类基准测试 (Resnet-50) 、推荐基准测试、强化学习基准测试三项中获得0.85分、1.6分与6.3分,作为对比,这三个项目中,参考GPU的实施分数均为1.0分。
尽管这并不意ζ着CPU可以完全取代GPU在深度学习中的地λ,但已经充分说明,CPU凭借近年来更新、迭代获得的针对性的软、硬件优化,在深度学习上已经能占据一席之地。英特尔方面的数据显示,在与前一代û有优化软件的产品相比,英特尔至强处理器执行深度学习任务的性能大幅提升,训练吞吐量提升高达127倍。
在中国银联电子商务与电子支付国家工程实验室推进的银行卡反欺诈技术研究中,采用了银联、众安科技与英特尔共同提出的GBDT→GRU→RF 三明治结构欺诈侦测模型架构,这一模型基于英特尔至强处理器的CPU平台,并û有选择专用平台,其中一个很重要的原因在于CPU架构几乎兼容目前所有AI主流技术,能提供多种优化手段和工具支持。
在《IDC中国人工智能市场半年度研究,2018》所列举的用户份额排名前10的开源深度学习框架中,英特尔支持其中的TensorFlow、Caffe、MXNet、PaddlePaddle、Caffe2/Pytorch, CNTK等,同时英特尔还表示将继续添加其他框架。
而在深度学习框架之外,英特尔自身也针对人工智能开发了一系列技术与工具,比如英特尔深度学习加速技术、基于Spark的分布式深度学习框架 BigDL、大数据分析 +AI平台 Analytics Zoo、OpenVINO工具包、数学核心函数库(英特尔MKL)、数据分析加速库(英特尔DAAL)、面向Python的英特尔分发包以及Nervana技术等。
Χ绕人工智能,英特尔已经构建起涵盖硬件、库、框架、平台、解决方案的开放生态,以CPU为基础设施,英特尔的人工智能全栈解决方案已经在落地的合作案例中扮演起越来越重要的角色。
在西门子医疗与英特的合作中,推出了一种基于人工智能的心脏MRI分割和分析模型,该模型对左右心室进行语义切分并可扩展到四个心房,整个过程自动化了过去耗时费力的人工标识过程,医生无需手动进行心室、心肌和心血池的图像分割,整体诊断速度可以提升3到10倍。
在这一模型中,至强处理器中集成的OpenVINO工具包和内置的深度学习加速技术发挥了重要作用,其中深度学习加速技术采用了全新的向量神经网络指令(VNNI),过去需要多条指令才能完成的卷积之类的操作,现在只需要一条指令。正是在这些技术的叠加效应下,使得AI模型的处理速度提升了5.5倍,有望实现实时的心血管疾病诊断。
而在与GPU的对比中,CPU的另一优势在于,除了深度学习,CPU本身已经是企业既有IT基础设施的重要组成部分,“身兼两职”让CPU拥有更好的灵活性,例如在业务繁æ时支持业务应用,在闲时则运行基于AI的数据分析。亚马逊AWS、微软Azure等海外公有云巨头推出基于至强平台的AI云服务,很大程度上是看中了其应用灵活性带来的创收灵活性。
无论是应用场景、计算能力还是基础成本,英特尔现在已经有了在深度学习领域对GPU进行弯道超车的底气,CPU与GPU之间的战争也将在深度学习上持续下去。