AMD APU开启异构计算,实现CPU、GPU彻底融合
扫描二维码
随时随地手机看文章
微处理器厂商AMD宣布Fusion处理器将彻底融合CPU与GPU。Fusion是AMD的旗舰处理器,整合了x86处理器和图形处理器。AMD公司院士Phil Rogers在华盛顿贝尔维尤举行的Fusion开发者大会的一个主题演讲中宣布了此消息。AMD高级副总裁、产品部门总经理Rick Bergman宣布正式发布A系列APU芯片“Llano”。
(你或许知道双核、四核甚至多核CPU,那你是否了解APU?APU的英文全称为“Accelerated Processing Unit”,意思是加速处理器。这是AMD给Fusion APU取的一个新名字,代表着它将CPU和GPU合二为一,可同时执行串行计算和并行计算,为大量应用提供加速。)
Fusion的早期样片基于AMD内部开发的x86处理器和GPU。但AMD显然向着更抽象的层面前进,相信自己可以让多加硬件和软件厂商加入进来,开启异构计算(heterogeneous computing)。AMD将Fusion品牌变成开放的Fusion系统架构,通过一套规范让芯片制造商整合多种CPU和GPU,并提供一套高效的编程模型。
这项进展可能意味着ARM内核也能成为Fusion架构的一部分,不过Rogers在介绍开放平台计划时没有明确提到ARM。
Rogers演讲的重点是AMD希望创造一套让不同的CPU、GPU组合像统一的处理引擎一样工作的架构,在提供更高性能的同时消耗更少的电力。
Rogers也谈到了单核到多核再到异构多核计算的历史趋势,他将Fusion系统架构描绘成一个“开放平台”,并补充说虚拟ISA规范(FSAIL)、内存模型和分配机制也会随之发布。
Rogers说:“Fusion系统架构的ISA是CPU、GPU中立的。这很重要,因为我们正在所有领域邀请合作伙伴加入:其它硬件厂商实现FSA、加入平台;操作系统公司全面支持所有功能、提供完整的性能和服务质量;工具和中间件公司提供工具基础来开发、优化用于这个平台的程序。”
Rogers还补充说未来将会成立一个FSA评估委员会指导架构的进化,让所有参与者都能在决定发展方向上具有发言权。
统一的内存和编程模型
Rogers说目前的异构多核架构被编程模式和通信开销所束缚,“好消息是Fusion系统架构打破这种了这些束缚。我们正在向架构时代前进。我们将GPU变成一个同等的处理器而不仅仅是一个器件”。
Rogers描绘了一个路线图,其中有对C++功能的支持、统一地址空间、支持嵌套的数据并行模型、在CPU和GPU之间实现低延时任务分配的用户模式调度机制以及抢占和上下文切换。
这个过程中也会实现自动低平衡。此外,具体的FSA增强会得到OpenCL、DirectCompute等新编程语言和接口的支持。接下来还要为CPU、GPU的组合提供增加双向电源管理。不过Rogers强调,最关键的是创建统一的内存地址空间,让CPU和GPU完全共享内存以实现无缝的运作。
在这次技术性演讲中没有说明的是AMD作为Fusion系统架构实现者与贡献者之一,如何从Fusion的发展中获利。
AMD Llano APU技术解析
今年初,AMD率先发布了低电压版APU——E系列(研发代号:Zacate)和C系列(研发代号:Ontario)。虽然这两款处理器发布之后的市场反响都比较不错,但是仅凭低电压APU肯定是不能在市场中获得更多的主动权。因此,AMD在半年之后推出了代号为Llano的A系列APU,很显然AMD这次的矛头直指英特尔的SandyBridge处理器。
众所周知,“融合”概念最早是由AMD提出,而英特尔却抢先于AMD推出了融合图形芯片的处理器。虽然英特尔率先推出了整合显卡的Core i5/i3处理器,不过,正如最初的Pentium D双核处理器一样,英特尔这种“CPU+GPU”的设计具有两个独立的芯片,仅仅是两个功能模块的简单叠加,属于一种过渡方案,并非原生的单芯片解决方案。在卧薪尝胆了两年之后,AMD终于厚积薄发,推出了Llano的A系列APU。AMD的APU则是采用更先进的原生方案——将CPU和GPU内核完全融为一体的单芯片方案,这样让内核之间的数据交换效率更高。
此次AMD一共发布了七款APU,包括A4、A6和A8,从型号上来看,它们和英特尔的i3、i5和i7在数字上有着惊人的对称,不知道这是巧合还是AMD故意所为。和英特尔的SandyBridge处理器一样,此次发布的所有AMD Llano A系列APU均配置了AMD HD6400以上系列显示核芯,并且根据级别的不同,显卡性能也有所区别。另外,最高级别的A8采用的是AMD Radeon HD 6620G,单从型号上来看,这款显卡的性能应该不低。
AMD LlanoAPU全系产品
Fusion APU主要由x86架构的CPU核心(最先上市的Ontario和Zacate APU处理器将基于“Bobcat”架构)、DirectX 11 SIMD引擎阵列、UVD高清视频引擎、数据总线和DDR3内存控制器等几个模块封装在一个核心内构成。CPU和GPU各司其职,各自分别拥有独立缓存。 CPU和GPU通过切换开关互相连接,而整个APU内部的各个组件之间通过HyperTransport总线连接成一个整体。CPU和GPU可以直接访问 存储器,CPU和内存之间,以及GPU和内存之间均使用交叉开关进行连接,并且CPU和GPU可通过共享内存进行数据交换。APU这一设计的最大优势是可 以消除现有AMD平台上各部分之间的互连瓶颈。在目前的AMD整合平台上,原本位于北桥芯片的总线控制器和内存控制器都已经集成到CPU内部,但是内存控 制器与内存之间的带宽仅有17GB/s左右,北桥与集成显卡之间的带宽更是仅仅只有7GB/s左右,这已成为瓶颈所在。更为严重的是,集成显卡与内存通信 时还需要绕道北桥部分,增加了通信延时。AMD APU在将所有这些功能模块全部整合到一块晶片后,将可以提升各组件之间的带宽。APU内部的GPU图形阵列、UVD解码引擎与北桥模块及内存控制器之间 的通道高达27GB/s,内存控制器和内存之间的带宽也同样达到了27GB/s。另外,GPU与内存之间也可以直接通信,带宽增加了三倍,大大提高了GPU的执行效率。
更强的整数运算性能
尽管Fusion APU是一个全新的CPU和GPU的融合方案,GPU部分将采用与目前AMD Radeon HD 6300M/6250M相同级别的图形核心,除了支持DirectX 11外,还能通过OpenCL支持GPU加速运算。Fusion APU内核架构最大的亮点是引入了全新的“Bobcat”架构。
Bobcat是AMD全新架构的新一代处理器核心,与Bulldozer一样,Bobcat也将整数运算执行单元和浮点单元分别独立开来,只不过 Bobcat内核的整数运算“簇”比Bulldozer更少。
注:整数运算“簇”
Bulldozer的内核引入了灵活的模块化设计:在现有的设计中,每个物理核心对应单一独占的整数运算单元和128bit浮点运算单元。而在 Bulldozer架构中,每个物理核心具有两个整数运算单元和一个共享的256bit的浮点运算单元。同时,这个256bit的浮点运算单元可以根据需 要拆分为2个128bit的浮点运算单元,供两个整数运算单元搭配使用;或是以1个256bit浮点运算单元的模式供某个整数单元独占。这样一个单独的单 元被AMD称为“核心模块”,这也就是Bulldozer所谓“1.5核”说法的由来。而当多个Bulldozer处理器并联时(这在服务器领域几乎是必 然的),两个“核心模块”组成的“簇”便成为了AMD集群多线程技术中的基本单位。而Bobcat处理核心中的“核心模块”则只包含了一个整数单元和一个 浮点,并不支持集群多线程技术,故每两个核心模块才只拥有一个“簇”单元。简单来说,“簇”在这里被定义为整数计算能力,每两个整数单元等同于一个 “簇”。
AMD为什么要在核心设计中单独增加整数单元的数目?这与AMD的异构计算策略不无关系。简单来说,现有的GPU具有远远强于CPU的浮点计算能 力。在AMD提出的GPU与CPU协同计算的平台战略下,与其事倍功半地提升CPU的浮点计算能力,不如将浮点计算交与GPU完成。在这种情况下,整数计 算能力将成为制约整个平台性能的瓶颈,那么,有意识地提升APU的整数计算能力无疑就是一种必然的选择。
上图左为Bobcat的一个“簇”,它的整数单元(INT)只相当于Bulldozer(上图右)的半个“簇”。
Fusion APU能否在移动市场掀起波澜
Bergman表示:“AMD A系列APU对于AMD而言具有拐点意义,它可能是自微处理器面世以来业界最大的架构变革。此产品的推出将使笔记本和个人电脑拥有前所未有的图形和视频性能,将为用户带来全新计算体验。从今天开始,我们将为广大的主流用户带来独显性能。”
Fusion APU是一款真正将CPU和GPU融合在一起的产品,它的诞生将统治软件业界的x86 CPU与针对现代负载进行优化的GPU紧密融合在一起,并将两者各自的优势发扬光大。尤其对于移动平台来说,APU的利好是显而易见的,高集成化可大幅度降低笔记本内部设计的难度,并可有效提升其散热效率,降低整机的功耗,提升续航时间。所以APU的出现将会带出一种全新的笔记本内部架构,影响深远,符合更低能耗、更低成本的效果,符合节约、低碳、环保的时代主题。尤其在AMD将其定义为“APU价值和精华”的超轻薄笔记本电脑市场上,APU的问世绝对是AMD的一枚重磅炸弹。最低低于1W的功耗设计,以及不到现今产品一半的核心面积实现90%的性能水平。
麦格理证券研究公司(Macquarie Equities Research)分析师Shawn Webster表示,通过新近发布的Llano和Bulldozer处理器,AMD将在桌面PC处理器市场赢得份额,除非英特尔采取降价措施。
AMD是否有机会在超轻薄市场逐步建立起自己的非对称优势,并最终在其他市场上对英特尔形成挑战?业界将拭目以待。
------来源:EET
附原文: AMD makes Fusion CPU, GPU agnostic Peter Clarke Microprocessor vendor Advanced Micro Devices Inc. has declared that Fusion, its flagship processor project whereby it has combined x86 and graphics processors, will be CPU and GPU agnostic. The announcement was made as part of a keynote at the Fusion Developers Summit, being held in Bellevue, Washington, by Phil Rogers, AMD Corporate Fellow. The early examples of Fusion have been based on x86 processor and GPU cores developed internally by AMD. However, AMD is clearly heading for a higher level of abstraction and believes it can do better by letting multiple hardware and software companies join with it as it tries to enable heterogeneous computing. It is effectively turning the Fusion marketing brand into the open Fusion System Architecture with a specification that enables chipmakers to combine multiple CPUs and GPUs and preserve an efficient programming model. The development is likely to allow ARM cores to be used as part of the Fusion architecture although Rogers did not mention ARM explicitly as he laid out the open-platform plan for Fusion. The main thrust of Roger‘s keynote was that AMD wants to create an architecture whereby different combinations of CPU and GPU processor cores operate as a unified processing engine that delivers both higher performance and lower power consumption compared with today’s variants. Having discussed the historical trends from single- to multicore and on to heterogeneous multicore computing it was about half-way through the talk that Rogers described the Fusion System Architecture as an “open platform” and added that this meant the virtual ISA specification, known as FSAIL, the memory model the despatch mechanism would be published. Rogers said: “The Fusion system architecture is ISA agnostic for both CPUs and GPUs. This is very important because we‘re inviting partners to join us in all areas; other hardware companies to implement FSA and join in the platform; operating systems companies to fully embrace all of the features and deliver its full performance and quality of service; tools and middleware companies to provide the tool infrastructure to develop, optimize and debug the programs that will run on this platform.” He added that an FSA review committee would be formed to guide the evolution of the architecture and to allow all participants a voice in its direction. unified memory and programming models Rogers said that current heterogeneous multicore architectures are currently constrained by the programming model and communications overheads. “The good news is the Fusion System Architecture blows away both of these constraints,” he said. “Where we’re headed is the architected era. We make the GPU into a peer processor rather than a device,” he said Rogers outlined a roadmap that includes support for C++ features, unification of the address space, support for nested data parallelism, user-mode scheduling for lower latency task dispatch between CPUs and GPUs, and the addition of pre-emption and context switching. Automated lower balancing between CPU and GPU is part of that progress, according to Rogers. In addition, specific FSA enhancements will be supported by newer programming languages and interfaces such as OpenCL and DirectCompute. One of the next steps will be the addition of bi-directional power management to CPU, GPU combinations. But the key is the creation of a unified memory address space and fully coherent memory shared by the CPU and GPU so they operate seamlessly together, Rogers said. What was not made clear in what was essentially a technical presentation is how AMD, as one of a number of implementors and contributors to the Fusion System Architecture will make its money from the development of Fusion.