移动光追实现大规模普及的技术基础,移动GPU迈向更高能效和可拓展性
扫描二维码
随时随地手机看文章
光线追踪技术显著提高了图形渲染质量,但目前更多出现在PC和笔记本这些终端设备上,由于功耗和成本问题尚未在移动设备上实现大规模搭载。但毫无疑问的是,这已经成为了手机芯片厂商和手机厂商共同押注的方向。在2021年,Imagination的CXT系列首次在移动GPU上实现了硬件光追,让移动端的光追成为可能。在移动GPU上实现硬件光追是第一步,追求更好的能效表现和可拓展性则是第二步。近日发布的全新DXT系列GPU上,Imagination又引入了新的技术,让移动光追的功耗和可拓展性大大提升,从而为移动光追从实现到大规模搭载,奠定了技术基础。
手游沉浸式体验,硬件光追必不可少
近年来,移动游戏市场迎来飞速发展。据data.ai和IDC的数据显示,2022年移动游戏市场将超过1360 亿美元,比游戏市场整体增长速度快 1.7 倍;移动游戏在全球年度消费者支出中所占的市场份额将超过 60%。ABI 2022年的调查显示,手机游戏用户会从26亿增长到2030年的39亿,到2026年,85%的游戏玩家首选在手机上玩游戏。
随着手机游戏用户的增多,对于手机游戏的体验的要求也愈来愈高。在游戏内容上,有着几个重要的趋势:一是更高的帧率(120FPS+);二是后处理方面的新需求增加,例如运动模糊处理、焦距变换和艺术效果等;三是内容复杂度提升,例如几何、纹理和阴影等;四是需要更好的光照和阴影效果。移动手游玩家希望在获得更具沉浸感的体验,并且不能影响到游戏的流程体验。
其中光线追踪是一种图形渲染技术,通过算法来跟踪和模拟真实世界中发生的光的实际路径,开发人员可以利用光反射、折射和吸收来在游戏中提供类似真实世界的反射和阴影效果。与非光线追踪的游戏相比,支持光线追踪的游戏将提供更多细节和动态图形质量。这种图形质量的提升并不仅仅局限于照射和阴影,像水的倒影、一些金属材质的光影反射等也会有明显的提升。
因此光追是提升手游沉浸感的有效途径,2022年的旗舰手机已经搭载了光线追踪技术,2032年的旗舰手机也都必然会搭载这一技术。而在旗舰手机之后,光追技术逐渐将会下放到中端手机中,实现大规模的搭载。但光追需要进行大量的光线折射、二次反射的并行计算。手机的终端形态决定了其对于功耗的要求更为苛刻,因此硬件光追要实现在手机上的大规模搭载,需要确保功耗达到在移动端的要求,在此基础上,才难谈去追求更好的光追体验。
仅仅在软件上进行优化是不够的,移动GPU中需要集成专门的光追处理硬件单元,实现光追计算的加速,实现整体更低的能效。
Imagination在上一代的CXT中就已经实现了硬件光追计算单元(RAC)的集成,而在最新的DXT中,通过可配置的RAC、结合FSR技术,让光追技术在移动端的配置更为灵活高效,从而实现了更低的功耗和更高的性能表现。
从CXT到DXT:可配置RAC让移动光追迈入大规模应用
目前光线追踪技术有所不同,因此有必要对其进行区分。要对比GPU的光追的效果,首先需要进入一套评估体系。作为移动硬件光追的先行者,Imagnation率先提出了一套叫做RTLS(Ray Tracing Level Syetem)的光追等级系统。RTLS一共分为五个等级:
第一级的光线追踪技术,都是采用纯软件的方式,硬件资源的开销比较大,CPU的资源占用较高。
第二级的光线追踪技术中,对于一些光或三角形碰撞采用硬件处理,节省了CPU的资源,目前典型的桌面显卡采用的都是这一类技术。
第三级的光线追踪技术对BVH回溯提供了硬件支持,从而进一步实现了功耗的降低。
第四级的光线追踪技术菜了光的自动测试和回溯外,还把相同光线上的光束统一计算,采用统一的指令运行。
第五级的光线追踪技术,会进一步将会更多计算工作负荷从原来的GPU的渲染器或着色器中分离出来,转移到专门的硬件上去加速,从而省下更多的GPU资源来做其他动态渲染,这样可以在性能提升的同时降低功耗。
Imagination从CXT系列的发布起,就实现了第四级的光追技术。CXT开始采用了名为Photon架构,内置专门的光线追踪计算单元RAC,将光追的功耗降低到了移动平台可以搭载的水平。而近日最新发布的DXT系列GPU,则在第四级光追的基础上,实现了可拓展的RAC,并可以结合FSR技术,从而实现更小硬件资源下的更好光追效果。
Imagination的全新系列GPU,基本上遵循着一年一代的发布节奏,并且每一代都具有特殊的意义。第一代的A系列,奠定了高能效的架构的基础;第二代的B系列,则引入了原生可拓展的架构特点,支持chiplet的设计方式;第三代CXT系列则将硬件光追在移动端的实现提供了可能;最新的第四代DXT,进一步解决了在移动端进行大规模搭载的技术难题,实现了光追技术的可拓展性和更低功耗。
Imagination 公司首席营销官David Harold表示,L4级别的光线追踪针对“相关性”去做的能耗和开销的减少,对移动端光线追踪的实际应用至关重要。市面上宣称有了光线追踪技术的手机,其实用的都还是第一级别的软件解决方案,真正使用起来能耗会非常吓人。DXT具有硬件级别的光线追踪技术,满足移动端可接受的能耗开销,可以更好地让光线追踪技术尽快铺开到更多设备。
对于手机厂商而言,可拓展的RAC让其在构建不同定位产品时,进行不同能力等级的光追技术搭载,实现了极大开发效率的提高。例如主流手机系列对于芯片面积比较在意,就可以选择配置小一点的RAC;旗舰手机更在意游戏高性能,就可以选择4 RAC的配置。这样手机厂商就可以在设计时以最小的改动,完成不同档位手机的不同光追效果配置。
对于开发者而言,耗费了大量的开发精力开发的具备光线追踪的游戏内容,如果仅限于高端手机上,则会无法达到足够的回馈。而有了DXT的可拓展RAC之后,中端手机上也可以实现光线追踪技术的搭载。最初的中端手机中可能只有0.5个RAC的单元,但也能够运行光追游戏内容,因此开发者对于移动端的光追游戏内容的开发热情将会提高。
手机厂商和开发者都可以通过可拓展的RAC这一特性,获得足够的动力,从而真正将移动光追生态推起来,实现市场覆盖率的提高。
DXT中的“黄金搭档”:光线追踪+FSR技术
DXT系列的高配型号DXT72-2304 RT3实现了50%的性能增加和计算能力增加,标配达到2.25T浮点运算能力,72GB像素填充能力,9TB的AI推理能力,同时把第四级别的光线追踪技术进行了可配置化、可扩展化,FSR技术搭配光线追踪一起使用,使得游戏体验更加流畅和真实,针对游戏环境引进的2D Dual-Rate Texturing功能,可以让Texuring数量翻倍。
据Imagination官方介绍:PowerVR Photon架构的主要特点是RAC,这是一种新的低功耗专用硬件GPU组件,相比效率较低的 RTLS 2级架构,它可以加速和卸载更多来自着色器内核的光线追踪计算。RAC包含了光线存储(Ray Store)、光线任务调度器(Ray Task Scheduler)和相干性聚集器(Coherency Gatherer),并与两个128宽的统一着色器集群(USC)紧密耦合,USC拥有高速专用数据通路,可以实现最高效且功耗最低的光线追踪部署。Ray Store可以在处理过程中将光线数据结构保存在芯片上,并提供对 RAC中所有单元的高带宽读写访问,从而避免了将光线数据存储或读取至动态随机存取存储器(DRAM)所造成的速度降低或功耗增加。Ray Task Scheduler可以卸载着色器集群的任务,并通过专用硬件部署和追踪光线工作负载,同时保持高光线吞吐量和低功耗。独特的Coherency Gatherer单元可以分析所有传播中的光线,并将整个场景中的光线绑定成多个相干组,从而能够以更高的效率对它们进行处理。
Imagination中国区技术总监艾克先生表示,RAC单元中BTU、DTTU、PTU,完成的是第二级的光线追踪技术,可以在三角形和光和进行碰撞检测。然后引入调度器(BPS)和光线存储(RS),方便在BVH里面回溯。因为回溯的时候需要消耗大量的资源,所以引入了PCG。PCG能够把相同的光束聚合在一起统一计算,然后用相同的指令完成并行计算,节省了大量的功耗,从而实现了第三级的硬件光追。在第三级的基础上加上光线存储以及光线任务的调度器等,综合在一起就达到RTLS级别中的第四级。
DXT系列的另一大特点在于光追技术和FSR(Fragment Shading Rate)技术的结合,带来了更灵活的硬件资源消耗,从而实现了更低的功耗表现。据悉,FSR跟VRS效果是一样的,默认直接支持VFSR这项技术,可以让游戏开发者针对不同的区域定义Fragment Shade的执行次数。游戏开发者知道画面的哪些背景在后面、哪些场景在前面、哪些场景运动比较快,可以对不同的区域进行执行的设定。采用1×1就是传统的16模块都运行1次,如果是4×4这样的大块运行1次,可以获得93%左右的Fragment运算能力的节省。开发者可以自己选择是需要更好的视觉效果还是更高效的光追效果,实现更好的整体效果平衡。
如下图所示,左侧带有VFRS技术,右图没有,两个画面并没有肉眼可见的区别。但从热力图中就可以看到,蓝色区域采用4×4的Fragment Shade,可以节省出来大量的运算资源,能够让GPU处于休眠状态,或者是给后面的画面提供更精致的运算。
光线追踪技术可以很好地和FSR技术结合在一起,没有开启的话可能需要每帧6.9MB的运算能力,但如果配上FSR计算,运算1次或者运算2次,细节表现更加真实,1帧画面只需要3.2MB的光数计算能力,配合可扩展的RAC,其实用更小的RAC就能够实现这个场景下的游戏光追效果,会给客户带来更好的沉浸式体验。
“这二者是很好的黄金搭档,光线追踪技术和FSR技术结合在一起,使得能够用更小的功耗实现更真实感的画面。”艾克分享到,“就像这张图片显示的,不同的区域可以用不同的运算,实现的效果更加真实。”
除了上述的光追相关特性外,DXT还有几项关键的技术更新。
2D Dual-Rate Texturing可以应用于游戏后处理阶段,因为有了画面以后需要额外进行处理,降噪或者Super Solution。
GPU中有一个固件处理器,负责高级调度和工作负载的优先级处理。而在DXT中,已经切换成了RISC-V架构的处理器,相比前代带来40%的调度性能提高,实现了更快的事件处理和更多的功能。
Pipelined Data Master带来全域性的画图和5%的计算性能提升。之前有一个Data Master运行的时候另外一个就要等待,而现在有了这项技术,前一个Data Master运行时,后面一个任务就可以提前准备好,所以调度的间隙就会很小,带来5%的性能提升。
此外还有硬件的HDR,可以通过标准API支持,也会给画面的亮度、对比度带来更加真实的效果提升。
DXT提供了三个不同定位的产品型号:面向主流机的、面向高端机的、面向旗舰机的。主流机定位的IMG DXT-8-256更追求单位面积性能;高端机定位的IMG DXT-48-1536则更关注更高性能实现;旗舰机定位的IMG DXT-72-2304则追求更高性能和手机整体表现。
结语
其实CXT中搭载的RAC已经实现了移动硬件光追的技术基础,但DXT的最大意义则在于通过可拓展的RAC,让移动光追整个生态的快速发展提供了进阶的路线。Imagination公司技术产品管理高级总监Stephen Barton表示,移动光追的实现,并不意味着从今天开始就要把所有内容完全用光追技术打造的路线来推,而是推荐大家在现有的游戏内容中逐步地、一点一点加入光追的元素,包括光追打造的光影效果。一步一步随着市场上设备越来越多地使用这些硬件级别支持光追的设备,那个时候再把光追内容进一步增加,这将是一个渐进的过程。“Imagination的光追加速集群(RAC)是独立于GPU本身的光栅化性能以外的存在,如果是有余力的游戏开发者,可以想一想怎么将其利用起来,思考要不要在其游戏内容中加入更多的光影效果。”