GPU简介及相关问题
扫描二维码
随时随地手机看文章
图形处理器(英语:graphics processing unit,缩写:GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像和图形相关运算工作的微处理器。
GPU使显卡减少了对CPU的依赖,并进行部分原本CPU的工作,尤其是在3D图形处理时GPU所采用的核心技术有硬件T&L(几何转换和光照处理)、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等,而硬件T&L技术可以说是GPU的标志。GPU的生产商主要有NVIDIA和ATI。
一个光栅显示系统离不开图形处理器,图形处理器是图形系统结构的重要元件,是连接计算机和显示终端的纽带。应该说有显示系统就有图形处理器(俗称显卡),但是早期的显卡只包含简单的存储器和帧缓冲区,它们实际上只起了一个图形的存储和传递作用,一切操作都必须由CPU来控制。这对于文本和一些简单的图形来说是足够的,但是当要处理复杂场景特别是一些真实感的三维场景,单靠这种系统是无法完成任务的。所以后来发展的显卡都有图形处理的功能。它不单单存储图形,而且能完成大部分图形功能,这样就大大减轻了CPU的负担,提高了显示能力和显示速度。随着电子技术的发展,显卡技术含量越来越高,功能越来越强,许多专业的图形卡已经具有很强的3D处理能力,而且这些3D图形卡也渐渐地走向个人计算机。一些专业显卡具有的晶体管数甚至比同时代的CPU的晶体管数还多。比如2000年加拿大ATI公司推出的 RADEON显卡芯片含有3千万颗晶体管,达到每秒15亿个象素填写率。
计算能力和计算模式方面的问题当前 GPU 的基础 ———传统 Z-buffer 算法不能满足新的应用需求。在实时图形和视频应用中 ,需要更强大的通用计算能力 ,比如支持碰撞检测、近似物理模拟;在游戏中需要图形处理算法与人工智能和场景管理等非图形算法相结合。当前的GPU 的体系结构不能很好地解决电影级图像质量需要解决的透明性、高质量反走样、运动模糊、景深和微多边形染色等问题 ,不能很好的支持实时光线跟踪、Reyes(Renders everything you ever saw) 等更加复杂的图形算法 ,也难以应对高质量的实时3D图形需要的全局光照、动态和实时显示以及阴影和反射等问题。需要研究新一代的 GPU 体系结构突破这些限制。随着 VLSI 技术的飞速发展 ,新一代 GPU芯片应当具有更强大的计算能力 ,可以大幅度提高图形分辨率、场景细节 (更多的三角形和纹理细节)和全局近似度。图形处理系统发展的趋势是图形和非图形算法的融合以及现有的不同染色算法的融合。新一代的图形系统芯片需要统一灵活的数据结构、新的程序设计模型、多种并行计算模式。我们认为发展的趋势是在统一的、规则并行处理元阵列结构上 ,用数据级并行、操作级并行和任务级并行的统一计算模式来解决当前图形处理系统芯片面临的问题。
集成电路发展到纳米级工艺 ,不断逼近物理极限 ,出现了所谓红墙问题:一是线的延迟比门的延迟越来越重要。长线不仅有传输延迟问题 , 而且还有能耗问题。二是特征尺寸已小到使芯片制造缺陷不可避免 ,要从缺陷容忍、故障容忍与差错容忍等三个方面研究容错与避错技术。三是漏电流和功耗变得非常重要 ,要采用功耗的自主管理技术。现代的图形处理器芯片在克服红墙问题的几个方面有了显著的进步:利用了大量的规则的 SIMD 阵列结构;它的分布存储器接近了运算单元 ,减少了长线影响;它的硬件多线程掩盖了部分存储延迟的影响。但是随着工艺进一步发展 ,当前 GPU 的体系结构难以适应未来工艺发展 ,没有在体系结构上应对长线问题、工艺偏差和工艺缺陷问题的措施 ,特别是没有考虑如何适应三维工艺。当前最先进工艺的晶体管的栅极厚度已经大约是五个原子,在制造时,少了一个原子就造成20 %的工艺偏差。因此工艺的偏差成为SoC设计不能不考虑的问题。特别是到 2018 年后的纳电子集成电路 ,可以通过随机自组装产生规则的纳米器件。因此,新一代系统芯片的体系结构必须利用规则的结构并且容忍工艺偏差 ,具有容错、避错和重组的能力。我们认为采用大量同构处理器元之间的邻接技术 ,适应纳米级工艺和未来的三维工艺 ,采用新型体系结构和相关的低功耗、容错和避错的设计策略 ,对于未来的图形处理系统芯片具有重要的科学意义。