NVIDIA下一代GPU；结合 Triton 的 serving 方式，以最大化 GPU 整体收益

时间：2022-02-13 11:20:01

关键字： NVIDIA GPU 半导体

手机看文章

扫描二维码
随时随地手机看文章

[导读]距离2020年5月Nvidia推出Ampere架构，也就是大家熟悉的GeForce RTX30系列显卡所采用的核心架构，已经过去了近两年时间，关于NVIDIA下一代GPU的消息也流传许久。

距离2020年5月Nvidia推出Ampere架构，也就是大家熟悉的GeForce RTX30系列显卡所采用的核心架构，已经过去了近两年时间，关于NVIDIA下一代GPU的消息也流传许久。根据多方爆料，“Hopper”将成为下一代GPU的代号。其实早在Ampere推出之前，就已经有消息称NVIDIA的下下代产品代号为Hopper，用于纪念Grace Hopper(格蕾丝·赫柏)女士。这位程序员被誉为计算机软件工程第一夫人、编译语言Cobol之母。

按照惯例，NVIDIA会先将新一代的GPU运用到数据中心等商用领域，然后才是与大家关系紧密的游戏显卡，也就是新一代的GeForce RTX40系列产品。Hopper将采用5nm制程打造，顶级核心代号为GH100，核心面积接近1000mm2，比GA100安培核心826mm2的面积大了20%，晶体管数量可能超过600亿。

另外，据悉Hopper将采用MCM多芯封装，内部集成两颗芯片，预计总共拥有288个SM流式处理器。这种设计也是NVIDIA第一次采用，类似于AMD宵龙(EYPC)服务器处理器所使用的Chiplet设计，可以组合多个核心以达到更强性能。这样一来，整个芯片的功耗可能达到千瓦级别，通俗来讲就是每小时耗一度电。不过商用产品的设计，功耗并不是第一优先级，至于RTX 40系列游戏显卡的话肯定不会有这么恐怖的功耗，玩家们倒不必担心。

不出意外的话，Hopper应该会在今年3月21日于加州圣何塞举行的春季GTC图形技术大会上正式亮相，让我们期待老黄届时的演讲吧!至于RTX40系列，此前已经有消息称核心代号为Ada Lovelace(英国诗人拜伦之女)，预计在今年第三季度发布。

2018年的中兴事件和2019年的华为事件之后，“芯片”成为一个国民热词，也有大量的芯片创业公司成立。

国内的芯片热潮主要有两次，第一次是“AI芯片”——包括图形处理单元(GPU)、现场可编程门阵列(FPGA)和专门用于人工智能的特定应用集成电路(ASIC)。

2017年，成立仅17个月的寒武纪获得一亿美元A轮融资，成为AI芯片的首个独角兽;随后地平线也宣布完成了超过一亿美元的融资。与此同时，深鉴科技和比特大陆也分别获得了数千万美元的投资。创业公司之外，以云知声、依图为代表的AI公司尝试跨界造芯，以BAT为首的互联网巨头也加入造芯大潮。

时至今日，这些创业公司有的已经成为行业独角兽，有的被成功并购，还有的已经成功上市。

投资者内，除了红杉、金沙江创投、创新工场这样关注科技领域的顶级VC之外，也不乏芯片行业的龙头，比如投资了地平线的英特尔，投资了深鉴科技的赛灵思、三星等。有些晚入场的投资人甚至感叹，“还没等我弄明白GPU、CPU、ASIC、FPGA的差异，别人就已经投完了”。

2020年，芯片行业掀起了第二波创业热潮，这次主要集中在GPU领域。

2019年，前商汤科技总裁张文创立了壁仞科技，在之后的18个月内累计融资超过47亿元，并先后邀请到华为海思GPU负责人洪洲、AMD全球副总裁李荣新等加盟;2020年，前英伟达全球副总裁张建中创办了摩尔线程，在100天内募资数十亿元;几乎同一时期成立的还有沐曦集成电路，创始人陈维良曾任AMD总监，一年内获得四轮融资。

融资金额巨大，创始人有英伟达、AMD等国际巨头的工作经验，是这次GPU创业公司的共同标签。

GPU曾主要用来做图形计算，但随着人工智能的发展，GPU被证明在大规模并行运算中有很好的处理能力，于是成为了当今最流行的AI芯片之一。而定义了GPU的英伟达，在2021年11月一度市值冲向8000多亿美元，成为全球市值最高的芯片公司。

芯片创业是一个长周期的过程。国产的GPU公司不但要面对行业周期规律，还要从英伟达的“大山”夹缝中寻求突破。

在NVIDIA Studio平台推出的数年中，这个包含了软硬件和驱动的平台，正在不断改变着创作者的工作流程，以往内容创作中机械重复的操作被AI替代，让预算不高的内容创作者也能集中在创意本身，放在五年前这几乎是无法想象的。

那么问题来了，NVIDIA Studio平台究竟是如何帮助创作者们在抓住稍纵即逝的创意，又是如何协助他们剥离繁琐的设置和操作?现在就让我们聊一聊NVIDIA Studio平台上那些神奇的技术。

对于创作者而言，相较于创意，更多的时间其实花费在重复且单调的操作中，例如给视频素材抠图，等待6K乃至8K分辨率视频输出，在UE 4充满光线反射的3D场景中步履维艰的切换视角。当每一步操作背后意味着漫长的等待，创作者的激情也随之耗尽。

NVIDIA Studio平台出现彻底解决了这样的烦恼。依靠NVIDIA Studio平台，GPU与Adobe Premiere Pro实现了默契的配合，通过AI Auto Reframe功能智能追踪物体，原本耗费半小时甚至更久的主帧抠图，被缩减到只需一次鼠标操作，时间不到一秒。紧接着，你还能按照社交媒体的宽高比要求快速裁剪横向视频，借助NVIDIA硬件编码技术将视频导出速度提升至传统视频导出的5倍。

事实上NVIDIA Studio平台本身就意味着一整套硬件、软件、驱动相互结合、优化的完整解决方案。创作者不需要了解PC的运作原理和复杂设置，就能实现一些甚至不曾想过的大胆举措。比如在8K摄像机尚未广泛普及的前提下，NVIDIA Studio平台已经能够完成实时、快速编辑8K视频，在Adobe Premiere Pro、Blackmagic Resolve、REDCINE-X PRO等应用程序中肆意的拖动、编辑完整画质的8K视频，无需预先缓存，也无需生成代理。

在整个 AI 中台架构中，推荐中台则作为最重要的核心，也是最具商业价值的部分，需要承载 VIVO 亿级用户群体产生的日活千万的数据量。本文从推荐系统工程化的角度，解读了以下三方面内容：VIVO 的智能推荐系统是如何运行的?在实际应用场景中遇到过什么挑战?NVIDIA GPU 如何加速推荐系统的部署?

经过验证，本方案可以有效解决推荐业务中 GPU 通用性问题;同时能更高效的利用 GPU 。目前已经在部分推荐业务中落地。经过压测，性能方面，单张 T4 GPU 推理卡，性能优于约6台以上的78核 CPU 服务器。成本方面，VIVO 自研通用 GPU 方案，在 TensorRT 方案基础上，取得了更高的 QPS 和更低的延迟，可节省成本约75%!

在工程实践中，VIVO 推荐系统面临的第一个问题是如何平滑的把多种推荐业务逻辑从 CPU 平台向 GPU 平台迁移。鉴于当前已经存在多个推荐业务场景，包括应用商店，手机浏览器，负一屏信息流等。每个场景都有自己的算法模型和业务流程，如何把多种分散的智能服务整合到一个统一的推荐中台，同时要兼顾当前的业务的无损迁移是一个巨大的挑战。

一直以来，CPU 是客户主要的支撑推荐业务场景的主流硬件平台。但 VIVO 工程团队却发现在推理服务中，CPU 的表现始终无法达到要求标准，不仅算力较弱，应对复杂模型时，响应延迟和 QPS 也无法满足实时性和高并发的需求。

此时，客户尝试改用 NVIDIA GPU 来实现推荐业务的推理服务，有效解决 CPU 算力和性能的瓶颈的同时，也期待更大的成本优势。经过大量的工程实践，结果表明，单台基于 NVIDIA T4 GPU 的推理服务器，性能可以等同于24台 CPU 机器。毋庸置疑, GPU 的整体表现皆具有性能和成本的优势。据此，客户也认为使用 GPU 作为推荐业务场景的推理平台，已成为了公司乃至行业的共识。

由于 GPU 芯片架构的独特性，不经优化的原始 TensorFlow 模型，很难高效利用 GPU 的算力。为了解决这个问题，VIVO 工程团队投入了大量的人力和时间进行推荐模型优化及转换。而首先着手设计的是 TensorRT 方案，即是使用 NVIDIA 推理加速工具 TensorRT ，结合 Triton 的 serving 方式，以最大化 GPU 整体收益。

具体来说，把训练导出的 TensorFlow 模型经过 Onnx 转换成 TensorRT 模型，进而使用 NVIDIA 提供的推理服务框架 Triton 加载 TensorRT 模型。业务代码使用 VIVO 封装 Triton 的 JNI 接口，将业务请求输入 TensorRT 模型去做推理计算。