原创

专为大规模交互式流媒体而生——AMD发布集成双5nm VPU的Alveo MA35D加速卡

时间：2023-04-14 20:34:32

关键字： AMD Xilinx 加速卡 VPU Alveo MA35D

手机看文章

扫描二维码
随时随地手机看文章

[导读]视频流媒体市场总额将从2021年的61个Billion一路增长，至2028年达到213个Billion。流媒体大涨的背后技术挑战来自新一代的交互模型，会是“多对多”的形式。这种交互模型的变化，将会彻底改变基础设施的部署模式。

视频流媒体市场总额将从2021年的61个Billion一路增长，至2028年达到213个Billion。流媒体大涨的背后技术挑战来自新一代的交互模型，会是“多对多”的形式。这种交互模型的变化，将会彻底改变基础设施的部署模式。

传统的直播场景为广播流媒体的形式，是“一对多”的模式；而新一代的直播场景，是“多对多”的模式，每个人都是主播，每个端即是数据源也是接收器。这意味着原来通过云集中的方式能够获得的经济效益已经不复存在了，因此需要彻底改变基础设施部署模式。

为了迎合这种流媒体变革趋势，AMD于近日发布了最新的Alveo MA35D加速卡。AMD 视频战略与市场开发主管 Sean Gardner在媒体会上进行了精彩的分享。

“每个人都是主播”，流媒体基础设施部署模式改变

疫情催生了直播市场的增长，而在疫情结束之后，实况直播市场增长势头不减。据调查数据显示，视频时长定的年复合增长率达到20%。从2021年610亿美元市场，一路增长至202年2130亿的市场规模。而这其中主要的推动力，就来自于视频直播。从2021年的全球视频时长统计数据来看，直播占据了70%的比例。

传统的广播流直播的方式主要是“一对多”，是由软件和CPU提供支持。由于视频流的数量比较少，同时时延比较可控，因此可以用比较传统的现有网络支持。

而新一代的直播场景中，每个人都是主播，这也就意味着每个客户端既是数据源也是接收器。这样的应用场景要求在端侧的多流视频处理能力提升。与之同时的，整个基础设置的部署模式也会发生变革。

传统的GPU和CPU不能更加高效地处理这种多对多的直播流媒体场景，因此AMD发布了其最新的Alveo MA35D加速卡，专门针对“多对多”的业务场景，使其更具可拓展性和商业可行性。

Alveo MA35D具备两个5nm基于ASIC的、支持AV1压缩标准的视频处理单元（VPU），每卡支持 32 路 1080p60 转码密度，专为推动大规模直播互动流媒体服务新时代而打造。据AMD视频战略与市场开发主管Sean Gardner介绍，“MA”是代表媒体加速器（Media Accelerator），35代表Alveo U30后的新一代产品，D表示两个（dual）视频处理单元意思。

与前代Alveo U30相比，Alveo MA35D实现了全面提升：通道密度提高了 4 倍、每通道功耗降低了 2 倍、时延降低了 4 倍。

Alveo MA35D：专为多对多直播场景而生的加速卡

取得如此好的性能表现，是因为Alevo MA35D硬件专为直播场景而设计，是硬件架构和应用场景进行了紧密的耦合的结果。市面上很多的解决方案目前都是在消费者事业部产生的，而AMD则是针对云和基础设施而研发的。

Alveo MA35D主要体现在两大技术突破。一是采用了专门的视频处理单元（5nm的ASIC），二是采用AI实现了智能的视频处理。

Alveo MA35D 采用专用视频处理单元（VPU）加速整体视频处理。通过在视频处理单元上执行所有视频处理功能，可以最大限度减少 CPU 和加速器之间的数据迁移，进而降低整体时延并实现通道密度最大化，达到每卡高达 32 路 1080p60、8 路 4Kp60 或 4 路 8Kp30 的转码密度。在芯片四角有四个分离的支持AV1压缩标准的编码器（MP）单元模块，使得客户在部署应用的时候，能够享受最大的灵活性。客户可以一边用旧的压缩标准，一边加入新的压缩标准。该平台还针对主流 H.264 和 H.265 编解码器提供了超低时延支持，并配备下一代 AV1 转码器引擎，可节省高达 52% 的带宽。

另一个创新在于Alveo MA35D加速卡上集成了人工智能（ AI ）处理器和专用视频质量引擎，能够以更低的带宽提升体验质量。AI 处理器会逐帧评估内容并动态调整编码器设置，以提高感知视觉质量，同时最大限度降低比特率。优化技术则包括用于文本和面部分辨率的感兴趣区域（ ROI ）编码、用于纠正剧烈运动和复杂场景的伪影检测，以及用于比特率优化预测洞察的内容感知编码。

在发布会现场AMD展示了一个晚间新闻的例子：当画面从主持人切换到体育赛事，再切回主持人的时候，通过Alveo MA35D上的VQ分析IP模块，可以快速实现主持人的边缘的捕捉，实现近乎实时的动态处理。Sean表示，在人工智能进行动态调整和变化的过程中，会形成一个反馈环，来确保所做的决策不是错误的。通过VQ分析可以确保视频每一帧的质量，一旦出现错误都可以及时调整。尽管类似的方案中已经在传统的模式中得以应用，但通过AMD Alveo MA35D实现的这个方案得以在非常低时延的应用场景中实现。

过AI技术，在视频转码过程中可以更精准地捕捉到例如人脸等重点区域，然后在终点区域分配更多的比特，在其他非重点区域激进地进行压缩，降低比特率。但因为捕捉到了人脸这样的重点区域进行了更精细地处理，所以最终转码的效果会更好。

为交互式流媒体带来具有经济效益的拓展

带宽的消耗对于流媒体客户来说是非常大的一项运营开支，数据显示，每个通道的成本是50美元，每通道的功耗是1瓦。客户在评估效率的时候主要看的是每平方占地面积的成本，以及每个通道的功耗。

通过AI技术对重点和非重点区域分配不同的比特和压缩率，是一种更有效节省带宽的方式。而同时，AMD也致力于编码解码器方面进行改善。如下图所示，对比其他压缩标准，在达到同等的视觉质量的前提下，AMD AV1的编码器在带宽上的节省高达52%。

在卡的层面上，Alveo MA35D对32路通道都做了优化。配备8张卡的1U机架式服务器可提供256个通道，以实现每服务器、每机架或每数据中心转码密度最大化。

Sean表示，Alveo MA35D能够大大的改善经济性，从而使得新的应用场景变得商业可行。Alveo MA35D卡可通过以每流1瓦的功率每卡提供多达32路1080p60转码密度。4K编码时延最低8毫秒，仅为常规处理时间（16毫秒）的一半。此外Alveo MA35D还具备22 TOPS AI算力（INT8），可以支持非常多的新的应用场景。同时AMD也确保Alveo MA35D加速卡的成本效益，1595美元的建议零售价对客户而言也非常有吸引力。

结语

“在流媒体处理的功耗方面，绝大部分GPU卡的功耗都要达到75瓦，而Alveo MA35D一般来说是35瓦左右。”AMD 产品管理与营销总监 Girish Malipeddi分享到。

“但Alveo MA35D对于CPU和GPU并非竞品，而是补充性的产品。”Sean分享到，“有一些应用需要三者协作来提供非常具有成本效益和高性能的解决方案。例如云电竞或云游戏，GPU尽可能多的去呈现游戏内容，Alveo MA35D完成所有的低时延高质量的编码，AMD EPYC CPU可以完成所有的应用级的系统处理。这样的组合能够给客户提供最高的密度，同时以非常优惠的价位和很低的功耗来实现。”