Xilinx AI 加速+阿里云 FaaS
扫描二维码
随时随地手机看文章
借助 ML 框架在赛灵思 FPGA 上直接加速 Yolo-v2
阿里巴巴过去使用 GPU 运行 Yolo-v2 Tiny(数据类型为 Float32),通过这种方法掌握每日千万级的图像内容。由于该架构未经充分优化,GPU 只能实现有限的每秒查询次数 (QPS) 吞吐量,导致用电成本高、服务器空间占用大。为了降低运营费用,阿里巴巴寻求比 GPU 成本更低的解决方案来检测有害或多余的文本信息。
依托于赛灵思 16nm Virtex UltraScale+™ FPGA 的高度自适应架构,阿里云 FaaS 团队在 Int16 上运行 Yolo-v2 Tiny 模型,在媲美 GPU 精度的前提下实现一流的 QPS 性能。单片赛灵思 UltraScale+ FPGA 每秒能处理数百幅图片,与最初的 GPU 实现方案相比性能提高 3.5 倍。在 FaaS 的启发下,虽然GPU通过完成类似优化也可以达到类似性能,但赛灵思解决方案的单幅图像成本更低。除此之外,赛灵思 Vitis AI 在加快开发速度方面也有着上佳表现。
VU9P 与 GPU 运行 YOLO V2 Tiny 的对比
赛灵思 Vitis AI 堆栈
在不降低精度的前提下节省 75% 总拥有成本
Vitis AI 支持开发者在无需编写任何 RTL 代码的情况下,优化 DNN 模型并将预训练的 DNN 模型部署到赛灵思 FPGA 中。其运行时及外壳程序让开发者无需成为 FPGA 专家就能够充分从赛灵思硬件加速中获益。
阿里巴巴云和智能FPGA异构计算负责人张振祥负责领导该项目并成功在 F3 实例上实施了 AI 加速。
阿里云 FaaS 在云端提供统一的硬件平台与中间件。在赛灵思 Vitis AI 的支持下,阿里云 FaaS 能够大幅降低 AI 加速器的开发成本与部署成本。加速器厂商可以将加速器以服务形式提供给用户,克服加速技术的硬件壁垒。用户可以按需使用加速服务,不必理解底层硬件详情。借助 Vitis AI,阿里巴巴和赛灵思联合开发 AI 加速解决方案的最大优势在于,阿里巴巴不需要任何人成为使用 FPGA 技术的专家。