边缘AI落地,端侧智能视觉需要什么样的ISP?
扫描二维码
随时随地手机看文章
“聪明”一词来自于《易林》成语“耳聪目明”,指的是听觉灵敏、眼力敏锐,是一个人智慧的象征。现在我们已经到了人工智能的时代,机器视觉和听觉对于它们的智能程度也是至关重要的。马健(Chloe Ma,Arm 物联网兼嵌入式事业部业务拓展副总裁)在Arm最新ISP IP Mail-C55的发布会上分享到。
智能视觉的应用前景广阔,以智能摄像头市场为例:市场数据表明商用和消费类智能摄像头市场有望在五年近乎翻倍,从去年的 250 亿美元到 2025 年有望达到 450 亿美元。
随着AI在垂直应用落地和持续向边缘化部署,智慧视觉的应用也发生了一系列的演进。
在功耗敏感的端侧提供专用AI算力
智慧视觉的应用已经逐渐深入到了生活的方方面面,从高清商务视频会议、安防/智能监控、智慧城市到电池供电的可视门铃和智能猫眼,用例非常广泛。2020年突如其来的新冠疫情大大加速了数字化转型的节奏,智能摄像头也在商务会议、远程教育、远程健身等方面进一步普及。
简单的视频采集并不能满足当前的应用需求,AI赋能让更多的智能视觉应用成为可能。例如在公共健康方面,带有人工智能 (AI) 的智能相机可以监控口罩佩戴情况,跟踪社交距离,并帮助追踪接触者。在工业和制造业方面,缺陷和异常检测已经起到了提高生产效率、保证产品质量和减轻人力投入的效果。而在更高精度、工序及其复杂的半导体制造过程中,基于深度学习算法的视觉检测系统可以在每个半导体工艺完成后都会通过优质产品的图像进行训练,并且学会识别缺陷。在农业方面,智能视觉技术通过监测杂草和农作物种植密度,可以最大限度地提高产量,帮助缓解食品供应链的困难。
而未来进入到元宇宙时代,更多的人工智能功能,比如人脸识别、物体识别等的部署将会拓展到边缘端,图像处理的任务也就需要在端侧完成,图像处理后输出的图像可以直接送到机器学习 (ML) 加速器来做推理,加上现有的高清摄像头和多摄像头的逐步普及,人们对于视觉技术性能提出了更高的新要求。
智能视觉系统在端侧逐渐普及,功耗敏感的端侧如何提供足够的算力,提供专业的图像处理能力,这是当下技术发展的关键方向。在智能视觉系统端侧添加专用的NPU引擎、ISP引擎,用于图像处理能力,从而释放CPU的资源专注于更适合的计算和控制等工作,才可以保证系统整体低功耗和性能兼顾。
端侧智慧视觉系统需要什么样的ISP?
当前智能摄像头的CPU的绝大多数采用的是Arm的Cortex-A系列CPU IP,而据马健介绍,未来除了基本的CPU之外,也会更多地使用 ISP 和 ML 加速器。要实现高效的系统设计,拥有可针对此类活动所需要的数据类型和处理进行匹配的 ISP 是非常重要的。一些 NPU、通用 GPU、ISP 等 IP 都会逐渐地在现有或者下一代芯片中得到应用,用于从图像中提取更多有用的信息。
任何一个高速发展的市场都会经过一段百花齐放的阶段,然后市场渐趋成熟,变得愈发整合,智能视觉市场亦是如此。当前智能视觉的市场增长速度很快,用例很多并且有非常多创新。但市场的细分应用方向已经基本明确,每个市场都有一些基本模块,每个厂商也都有相似的方案。在这些细分市场上实现差异化,通过不同的算法和用例上的不同优化,是当前创新的来源。
除了要在边缘端提供专门的图像处理能力和AI加速的能力外,还应注意在不同智能视觉的用例上,对于图像处理的质量也是不同的。例如一些简单的物品识别的场景对于分辨率的要求并不高;而在安防领域例如车牌和人脸识别,对于图像处理质量要求就高得多;像在高精度的缺陷检测用例中,对于图像的成像精度有着更高的要求。
基于以上的技术发展趋势和市场应用需求,Mali-C55的产品定义也就呼之欲出。应用在功耗敏感的端侧,有专业的图像处理能力,强大的AI算力,支持可灵活拓展的用例,并且易于部署。
Mali-C55:一半面积实现翻倍性能
Mali-C55有着高性能、易于配置、易于部署和系统整合难度低三大优势。几大优势说起来简单,但均来自Mali-C55的架构设计上的创新,以及Arm全套的IP强生态。
首先看性能参数方面,Maili-C55相比上代C52,面积直接缩减了一半,画质和分辨率翻倍达到了8K、4800 万像素,Throughput提升了一倍(1200Mpix/sec),此外摄像头支持也从单通道提升到了最高8通道,像色彩映射和降噪等模块也实现了升级。“更小的面积同时也意味着更低的功耗。”马健强调到。
易于配置和部署的优势来自Mali-C55灵活的模块化设计。ISP的处理是一个流水线,从传感器得到原始的图像,而这些原始数据会经过一系列的处理,包括时间降噪、空间降噪、色调映射等。传统的ISP的流水线比较固定,开发者很难去配置每个步骤的内容,或去掉某些步骤。正如上文所提到的,不同的用例对于不同的图像处理有着不同的要求和偏向,而且不同客户的要求也存在差异。
Mali-C55 是将时间降噪(Temper)、空间降噪(Sinter)和色调映射(Iridix)等作为不同的模块,让开发者灵活组合。Iridix将图像中的这些局部区域定义为大小相等的网格,从每个网格中提取统计数据应用于图像中相应的局部区域。Mali-C55中升级的Iridix8.1通过平滑每个局部色调曲线改进了局部色调映射算法,因此可以在明亮光源周围实现更自然的衰减。Temper是通过组合连续帧来提高低光照条件下的图像质量的时间降噪算法。 Mali-C55中升级的Temper4不仅通过更新的降噪算法提高了图像质量,而且与 Mali-C52 相比,内存带宽减少了高达 50%。Sinter是一种空间降噪技术,Mali-C55中升级后的Sinter2.6可改善颜色通道中的细节和噪声平衡,通过为每个颜色通道使用特定的寄存器来实现更好的细节平衡。这两种降噪模块可以在流水线中的顺序可以进行按照客户需求进行切换。
除了上述模块外,在图像处理的流水线过程中,开发者还可以加入 ML 加速、调用 NPU 的功能并运用大数据对数据进行分析,来增强 ISP 的功能,比如可以利用 ML 的功能使一些时间、空间方面的降噪效果做得更明显。
模块化的设计带来了更灵活的部署选择,客户根据不同的应用需求可以使用Mali-C55来进行不同的配置。比如在安防监控领域,室外的摄像头成像经常会受到光线、天气和物体移动速度等因素的影响。借助 Mali-C55 增强的色调映射和降噪能力,人脸和物体识别就会更加精确,并且在车辆以时速 120.7 公里的速度行驶的情况下,也能做到比较准确的车牌识别。在智能家居领域,可视门铃经常是电池供电,所以对能耗的要求特别高,Mali-C55 的低面积、低能耗特性,使智能可视门铃产品更耐用,并且能够更准确地根据人脸识别的结果进行开锁。
在系统整合方面,Mali-C55 也更易于整合,包括与 ML 加速器整合实现边缘智能终端上本地视频数据处理,以及通过标准的 AXI 和 AHB 接口,与现有的 Arm Cortex-A 和 Cortex-M 系列的 CPU 进行无缝对接。此外,Arm还将Mali-C55与MCU、CPU等IP一起打包推出了视觉的Corstone参考设计,这也极大地降低了客户的设计和验证门槛,帮助客户加速智慧视觉的产品设计和缩短上市时间。
总结
“Arm 架构是物联网的基石。Arm 在 IoT 和嵌入式领域已经有很高的市场份额。在我们的合作伙伴每季度平均出货的70多亿颗基于Arm的芯片中,超过半数是面向物联网/嵌入式设备的。也就是说我们在这方面有很深的积累。”马健分享到。
在端侧智能视觉的发展中,ISP必不可少,而ISP上的布局也将会成为Arm持续关注的方向。凭借着足够优秀的性能表现,再辅以Arm完备的IP生态,Mali-C55的市场前景广阔,预计搭载Mali-C55的芯片跟终端设备有望在 2023 年面市。