计算机视觉:通过压缩技术减少 AI 推理所需的内存大小
扫描二维码
随时随地手机看文章
今天,我们将讨论计算机视觉。我们将听到 Perceive 的首席执行官 Steve Teig 谈论他提出的一种压缩激活的方法,该方法可以减少 AI 推理所需的内存大小。我们还将先睹为快,了解来自 GrAI Matter Labs 的新型神经形态启发式视觉芯片。
但首先:计算机视觉会再次自我改造吗?我有幸听到了匹兹堡大学眼科教授、CMU 机器人研究所兼职教授 Ryad Benosman 教授。他也是我们今天所知的神经形态视觉的创始人之一,即基于事件的视觉。
基于事件的视觉的想法是基于生物视觉系统的工作方式,检测场景动态的变化,而不是像主流的基于人工智能的计算机视觉系统那样连续分析整个场景。Benosman 不想完全复制大脑或视网膜。“没有必要在硅中制作神经元的精确复制品,”他说。当然,部分问题在于我们今天还没有完全理解神经元之间的所有信号。如果我们不了解大脑是如何工作的,我们怎么能复制它呢?
Benosman 还认为,如果我们没有生物计算基础来运行大脑,那么复制大脑是没有意义的。相反,我们所做的需要适应硅的质量。
当基于事件的视觉是一个新想法时,该领域的开创性工作是如此新颖和与众不同,以至于最初的论文被当时领先的计算机视觉期刊拒绝,甚至没有经过审查。只是不相信计算机视觉可以在没有全帧图像的情况下工作。但是今天,有几种基于事件的商业视觉传感器可供包括 Prophecy 在内的公司使用。但 Benosman 认为在处理方面肯定有改进的余地。
我们还将与神经形态视觉领域的初创公司 GrAI Matter Labs 进行了交谈。该公司有效地从基于事件的愿景中借鉴了一些概念。他们不使用基于事件的传感器;该芯片处理全帧图像。但是,在处理阶段应用了查找事件的概念。他们更像是一种稀疏性。通过关注正在发生某些事情的视频区域,它们可以使数据更稀疏,因此您可以更有效地处理它。如果你有合适的芯片,那就是。Grai Matter 当然为此专门制造了一个芯片。
什么样的应用程序需要这个功能?有点基于事件,但不是基于事件。Grai Matter 正在将他们的技术应用于最终产品供人类消费的应用。他们的芯片适用于媒体处理应用程序,您可以在其中处理高质量的视频,并可能以某种方式使用人工智能来操纵视频作为该过程的一部分。所以输出也是高质量的视频,而不仅仅是用于做出决定的元数据或信息。
今天,世界上大多数人都关心理解音频和视频,并且您可以从中获取元数据。所以没有人真正关心原始提要发生了什么,不是真的。你可以做一些覆盖,但这并不重要。因此,所有的架构基本上都将尽可能多的 max 塞进他们的架构中,并且尽可能少地精确地获取元数据。但这只是让我们到目前为止。为您提供元数据:框、动作信号等等。我们希望为消费者在家中和工作场所改变音频和视频体验。为了改造它,你需要一个不同的架构。该架构在延迟和质量方面确实有很多不同的要求要满足。指标非常不同。
GrAI Matters 芯片的一个不同寻常的方面是它使用 16 位浮点精度。对于通常我们试图尽可能降低精度的边缘芯片来说,这是非常不寻常的。作为神经形态提供商的关键方面之一是我们所有的 Mac 操作都是在 16 位浮点中完成的。与几乎所有其他边缘架构相比,这有点独特。正如你所看到的,很多人当然会通过使用 8 位 int 来权衡功率和效率,对吗?这基本上给你带来了很多好处。现在有了稀疏性和基于事件的处理,我们不得不进行 16 位浮点运算,因为我们要跟踪过去发生的事情。但我们基本上领先了,因为有很多积极的东西可以得到,16 位浮点对我们来说不是开销。事实上,它在实时处理方面的一些关键用例中为我们提供了相当多的帮助。