机器视觉的发展：能够感知的机器

[导读]很长一段时间以来，技术人员一直在开发能够感知的机器。我们使用运动探测器已有很长时间了。我们现在拥有如此灵敏的压力传感器，以至于我们可以制造出能够处理鸡蛋而不破坏鸡蛋的机器人。在音频领域，我们拥有可以将语音与其他声音区分开来的传感器。

很长一段时间以来，技术人员一直在开发能够感知的机器。我们使用运动探测器已有很长时间了。我们现在拥有如此灵敏的压力传感器，以至于我们可以制造出能够处理鸡蛋而不破坏鸡蛋的机器人。在音频领域，我们拥有可以将语音与其他声音区分开来的传感器。

我们一直在制造可以看到的机器。光学检测是一种常见的能力;然而，真正的愿景更难。在机器视觉接近人类视力之前，还有很多东西需要学习，但我们一直在朝着这个目标前进。想一想我们中的许多人都拥有可以识别我们面部的手机是多么令人惊奇。

不管怎样，快进几千年，我们仍然到处都有机器，尽管它们变得越来越复杂。我们有印刷机、烤面包机、汽车、笔记本电脑、宠物喂食器、除草机、拉面分配器、8 轨磁带播放器……顺便问一下，你们中有没有听众是 They Might Be Giants 的粉丝?乐队刚刚发行了全新的 8 轨磁带歌曲集。严重地!2021 年，您可以添加到您的 8 轨磁带收藏中。世界是一个美好的地方!

但是我要去哪里呢?哦耶。我一直在强调人类几千年来是如何制造机器的，在几乎所有的历史中，我们所有的机器都处于闲置状态，直到我们激活它们。只有在人类历史上最微小、最近的一小段时间里，这种情况才发生了变化;我们开始创造可以检测和响应的机器。只是在最近甚至更短的时间里，我们才制造出不仅可以检测和响应，还可以识别和响应的机器。

有什么不同?好吧，区别在于带有运动传感器的自动门一方面在检测到有物体朝它移动时打开，另一方面，系统不仅接收刺激，而且可以判断你那个刺激是什么。最近的一个例子是谷歌的 Alexa，它现在可以区分特定的声音：它会忽略交通或狗叫声，但如果它听到玻璃破碎，它会提醒你。

就识别和反应而言，这些都是非常简单的应用程序，但它们指出了技术的发展方向。

人类比我们大多数其他感官更依赖视觉，因此我们特别努力创造不仅可以检测而且可以实际看到的光学系统才有意义。

技术人员已经开始将机器视觉与人工智能相结合。我们中的许多人现在都拥有可以识别自己面孔的手机。与人类用视力所能做的一切相比，这仍然是一种基本的能力，但这是朝着实现这一目标迈出的一大步。这正是从事嵌入式视觉工作的真正激动人心的时刻。

计算机视觉开始于 1960 年代，大多数人认为，我们有计算机，我们有算法。算法可以获取数据并从数据中提取有用的见解和模式。那么我们为什么不把图像作为数据，编写一个可以提取有用信息的程序呢?例如，也许要确定这张图片中是否存在人脸?在许多应用程序中，这是您想要做的一件非常常见的事情。

于是人们开始开发算法来处理像素并提取有用的信息。他们这样做的方法是，对于这些算法中的大多数，应用大量专业知识和智慧，认真思考问题并查看数据，仔细检查大量示例并尝试推理，嗯，也许是一张脸可以根据其在特定组织位置相对于彼此具有眼睛、鼻子和嘴巴等某些突出特征的事实来识别。

所以人们会编写算法和软件来处理像素，提取信息。这样做的困难在于，如果你谈论的是我们所谓的“自然图像”，即来自现实世界的图像，而不是一些真正受限、受控的环境，那么图像中会有很多变化。就像我可能会编写我的整个算法来检测人脸，然后有人出现时他们的头是倾斜的或戴着眼镜或不同的肤色或眼睛上的补丁或其他任何东西。现在我的算法坏了。或者他们是背光的，他们的脸是背光的，所以我真的无法从图像中很好地辨认出他们的特征。

以这种方式解决应用程序问题是可能的，但它非常痛苦，非常昂贵。算法开发团队将花费许多工程师年的时间来制作这些算法并对其进行改进和改进以使其变得更好。因此，计算机视觉得到了部署，但仅限于相对少数的应用程序。特别是环境可以很容易控制的应用程序。诸如照明和相机位置之类的东西。例如，制造检验等应用。

如果您正在查看某个组件并且您正在尝试确定是否所有螺栓都存在。你知道螺栓看起来总是一样的;你总是在看同一个位置;您可以控制灯光、相机位置;没有什么能挡住你的视线;你正在看的东西背后没有任何分散注意力的东西。这些问题是可以解决的。但更自然的问题，比如最近在COVID时代，人们经常想做的一件事是统计，当人们经过某个地方时，有多少人戴着口罩?

这是一个非常非常难的问题。因为口罩有不同的尺寸和形状。人们有不同的大小和形状。他们不一定正对着镜头。他们不一定光线充足。这些类型的问题确实无法用这种传统方法解决，让我们仔细检查数据，然后让我们将大量工程知识和洞察力应用于手工算法，以获取这些像素并提取必要的洞察力。