机器视觉：机器学习时代，变得更多地与数据相关

[导读]在最初的几十年里，我大量参与了音频和语音处理等领域的数字信号处理。因此，如果我们倒回 20 或 30 年，想想数字信号处理和数字音频，那时候的技术处于类似的状态。它有效，但它很新，而且它并不是真正可以现成部署的。假设一家公司生产自动售货机，他们想为自动售货机添加语音命令，他们很可能不得不聘请一些 DSP 和语音专家。而且很可能他们必须真正进行一些研究和原创技术发明才能为他们的应用程序创建一个独特的解决方案。

在最初的几十年里，我大量参与了音频和语音处理等领域的数字信号处理。因此，如果我们倒回 20 或 30 年，想想数字信号处理和数字音频，那时候的技术处于类似的状态。它有效，但它很新，而且它并不是真正可以现成部署的。假设一家公司生产自动售货机，他们想为自动售货机添加语音命令，他们很可能不得不聘请一些 DSP 和语音专家。而且很可能他们必须真正进行一些研究和原创技术发明才能为他们的应用程序创建一个独特的解决方案。

然后，如果您考虑 15 或 20 年后，或者当然是今天，如果您试图解决同样的问题，您甚至不会考虑尝试从头开始创建语音识别解决方案，您只是去许可一些现成的东西已经在嵌入式处理器上运行。您最有可能需要做的就是指定您的应用程序所需的词汇表，并找出您的机器将如何响应语音命令的应用程序逻辑。

对于某种视觉应用程序的深度神经网络，我想说可能对于所有应用程序，我们仍处于早期阶段，公司确实需要一些内部专业知识来弄清楚这项技术并将其有效地用于他们特定的应用程序和用例。但与此同时，工具和现成的解决方案发展得非常迅速。因此，我们正在迅速到达一个地方，对于常见的功能和用例，您只需购买现成的基于深度学习的解决方案即可。

一个很好的例子就是手势控制。假设在汽车应用中，我希望驾驶员能够通过手势来控制气候控制和收音机等功能。许多公司已经拥有强大的基于视觉的手势控制解决方案，这些解决方案是基于深度学习的，您可以许可并将其整合到系统中，而无需参与深度神经网络如何工作以及它们如何工作的所有底层细节。重新训练等等。

所以我们现在处于早期阶段。在大多数情况下，要将深度神经网络整合到其应用程序中的公司将需要在内部或通过合作伙伴引入一些专业知识。然而，事情进展得很快。随着时间的推移，您可能希望通过对图像数据(或就此而言，音频数据或其他类型的传感器数据)进行操作的深度神经网络来执行的常用功能越来越多，将现成可用。

算法和代码一直是宇宙的中心，如果你想一想为了做某事而接收传感器数据的系统和应用程序。想一想赛格威滑板车及其反馈控制机制。它从加速度计获取传感器数据，可能来自车轮上的传感器，也可能来自其他类型的传感器，它有一个反馈循环运行，然后控制电机，这样它就可以以可预测的方式运行，人们可以使用它安全且高效。所以这一切都是关于，这些算法是什么，代码是什么?

在机器学习时代，这变得更多地与数据有关。我们使用什么数据来训练让我们获得所需行为的算法?而不是编写代码并编写我们自己的算法并对其进行改进。这是一个巨大的变化，它需要不同的思维方式和一套不同的技术和工具来回答这样的问题，比如我们需要多少数据?什么样的数据?需要如何对其进行注释以便我们可以将其用于训练?我们将如何衡量准确性?

这是一个教育非常重要的领域，因为技术是如此不同。深度神经网络的技术与经典的手工设计算法截然不同。这是人们确实需要在教育方面进行投资的地方，无论是个人还是组织。他们还需要通过经验来学习。

您会考虑您的视力使您能够做的所有事情，从非常精细的运动任务(如穿针)到在三维空间中导航，无论您是步行还是乘坐某种交通工具。阅读别人的肢体语言。甚至可能会读他们的嘴唇。我们从视觉上获得的信息量非常惊人。同样，机器可以从视觉数据中获得范围相当惊人的洞察力和有用信息。

但就像人类不限于视觉数据一样，在许多情况下，机器使用其他类型的数据也是有意义的。对此我感到“啊哈”的是，大约在 2011 年左右，我在我们家的小型货车上安装了一个纯粹基于计算机视觉的早期 MobilEye 驾驶员辅助系统，因为我想获得一些第一手经验，了解它是如何真实的——世界计算机视觉在当时发挥了作用。该系统在当时令人印象深刻。但我会告诉你它哪里不令人印象深刻。

几个月后，我们住在旧金山附近，冬天我们全家去太浩湖旅行。如果你这样做了，你就会知道一个普遍的现象是，当你上山时，天气变化非常快，能见度会瞬间从无限变为几乎为零。好吧，这发生了。我们在 80 号高速公路上跟在一辆 18 轮车后面，突然天气变了，18 轮车不见了。看不到它。它可能在前方 100 英尺处。我看不到它，我的基于计算机视觉的驾驶员辅助系统也看不到。因为它依赖于我能看到的相同视觉波长。

所以这是一个真正的教训，这是一个了不起的系统，但它有一些真正的局限性。在那种情况下，雷达将是视觉的完美补充或补充，因为即使雷达几乎不能像图像传感器那样辨别物体的性质，但它对雾、雨、黑暗和黑暗等事物没有问题。很快。

所以我绝对认为，从应用到应用，将会有很多应用应该补充图像传感器，将由其他类型的传感器补充，实际上深度学习真的可以帮助我们以组合的方式使用这些数据来充分利用它。

会有一些应用程序不需要图像传感器。事实证明，雷达本身或激光雷达本身更胜一筹。

顺便说一下，图像传感器也不只有一种。我们有红外线，我们有超光谱，我们有立体图像。所以那里也有很多多样性，甚至停留在视觉领域。那里有很多选择。很大很大的设计空间。

不同的市场研究公司以不同的方式定义机器视觉市场，他们对市场规模的估计彼此相差很大，但他们的估计往往在 10% 左右的范围内。据估计，到 2020 年底，机器视觉市场价值 114 亿美元。做出该估计的公司预计到 2027 年该市场价值可能超过 190 亿美元。