计算机视觉技术必须完成什么基本任务

时间：2020-06-01 11:27:01

关键字：人工智能机器人

手机看文章

扫描二维码
随时随地手机看文章

[导读] 算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平，被用于身份识别、医学辅助诊断、自动驾驶等场景。一般来讲，计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。

算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平，被用于身份识别、医学辅助诊断、自动驾驶等场景。一般来讲，计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。

图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后，图像分类开始全面采用深度卷积网络。

2015 年，微软提出的 ResNet 采用残差思想，将输入中的一部分数据不经过神经网络而直接进入到输出中，解决了反向传播时的梯度弥散问题，从而使得网络深度达到 152 层，将错误率降低到 3.57%，远低于 5.1%的人眼识别错误率，夺得了ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连接的卷积神经网络，降低了模型的大小，提高了计算效率，且具有非常好的抗过拟合性能。

目标检测指用框标出物体的位置并给出物体的类别。2013 年加州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后，基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类，一是基于区域建议的目标检测算法，通过提取候选区域，对相应区域进行以深度学习方法为主的分类，如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法，如 YOLO、SSD 和 DenseBox 等。

目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的跟踪方法，初期是通过把神经网络学习到的特征直接应用到相关滤波或 Struck 的跟踪框架中，从而得到更好的跟踪结果，但同时也带来了计算量的增加。近提出了端到端的跟踪框架，虽然与相关滤波等传统方法相比在性能上还较慢，但是这种端到端输出可以与其他的任务一起训练，特别是和检测分类网络相结合，在实际应用中有着广泛的前景。

图像分割指将图像细分为多个图像子区域。2015 年开始，以全卷积神经网络（FCN）为代表的一系列基于卷积神经网络的语义分割方法相继提出，不断提高图像语义分割精度，成为目前主流的图像语义分割方法。