计算机视觉技术必须完成什么基本任务
扫描二维码
随时随地手机看文章
算机视觉识别这一人工智能基础应用技术部分已达商业化应用水平,被用于身份识别、医学辅助诊断、自动驾驶等场景。一般来讲,计算机视觉主要分为图像分类、目标检测、目标跟踪和图像分割四大基本任务。
图像分类是指为输入图像分配类别标签。自 2012 年采用深度卷积网络方法设计的 AlexNet 夺得 ImageNet 竞赛冠军后,图像分类开始全面采用深度卷积网络。
2015 年,微软提出的 ResNet 采用残差思想,将输入中的一部分数据不经过神经网络而直接进入到输出中,解决了反向传播时的梯度弥散问题,从而使得网络深度达到 152 层,将错误率降低到 3.57%,远低于 5.1%的人眼识别错误率,夺得了ImageNet 大赛的冠军。2017 年提出的 DenseNet 采用密集连接的卷积神经网络,降低了模型的大小,提高了计算效率,且具有非常好的抗过拟合性能。
目标检测指用框标出物体的位置并给出物体的类别。2013 年加州大学伯克利分校的 Ross B. Girshick 提出 RCNN 算法之后,基于卷积神经网络的目标检测成为主流。之后的检测算法主要分为两类,一是基于区域建议的目标检测算法,通过提取候选区域,对相应区域进行以深度学习方法为主的分类,如 RCNN、Fast-RCNN、Faster-RCNN、SPP-net 和 Mask R-CNN 等系列方法。二是基于回归的目标检测算法,如 YOLO、SSD 和 DenseBox 等。
目标跟踪指在视频中对某一物体进行连续标识。基于深度学习的跟踪方法,初期是通过把神经网络学习到的特征直接应用到相关滤波或 Struck 的跟踪框架中,从而得到更好的跟踪结果,但同时也带来了计算量的增加。近提出了端到端的跟踪框架,虽然与相关滤波等传统方法相比在性能上还较慢,但是这种端到端输出可以与其他的任务一起训练,特别是和检测分类网络相结合,在实际应用中有着广泛的前景。
图像分割指将图像细分为多个图像子区域。2015 年开始,以全卷积神经网络(FCN)为代表的一系列基于卷积神经网络的语义分割方法相继提出,不断提高图像语义分割精度,成为目前主流的图像语义分割方法。