视频运动目标跟踪算法研究综述

时间：2021-11-16 20:39:28

关键字：计算机视觉目标跟踪最小均方误差滤波器深度学习均值漂移卡尔曼滤波

手机看文章

扫描二维码
随时随地手机看文章

[导读]摘要：视频运动目标跟踪是计算机视觉领域的研究热点，具有广阔的应用前景。近年来，深度学习等技术的引入使得目标跟踪算法的准确性得到极大提升，但是当目标发生形变、尺度变化、被遮挡等情况时，容易导致跟踪失败。为了进一步改进运动目标跟踪算法，文中系统地梳理了现有的运动目标跟踪算法，将其划分为经典的跟踪算法、基于相关滤波的跟踪算法和基于深度学习的算法，分别从算法的基本原理、算法性能等方面进行详细的阐述，并对未来的发展趋势进行了展望。

引言

视频运动目标跟踪作为当前计算机领域最为热门的技术之一，对视频中目标行为能够进行准确地追踪定位，而且随着算法的不断更新，目标跟踪理论也越来越完善，应用的领域涉及智能视频监控、无人机侦察、智能驾驶等。简单来说，目标跟踪就是在第一帧时给出目标的初始位置，利用跟踪算法计算出后续每帧图像中目标的位置信息。理论上来说，目标跟踪能够进行实时的跟踪，但是在实际应用中，由于光照、遮挡、尺度变化等因素，很容易导致目标丢失。

通常，从构建目标模型的角度可将目标跟踪算法分为生成式方法和判别式方法。

生成式方法对目标进行特征提取以及模型构建，在下一帧中找到与模型相似的区域即为目标的预测区域。

判别式方法将跟踪问题归结于二分类问题，主要研究如何将目标和背景区分出来。

比较两种方法，判别式方法更能适应背景变化等复杂问题。判别式方法近年来不断被改进，在技术方面有了极大的突破，研究人员不断地从特征、尺度等方面改进算法，使得目标跟踪更加适应复杂多变的环境。

本文将从 3 个方面介绍目标跟踪的发展历程，分别为经典的目标跟踪算法、基于相关滤波的跟踪算法、基于深度学习的算法，最后对跟踪领域的发展趋势进行展望。

1 经典的目标跟踪算法

经典的目标跟踪算法主要包括均值漂移算法 [1]、卡尔曼滤波算法 [2] 和粒子滤波算法 [3]。基于均值漂移的跟踪算法简单有效，对旋转等问题有较好的鲁棒性。均值漂移算法在目标被遮挡时，对中心位置进行分块加权处理，有效地屏蔽了错误位置信息对跟踪结果的影响。均值漂移算法引入高斯核函数让低维不可分数据变成高维可分数据，简化了计算，但是针对尺度变化等问题不能得到较好的跟踪结果。

在基于概率推导的目标跟踪算法中，粒子滤波和卡尔曼滤波有效地解决了递归贝叶斯滤波概率在实际应用中很难获得最优解的问题。当贝叶斯滤波中存在线性时变函数，噪声为高斯形式时，卡尔曼滤波对数据进行最优化处理，得到目标最优状态估计；当噪声不符合高斯分布时，粒子滤波采用序列蒙特卡罗的滤波方法得到目标最优位置分析。卡尔曼滤波和粒子滤波这两种经典的运动模型能够准确地计算出视频中目标的预测区域，提高了目标跟踪的准确率。

2 基于相关滤波的跟踪算法

相关滤波跟踪算法实质上是根据第一帧目标样本训练滤波器，利用滤波器搜索目标所在的区域，根据响应值判断目标位置，并且在跟踪过程中不断更新滤波器。相比于传统的跟踪算法，基于相关滤波的跟踪算法利用快速傅里叶变换将滤波过程从时域转到频域进行计算，极大地提高了跟踪速度。

首次提出用于跟踪算法的相关滤波器是由 Bolme 等提出的最小均方误差滤波器（Minimum Output Sum of Squared Error，MOSSE）。MOSSE 算法提取灰度特征 [4]时，采用一种自适应训练策略，以最大响应值作为目标中心。后续的相关滤波跟踪算法在 MOSSE 算法的基础上从特征表达、尺度自适应、解决边界效应问题等方面进行一系列的改进。

2.1 特征改进

Henriques等提出核相关滤波算法（KernelCorrelation Filter，KCF）。KCF将 MOSSE中单通道的灰度特征拓展到了 31维的方向梯度直方图（HistogramofOrientedGradient， HOG）特征，提高了相关滤波跟踪算法的鲁棒性 [5]。KCF 算法引入核函数，利用循环矩阵特有的傅里叶空间对角化性质来简化计算，从而提升了算法的执行效率。颜色命名（Color Name，CN）算法是由 Danelljan等提出，算法主要特点有：将 RGB颜色空间转换成 CN颜色空间，降低光照、遮挡对颜色失真的影响程度 [6]；引入贝叶斯公式，区分前景与背景，大大降低了背景的干扰程度。Zhu等提出利用不同颜色的空间梯度来描述目标，将 RGB图像转变为颜色空间，随后收集各通道的HOG特征，丰富了算法对目标的特征表达能力[7]。在特征融合方面，Bertinetto等提出在响应阶段把 HOG特征和简单颜色直方图两种特征结合在一起，将滤波响应图和概率图以一定的比例结合在一起，根据得分图来定位目标，两种特征的结合使得该方法对光照、形变、运动模糊都具有很好的鲁棒性 [8]。

2.2 尺度自适应算法

为了解决尺度变化问题，Danelljan等提出的判断尺度空间跟踪器（DiscriminativeScaleSpaceTracker，DSST）在核相关滤波算法的基础上引入了尺度估计 [9]。DSST算法除了用于估计目标中心的平移滤波器外，还单独训练了一个一维的尺度滤波器，估计出目标在当前帧的位置中心后，在当前位置处提取多个不同大小的图像块，并使用尺度滤波器进行尺度估计，以最大响应对应的尺度作为最优尺度。DSST算法不仅对尺度的处理方式快速有效，而且尺度模块还可以迁移到任意算法中。

Li等提出一种具有特征集成的尺度自适应核相关滤波跟踪器 [10]，主要的特点有：将单一的特征扩展为多特征，即融合了灰度、CN和 HOG 特征，算法性能有很明显的提高；引入尺度池的方法，在比较阶段对候选区域的目标分别做 7个尺度的估计，与上一帧进行比较，最大响应值对应的尺度因子作为当前帧目标的尺度，实现尺度自适应。Huang等人提出将目标检测算法和 KCF算法结合在一起的算法 [11]。KCF 算法负责目标位置的初步估计，使用边缘框在目标附近搜索，进行搜索后会产生候选区域，对候选区域进行评估和检测选取最终目标位置。

Li等提出积分边界和中心相关滤波器跟踪算法（IntegratingBoundaryandCenterCorrelationFilters，IBCCF），该算法采用二维滤波器和一维边界滤波器相结合的框架来解决尺度的问题 [12]。主要思路是利用中心和 4 个边界的近正交性，将近正交性正则化加入到损失函数中进行求解。在进行参数更新时，先利用奇异值分解得到一个参数的近似解，然后更新其他参数，最终获得解决方案。IBCCF 算法有效地解决了尺度变化问题，但是计算冗余，极大地影响了跟踪速度。

2.3 处理边界效应问题

为了解决边界效应问题，较早的解决方法是由 Danelljan 等提出的空间约束相关滤波器（Spatially Regularized Correlation Filter，SRDCF）[13] 。相比于 KCF 等算法， SRDCF 算法加大了搜索区域，采用空域正则化对滤波器边界函数加大权重约束，并进行迭代优化，分类器能够更准确地进行追踪。Kiani 等提出有限边界的相关滤波器算法（Correlation Filters with Limited Boundaries，CFLB），该算法采用单通道灰度特征，速度较快，但是算法性能并不理想 [14]。在 CFLB 算法中使用了较大的检测图像和作用域较小的滤波器，同时循环移位样本左乘掩模矩阵，掩模矩阵是在原循环移位样本大图像块中裁剪出小图像块，使得总体循环移位样本减少，真实样本增多。

除此之外，随着深度学习技术的兴起，研究者们开始将深度特征与相关滤波算法进行结合，进一步提高了相关滤波跟踪算法的跟踪性能。

3 基于深度学习的跟踪算法

近年来，深度学习应用在目标跟踪领域取得了极大的成功。基于深度学习的跟踪算法主要分为两类：一类是结合深度特征和相关滤波设计跟踪算法；另一类是基于深度网络对目标进行端到端的跟踪。

3.1 深度特征结合相关滤波

Ma 等提出的 HCF 算法使用 VGGNet-19 作为特征提取器，对输入的图像提取多层卷积特征分别训练相关滤波器，在判别阶段将经过 3 个相关滤波得到的响应图进行加权，得到最终的响应图，并通过最大响应定位目标中心 [15]。VGGNet-19 不同层次输出的特征分别具有不同的特点。HCF 针对 VGGNet-19 的各层特征的特点，由粗粒度到细粒度，最终准确定位目标的中心点，以一种简洁的方式将卷积特征与相关滤波有效地结合了起来。

Danelljian 等在 SRDCF 的基础上加入深度特征，虽然提高了算法性能，但由于深度特征的提取速度较慢，导致算法的实时性较差 [16]。连续域卷积相关滤波跟踪算法（Continuous Convolution Operators for visual Tracking，C-COT）[17] 在连续空间域中学习滤波器模型，该算法允许多分辨率特征图的自然整合，对子像素能够进行更精确的定位。Danelljan 等对 C-COT 算法进行了改进，提出高效卷积操作（Efficient Convolution Operators，ECO）提高 C-COT 算法的跟踪速度 [18]。ECO 算法实现了传统的人工特征和卷积特征的融合，从特征维度、样本、模板更新等方面去除冗余操作。具体来说，ECO 算法采用了间隔多帧进行一次更新的策略，进一步提高了算法的效率；使用主成分分析方法，对所融合的卷积特征、HOG 特征及 CN 特征进行大幅的降维，极大地提高了算法的执行效率；采用高斯混合模型既可以保持训练集的有效性，又可以防止训练集的不断扩大。

3.2 端到端的深度网络跟踪

不同于深度特征结合相关滤波的算法，Nam 等提出一种新思路，训练了一个多域学习的网络结构（Multi-Domain Network，MDNet），端到端地解决跟踪问题 [19]。MDNet 算法中使用大量跟踪视频对网络进行预训练，以获得通用的目标表示。网络由共享层和多分支的特定域层组成，其中，域对应于独立的训练等级，并且每个分支负责一个二分类去识别每个域中的目标，算法针对每个域迭代的训练网络来获得共享层中的通用目标表示。当跟踪一个新的视频序列中的目标时，MDNet 算法更新特定域层，结合预训练的共享层组成新的端到端网络，回归目标框的位置。与现有跟踪基准中的最新方法相比，所提出的算法表现出优异的性能。

4 结语

视频运动目标跟踪算法发展至今，在特征表达、处理尺度变化、解决遮挡问题等方面都取得了长足的进步，显著提升了算法的跟踪精度和跟踪速度。目前，运动目标跟踪算法在目标跟踪领域存在的主要问题：

(1) 如何提升深度特征结合相关滤波算法的跟踪速度；

(2) 如何训练出更适合于目标跟踪问题的端到端模型。

可以预见的是，相关滤波和深度学习的结合仍会是领域内的研究热点，未来如何充分发挥其各自优势，从而进一步提高跟踪性能，值得期待。