基于相关滤波的视觉目标跟踪算法具有速度的优势和与深度特征的结合带来的高精度,因而得到广泛应用。2014年,Henriques等提出了核相关滤波器(kernelized correlation filter, KCF)[1],在具有循环结构的跟踪器(circulant structure of tracking with kernels, CSK)[2]的基础上加入多通道的HOG特征,极大提升了目标定位精度,但由于无尺度估计,在目标大小发生变化时,导致模型漂移。Li等提出了具有特征积分的尺度自适应核相关滤波器跟踪器(scale adaptive multiple feature, SAMF)[3],平移滤波器在多尺度缩放的图像块上进行目标检测,取响应最大的平移位置和尺度,但出现遮挡时会跟踪失败。2016年,Danelljan等提出了基于卷积连续卷积的相关滤波跟踪(continuous convolution operators, C-COT)[4],将置信分数在一定范围内转换为连续函数,对目标位置求解会更加精确,能够解决短时遮挡问题,但运行速度无法达到实时;2018年,Li等提出了基于空间-时间正则化项相关滤波跟踪(spatial-temporal regularized correlation filters, STRCF)[5],在VOT2018比赛的短时跟踪中排名第5。该算法在离散模型中加入时间-空间正则化项,在目标部分遮挡时跟踪效果较好,但目标完全遮挡并没有得到有效解决,且在目标快速旋转后会出现跟踪失败的问题。为解决以STRCF为代表的相关滤波算法在目标被遮挡及快速旋转时目标定位不准确的问题,本文提出了一种连续卷积与时空正则项的相关滤波目标跟踪算法,在构建模型时加入了时间-空间正则化项,对目标区域提取的特征进行插值,以此将响应函数转化为连续函数进行求解,采用快速的尺度变换算法,提高目标定位精度,保证算法实时性。
1 时空正则化项的相关滤波跟踪算法原理在当前帧图像中提取目标大小为S×M的特征图, 记为xd[n], 其中n∈{0, …, Nd}, Nd为在第d个特征通道上提取的特征点数, d∈{0, …, D}, D为特征通道的总数目。y为具有高斯函数形状的标签函数, w为空间正则项, ftd为第d个特征通道对应的滤波器系数, ft={ft1, …, ftD}为当前帧的滤波器系数, t为当前帧帧数, ft-1为上一帧的滤波器系数, 则相关滤波系数ft可由(1)式求解[5]
![]() |
(1) |
式中, μ为正则化项系数, ‖ft-ft-1‖2为时间正则化项, “*”表示卷积运算。
通过交替方向乘子法(the alternating direction method of multipliers, ADMM)求解(1)式[5], 设f=g, γ为步长参数, 通过拉格朗日引入参数h, 将(1)式分解为下列3个式子
![]() |
(2) |
式中,i表示求解迭代次数。滤波器系数可按下式求解
![]() |
(3) |
式中,
![]() |
(4) |
(2) 式中的g可按下式求解
![]() |
(5) |
式中,W为DSM×DSM的分块对角矩阵, 其中对角线矩阵为w。以此迭代求解滤波器系数ft。
以上一帧目标位置为中心提取样本xtd [n], 以此求解响应函数, 响应函数如(6)式所示
![]() |
(6) |
响应函数中最大值位置即本帧目标位置。
2 连续卷积算子构建原理假设样本为x[n], 为了将响应函数转换至连续域求解, 因此对提取的样本x[n]进行插值, 将响应函数在区间[0, T)⊂R上转换为连续函数, 其中, T为在图片中目标区域的大小。利用插值函数bd在特征通道d上定义插值算子Jd
![]() |
(7) |
插值算子Jd{xd}(t)可看作是插值函数bd移位叠加而获得的, 样本xd[n]可看作每个移位后插值函数bd的权重。
因此, 可将响应函数s(t)=Sf{x}(t)定义在连续域[0, T)⊂R上。与离散方法相同, 在响应函数中求解最大值, 认为最大值位置为当前帧目标所在位置。响应函数定义如下
![]() |
(8) |
式中, ftd为相应的d通道的连续滤波器系数。
3 连续卷积与时空正则项的跟踪算法基于STRCF的跟踪算法, 本文提出了基于连续卷积与时空正则项的跟踪算法。首先将提取的方向梯度直方图(histogram of oriented gradient, HOG)、颜色描述特征(color names, CN)以及灰度特征按第三维度进行融合, 利用连续卷积算子对特征进行插值;
然后, 通过加入时间-空间正则项构建连续模型, 以此求解滤波器系数; 其次, 根据滤波器系数求解响应函数最大值对应的位置, 即目标位置; 最后, 构建多尺度特征, 根据尺度滤波计算当前帧图像中目标最佳尺度估计。算法流程如图 1所示, 其中虚线框框选部分为本文主要研究内容。
![]() |
图 1 本文算法流程图 |
本文在目标区域提取31维HOG特征、10维CN以及1维的灰度特征, 共42维特征。在42维特征通道上利用(7)式进行插值, 构建插值算子。
在目标模型构建时与离散方法的(6)式不同, 本文在模型构建时使用的ftd是连续滤波器系数, 求解的响应函数已从离散函数变为了连续函数, 因此需构造新的目标模型求解滤波器系数, 如下所示
![]() |
(9) |
将(9)式进行快速傅里叶变化(FFT), 根据Parseval定理,
![]() |
(10) |
式中, ^符号表示该变量的傅里叶变化。式中
![]() |
(11) |
在此, 本文利用复数函数
![]() |
(12) |
式中,k∈Z。
为求解的最小值, 对(9)式求导, 结果如下所示
![]() |
(13) |
式中, B是由D个特征通道的X
STRCF中选择ADMM对离散模型进行有效求解, 将(1)式划分为3个子问题, 每一个子问题都有封闭解, 但本文模型为连续模型, 使用ADMM无法进行有效的求解, 因此采用共轭梯度法(conjugate gradient method, CG)对(11)式进行求解, 2种求解方法对比结果如图 2所示。
![]() |
图 2 求解对比图 |
从图 2可以看出, CG算法能够对目标模型进行有效更新, 实现目标的准确跟踪, 而采用ADMM更新模型时无法跟踪目标, 原因是在目标位置求解时会陷入局部最小值, 无法求解到准确结果。
3.2 尺度更新STRCF中采用SAMF方法对尺度进行更新, 将目标区域进行缩放, 在目标定位阶段将5个尺度不同样本通过牛顿法求解, 同时求解位置与尺度最优解, 但运算速率较慢, 而未能够达到实时性要求。因此本文选择用快速判别尺度空间跟踪(fast discriminative scale space tracking, fDSST)的算法单独训练一个尺度滤波器进行尺度更新。
为减少计算量, 主要工作如下:
1) 子网格插值。由于使用的是HOG特征, 对图像进行了下采样, 提取的特征分辨率会低于原图像分辨率, 因此采用三角插值的方式, 在响应图中采样插值, 将尺度数量由17个插值上升至33个, 以获取更为准确的尺度估计。
2) 降维。尺度滤波与位置滤波的方式相同, 但为了保持更新速率, 选择最小输出误差平方和滤波器(minimum output sum of squared error, MO-OSE)[6]的方式进行更新, 更新方式如下
![]() |
(14) |
式中, η为学习率参数, A, B为中间变量, 无实际含义, ftd表示尺度滤波器系数, 与目标位置求解时所使用的滤波器系数不同, 其余参数与(9)式相同。响应函数的求解如(15)式所示
![]() |
(15) |
通过不同尺度的样本计算响应值, 响应值最大的对应尺度即为当前目标的最佳尺度估计。
尺度滤波的计算量主要集中在对特征进行FFT, 设提取的目标模板为ut=(1-η)ut-1+ηft, 其中, ft=(ft1, …, ftD), 为了减少FFT的计算量, 选用PCA对特征维度进行降维, 构建投影矩阵Pt将特征投影至低维子空间中, 矩阵Pt可由(16)式求解
![]() |
(16) |
则降维后的更新公式如下所示
![]() |
(17) |
式中, “~”表示降维后的矩阵。
响应函数计算如下所示
![]() |
(18) |
3) 尺度滤波的压缩。由于尺度维度较高, 选用QR分解方式逐步分解矩阵, 可降低计算量。
4 实验结果本文算法在Window10操作系统、Intel(R) Core(TM) CPU i7-7700HQ 2.8 GHz 8G内存电脑平台上采用Matlab 2018a软件进行仿真实验。选取5种算法进行对比,分别为:STRCF[5], CT[7], DFT[8], KCF[1], SAMF[3]。本文选择从定性和定量2个角度对不同算法进行对比。
4.1 定性分析本文在OTB-2015视频库中选取了表 1所示的4个典型视频进行测试, 其跟踪结果如图 3所示。
视频序列 | 视频描述 | 帧数 |
carscale | 遮挡、尺寸变化、形变、快速移动 | 252 |
basketball | 快速旋转、形变、遮挡、光照变化 | 725 |
football | 快速旋转、遮挡、背景干扰 | 362 |
girl2 | 尺寸变化、遮挡、形变、模糊运动 | 1 500 |
![]() |
图 3 测试视频跟踪示意图 |
图 3a)展示了basketball序列跟踪结果, 可以看出在目标发生部分遮挡时, SAMF和KCF算法目标定位不够准确, DFT在后续跟踪中跟踪失败, STRCF在目标出现快速转身时定位和尺度估计不准确, 仅有本算法能够全程准确跟踪目标, 本算法通过时间正则项保持模型尽可能小地变化, 能够在目标部分遮挡时准确跟踪目标, 通过快速多尺度变换能够更加适应目标尺度的变换。
图 3b)展示了carscale序列跟踪结果, 可以看到在目标发生遮挡时, 除CT与DFT外, 其余算法均能跟踪目标, 但本文算法定位精度更高, 采用fDSST尺度估计更为准确。
图 3c)展示了football序列跟踪结果, 在目标发生快速旋转的过程中, 所有算法均能成功跟踪目标, 但本文算法加入了时空正则项, 保持了模型与上一帧尽可能相似, 因此跟踪结果更为准确; 在目标被相似物体遮挡时, 仅本文算法能够跟踪成功, 本文算法加入连续卷积算子, 将响应函数转换至连续域, 在目标定位时结果更为精确。
图 3d)展示了girl2序列跟踪结果, girl2具有尺寸变化、完全遮挡、形变、模糊运动等特点, 在出现完全遮挡后, 仅有本算法能够在目标重新出现后立刻重新跟踪目标, CT与STRCF在目标移动到跟踪失败的边界框时能够重新跟踪。本文算法通过时间正则项与连续卷积的作用, 在目标发生较长遮挡时本文算法能够在目标出现后能够及时跟踪目标。
综上所述, 可以看出本文算法能够在尺度变换、形变、快速移动、背景干扰、模糊运动、遮挡等复杂情况下实现目标跟踪。
4.2 定量分析本文从成功率、精确度及算法复杂度3个方面定量对不同算法进行对比。
1) 成功率。跟踪成功率[9]是指在所有的视频序列中重叠率大于特定阈值的帧数比例, 其中重叠率
![]() |
(19) |
式中, Ts表示跟踪结果的重叠率大于重叠阈值的帧数;T为视频总帧数。
图 4为成功率与不同阈值的关系图, 表示在不同重叠阈值下算法的跟踪成功率占总数的比例, 曲线越陡峭表明成功率越高。从图中可以看出, 本文所提算法在4种测试序列中具有最高的成功率, STRCF在basketball序列中跟踪失误, SAMF在3个序列中目标发生遮挡时, 跟踪成功率低于STRCF。
![]() |
图 4 各算法跟踪成功率比较图 |
为做进一步对比, 本文测试了各算法在不同序列的平均重叠率, 如表 2所示。可以看出本文算法在平均重叠率的平均值较第2名的STRCF提高了18.25%。由于算法利用了fDSST的尺度更新方法, 在33个维度上进行尺度更新更为准确, 因此成功率较其他算法而言有所提升。
算法 | 平均重叠率 | |||
basketball | carscale | football | girl2 | |
CT | 0.19 | 0.35 | 0.06 | 0.25 |
DFT | 0.61 | 0.41 | 0.66 | 0.17 |
KCF | 0.68 | 0.42 | 0.55 | 0.17 |
SAMF | 0.74 | 0.58 | 0.60 | 0.20 |
STRCF | 0.36 | 0.71 | 0.70 | 0.48 |
本文 | 0.78 | 0.75 | 0.73 | 0.75 |
2) 精确度。精确度[9]表示跟踪结果与跟踪误差间的关系。跟踪误差是指跟踪结果中心位置与实际位置之间的位置误差。具体表示为
![]() |
(20) |
式中, O表示算法得到的结果中心位置, Ot为实际中心位置。精确度计算公式为
![]() |
(21) |
式中, Tp表示跟踪误差小于跟踪阈值的帧数, T为视频总帧数。
图 5为精确度与中心位置误差的关系图, 曲线越陡峭表示精确度越高。从图中可以看出, 本文所提算法在4种测试序列中具有最高的精确度, STRCF仅在football序列中具有与本文所提算法相当的精确度, 其余序列中表现均略差, 且在girl2与football序列中均存在跟踪失败的情况。
![]() |
图 5 各算法跟踪精确度比较图 |
本文测试了各算法在不同序列下中心位置跟踪误差, 如表 3所示。可以看出本文算法在中心位置误差平均值较第二名的STRCF降低20.78个像素。本算法加入的时间-空间正则项使得模型与上一帧模型尽量保持一致, 增加了算法的鲁棒性。因此, 本文算法具有更好的跟踪精度。
算法 | 中心位置误差/像素 | |||
basketball | carscale | football | girl2 | |
CT | 91.24 | 75.83 | 232.83 | 112.45 |
DFT | 18.03 | 75.75 | 9.29 | 198.74 |
KCF | 7.89 | 16.14 | 14.60 | 238.81 |
SAMF | 6.39 | 8.41 | 13.37 | 205.70 |
STRCF | 14.06 | 8.65 | 6.08 | 77.86 |
本文 | 3.96 | 7.18 | 4.22 | 8.17 |
3) 算法复杂度。本文算法的复杂度主要体现在多特征连续卷积和多尺度相关滤波带来的计算复杂度。表 4直观比较了6种算法在4个视频上的运算速率。
算法 | 速度/(f·s -1) | |||
basketball | carscale | football | girl2 | |
CT | 84.39 | 108.76 | 32.10 | 87.09 |
DFT | 13.20 | 22.56 | 14.43 | 11.18 |
KCF | 203.23 | 406.79 | 86.50 | 51.24 |
SAMF | 11.99 | 19.36 | 19.07 | 6.67 |
STRCF | 11.01 | 13.52 | 18.06 | 10.19 |
本文 | 19.78 | 23.62 | 27.28 | 19.43 |
对比于STRCF, 本文算法运算速率平均提升了9.3 f/s, 相比于CT和KCF虽然速度较慢, 但能够达到实时标准。
5 结论为提高STRCF算法的跟踪的精度及算法效率,本文提出了连续卷积与时空正则项的相关滤波目标跟踪算法。本文在构造模型时加入了空间-时间正则项,保持本帧模型与上一帧模型尽可能相似,增加了跟踪的鲁棒性;在提取的特征中插值,在响应函数求解时定位更加精确;利用插值增加尺度数量,采用PCA与QR分解将特征维度及特征维度降维,加快了运算速率。实验结果表明,本文算法能够在目标部分遮挡时定位精度有所提高,在目标完全遮挡重新出现时能够再次跟踪到目标。
[1] | HENRIQUES J F, CASEIRO R, MARITINS P, et al. High-Speed Tracking with Kernelized Correlation Filters[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596. DOI:10.1109/TPAMI.2014.2345390 |
[2] | Henriques J F, Caseiro R, Martins P, et al. Exploiting the Circulant Structure of Tracking-by-Detection with Kernels[C]//European Conference on Computer Vision, Berlin, Germany, 2012: 702-215 |
[3] | LI Y, ZHU J. A Scale Adaptive Kernel Correlation Filter Tracker with Feature Integration[C]//European Conference on Vision Computer, Zurich, Switzerland, 2014: 254-265 |
[4] | DANELLJAN M, ROBINSON A, KHAN F, et al. Beyond Correlation Filters: Learning Continuous Convolution Operators for Visual Tracking[C]//European Conference on Computer Vision, Amsterdam, the Netherlands, 2016: 472-488 |
[5] | LI Feng, TIAN Cheng, ZUO Wangmeng, et al. Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking[C]//IEEE Conference on Computer Vision and Pattern Recogintion, Salt Lake City, American, 2018: 4904-4913 |
[6] | BOLME D, BEVERIDGE J, DRAPER B, et al. Visual Object Tracking Using Adaptive Correlation Filters[C]//IEEE Conference on Computer Vision and Pattern Recognition, San Francisco, 2010: 2544-2550 |
[7] | ZHANG K, ZHANG L, YANG M H. Real-Time Compressive Tracking[C]//European Conference on Computer Vision, Berlin, Heidelberg, 2012: 864-877 |
[8] | LANURA Sevillalara, ERIK Learnedmiller. Distribution Fields for Tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition, Providence, RI, 1910-1917 |
[9] | BOUGUET J Y. Pyramidal of the Affine Lucas Kanade Feature Tracker Description of the Algorithm[J]. Intel Corporation Microprocessor Research Labs, 2000, 22(2): 363-381. |