深度學習的目標跟蹤演算法綜述

深度學習的目標跟蹤演算法綜述

基本資訊

作者:李璽, 查宇飛, 張天柱, 崔振, 左旺孟, 侯志強, 盧湖川, 王菡子。

關鍵詞:視覺目標跟蹤; 深度神經網路; 相關濾波器; 深度孿生網路; 強化學習; 生成對抗網路

論文連結:http://www。cjig。cn/html/jig/2019/12/weixin/20191201。htm

論文看點

闡述了目標跟蹤的基本研究框架,從深度判別模型、深度生成式模型等方面介紹了適用於目標跟蹤的深度學習方法;

深入分析了網路結構、功能劃分和網路訓練等不同類別的深度目標跟蹤方法;

簡要闡述了適用於深度學習目標跟蹤的影片資料庫和評測方法;

介紹了目標跟蹤的最新具體應用情況;

分析了深度學習方法在目標跟蹤中存在的訓練資料不足、實時跟蹤和長程跟蹤等問題;

對深度學習的目標跟蹤方法的未來發展進行展望。

目標跟蹤

LK Tracker(1981):假定目標灰度在短時間內保持不變,同時目標鄰域內的速度向量場變化緩慢

KLT(1994):KLT(Kanade Lucas Tomasi tracking method)透過匹配角點實現對目標的跟蹤

Condensation(1998):採用原始的外觀作為主要特徵來描述目標

Mean Shift(2002):均值漂移成為當時常用的視覺跟蹤系統的搜尋策略

Feature Selection(2003):利用線性判別分析自適應地選擇對當前背景和目標最具鑑別性的顏色特徵,從而分離出目標

IVT(2008):線上更新特徵空間的基,直接將以前檢測到的目標作為樣本線上學習而無需大量的標註樣本

Boosting(2008):結合Haar特徵和線上Boosting演算法對目標進行跟蹤

TLD(2010):TLD(tracking learning detection)利用線上的Ferns檢測目標,同時利用線上隨機森林演算法跟蹤目標

L1 Tracker(2011):L1跟蹤器把跟蹤看做一個稀疏近似問題,透過求解L1範數最小化問題,實現對目標的跟蹤

AlexNet(2012):以AlexNet網路為代表的深度學習方法在影象識別等領域獲得了巨大成功,迅速被引入到目標跟蹤領域中

CSK(2012):CSK(circulant structure of tracking by detection with kernels)演算法,也稱為核相關濾波演算法,採用迴圈移位進行密集取樣,並透過核函式將低維線性空間對映到高維空間,提高了相關濾波器的魯棒性

DLT(2013):直接利用ImageNet資料上的預訓練模型提取深度特徵

DSST(2014):DSST(accurate scale estimation for robustvisual tracking)則將目標跟蹤看成位置變化和尺度變化兩個獨立問題,首先訓練位置平移相關濾波器以檢測目標中心平移,然後訓練尺度相關濾波器來檢測目標的尺度變化

MDNet(2015):MDNet跟蹤演算法設計一個輕量級的小型網路學習卷積特徵表示目標,利用SoftMax對取樣樣本分類,其效能表現非常優異,但速度只有1幀/s

SRDCF(2015):SRDCF(learning spatially regularized correlation filters for visual tracking)採用了大的檢測區域,在濾波器係數上加入權重約束,越靠近邊緣權重越大,越靠近中心權重越小,從而使得濾波器係數主要集中在中心區域,有效地緩解了邊界效應

SiamFC(2016):SiamFC演算法利用孿生網路(Siamese network),在影片序列ILSVRC2015離線訓練一個相似性度量函式,在跟蹤過程中利用該模型,選擇與模板最相似的候選作為跟蹤結果

C-COT(2016):C-COT(continuous convolution operators for visual tracking)將淺層表觀資訊和深層語義資訊結合起來,根據不同空間解析度的響應,在頻域進行插值得到連續空間解析度的響應圖,透過迭代求解最佳位置和尺度

Struck(2016):Struck利用結構化的支援向量機(SVM)直接輸出跟蹤結果,避免中間分類環節,取得了優異的效能

CFNet(2017):CFNet將相關濾波改寫成可微分的神經網路層,將特徵提取網路整合到一起以實現端到端最佳化,訓練與相關濾波器相匹配的卷積特徵

ECO(2017):為了解決C-COT速度慢的問題,高效卷積運算元ECO(efficient convolution operators)透過卷積因式分解操作、樣本分組和更新策略對其改進,在不影響演算法精確度的同時,演算法速度提高了一個數量級

BACF(2017)BACF(background-aware correlation filters)透過補零操作獲取更大搜索域的樣本,進行迴圈取樣時保證了真實的負樣本

SiamRPN(2018):SiamRPN將目標跟蹤構造成單樣本檢測任務,其網路結構分為特徵提取Siamese子網路和候選目標區域生成RPN子網路。RPN子網路又包含分類和迴歸兩條分支。SiamRPN可以利用ILSVRC和YouTube-BB大量的標註資料進行離線端到端訓練,從而取得了較好的效能和跟蹤速度

UPDT(2018):UPDT(unveiling the power of deep tracking)區別對待深度特徵和淺層特徵,利用資料增強和差異響應函式提高魯棒性和準確性,同時利用提出的質量評估方法自適應融合響應圖,得到最優的目標跟蹤結果

SiamMask(2019):SiamMask是SiamRPN的後續之作。相比SiamRPN,SiamMask的網路結構增加了預測目標分割掩碼的分支,從而給出了視覺目標跟蹤(VOT)和影片目標分割(VOS)統一框架。SiamMask很好地實現了目標跟蹤和目標分割任務之間的互相補充,不僅可以得到目標更精準的包圍框,還可以得到目標的畫素級標註

DiMP(2019):DiMP針對Siamese跟蹤系列對於背景和目標區分性不足的問題,設計了一種魯棒的判別能力較強的Loss,並透過端到端的訓練學習Loss重點的關鍵引數。同時結合提出的權重預測模組對網路進行良好的初始化,最終DiMP在速度和準確性上都有所提高

UpdateNet(2019):UpdateNet旨在解決Siamese跟蹤系列一直存在的模板更新難題,提出了用學習更新模板的方式來替代手工更新模板的方式。UpdateNet使用一個卷積神經網路根據初始幀模板、當前幀模板以及上次計算出的模板直接生成下一幀可用的最優模板,透過學習這樣一個網路函式來實現模板更新功能

未來展望

現階段,基於深度學習的目標跟蹤方法仍主要停留在基於ImageNet預訓練的特徵應用層面。隨著TrackingNet等大規模資料集的出現,使得基於海量跟蹤影片端對端地學習深度特徵成為可能,有望進一步推進深度學習在視覺目標跟蹤中取得突破性進展。相對而言,標註長程跟蹤影片和構建大規模資料集的難度更大,如何根據長程跟蹤任務的特點及其與短期跟蹤任務的聯絡,結合遷移學習和深度學習構建合適的長期目標跟蹤模型,也是未來視覺目標跟蹤研究值得關注的一個重要方向。