邁向目標跟蹤大統一：一個模型解決所有主流跟蹤任務，8項基準出色

機器之心報道

機器之心編輯部

單目標跟蹤、多目標跟蹤、影片目標分割、多目標跟蹤與分割這四個任務，現在一個架構就搞定了。

目標跟蹤是計算機視覺中的一項基本任務，旨在建立幀間畫素級或例項級對應關係，並輸出 box 或掩碼（mask）形式的軌跡。根據不同應用場景，目標跟蹤主要分為四個獨立的子任務：單目標跟蹤（SOT）、多目標跟蹤（MOT）、影片目標分割（VOS）、多目標跟蹤與分割（MOTS）。

大多數目標跟蹤方法僅針對其中一個或部分子任務。這種碎片化情況帶來以下缺點：（1）跟蹤演算法過度專注於特定子任務，缺乏泛化能力。（2）獨立模型設計導致引數冗餘。

那麼，是否能用一個統一的模型來解決所有的主流跟蹤任務？

現在，來自大連理工大學、位元組跳動和香港大學的研究者提出了一種統一的方法，稱為 Unicorn，它可以使用相同的模型引數透過單個網路同時解決四個跟蹤問題（SOT、MOT、VOS、MOTS）。

Unicorn 的統一表現在在所有跟蹤任務中採用相同的輸入、主幹、嵌入和頭，首次實現了跟蹤網路架構和學習正規化的統一。Unicorn 在 8 個跟蹤資料集（包括 LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20 和 BDD100K MOTS）上的表現與特定任務方法的效能相當或更好。Unicorn 將成為邁向通用視覺模型的堅實一步。研究論文已被接收為 ECCV 2022 oral 。

論文地址：https：//arxiv。org/pdf/2207。07078。pdf

專案地址：https：//github。com/MasterBin-IIAU/Unicorn

先來看一下 Unicorn 的實現效果：

我們再來看一下論文的具體內容。

方法

Unicorn 由三個部分組成：統一輸入與主幹、統一嵌入、統一頭。三個元件分別負責獲得強大的視覺表徵、建立精確的對應關係和檢測不同的跟蹤目標。Unicorn 的框架如圖 2 所示。給定參考幀 I_ref、當前幀 I_cur 和參考目標，Unicorn 旨在透過統一的網路預測當前幀上跟蹤目標的狀態，以用於四個任務。

統一輸入和主幹

為了有效地定位多個潛在目標，Unicorn 將整個影象（參考幀和當前幀）而不是區域性搜尋區域作為輸入。在特徵提取過程中，參考幀和當前幀透過權重共享主幹獲得特徵金字塔表示（FPN）。為了在計算對應關係時保持重要細節並減少計算負擔，本文選擇 stride 為 16 的特徵圖作為之後嵌入模組的輸入。參考幀和當前幀的相應特徵分別稱為 F_ref 和 F_cur。

統一嵌入

目標跟蹤的核心任務是在影片中的幀之間建立準確的對應關係。對於 SOT 和 VOS，逐畫素對應將使用者提供的目標從參考幀（通常是 1^th 幀）傳播到 t^th 幀，為最終的框或掩碼預測提供強大的先驗資訊。此外，對於 MOT 和 MOTS，例項級對應有助於將 t^th 幀上檢測到的例項與參考幀（通常是 t-1^th 幀）上的現有軌跡相關聯。

統一頭

為了實現目標跟蹤的大統一，另一個重要且具有挑戰性的問題是為四個跟蹤任務設計一個統一頭。具體而言，MOT 檢測特定類別的目標，SOT 需要檢測參考幀中給定的任何目標。為了彌補這一差距，Unicorn 向原始檢測器頭引入了一個額外的輸入（稱為目標先驗）。無需任何進一步修改，Unicorn 就可以透過這個統一的頭輕鬆檢測四項任務所需的各種目標。

訓練和推理

訓練：整個訓練過程分為 SOT-MOT 聯合訓練和 VOS-MOTS 聯合訓練兩個階段。在第一階段，使用來自 SOT&MOT 的資料對網路進行端到端最佳化，包括對應損失和檢測損失。在第二階段，使用來自 VOS&MOTS 的資料在其他引數固定的情況下新增和最佳化掩碼分支，並使用掩碼損失進行最佳化。

推理：在測試階段，對於 SOT&VOS，參考目標圖在第一幀生成一次，並在後續幀中保持固定。Unicorn 直接挑選置信度得分最高的框或掩碼作為最終的跟蹤結果。此外，Unicorn 只需要執行一次主幹和對應，是執行輕量級頭而不是執行整個網路 N 次，本文方法效率更高。對於 MOT&MOTS，Unicorn 檢測給定類別的所有目標並同時輸出相應的例項嵌入。之後的關聯分別基於 BDD100K 和 MOT17 的嵌入和執行模型執行。

實驗

LaSOT：LaSOT 是一個大規模的長期跟蹤基準，測試集中包含 280 個影片，平均長度為 2448 幀。表 1 顯示 Unicorn 實現了新的 SOTA 成功率和精度，分別為 68。5% 和 74。1%。值得注意的是，Unicorn 以更簡單的網路架構和跟蹤策略，大大超過了之前最好的基於全域性檢測的跟蹤器 Siam R-CNN（68。5% vs 64。8%）。

TrackingNet：TrackingNet 是一個大規模的短期跟蹤基準，測試集中有 511 個影片。如表 1 所示，Unicorn 以 83。0% 的成功率和 82。2% 的精度超越了所有以前的方法。

MOT17 以行人跟蹤為重點，訓練集有 7 個序列，測試集也有 7 個序列。從表 2 可以看出，Unicorn 實現了最好的 MOTA 和 IDF1，分別比之前的 SOTA 方法高出 0。5% 和 0。4%。

BDD100K 是一個大規模的視覺駕駛場景資料集，需要跟蹤 8 類例項。如表 3 所示，Unicorn 取得了最佳效能，在驗證集上大大超過了之前的 SOTA 方法 QDTrack。具體來說，mMOTA 和 mIDF1 的提升分別高達 4。6% 和 3。2%。

DAVIS-16 在驗證集中包含 20 個影片，每個序列中只有一個跟蹤目標。圖 4 表明 Unicorn 在使用邊框初始化的方法中取得了最好的結果，甚至超過了使用掩碼初始化的 RANet 和 FRTM。

MOTS20 Challenge 在訓練集中有 4 個序列，在測試集中有 4 個序列。如表 5 所示，Unicorn 實現了 SOAT 效能，在 sMOTSA 上以 3。3% 的幅度超過了第二好的方法 PoinTrackV2。

BDD100K MOTS Challenge 在驗證集中包含 37 個序列。圖 6 表明 Unicorn 大大優於先前最佳方法 PCAN（即 mMOTSA +2。2%，mAP +5。5%）。同時，Unicorn 沒有像 PCAN 那樣使用時空儲存器或原型網路等複雜設計，引入了更簡單的 pipeline。

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com