邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

機器之心報道

機器之心編輯部

單目標跟蹤、多目標跟蹤、影片目標分割、多目標跟蹤與分割這四個任務,現在一個架構就搞定了。

目標跟蹤是計算機視覺中的一項基本任務,旨在建立幀間畫素級或例項級對應關係,並輸出 box 或掩碼(mask)形式的軌跡。根據不同應用場景,目標跟蹤主要分為四個獨立的子任務:單目標跟蹤(SOT)、多目標跟蹤(MOT)、影片目標分割 (VOS) 、多目標跟蹤與分割 (MOTS) 。

大多數目標跟蹤方法僅針對其中一個或部分子任務。這種碎片化情況帶來以下缺點:(1)跟蹤演算法過度專注於特定子任務,缺乏泛化能力。(2) 獨立模型設計導致引數冗餘。

那麼,是否能用一個統一的模型來解決所有的主流跟蹤任務?

現在,來自大連理工大學、位元組跳動和香港大學的研究者提出了一種統一的方法,稱為 Unicorn,它可以使用相同的模型引數透過單個網路同時解決四個跟蹤問題(SOT、MOT、VOS、MOTS)。

Unicorn 的統一表現在在所有跟蹤任務中採用相同的輸入、主幹、嵌入和頭,首次實現了跟蹤網路架構和學習正規化的統一。Unicorn 在 8 個跟蹤資料集(包括 LaSOT、TrackingNet、MOT17、BDD100K、DAVIS16-17、MOTS20 和 BDD100K MOTS)上的表現與特定任務方法的效能相當或更好。Unicorn 將成為邁向通用視覺模型的堅實一步。研究論文已被接收為 ECCV 2022 oral 。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

論文地址:https://arxiv。org/pdf/2207。07078。pdf

專案地址:https://github。com/MasterBin-IIAU/Unicorn

先來看一下 Unicorn 的實現效果:

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

我們再來看一下論文的具體內容。

方法

Unicorn 由三個部分組成:統一輸入與主幹、統一嵌入、統一頭。三個元件分別負責獲得強大的視覺表徵、建立精確的對應關係和檢測不同的跟蹤目標。Unicorn 的框架如圖 2 所示。給定參考幀 I_ref、當前幀 I_cur 和參考目標,Unicorn 旨在透過統一的網路預測當前幀上跟蹤目標的狀態,以用於四個任務。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

統一輸入和主幹

為了有效地定位多個潛在目標,Unicorn 將整個影象(參考幀和當前幀)而不是區域性搜尋區域作為輸入。在特徵提取過程中,參考幀和當前幀透過權重共享主幹獲得特徵金字塔表示(FPN)。為了在計算對應關係時保持重要細節並減少計算負擔,本文選擇 stride 為 16 的特徵圖作為之後嵌入模組的輸入。參考幀和當前幀的相應特徵分別稱為 F_ref 和 F_cur。

統一嵌入

目標跟蹤的核心任務是在影片中的幀之間建立準確的對應關係。對於 SOT 和 VOS,逐畫素對應將使用者提供的目標從參考幀(通常是 1^th 幀)傳播到 t^th 幀,為最終的框或掩碼預測提供強大的先驗資訊。此外,對於 MOT 和 MOTS,例項級對應有助於將 t^th 幀上檢測到的例項與參考幀(通常是 t-1^th 幀)上的現有軌跡相關聯。

統一頭

為了實現目標跟蹤的大統一,另一個重要且具有挑戰性的問題是為四個跟蹤任務設計一個統一頭。具體而言,MOT 檢測特定類別的目標,SOT 需要檢測參考幀中給定的任何目標。為了彌補這一差距,Unicorn 向原始檢測器頭引入了一個額外的輸入(稱為目標先驗)。無需任何進一步修改,Unicorn 就可以透過這個統一的頭輕鬆檢測四項任務所需的各種目標。

訓練和推理

訓練:整個訓練過程分為 SOT-MOT 聯合訓練和 VOS-MOTS 聯合訓練兩個階段。在第一階段,使用來自 SOT&MOT 的資料對網路進行端到端最佳化,包括對應損失和檢測損失。在第二階段,使用來自 VOS&MOTS 的資料在其他引數固定的情況下新增和最佳化掩碼分支,並使用掩碼損失進行最佳化。

推理:在測試階段,對於 SOT&VOS,參考目標圖在第一幀生成一次,並在後續幀中保持固定。Unicorn 直接挑選置信度得分最高的框或掩碼作為最終的跟蹤結果。此外,Unicorn 只需要執行一次主幹和對應,是執行輕量級頭而不是執行整個網路 N 次,本文方法效率更高。對於 MOT&MOTS,Unicorn 檢測給定類別的所有目標並同時輸出相應的例項嵌入。之後的關聯分別基於 BDD100K 和 MOT17 的嵌入和執行模型執行。

實驗

LaSOT:LaSOT 是一個大規模的長期跟蹤基準,測試集中包含 280 個影片,平均長度為 2448 幀。表 1 顯示 Unicorn 實現了新的 SOTA 成功率和精度,分別為 68。5% 和 74。1%。值得注意的是,Unicorn 以更簡單的網路架構和跟蹤策略,大大超過了之前最好的基於全域性檢測的跟蹤器 Siam R-CNN(68。5% vs 64。8%)。

TrackingNet:TrackingNet 是一個大規模的短期跟蹤基準,測試集中有 511 個影片。如表 1 所示,Unicorn 以 83。0% 的成功率和 82。2% 的精度超越了所有以前的方法。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

MOT17 以行人跟蹤為重點,訓練集有 7 個序列,測試集也有 7 個序列。從表 2 可以看出,Unicorn 實現了最好的 MOTA 和 IDF1,分別比之前的 SOTA 方法高出 0。5% 和 0。4%。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

BDD100K 是一個大規模的視覺駕駛場景資料集,需要跟蹤 8 類例項。如表 3 所示,Unicorn 取得了最佳效能,在驗證集上大大超過了之前的 SOTA 方法 QDTrack。具體來說,mMOTA 和 mIDF1 的提升分別高達 4。6% 和 3。2%。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

DAVIS-16 在驗證集中包含 20 個影片,每個序列中只有一個跟蹤目標。圖 4 表明 Unicorn 在使用邊框初始化的方法中取得了最好的結果,甚至超過了使用掩碼初始化的 RANet 和 FRTM。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

MOTS20 Challenge 在訓練集中有 4 個序列,在測試集中有 4 個序列。如表 5 所示,Unicorn 實現了 SOAT 效能,在 sMOTSA 上以 3。3% 的幅度超過了第二好的方法 PoinTrackV2。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

BDD100K MOTS Challenge 在驗證集中包含 37 個序列。圖 6 表明 Unicorn 大大優於先前最佳方法 PCAN(即 mMOTSA +2。2%,mAP +5。5%)。同時,Unicorn 沒有像 PCAN 那樣使用時空儲存器或原型網路等複雜設計,引入了更簡單的 pipeline。

邁向目標跟蹤大統一:一個模型解決所有主流跟蹤任務,8項基準出色

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin。com