【泡泡一分鐘】基於多頭注意力機制的車輛運動預測方法

每天一分鐘，帶你讀遍機器人頂級會議文章

標題：Multi-Head Attention for Multi-Modal Joint Vehicle Motion Forecasting

作者：Jean Mercat， Thomas Gilles， Nicole El Zoghby， Guillaume Sandou， Dominique Beauvois and Guillermo Pita Gil

編譯：靳小鑫

稽核：柴毅，王靖淇

這是泡泡一分鐘推送的第 819 篇文章，歡迎個人轉發朋友圈；其他機構或自媒體如需轉載，後臺留言申請授權

摘要

本文提出了一種基於多頭注意力機制的新型車輛運動預測方法。它為道路場景中的所有車輛生成聯合預測，作為其位置的多模態機率密度函式序列。它的體系結構使用多頭注意力機制來解釋所有車輛之間的互動，並使用長-短期記憶層進行編碼和預測。它僅依賴於車輛位置軌跡，不需要機動定義，並且不將場景光柵化為空間網格。這使得它比類似模型更通用，同時結合了許多預測功能，即具有相互作用、不確定性估計和多模態的聯合預測。在相同的資料集上，得到的預測可能性優於最先進的模型。

圖 1。本文的預測模型的塊表示。輸入是每輛車過去觀測的序列。輸出為高斯混合預測。

圖 2。一個注意頭計算的示意圖。Blocks Lq、Lv、Lk是輸入向量的矩陣乘法。

表 1。使用相同資料集將MNLL、RMSE、FDE 和 MR結果與基線進行比較 * 對 CSP（ M ）結果進行了重新計算，並進行了一些小的修改，以進行公平比較。

圖 3。駕駛場景俯檢視，所有觀察到的車輛的過去位置為灰色，第一個注意力層的兩個頭部的注意力矩陣。車輛 i 對 j 的注意力被繪製為從 i 到 j 的箭頭，以及當 i=j 時的圓圈，寬度與注意力係數成正比，顏色隨箭頭角度變化。在左側矩陣的 i， j 係數中，注意力也可以看到顏色從紫色到黃色。

圖 4。另一個駕駛場景俯檢視。疊加預測以對數標度的藍色陰影表示。實際預測點寸用綠線表示。

Abstract

This paper presents a novel vehicle motion forecasting method based on multi-head attention。 It produces joint forecasts for all vehicles on a road scene as sequences of multi-modal probability density functions of their positions。 Its architecture uses multi-head attention to account for interactions between all vehicles， and long short-term memory layers for encoding and forecasting。 It relies solely on vehicle position tracks， does not need maneuver definitions， and does not rasterize the scene as a spatial grid。 This allows it to be more versatile than similar model while combining many forecasting capabilities， namely joint forecast with interactions， uncertainty estimation， and multi-modality。 The resulting prediction likelihood outperforms state-of-the-art models on the same dataset。