強化學習大牛Sergey Levine新作：三個大模型教會機器人認路

機器之心報道

機器之心編輯部

內建大模型的機器人，在不看地圖的情況下，學會了按照語言指令到達目的地，這項成果來自強化學習大牛 Sergey Levine 的新作。

給定一個目的地，在沒有導航軌跡的情況下順利到達，有多難？

對於方向感不好的人類來說，這個任務也是很有挑戰性。但在最近的一項研究中，幾位學者只用三個預訓練模型就把機器人「教會了」。

我們都知道，機器人學習的核心挑戰之一是使機器人能夠按照人類的高階指令執行各種各樣的任務。這就要求機器人能夠理解人類的指令，並配備大量不同的動作，以便在現實世界中執行這些指令。

對於導航中的指令遵循任務來說，此前的工作主要集中在從帶有文字指令註釋的軌跡中學習。這樣可能可以實現對文字指令的理解，但資料註釋的成本問題阻礙了這種技術的廣泛使用。另一方面，最近的工作表明，自監督訓練的目標條件策略可以學習到穩健的導航。這些方法基於大型的、無標記的資料集，透過事後重新標記來訓練基於視覺的控制器。這些方法具有可擴充套件性、通用性和穩健性，但通常需要使用基於位置或影象的笨重的目標規範機制。

在一篇最新的論文中，UC 伯克利、谷歌等機構的研究者旨在結合這兩種方法的優勢，使機器人導航的自監督系統能夠適用於沒有任何使用者註釋的導航資料，利用預訓練模型的能力來執行自然語言指令。研究者使用這些模型來構建一個「介面」，用來向機器人傳達任務。這個系統藉助於預訓練的語言和視覺 - 語言模型的概括能力，使機器人系統能夠接受複雜的高階指令。

論文連結：https：//arxiv。org/pdf/2207。04429。pdf

程式碼連結：https：//github。com/blazejosinski/lm_nav

研究者觀察到，可以利用在視覺和語言資料集的大型語料庫上訓練的現成預訓練模型（這些語料庫廣泛可用，並顯示出零樣本泛化能力）來建立介面，以實現具體的指令跟蹤。為了實現這一點，研究者結合了視覺和語言的 robot-agnostic 預訓練模型以及預訓練導航模型的優點。具體而言，他們使用視覺導航模型（VNM：ViNG）來將機器人的視覺結果建立為環境的拓撲「心理地圖」。給定自由形式的文字指令，使用預訓練的大型語言模型（LLM：GPT-3）將指令解碼為一系列文字形式的特徵點。然後，使用視覺語言模型（VLM：CLIP）透過推斷特徵點和節點的聯合似然機率來在拓撲圖中建立這些文字特徵點。之後使用一種新的搜尋演算法來最大化機率目標函式，並找到機器人的指令路徑，然後由 VNM 執行。

研究的主要貢獻在於大規模模型下的導航方法（LM Nav），一個具體的指令跟蹤系統。它結合了三個大型的獨立預訓練模型——一個利用視覺觀察和物理動作（VNM）的自監督機器人控制模型，一個將影象置於文字中但沒有具體實施環境（VLM）的視覺語言模型，以及一個大型語言模型，該模型可以解析和翻譯文字，但沒有視覺基礎或體現感（LLM），以便在複雜的真實環境中實現長視野指令跟蹤。研究者首次將預訓練的視覺和語言模型與目標條件控制器相結合的想法例項化，以在目標環境中不進行任何微調的情況下得出可操作的指令路徑。值得注意的是，這三個模型都是在大規模資料集上訓練的，具有自監督的目標函式，並且在沒有微調的情況下現成使用 - 訓練 LM Nav 不需要對機器人導航資料進行人工註釋。

實驗表明，LM Nav 能夠在 100 米的複雜郊區導航過程中，在新環境中成功地遵循自然語言指令，同時使用細粒度命令消除路徑歧義。

LM-Nav 模型概覽

那麼，研究者是如何利用預訓練好的影象和語言模型，為視覺導航模型提供文字介面的？

1、給定目標環境中的一組觀測值，使用目標條件距離函式，也就是視覺導航模型（VNM）的一部分，推斷它們之間的連通性，並構建環境中連通性的拓撲圖。

2、大型語言模型（LLM）用於將自然語言指令解析為一連串的特徵點，這些特徵點可以作為導航的中間子目標。

3、視覺 - 語言模型（VLM）被用來在特徵點短語上的基礎上建立視覺觀察結果。視覺 - 語言模型推斷出一個關於特徵點描述和影象的聯合機率分佈（形成上述圖形中的節點）。

4、利用 VLM 的機率分佈和 VNM 推斷的圖連線性，採用一種新穎的搜尋演算法，在環境中檢索出一個最優指令路徑，該指令路徑（i）滿足原始指令，（ii）是圖中能實現目標的最短的路徑。

5、然後，該指令路徑由目標條件策略執行，該策略是 VNM 的一部分。

實驗結果

定性評估

圖 4 展示了機器人所走路徑的一些例項（注意，機器人無法獲得頭頂上的影象和特徵點的空間定位，所顯示的只是視覺效果）。

在圖 4（a）中，LM-Nav 能夠成功地從其先前的穿越中定位出簡單的特徵點，並找到一條通往目標的短路徑。雖然環境中存在多個停車特徵點，但公式 3 中的目標函式使機器人在上下文中選擇正確的停車特徵點，從而使整體行進距離最小。

圖 4（b）強調了 LM-Nav 解析有多個特徵點的指定路線的能力—儘管在無視指令路徑的情況下，直接到達最後的特徵點是最短路線，但機器人仍然能找到了一條以正確順序訪問所有特徵點的路徑。

使用指令來消除歧義。由於 LM Nav 的目標是遵循指令，而不僅僅是達到最終目標，不同的指令可能導致不同的遍歷。圖 5 展示了修改指令可以消除目標的多條路徑歧義的示例。對於較短的 prompt（藍色），LM Nav 首選更直接的路徑。在指定更細粒度的路線（洋紅色）時，LM Nav 採用透過不同特徵點集的備用路徑。

缺少特徵點的情況。雖然 LM-Nav 能夠有效地解析指令中的特徵點，在圖上對它們進行定位，並找到通往目標的路徑，但這個流程依賴於這樣的假設：特徵點（i）存在於真實環境中，以及（ii）可以被 VLM 識別。圖 4（c）顯示了這樣一種情況：可執行的路徑未能訪問其中一個特徵點—一個消防栓—於是採取了一條繞過建築物頂部而不是底部的路徑。這種失敗案例是由於 VLM 無法從機器人的觀察中發現消防栓。

在獨立評估的 VLM 在檢索特徵點方面的功效時，研究者發現，儘管它是此類任務的最佳 off-the-shelf 模型，但 CLIP 無法檢索少量的「硬」特徵點，包括消防栓和水泥攪拌器。但是在許多實際情況下，機器人仍然能夠成功地找到一條訪問其餘特徵點的路徑。

定量評估

表 1 總結了該系統在 20 條指令中的量化表現。在 85% 的實驗中，LM-Nav 能夠始終遵循指令，沒有發生碰撞或脫離（平均每 6。4 公里的行進有一次干預）。與無導航模型的 baseline 相比，LM-Nav 在執行高效、無碰撞的目標路徑方面一直表現得更好。在所有不成功的實驗中，失敗可歸因於規劃階段的能力不足——搜尋演算法無法直觀地定點陣圖中的某些「硬」特徵點—導致指令的不完整執行。對這些失敗模式的調查表明，系統中最關鍵的部分是 VLM 檢測不熟悉的特徵點的能力，例如消防栓，以及在具有挑戰性的照明條件下的場景，例如曝光不足的影象。

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com