DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

羿閣 發自 凹非寺

量子位 | 公眾號 QbitAI

DeepMind又對

雅達利遊戲

下手了!

這次,他們最新推出的智慧體

MEME

,在效果不變的前提下,比兩年前的Agent57

提速了200倍

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

Agent57,是DeepMind在2020年搞的一個智慧體,史上首次在所有57個雅達利遊戲中超過了人類基準表現。

但它有一個致命缺陷是效率低:需要近

800億幀

的資料訓練才能實現。

現在,MEME的出現完美解決了這一問題。

有網友看完表示:這就是真正的樣本高效吧。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

話不多說,趕緊來一睹為快吧。

新的智慧體:MEME

Agent57,作為首個在所有雅達利遊戲中超越人類基準表現的智慧體,效能上已足夠先進。

但問題是,要想達到這一目標,背後需要780億幀的龐大的經驗訓練,這在時間和成本上都是一筆大開支。

因此,以Agent57為起點,DeepMind採用了一系列不同的策略,來實現訓練效率上的提升。

他們調查了在減少資料制度時遇到的一系列不穩定因素和瓶頸,並提出了有效的解決方案,最後建立一個更加強大和高效的智慧體:MEME。

新的MEME智慧體主要針對Agent57的4個方面進行改善,分別是:

A.實現與罕見事件相關的學習訊號的快速傳播

B.在不同的價值尺度下穩定學習

C.改進神經網路結構

D.在快速變化的政策下使更新更加穩健

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

為了達到這四個目標,DeepMind採取了以下方法,與上述四點相對應。

A1。用線上網路進行引導;

A2。有公差的目標計算;

B1。損失和優先權歸一化;

B2。交叉混合訓練;

C1。無歸一化的軀幹網路;

C2。帶有綜合損失的共享軀幹;

D。透過策略提煉的魯棒行為。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

這些方法旨在提高Agent57的資料效率,但這種效率的提高不能以犧牲終端效能為代價。

因此,為了檢驗經過上述步驟的智慧體MEME的效率和效能,研究團隊分別在2億、10億、200億、900億幀環境進行了訓練。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

透過下圖可以直觀的看出,新智慧體MEME在3。9億幀時就超過了人類基準,比Agent57快了兩個數量級,並且在將引數量從90B減少到1B的情況下,取得了類似的最終表現。

可以說相比Agent57而言,MEME既提升了效率,又保持了效能。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

研究團隊

MEME的研究團隊來自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的論文作者。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

值得一提的是,Steven Kapturowski在兩篇論文中都是一作。

他畢業於美國科羅拉多大學博爾德分校,曾在蘋果、微軟、Glassdoor等公司工作過,現在是DeepMind的一名高階研究工程師。

DeepMind用新AI超越自己:提速200倍,所有雅達利遊戲上勝過人類

參考連結:

[1]https://arxiv。org/pdf/2209。07550。pdf

[2]https://arxiv。org/pdf/2003。13350。pdf

[3]https://www。linkedin。cn/incareer/in/stevenkapturowski

— 完 —

量子位 QbitAI · 頭條號簽約