解讀LeCun新論文：大模型之外，AI未來往哪走？

隨著人工智慧的發展，

現有的AI系統已經逐漸達到了瓶頸期，關於“AI未來應該走向哪裡”的問題也在近期引起了廣泛的討論。

近日，LeCun發表了一篇文章《A Path Towards Autonomous Machine Intelligence》，文章詳細的描述了他過去幾年對於人工智慧發展方向的一個思考總結，並提出了一個新的認知框架，

該框架透過借鑑於生物大腦，設計了多個可以類比的子功能模組，從而幫助實現具有自主性的人工智慧系統。

Lecun 堅定地認為

純粹的大模型並非出路，而需要一種“Macro Architecture”（宏觀框架）來完成對下一代AI的探索，

透過借鑑動物大腦，構建新的AI認知框架，賦予AI系統數字心識則是一條最有希望的路線。而心識宇宙所提出的“心識框架”也是這條路線的踐行者，透過心識框架，不僅僅讓AI可以完成多樣的任務，更重要的是，讓他成為 Human-level AI，甚至成為數字生命和我們共存。

本文將會對LeCun近期的文章進行一個詳細的解讀，而在後面，將會發表一篇文章來介紹我們自己的心識框架。

一、背景

機器如何能像人類和動物一樣高效的學習？機器是如何學會推理和計劃呢？機器如何在多個抽象層次上學習感知和行動計劃的表示，使它們能夠在多個時間範圍內進行推理、預測和規劃？LeCun的這篇文章提出了一種構建自主智慧系統的體系結構和訓練正規化。

值得注意的是，這篇文章不是一個傳統意義上的技術或學術論文，而是作者對未來AI系統的一個思考，因此很多介紹都停留在抽象層面，無法落實到具體實現，而這也留給了大家廣泛的思考空間。

當前，人工智慧研究必須要解決三個主要挑戰：

機器如何學會表徵世界，學習預測，並學習主要透過觀察來行動？

機器如何才能以與基於梯度的學習相相容的方式進行推理和計劃？

機器如何學習在多個抽象層次和多個時間尺度上以層次化的方式表示感知和行動規劃？

為了解決上述問題，LeCun提出了一個具有多個功能模組組成的認知框架，如下圖所示，在這個框架下，所有子模組都是可微分的，同時大部分模組是可以訓練的，這個框架是執行任務的流程大概如下：

首先會透過 Configurator 來進行配置，這個模組會對所有的子模組進行調控。之後就可以進入任務執行步驟，Perception模組負責接收世界狀態資訊，將其傳遞給Actor模組。Actor 在執行動作輸出的時候，分為兩種情況：

第一，對於簡單的機械式任務，Actor 可以直接的輸出行為，

這也對應於大家經常提到的“系統1”或者“快系統”；

第二，對於複雜任務，Actor 會呼叫世界模型，世界模型首先會透過 Short-term memory 模組讀取過去的歷史狀態資訊，同時會使用Cost模組來對未來的預測進行最佳化，幫助 Actor 做出更優的行為，而這個步驟對應於

“系統2”或者“慢系統”

。

二、功能模組

在這部分，會對該認知框架中所有的模組，進行簡單的介紹，而在文章後續的部分，會詳細介紹如何設計和訓練這些功能模組。

Configurator 模組

主要接收所有模組的輸入，然後調節所有模組的引數，從而驅動整個 agent 完成特定的任務，

該模組相當於是一個全域性排程模組。

Perception 模組

接收所有感官訊號，並評估當前世界的狀態。對於一個給定的任務，只有一小部分世界狀態資訊是相關的和有用的，而該模組能夠實現提取出對當前任務具有關鍵任務的資訊。同時，

該模組可以以多層級的方式表示世界的狀態，每個層級代表了不同級別的資訊抽象。

World Model 模組

世界模型是該認知框架的核心模組，啟發於動物的前額葉皮層。透過世界模型，

動物們可以透過很少的試驗來學習新的技能，它們可以預測自己行為的後果，可以推理、計劃、探索和想象問題的新解決方案。

因此，在這裡，世界模型的作用也是如此。

從定義上來說，世界模型主要起到兩個作用：

從缺失的資訊中，估計世界的狀態

預測世界可能的未來狀態。

世界模型可以將其簡單的理解為對所處世界的一種“模擬”，理想情況下，世界模型將在多個抽象層次上操作世界狀態的表徵，允許它在多個時間尺度上進行預測。

Cost 模組

該模組的作用是計算一個 agent 的“不舒適度”，而這個值被稱為能量（energy）。

可以將其類比為強化學習裡面的獎勵，

不同的是，這裡的 Cost 可以使用能量模型（會在後文中介紹）來對驅動動作行為序列的最佳化。

Cost模組由兩個子模組組成：

（1）Intrinsic Cost 模組

這個模組是預先設定好，並且是不可訓練的，他會幫助計算一個稱為 Intrinsic engergy 的值，用於衡量即時的“不舒適度”，

可以類比為動物的疼痛和飢餓。

該模組會接收當前世界的狀態，包括從感知模組獲取到的當前狀態，以及從世界模型所預測的未來狀態。

一個agent的目標是減少 Intrinsic cost，也就是讓自己變得“舒適”。

（2）Trainable Critic 模組

該模組的作用是可以對未來的Intrinsic cost進行預測，是可以訓練的。Critic模組會檢索儲存在聯想記憶模組中過去的狀態和隨後的Intrinsic cost，然後訓練自己從過去的狀態中，預測後續的Intrinsic cost。

Short-term Memory 模組

負責儲存過去、當前和未來的關於世界的狀態，以及對應的 Intrinsic cost值。

世界模型會在預測未來狀態的時候，或者對當前世界狀態的丟失資訊進行補全的時候，同時對這個記憶模組進行訪問和更新操作。

作者提到該模組的架構會和 Key-Value Memory Network 比較像，支援記憶儲存和讀取操作。

Actor 模組

Actor模組的作用是產生一個最優的動作，來幫助agent和環境進行互動。

Actor模組包含兩個子功能模組：

（1）Policy 功能，

根據世界狀態表徵的輸入，產生一個行為。這個世界狀態表徵主要來自於感知器模組以及Short-term Momory 模組。

（2）動作序列最佳化功能，

幫助產生針對特定任務下更優的動作。

三、感知動作環路

對於一個agent來說，最重要的就是透過感知模組接收世界的狀態資訊，然後透過一系列推理，輸出最優動作序列來和世界進行互動，實際上，整個認知框架的目的就是實現這一功能，這裡作者將其成為感知動作環路。

感知動作環路包含了兩個子環路，作者將其稱為 Model-1 和 Model-2，實際上可以理解為“系統1”和“系統2”，或者是“快系統”和“慢系統”。

Model-1不包含複雜推理，直接透過世界狀態來產生行為預測，而Model-2 需要經過複雜的推理和規劃（透過世界模型和cost模組）來產生行為預測。

Model-1

Model-1的過程如下，首先，感知模組會透過一個encoder 模組，來提取世界狀態的表徵s［0］ = Enc（x），之後，Actor模組中的 Policy模組會透過這個提取到的表徵來進行行為的預測a［0］ = A（s［0］）

Model-2

Model-2 的過程會比較複雜，透過推理和規劃來的到行為預測，這需要藉助世界模型以及Cost模組來實現，其過程如下圖所示：

具體步驟如下：

感知模組會提取當前世界的狀態s［0］ =P（x） =Enc（x），同時，Cost模組會立刻計算這個狀態的cost；

Actor模組中的 Policy模組，會透過狀態來預測動作a［0］ =A（s［0］）；

動作會被送入到世界模型中，來幫助預測下一步的狀態s［t］ =Pred（s［t 1］，a［t 1］）；

Actor模組，根據世界模型預測到的狀態，來預測新的動作；

不斷迴圈上述步驟。

過程中，

每一個狀態都會被送送入到Cost模組中，然後可以透過下列公式來計算總的cost：

最後，透過最小化 cost，可以將梯度進行反向傳播，使得 Actor 模組可以產生 cost 最小的動作序列［0］， ……，［T］，當得到了一個低 cost 的動作序列之後，這個序列的第一個動作會作為最終預測進行輸出，行為輸出之後，會對 Shot-term Memory 模組進行更新，其中，輸出的這個行為、當前的狀態、以及Cost中的 Intrinsic cost 和 Critic cost 都會被儲存到 Short-term Memory 模組中。

技能學習：從 Model-2 到 Model-1

作者認為，使用 Model-2 是非常繁重的，需要調動各種模組，由於每個 agent 往往只有一個世界模型的推理引擎，因此每次只能專注於一個任務（類比於人，相當於無法一心二用），而 Model-1 相對來說就沒有那麼繁重（類比於人，可以同時處理機械式的任務），由於其只需要使用 Actor 中的 Policy模組進行簡單預測即可。

因此，學習一項新的技能就等價於將 Model-2任務轉換成 Model-1任務，對應於上述過程，也就是說，透過使用 Model-2，會逐漸對 Policy模組A（s［t］）進行最佳化，最終，只需要透過 Model-1 就可以輸出最優行為~a［0］ =A（s［0］），這個時候，相當於 agent 已經學會了這個技能。

四、Cost模組驅動行為

作者把 Model-2 中，學習最佳化的動作序列看做是一種推理過程，而本質上就是最小化cost，而cost本質上在計算 Intrinsic engergy，

因此作者認為推理就是最小化能量的過程。

因此，在這裡，行為本質上就是由Cost模組驅動的，這裡Cost的定義如上圖所示，由兩個模組組成，其中IC（Intrinsic Cost）是預選設定好的，而TC（Trainable Cost or Critic）是可以透過訓練進行學習的。其中，IC和TC又包含了很多子模組，每一個子模組都可以得到一個值，透過加權求和就得到了最終的值，需要注意的是，這裡的權重ui和vi是由Configurator模組調控根據要執行任務的目標進行調控的。

作者將IC定義為是控制agent的基礎自然行為，對應於人就是本體感知覺的控制，例如疼痛、飢餓或者恐懼等行為，或者一些基礎的互動行為，例如行走、站立等等，可以將其類比於哺乳動物的大腦中的杏仁核，

為了防止出現壞的行為導致失控，IC是預先設定好的，不會受到學習的影響，

從而保證其穩定性。

IC還有很多的作用，作者列舉了四條：

當遇到特定的條件的時候，要保證能夠輸出特定的行為；

作為一個objective function，來幫助最佳化行為；

幫助訓練agent透過直接的監督，實際上跟2含義比較相似；

可以使得agent具有模仿學習的能力，透過觀察老師的行為，來直接得到一個更好的objective function，減輕最佳化成本，從而賦予其模仿學習能力。

TC的目的則是使得 agent 能夠根據環境靈活的學習各種行為，因此，TC是可以訓練的。從定義上來講，IC的目的是計算 Intrinsic energy，而TC的目的則是預測未來的 Intrinsic energy。

為了實現預測，TC需要使用 Short-term Memory 模組，讀取其中儲存的Intrinsic cost，作者將其儲存形式定義為一個三元組的形式（time， state， intrinsic energy）：（τ，sτ，IC（sτ）），而對TC的訓練則是通過歷史的 intrinsic cost 來進行的。

訓練的具體過程如下圖所示：本質上來說，就是讓IC（sτ+δ）與預測出來的總體Cost值 C（sτ）更加接近，而這裡最佳化的目標為：

這個最佳化方法跟強化學習中的TD方法非常相似，都是時序差分的思想。

五、設計和訓練世界模型

作者認為，世界模型是該認知框架的核心，而設計一個世界模型的架構以及訓練它是未來十年的主要挑戰，在這裡，作何提出了一個世界模型的框架，稱為 JEPA，而由於世界模型的主要任務是對未來世界狀態進行預測，因此，作者還提出了一個能量模型 EBM，來幫助衡量預測的準確率，在這一部分，將會對世界模型的架構進行詳細的介紹。

世界模型的主要目的是預測未來世界狀態的表徵，

構建一個世界模型有三個問題需要處理：

（1）世界模型的質量依賴於狀態序列的多樣性，這個問題主要圍繞對決策序列的學習；

（2）世界是不可完全被預測的，因此，

世界模型需要能夠產生多個看起來合理的預測，並很好地對這些預測進行表徵；

（3）由於人的目標通常是分層級的，高階的目標往往會有幾個低階的目標組成，其抽象層級和時間尺度都不一樣，因此，

世界模型必須能夠在不同時間尺度，以及不同抽象層級上進行預測，

這個問題會涉及到長程的預測和規劃。

EBM

作者提出了一個基於能量的模型 Energy-Based Model（EBM），該模型定義了一個函式F（x， y）來預測兩個輸入的相容性（compatible），如果是相容的，則會輸出一個較低的值（energy），不然就輸出一個高的值（energy），這裡的 x 和 y 可以是一個值或者一段資訊，也可以是不同的模態。

其中 x 定義為可以觀測到的輸入，而 y 定義為沒有被觀測到的哪一部分資訊。從圖片的角度來看，x可以看做是一個mask過之後的圖片，y是被mask掉的那部分資訊，從時間序列來看，x可以是過去和現在關於序列的觀測，y可以是對未來序列觀測的預測。

透過潛變數處理不確定性

潛變數的定義是，其不是被觀測到的，

而是透過觀測可以推測出來的並隱含在觀測中的資訊。

為了使得世界模型能夠產生多個合理的預測，需要使用到潛變數。帶有潛變數的能量模型的定義如下：

其中，

也就是那個讓能量模型值最小的那個潛變數。

訓練能量模型

這裡的能量模型Fw（x， y）可以看做為一個帶有權重w的神經網路，基於樣本（x， y），訓練能量模型就等價於最佳化一個損失函式L（x， y， Fw（x， y）），也可以表達為L（x， y， w）。

最佳化這個損失函式是非常容易的，但是這裡還要一個問題需要處理，如何讓一個不同於 y 的樣本，對於能量函式的計算的值高於 y ，也就是Fw（x， y‘） >Fw（x， y），

如果不特意最佳化的話，會產生榻縮現象，也就是給不同的 y，其計算得到的能量值會非常的接近。

很多型別的架構，都容易出現榻縮現象，如下圖所示，除了a以外，其餘三種架構都容易出現榻縮現象。

因此，作者提出了兩種方法來避免模型產生榻縮現象，如下圖所示：

方法一：過對比學習方法，

也就是透過loss來拉進（x， y）的距離，同時拉遠（x，）的距離，放到能量模型的框架裡面分別對應降低能量Fw（x， y）和提高能量Fw（x，），這裡作者定義了兩種對比loss：

第一種是基於距離的hinge loss

，其定義為：

這裡［a］+的作用是，當 a＞0 的時候，輸出a，當 a＜0 的時候，輸出0，因此，只有Fw（x，）遠大於Fw（x， y）的時候，該損失才為0，不然就是一個正值，透過這種方式，會使得Fw（x，） >Fw（x， y），從而實現最佳化的目的。

第二種是一個使用多個負樣本的損失函式，

其定義為：

對比學習有一個問題就是，需要生成負樣本，當維度很高的時候，生成合適的負樣本也是非常有挑戰的。因此，作者提出了另外一個方法，稱為

方法二：

正則化方法

（Regularized method），該方法構造一個損失函式，該函式會壓低訓練樣本的能量，同時最小化模型與低能量相關聯的y空間的體積。

通俗來講，就是將函式的分佈進行“收緊”，從而讓更少的負樣本落在低能量的空間中，從而使得模型在預測負樣本的時候，輸出一個較高的能量值。正則化方法需要搭配模型的架構來進行設計，因此，作者提出了一個架構稱為 JEPA，接下來本文會對 JEPA 進行詳細的介紹。

JEPA（Joint Embedding Predictive Architecture）架構

JEPA架構是世界模型的核心，

由簡單的雙流架構構成，作用是對 x 和 y 的依賴關係進行捕捉，其架構如下圖所示：

首先，x 和 y 會被分別送入到兩個Encoder中，並得到關於它們的表徵 sx和 sy，而這裡會有一個預測模組，透過 x 的表徵 sx來預測 y 的表徵 sy，在預測的過程中，還會使用一個潛變數（上文中介紹過），之後會使用能量模型，計算預測之後的表徵~Sy和原始表徵 Sy的能量值，其定義為：

Ew（x，y，z） =D（sy，Pred（sx，z））

注意這裡：

而最終的能量模型為：

需要注意的是，這裡的Encoder模組不僅僅是對x和y進行表徵，

同時還起到了抽取關鍵資訊的作用，也就是會過濾掉一些與當前任務無關的資訊。

舉個例子，如果 x 是一段影片，其內容為一個汽車接近一個分叉路口，那麼 Sx和 Sy可能代表過去和未來的位置、方向、速度和汽車的特徵，忽略無關的細節，如路邊的樹木或人行道的紋理等。

此外，潛變數則代表了一種狀態改變的可能性取值，例如，上述的例子，汽車可能向左和向右拐，而潛變數 z=0 或者 z=1，就代表這兩種可能性，而上述能量模型Fw（x， y）計算的時候，會選擇一個使能能量最低的 z。

訓練JEPA框架

這裡的訓練方法被稱為

非對比學習方法

（non-contrastive method），也就是上文中提到的正則化方法，這種方法可以“收緊”低能量空間的體積。為了實現這一目的，作者提出了四個步驟：

最大化資訊量（Information Content），關於x，也就是 Sx能夠最大化的表徵 x 中與當前任務相關的資訊；

最大化資訊量（Information Content），關於y，也就是 Sy能夠最大化的表徵 y 中與當前任務相關的資訊；

最小化預測偏差，也就是要讓模型更加容易從 Sx中預測 Sy；

最大化資訊量（Information Content ），關於潛變數 z，也就是說，找到與任務更加適合的那個潛變數。

其中，第1和2步可以防止能量空間變得“平坦”，也就是減緩榻縮現象，因為最大化資訊內容會迫使 Encoder學習更加豐富多變的表徵，從而保證空間不是那麼的“平坦”。第3步是透過最小化能量模型來實現的，也就是最小化D（sy，~sy），這會使得模型對於未來的預測更加準確。

第4步在預防榻縮現象中起到了關鍵作用，如何設定不好，會導致嚴重的榻縮。實際為了防止這一現象，好在已有的大量相關工作證明（例如VAE，VQ-VAE等），只需要將 z 設定成低維離散的向量，即可有效的防止榻縮現象，這裡則使用了一個正則項：

也就是L1正則，可以驅動最終的 ˇz 變得離散。

有了上述的基礎就可以進行訓練了，這裡作者使用的是VICReg方法，

這是一種維度對比的方法

（dimension-contrastive method），這個方法會對 sx和 sy做一些約定：

（1）表徵必須是一個非常量；

（2）每個表徵內部的子模組必須是相互獨立的，這個可以透過如圖中的步驟得到，首先將 sx和 sy對映到高維表徵空間 vx和 vy，這個對映可以透過一個神經網路完成，之後使用一個包含了兩個子項的loss來進行最佳化（作者並未詳細介紹），loss的主要作用是在一個batch上進行，目的是讓高維度表徵的協方差矩陣向一個單位矩陣逼近，這樣會迫使每個表徵的子成分變得更加獨立。

H-JEPA

上文中提到，一個世界模型，應該能夠從多個時間尺度，多個抽象層級對特徵進行表徵和預測，因此，作者提出了 Hierarchical JEPA（H-JEPA），

不同的層級，代表了對錶徵的不同層級的抽象，同時多層級可以使得其更好的去應對長時程的任務。

如下圖所示，假設 x， x1， x2代表了一個觀測序列，第一層處理了短時程預測使用了低級別表徵，而第二層則處理了長時程預測使用了高層級抽象表徵。

如果世界模型可以進行層級預測，那麼這個層級的預測是不是可以用來進行 Model-2 的層級規劃，在這裡需要注意的是，

高層級的動作不一定要和低層級以一對一，同時，高層級和低層級都需要計算cost。

處理不確定性

世界模型需要面臨的一個挑戰是，

真實世界是無法被完全預測的，

因此世界模型在預測未來的時候會面臨很多不確定性，這個不確定性可以概括為以下幾點：

這個世界在本質上是隨機的；

這個世界是確定性的，但卻是混亂的，因此，如果沒有無限精確的感知，就很難預測；

這個世界是確定性的，但只有部分可以被觀測到，或者感測器只能捕捉到關於世界狀態的部分資訊；

由感知模組提取的世界狀態表徵不包含準確預測所需的全部資訊；

由於表徵能力的限制，或者訓練資料的限制，世界模型有時候是不準確的。

下圖中展示了在不確定性存在的時候，如何去執行層級規劃，這裡作者認為隱變數是做出準確預測的關鍵，

作者將隨機性“塞進”了隱變數中，

在做預測的時候，除了上一步的狀態、動作，還需要一個隱變數作為輸入，這個隱變數可以幫助調控預測，從而幫助得到一個更準確的預測。需要注意的是，這裡隱變數是透過多次迭代，學習得到的，迭代的過程，就是在尋找到更優的隱變數，使得cost降低。

世界模型的架構

作者認為，最佳的 JEPA 架構需要包含門控以及動態路徑的機制，尤其是在長程預測的時候，作者認為使用 Transformer 的架構是比較合適的。

資料流

關於世界知識的學習，都是透過觀測學習到的，作者列舉了幾種agent可以學習世界知識的方式：

被動觀測

（passive observation），會持續接收一些資訊流，例如聲音和影片等；

主動注視

（active foveation），被輸入資訊流的時候，其注意力的焦點可以被引導；

被動代理

（passive agency），在感覺流中，可以觀察到另一種作用於環境的主體，從而能夠推斷主體行為對環境狀態的因果效應；

主動活動

（active egomotion），agent接收來自真實或虛擬環境的資訊流，在該環境中，接收資訊流的感測器的的位置可以被移動，同時不顯著影響環境；

主動代理

（active agency），可以感知到資訊流是如何被agent的行為所影響的。

其中，2、4、5都是主動學習，agent 會主動收集相關的資訊，來幫助更好的理解周圍環境，但要做到這一點，可能需要內在的動機模組來驅動注意力、好奇心和對狀態空間角落的探索。

六、跟蹤世界的狀態：記憶模組

世界的狀態資訊被儲存在記憶模組中，

當一個事件發生的時候，只有被這個事件影響到的狀態被改變，其他狀態保持不變，

這裡，作者使用的是 Key-value Memory Network。

讀取記憶的過程如下：

這裡面kj是鍵值，而vj是儲存的值，查詢記憶的過程就是找到與查詢向量 q 最相似的一些鍵值，這個匹配過程是由 Match （kj，q）計算到的，之後會根據相似度加權求和，注意這裡的相似度需要經過一個歸一化操作，這個操作可以使用一些常見的歸一化函式，這裡作者提到一個常用的歸一化函式：

儲存記憶的過程如下，假設對 r 進行儲存，其流程是先做檢索，之後，對相應鍵值的vj進行更新，這裡作者將更新操作設定為cr+（1-c）v，實際上就是在更新的基礎上，還會保留部分原始資訊。

注意這裡作者還提到一個增加記憶槽的操作，如果要查詢的值 q 和所有鍵值都不相似，那麼可以增加一個槽，來儲存新的記憶對（q，r），上面提到的歸一化函式：

其中的 γ 就可以起到閾值調控的作用。此外，

所有的這些操作都是可以微分的，因此可以進行梯度反傳操作。

針對記憶模組，作者有提到，當前的這種 Key-value Memory Network 還是有限制的，無法很好的應對複雜的規劃和控制，因此，

提出一個更好的記憶模組也是一個開放的問題。

七、Configurator

Configurator是agent的主要控制模組，

它會接收所有其他模組的資訊，並調節它們的引數和連線圖，這個調節可以是啟用一個自網路、注意力調整，或者是訊號的路徑調節等。

這裡作者並沒有對Configurator進行明確的定義，

而是隻給出了一個功能上的抽象描述。

作者提出，configurator模組應該具有兩個關鍵的作用，

一個是硬體重複利用（hardware reuse），一個是知識共享。

硬體重複使用的好處是，一些相似的任務，可以共享相同的處理路徑。知識共享的好處是，對於一些相似的任務，agent所學習到的技能可以被泛化。

Configurator也可以對感知模組進行調整，對於需要快速檢測簡單物體的任務，Configurtor可以在卷積體系結構中調製低階層的權重。對於涉及滿足物件之間關係的任務（如用螺釘組裝兩個部件），可以透過調製高階變壓器模組中的令牌來執行配置。

世界模型的預測器部分必須能夠根據手頭的任務執行廣泛的功能。對於在低抽象水平上執行短期預測的預測器，需要Configurator調節的是動態訊號路由，主要是針對門控或者路由環路。對於更高抽象級別的長期預測，之前有提到這種更適合使用Transformer架構，這個時候，Configurator可以給Transformer輸入額外的token來對Transformer的計算進行調節。

Configurator的一個很重要的作用就是設定子目標，同時為子目標配置對應的Cost模組，從對實現對任務進行復雜的控制。

對Cost模組的調節，作者出了兩個方式，一個簡單的調節方式就是就是調節Cost模組中子模組線性加權計算中的權重。而更加複雜的調節則是針對於可訓練的Critic部分，實際上，作者提到，可以簡單的使用Transformer來作為架構，這樣就可以像上面提到的那樣，透過輸入額外的token來調節整個Transformer的計算。

至於Configurator如何將複雜的任務分成子任務，作者目前也沒有答案。此外，作者也提到，本文沒有說明各種模組的體系結構的細節。例如，預測器很可能在其微體系結構中需要某種動態路由和門控環路。

八、總結

作者設計的認知框架中的大部份模組都可以和動物大腦有一個類比的關係，

感知模組對應視覺，聽覺和其他感知通路的處理皮層。世界模型對應於前額葉皮層的一些部分高階處理單元。Intrinsic cost模組對應杏仁核。而可訓練的Critic對應前額葉皮層中負責獎勵預測的部分。Short-term memory模組可以對應到海馬。而Configurator對應前額葉皮層的中央控制和注意力調節機制。Actor對應於運動前皮層（pre-motor cortext）。

對於世界模型，人類大腦中一個單一的、可配置的世界模型引擎的假設可以解釋為什麼人類本質上可以一次執行一個單一的“有意識的”推理和計劃任務。實際上，雖然文中提到的認知框架也模擬人類大腦，只配置了一個世界模型引擎，但是實際上，

也許可以配置多個世界模型引擎來讓 agent 同時處理多個複雜任務。

對於人類的情感，作者認為，Intrinsic Cost可以對應於調節疼痛、飢餓、舒適等即時情感，而對於那些因為對結果預期會有偏差而產生的情感，例如恐懼等，可以使用 Critic 來類比。對於動物來說，

情感是驅動行為的核心因素之一，

而這裡的 Cost 模組就是起到了類似的作用。

總的來說，認知框架的設計主要啟發於動物大腦，目前來看，不管是整體結構，或者是子功能模組，對於實現真正的自主人工智慧系統還有一定的差別，因此，這一方向仍然充滿了巨大的挑戰。