機器學習不會解決自然語言理解（NLU）問題

作者 |

DartFrog

譯者 | 王啟隆

責編 | 王曉曼

出品 | CSDN（ID：CSDNnews）

作為唯一由人類自身創造的符號，自然語言處理一直是機器學習界不斷研究的方向。自然語言處理技術主要是讓機器理解人類語言的一門領域。在自然語言處理技術中，大量使用了編譯原理相關的技術，例如詞法分析，語法分析等等。如何利用機器學習技術進行自然語言的的深度理解，一直是工業和學術界關注的焦點。但是，和已經被研究30餘年的自然語言處理不同，自然語言理解（NLU）成為了機器學習面臨的新困境。

下文將介紹自然語言處理領域的背景，

自然語言處理（NLP）

和

自然語言理解（NLU）

的區別，以及機器學習不會解決自然語言理解（NLU）問題的三大原因。

實證和資料驅動的革命

在20世紀90年代前葉，一場統計學革命如風暴般衝擊了人工智慧領域——這場革命在2000年代達到頂峰，神經網路以其現代

深度學習（Deep Learning，DL）

的化身成功迴歸。

這種轉變影響到了人工智慧的所有子領域，其中最具爭議的應用是

自然語言處理（Natural Language Processing，NLP）

——人工智慧的一個子領域。

資料驅動的經驗方法在NLP中的廣泛使用，是因為符號和邏輯的方法論在獨佔鰲頭的三十年後，未能產生可擴充套件的NLP系統，促使了所謂的

自然語言處理經驗法（Empirical methods in NLP，EMNLP）

的興起——EMNLP可以用來統稱資料驅動、基於語料庫的短語、統計和機器學習的方法。

這種經驗主義的轉變，其動機很簡單：直到我們對語言的工作原理以及語言如何與我們在日常口語中談論的世界的知識有一些瞭解之前，經驗和資料驅動的方法可能有助於構建一些實用的文字處理應用程式。

EMNLP的先驅之一，

Kenneth Church

對這一動機的解釋是，NLP 的資料驅動和統計方法的倡導者們對解決簡單的語言任務更感興趣——他們的動機從來不是弄清楚語言的工作原理，而是“做一些簡單的事情總比什麼都不做要好”。

然而，Church在一篇論文《鐘擺擺得太遠》（A Pendulum swing Too Far）中指出，人們嚴重誤解了這種轉變的動機。

正如Marjorie McShane（《人工智慧時代語言學》的作者）在2017年所指出的，後來的幾代人誤解了這種實證趨勢，這種趨勢是由對簡單任務的實際解決方案所激發的，因為他們假設這種

近似正確模型（ Probably Approximately Correct，PAC）

正規化將擴充套件到完全的

自然語言理解（Natural Language Understanding， NLU）

。

McShane說：“這些信念是如何在NLP群體中獲得準公理地位的，這是一個令人著迷的問題，Church的一項觀察部分地回答了這個問題：最近和現在的幾代NLPers（NLP研究者）在語言學和NLP歷史方面接受的教育不夠廣泛，因此，缺乏哪怕觸及皮毛的動力。”

這種被誤導的趨勢導致了不幸的事態：堅持使用大型語言模型

（Large Language Models，LLM）

構建NLP系統，需要大量的計算能力，並試圖透過記憶大量資料來近似自然語言的真實情況，但結果是徒勞的。

這種偽科學的方法不僅浪費時間和資源，而且正在腐蝕一代年輕科學家，讓他們認為語言只是資料——這隻會導致絕望，並阻礙NLU方面的任何真正進展。

那麼，現在是時候重新思考NLU的工作方法了， NLU的“大資料”處理方法不僅在心理上、認知上，甚至在計算上都是不可信的，而且正如下文即將展示的，這種盲目的資料驅動的 NLU 方法在理論上和技術上也存在缺陷。

自然語言處理vs自然語言理解

雖然

自然語言處理（NLP）

和

自然語言理解（NLU）

經常可以交換著使用，但這兩者之間有本質的區別，突出這一區別是至關重要的。

事實上，認識到語言理解和單純的語言處理之間的技術差異，會讓我們意識到資料驅動和機器學習的方法雖然適用於某些 NLP 任務，但與 NLU 無關。

參考以下最常見的NLP下游任務（Downstream NLP Tasks）：

總結

主題提取

命名實體識別（NER）

（語義）搜尋

自動標記

聚類

上述所有任務都與作為所有機器學習方法基礎的

近似正確模型（PAC）

正規化一致。具體來說，評估某些自然語言處理系統對上述任務的輸出是主觀的：沒有客觀的標準來判斷一個摘要是否比另一個好，或者某個系統提取的（關鍵）主題 / 短語比另一個系統提取的更好，等等。

然而，語言理解不允許有任何程度的自由。要完全理解一個話語或一個問題，需要理解說話者試圖表達的唯一思想。

為了理解這個過程的複雜性，可以參考下面的這個自然語言問題：

Do we have a retired BBC reporter that was based in an East European country during the Cold War？

（我們是否有一位在冷戰期間駐紮在東歐國家的退休 BBC 記者？）

在某些資料庫中，這個問題只會有一個正確答案。

因此，將上述內容轉換為正式的 SQL（或 SPARQL）查詢非常具有挑戰性，這一句話的理解便有以下的重點：

正確解讀“ retired BBC reporter ”這一名詞——指的是所有曾在BBC工作，現在已經退休的記者。

透過保留那些也在“東歐國家”工作過的“退休BBC記者”來進一步過濾上述內容。

除了地理上的限制，還有時間上的限制，那些“退休的BBC記者”的工作時間必須是“冷戰期間”。

介詞短語“during the Cold War”是基於“was based in”，而不是“an East European country”。

譯者解釋：比方說，將句子裡的“during the Cold War”替換成“with membership in the Warsaw Pact”，

那麼句子就變成了“Do we have a retired BBC reporter that was based in an East European country with membership in the Warsaw Pact？”

意思是：我們是否有一位駐紮在華沙條約組織內東歐國家的退休 BBC記者？”

也就是說，原句中，東歐國家這個名詞不需要“冷戰期間”或者“華沙條約組織”等限定詞，它可以是任何東歐國家。如果把在英文句子裡的“an East European country during the Cold War”視為一個整體，那就變成了“冷戰時期的東歐國家”，整個句子都會產生歧義。

劃定正確的量詞範圍：我們要找的不是在“某個”東歐國家工作的“一個”記者，而是在任何東歐國家工作的任何記者。

為了避免引起歧義，以上所有語義理解功能都必須做到完全準確。換句話說，根據我們對世界的常識，我們必須從對上述問題的多種可能解釋中，得到一個且唯一的意義，也就是說話人的核心思想。

總之，對普通口語的真正理解與單純的文字（或語言）處理是完全不同的問題，在文字（或語言）處理中，我們可以接受近似正確的結果——也就是NLP。

透過這個簡短的描述，應該可以清楚地瞭解為什麼NLP與NLU不同，以及為什麼NLU對機器來說是困難的。

但是NLU面臨的困難到底是什麼呢？

自然語言理解的困境：缺失文字現象

“缺失文字現象”（Missing Text Phenomenon，MTP），被一度認為是NLU中所有挑戰的核心。

語言交流如下圖所示：傳達者用某種自然語言將思想編碼為語言表達，接收者將語言表達解碼為傳達者想要傳達的思想。

“解碼”過程就是NLU中的“U”，也就是說，理解語言話語背後的思想正是在解碼過程中發生的事情。這個過程中不能有任何妥協和誤差，只能從傳達者的話語裡找到那唯一準確的思想，這便是NLU的困境。

對此，出現了兩個最佳化的方向：

傳達者可以減少一句話裡的資訊量，或者讓接收者增加一些額外的理解工作；

傳達者會盡最大努力，在一句話裡傳遞全部想法，而接收者幾乎什麼都做不了。

這個過程演變出了一個正確的平衡，即傳達者和接收者的整體工作都得到了同樣的最佳化。這種最佳化導致傳達者傳遞的資訊，相對的也遺漏了接收者獲得的資訊。而往往被遺漏的資訊，通常是我們假定的傳達者和接收者都能獲得的資訊，也就是所謂的普通背景知識。

為了理解這一過程的複雜性，請看下圖：紅框中的是未最佳化過的原資訊，而綠框中的是我們所說的“資訊量同等”但內容少了很多的資訊。

綠框裡的話就和我們日常生活說的話一樣，簡短卻保證資訊量的準確傳達。通常我們不會明確地陳述所有其他的東西，因為我們為了有效的溝通，不會去說那些眾所周知的事情，這是人類在20萬年的進化過程中發展出來的技能，但這就是NLU的問題所在：機器不知道我們遺漏了什麼，因為它們不知道我們都知道什麼。

最終，得出一個結論：NLU是非常非常困難的。因為如果一個軟體程式不能以某種方式“揭示”人類在語言交流中遺漏和隱含假定的所有東西，那麼它就不能完全理解我們語言話語背後的思想。這實際上是NLU面臨的挑戰，而不是解析、詞幹提取、POS標記、命名實體識別等等。

上圖列舉了NLU其他的眾所周知的挑戰，而這都是由於MTP（缺失文字現象）。這些句子中，缺失（和隱含假設）的文字都被標記為了紅色。這些例子表明，NLU的挑戰是去發現丟失的資訊，但不是去填補這些資訊，而是對這些資訊為什麼會被人類下意識省略有一個清楚的認識。

下文將列出三個原因，來解釋為什麼機器學習不會解決自然語言理解（NLU）問題。

原因一：機器學習需要壓縮，NLU需要解壓縮

由於MTP的影響，機器對理解自然語言是極其困難的——因為，我們日常交流中的口語是經過高度壓縮的，NLU的挑戰在於，明明知道被壓縮的內容，卻選擇去解壓縮缺失的文字——對於我們人類來說很簡單，而對於機器卻很困難，因為機器並不知道我們都知道的東西。

但MTP現象恰恰說明了為什麼資料驅動和機器學習方法可能在一些NLP下游任務中有用，但卻與NLU無關。已有學者在數學上建立了可學習性和可壓縮性之間的等價關係。也就是說，資料集的易學性只有在資料高度可壓縮（即它有很多冗餘）的情況下才會發生，反之亦然。

而壓縮之間的證據和易學性相當技術，直觀上很容易看出為什麼：學習是關於消化大量的資料和發現一個函式在多維空間的覆蓋整個資料集（以及看不見的資料相同的模式 / 分佈）。因此，當所有的資料點可以壓縮到一個單一的流形時，學習性就發生了。

但是MTP已經告訴了我們，NLU是需要解壓縮的：

機器學習是研究怎麼將大量資料泛化成單個函式。而由於MTP的存在，NLU需要智慧的“解壓縮”技術來發現所有缺失的和隱含的假定文字。

因此，機器學習和NLU是不相容的——事實上，它們是矛盾的。

原因二：沒有統計的意義

機器學習本質上是一種基於在資料中發現某些模式（相關性）的正規化。而自然語言中的各種現象在統計上存在顯著差異。但是，以下面這個例子為證：

Q。獎盃裝不進手提箱，因為它也太

1a、小了

1b、大了

同義詞和反義詞，如“小”和“大”（或“開”和“閉”等）出現在相同的上下文中，機率相等。

因此，（1a）和（1b）在統計學上是等價的，但即使對一個4歲的孩子來說，（1a）和（1b）也是相當不同的：（1a）中的“它”指的是“手提箱”，（1b）中的“它”指的是“獎盃”。

因此，統計分析不能建模（甚至不能近似）語義。

此時便會出現異議：只要用足夠的案例進行填充，機器就可以統計出顯著性。但是，需要多少案例才能讓機器“學習”如何解析上文問題中這樣的結構引用呢？

我們可以對一個“包”、一個“手提箱”、一個“公文包”進行一般化陳述，這些都被認為是通用型別“容器”的子型別。因此，在純粹的資料驅動正規化中，上面的每一個容器都是不同的，必須在資料中分別列出。

如果我們在上面的模式上加上語義上的差異（把“因為”改為“雖然”-），機器學習後一個粗略的計算顯示，一個系統將需要呈現大約4000萬個以上的變化，以學習如何解析引用。

正如著名認知科學家GeorgeMiller的話，為了捕捉NLU系統所需要的所有語法和語義變化，神經網路可能需要比宇宙中原子的數量還要多的特徵數量！

原因三：Intension

長期以來，邏輯學家一直在研究一個名為 “intension” 的語義概念。

為了解釋 “intension” 是什麼，要從“語義三角（meaning triangle）”的概念開始解釋：

在這個三角之中，一個符號用來指代一個概念，而概念可以有實際的物件作為例項。例如，神話中的獨角獸只是一個概念，沒有實際的獨角獸例項。因此，每一事物（或認識的每一物件）都有三個部分：一個指向概念的符號，而概念有時也有實際的例項。

幾個世紀以來，哲學家、邏輯學家和認知科學家一直在爭論概念的本質及其定義。

他們有一個共識：概念（通常由一些符號 / 標籤指代）是由一組屬性和屬性定義的，也許還有附加的公理和已建立的事實，等等。

然而，概念與實際的例項不同，在完美的數學世界中也是如此。

例如，雖然下面的算術表示式都有相同的擴充套件，但它們有不同的含義：

“intension” 決定了概念的外延，但外延本身並不是概念的完整表現。

因此，雖然所有表示式的值都是16，它們的值是相等的，但這只是它們的屬性之一。事實上，上面的表示式還有其他幾個屬性，比如它們的語法結構（這就是（a）和（d）不同的原因）、運算子的數量、運算元的數量，等等。

而這個值只是一個屬性， “intension” 則是所有屬性的集合。

而在應用科學（工程、經濟學等）中，我們可以認為這些物件是平等的，但在認知（尤其是在語言理解）中，這種平等是失敗的。

這裡有一個簡單的例子：

假設（1）是真的，也並不意味著我們可以假設（2）為真，儘管我們所做的只是將（1）中的“16”替換為與它相等的值。在物理科學中，我們可以很容易地用一個具有相同屬性的物體來代替一個物體，但在認知科學中卻行不通。

那麼，關於 “intension” 的討論的要點是什麼呢？

自然語言中充滿了 “intension” 現象，因為語言所傳達的思想物件具有不可忽視的 “intension” 。

機器學習和資料驅動方法的所有變體都是純粹的外延——它們的操作物件是數字，而不是它們的符號和結構屬性，因此在這個正規化中，我們無法在自然語言中建模各種 “intension” 現象。

結語

語言，是我們用來編碼我們擁有的無限想法的工具。在構建越來越大的語言模型時，很多機器學習和資料驅動方法都在徒勞地試圖尋找資料中根本不存在的東西。

本文分享了機器學習不會解決自然語言理解（NLU）問題的三大理由，而這篇文章本身也證明了“語言是被壓縮了”的觀點，其中的遣詞造句都需要大腦來“揭示”所有缺失的資訊。那麼，你認為機器學習未來可以解決自然語言理解（NLU）問題嗎？請參與下方投票和評論，分享你的真知灼見！

原文連結：https：//thegradient。pub/machine-learning-wont-solve-the-natural-language-understanding-challenge/

開啟App看更多精彩內容