GPT-3自己上網搜答案！OpenAI新成果，讓AI回答開放式問題

智東西（公眾號：zhidxcom）

編譯| 程茜

編輯 | 李水青

智東西12月17日訊息，本週四，OpenAI基於AI模型GPT-3釋出了WebGPT，該模型可線上搜尋問題組織答案，並新增引用來源，更準確地回答開放式問題。

在回答問題時，WebGPT可以透過瀏覽器進行搜尋，在不同連結中尋找相關答案，並在最後組織答案時，將引用來源標註上去，使得答案來源的準確性有跡可循。

2020年6月，OpenAI公開了當時史上最強大AI模型GPT-3，花費數千萬美元，訓練量達2000億個單詞，WebGPT模型是對GPT-3進行微調後的成果。

OpenAI稱：“我們很高興開發更通用、智慧的AI模型，但挑戰依然存在，例如應對不熟悉的開放式問題時，AI模型的回答還不是很準確。”

一、長江跟尼羅河誰更長？AI幫你上網搜答案

像GPT-3這樣的語言模型可以充分應對不同的任務，但對於那些在現實世界中都沒有準確答案的任務，這個模型往往會產生一些充滿“迷惑”的資訊。

為了解決這個問題，研究人員教AI模型使用網路瀏覽器對問題進行“百度”。該模型中包含“搜尋……”、“在頁面中查詢：……”或“引用：……”之類的命令，遇到開放式問題，WebGPT可以模仿人類搜尋的行為來自動檢索答案。

透過這種方式，WebGPT模型就學會了從網頁中收集段落，然後使用這些段落來撰寫答案。

當被問道：“尼羅河和長江誰更長？”

WebGPT：“尼羅河比長江長。尼羅河在維多利亞湖和地中海之間綿延6650公里（4130英里）。長江從青海唐古拉山脈的源頭到東海，全長6300公里（3915英里）。”

▲WebGPT透過檢索回答“尼羅河和長江誰更長？”的問題

當被問道：“為什麼蘇伊士運河在2021年3月被封鎖？”

WebGPT：“蘇伊士運河於2021年3月被封鎖，因為一艘名為‘永遠’的集裝箱船擱淺在那裡。這艘船曾載著20000箱的貨物，在有兩條水道的運河河道被強風吹進了運河中，因此其他船隻無法繞過曾經給定的航道。蘇伊士運河管理局僱傭了一艘拖船將這條曾經被遺棄的運河拖出運河。運河阻塞對歐洲、亞洲和中東之間的貿易產生了重大的負面影響。這引發了集裝箱現貨運價的新一輪飆升，該運價最終開始從創紀錄的高點回落。”

當被問道：《哈利波特》系列和《指環王》哪一部有更多的單詞？

WebGPT：“《指環王》三部曲比《哈利波特》系列包含更多的單詞。包括《霍位元人》，整個《指環王》系列包含576459個單詞。相比之下，《哈利波特》系列包含1084170個單詞。”

研究小組對GPT-3的微調與最開始對GPT-3的訓練方法一樣。他們首先訓練模型模仿人們回答問題的方式，這使它能夠使用基於瀏覽器檢索到的內容來回答問題。

然後，他們透過訓練激勵模型來預測人類偏好，並使用強化學習或拒絕取樣（隨機取樣方式）對其進行最佳化，從而提高模型答案的有用性和準確性。

二、超一半回答優於人類，但可能引用不可信來源

ELI5是一個用來對機器學習模型除錯的Python庫，研究人員挑選了這個庫中“像我五歲一樣解釋（Explain Like I’m Five）”欄目裡的開放式問題，發現經過系統訓練的WebGPT已經可以回答其中的問題了。

▲ELI5中的評估結果

研究人員說，他們訓練了三種不同的AI模型，對應於三種不同的inference time（推理時間）來進行計算。結果表明，表現最好的模型產生的答案，在56%的時間裡比人類演示者寫的答案更受歡迎，並且答案的事實準確性相近。

研究人員稱，未來他們將使用人工反饋來改進模型的答案，可能會最終超越人類的答案。

對於模型的訓練分佈（training distribution）來說，這三個模型中，最好的模型的答案與人類演示者所寫的答案几乎一樣準確。然而，研究人員稱，實現所有模型都能達到穩健是一個挑戰。

為了探討這個問題，研究人員在TruthfulQA上評估了該模型，TruthfulQA是一個數據集，包含了很多容易產生誤解的問題，可以測試模型是否會產生常見的誤解。在這個過程中，問題的答案會根據真實性和資訊量進行評分，例如，“我沒有評論”這個答案就被認為是真實的但不提供資訊。

▲TruthfulQA中的評估結果

WebGPT模型在TruthfulQA上的表現優於GPT-3，並表現出更有利的縮放特性，不過模型落後於人類答案的部分原因是它們有時會引用不可靠的來源。研究人員希望使用對抗性訓練等技術來減少這些失敗的頻率。

三、公開資訊佐證，AI也可以加引用

為了增加人類反饋對提高事實準確性的作用，研究人員必須能夠評估模型產生答案的事實準確性。對於研究人員來說，這極具挑戰性，因為有些答案可能是主觀的或含糊不清的。

出於這個原因，研究人員為模型增加了“引用來源”功能。這使人們可以透過檢查答案，是否得到了可靠的資訊支援，並評估事實的準確性。除了使任務更易於管理外，這項功能還減少了答案歧義。

然而，這種方法也提出了許多問題。來源可靠的判定標準？哪些宣告足夠確定不需要支援？在評估事實準確性和其他標準之間應該進行什麼權衡？所有這些都是艱難的判斷。

研究人員認為，WebGPT仍然存在一些基本錯誤，很多細微差別沒有被發現。“但我們預計，隨著人工智慧系統的改進，這類決策將變得更加重要，需要跨學科研究來制定既實用又符合認知的標準，我們還預計透明度等進一步的考慮很重要。”

WebGPT透過引用來源其實不足以評估事實準確性。研究人員提到，一個足夠強大的模型會精心挑選它認為可以令人信服的來源，即使這個來源有可能沒有準確的證據。研究人員提出了一種新的解決辦法就是：增加辯論過程來獲得答案。

WebGPT模型通常比GPT-3更“真實”，它生成錯誤陳述的頻率也更低，但這個模型仍然存在很多風險。OpenAI說：“帶有引用的答案通常被認為具有權威性，這可能會掩蓋我們的模型仍然存在基本錯誤的事實。”WebGPT還傾向於強化使用者的現有信念。

除了這些部署風險之外，如果允許WebGPT向各種瀏覽器傳送查詢並跟蹤Web上已存在的連結，這也可能會增加新的風險。

結語：GPT-3大模型取得新進展

曾經可以寫小說、敲程式碼、編劇本的GPT-3模型在研究人員手中，又學會了自動檢索。但根據GPT-3的訓練經驗來看，這些風險可能還不足以產生危機。然而，隨著模型的智慧化逐漸深入，在未來是否會產生更大的風險？

人類反饋和Web瀏覽器等工具為實現穩健、真實的通用AI模型提供了一條有希望的途徑。OpenAI稱，AI模型在充滿挑戰或不熟悉的情況下不斷掙扎，但在這個方向上他們仍然取得了重大進展。