機器翻譯為何仍取代不了人類?自然語義的微妙是其瓶頸

機器翻譯為何仍取代不了人類?自然語義的微妙是其瓶頸

機器翻譯技術在近年來取得了長足進步,並且逐步逼近平行對譯的境界。在西方諸語種之間,機器翻譯的準確率已經穩居90%以上。(人民視覺/圖)

機器翻譯技術在近年來取得了長足進步,已經在諸多語種與諸多領域實現了從0到1的突破,並且逐步逼近平行對譯的境界。在西方諸語種之間,機器翻譯的準確率已經穩居90%以上,即便是長期以來難度頗大的中-英或是英-中對譯,機器翻譯的準確率也在穩步增長,Deep L與Google Translator的成就屢屢令人驚呼,人類是不是即將退出翻譯這門古老的職業。

然而,幾年前人們的樂觀與預言,在2022年並沒有實現。人工翻譯不但沒有退出歷史舞臺,甚至還在機器翻譯的輔助下多掙了不少錢。另一方面,機器翻譯似乎總面臨那麼一點瓶頸,哪怕99%的內容都不出錯,仍然會在最後一公里卡殼,不是需要人工查漏補缺,就是弄出謬以千里的笑話。

為什麼機器翻譯仍然無法完全獨立工作,以至於完全取代人類?這個問題有兩個層次:一、人工智慧自身的工作機制;二、翻譯的本質。

人工智慧的理念早在冷戰期間就已提出,為何隔了幾十年才有跨越式的進展?原因就在於,人類收集、儲存與呼叫資料的能力有了飛速進步,成功地將機器學習的原理從“基於規則”變成了“基於資料”。大資料讓機器得以運用“監督學習”(有資料標籤)、“無監督學習”(無資料標籤)與“強化式學習”(甚至不需要資料)這樣的方法,用機器語言提出並解決問題,然後轉譯為自然語言,解答人類的難題。但在最後,所有類似的機器學習都要依賴資料。沒有資料,就不可能有人工智慧。

機器翻譯是人工智慧推動的,人工智慧的工作機制則以“機器學習”為核心。機器語言有效利用資料,憑藉強大的算力進行機器學習,有效轉譯並解答自然語言,已經成功在一個個領域攻城略地。

比如圍棋。一盤圍棋的可能性是一個天文數字,超過宇宙現存的原子總數。圍棋向來被認為是人工智慧難以攻克的所在,但這個態勢在阿爾法狗出現以後也有了很大改觀。阿爾法狗只需要自己與自己下棋,就憑藉“強化式學習”獲得海量資料,依託圍棋自身的規則解答難題。人工智慧棋手不知疲倦地訓練,儘管算力不可能窮盡宇宙原子總數,但也將人類棋手甩在了身後。

但在機器翻譯這個領域,人工智慧需要處理的資料量顯然遠遠超過了一盤圍棋的無數種可能。自然語言的龐大語料庫首先就是對機器算力的挑戰,它需要在浩如煙海的文獻裡爬梳整理;其次,自然語言與機器語言之間的轉換,很難有圍棋那樣明確的規則。

與其說人工智慧在處理自然語言,倒不如說它要面對的是兩種或者多種語言構成的全部公共知識,甚至還有一些不那麼公共的知識。這是個浩大的工程,哪怕人工智慧結合了多種機器學習的機制,如何向其投餵語料庫資料也是個道阻且長的任務。

不但如此,語言的演變速度非常非常快,熱詞往往在幾年之間就已經不再流行,或者是意義全失,這一過程是機器無法或者難以理解的。不同語種的自然語言還衍生出了完全不同的公共知識,哪怕是同一句話,在語境不同或者說話人主體不同的情況下,意思可能就完全不同——這還是沒有考慮到斷句、語氣等連自然語言也會產生歧義的情況。比如說,“顆粒度”與“賦能”這些網際網路公司黑話,物理學家與網際網路產品經理所說的必定不是同一個意思。

如果某個學科、某個詞語需要實現兩種語言/公共知識之間的第一次對譯,甚至是在同一門語言裡的提喻(metonymy),那麼這項任務仍然需要仰賴人工翻譯。這並不代表機器的算力有限,也不意味著機器的資料處理能力不強,而是機器還不能像人類大腦的神經網路一樣理解自然語言的生髮機制,自然語言也無法在自然科學以外的學科領域與機器語言一一對應。甚至,自然語言本身仍然擁有很大難以為機器語言理解的空間。問題逼到這一步,已經變成了一個“機器能否像一個真正的人一樣理解、思考、表達,擁有與人類一樣的慾望與本能,過著像人類一樣的生活,真正學會一門語言”——這就是圖靈測試邊界以外的更深層次問題了,也是科幻電影至今都無法完美預測的前景。

這並不是在貶低人工智慧。實際上,人工智慧對人工翻譯提出了愈來愈大的挑戰。人工翻譯在譯介一門語言時,首先需要掌握至少兩門語言背後的全部公共知識。顯然,人類大腦在資料量與算力上根本無法與機器相比。在人類知識總量持續突飛猛進的今天,優先用機器解決已經成熟的公共知識對譯工作,集中精力處理機器難以揣摩的公共知識,藉助機器翻譯節省精力與時間,已經是資深譯員的不二之選。即便機器翻譯尚未完全取代人類,人類也已經離不開機器翻譯了。

(作者系網際網路從業者、譯者)

(本文僅為作者個人觀點,不代表本報立場)

克之