能聽懂口音的開源語音系統來了：OpenAI出品，支援99種語言

羿閣發自凹非寺

量子位 | 公眾號 QbitAI

逼近人類水平

的語音識別系統來了？

沒錯，OpenAI新開源了一個名為

「Whisper」

的新語音識別系統，據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性！

不僅如此，對於

不同口音

、

專業術語

的識別效果也是槓槓的！

一經發布就在推特上收穫

4800+點贊

，

1000+轉發

。

網友們紛紛對它意料之外的強大功能表示驚訝。

不僅是英文，有人用法國詩人波德萊爾的《惡之花》進行了語音測試，得到的文字

幾乎與原文一致

。

OpenAI聯合創始人&首席科學家Ilya Sutskever就表示：

終於有一個靠譜的語音識別系統能聽懂我的口音了。

前任特斯拉人工智慧總監Andrej Karpathy甚至轉發評論：OpenAI正處於最好的狀態中。

話不多說，讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。

逼近人類水平的語音識別系統

首先，Whisper最大特點是它使用的

超大規模訓練集

：

它使用從網路上收集的

68萬小時

的多語言、多工監督資料進行訓練。

這導致資料集的內容非常多元化，涵蓋了許多不同環境、不同錄音裝置下、不同語言的音訊。

具體而言，65%

（438218小時）

是英語音訊和匹配的英語文字，大約18%

（125739小時）

是非英語音訊和英語文字，而最後17%

（117113小時）

則是非英語音訊和相應的文字。

其中，非英語部分共包含

98種

不同語言。

不過，雖然音訊質量的多樣性可以幫助提高訓練模型的魯棒性，但轉錄文字質量的多樣性並不是同樣有益的。

初步檢查顯示，原始資料集中有大量不合格的、現有自動語音識別（ASR）系統生成的轉錄文字。

而以往的研究表明，在人工和機器混合生成的資料集上進行訓練，會顯著損害翻譯系統的效能。

為了解決這個問題，研究團隊開發了幾種自動過濾方法來識別和刪除低質量的資料來源。

但值得一提的是，沒有說話內容的片段會被留下，作為語音活動檢測的訓練資料。

其次，Whisper體系結構是一種簡單的端到端方法，具體來說就是Transformer的編碼器-解碼器格式。

輸入音訊被分成30秒的片段，再轉換成log-Mel譜圖，然後傳入編碼器。

解碼器被訓練來預測相應的文字標題，並混合特殊標記，指示單一模型執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。

除此之外，研究人員還為Whisper設定了

5種不同的型號

，以下是各模型大致的記憶體需求和相對速度，使用者可以自行選擇。

但需要注意的是，只有“large”型號支援多語言，前4個模型都只支援英語。

不過不需要擔心，與其他模型相比，英文語音識別正是Whisper的核心競爭力。

實驗結果證明，Whisper在Librispeech test-clean測試的錯誤率達到2。7%。

雖然這一數值與Wav2vec 2。0一樣，但在零樣本效能上，Whisper明顯更穩健，

平均誤差減少了55%

。

甚至零樣本Whisper模型還

縮小了與人類魯棒性之間的差距

。

可以看出，與人類Alec相比，LibriSpeech模型的錯誤率大約是人類的兩倍，而Whisper模型的魯棒性邊界則包括Alec95%的置信區間。

研究團隊

Whisper的研究團隊來自OpenAI，共同一作有兩位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的機器學習研究員，也是indico。io的聯合創始人。

Jong Wook Kim，在紐約大學獲得了音樂技術專業的博士學位，研究方向包括多模態深度學習和音樂理解，目前是OpenAI的研究人員。

值得一提的是，研究團隊指出，雖然目前Whisper還沒有實時功能，但它的執行速度和記憶體大小表明，在這一基礎上搭建實時語音識別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性，將允許開發人員將語音介面新增到更廣泛的應用程式中。

論文和GitHub連結附在文末，感興趣的小夥伴們可以自取～

論文連結：

https：//cdn。openai。com/papers/whisper。pdf

GitHub連結：

https：//github。com/openai/whisper#approach

參考連結：

［1］https：//colab。research。google。com/github/openai/whisper/blob/master/notebooks/LibriSpeech。ipynb

［2］https：//techcrunch。com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/？guccounter

［3］https：//news。ycombinator。com/item？id=32927360

［4］https：//twitter。com/alecrad

［5］https：//jongwook。kim/

— 完 —

量子位 QbitAI · 頭條號簽約