輸入“一頭長髮”可生成端莊甜美嗓音，“訊飛超腦2030”將開放500個虛擬合成聲音

想足不出戶遊覽祖國大好河山？與表情豐富、情感細膩的虛擬人對話，無需穿戴裝置就能“打破”空間界限，“說走就走”帶你“瞬移”到旅遊景點，目及之處皆是美景、遠觀近瞧隨心所欲，開啟一場身臨其境的沉浸式“雲旅遊”。

這個AI能力“硬核”的虛擬導遊，集成了“訊飛超腦2030計劃”的多模感知、多維表達、深度理解等多項前沿技術，讓真人和虛擬人可以非常自然地“穿越”不同場景對話，給人機互動帶來全新的沉浸式體驗，在安徽合肥體育中心就能現場體驗。

在日前舉行的2022科大訊飛全球1024開發者節上，科大訊飛AI研究院副院長高建清以“AI新紀元，訊飛超腦2030”為主題，解密“訊飛超腦2030計劃”階段性技術突破，一大波“預演未來”的創新應用將走入生活，讓AI惠及每個人。

2022年伊始，科大訊飛正式釋出“訊飛超腦2030計劃”，要讓人工智慧“懂知識、善學習、能進化”，讓機器人走進每一個家庭。計劃的核心，是以價值創造為根本，透過AI技術持續的核心源頭技術創新和系統性創新，讓機器遠不止具備“你問我答”的基礎智慧，還擁有更強的互動、運動能力，以解決未來社會重大剛需命題。

高建清表示，實現“訊飛超腦2030計劃”，要突破人工智慧共性基礎演算法，攻克多模態感知、多維表達、認知智慧、運動智慧等核心技術，也要研究軟硬一體的機器人關鍵技術。此外，要探索虛擬人互動、機器人等方面的示範應用。

“無監督

學習

”

新突破

，“

超腦”更懂知識

“支撐‘訊飛超腦2030計劃’的發展，有兩個關鍵演算法亟待突破，無監督學習和知識推理。”高建清說，前者要實現實用化、場景化的預訓練技術，後者要構建基於知識檢索、決策以及融合的推理系統。

科大訊飛設計了基於無監督學習的預訓練框架，並創新使用了少量有監督資料進行最佳化，大幅提升訓練效率。

針對多模語音識別、情感識別等多模態任務，全新的預訓練框架對音訊、人臉等不同模態的輸入“一視同仁”，利用其中內容、表情及身份等資訊的關聯性進行融合，可設計出不同的訓練目標。而少量有監督資料構建碼本，讓訓練機時下降八成，實現了實用化預訓練。在無監督學習的預訓練演算法框架下，訊飛開放了輕量化的中文語音、中英文多模態預訓練模型，高建清說，“預訓練模型支援語音識別、聲紋識別、情感識別、多模態語音識別等多個任務，引數量遠遠少於業界公開的模型，但效果卻達到了業界最優。”

在知識推理方面，以回答“麵包在低溫下會馬上發黴嗎”為例，機器要理解“低溫變質慢”等常識，在引入海量知識的基礎上，要用預訓練模型進行知識重要性排序，也要融合知識與問題進行推理，才能與人暢聊“麵包變質的二三事”。

此外，科大訊飛還探索將神經網路與符號推理相結合，實現了推理過程的可解釋性。應用於小學平面幾何題上，這個推理系統讓AI答題的正確率從完全不可用，提升到了90%的水平，顯著優於傳統推理系統。

“唇形

語音”多模態感知，“喚醒”人機互動新模式

環境太吵、人聲太多，語音互動怎麼辦？在“訊飛超腦2030計劃”中，科大訊飛用“唇形+語音”的多模態語音增強技術，喚醒智慧語音互動新模式。

“機器想更自然地與人類進行互動，需要透過聽覺、視覺、語義以及各種感測器的組合去獲取更多的有用資訊，AI感知方式必然要從單模態發展到多模態，逐步擬人化。”高建清表示。

繼“語音識別在多人討論場景下效果做到70%”“多點噪聲干擾場景做到了可用”之後，今年，科大訊飛挑戰商場、醫院、地鐵等複雜場景，提出了全新的多模態語音增強與識別框架。結合影片資訊輸入，新技術可以利用人臉、唇形、語音等多模態資訊的互補，將主說話人的乾淨人聲從嘈雜背景環境中分離出來，顯著提升開放場景的識別效果。

一個典型的場景是，當你在嘈雜的環境中通話，旁邊其他人也在說話，搭載了多模感知技術的應用系統只“聽”到你的聲音，不受旁邊嘈雜音干擾，從而非常順利地完成溝通。

此外，科大訊飛還提出基於多元語義評價的“語音識別一體化”框架，在語音輸入過程中，透過“語義糾錯+語音識別”聯合最佳化來提升語音識別的可懂度。“這一方案，從使用者主觀理解度層面有了極大改善，是真正站在使用者體驗的角度最佳化系統的一種方法”，高建清表示，這個演算法主要解決“語音識別準確率高，但使用者體驗不好”的現實問題。

多情感多風格語音合成

，虛擬人有溫度有個性

如何讓機器的聲音媲美人類？這是AIGC領域需求量大、技術門檻高的難題。

高建清分享了科大訊飛在語音合成技術領域的新突破——多風格多情感合成系統SMART-TTS，語音合成從簡單的資訊播報“變身”具備喜怒哀樂情感的語音助手。

“系統充分利用了文字和語音的‘無監督預訓練’，實現了從文字到聲學特徵、再到語音的端到端建模。”高建清介紹，SMART-TTS系統可提供“高興、抱歉、撒嬌、嚴肅、悲傷、困惑、害怕、鼓勵、生氣、安慰、寵溺”等11種情感，每種情感有20檔強弱度不同的調節能力；也能提供聲音的創造能力，如停頓、重音、語速等，可以根據自己喜好調節，真正實現了合成系統媲美具備個性化特點的真人表達能力。

現場播放的影片展示了SMART-TTS的多風格多情感語音合成能力：當你漫步林蔭路，TA可以用字正腔圓的“播音腔”為你讀新聞；當你結束一天工作準備入睡，TA可以輕聲細語讀為你散文；當你驅車去公司上班，TA可以用你最喜歡的歌手聲音告訴你走哪條路不堵車；當你和家人一起觀看紀錄片，TA可以為紀錄片不同人物配音。人機互動表達自然、情感飽滿。目前，訊飛有聲APP和訊飛開放平臺都開放了SMART-TTS語音合成系統，開發者可以在訊飛有聲直接下載體驗，或在開放平臺進行呼叫。

同樣隸屬於AIGC範疇，在聲音和虛擬形象生成技術方面，科大訊飛實現了語義可控的聲音、形象生成，語義驅動的情感、動作表達。比如：你輸入“一頭長髮”，系統智慧生成溫柔大方的女性形象，聲音端莊又不失甜美；輸入“英俊瀟灑”，生成有一些商務範的男生形象，聲音略帶磁性。

此外，訊飛還實現了語音語義驅動的動作合成，透過對語音節奏、韻律體會和語義理解，虛擬人可以隨時、流暢地切換動作，擁有更加自然的肢體語言。“與傳統動作庫相比，這套語義驅動的系統在動作擬人度及契合度方面，有明顯的效果提升。”高建清表示。

創新互動系統認知技術，

對話“滔滔不絕”

想讓AI告訴你《獨行月球》這部電影講什麼？沒問題！今年，科大訊飛在互動系統的認知關鍵技術取得突破性進展，今年以來，依託科大訊飛建設的認知智慧國家重點實驗室相關團隊在認知智慧技術突破方面奪得3項國際冠軍——在常識推理挑戰賽CommonsenseQA 2。0中重新整理機器常識推理水平世界紀錄，在科學常識推理挑戰賽OpenBookQA中以準確率94。2%的絕對優勢奪冠，在常識推理挑戰賽QASC中以多模型準確率93。48%、單模型準確率92。07%奪冠，後兩項比賽更是超越人類平均水平。

隨著核心源頭技術創新和系統性創新的持續突破，AI擁有更加“智慧”的語義理解和對話生成能力。“好的人機互動系統，在開放式的場景下要具備深度理解能力，並能瞭解互動物件從而發起主動的對話。”高建清說，圍繞認知智慧技術，訊飛實現了於語義圖網路的開放場景語義理解，基於事理圖譜的對話管理，基於知識學習的可控對話生成。

其中，面向開放世界的基於圖表示的深度語義理解體系，增加了關係預測模組，形成資訊豐富的語義完備的語義表示圖，並將要素和關係都進行具體化，可以更精準的理解使用者的意圖，從而更準確回答使用者問題，解決了AI對開放問題無能為力的痛點。目前，訊飛定義了1517個意圖、近2000個事件，“透過這個框架的提出，我們在深度語義理解技術上又邁進了一大步。”

技術“立地”專業領域，用

解決社會

剛需

命題

會上，高建清還分享了“訊飛超腦2030計劃”的技術應用。

除了文章開頭提到的沉浸式虛擬導遊外，訊飛基於多模態互動、以及醫療認知技術，研發了一套抑鬱症定量篩查系統。“可模擬心理醫生的問診思路進行互動設計，使用者透過與機器聊天的方式即可初步實現病情的定量評估，篩查效果達到91。2%，超過業界最好的水平。”

目前，這一系統已經在北京安定醫院等醫療機構進行了試點應用。“未來，基於定量篩查基礎能力，我們將研發抑鬱症篩查平臺，向更多的學校推廣，助力青少年的心理成長。”高建清表示。

作為“訊飛超腦2030計劃”的階段性成果，今年訊飛打造了多款專業虛擬人，分別用於客服、助理、招聘、財務、法務等行業的工作，他們都具有一個共同的特點——豐富的專業知識。透過深入學習行業知識，訊飛定製研發了多行業互動大腦，目前已為金融、電信、媒體等多行業提供專業虛擬人解決方案，為“數字經濟”服務。

作者：沈湫莎

圖片：主辦方提供

【來源：文匯網】

宣告：轉載此文是出於傳遞更多資訊之目的。若有來源標註錯誤或侵犯了您的合法權益，請作者持權屬證明與本網聯絡，我們將及時更正、刪除，謝謝。郵箱地址：newmedia@xxcb。cn