人工智慧拯救評論區：七分之一的線上評論都有假？APP開發

據目測，評論區是中國文學大師密度最高，罵人水平最高和逗逼水準最高的地方，A站B站還把評論玩成彈幕。

平臺型APP因“評論”文化的迥異，體現出別樣的審美與趣味，知乎體、爺青回，成為“時髦”的暗號。

在宏觀層面，“網民評論”被定義為具有輿論屬性和廣泛的社會動員能力。所以，排查、約談、暫停、整改、稽核也都是管理機構的常用“大錘”。

評論區，是難以忽視的公共地區。

有一批活躍的、對社群品牌有認同，併產生大量優質內容的使用者，是社群的福氣。

表面上 “評論區”肩負社群氛圍組的重任，是網際網路“公共場所”。

背地裡，分享意見左右消費決策，進而影響生意。

（根據英國政府的資料，僅在英國，線上評論每年就影響了約280億美元的酒旅預訂交易。）

而評論區不是烏托邦，

大眾點評（數量質量都不高，沒營養的口水評論多）

小紅書（水軍多，付費版高階測評師雲集）

淘寶（數量多，看得累，返現金，得好評）

馬蜂窩（偷偷搬運別人家的評論據被實錘了）

這不是單一現象，外媒CNN甚至丟擲一個數字：全球網際網路，七分之一的酒旅線上評論是假的。

“評論區”青山常在，拆不斷，就繞不過人工智慧（AI）的重要方向，自然語言處理（NLP），讓計算機像人類一樣對“中文/文字”進行理解。

群眾高呼，請AI緊急上線，內容檢測、水軍識別、髒話刪除、不良內容處理。

自然語言處理技術，挺行的

話說，NLP技術在網際網路大廠已經用得非常好了，搜尋、推薦、廣告、智慧助理等許多系統中都有身影，技術團隊緊咬學術前沿。

先看工業界，新東方教育2018年就開始有學員使用者畫像專案，進行等級分類。NLP技術對相關結構化資料文字，資料標籤化，並增加使用者圈選和行為事件分析功能，各個業務部門可以根據標籤圈選學員。

汽車之家機器學習小組，為機器之家使用者產品中心下屬認知智慧組，NLP技術支援使用者選車，多輪對話。

2020年，京東智聯雲在雙十一的第一個小時，情感智慧客服服務138萬次，使用情感識別、語音互動等智慧化技術。

美團搜尋，用機器理解使用者的各種查詢意圖。可是，使用者意圖會隨著時間變化，在有限的關鍵詞中解讀出非常豐富的訊號，用於各種搜尋的召回、排序以及展示。美團專門設有人工智慧平臺/搜尋與NLP部門。

再者，美團大腦挖掘、關聯各個場景資料，用人工智慧演算法讓機器“閱讀”使用者針對商戶的公開評論，理解使用者在菜品、價格、服務、環境等方面的喜好，構建人、店、商品、場景之間的知識關聯，可以認為是“餐飲娛樂的知識大腦”，支援搜尋、SaaS 收銀、金融、外賣業務服務。

作為一種非結構化文字，使用者評論蘊含了大量非標準表達的“單詞”。

機器根據句子所在上文的一系列“單詞”，預測後面會跟哪個“單詞”，預測的是機率大小，句子裡面每個“單詞”都有個根據上文預測的過程，把所有這些“單詞”的產生機率乘起來，數值越大，代表這句話越像一句人話，而不是鬼話或者胡話。

所以，除了人類，機器也可以判斷，哪個句子更像一句人話。

“黃鶴樓”一詞，可能有三個意思。武昌蛇山之巔的名樓，北京的商家，湖北香菸品牌。AI演算法也不傻，預測則可結合上下文，前文在講長江、景點、旅遊、票價、登高遠眺，就不會推測出此處的“黃鶴樓”是在講香菸，而是景點的機率更大。

再比如貓眼文娛，可以獲取電影、電視劇、藝人等資訊，形成一部“詞典”。但是隨著搜尋體量增大，搜尋表述複雜，詞典滿足不了使用者需求，就會使用AI模型，作為詞典的補充。

再看學術界，誕生了名叫Transformer的模型（一種深度神經網路），基於Transformer的 BERT模型（2018年技術重大進展），GPT模型（矽谷OpenAI實驗室出品），它們都使用預訓練和微調的思路來解決問題。

預訓練語言模型，就像在無標註文字的大海里，學到潛在的語義資訊，而無需為每一項任務單獨標註大量訓練資料。語言模型預訓練結束，再使用少量標註語料進行微調（Fine-tuning）來完成具體的NLP任務，比如分類、序列標註、句間關係判斷和機器閱讀理解等。

總之，演算法的“效能”得到顯著改善，BERT做大了NLP技術的蛋糕。

運營組，也挺行的

《親愛的資料》和幾位網際網路大廠的運營小哥哥聊了一會，各家“評論”的運營花了很多心思。

抖音的評論區是雙軌制，既有最熱的評論，也有最新的評論。最新的評論可以理解為一個小池子，根據使用者的點贊數量，來看要不要繼續推。這樣能保證發得比較晚的神評論也能排上來，屬於推薦思想在評論區的一種應用。

抖音搜尋是有考慮過識別到評論區如果提問的人比較多，會有提示搜尋的建議。但路徑太長，直接改成了目前的高熱社會類影片下面，加一個今日頭條的文章連結。

常見的處理評論區資料的方法是結構化，電商和酒旅APP都對幾十億條評論區做了結構化處理，這裡是指對資料做結構化處理，因為計算機能處理的都是結構化的，非結構化的資料它理解不了，所以文字在涉及到“理解”這一層，都是需要先結構化。

NLP分析了評價，提煉了“分詞”，加了結構化的外展，相當於找到了“標註”，提高了使用者瀏覽評論的效率。英雄所見略同，使用者理所當然地認為，人數越多，觀點越可信。

日常中，在淘寶購買一款升降桌，“安裝效果好”“質量好”“用後感覺好”。選酒店的時候，你能看到多少人提到了“便宜”、“舒適”，又有多少人提到了“安靜”“交通方便”。

很顯然，消費+社群的評論會有門檻，淘寶、小紅書、大眾點評、馬蜂窩等。商品沒下單，沒經歷的使用者不能參與評論。

看熱鬧的是外行，探店的往往是內行，平臺會傾向把好評往前排，促進轉化，消費後的訴求也會偏多，需要專門的迴應，處理。純娛樂、純討論的社群，參與評論的門檻低，抖音、快手、B站、芒果、豆瓣。一般來說，電商評論運營得好，有賣貨的訴求，大家聊的都是和商品相關的。

小紅書的鐵粉認為，雖然很多評價都是花錢買的。大V粉絲量多了就會接廣告。但是，小紅書整體測評感比較強，和無腦水軍還不太一樣，即使是托兒，也寫得很誠懇。

評論是“UGC（使用者生產的內容）”，既真實，又新鮮，可以挖掘出潛在商業價值。對使用者來說，人人都需要“真實”而且“好用”的評論，無論是“經驗”“乾貨”，還是“指南”。

為啥沒有管好“評論”？

技術這麼硬，起點這麼高，為啥還管不好“評論區”。

這裡，有三個絆腳石：

第一，評論資料質量特別差，注意“特別”兩字。

資料治理水平低導致人工智慧演算法在很多時候效果不好。演算法效果的好壞，與訓練資料有很大關係，可以說一份好的標註資料，用一個普通的演算法，也能有好的效能。現實中，企業想要做好 NLP，首先需要打通基礎資料。評論資料的底子太差，麻袋上繡花，白費勁。

第二，“假裝”在用。

反正大家都在智慧化，裝也得裝著在用。把AI技術用起來，是“老闆們”的剛需。有時候，工程會退化到自動化階段，只是少部分用了演算法智慧。目前做得多的，也就是情感傾向分析，垃圾評論過濾等等。AI用不好，會變成噱頭，可能倒退到最基礎的統計分析圖表。

第三，不重視。

很多網際網路廠商認為，評論區是第二場景，有些二等公民的意味。

說白了，不夠重視，或者說支援主要業務“（推薦和搜尋）”的技術還做得不夠好，根本顧不上評論區。挖掘得不夠，應用的深度和廣度不夠。管理評論的主動力之一就是隻是滿足政府管理部門的監管要求。

綜上，NLP技術對運營的號召力還不夠大，影響還不夠深刻，NLP與運營還沒有形成彼此不分的魚水關係。

英國南安普頓大學畢業的AI演算法科學家袁雪瑤，也在採訪中透露：“網際網路廠商會針對使用者釋出的評論內容有半人工識別，加上人工的資料標註。NLP現在比較成熟的領域有，情感分析、輿情分析、和使用者畫像，這些會對運營有比較適中的影響。”

（基於深度學習的情感分類方法，它能夠從海量的資料中主動學習文字中的語義資訊並獲得文字的特徵與情感分類，達到精準提取文字資料與情感的目的。比如“消極”“積極”）

一位來自平安智匯企業有限公司的演算法專家也認為：“評論裡，口水多，分析就是得把其中有價值的給自動篩選出來。NLP技術正在解決問題，還做不到藥到病除。”

“適中”一詞用得特別好，NLP還有很大的戰場，要與運營做盟軍，攻克業務側的難題。評論中使用的挖掘技術方法也包含了很多種，規則、傳統機器學習模型、深度學習模型等。

雖然專職挖掘“評論”商業價值的明星AI產品似乎還沒有出現，但是，有人注意到了。

東京大學的創業企業TDAI Lab認為應該面向點評網站等推銷人工智慧工具。

他們分析了4000多個日式拉麵餐廳的評論，釋出了東京版“人工智慧排名，最優百家拉麵店”。

在剔除疑似“刷好評”和“惡意差評”的情況下，人工智慧選出了評價高的店鋪。

分析“評論區”不立刻關乎生死，又能給企業降本增效的場景不應該被忽視。

AI 技術需要算力，需要資料，需要演算法模型，更需要應用場景。很多AI公司一開始就想給高速列車換輪子，以這種雄心壯志去敲開傳統企業的大門成功率很低，因為客戶對新技術和AI公司都沒有信任。

刷好評和惡意差評，消費者和餐飲店都有損失。消費者找不到好店，好店也失去了商機。

1968年，哈定（Garrett Hadin）在《科學》雜誌上發表了一篇文章，題為The Tragedyof the Commons。譯成《公地悲劇》，原文中的the commons還包括公共的空間。

評論區環境的惡化，沒有人是贏家。AI稽核、AI接管評論區是必然趨勢，“評論”需要才華，管好“評論”更需要才華。

如有不同看法，請留下您寶貴的意見！