OPPO 在CVPR2022取得佳績:7篇論文入選、8項挑戰賽獲獎

OPPO共計七篇論文成功收錄CVPR 2022 ,創歷年新高,在多個關鍵研究領域實現創新突破

2022年6月23日,深圳——年度計算機視覺頂級會議CVPR(Conference on Computer Vision and Pattern Recognition國際計算機視覺與模式識別會議)在新奧爾良落下帷幕。今年,OPPO有七篇論文成功入選,躋身一流科技廠商之列。同時在廣受關注的挑戰賽上,OPPO也取得了三項第一、一項第二、四項第三的良好成績。

OPPO 在CVPR2022取得佳績:7篇論文入選、8項挑戰賽獲獎

隨著深度學習逐步成熟化規模化,人工智慧技術從“感知智慧”向“認知智慧”邁進。AI除了“看到”或“聽到”,開始初步逐步具備像人類一樣的思考能力。多模態融合、3D視覺智慧技術、自動機器學習等正在成為人工智慧領域的關鍵研-究熱點。OPPO在上述領域都均實現論文收錄,在AI關鍵學術領域取得創新突破。

OPPO 智慧感知首席科學家郭彥東表示:“在2012年,為了影象識別任務而設計的深度神經網路重新給人工智慧的研究與應用注入了能量。從此,人工智慧(AI)技術迎來了飛速發展的10年。在OPPO,我們持續推動人工智慧完成像人一樣複雜的感知與認知行為。比如,從無標籤的海量資料中持續學習並遷移到下游具體任務,從幾個有限視角中完整的重建3D資訊;更高級別的認知能力,比如對美的理解與創作;以及具有自主行為能力的“實體AI”(embodied AI),比如自動駕駛場景中的行為預測等。很高興OPPO繼2020年首次亮相後,在短短的3年內就實現了7篇主會論文入選的好成績。未來,我們希望繼續向更基礎、更前沿的AI領域探索,推動AI的商用落地,讓創新科技更好地服務於人。”

7篇論文獲得收錄,OPPO正在助力AI認知水平升級

本次CVPR2022上,OPPO共有7篇CVPR入選論文,涵蓋多模態資訊互動、三維人體重建、個性化影象美學評價、知識蒸餾等多個研究領域。

不同模態資料的特性各不相同,像文字、語言這樣的資訊概括性極強,而影象往往包含大量細節。在多模態資料下,能夠在模態間建立起有效互動對於AI來說是一件十分有挑戰性的事情。OPPO研究人員基於CLIP模型提出了全新CRIS框架,使得AI能夠更加細粒度地理解影象與文字兩種模態的資料。即使輸入包含多重資訊的文字描述,該框架也能夠準確聚焦到對應的影象區域,顯示出強大的細粒度跨模態匹配能力。

當前,人類的智慧和人工智慧最重要的區別之一在於對於多模態資訊的識別和理解。對於人類來說,我們往往可以同時理解文字和影象,並將其有效關聯。但AI更多停留在識別階段,很難將不同模態的資訊精準對應。本次OPPO提出的創新方法可以幫助人工智慧在多模態理解上更進一步。未來,隨著相關技術的不斷髮展,人工智慧可以真的可以像科幻小說中描述的那樣,透過語言、聽覺、視覺等多重資訊去認知真實世界,真正地成為人們最好的“幫手”。

同樣,在近期熱門的三維人體重建領域,OPPO研究院透過改進NeRF創新的動態角色建模方法,在業界首次實現了自動為寬鬆著裝人體建立數字分身的工作。該建模方法僅透過分析攝像頭所拍攝的RGB影片,就可以1:1精準還原人物動態細節,甚至包括衣服細小logo或紋理細節。衣服的建模還原一直是業界挑戰較大的領域之一,因為人體姿態發生變化的同時衣服物料的形變非常複雜,從而導致AI難以解算像“裙襬”這樣的部位形變。此舉可有效降低三維人體重建的門檻,為線上虛擬試裝購物、AI健身乃至VR/AR虛擬世界的真正落地提供良好的技術基礎。

隨著AI影象識別能力的逐漸成熟,如何讓AI具備影象審美能力成為新的難題。AI的審美能力往往強關聯訓練所使用的資料和標註者的偏好,而人的審美往往是千人千面的,採用基於大資料的美學評價來為不同使用者服務,這可能會引發人們對於“審美歧視”的討論,造成不好的使用者體驗。因此,透過更精細化的資料和模型,準確捕捉不同使用者的審美差異的個性化美學評價應運而生。

對此,OPPO研究院聯合西安電子科技大學李雷達教授,開創性地提出了帶條件的PIAA演算法(Conditional Personalized Image Aesthetics Assessment),首次從“使用者主觀偏好與影象美學相互作用,如何產生個性化品味”角度出發對AI模型進行最佳化。該演算法可以基於不同使用者畫像資訊實現個性化的審美評價,可以為使用者在相簿、相機、網際網路內容推薦等場景中打造個性化體驗,具有廣闊的應用前景。

隨該演算法一併提出的帶有豐富屬性標註的個性化美學評價資料集也已宣佈開源,為業界在個性化美學評價領域的研究提供了有價值的研究資料,目前該資料集已收到多家研究機構及高校的關注和問詢。

此外,OPPO提出的多檢視三維語義平面重建技術能夠準確解析場景的三維平面結構,並預測地面、桌面、牆面等平面的語義標註,其效果明顯優於當前主流單檢視重建架構。而聯合清華大學提出的INS-Conv (INcremental Sparse Convolution),能達到更快及更準確的線上3D點雲語義及例項分割推斷,該技術可以有效降低環境識別對於終端算力的要求,為全自動駕駛、虛擬現實這樣前沿技術的落地增加了可能。

斬獲NAS挑戰賽亞軍 OPPO創新模型助力AI“輕量化”

在同期舉辦的挑戰賽中,OPPO也表現出色,在八大賽項中斬獲佳績。包括目前行業關注的神經網路架構搜尋技術(NAS)賽道、足球行為檢測(SoccerNet Action Spotting)賽道、足球回放定位(SoccerNet Replay Grounding)賽道、時序動作定位(ActivityNet temporal localization)賽道、大尺度影片目標分割挑戰賽(The 4th Large-scale Video Object Segmentation Challenge)、ACDC挑戰賽(the ACDC Challenge 2022 on semantic segmentation in adverse visual conditions)和運動預測挑戰賽(WAD Argoverse2 Motion Forecasting)。

從手機攝影到無人駕駛,深度學習模型走進越來越多行業。但深度學習非常依賴大資料和大算力,學習成本高,這也給前沿AI技術的商用落地帶來了挑戰。神經網路架構搜尋技術(NAS)可自動發掘神經網路的最優架構,降低對人工經驗和背景知識的依賴,讓AI也可以實現“自主學習”。在比賽中,OPPO研究人員透過最佳化訓練超網過程中的模型引數遺忘及不公平的梯度下降問題,針對“繼承”超網引數的45000個子網路,有效地提高了子網路在效能及效能排序上的一致性,最終取得了第二名的好成績。

NAS技術的發展使得研究人員只需訓練一個大的超網路,然後透過繼承超網引數方式低成本構建預測器,實現網路架構自我學習,從而高效地獲得優於專家設計的深度學習模型。該技術可適用於當前大部分人工智慧演算法,可以幫助AI技術在移動端裝置上的應用,讓使用者體驗到AI技術快速落地帶來的好處。

值得一提的是,繼去年OPPO在足球行為分析(SoccerNet)賽道中取得動作定位(Action Spotting)和回放定位(Replay Grounding)雙項第二名後,今年OPPO再次取得回放定位(Replay Grounding)第一名和動作定位(Action Spotting)賽項第三。

在CVPR 2022上,OPPO還參加了三場高水準Workshop並發表演講。其中,在SLAM 研討會上,OPPO研究員鄧凡就如何在智慧手機、AR/VR裝置上執行實時vSLAM進行分享和討論。研究員李毅康則在移動人工智慧研討會中發表了演講,提出無監督的影片-文字跨模態雜湊方法——CLIP4Hashing,為移動裝置上的跨模態搜尋提供重要思路。李薇參加AICITY Workshop並提出了基於多視角的動作定位系統,用來識別駕駛員行車時的異常行為。

以創新推動商用,OPPO希望儘早讓人們享受AI帶來的便利

今年是OPPO參加CVPR的第三年,OPPO在收錄論文數量及挑戰賽成績保持上升的同時,研究領域也從人臉識別等應用領域向更基礎的技術方向轉移。

快速突破的成果來源於OPPO在AI領域的不懈投入。自2015年起,OPPO在人工智慧領域展開投入,成立相關研發團隊,聚焦語言語義、計算機視覺等領域。2020年初,OPPO研究院正式成立智慧感知與互動研究院,進一步深化OPPO對人工智慧前沿科技的探索。目前,OPPO在AI領域的全球專利申請超過2650件,廣泛覆蓋計算機視覺、語音技術、自然語言處理、機器學習等領域。

在“微笑前行”品牌使命的指引下,OPPO也在和業界夥伴一道,不斷推動人工智慧(AI)技術從實驗室真正走向生活。2021年12月,OPPO釋出了首款自研影像專用NPU——馬里亞納X,具備強大算力、能效比和計算速度,能夠讓AI演算法的執行速度達到空前水平,為使用者解決手機長期難以解決的夜景影片畫質問題。此外,基於強大的底層AI能力,OPPO也釋出了包括CybeReal全時空間計算AR應用、OPPO Air Glass、Omoji等創新產品及功能,希望儘早創造更真實的數字新世界,為使用者帶來現實物理世界與虛擬數字世界的融合體驗。