古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

如果讓GAN生成的逼真人像變成3D版,會怎樣?

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

彷彿有攝像機對著人像直拍,正面、側面、仰視、俯視不同角度都能展現。

真的有種人要從畫中走出來那味兒了。

而且,這些效果都是由靜態單視角圖片生成的!

甚至能讓卡通人像立體起來。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

這就是上海交通大學和華為的最新研究:

CIPS-3D

它是一種基於GAN的3D感知生成器,只用原始單視角影象,無需任何上取樣,就能生成解析度256×256的清晰影象。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

並且創下3D感知影象合成的新記錄,FID僅為6。97。

現在,這個專案在GitHub上已有200+星,作者已將原始碼開源,訓練配置檔案將在後續釋出。

搞定映象對稱

在高畫質人臉資料集FFHQ上,CIPS-3D的表現可以說非常nice,連古典畫都能變成立體版。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

當然也能搞定不同動物的face。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

看到影象從2D直接變成3D,可能有人已經想到了谷歌大名鼎鼎的NeRF。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

它只需要輸入少量靜態圖片,就能做到多視角的逼真3D效果。

而這次的CIPS-3D,也是基於NeRF開發。

它主要用到了兩個網路:NeRF和INR(隱式神經表示法,Implicit Neural Representations)。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

淺層是

NeRF

,它主要負責把人像從2D變為3D。

它將場景的體積表示最佳化為向量函式,輸入為3D位置座標和檢視方向。

具體而言,就是沿相機射線取樣資訊,來合成影象。

然後,將這樣的場景表示引數化為一個

完全連線深度網路

(MLP),輸出對應的顏色和體積密度值。

為了獲得更為準確的3D影象,往往需要對每條光線上多點取樣,這也就造成NeRF所需的記憶體非常大。

因此,如果神經網路中只用NeRF,就會限制網路的深度,導致生成影象模糊、缺乏細節。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

△第一列為NeRF生成,第二列為INR生成

所以在CIFS-3D中,研究人員將深層網路設定為

INR

,讓它負責合成高保真的影象。

這種方法也能將各種訊號引數化,輸出RGB值。

而且由於不再與空間解析度耦合,它可以對任意空間解析度進行取樣。

論文中也提到,該方法也沒有任何上取樣。

但是受限於CPU記憶體,如果直接訓練高解析度影象會有一定難度,為此研究人員提出了一種部分梯度反向傳播的方法。

在訓練時,該方法僅對隨機取樣中的綠色光線進行

梯度反向傳播計算

,其餘光線則不計算。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

解決了3D化問題,還能保證高保真,你以為這就結束了?

NO、NO、NO

在研究過程中,工作人員發現CIPS-3D還存在

映象對稱

問題。

這種現象其實在許多3D GAN中都存在,比如GIRAFFE、StyleNeRF。

比如在下面這個案例中,初始單角度影象的劉海是偏左的,但是生成的不同角度影象中,劉海會隨著視角的變化而變化,就像是映象一樣。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

出現這樣的問題,是因為NeRF網路輸入的座標就有存在映象對稱。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

比如圖中a、c兩點的座標就是完全映象對稱的關係。

這對於生成完全對稱的物體而言沒什麼問題。

但是放在只給側面角度的人像上來說,可能就是一場災難。

為此,研究人員在神經網路中添加了一個

鑑別器

(discriminator),讓它來輔助鑑別這種問題。

最後結果表明,與其他可生成3D人像的方法相比,FID、KID值明顯降低,這兩個值越低意味著生成影象質量越好。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

團隊介紹

值得一提的是,該論文通訊作者為

田奇

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。

發表文章約550餘篇,包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級期刊和會議。

2018年加入華為雲,研究主要方向為計算機視覺、自然語言處理和語音互動。

華為

謝凌曦

博士、上海交通大學

倪冰冰

教授也參與了此次研究。

謝凌曦,本科博士均畢業於清華大學計算機專業,專長計算機視覺、自動機器學習。目前為華為高階研究員。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

倪冰冰,現為上海交通大學電子系特別研究員/長聘教軌副教授,博士生導師。

本科畢業於上海交通大學電子工程系,之後赴新加坡國立大學攻讀博士。

博士期間,先後在微軟亞洲研究院和谷歌公司美國總部工作,擔任演算法科學家。

2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。

研究方向為計算機視覺、機器學習等。

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

本項研究已經由論文一作

Peng Zhou

(上海交通大學)上傳至其GitHub主頁,感興趣的童鞋可以前去圍觀~

古典人像秒變3D,視角還能隨意切,華為&上交聯手出品

論文地址:

https://arxiv。org/abs/2110。09788

GitHub地址:

https://github。com/PeterouZh/CIPS-3D