如果讓GAN生成的逼真人像變成3D版,會怎樣?
彷彿有攝像機對著人像直拍,正面、側面、仰視、俯視不同角度都能展現。
真的有種人要從畫中走出來那味兒了。
而且,這些效果都是由靜態單視角圖片生成的!
甚至能讓卡通人像立體起來。
這就是上海交通大學和華為的最新研究:
CIPS-3D
。
它是一種基於GAN的3D感知生成器,只用原始單視角影象,無需任何上取樣,就能生成解析度256×256的清晰影象。
並且創下3D感知影象合成的新記錄,FID僅為6。97。
現在,這個專案在GitHub上已有200+星,作者已將原始碼開源,訓練配置檔案將在後續釋出。
搞定映象對稱
在高畫質人臉資料集FFHQ上,CIPS-3D的表現可以說非常nice,連古典畫都能變成立體版。
當然也能搞定不同動物的face。
看到影象從2D直接變成3D,可能有人已經想到了谷歌大名鼎鼎的NeRF。
它只需要輸入少量靜態圖片,就能做到多視角的逼真3D效果。
而這次的CIPS-3D,也是基於NeRF開發。
它主要用到了兩個網路:NeRF和INR(隱式神經表示法,Implicit Neural Representations)。
淺層是
NeRF
,它主要負責把人像從2D變為3D。
它將場景的體積表示最佳化為向量函式,輸入為3D位置座標和檢視方向。
具體而言,就是沿相機射線取樣資訊,來合成影象。
然後,將這樣的場景表示引數化為一個
完全連線深度網路
(MLP),輸出對應的顏色和體積密度值。
為了獲得更為準確的3D影象,往往需要對每條光線上多點取樣,這也就造成NeRF所需的記憶體非常大。
因此,如果神經網路中只用NeRF,就會限制網路的深度,導致生成影象模糊、缺乏細節。
△第一列為NeRF生成,第二列為INR生成
所以在CIFS-3D中,研究人員將深層網路設定為
INR
,讓它負責合成高保真的影象。
這種方法也能將各種訊號引數化,輸出RGB值。
而且由於不再與空間解析度耦合,它可以對任意空間解析度進行取樣。
論文中也提到,該方法也沒有任何上取樣。
但是受限於CPU記憶體,如果直接訓練高解析度影象會有一定難度,為此研究人員提出了一種部分梯度反向傳播的方法。
在訓練時,該方法僅對隨機取樣中的綠色光線進行
梯度反向傳播計算
,其餘光線則不計算。
解決了3D化問題,還能保證高保真,你以為這就結束了?
NO、NO、NO
在研究過程中,工作人員發現CIPS-3D還存在
映象對稱
問題。
這種現象其實在許多3D GAN中都存在,比如GIRAFFE、StyleNeRF。
比如在下面這個案例中,初始單角度影象的劉海是偏左的,但是生成的不同角度影象中,劉海會隨著視角的變化而變化,就像是映象一樣。
出現這樣的問題,是因為NeRF網路輸入的座標就有存在映象對稱。
比如圖中a、c兩點的座標就是完全映象對稱的關係。
這對於生成完全對稱的物體而言沒什麼問題。
但是放在只給側面角度的人像上來說,可能就是一場災難。
為此,研究人員在神經網路中添加了一個
鑑別器
(discriminator),讓它來輔助鑑別這種問題。
最後結果表明,與其他可生成3D人像的方法相比,FID、KID值明顯降低,這兩個值越低意味著生成影象質量越好。
團隊介紹
值得一提的是,該論文通訊作者為
田奇
。
2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。
發表文章約550餘篇,包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級期刊和會議。
2018年加入華為雲,研究主要方向為計算機視覺、自然語言處理和語音互動。
華為
謝凌曦
博士、上海交通大學
倪冰冰
教授也參與了此次研究。
謝凌曦,本科博士均畢業於清華大學計算機專業,專長計算機視覺、自動機器學習。目前為華為高階研究員。
倪冰冰,現為上海交通大學電子系特別研究員/長聘教軌副教授,博士生導師。
本科畢業於上海交通大學電子工程系,之後赴新加坡國立大學攻讀博士。
博士期間,先後在微軟亞洲研究院和谷歌公司美國總部工作,擔任演算法科學家。
2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。
研究方向為計算機視覺、機器學習等。
本項研究已經由論文一作
Peng Zhou
(上海交通大學)上傳至其GitHub主頁,感興趣的童鞋可以前去圍觀~
論文地址:
https://arxiv。org/abs/2110。09788
GitHub地址:
https://github。com/PeterouZh/CIPS-3D