古典人像秒變3D，視角還能隨意切，華為＆上交聯手出品

如果讓GAN生成的逼真人像變成3D版，會怎樣？

彷彿有攝像機對著人像直拍，正面、側面、仰視、俯視不同角度都能展現。

真的有種人要從畫中走出來那味兒了。

而且，這些效果都是由靜態單視角圖片生成的！

甚至能讓卡通人像立體起來。

這就是上海交通大學和華為的最新研究：

CIPS-3D

。

它是一種基於GAN的3D感知生成器，只用原始單視角影象，無需任何上取樣，就能生成解析度256×256的清晰影象。

並且創下3D感知影象合成的新記錄，FID僅為6。97。

現在，這個專案在GitHub上已有200+星，作者已將原始碼開源，訓練配置檔案將在後續釋出。

搞定映象對稱

在高畫質人臉資料集FFHQ上，CIPS-3D的表現可以說非常nice，連古典畫都能變成立體版。

當然也能搞定不同動物的face。

看到影象從2D直接變成3D，可能有人已經想到了谷歌大名鼎鼎的NeRF。

它只需要輸入少量靜態圖片，就能做到多視角的逼真3D效果。

而這次的CIPS-3D，也是基於NeRF開發。

它主要用到了兩個網路：NeRF和INR（隱式神經表示法，Implicit Neural Representations）。

淺層是

NeRF

，它主要負責把人像從2D變為3D。

它將場景的體積表示最佳化為向量函式，輸入為3D位置座標和檢視方向。

具體而言，就是沿相機射線取樣資訊，來合成影象。

然後，將這樣的場景表示引數化為一個

完全連線深度網路

（MLP），輸出對應的顏色和體積密度值。

為了獲得更為準確的3D影象，往往需要對每條光線上多點取樣，這也就造成NeRF所需的記憶體非常大。

因此，如果神經網路中只用NeRF，就會限制網路的深度，導致生成影象模糊、缺乏細節。

△第一列為NeRF生成，第二列為INR生成

所以在CIFS-3D中，研究人員將深層網路設定為

INR

，讓它負責合成高保真的影象。

這種方法也能將各種訊號引數化，輸出RGB值。

而且由於不再與空間解析度耦合，它可以對任意空間解析度進行取樣。

論文中也提到，該方法也沒有任何上取樣。

但是受限於CPU記憶體，如果直接訓練高解析度影象會有一定難度，為此研究人員提出了一種部分梯度反向傳播的方法。

在訓練時，該方法僅對隨機取樣中的綠色光線進行

梯度反向傳播計算

，其餘光線則不計算。

解決了3D化問題，還能保證高保真，你以為這就結束了？

NO、NO、NO

在研究過程中，工作人員發現CIPS-3D還存在

映象對稱

問題。

這種現象其實在許多3D GAN中都存在，比如GIRAFFE、StyleNeRF。

比如在下面這個案例中，初始單角度影象的劉海是偏左的，但是生成的不同角度影象中，劉海會隨著視角的變化而變化，就像是映象一樣。

出現這樣的問題，是因為NeRF網路輸入的座標就有存在映象對稱。

比如圖中a、c兩點的座標就是完全映象對稱的關係。

這對於生成完全對稱的物體而言沒什麼問題。

但是放在只給側面角度的人像上來說，可能就是一場災難。

為此，研究人員在神經網路中添加了一個

鑑別器

（discriminator），讓它來輔助鑑別這種問題。

最後結果表明，與其他可生成3D人像的方法相比，FID、KID值明顯降低，這兩個值越低意味著生成影象質量越好。

團隊介紹

值得一提的是，該論文通訊作者為

田奇

。

2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。

發表文章約550餘篇，包括250+ IEEE TPAMI、IJCV、CVPR/ICCV/ECCV、NeurIPS等國際頂級期刊和會議。

2018年加入華為雲，研究主要方向為計算機視覺、自然語言處理和語音互動。

華為

謝凌曦

博士、上海交通大學

倪冰冰

教授也參與了此次研究。

謝凌曦，本科博士均畢業於清華大學計算機專業，專長計算機視覺、自動機器學習。目前為華為高階研究員。

倪冰冰，現為上海交通大學電子系特別研究員/長聘教軌副教授，博士生導師。

本科畢業於上海交通大學電子工程系，之後赴新加坡國立大學攻讀博士。

博士期間，先後在微軟亞洲研究院和谷歌公司美國總部工作，擔任演算法科學家。

2010-2015年於美國伊利諾伊大學香檳分校新加坡高等研究院擔任研究科學家。

研究方向為計算機視覺、機器學習等。

本項研究已經由論文一作

Peng Zhou

（上海交通大學）上傳至其GitHub主頁，感興趣的童鞋可以前去圍觀~

論文地址：

https：//arxiv。org/abs/2110。09788

GitHub地址：

https：//github。com/PeterouZh/CIPS-3D