有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

新智元報道

編輯:Joey 如願

【新智元導讀】

當下呼聲最高的NeRF有望取代Deepfake成為新一代視覺神器?一起來看看它到底有多牛。

什麼,你還不知道NeRF?

作為今年計算機視覺領域最火的AI技術,NeRF可謂是應用廣泛,前景一片大好。

B站上的小夥伴可算是把這項技術玩出了新花樣。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

拋磚引玉

那麼,究竟NeRF是什麼?

NeRF(Neural Radiance Fields)是最早在2020年ECCV會議上的最佳論文中提出的概念,其將隱式表達推上了一個新的高度,僅用2D的posed images作為監督,即可表示複雜的三維場景。

一石激起千層浪,自此之後NeRF迅速發展起來被應用到多個技術方向,如「新視點合成、三維重建」等。

NeRF其輸入稀疏的多角度帶pose的影象訓練得到一個神經輻射場模型,根據這個模型可以渲染出任意視角下的清晰的照片,如下圖所示。也可以簡要概括為用一個MLP去隱式地學習一個三維場景。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

網友自然而然地也會將NeRF與同樣大受追捧的Deepfake做個比較。

最近MetaPhysics釋出的一篇文章就盤點了NeRF的進化史、面臨的挑戰和優勢,並預測NeRF最終將取代Deepfake。

大部分有關deepfake技術引人注目的話題,是指自17年deepfakes進入大眾視野後開始流行的兩個開源軟體包:DeepFaceLab (DFL) 和FaceSwap。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

儘管這兩個軟體包都擁有廣泛的使用者群和活躍的開發者社群,但這兩個專案與GitHub程式碼都沒有明顯的偏離。

當然,DFL和FaceSwap的開發人員並沒有閒著:現在可以使用更大的輸入影象來訓練deepfake模型,儘管這需要更昂貴的GPU。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

但其實在過去的三年裡,媒體鼓吹的deepfake影象質量提升主要還是得歸功於終端使用者。

他們在資料收集方面積累了「省時而難得」的經驗,以及訓練模型的最佳方法(有時單次實驗就需要幾周時間),並且學會如何利用和擴充套件原始2017程式碼的最外層限制。

VFX和ML研究社群中的一些人正試圖透過擴充套件架構來突破流行的deepfake包的「硬限制」,以便機器學習模型可以在高達1024×1024的影象上進行訓練。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

其畫素是DeepFaceLab或FaceSwap當前實際範圍的兩倍,更接近於電影和電視製作中有用的解析度。

接下來讓我們一起了解一下NeRF吧~

揭開面紗

NeRF(Neural Radiance Fields),它出現於2020年,是一種透過在神經網路內拼接多個視點照片實現重建物體和環境的方法。

它透過使用稀疏的輸入檢視集最佳化底層連續的體積場景函式,實現了綜合複雜場景檢視的最好結果。

該演算法還使用全連線深度網路表示一個場景,其輸入是單個連續的5D座標(空間位置(x, y, z)和觀看方向(θ, φ)),其輸出是該空間位置的體積密度和相關的發射幅亮度。

透過沿著相機光線查詢5D座標來合成檢視,並使用經典的體繪製技術(volume rendering)將輸出的顏色和密度投影到影象中。

實現過程:

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

首先將一個連續的場景表示為一個5D向量值函式,其輸入是一個3D位置和2D觀看方向,對應的輸出是一個發射顏色c和體積密度σ。

在實踐中,採用3D笛卡爾單位向量d表示方向。利用用MLP網路近似這個連續的5D場景表示,並最佳化其權重。

此外,透過限制網路來預測體積密度σ作為位置x的函式,同時還允許RGB顏色c作為位置和觀看方向的函式進行預測,從而鼓勵表示多檢視一致。

為了實現這一點,MLP首先處理輸入的具有8個全連線層的3D座標x(使用ReLU啟用和每層256個通道),並輸出σ和256維特徵向量。

這個特徵向量隨後與相機射線的觀看方向連線,並傳遞給一個額外的全連線層,輸出與檢視相關的RGB顏色。

此外,NeRF還引入了兩個改進來實現高解析度複雜場景的表示。第一個是位置編碼,以幫助MLP表示高頻函式,第二個是分層抽樣過程,使其能夠有效地對高頻表示進行抽樣。

眾所周知,Transformer架構中的位置編碼可以提供序列中標記的離散位置,作為整個架構的輸入。而NeRF使用位置編碼是將連續的輸入座標對映到更高的維度空間,使MLP更容易逼近更高頻率的函式。

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛

從圖中可以觀察到,去除位置編碼會大大降低模型表示高頻幾何和紋理的能力,最終導致外觀過度平滑。

由於沿著每條相機射線在N個查詢點密集評估神經輻射場網路的渲染策略十分低效,所以NeRF最後採用了一種分層表示,透過按最終渲染的預期效果比例分配樣本來提高渲染效率。

簡而言之,NeRF不再只使用一個網路來表示場景,而是同時最佳化兩個網路,一個「粗粒度」網路和一個「細粒度」網路。

未來可期

NeRF解決了過去的不足,即使用MLP將物件和場景表示為連續函式。相比於過往的方法,NeRF可以產生更好的渲染效果。

但是,NeRF同樣也面臨許多技術瓶頸,比如NeRF的加速器會犧牲其他相對有用的功能(比如靈活性),以實現低延遲、更多互動環境以及較少訓練時間的目的。

所以,NeRF雖是一個關鍵性的突破,但是想要達到完美的效果,還是需要一定的時間。

技術在進步,未來依舊可期!

參考資料:

https://metaphysic。ai/nerf-successor-deepfakes/

https://arxiv。org/pdf/2003。08934。pdf

有望取代Deepfake?揭秘今年最火的NeRF技術有多牛