OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

整理 | 禾木木

2021年1月6日 OpenAI 釋出了新模型 DALL·E ,AI 根據一段話就可直接生成影象。一年後進化 2。0 版本的“它”來了 —— DALL·E 2。

DALL·E 2 在生成使用者描述的影象時具有更高的解析度和更低的延遲。新版本還增添了一些新的功能,比如對原始影象進行編輯。

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

與之前的OpenAI工作一樣,新工具沒有直接向公眾釋出。但研究人員可以線上註冊預覽該系統,OpenAI希望以後能將其用於第三方應用。

試玩 Waitlist 地址:

https://labs。openai。com/waitlist

OpenAI 研究科學家 Prafulla Dhariwal 表示,「這個神經網路真是太神奇了,根據文字描述就能生成對應影象。」

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 2 功能展示

那 DALL·E 2 具體生成的影象是什麼樣呢?和 DALL·E 1代有哪些明顯的區別呢?

DALL·E 2

生成的“柴犬戴著貝雷帽穿著黑色高領毛衣”影象:

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 2 可以根據自然語言字幕對現有影象進行編輯。使用者可以從現有圖片開始,選擇一個區域,然後告訴模型對其進行編輯。並且可以在考慮陰影、反射和紋理的同時新增和刪除元素。

如下圖所示,左邊是原始影象,右邊是 DALL·E 2 編輯後的影象。兩張圖對比後,我們發現左圖中有數字 1、2、3,點選相應的位置,下圖選擇在 1 處新增火烈鳥。

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 2 可以根據原影象進行二次創作,創造出不同的變體:

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 2 相對一代以 4 倍的解析度生成更逼真、更準確的影象。

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 2 的一項新功能是修復,在 DALL·E 1 的基礎上,將文字到影象生成應用在影象更精細度的級別上。使用者可以從現有的圖片開始,選擇一個區域,讓模型對影象進行編輯,例如,你可以在客廳的牆上畫一幅畫,然後用另一幅畫代替它,又或者在咖啡桌上放一瓶花。該模型可以填充 (或刪除) 物件,同時考慮房間中陰影的方向等細節。

DALL·E 2 的另一個功能是生成影象不同變體,使用者上傳一張影象,然後模型創建出一系列類似的變體。

此外,DALL·E 2 還可以混合兩張圖片,生成包含這兩種元素的圖片。其生成的影象為 1024 x 1024 畫素,大大超過了 256 x 256 畫素。

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

如何實現新技能?

DALL·E 2 是建立在 CLIP 之上,這是許多文字 AI 應用程式使用的 GPT 模型。但單詞匹配並不一定能符合人們的預期,而且預測過程限制了影象的真實性。

CLIP 是原版 DALL·E 功能實現的基礎,是一個負責給影象重排序的模型,旨在以人類的方式檢視影象並總結其內容,OpenAI 迭代建立了一個 CLIP 的倒置版本——「unCLIP」,它能從描述生成影象,而 DALL·E 2 使用稱為擴散(diffusion)的過程生成影象。擴散模型的特點在於,在犧牲多樣性的前提下,能大大提升生成影象的逼真度。

OpenAI 的研究人員設計方案:

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

DALL·E 的完整模型從未公開發布,開發人員在過去一年中已經構建了一些模仿 DALL·E 功能的工具。

最受歡迎的主流應用程式之一是 Wombo 的 Dream 移動應用程式,它能夠根據使用者描述的各種內容生成圖片。

OpenAI 今天沒有釋出任何新模型,但開發者可以利用其技術發現來更新自己的工作。

DALL·E 2 生成“一碗看起來像怪物、用羊毛織成的湯”

OpenAI 釋出 DALL·E 進化版,這隻蒸汽朋克時代的小熊有點酷!

OpenAI 已經採取了一些內建的保護措施,例如該模型是已剔除了不良內容的資料集上進行訓練的,因此也在一定程度上限制了其生成不良內容的能力。

為避免生成的圖片被濫用,DALL·E 2 在生成的圖片上都標有水印,以表明該作品是 AI 生成的。此外,該模型也無法根據名稱生成任何可識別的面孔。

DALL·E 2 將由經過審查的合作伙伴進行測試,但有一些要求:禁止使用者上傳或生成

可能造成傷害

的影象。他們還必須說明用 AI 生成影象的作用,並且不能透過應用程式或網站將生成的影象提供給其他人。

但 OpenAI 希望將 DALL·E 2 納入該組織的API工具集中,從而為第三方應用提供動力。

Dhariwal表示:“我們希望繼續進行分階段的過程,這樣就可以不斷從得到的反饋中評估如何安全地釋出這項技術”。

小編看到有網友曬出了自己生成的影象,感興趣的小夥伴們可以去測試呦~

參考連結:

https://www。theverge。com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing

https://cdn。openai。com/papers/dall-e-2。pdf

https://openai。com/dall-e-2/#demos

開啟App看更多精彩內容