最時髦的AI畫畫,一文包教包會

大概半年前,AI 繪畫工具 Disco Diffusion 從 Text-to-Image 開發社群和設計行業,火到了普通使用者的視野中。即便它介面簡陋,滿屏英文和程式碼,也“勸退”不了人們。

因為對那些沒有任何美術功底的他們來說,往輸入框寫一小段字,就能指導 AI 生成畫面足夠驚豔的畫作。

Simon_阿文用 Disco Diffusion 生成,他輸入的描述詞是 ⛅️|作者授權

AI 繪畫工具進化的速度,在這半年遠超人們想象。Disco Diffusion 之後,搭在 Discord 群聊上的 Midjourney、OpenAI 擅長寫實的 DALL·E 2、開源的 Stable Diffusion 等工具湧現,它們更強大,更使用者友好,生成一張圖的時間甚至壓縮到了數秒。

AI 繪畫的熱度被一步步推高。在國內一些電商平臺,你甚至可以看到有零散商家在賣教程。

今天,我

們整理了 3 個對普通使用者來說最容易上手的工具:它們中一個專於生成二次元畫作;一個社群氛圍濃厚,生成圖藝術感極強;一個是國內團隊的產品,這回,你用中文揮灑創意!

Stable Diffusion

最時髦的AI畫畫,一文包教包會

特點

:被認為是最強的 AI 繪畫工具,已完全開源,市面上還有很多”魔改版“,比如專用來生成二次元人像的 Waifu Diffusion;

事前準備

:以下介紹的是 Stable Diffusion 的線上版本 DreamStudio,這種方案對裝置沒有要求,只要用瀏覽器開啟 https://beta。dreamstudio。ai/dream 即可。

相比 Disco Diffusion,Stable Diffusion 這個線上工具的介面非常簡潔、友好,你開啟網站後註冊,然後在底下的輸入框寫好描述語句,點選“Dream”就能一鍵生成,等待時間僅為數秒。

最時髦的AI畫畫,一文包教包會

描述詞為 A dream of a distant galaxy(影象主體), by Caspar David Friedrich(藝術家), matte painting trending on artstation HQ(繪畫風格)丨介面截圖

介面右側還有一系列的調節選項,從上到下分別是:

Width、Height:生成圖的長寬尺寸;

Cfg Scale:大概可以理解為是影象和描述詞(prompt)的匹配程度,高於 20 容易有失真效果;

Steps:模型生成圖片的迭代步數,每多一次迭代都會給 AI 更多的機會去比對描述詞和當前結果,預設值為 50;

Number of images:生成圖的數量;

Sampler:擴散去噪演算法的取樣模式;

Seed:隨機種子,系統每次產生的隨機種子都不同,所以即使你原封不動搬來了藝術家給的描述詞,也無法生成相同的圖片,但如果他給了你特定的隨機種子碼,就能生成。

基本的配置搞定後,開始做畫作生成中最關鍵的一步——寫描述詞。該怎麼寫呢?官方提供了一份入門教程:

先輸入你影象的物件、主體,比如一隻熊貓、一個持劍的戰士,如果只是如此簡單的描述,生成的風格會非常隨機,所以需要描述風格來加以限定;

常被使用的風格有寫實、油畫、鉛筆畫、概念藝術等,你可以指定你要的是一幅畫(a painting of + raw prompt)還是一張照片(a photograph of + raw prompt);

加上風格鮮明的藝術家關鍵詞,來進一步明確和加強生成圖的風,比如加上達芬奇、米開朗基羅、莫奈等,

另外,官方還建議嘗試混合多個藝術家,這或許可以融合成更讓人驚歎的效果;

還可以加上一些特定的描述詞,來完成最後的潤色。比如,你如果讓畫面有更逼真的光照,可以帶上“Unreal Engine”,建議的關鍵詞還有 surrealism(超現實主義)、sharp focus(有銳利的對焦)、8k,甚至是“the most beautiful image ever seen”。

線上版本目前調教功能偏弱,比如無法批次生成影象等,如果你想有更好的生成體驗,可以將已開源的 Stable Diffusion 部署到自己的電腦上,配置要求 RTX 2060 顯示卡等 6GB 視訊記憶體(及以上)顯示卡等。這裡不展開了。

自 Stable Diffusion 開源以來,市面上迅速出現了它的各種“魔改版”,其中近期熱度最高的要數 Waifu Diffusion。

Waifu 指漫畫、動畫、遊戲中的一些女性角色,有些玩家、觀眾喜歡這類角色到了會將她們當成妻子。

可見,這是一個專於生成“紙片人”的模型。

最時髦的AI畫畫,一文包教包會

介面截圖

最時髦的AI畫畫,一文包教包會

介面截圖

至於描述詞參考,可以在 Twitter 上搜索“waifudiffusion ALT”,之後你就會看到玩家們的影象,影象上如果有 ALT 標識,點開即可找到生成圖的描述詞。

最時髦的AI畫畫,一文包教包會

介面截圖

在 Stable Diffusion 上試驗 AI 作畫的人太多了,各渠道累計日活使用者超過 1000 萬。創始人 Emad Mostaque 說,“我們遲早會到達每天生成 10 億張圖片的階段,

尤其是當動畫生成的功能被解鎖後。

現在,甚至有人建起了 AI 作畫關鍵詞相關的搜尋引擎,比如 KERA。

最時髦的AI畫畫,一文包教包會

介面截圖

目前,KERA 已經收錄了百萬條關鍵詞,比如搜尋“Elon Musk”就能得到以上結果,如果對某一個結果感興趣,還可以點進去看看對應的描述語句。

收費標準

:有大概 200 張的免費生成額度,之後需要付費購買點數(生成越複雜,尺寸越大,消耗的點數越多)

版權要求

:可以商用自己創作的影象,但影象如果是透過 DreamStudio 生成的,就自動變成了 CC0 1。0  授權,這樣,服務提供商 Stability。ai 也能處理你的影象,無需付費甚至不會經過你同意,也會一併成為通用公共領域 royalty-free 的圖片資源。如果是你自己部署了開源的 Stable Diffusion,消耗的是你自己的 GPU 資源,那著作權都歸你所有。

Midjourney

最時髦的AI畫畫,一文包教包會

特點

:可以邊聊天邊生成,社群氛圍濃重,畫作藝術感強;

事前準備

:備好電腦,以及註冊一個通訊軟體 Discord 的賬號,開啟 https://discord。gg/midjourney。

最時髦的AI畫畫,一文包教包會

如圖所示的紅框內,是屬於我們 #newbies 的頻道 | Midjourney 頁面截圖

影象生成後,下方會附帶 4 個“U”和 4 個“V”選項,U 代表 upscaling(提升清晰度),V 代表 variations(基於已生成影象的風格再生成四張不同的影象)。你可以點選它們進一步最佳化影象。

最時髦的AI畫畫,一文包教包會

描述詞為埃德加·艾倫·坡的塔羅牌,新藝術風格,安妮·麥卡弗裡 ——s 1250  | Midjourney 頁面截圖

最時髦的AI畫畫,一文包教包會

任意時間點進去,都有很多人在跟你一起玩  | Midjourney 頁面截圖

對於描述詞,官方給出了一些建議:

使用已經存在大量視覺影象的物體,比如 Wizard(巫師)、Angel(天使)、Rocket(火箭)等;

使用風格、藝術家、繪畫媒介作為提示詞,比如賽博朋克、達利、吉卜力、水墨畫、雕塑等;

避免否定句,因為模型通常會無視它,比如當你輸入“一頂不是紅色的帽子”,模型看到的更可能是“帽子”、“紅色”;

使用單數或具體數字,而非“一堆”、“很多”、“一些”;

避免空泛概念,你知道的,就是老闆開會時經常會說的那些,以及甲方的需求。

最時髦的AI畫畫,一文包教包會

火龍,但是建築草圖風格

真正的“高玩”還可以加入一些“黑話”,也就是一系列以“——”為字首的提示詞為圖片設定條件。比如,輸入——ar 16:9”,圖片比例會變成 16 乘 9;輸入“——s”加一個數值,你可以決定 AI 要在風格化這條路上走多遠,數字越大越離譜,——s 60000,天知道會發生什麼!”

實在寫不動描述詞了,或者某張圖片符合你想要的感覺,也可以直接把圖片連結寫進描述詞裡。

看看別人是怎麼寫的是個很好的學習渠道。當然,你也可以隨時在 #prompt-chat 頻道禮貌請教:我想生成特定樣式的影象,該用怎樣的提示詞呢?或者常在官方畫廊(https://www。midjourney。com/showcase/)那裡逛逛,可以參考自己與別人生成的作品。

與別的模型相比,Midjourney 以其藝術性聞名。有人如此評價,“Midjourney 就像一個有它自己風格的藝術生。”身上附著著成百上千藝術家先輩的魂靈。

最時髦的AI畫畫,一文包教包會

從生成結果也能看出,不管你輸入什麼,Midjourney 都更傾向於給你輸出一幅繪畫一樣的影象,而不是假照片。比如,同樣是面對描述詞“女孩發現生命的意義”,Midjourney 和 DALL-E 得到的分別是以上的樣子|https://dallery。gallery/midjourney-guide-ai-art-explained/

這也讓它備受美術領域青睞,

此前廣受爭議的在數字藝術比賽上獲獎的作品《太空歌劇院》就是由 Midjourney 生成(後用 Photoshop 潤色)。

最時髦的AI畫畫,一文包教包會

《太空歌劇院》|Jason Allen

新平臺層出不窮的情況下,讓 Midjourney 仍能保持吸引力的是它的超級社群——目前人數已經超三百萬,遠超原本佔據頭部的 Minecraft 和《堡壘之夜》。在紅杉總結的當前 AIGC 創業圖譜中,只有 Midjourney 同時具備了影象生成和消費者 / 社交兩項特性。

社群裡,人們會自發地為新手答疑解惑,互相稱讚,大方分享自己使用的描述詞。官方也會定期發起主題創作,舉行 Office Hour。用創始人的話說,他想讓人們體驗“一起做一件事”的快樂:你“畫”出一隻“狗”,有人會添一筆把它變成“太空狗”,緊接著有人把它變成“阿茲特克太空狗”……

最時髦的AI畫畫,一文包教包會

你能不能在 Midjourney 裡用中文呢?也不是不可以,但它似乎不是很懂。

收費標準

:任何人都可以免費在公共頻道生成 25 張圖片,之後繼續使用需要會員訂閱。基礎會員價格為每月 10 美元,可生成 200 張圖片;標準會員為每月 30 美元,生成次數不限。

版權要求

:公共頻道里生成的作品預設為 CC BY-NC 4。0 版權,意味著他人可任意使用或改動你的這些作品。付費使用者可以任意商用生成的圖片,但有一個例外,如果是一家年收入超 100 萬的公司在使用,就需轉而訂閱企業會員。

6pen

最時髦的AI畫畫,一文包教包會

特點

:支援用中文描述,還列出了很多藝術家和風格限定詞供參考;

事前準備

:在 iOS 平臺下載 app,或者開啟 https://6pen。art/ 直接在網頁生成。

Disco Diffusion 大火之後,國內一些團隊開始嘗試降低其使用門檻,將它產品化,比如說重整 UI、提供雲端算力、對模型做 finetune(微調)等。6pen 就是其中一支團隊。

6pen 基於市面上已有的開源模型 Latent Diffusion 和 Disco Diffusion,做了自研模型,還根據生成速度和體量,分別研發了擅長小體量、簡單場景的南瓜模型,和擅長複雜場景,但響應速度較慢的西瓜模型。官方表示,

相比原版,自研模型比較重要的最佳化部分,是提高解析度和支援中文。

6pen 很自信,在合適的文字描述和風格修飾下,他們相信 6pen 可以實現不輸於 Midjourney 甚至 DALL·E 2 的效果。

最時髦的AI畫畫,一文包教包會

介面簡潔,引導細緻,還列出了很多藝術家和風格限定詞供參考丨app 介面截圖

官方自己有一份非常詳細的使用教程,手把手教,親切地像生怕你學不會的老母親。

我們整理了這樣一些建議:

你可以直接使用中文描述!

描述詞要具體,講出你要的物體和它的特徵,但物體不要太多,兩到三個就好;

放棄描述情緒和事件,模型不會懂什麼是“她愛不愛我”並畫下來;

視角、細節和紋理、物體佔據畫面的大小、色調、畫面特點、年代、渲染 / 建模工具,這些是模型可以處理的資訊;

如果點選的參考藝術家畫過很多裸體,會有機率出現純黑的圖片(系統判定你在“搞黃色”);

描述詞之外,可以加入畫面型別、藝術家、尺寸等資訊,他們有點像濾鏡,能讓你的畫看起來更像那麼回事兒;

如果你有繪畫基礎,可以自己畫底稿,再由 AI 在你的基礎上描繪具體場景,底稿建議使用色塊和形狀而非純線稿,因為 AI 不會自動填色。

最時髦的AI畫畫,一文包教包會

官方給的描述詞案例丨介面截圖

此外,6pen 還會返回每個生成過程的迭代圖,Loss 曲線,甚至電量消耗等資料,讓使用者更好了解生產過程,幫助改進。

最時髦的AI畫畫,一文包教包會

在等待生成期間,6pen 會讓你為一些生成作品投票,看看哪張作品效果更好。這時你會覺得自己像一個給 AI 的打工者,幫助模型升級進步。

6pen 的創始人王登科指出過 AI 繪畫技術目前的不足,

比如人的肢體(主要是手指)和眼球效果較差,多主體物件生成效果差,也無法進行有邏輯延續的故事性生成。

收費標準

:可以免費排隊生成,也可以付費快速生成,價格為 0。1 元起;

版權要求

:6pen 的自研模型都採用 MIT 協議開源,生成出來的圖片版權完全授權給生成者本人。6pen 也支援採用 CC0 協議的 Stable Diffusion,這時產生的作品版權就不由生成者獨享了。生成者如果使用了還在世的藝術家作為畫面參考,且生成作品的風格與藝術家相似,也可能存在版權爭議。同理,如果使用了參考圖,且參考圖並非原創 (如攝影、繪畫),那麼生成的結果也存在版權爭議。

AI 繪畫還在狂奔路上,

現在這些工具解決的是“寫寫字就能畫畫”,未來可能會進一步解決“寫寫字就能畫多好”的問題。

隨著這些工具的基礎功能,以及背後的模型逐步完善,我們要爭的,就是如何寫 prompt 了。

那天,我看到有人問“prompt 這個詞現在有中文翻譯了嗎?”底下有人回答,“咒語。”

參考文獻

[1] 中國 AI 繪畫行業調查報告——技術,使用者,爭議與未來 https://mp。weixin。qq。com/s/CSdAfew2wPbt2yhsNWav8g

[2] 當下最強的 AI art 生成模型 Stable Diffusion 最全面介紹 https://mp。weixin。qq。com/s/Q4ZYjUxt22Jsx2W2179C8Q

[3] @Simon_阿文 的微博“這是我所知道的關於 AI 繪畫的一切” https://share。api。weibo。cn/share/342626167,4780343335326874。html?weibo_id=4780343335326874

[4] https://midjourney。gitbook。io/docs/

[5] https://www。nytimes。com/2022/09/02/technology/ai-artificial-intelligence-artists。html

[6] https://tokenizedhq。com/midjourney-copyright-commercial-use/#:~:text=Can%20I%20use%20Midjourney%20commercially,Midjourney%20for%20any%20business%20purpose。

作者:翁垟、睿悅、biu

編輯:biu

封面圖來源:Unsplash