最時髦的AI畫畫，一文包教包會

大概半年前，AI 繪畫工具 Disco Diffusion 從 Text-to-Image 開發社群和設計行業，火到了普通使用者的視野中。即便它介面簡陋，滿屏英文和程式碼，也“勸退”不了人們。

因為對那些沒有任何美術功底的他們來說，往輸入框寫一小段字，就能指導 AI 生成畫面足夠驚豔的畫作。

Simon_阿文用 Disco Diffusion 生成，他輸入的描述詞是 ⛅️｜作者授權

AI 繪畫工具進化的速度，在這半年遠超人們想象。Disco Diffusion 之後，搭在 Discord 群聊上的 Midjourney、OpenAI 擅長寫實的 DALL·E 2、開源的 Stable Diffusion 等工具湧現，它們更強大，更使用者友好，生成一張圖的時間甚至壓縮到了數秒。

AI 繪畫的熱度被一步步推高。在國內一些電商平臺，你甚至可以看到有零散商家在賣教程。

今天，我

們整理了 3 個對普通使用者來說最容易上手的工具：它們中一個專於生成二次元畫作；一個社群氛圍濃厚，生成圖藝術感極強；一個是國內團隊的產品，這回，你用中文揮灑創意！

Stable Diffusion

特點

：被認為是最強的 AI 繪畫工具，已完全開源，市面上還有很多”魔改版“，比如專用來生成二次元人像的 Waifu Diffusion；

事前準備

：以下介紹的是 Stable Diffusion 的線上版本 DreamStudio，這種方案對裝置沒有要求，只要用瀏覽器開啟 https：//beta。dreamstudio。ai/dream 即可。

相比 Disco Diffusion，Stable Diffusion 這個線上工具的介面非常簡潔、友好，你開啟網站後註冊，然後在底下的輸入框寫好描述語句，點選“Dream”就能一鍵生成，等待時間僅為數秒。

描述詞為 A dream of a distant galaxy（影象主體）， by Caspar David Friedrich（藝術家）， matte painting trending on artstation HQ（繪畫風格）丨介面截圖

介面右側還有一系列的調節選項，從上到下分別是：

Width、Height：生成圖的長寬尺寸；

Cfg Scale：大概可以理解為是影象和描述詞（prompt）的匹配程度，高於 20 容易有失真效果；

Steps：模型生成圖片的迭代步數，每多一次迭代都會給 AI 更多的機會去比對描述詞和當前結果，預設值為 50；

Number of images：生成圖的數量；

Sampler：擴散去噪演算法的取樣模式；

Seed：隨機種子，系統每次產生的隨機種子都不同，所以即使你原封不動搬來了藝術家給的描述詞，也無法生成相同的圖片，但如果他給了你特定的隨機種子碼，就能生成。

基本的配置搞定後，開始做畫作生成中最關鍵的一步——寫描述詞。該怎麼寫呢？官方提供了一份入門教程：

先輸入你影象的物件、主體，比如一隻熊貓、一個持劍的戰士，如果只是如此簡單的描述，生成的風格會非常隨機，所以需要描述風格來加以限定；

常被使用的風格有寫實、油畫、鉛筆畫、概念藝術等，你可以指定你要的是一幅畫（a painting of + raw prompt）還是一張照片（a photograph of + raw prompt）；

加上風格鮮明的藝術家關鍵詞，來進一步明確和加強生成圖的風，比如加上達芬奇、米開朗基羅、莫奈等，

另外，官方還建議嘗試混合多個藝術家，這或許可以融合成更讓人驚歎的效果；

還可以加上一些特定的描述詞，來完成最後的潤色。比如，你如果讓畫面有更逼真的光照，可以帶上“Unreal Engine”，建議的關鍵詞還有 surrealism（超現實主義）、sharp focus（有銳利的對焦）、8k，甚至是“the most beautiful image ever seen”。

線上版本目前調教功能偏弱，比如無法批次生成影象等，如果你想有更好的生成體驗，可以將已開源的 Stable Diffusion 部署到自己的電腦上，配置要求 RTX 2060 顯示卡等 6GB 視訊記憶體（及以上）顯示卡等。這裡不展開了。

自 Stable Diffusion 開源以來，市面上迅速出現了它的各種“魔改版”，其中近期熱度最高的要數 Waifu Diffusion。

Waifu 指漫畫、動畫、遊戲中的一些女性角色，有些玩家、觀眾喜歡這類角色到了會將她們當成妻子。

可見，這是一個專於生成“紙片人”的模型。

介面截圖

至於描述詞參考，可以在 Twitter 上搜索“waifudiffusion ALT”，之後你就會看到玩家們的影象，影象上如果有 ALT 標識，點開即可找到生成圖的描述詞。

介面截圖

在 Stable Diffusion 上試驗 AI 作畫的人太多了，各渠道累計日活使用者超過 1000 萬。創始人 Emad Mostaque 說，“我們遲早會到達每天生成 10 億張圖片的階段，

尤其是當動畫生成的功能被解鎖後。

”

現在，甚至有人建起了 AI 作畫關鍵詞相關的搜尋引擎，比如 KERA。

介面截圖

目前，KERA 已經收錄了百萬條關鍵詞，比如搜尋“Elon Musk”就能得到以上結果，如果對某一個結果感興趣，還可以點進去看看對應的描述語句。

收費標準

：有大概 200 張的免費生成額度，之後需要付費購買點數（生成越複雜，尺寸越大，消耗的點數越多）

版權要求

：可以商用自己創作的影象，但影象如果是透過 DreamStudio 生成的，就自動變成了 CC0 1。0 授權，這樣，服務提供商 Stability。ai 也能處理你的影象，無需付費甚至不會經過你同意，也會一併成為通用公共領域 royalty-free 的圖片資源。如果是你自己部署了開源的 Stable Diffusion，消耗的是你自己的 GPU 資源，那著作權都歸你所有。

Midjourney

特點

：可以邊聊天邊生成，社群氛圍濃重，畫作藝術感強；

事前準備

：備好電腦，以及註冊一個通訊軟體 Discord 的賬號，開啟 https：//discord。gg/midjourney。

如圖所示的紅框內，是屬於我們 #newbies 的頻道 | Midjourney 頁面截圖

影象生成後，下方會附帶 4 個“U”和 4 個“V”選項，U 代表 upscaling（提升清晰度），V 代表 variations（基於已生成影象的風格再生成四張不同的影象）。你可以點選它們進一步最佳化影象。

描述詞為埃德加·艾倫·坡的塔羅牌，新藝術風格，安妮·麥卡弗裡 ——s 1250 | Midjourney 頁面截圖

任意時間點進去，都有很多人在跟你一起玩 | Midjourney 頁面截圖

對於描述詞，官方給出了一些建議：

使用已經存在大量視覺影象的物體，比如 Wizard（巫師）、Angel（天使）、Rocket（火箭）等；

使用風格、藝術家、繪畫媒介作為提示詞，比如賽博朋克、達利、吉卜力、水墨畫、雕塑等；

避免否定句，因為模型通常會無視它，比如當你輸入“一頂不是紅色的帽子”，模型看到的更可能是“帽子”、“紅色”；

使用單數或具體數字，而非“一堆”、“很多”、“一些”；

避免空泛概念，你知道的，就是老闆開會時經常會說的那些，以及甲方的需求。

火龍，但是建築草圖風格

真正的“高玩”還可以加入一些“黑話”，也就是一系列以“——”為字首的提示詞為圖片設定條件。比如，輸入——ar 16：9”，圖片比例會變成 16 乘 9；輸入“——s”加一個數值，你可以決定 AI 要在風格化這條路上走多遠，數字越大越離譜，——s 60000，天知道會發生什麼！”

實在寫不動描述詞了，或者某張圖片符合你想要的感覺，也可以直接把圖片連結寫進描述詞裡。

看看別人是怎麼寫的是個很好的學習渠道。當然，你也可以隨時在 #prompt-chat 頻道禮貌請教：我想生成特定樣式的影象，該用怎樣的提示詞呢？或者常在官方畫廊（https：//www。midjourney。com/showcase/）那裡逛逛，可以參考自己與別人生成的作品。

與別的模型相比，Midjourney 以其藝術性聞名。有人如此評價，“Midjourney 就像一個有它自己風格的藝術生。”身上附著著成百上千藝術家先輩的魂靈。

從生成結果也能看出，不管你輸入什麼，Midjourney 都更傾向於給你輸出一幅繪畫一樣的影象，而不是假照片。比如，同樣是面對描述詞“女孩發現生命的意義”，Midjourney 和 DALL-E 得到的分別是以上的樣子｜https：//dallery。gallery/midjourney-guide-ai-art-explained/

這也讓它備受美術領域青睞，

此前廣受爭議的在數字藝術比賽上獲獎的作品《太空歌劇院》就是由 Midjourney 生成（後用 Photoshop 潤色）。

《太空歌劇院》｜Jason Allen

新平臺層出不窮的情況下，讓 Midjourney 仍能保持吸引力的是它的超級社群——目前人數已經超三百萬，遠超原本佔據頭部的 Minecraft 和《堡壘之夜》。在紅杉總結的當前 AIGC 創業圖譜中，只有 Midjourney 同時具備了影象生成和消費者 / 社交兩項特性。

社群裡，人們會自發地為新手答疑解惑，互相稱讚，大方分享自己使用的描述詞。官方也會定期發起主題創作，舉行 Office Hour。用創始人的話說，他想讓人們體驗“一起做一件事”的快樂：你“畫”出一隻“狗”，有人會添一筆把它變成“太空狗”，緊接著有人把它變成“阿茲特克太空狗”……

你能不能在 Midjourney 裡用中文呢？也不是不可以，但它似乎不是很懂。

收費標準

：任何人都可以免費在公共頻道生成 25 張圖片，之後繼續使用需要會員訂閱。基礎會員價格為每月 10 美元，可生成 200 張圖片；標準會員為每月 30 美元，生成次數不限。

版權要求

：公共頻道里生成的作品預設為 CC BY-NC 4。0 版權，意味著他人可任意使用或改動你的這些作品。付費使用者可以任意商用生成的圖片，但有一個例外，如果是一家年收入超 100 萬的公司在使用，就需轉而訂閱企業會員。

6pen

特點

：支援用中文描述，還列出了很多藝術家和風格限定詞供參考；

事前準備

：在 iOS 平臺下載 app，或者開啟 https：//6pen。art/ 直接在網頁生成。

Disco Diffusion 大火之後，國內一些團隊開始嘗試降低其使用門檻，將它產品化，比如說重整 UI、提供雲端算力、對模型做 finetune（微調）等。6pen 就是其中一支團隊。

6pen 基於市面上已有的開源模型 Latent Diffusion 和 Disco Diffusion，做了自研模型，還根據生成速度和體量，分別研發了擅長小體量、簡單場景的南瓜模型，和擅長複雜場景，但響應速度較慢的西瓜模型。官方表示，

相比原版，自研模型比較重要的最佳化部分，是提高解析度和支援中文。

6pen 很自信，在合適的文字描述和風格修飾下，他們相信 6pen 可以實現不輸於 Midjourney 甚至 DALL·E 2 的效果。

介面簡潔，引導細緻，還列出了很多藝術家和風格限定詞供參考丨app 介面截圖

官方自己有一份非常詳細的使用教程，手把手教，親切地像生怕你學不會的老母親。

我們整理了這樣一些建議：

你可以直接使用中文描述！

描述詞要具體，講出你要的物體和它的特徵，但物體不要太多，兩到三個就好；

放棄描述情緒和事件，模型不會懂什麼是“她愛不愛我”並畫下來；

視角、細節和紋理、物體佔據畫面的大小、色調、畫面特點、年代、渲染 / 建模工具，這些是模型可以處理的資訊；

如果點選的參考藝術家畫過很多裸體，會有機率出現純黑的圖片（系統判定你在“搞黃色”）；

描述詞之外，可以加入畫面型別、藝術家、尺寸等資訊，他們有點像濾鏡，能讓你的畫看起來更像那麼回事兒；

如果你有繪畫基礎，可以自己畫底稿，再由 AI 在你的基礎上描繪具體場景，底稿建議使用色塊和形狀而非純線稿，因為 AI 不會自動填色。

官方給的描述詞案例丨介面截圖

此外，6pen 還會返回每個生成過程的迭代圖，Loss 曲線，甚至電量消耗等資料，讓使用者更好了解生產過程，幫助改進。

在等待生成期間，6pen 會讓你為一些生成作品投票，看看哪張作品效果更好。這時你會覺得自己像一個給 AI 的打工者，幫助模型升級進步。

6pen 的創始人王登科指出過 AI 繪畫技術目前的不足，

比如人的肢體（主要是手指）和眼球效果較差，多主體物件生成效果差，也無法進行有邏輯延續的故事性生成。

收費標準

：可以免費排隊生成，也可以付費快速生成，價格為 0。1 元起；

版權要求

：6pen 的自研模型都採用 MIT 協議開源，生成出來的圖片版權完全授權給生成者本人。6pen 也支援採用 CC0 協議的 Stable Diffusion，這時產生的作品版權就不由生成者獨享了。生成者如果使用了還在世的藝術家作為畫面參考，且生成作品的風格與藝術家相似，也可能存在版權爭議。同理，如果使用了參考圖，且參考圖並非原創（如攝影、繪畫），那麼生成的結果也存在版權爭議。

AI 繪畫還在狂奔路上，

現在這些工具解決的是“寫寫字就能畫畫”，未來可能會進一步解決“寫寫字就能畫多好”的問題。

隨著這些工具的基礎功能，以及背後的模型逐步完善，我們要爭的，就是如何寫 prompt 了。

那天，我看到有人問“prompt 這個詞現在有中文翻譯了嗎？”底下有人回答，“咒語。”

參考文獻

［1］中國 AI 繪畫行業調查報告——技術，使用者，爭議與未來 https：//mp。weixin。qq。com/s/CSdAfew2wPbt2yhsNWav8g

［2］當下最強的 AI art 生成模型 Stable Diffusion 最全面介紹 https：//mp。weixin。qq。com/s/Q4ZYjUxt22Jsx2W2179C8Q

［3］ @Simon_阿文的微博“這是我所知道的關於 AI 繪畫的一切” https：//share。api。weibo。cn/share/342626167，4780343335326874。html？weibo_id=4780343335326874

［4］ https：//midjourney。gitbook。io/docs/

［5］ https：//www。nytimes。com/2022/09/02/technology/ai-artificial-intelligence-artists。html

［6］ https：//tokenizedhq。com/midjourney-copyright-commercial-use/#：~：text=Can%20I%20use%20Midjourney%20commercially，Midjourney%20for%20any%20business%20purpose。

作者：翁垟、睿悅、biu

編輯：biu

封面圖來源：Unsplash