您的位置:首頁(yè) > 資訊 >

每日快報(bào)!我們嘗試讓繪畫(huà) AI 成為負(fù)責(zé)插圖的新同事

本文來(lái)自微信公眾號(hào):觸樂(lè) (ID:chuappgame),作者:劉翁婳


(資料圖)

技術(shù)正在突飛猛進(jìn)。

隨著討論熱度逐漸褪去,“AI 繪畫(huà)”的話(huà)題在最近這段時(shí)間似乎已經(jīng)漸漸不再掀起波瀾,卻已有不少游戲公司悄無(wú)聲息地將 AI 繪畫(huà)加入了自己的工作流程中。在探索 AI 繪畫(huà)工具化的浪潮中,作為一群繪畫(huà)方面的外行人,觸樂(lè)也踏出了自己的第一步 —— 在祝佳音老師的指示下,我們正在嘗試使用 AI 繪畫(huà)工具生成文章所需的插圖。

文章插圖的版權(quán)問(wèn)題對(duì)大部分使用者而言都是個(gè)不小的隱患,要想在開(kāi)源或有版權(quán)的圖片網(wǎng)站上為文章找到切合主題的插圖也不是件容易的事。AI 繪畫(huà)似乎成了一個(gè)不錯(cuò)的選擇 —— 在我們的想象中,只要為 AI 提供幾段描述或是關(guān)鍵詞,AI 就能“讀懂并畫(huà)出”我們想要的圖片。事實(shí)真的如此簡(jiǎn)單嗎?為了實(shí)現(xiàn)“讓 AI 幫我們畫(huà)插圖”的目標(biāo),最大程度上解放勞動(dòng)力,我們做出了一些嘗試。

畫(huà)風(fēng)、付費(fèi)、本地化?

要想生成對(duì)應(yīng)風(fēng)格的插圖,第一步當(dāng)然是挑選一個(gè)合適的模型。AI 繪畫(huà)的模型演化進(jìn)度在最近短短半年間可謂突飛猛進(jìn),光是國(guó)內(nèi)外主流模型便已有五六個(gè),各類(lèi)風(fēng)格化模型更是百花齊放。不過(guò),要找到一個(gè)適合生成文章插圖的模型并不容易。有些模型是開(kāi)源的,有些需要付費(fèi)才能使用,有些游走于法律的灰色地帶,被人破解后偷偷下載……

無(wú)論是哪種,總要上手試試才行。我們?cè)谧詈筮x擇了 4 種模型作為備選方案:開(kāi)源后支持本地部署,曾經(jīng)一度號(hào)稱(chēng)“最強(qiáng)繪畫(huà) AI”的 Stable Diffusion;老牌 AI 研究團(tuán)隊(duì) OpenAI 旗下最早的幾個(gè)圖像生成 AI 之一 DALL?E;架設(shè)在 Discord 頻道中,持續(xù)更新模型的 Midjourney;以及最后,支持日式畫(huà)風(fēng)的 NovelAI 本地部署版本。

首先必須聲明的是,盡管目前的 AI 繪畫(huà)版權(quán)問(wèn)題仍不明朗,但“本地部署版 NovelAI”一定是其中最不靠譜的一個(gè) —— 不提圖片庫(kù)的版權(quán)問(wèn)題,模型的來(lái)源本身便游走在法律的灰色地帶。相比起來(lái),本地部署的 Stable Diffusion 則“名正言順”得多。自 Stable Diffusion 宣布開(kāi)源之后,在 GitHub 上即可下載 Stable Diffusion 的新舊版本,在本地架設(shè)后,借助 WebUI 工具便可以直觀(guān)地調(diào)整生成圖片的各項(xiàng)參數(shù)與圖片預(yù)覽。

不過(guò),天下沒(méi)有免費(fèi)的午餐 —— 雖然開(kāi)源的行為接近于“將午餐送到你的嘴里”,但運(yùn)行程序同樣需要有足夠的算力。幾年前還算得上配置不錯(cuò)的 GeForce RTX 2060 顯卡如今多少有些力不從心。有人曾統(tǒng)計(jì)過(guò)不同的顯卡利用 Stable Diffusion 模型生成 512×512 大小圖像時(shí)所耗費(fèi)的時(shí)間,2060 顯卡需要 17 秒,3080 只需要 7 秒 —— 不一定足夠精準(zhǔn),但也有參考價(jià)值。

3080 的用時(shí)還不到 2060 的二分之一

當(dāng)然,實(shí)際使用過(guò)程中,你會(huì)意識(shí)到 17 秒只是一種理想狀況。隨著迭代步數(shù)的增加、畫(huà)幅的調(diào)整與生成數(shù)量的增多,生成圖片所需的時(shí)間幾乎呈指數(shù)式上漲。最合理的方式,還是先生成 512 大小的圖片,再通過(guò)圖片擴(kuò)大算法將其放大。即便如此,當(dāng)你把迭代步數(shù)不斷調(diào)高,也可能面臨內(nèi)存溢出的風(fēng)險(xiǎn)。更直觀(guān)的感受是,在圖片生成過(guò)程中,電腦的風(fēng)扇聲幾乎沒(méi)有停過(guò)。

相比起來(lái),另外兩家付費(fèi)的繪畫(huà) AI——DALL?E 與 Midjourney 就對(duì)電腦顯卡友善得多。它們的圖片生成并不需要你緊張地監(jiān)控顯卡溫度,防止燒壞,只需要向它們的服務(wù)器發(fā)送對(duì)應(yīng)描述詞,服務(wù)器便會(huì)吐出一組圖片以供用戶(hù)選擇。只是與此相應(yīng),每次占用服務(wù)器資源生成圖片需要消耗用戶(hù)一定量的積分,開(kāi)始你可以免費(fèi)試用,試用完每個(gè)賬號(hào)的免費(fèi)額度之后,必須得為賬號(hào)充值積分才能繼續(xù)生成。

一般而言,用一組關(guān)鍵字生成 4 張 512×512 的例圖大約需要 1 積分。每個(gè)繪畫(huà) AI 的積分定價(jià)略有差別 ——DALL?E 的付費(fèi)積分相對(duì)更貴一些,大約是 15 美元 115 積分,折合人民幣大約 1 元生成一次;Midjourney 提供了每月 10 美元約 200 張圖的包月套餐,算下來(lái)便宜不少。

不管是 DALL?E、Midjourney 還是 Stable Diffusion,最關(guān)鍵的,當(dāng)然還是圖片生成的質(zhì)量。我們使用了幾組不同的關(guān)鍵詞,測(cè)試 AI 們的表現(xiàn)。

描述與關(guān)鍵詞

在插圖這方面,相比起精美的 3D 建模圖片或是貼近照片的現(xiàn)實(shí)風(fēng)格圖片,祝佳音老師更加青睞的是手繪雜志插圖風(fēng)格。但在風(fēng)格的描述上卻遇見(jiàn)了不少麻煩:該怎樣告訴 AI 我們需要什么?

一開(kāi)始,我們嘗試用某一本雜志的刊名籠統(tǒng)地描述它的插圖風(fēng)格:例如,在關(guān)鍵詞里加上《紐約客》(New Yorker)。問(wèn)題隨之而來(lái):即使在同一本雜志里,插圖風(fēng)格并非單一不變。在這一點(diǎn)上,免費(fèi)的 Stable Diffusion 為我們提供了不少試錯(cuò)的案例 —— 即便你加入了“手繪”“無(wú)模糊”“清晰線(xiàn)稿”與藝術(shù)家的名字等關(guān)鍵詞,繪畫(huà) AI 還是不太明白你究竟想要什么,只能一次給你端上來(lái)幾張不同風(fēng)格的圖片任你挑選,你可以看得出來(lái),這些風(fēng)格確實(shí)都曾出現(xiàn)在雜志中。至于是否能夠找到你想要的,就得指望運(yùn)氣了。

指定的范圍比較寬泛時(shí),Stable Diffusion 會(huì)一次生成數(shù)張不同風(fēng)格的圖片

想知道某種具體繪畫(huà)風(fēng)格的名字也不算容易。在大多數(shù)情況下,我們想了半天也只能想出來(lái)“手繪”或是“水彩”等籠統(tǒng)的描述。好在我們找到了搜索引擎 Lexica,網(wǎng)站上整理了不少描述詞與生成圖片的案例,可以通過(guò)文字或是圖片搜索找到你想要的詞匯。

Lexica 上可以搜索到其他用戶(hù)分享的案例

不過(guò),Lexica 也并非百試百靈。一方面,如果你瞄準(zhǔn)的是不那么大眾的藝術(shù)家,嘗試生成對(duì)應(yīng)風(fēng)格圖片的用戶(hù)不多,能提供的例子也十分有限。另一方面,AI 生成圖片的過(guò)程伴隨不小的隨機(jī)性,用戶(hù)上傳的圖片與關(guān)鍵詞不是每次都足夠準(zhǔn)確 —— 上傳的例圖看起來(lái)不錯(cuò),實(shí)際生成時(shí)怎么也跑不出類(lèi)似的圖片更是常態(tài)。

Stable Diffusion 的問(wèn)題在這里也漸漸顯露:模型在生成真實(shí)照片風(fēng)格或是細(xì)膩的原畫(huà)風(fēng)格上可謂一騎絕塵,特別是更新后的 Stable Diffusion2.1 版本,生成的照片風(fēng)格圖像幾乎可以以假亂真。但相對(duì)應(yīng)的,當(dāng)涉及相對(duì)平面的藝術(shù)風(fēng)格時(shí),想要生成出合適的圖片,需要做出不少?lài)L試。

Stable Diffusion 在生成真實(shí)照片風(fēng)格的圖片上做得相當(dāng)好
生成平面風(fēng)格的圖像,則需要更多嘗試

當(dāng)然,描述詞帶來(lái)的門(mén)檻也是問(wèn)題之一 —— 任何人在生成圖片的過(guò)程中,不斷調(diào)整、修正并找到合適的關(guān)鍵詞同樣需要時(shí)間。從這一點(diǎn)上來(lái)說(shuō),Stable Diffusion 對(duì)零基礎(chǔ)使用者并非那么友好。如果不細(xì)致調(diào)整關(guān)鍵詞,直接用自然語(yǔ)言描述想要的圖片,可能需要生成不少圖片才能獲得一張令人滿(mǎn)意的圖像。例如,我們描述了一個(gè)具體的場(chǎng)景:“一個(gè)女孩在堆滿(mǎn)了雜物的辦公桌前,桌上的外賣(mài)袋和泡面摞得很高,墻上有個(gè)日歷,日歷上‘發(fā)售日’后面的數(shù)字被紅筆劃掉了好幾道。女孩抱著頭,顯得非常痛苦?!?/p>

直接將這一整段描述塞給 Stable Diffusion 之后,它展現(xiàn)出了前所未有的疑惑。

如果描述不太準(zhǔn)確,Stable Diffsion 生成的圖片并不總能令人滿(mǎn)意

相比起來(lái),付費(fèi)的 DALL?E 與 Midjourney 模型在經(jīng)歷了不斷的迭代與調(diào)整之后,生成無(wú)法使用的“廢圖”的概率要低得多。在 Midjourney 中使用同一組關(guān)鍵詞,只需要一個(gè)簡(jiǎn)單的關(guān)鍵詞“by Yuko Shimizu”來(lái)指定畫(huà)風(fēng),便可得到表現(xiàn)相當(dāng)不錯(cuò)的結(jié)果。

可以看出,Midjourney 正確理解了“外賣(mài)盒”,但對(duì)于“痛苦的”(Painful)的理解則有些奇怪

DALL?E 對(duì)畫(huà)風(fēng)的理解不太到位,卻正確理解了描述的內(nèi)容。在數(shù)個(gè)模型中,DALL?E 描繪的人物情感可謂惟妙惟肖。

DALL?E 將“痛苦”與“雙手抱頭”聯(lián)系了起來(lái)

在生成文章插圖的需求當(dāng)中,如果考慮實(shí)際投入使用,付費(fèi)的 DALL?E 與 Midjourney 看起來(lái)確實(shí)是更好的選擇。在風(fēng)格化插畫(huà)方面,Midjourney 的表現(xiàn)又更勝一籌。只需要幾個(gè)關(guān)于繪畫(huà)風(fēng)格或作者的關(guān)鍵詞,Midjourney 就能很快“理解”你想要的究竟是什么。

美式漫畫(huà)與故事板風(fēng)格

版權(quán),與接下來(lái)的麻煩

顯而易見(jiàn),目前已經(jīng)有一些繪畫(huà) AI 投入商業(yè)運(yùn)營(yíng)了,它的用戶(hù)中也有一些要將 AI 生成的圖片投入商業(yè)使用。既然如此,版權(quán)自然是個(gè)繞不過(guò)去的話(huà)題。在這一點(diǎn)上,由于 AI 繪畫(huà)領(lǐng)域的發(fā)展速度實(shí)在太快,總體上,相關(guān)的法律法規(guī)都沒(méi)來(lái)得及跟上。目前,大部分 AI 繪畫(huà)模型的版權(quán)條款都秉承著“撒手掌柜”的風(fēng)格。Midjourney 與 Stable Diffusion 都明確表示,生成圖片的版權(quán)將歸于生成者所有,但同時(shí)也這樣指出:請(qǐng)勿嘗試創(chuàng)建涉及色情、歧視等可能對(duì)他人造成傷害的圖像。如若引起爭(zhēng)議,一切職責(zé)與平臺(tái)無(wú)關(guān),由爭(zhēng)議雙方自行解決。

判定內(nèi)容是否合法,最后還是落在了具體的作品上。如果是已經(jīng)不再受到版權(quán)法保護(hù)的畫(huà)家作品(一般是畫(huà)家去世 50 年以后),模仿他們的風(fēng)格進(jìn)行再次創(chuàng)作當(dāng)然沒(méi)有問(wèn)題。如果要模仿仍受版權(quán)法保護(hù)的現(xiàn)代畫(huà)家們,便要好好斟酌尺度才行。

Stable Diffusion 生成的梵高風(fēng)格畫(huà)作

盡管在大多數(shù)情況下,AI 繪畫(huà)并不能完美地生成你所想要的單一風(fēng)格,看起來(lái)更像是多種風(fēng)格的雜糅,但如果針對(duì)某種風(fēng)格或某一位畫(huà)師的作品進(jìn)行訓(xùn)練,AI 生成的作品難免會(huì)出現(xiàn)跟模仿對(duì)象過(guò)于相似的問(wèn)題。在這一點(diǎn)上,主流的幾個(gè)大型模型其實(shí)都“做得不錯(cuò)”:即便指定了作者,在 DALL?E 或 Midjourney 中,也很難做到和作者畫(huà)得一模一樣。

值得再次強(qiáng)調(diào)的是,在最近短短半年的時(shí)間里,AI 繪畫(huà)模型的進(jìn)化速度可謂突飛猛進(jìn),但法律法規(guī)還沒(méi)能趕上這個(gè)速度,目前國(guó)際上仍不存在對(duì)應(yīng)的法律法規(guī)用以規(guī)范 AI 繪畫(huà)的版權(quán)問(wèn)題。AI 圖像的商業(yè)使用仍舊存在一定的風(fēng)險(xiǎn) —— 當(dāng)我們向 AI 繪畫(huà)平臺(tái)付費(fèi)后,平臺(tái)是否應(yīng)當(dāng)為訓(xùn)練所使用的網(wǎng)絡(luò)圖片集付費(fèi)?

個(gè)人使用者面對(duì)的問(wèn)題相對(duì)簡(jiǎn)單,只要 AI 繪畫(huà)平臺(tái)不倒打一耙,突然宣稱(chēng)版權(quán)不歸屬于生成者,一般來(lái)說(shuō)在版權(quán)上不會(huì)出現(xiàn)什么幺蛾子,尤其是個(gè)人非商業(yè)的使用,并無(wú)太大風(fēng)險(xiǎn)。對(duì)借助 AI 工具輔助工作的美術(shù)工作者們來(lái)說(shuō),另一方面的問(wèn)題是,AI 生成圖像并不一定能被所有受眾接受。幾天前,某款移動(dòng)端游戲的宣傳圖片便被懷疑是借助 AI 工具進(jìn)行了輔助繪畫(huà) —— 背景中的金屬部件很明顯“不像是人畫(huà)的”。這件事在玩家間激起了一陣波瀾 —— 一些玩家對(duì)此十分失望,在他們看來(lái),“AI 繪畫(huà)”似乎天然與“廉價(jià)”“不認(rèn)真”等描述掛鉤。

這件事并不是個(gè)例,不少游戲開(kāi)發(fā)者透露,他們已將 AI 繪畫(huà)加入自己的工作流,卻不敢將這個(gè)事實(shí)公之于眾。但從另一個(gè)角度出發(fā),如果將 AI 繪畫(huà)作為輔助工具,排除訓(xùn)練庫(kù)版權(quán)上的隱患問(wèn)題,它與 Blender、Enscape 等 3D 輔助軟件的差別在哪里?如果將 AI 繪畫(huà)作為圖片素材庫(kù),它與 Unsplash 等無(wú)版權(quán)素材庫(kù)得到的結(jié)果又有多大的差別?

無(wú)論如何,現(xiàn)在的 AI 繪畫(huà)模型確實(shí)還不太成熟,但你可以直觀(guān)地感受到技術(shù)的快速進(jìn)步 —— 說(shuō)不定過(guò)不了多久,我們真的會(huì)使用 AI 生成插圖,那會(huì)是更逼真、更像是人畫(huà)的插圖,到那時(shí),不知各位讀者是否能發(fā)現(xiàn)呢?

Midjourney 生成的“手握柯基與蘸醬薯片的教皇”,看起來(lái)真是有模有樣

(本文題圖均由繪畫(huà) AI Midjourney 生成。)

標(biāo)簽: AI繪畫(huà)

相關(guān)閱讀