激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

非常詳細!6000字詳解AI繪畫文生圖干貨、技巧,教程、學習分享

發(fā)布時間:2024-03-30 13:22:26 瀏覽量:333次

Hello~ 同學們,歡迎回到趣聞屋。

趣聞經(jīng)過大約一個月的使用 Stable Diffusion webUI,發(fā)現(xiàn)txt2img還是有些知識點不太熟悉。于是決定記錄下學習過程,寫一篇關(guān)于生產(chǎn)圖像的 txt2img 的隨筆,加深理解。是筆記也是為與同學們分享,給大家提供一些啟發(fā)和幫助。好好學習,天天向上!歐耶~

(本文總字數(shù)6000字,建議同學們收藏下來慢慢看)

什么是Stable Diffusion?


Stable Diffusion 是一種用于生成高質(zhì)量圖像的神經(jīng)網(wǎng)絡(luò)模型,它基于擴散過程,在保持圖像特征的同時增強了圖像細節(jié)。它由3個部分組成:變分自編碼器(VAE)、U-Net和一個文本編碼器(CLIP)。

1. Variational Autoencoder(VAE) 是一種用于生成模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過學習數(shù)據(jù)的潛在表示來生成新的數(shù)據(jù)。在 Stable Diffusion 中,它被用作概率編碼器(Encoder)和解碼器(Decoder)。VAE 通過將輸入數(shù)據(jù)映射到潛在空間中進行編碼,然后將編碼的向量與潛在變量的高斯分布進行重參數(shù)化,以便可以直接從潛在空間中進行采樣。

2. Unet 是一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割模型,采用了一種特殊的“U”形結(jié)構(gòu),使得輸入的分辨率逐步減小而輸出的分辨率逐步增加。在 Stable Diffusion 中,Unet 能夠?qū)D像進行部分特征提取,同時在解碼器的過程中,能夠?qū)ι傻膱D像進行重構(gòu),以獲得高的生成品質(zhì)。

3. CLIP檢索網(wǎng)絡(luò)是一種文本-圖像匹配的神經(jīng)網(wǎng)絡(luò)算法,可以將輸入的文本和圖像進行語義相關(guān)性匹配,從而使其能夠?qū)崿F(xiàn)對照片、視頻、插畫等圖像內(nèi)容的理解。在 Stable Diffusion 中,CLIP檢索網(wǎng)絡(luò)不僅用于評估生成的圖像,也可以用于指導數(shù)據(jù)的采樣,以提高生成的圖像的多樣性和相關(guān)性。

具體來說,Stable Diffusion 在訓練模型時,將原始圖像通過不斷的隨機擴散和反向擴散來進行圖像變形,將圖像的細節(jié)信息逐漸壓縮到低頻區(qū)域。通過這一過程,Stable Diffusion 不僅能夠提取圖像的潛在表示,而且能夠?qū)D像的噪聲和細節(jié)信息分離出來。

逆概率沿擴散(Inverse probability flow along diffusion)是用于Stable Diffusion模型的逆模型。這個模型是一個自回歸模型,可以根據(jù)當前幀的噪聲和之前幀的生成圖像預測下一幀的噪聲。通過逆概率擴散,Stable Diffusion 可以生成高質(zhì)量的圖像。

前向擴散過程將圖像轉(zhuǎn)換到低維潛空間

逆擴散通過逐步減去圖像中的預測噪聲生成圖像


提示詞技巧


Stable Diffusion 中,在前面的提示詞,會得到更多的權(quán)重,其次是末尾的提示詞,在中間的權(quán)重比較小。如果我們給的提示詞很多,那SD會忽略掉中間的一些提示詞來減少計算量。

提示詞權(quán)重:前 > 后 > 中

趣聞屋習慣把提詞分成五個大塊:1.畫風和畫質(zhì) 2.主題 3.背景場景 4.細節(jié) 5.藝術(shù)家

1.畫風畫質(zhì)

畫風:攝影、抽象、寫實、幻想、超現(xiàn)實主義、古典、等

畫質(zhì):8K分辨率、高畫質(zhì)細節(jié)、紋理豐富、高光表現(xiàn)、真實陰影、景深、光線追蹤、高質(zhì)量的反射和折射


Style:photography, abstraction, realism, fantasy, surrealism, classical,...

Image quality: 8K resolution, high-quality details, rich textures, high dynamic range, realistic shadows, depth of field, ray tracing, high-quality reflections and refractions...

2.主題

一個穿著時尚的女生

帶著微笑的孩子

中國古建筑


a fashionable girl

a child with a smile

ancient Chinese architecture

3.背景場景

城市、鄉(xiāng)村、星空、海洋、山水、雪山、自然、建筑、宮殿、等等

City, Countryside, Starry Sky, Ocean, Landscape, Snow Mountain, Nature, Architecture, Palace、...

4.細節(jié)

渲染引擎:Blender、Maya、3ds Max、Cinema4D、Unreal engine、等

材質(zhì):金屬、玻璃、石頭、木材、塑料、皮革、蕾絲

視角:鳥瞰、側(cè)面、仰視、俯角、傾斜、近景、向下看

修飾詞:可愛、精致、浪漫、柔美、華麗、生動、極簡、電影效果

裝飾品:項鏈、耳環(huán)、眼鏡、發(fā)卡、帽子、手環(huán)...


Material: metal, glass, stone, wood, plastic, leather, lace

Perspective: bird's-eye view, side view, looking up, looking down, tilted, close-up, look down from abov.

Modifiers: cute, sophisticated, romantic, feminine, gorgeous, vivid, minimalist, cinematic,...

Decorations: necklaces, earrings, glasses, hairpins, hats, bracelets,

5.藝術(shù)家

藝術(shù)家網(wǎng)站:

https://aipromptguide.com

同學們可以到這上面挑選自己喜歡的藝術(shù)家風格,各有所愛嘛

趣聞比較喜歡:WLOP、Aleksi Briclot...

舉個提示詞使用栗子


輸入畫風和主體,先不輸入反向提示詞:

photograph,A beautiful girl

運氣不錯,得到一張看著挺不錯的圖:

后面有花,那我們就把背景放到花園吧:

photograph,A beautiful girl,garden

景深感有些欠缺,我們加上景深:

photograph, a beautiful girl, garden, depth of field,

突然變化就挺大的。哈哈,這就是AI,總能給我們意想不到的驚喜。繼續(xù)加細節(jié):可愛的、項鏈、帽子

photograph,A beautiful girl, garden, depth of field, cute, necklaces , hats

很好。但有些模糊,色彩也有些單調(diào),我們加些高清詞,表明更多的細節(jié)和低質(zhì)量反向提示詞

photograph,A beautiful girl, garden, depth of field, cute,necklaces , hats, 8k, HD, highly detailed,

worst quality, low quality,normal quality

漂亮!清晰度和色彩度一下子上來了,是不是...

總結(jié)提示詞技巧:

1.畫風,一開始就要想,我們想要什么樣的畫風?

2.主體,想要畫什么,一個人?一只貓?還是一份風景?

3.背景,在哪里?

4.細節(jié),為了修飾主體,需要增加哪些細節(jié)?

5.藝術(shù)家,希望模仿哪些藝術(shù)家的風格?

最后,大體敲定之后就是不停的加細節(jié),調(diào)色彩,待差不多滿意之后,再大批量生成。這就是AI繪畫的好處,批量生產(chǎn)。哈哈~


采樣器詳解(Sampling method)


趣聞屋用的SD版本,嵌入了20個采樣器:

采樣器的區(qū)別和使用場景:

1. Euler a

Euler a 采樣器是 Euler 采樣器的一種變體,使用了一種不同的擴散器。相對于 Euler 采樣器,在圖像品質(zhì)上有所提升,但仍可能出現(xiàn)品質(zhì)損失的情況。它適用于簡單的圖像數(shù)據(jù)生成場景,例如圖形識別、基礎(chǔ)生成等。


2. Euler

Euler 采樣器基于歐拉插值,是一種簡單、快速但可能會失去一些品質(zhì)的采樣器。它適用于生成相對簡單的圖像、需要快速迭代的場景。


3. LMS

LMS 采樣器(Langevin Monte Carlo Sampler)基于 Langevin 梯度下降算法,可以處理非線性/多峰/混合分布,并且具有較好的靈活性和多樣性。但由于計算負載較大,可能會運行較慢。它適用于對圖像品質(zhì)和多樣性有較高要求的場景,例如生成高品質(zhì)的復雜圖像。


4. Heun

Heun 采樣器(Heun's method)是歐拉插值的一種變體,相對于 Euler 采樣器,在圖像品質(zhì)上有所提升,同時其運行速度相對較快且計算負載相對較小。它適用于大規(guī)模生成、較為簡單的圖像數(shù)據(jù)。


5. DMP2

DMP2 采樣器是 DMP 采樣器的改進版,使用更少的內(nèi)存、更少的計算負載和更快的采樣速度。它適用于生成算法相對基礎(chǔ)、對速度較為嫩的場景。


6. DPM2 a、DPM++ 2S a

DPM2 a 和 DPM++ 2S a 采樣器是基于擴散過程實現(xiàn)的算法,能夠快速生成高品質(zhì)圖像。它們適用于需要處理多類別任務(wù)的場景,例如物體檢測、語義分割。


7. DPM++ 2M

DPM++ 2M 采樣器是 DPM++ 2S a 的一種改進版,增加了相鄰層之間的信息傳遞。它適用于對數(shù)據(jù)復雜性有嚴格要求的場景,例如用于醫(yī)學圖像分析、自然場景生成的應(yīng)用。


8. DPM++ SDE

DPM++ SDE 采樣器是一款基于穩(wěn)定性差分方程(Stochastic Differential Equation, SDE)的算法,可以生成高度逼真的圖像,并且對圖像品質(zhì)和多樣性的要求有嚴格要求的場景。例如,需要用于虛擬現(xiàn)實、視頻游戲等應(yīng)用的場景。


9. DPM fast、DPM adaptive

DPM fast 和 DPM adaptive 采樣器是一種快速生成高品質(zhì)圖像的采樣器,適用于產(chǎn)生短時間內(nèi)需要大量圖像數(shù)據(jù)的場景,例如數(shù)據(jù)增強、訓練圖像生成等應(yīng)用。


10. LMS Karras、DPM2 Karras、DPM2 a Karras、DPM++ 2S a Karras、DPM++ 2M Karras、DPM++ SDE Karras

Karras 系列采樣器是一系列基于 Langevin Monte Carlo Sampler 和擴散過程的改進版算法,能夠快速生成高品質(zhì)圖像。它們適用于對數(shù)據(jù)品質(zhì)有高要求的場景,例如醫(yī)學圖像分析、自然場景生成的應(yīng)用。


11. DDIM

DDIM 采樣器(Diffusion Denoising for Image Manipulation)能夠在擴散的同時對兩個空間維度和一維動態(tài)調(diào)整時間步長。增加了視頻剪輯風格的操作,擴展了 Stable Diffusion 的基礎(chǔ)結(jié)果。DDIM 采樣器適用于需要實現(xiàn)復雜操作、生成流程的場景,例如生成類似視頻流的圖像數(shù)據(jù)。


12. PLMS

PLMS 采樣器(Preconditioned Langevin Monte Carlo Sampler)使用了一種更高級的梯度采樣方法,能夠更好地處理非線性/多峰/混合分布,減少了噪音。它可以生成具有非常高保真度且可控多樣性的圖像,但是比其他采樣器更慢。PLMS 采樣器適用于對圖像品質(zhì)和多樣性有嚴格要求的場景,例如需要高保真度圖像的應(yīng)用或者對于生成面部或彩色圖像的應(yīng)用等。


13. UniPC

UniPC 采樣器(Unified Perceptual Control)采用了一種感知實驗中的控制方案來調(diào)整溫度和擴散器系數(shù)。這種方法可以生成更逼真的圖像,并提高了采樣速度。但是,UniPC 采樣器可能不如其他采樣器那么靈活。它適用于對圖像逼真度和采樣速度都有需求的場景,例如生成與人形體有關(guān)的應(yīng)用。

在使用下面參數(shù)的做輸入,趣聞屋選了幾個常用的采樣器在steps為:10、17、15、32、40下合圖對比:

CFG scale: 7, Face restoration: CodeFormer, Size: 360x540, Model: Chilloutmix, Denoising strength: 0.5, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+,

采樣器總結(jié):

除了LMS、DMP2 a 和PLMS在20步以下出現(xiàn)明顯的瑕疵,其他的都很不錯。

UniPC 的創(chuàng)意性更足,基本上5個step給了5個驚喜。

最常用的DPM++ SDE Karras,在20 step之后很穩(wěn)定,構(gòu)圖基本沒變化。


采樣步數(shù)(Sampling steps)


一般采樣步數(shù)選擇20-50之間,也是視大模型而定。

但AI技術(shù)始終在進化,SD最新嵌入的UniPC采樣器,據(jù)說10步以內(nèi)就能得到很好的出圖。

趣聞屋試了下,確實給力。但反向提示詞不能給的太多,反向提示詞太多步數(shù)少會變形。下面給出3個反向提示詞和給99個的對比。

這是只給3個反向提示詞的情況下,表現(xiàn)很好:

下面是給99個反向提示詞之后,15 steps及以下出現(xiàn)變形:


人臉修復(Restore faces)


SD提供了兩個人臉修復的方法:GFPGAN、CodeFormer。

1.GFPGAN (Guided Filtering and Progressive Growing Generative Adversarial Networks) 是基于人類視覺系統(tǒng)的圖像生成方法,它利用了引導濾波器 (Guided Filter) 和漸進增長生成對抗網(wǎng)絡(luò) (Progressive Growing GAN) 的技術(shù)來生成高質(zhì)量的圖像。


2.CodeFormer 的主要原理是在編碼器 (Encoder) 和解碼器 (Decoder) 中采用自注意力機制,使模型能夠有選擇地關(guān)注輸入圖像的重要區(qū)域,從而減少了模型的冗余操作。同時,CodeFormer 還提出了一種新的損失函數(shù)來提升圖像生成的效果。

效果對比如下:

趣聞屋使用 CodeFormer,無腦選擇。

詳解倉庫:

GFPGAN:https://github.com/TencentARC/GFPGAN

CodeFormer:https://github.com/sczhou/CodeFormer


高分辨率修復(Hires. fix)


SD默認情況下,txt2img 以非常高的分辨率(寬高大于756像素)制作圖像,會出現(xiàn)多手多肢體怪物,所以官方建議如果制作高分辨率的圖像,打開Hires. fix選項。

高清化算法(Upscaler):

1. Latent

Latent 是一種基于 VAE 模型的圖像增強算法,通過將原始圖像編碼成潛在向量,并對其進行隨機采樣和重構(gòu),從而增強圖像的質(zhì)量、對比度和清晰度。這種算法適用于對低清、模糊、低對比度和有噪音的圖像進行提升和增強。


2. Lanczos

Lanczos 是一種基于一種低通濾波算法的圖像升級算法,在升級圖像尺寸時可以保留更多的細節(jié)和結(jié)構(gòu)信息,因此可以增強圖像的分辨率和細節(jié)。這種算法適用于升級分辨率較低的圖像、文檔或照片,以獲得更高質(zhì)量、更清晰的圖像。


3. Nearest

Nearest 是一種基于圖像插值的圖像升級算法,它使用插值技術(shù)將低分辨率的圖像升級到高分辨率。雖然它可以快速生成高分辨率圖像,但也帶來了一些缺點,如圖像邊緣模糊、細節(jié)丟失或圖像瑕疵等。因此,這種算法通常適用于對速度需求較高而不需要過多細節(jié)的場景下。


4. LDSR

LDSR( Low-Dose CT Super-Resolution) 是一種用于醫(yī)學圖像重建的算法,它通過卷積神經(jīng)網(wǎng)絡(luò)和自注意力機制,以低劑量掃描 CT 圖像為輸入,實現(xiàn)加速重建低劑量 CT 圖像過程,從而提高圖像的準確度和清晰度。這種算法適用于對 CT、MRI 等醫(yī)學圖像進行重建和處理。


5. ESRGAN_4x, R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B

ESRGAN_4x、R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B 都是神經(jīng)網(wǎng)絡(luò)算法,用于實現(xiàn)圖像超分辨率。它們可以將低分辨率的圖像升級到更高的分辨率,并可以保留更多的細節(jié)和紋理信息。這些算法的不同之處在于采用的網(wǎng)絡(luò)結(jié)構(gòu)、訓練方法以及對不同類型圖像處理的效果。ESRGAN_4x 適用于一般的圖像超分辨率場景,R-ESRGAN 4x+ 主要用于增強細節(jié)和保留更多紋理信息,而 R-ESRGAN 4x+ Anime6B 則適用于對動漫和卡通圖像進行超分辨率處理。


6. ScuNET GAN 和 ScuNET PSNR

ScuNET GAN 和 ScuNET PSNR 都是基于生成對抗網(wǎng)絡(luò)(GAN)的圖像超分辨率算法。它們可以以更高的分辨率生成更真實、更清晰的圖像,其訓練方法和網(wǎng)絡(luò)結(jié)構(gòu)相對于其他超分辨率算法更加復雜。ScuNET GAN 適用于對比較復雜、高精度的圖像超分辨率場景,ScuNET PSNR 則適用于對保持更多的圖像細節(jié)、紋理、顏色等信息的處理場景。


7. SwinIR 4x

SwinIR 4x 是一種最新的基于 Transformer 模型的圖像超分辨率算法,它采用多尺度、多方向的注意力機制和局部位置感知來增強圖像的清晰度、細節(jié)和紋理。與傳統(tǒng)的 CNN 網(wǎng)絡(luò)不同,Transformer 網(wǎng)絡(luò)可以更好地處理長期依賴關(guān)系和全局信息。SwinIR 4x 適用于對復雜、高清晰度圖像的處理場景。


懶人使用包:無腦型(R-ESRGAN 4x+),動漫卡通(R-ESRGAN 4x+ Anime6B)


高分辨率采樣步數(shù)(Hires steps):一般建議在5-15 steps

重繪強度(Denoising strength):數(shù)值越高,改變原圖內(nèi)容也就越多,如下圖:

放大倍率(Upscale by):放大倍率一般選2,提高出圖效率。后面想要更大的分辨率,到附加功能(extras)里放大就可以。


最后的細節(jié)

寬高:視選擇的大模型而定,大模型訓練的圖片是512*512時,建議選擇尺寸不要超過768*768,需要大分辨率的使用高分辨率修復(Hires. fix)。

生成批次(Batch count)生成多少批,顯卡顯存少可以選這個多批次出圖。

每批數(shù)量(Batch):這個和 Batch count 區(qū)別是,一個批次出多少張圖,需要大顯存支持。

提示詞引導系數(shù)(CFG Scale):用于控制圖像增強的程度,一般建議在3-11,視大模型而定。當 CFG Scale 的數(shù)值較高時,圖像增強程度也會相應(yīng)增加,使得圖像的亮度、對比度等增強效果更加明顯。CFG Scale 數(shù)值過高也會帶來一些問題:

1. 圖像過度增強:當 CFG Scale 數(shù)值過高時,圖像的亮度、對比度增強效果會過度提升,使得圖像細節(jié)和結(jié)構(gòu)的自然效果被破壞,從而使圖像看起來過度處理或過于極端。

2. 噪聲和偽影:在一些情況下,CFG Scale 數(shù)值過高會使圖像出現(xiàn)噪聲和偽影,這會影響圖像的視覺效果并影響后續(xù)處理過程。


圖像生成種子(Seed) seed 值控制生成圖像的隨機性。如果使用相同的 seed,每次生成的圖像會相近,使用不同的 seed,則可以獲得相差較多的圖像,從而生成具有不同風格和特點的圖像。


結(jié)語


結(jié)束。文章很長,能看到這的同學那必須是真愛~

趣聞屋感謝同學們的閱讀,有什么遺漏、問題和糾錯,歡迎評論區(qū)留言。趣聞屋虛心求教。

古德拜!我們下期見~~

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定