發(fā)布時間:2024-03-30 13:22:26 瀏覽量:333次
Hello~ 同學們,歡迎回到趣聞屋。
趣聞經(jīng)過大約一個月的使用 Stable Diffusion webUI,發(fā)現(xiàn)txt2img還是有些知識點不太熟悉。于是決定記錄下學習過程,寫一篇關(guān)于生產(chǎn)圖像的 txt2img 的隨筆,加深理解。是筆記也是為與同學們分享,給大家提供一些啟發(fā)和幫助。好好學習,天天向上!歐耶~
(本文總字數(shù)6000字,建議同學們收藏下來慢慢看)
Stable Diffusion 是一種用于生成高質(zhì)量圖像的神經(jīng)網(wǎng)絡(luò)模型,它基于擴散過程,在保持圖像特征的同時增強了圖像細節(jié)。它由3個部分組成:變分自編碼器(VAE)、U-Net和一個文本編碼器(CLIP)。
1. Variational Autoencoder(VAE) 是一種用于生成模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過學習數(shù)據(jù)的潛在表示來生成新的數(shù)據(jù)。在 Stable Diffusion 中,它被用作概率編碼器(Encoder)和解碼器(Decoder)。VAE 通過將輸入數(shù)據(jù)映射到潛在空間中進行編碼,然后將編碼的向量與潛在變量的高斯分布進行重參數(shù)化,以便可以直接從潛在空間中進行采樣。
2. Unet 是一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割模型,采用了一種特殊的“U”形結(jié)構(gòu),使得輸入的分辨率逐步減小而輸出的分辨率逐步增加。在 Stable Diffusion 中,Unet 能夠?qū)D像進行部分特征提取,同時在解碼器的過程中,能夠?qū)ι傻膱D像進行重構(gòu),以獲得高的生成品質(zhì)。
3. CLIP檢索網(wǎng)絡(luò)是一種文本-圖像匹配的神經(jīng)網(wǎng)絡(luò)算法,可以將輸入的文本和圖像進行語義相關(guān)性匹配,從而使其能夠?qū)崿F(xiàn)對照片、視頻、插畫等圖像內(nèi)容的理解。在 Stable Diffusion 中,CLIP檢索網(wǎng)絡(luò)不僅用于評估生成的圖像,也可以用于指導數(shù)據(jù)的采樣,以提高生成的圖像的多樣性和相關(guān)性。
具體來說,Stable Diffusion 在訓練模型時,將原始圖像通過不斷的隨機擴散和反向擴散來進行圖像變形,將圖像的細節(jié)信息逐漸壓縮到低頻區(qū)域。通過這一過程,Stable Diffusion 不僅能夠提取圖像的潛在表示,而且能夠?qū)D像的噪聲和細節(jié)信息分離出來。
逆概率沿擴散(Inverse probability flow along diffusion)是用于Stable Diffusion模型的逆模型。這個模型是一個自回歸模型,可以根據(jù)當前幀的噪聲和之前幀的生成圖像預測下一幀的噪聲。通過逆概率擴散,Stable Diffusion 可以生成高質(zhì)量的圖像。
前向擴散過程將圖像轉(zhuǎn)換到低維潛空間
逆擴散通過逐步減去圖像中的預測噪聲生成圖像
Stable Diffusion 中,在前面的提示詞,會得到更多的權(quán)重,其次是末尾的提示詞,在中間的權(quán)重比較小。如果我們給的提示詞很多,那SD會忽略掉中間的一些提示詞來減少計算量。
提示詞權(quán)重:前 > 后 > 中
趣聞屋習慣把提詞分成五個大塊:1.畫風和畫質(zhì) 2.主題 3.背景場景 4.細節(jié) 5.藝術(shù)家
1.畫風畫質(zhì)
畫風:攝影、抽象、寫實、幻想、超現(xiàn)實主義、古典、等
畫質(zhì):8K分辨率、高畫質(zhì)細節(jié)、紋理豐富、高光表現(xiàn)、真實陰影、景深、光線追蹤、高質(zhì)量的反射和折射
Style:photography, abstraction, realism, fantasy, surrealism, classical,...
Image quality: 8K resolution, high-quality details, rich textures, high dynamic range, realistic shadows, depth of field, ray tracing, high-quality reflections and refractions...
2.主題
一個穿著時尚的女生
帶著微笑的孩子
中國古建筑
a fashionable girl
a child with a smile
ancient Chinese architecture
3.背景場景
城市、鄉(xiāng)村、星空、海洋、山水、雪山、自然、建筑、宮殿、等等
City, Countryside, Starry Sky, Ocean, Landscape, Snow Mountain, Nature, Architecture, Palace、...
4.細節(jié)
渲染引擎:Blender、Maya、3ds Max、Cinema4D、Unreal engine、等
材質(zhì):金屬、玻璃、石頭、木材、塑料、皮革、蕾絲
視角:鳥瞰、側(cè)面、仰視、俯角、傾斜、近景、向下看
修飾詞:可愛、精致、浪漫、柔美、華麗、生動、極簡、電影效果
裝飾品:項鏈、耳環(huán)、眼鏡、發(fā)卡、帽子、手環(huán)...
Material: metal, glass, stone, wood, plastic, leather, lace
Perspective: bird's-eye view, side view, looking up, looking down, tilted, close-up, look down from abov.
Modifiers: cute, sophisticated, romantic, feminine, gorgeous, vivid, minimalist, cinematic,...
Decorations: necklaces, earrings, glasses, hairpins, hats, bracelets,
5.藝術(shù)家
藝術(shù)家網(wǎng)站:
https://aipromptguide.com
同學們可以到這上面挑選自己喜歡的藝術(shù)家風格,各有所愛嘛
趣聞比較喜歡:WLOP、Aleksi Briclot...
輸入畫風和主體,先不輸入反向提示詞:
photograph,A beautiful girl
運氣不錯,得到一張看著挺不錯的圖:
后面有花,那我們就把背景放到花園吧:
photograph,A beautiful girl,garden
景深感有些欠缺,我們加上景深:
photograph, a beautiful girl, garden, depth of field,
突然變化就挺大的。哈哈,這就是AI,總能給我們意想不到的驚喜。繼續(xù)加細節(jié):可愛的、項鏈、帽子
photograph,A beautiful girl, garden, depth of field, cute, necklaces , hats
很好。但有些模糊,色彩也有些單調(diào),我們加些高清詞,表明更多的細節(jié)和低質(zhì)量反向提示詞
photograph,A beautiful girl, garden, depth of field, cute,necklaces , hats, 8k, HD, highly detailed,
worst quality, low quality,normal quality
漂亮!清晰度和色彩度一下子上來了,是不是...
總結(jié)提示詞技巧:
1.畫風,一開始就要想,我們想要什么樣的畫風?
2.主體,想要畫什么,一個人?一只貓?還是一份風景?
3.背景,在哪里?
4.細節(jié),為了修飾主體,需要增加哪些細節(jié)?
5.藝術(shù)家,希望模仿哪些藝術(shù)家的風格?
最后,大體敲定之后就是不停的加細節(jié),調(diào)色彩,待差不多滿意之后,再大批量生成。這就是AI繪畫的好處,批量生產(chǎn)。哈哈~
趣聞屋用的SD版本,嵌入了20個采樣器:
采樣器的區(qū)別和使用場景:
1. Euler a
Euler a 采樣器是 Euler 采樣器的一種變體,使用了一種不同的擴散器。相對于 Euler 采樣器,在圖像品質(zhì)上有所提升,但仍可能出現(xiàn)品質(zhì)損失的情況。它適用于簡單的圖像數(shù)據(jù)生成場景,例如圖形識別、基礎(chǔ)生成等。
2. Euler
Euler 采樣器基于歐拉插值,是一種簡單、快速但可能會失去一些品質(zhì)的采樣器。它適用于生成相對簡單的圖像、需要快速迭代的場景。
3. LMS
LMS 采樣器(Langevin Monte Carlo Sampler)基于 Langevin 梯度下降算法,可以處理非線性/多峰/混合分布,并且具有較好的靈活性和多樣性。但由于計算負載較大,可能會運行較慢。它適用于對圖像品質(zhì)和多樣性有較高要求的場景,例如生成高品質(zhì)的復雜圖像。
4. Heun
Heun 采樣器(Heun's method)是歐拉插值的一種變體,相對于 Euler 采樣器,在圖像品質(zhì)上有所提升,同時其運行速度相對較快且計算負載相對較小。它適用于大規(guī)模生成、較為簡單的圖像數(shù)據(jù)。
5. DMP2
DMP2 采樣器是 DMP 采樣器的改進版,使用更少的內(nèi)存、更少的計算負載和更快的采樣速度。它適用于生成算法相對基礎(chǔ)、對速度較為嫩的場景。
6. DPM2 a、DPM++ 2S a
DPM2 a 和 DPM++ 2S a 采樣器是基于擴散過程實現(xiàn)的算法,能夠快速生成高品質(zhì)圖像。它們適用于需要處理多類別任務(wù)的場景,例如物體檢測、語義分割。
7. DPM++ 2M
DPM++ 2M 采樣器是 DPM++ 2S a 的一種改進版,增加了相鄰層之間的信息傳遞。它適用于對數(shù)據(jù)復雜性有嚴格要求的場景,例如用于醫(yī)學圖像分析、自然場景生成的應(yīng)用。
8. DPM++ SDE
DPM++ SDE 采樣器是一款基于穩(wěn)定性差分方程(Stochastic Differential Equation, SDE)的算法,可以生成高度逼真的圖像,并且對圖像品質(zhì)和多樣性的要求有嚴格要求的場景。例如,需要用于虛擬現(xiàn)實、視頻游戲等應(yīng)用的場景。
9. DPM fast、DPM adaptive
DPM fast 和 DPM adaptive 采樣器是一種快速生成高品質(zhì)圖像的采樣器,適用于產(chǎn)生短時間內(nèi)需要大量圖像數(shù)據(jù)的場景,例如數(shù)據(jù)增強、訓練圖像生成等應(yīng)用。
10. LMS Karras、DPM2 Karras、DPM2 a Karras、DPM++ 2S a Karras、DPM++ 2M Karras、DPM++ SDE Karras
Karras 系列采樣器是一系列基于 Langevin Monte Carlo Sampler 和擴散過程的改進版算法,能夠快速生成高品質(zhì)圖像。它們適用于對數(shù)據(jù)品質(zhì)有高要求的場景,例如醫(yī)學圖像分析、自然場景生成的應(yīng)用。
11. DDIM
DDIM 采樣器(Diffusion Denoising for Image Manipulation)能夠在擴散的同時對兩個空間維度和一維動態(tài)調(diào)整時間步長。增加了視頻剪輯風格的操作,擴展了 Stable Diffusion 的基礎(chǔ)結(jié)果。DDIM 采樣器適用于需要實現(xiàn)復雜操作、生成流程的場景,例如生成類似視頻流的圖像數(shù)據(jù)。
12. PLMS
PLMS 采樣器(Preconditioned Langevin Monte Carlo Sampler)使用了一種更高級的梯度采樣方法,能夠更好地處理非線性/多峰/混合分布,減少了噪音。它可以生成具有非常高保真度且可控多樣性的圖像,但是比其他采樣器更慢。PLMS 采樣器適用于對圖像品質(zhì)和多樣性有嚴格要求的場景,例如需要高保真度圖像的應(yīng)用或者對于生成面部或彩色圖像的應(yīng)用等。
13. UniPC
UniPC 采樣器(Unified Perceptual Control)采用了一種感知實驗中的控制方案來調(diào)整溫度和擴散器系數(shù)。這種方法可以生成更逼真的圖像,并提高了采樣速度。但是,UniPC 采樣器可能不如其他采樣器那么靈活。它適用于對圖像逼真度和采樣速度都有需求的場景,例如生成與人形體有關(guān)的應(yīng)用。
在使用下面參數(shù)的做輸入,趣聞屋選了幾個常用的采樣器在steps為:10、17、15、32、40下合圖對比:
CFG scale: 7, Face restoration: CodeFormer, Size: 360x540, Model: Chilloutmix, Denoising strength: 0.5, Hires upscale: 2, Hires steps: 10, Hires upscaler: R-ESRGAN 4x+,
采樣器總結(jié):
除了LMS、DMP2 a 和PLMS在20步以下出現(xiàn)明顯的瑕疵,其他的都很不錯。
UniPC 的創(chuàng)意性更足,基本上5個step給了5個驚喜。
最常用的DPM++ SDE Karras,在20 step之后很穩(wěn)定,構(gòu)圖基本沒變化。
一般采樣步數(shù)選擇20-50之間,也是視大模型而定。
但AI技術(shù)始終在進化,SD最新嵌入的UniPC采樣器,據(jù)說10步以內(nèi)就能得到很好的出圖。
趣聞屋試了下,確實給力。但反向提示詞不能給的太多,反向提示詞太多步數(shù)少會變形。下面給出3個反向提示詞和給99個的對比。
這是只給3個反向提示詞的情況下,表現(xiàn)很好:
下面是給99個反向提示詞之后,15 steps及以下出現(xiàn)變形:
SD提供了兩個人臉修復的方法:GFPGAN、CodeFormer。
1.GFPGAN (Guided Filtering and Progressive Growing Generative Adversarial Networks) 是基于人類視覺系統(tǒng)的圖像生成方法,它利用了引導濾波器 (Guided Filter) 和漸進增長生成對抗網(wǎng)絡(luò) (Progressive Growing GAN) 的技術(shù)來生成高質(zhì)量的圖像。
2.CodeFormer 的主要原理是在編碼器 (Encoder) 和解碼器 (Decoder) 中采用自注意力機制,使模型能夠有選擇地關(guān)注輸入圖像的重要區(qū)域,從而減少了模型的冗余操作。同時,CodeFormer 還提出了一種新的損失函數(shù)來提升圖像生成的效果。
效果對比如下:
趣聞屋使用 CodeFormer,無腦選擇。
詳解倉庫:
GFPGAN:https://github.com/TencentARC/GFPGAN
CodeFormer:https://github.com/sczhou/CodeFormer
SD默認情況下,txt2img 以非常高的分辨率(寬高大于756像素)制作圖像,會出現(xiàn)多手多肢體怪物,所以官方建議如果制作高分辨率的圖像,打開Hires. fix選項。
高清化算法(Upscaler):
1. Latent
Latent 是一種基于 VAE 模型的圖像增強算法,通過將原始圖像編碼成潛在向量,并對其進行隨機采樣和重構(gòu),從而增強圖像的質(zhì)量、對比度和清晰度。這種算法適用于對低清、模糊、低對比度和有噪音的圖像進行提升和增強。
2. Lanczos
Lanczos 是一種基于一種低通濾波算法的圖像升級算法,在升級圖像尺寸時可以保留更多的細節(jié)和結(jié)構(gòu)信息,因此可以增強圖像的分辨率和細節(jié)。這種算法適用于升級分辨率較低的圖像、文檔或照片,以獲得更高質(zhì)量、更清晰的圖像。
3. Nearest
Nearest 是一種基于圖像插值的圖像升級算法,它使用插值技術(shù)將低分辨率的圖像升級到高分辨率。雖然它可以快速生成高分辨率圖像,但也帶來了一些缺點,如圖像邊緣模糊、細節(jié)丟失或圖像瑕疵等。因此,這種算法通常適用于對速度需求較高而不需要過多細節(jié)的場景下。
4. LDSR
LDSR( Low-Dose CT Super-Resolution) 是一種用于醫(yī)學圖像重建的算法,它通過卷積神經(jīng)網(wǎng)絡(luò)和自注意力機制,以低劑量掃描 CT 圖像為輸入,實現(xiàn)加速重建低劑量 CT 圖像過程,從而提高圖像的準確度和清晰度。這種算法適用于對 CT、MRI 等醫(yī)學圖像進行重建和處理。
5. ESRGAN_4x, R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B
ESRGAN_4x、R-ESRGAN 4x+ 和 R-ESRGAN 4x+ Anime6B 都是神經(jīng)網(wǎng)絡(luò)算法,用于實現(xiàn)圖像超分辨率。它們可以將低分辨率的圖像升級到更高的分辨率,并可以保留更多的細節(jié)和紋理信息。這些算法的不同之處在于采用的網(wǎng)絡(luò)結(jié)構(gòu)、訓練方法以及對不同類型圖像處理的效果。ESRGAN_4x 適用于一般的圖像超分辨率場景,R-ESRGAN 4x+ 主要用于增強細節(jié)和保留更多紋理信息,而 R-ESRGAN 4x+ Anime6B 則適用于對動漫和卡通圖像進行超分辨率處理。
6. ScuNET GAN 和 ScuNET PSNR
ScuNET GAN 和 ScuNET PSNR 都是基于生成對抗網(wǎng)絡(luò)(GAN)的圖像超分辨率算法。它們可以以更高的分辨率生成更真實、更清晰的圖像,其訓練方法和網(wǎng)絡(luò)結(jié)構(gòu)相對于其他超分辨率算法更加復雜。ScuNET GAN 適用于對比較復雜、高精度的圖像超分辨率場景,ScuNET PSNR 則適用于對保持更多的圖像細節(jié)、紋理、顏色等信息的處理場景。
7. SwinIR 4x
SwinIR 4x 是一種最新的基于 Transformer 模型的圖像超分辨率算法,它采用多尺度、多方向的注意力機制和局部位置感知來增強圖像的清晰度、細節(jié)和紋理。與傳統(tǒng)的 CNN 網(wǎng)絡(luò)不同,Transformer 網(wǎng)絡(luò)可以更好地處理長期依賴關(guān)系和全局信息。SwinIR 4x 適用于對復雜、高清晰度圖像的處理場景。
懶人使用包:無腦型(R-ESRGAN 4x+),動漫卡通(R-ESRGAN 4x+ Anime6B)
高分辨率采樣步數(shù)(Hires steps):一般建議在5-15 steps
重繪強度(Denoising strength):數(shù)值越高,改變原圖內(nèi)容也就越多,如下圖:
放大倍率(Upscale by):放大倍率一般選2,提高出圖效率。后面想要更大的分辨率,到附加功能(extras)里放大就可以。
寬高:視選擇的大模型而定,大模型訓練的圖片是512*512時,建議選擇尺寸不要超過768*768,需要大分辨率的使用高分辨率修復(Hires. fix)。
生成批次(Batch count):生成多少批,顯卡顯存少可以選這個多批次出圖。
每批數(shù)量(Batch):這個和 Batch count 區(qū)別是,一個批次出多少張圖,需要大顯存支持。
提示詞引導系數(shù)(CFG Scale):用于控制圖像增強的程度,一般建議在3-11,視大模型而定。當 CFG Scale 的數(shù)值較高時,圖像增強程度也會相應(yīng)增加,使得圖像的亮度、對比度等增強效果更加明顯。CFG Scale 數(shù)值過高也會帶來一些問題:
1. 圖像過度增強:當 CFG Scale 數(shù)值過高時,圖像的亮度、對比度增強效果會過度提升,使得圖像細節(jié)和結(jié)構(gòu)的自然效果被破壞,從而使圖像看起來過度處理或過于極端。
2. 噪聲和偽影:在一些情況下,CFG Scale 數(shù)值過高會使圖像出現(xiàn)噪聲和偽影,這會影響圖像的視覺效果并影響后續(xù)處理過程。
圖像生成種子(Seed): seed 值控制生成圖像的隨機性。如果使用相同的 seed,每次生成的圖像會相近,使用不同的 seed,則可以獲得相差較多的圖像,從而生成具有不同風格和特點的圖像。
結(jié)束。文章很長,能看到這的同學那必須是真愛~
趣聞屋感謝同學們的閱讀,有什么遺漏、問題和糾錯,歡迎評論區(qū)留言。趣聞屋虛心求教。
古德拜!我們下期見~~
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
最新文章
同學您好!