發(fā)布時(shí)間:2024-08-17 12:21:27 瀏覽量:221次
文生圖領(lǐng)域一直面臨著一個(gè)核心難題,就是有條件圖像生成的效果,遠(yuǎn)超無條件的圖像生成。有條件圖像生成是指模型在生成圖像的過程中,會額外使用類別、文本等輔助信息進(jìn)行指導(dǎo),這樣可以更好地理解用戶的文本意圖,生成的圖像質(zhì)量也更高。
而無條件圖像生成完全基于模型自己學(xué)習(xí)的數(shù)據(jù)分布,難以形成有效的指導(dǎo),所以,我們經(jīng)常會有的AI平臺生成的圖像驢唇不對馬嘴,或者圖像有重大缺陷。
為了解決這個(gè)問題,麻省理工學(xué)院和Meta的AI研究人員開發(fā)了RCG模型(Representation-Conditioned imageGeneration)。
RCG是一種創(chuàng)新性的“基于表示條件的圖像生成”模型。所謂“表示條件”,就是讓模型自己從數(shù)據(jù)中提取表示來進(jìn)行指導(dǎo),而無需任何人工數(shù)據(jù)標(biāo)注。所以,RCG能以更小的消耗,生成與有指導(dǎo)模型相媲美的圖片。
開源地址:點(diǎn)擊咨詢
論文地址:點(diǎn)擊咨詢
從RCG的論文來看,其圖片生成流程采用了擬人化思路。先規(guī)劃出要生成圖片的大體輪廓,然后再根據(jù)這一構(gòu)思去繪制圖片的細(xì)節(jié)。
就像我們?nèi)祟惍嫯嬕粯?,先在大腦中構(gòu)思畫作的整體思路,例如,想畫一匹馬,先想象馬的形體;想畫一個(gè)蘋果,先想象個(gè)大紅色的圓球,然后根據(jù)整體“表示”畫出圖像的細(xì)節(jié)。
圖像編碼器
圖像編碼器的作用是從圖像中提取有意義的表示。這些表示在保留圖像的語義信息的同時(shí),也要比較簡單、易于建模。
目前流行的自監(jiān)督學(xué)習(xí)算法主要可以分為兩大類:1)基于預(yù)訓(xùn)練任務(wù),這類方法會人為設(shè)計(jì)一個(gè)預(yù)訓(xùn)練任務(wù),讓模型去預(yù)測一些偽標(biāo)簽。比如旋轉(zhuǎn)預(yù)測任務(wù),讓模型預(yù)測圖像被旋轉(zhuǎn)的角度等。
2)基于對比學(xué)習(xí),這類方法會構(gòu)造正樣本和負(fù)樣本。讓模型學(xué)會區(qū)分和拉遠(yuǎn)它們在表示空間的距離,代表性算法包括MoCo、SimCLR等。
實(shí)驗(yàn)證明,基于對比學(xué)習(xí)方法,可以獲得更加有效的圖像表示,因此RCG選擇了這種方式,并使用了MoCo v3進(jìn)行預(yù)訓(xùn)練,這是圖像分類任務(wù)上效果最優(yōu)的自監(jiān)督對比學(xué)習(xí)算法之一。
為了使表示維度可控,RCG使用了帶有預(yù)測頭的Transformer模型。預(yù)測頭會規(guī)劃成256維的向量,這樣就獲得了編碼器輸出的表示。該表示同時(shí)還進(jìn)行了歸一化處理,以符合高斯分布。
表示生成模塊
在提取到圖像的表示之后,下一步就是對這些表示進(jìn)行采樣。通常,我們希望模型可以捕捉表示空間的分布,具有生成各種新穎表示的能力,從而指導(dǎo)下游的圖像生成。
為此,RCG提出了表示擴(kuò)散模型RDM。它使用全連接網(wǎng)絡(luò)作為主干,包含數(shù)個(gè)殘差塊。每個(gè)塊里面包括激活函數(shù)、線性層等。
RDM模塊訓(xùn)練時(shí),采用了DDIM算法。即先將真實(shí)圖像表示加入高斯噪聲,讓RDM去除噪音并重構(gòu)原始表示;生成時(shí),從完全噪聲表示出發(fā),逐步采樣清晰的表示。
RDM模塊的參數(shù)和計(jì)算量很小,因此即使增加塊數(shù)和寬度,也不會帶來太大的額外負(fù)擔(dān)。這樣我們可以充分發(fā)掘表示空間的豐富信息,指導(dǎo)下游生成。
像素生成器
提取表示并對其建模之后,最后一步就是根據(jù)表示來生成圖像像素。RCG中的像素生成器可以使用任意的條件圖像生成模型,只需要將原有的條件(比如類別標(biāo)簽)替換為RDM生成的表示即可。
訓(xùn)練時(shí),MAGE接收帶有遮蔽(Mask)的圖像作為輸入,其中帶X的是被遮蔽的,同時(shí)也輸入對應(yīng)圖像的表示,然后學(xué)習(xí)重構(gòu)被遮蔽的內(nèi)容。
為了驗(yàn)證RCG模型的效果,研究團(tuán)隊(duì)基于ImageNet測試平臺中的256×256數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。
結(jié)果顯示,RCG的FID分?jǐn)?shù)為3.56和IS的253.4,超過了之前最好的無條件生成模型MAGE的結(jié)果,與當(dāng)前狀態(tài)最好的有條件模型CDM差不多。
本文素材來源RCG論文,如有侵權(quán)請聯(lián)系刪除
END
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!