LCM/LCM-LoRA實(shí)時(shí)圖像生成技術(shù)革新，速度飛躍！-火星時(shí)代教育

發(fā)布時(shí)間：2024-08-14 18:40:37 瀏覽量：204次

機(jī)器之心報(bào)道

編輯：張倩、陳萍

生成式模型進(jìn)入「實(shí)時(shí)」時(shí)代？

文生圖、圖生圖已經(jīng)不再是新鮮事。但使用這類(lèi)工具時(shí)，我們往往要忍受等待才能看到生成結(jié)果。

最近，一種名為「LCM」的模型改變了這一現(xiàn)狀，實(shí)現(xiàn)了實(shí)時(shí)的連續(xù)圖像生成。

LCM全稱為L(zhǎng)atent Consistency Models（潛在一致性模型），由清華大學(xué)交叉信息研究院的研究者們構(gòu)建。LCM能將主流文生圖模型的效率提高5-10倍，實(shí)現(xiàn)了實(shí)時(shí)圖像生成。

該文章發(fā)布一個(gè)月內(nèi)瀏覽量超百萬(wàn)，作者也被邀請(qǐng)?jiān)贖ugging Face、Replicate、浦源等多個(gè)平臺(tái)展示新研發(fā)的LCM模型和demo。

LCM-LoRA技術(shù)進(jìn)一步改進(jìn)了LCM的快速采樣能力，為多模型提供了有效的解決方案，實(shí)現(xiàn)了實(shí)時(shí)圖像生成效果。

潛在一致性模型的快速生成能力開(kāi)啟了圖像生成技術(shù)新局面。用戶可以根據(jù)輸入的文本處理和渲染實(shí)時(shí)捕捉到的畫(huà)面，實(shí)現(xiàn)高速圖像生成，實(shí)現(xiàn)自定義展示場(chǎng)景或視覺(jué)效果。

X平臺(tái)上研究者展示了利用該模型實(shí)現(xiàn)的圖像生成效果，包括圖生圖、視頻生成等應(yīng)用。

LCM的代碼已開(kāi)源，在Hugging Face官方倉(cāng)庫(kù)中也有相關(guān)支持。LCM模型在文生圖模型熱度中名列前茅。

接下來(lái)，我們將介紹LCM和LCM-LoRA這兩項(xiàng)研究成果。

LCM：只用幾步推理就能生成高分辨率圖像

在AIGC時(shí)代，擴(kuò)散模型如Stable Diffusion和DALL-E 3備受關(guān)注。然而，擴(kuò)散模型生成圖片通常需要多步采樣，過(guò)程較慢，推理成本高。

一致性模型為解決該問(wèn)題提供了思路，但局限于無(wú)條件圖片生成。LCM的出現(xiàn)彌補(bǔ)了這一不足，支持給定條件的圖像生成任務(wù)。

LCM要求對(duì)常微分方程進(jìn)行直接單步求解，理論上可在單步內(nèi)生成圖像。

LCM的訓(xùn)練通過(guò)微調(diào)預(yù)訓(xùn)練的擴(kuò)散模型，在極少資源消耗下賦予模型快速生成效果。其中，使用自動(dòng)編碼器來(lái)編碼圖片到潛在空間，并采用無(wú)分類(lèi)器引導(dǎo)、跳步策略等關(guān)鍵技術(shù)。

LCM生成的圖像

LCM-LoRA：一個(gè)通用的Stable Diffusion加速模塊

LCM-LoRA建立在LCM基礎(chǔ)上，通過(guò)LoRA等高效微調(diào)技術(shù)訓(xùn)練模型。它展示了強(qiáng)大的泛化能力，支持各種微調(diào)的SD模型和LoRA。

LCM-LoRA概況圖。通過(guò)在LCM的蒸餾過(guò)程中引入LoRA，降低蒸餾的內(nèi)存開(kāi)銷(xiāo)，使得能夠訓(xùn)練更大的模型，如SDXL和SSD-1B。

LCM-LoRA技術(shù)方法改善了模型的生成效果，展示出強(qiáng)大的泛化能力和優(yōu)越性。

團(tuán)隊(duì)介紹

論文作者來(lái)自清華叉院，兩位共一作分別是駱?biāo)济?、譚亦欽。

駱?biāo)济惝厴I(yè)于復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院，研究方向?yàn)槎嗄B(tài)生成模型。譚亦欽畢業(yè)于清華大學(xué)電子工程系，研究方向包括深度強(qiáng)化學(xué)習(xí)。

指導(dǎo)老師包括清華交叉信息院副教授李建、黃隆波，助理教授趙行。

第一行（從左到右）:駱?biāo)济?、譚亦欽。第二行（從左到右）：黃隆波、李建、趙行。

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线