激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

賺足眼球的AI作畫,如何實現AIGC的價值,商湯給出了答案

發(fā)布時間:2023-12-05 09:26:05 瀏覽量:283次

機器之心原創(chuàng)

作者:小舟

AIGC,不只是一場狂歡。

最近,社交平臺上一些 AI 作畫工具引起廣泛關注,比如因「情侶合影」刷屏的 Midjourney v5 和剛剛開啟公測的 Stable Diffusion XL。

Midjourney v5 和 Stable Diffusion XL 生成的圖像。

AI 生成的圖像天馬行空,在互聯網上掀起了一場狂歡,AIGC(人工智能生成內容)也成為一個爆款詞匯,人們驚呼 AI 技術的迅速發(fā)展。

狂歡之后,我們需要想想:AIGC 的現實價值是什么?

AIGC 被認為是繼專業(yè)生產內容(PGC)、用戶生產內容(UGC)之后的新型內容創(chuàng)作方式,人們期待 AI 能夠掀起新一輪內容生產變革。當前,大部分 AI 作畫工具是面向個人消費者(to C)的應用產品,這些產品的生成效果的確讓人眼前一亮。

但想讓 AIGC 賦能各行各業(yè),提升生產力,做出面向 B 端客戶的高效、專業(yè)的應用才是關鍵。

最近,長期深耕 to B 業(yè)務的商湯科技宣布推出秒畫 SenseMirage,為 AI 作畫打開了商業(yè)應用的新格局。

秒畫是基于商湯自研的文生圖大模型,依托商湯 AI 大裝置 SenseCore 強大算力集群的 AI 作畫平臺。在秒畫平臺上,B 端客戶可以使用商湯自研的文生圖大模型快速生成圖像。

其效果如何?背后技術是什么?有哪些特色與優(yōu)勢?讓我們一一為你揭秘。

多種風格、秒速生成

不同于 Stable Diffusion、Midjourney,秒畫是一個 to B 的 AI 作畫平臺,將廣泛應用于設計、營銷、游戲動畫、工程建筑、醫(yī)學、教育科普等領域。我們來看一些秒畫平臺中商湯自研文生圖大模型的生成樣例。

首先,面向時尚設計領域,商湯自研大模型生成的「中國女士時尚街拍圖如下」:

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——中國女士時尚街拍圖。

還能生成巴黎時裝周攝影風的模特圖像:

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——巴黎時裝周模特圖片。

我們也和其他文生圖模型進行了效果對比,例如生成圖像:一只戴著珍珠耳環(huán)的鸚鵡,商湯自研模型的生成效果如下:

Prompt:(混合語言輸入)一只戴著珍珠耳環(huán)的鸚鵡,維米爾風格,12K,高畫質,高清,octane render

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——戴珍珠耳環(huán)的鸚鵡。

同樣的 prompt 翻譯成英文后,我們嘗試用 Stable Diffusion XL 生成,但并沒有得到符合要求的結果。部分圖像沒有以鸚鵡作為主體,部分即便生成了鸚鵡,但缺少珍珠耳環(huán)等細節(jié)。

Stable Diffusion XL 生成的一組圖像。

在游戲動畫領域,商湯自研的文生圖模型也有很強大的生成能力,生成的圖像符合文本描述,且細節(jié)豐富,有動畫感染力。例如生成一只「憤怒的皮卡丘」:

Prompt:(中文輸入)憤怒的皮卡丘,它的眼睛是紅色的,周圍電閃雷鳴,超寫實主義風格

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——憤怒的皮卡丘。

同樣的 prompt 翻譯為英文輸入后,Stable Diffusion XL 生成的結果不盡如人意,要么是皮卡丘不夠憤怒,要么是圖像細節(jié)不到位。

Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

Stable Diffusion XL 生成的一組圖像。

我們發(fā)現,秒畫平臺中商湯自研的文生圖模型可以生成符合要求的高質量圖像,而且非常適用于設計和游戲動畫行業(yè)。下面我們就看一下這個文生圖大模型的具體細節(jié)。

超 10 億參數的自研文生圖大模型

要想讓大模型足夠好、AI 作畫足夠逼真,就要具備三個核心元素,包括模型架構、優(yōu)化方法和底層基建。

首先,模型本身的結構設計要足夠高效。一般來講,神經網絡變得更大,模型學習能力就會更強。但如何保證在同等超大參數量下,模型能夠具有性能優(yōu)勢,這就需要在模型的神經網絡結構設計上多下功夫。

從 2019 年開始,商湯就研發(fā)了一套半自主的超大模型結構設計 pipeline。它能夠幫助研究員在模型參數量特別大的情況下,設計出高效的神經網絡算子,同時商湯還使用 AutoML 平臺把這些算子結合起來。

因此,商湯自研的大模型是基于研究人員和 AI 一起設計出來的超大神經網絡結構。在這個結構下,相同的數據、相同的參數量,商湯自研的模型在性能上就有顯著的優(yōu)勢。經過訓練的模型,在生成效果上會比單純把深度、寬度加大一些量級的模型好很多。

第二,在這套模型架構設計 pipeline 里,研究人員會手工設計一些優(yōu)化方法。

傳統(tǒng)的神經網絡訓練都是用 SGD、Adam 優(yōu)化器等等。而在過去的幾年里,商湯在超大神經網絡的梯度下降優(yōu)化方法上做了非常多的研究。

特別大的模型在優(yōu)化上有一個非常嚴重的問題,是模型訓練過程的收斂性很難保證。這可能因為優(yōu)化器不夠好,也可能是因為數據里有噪聲,導致模型在極個別錯誤的樣本下產生極大的損失函數值。此外,對于基于擴散模型的生成式模型來說,生成的語義完備性、物體宏觀結構、細節(jié)(比如手指、四肢等)、推理步的加速等都有較大改進空間。商湯的研究團隊基于這些問題做了大量的優(yōu)化,以確保商湯自研的文生圖、視覺感知等大模型都能夠在一個很長周期內保持訓練穩(wěn)定、高效。

具體來說,為了讓該模型生成的圖像質量更高、細節(jié)更豐富、風格更多樣,商湯的研究團隊自研了分層推理專家(hierarchical inference experts)、圖像質量感知的分布式訓練(image quality-aware distributed training)、圖像紋理指導的交叉注意力學習(texture-guided cross-attention learning)等優(yōu)化算法。

第三,算法與底層基建要綁定配合,聯合優(yōu)化。當模型的體量足夠大,就需要用 3D 切割的方法從神經網絡深度,寬度以及數據 batch 的三個維度來切割神經網絡,再分配到上千塊 GPU 上,在每個 GPU 上進行局部計算,就會涉及到非常多機器學習系統(tǒng)的問題。比如在計算每一個分塊計算的全局結果時,需要把不同卡的計算結果結合起來。而這又會導致一個問題 —— 每個 GPU 上的子模型在相互通信時,帶寬要求會非常大。

然而,機器學習系統(tǒng)中通常是一個 POD 內的 P2P 通信帶寬很大,POD 之間的通信帶寬很小,因此商湯的研究團隊專門針對這個問題對神經網絡的結構進行了特異性設計,讓只能在一個 POD 內通信的子模型盡量放在一個 POD 里,而通信帶寬要求相對較小的一些模塊(比如不同的 experts)就放到不同的 POD 之間,這就可以讓大模型與商湯的 AI 大裝置進行聯合優(yōu)化,以獲得更高的訓練效率。

這三個技術要素讓商湯自研的文生圖大模型具備了更優(yōu)的文本理解能力和逼真的生成效果。在 prompt 比較詳細復雜的時候,該模型可以生成帶有故事性的逼真圖像。例如提供 prompt 讓模型生成皮卡丘和馬里奧打斗的場景:

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像——皮卡丘和馬里奧打斗。

在秒畫平臺上,商湯自研的文生圖大模型是一個基礎模型,B 端客戶僅用少量數據就可以迅速微調得到一個適用于下游任務的垂類模型,大大降低了訓練門檻。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像。

獨具優(yōu)勢的文生圖平臺

除了商湯自研的文生圖大模型,秒畫還是一個可以導入其他開源模型的平臺,被稱為「模型超市」。

可從第三方平臺導入模型,并啟動秒畫 SenseMirage 平臺的模型編譯技術進行推理加速的效果展示。

在秒畫平臺上,用戶可以一鍵導入 Hugging Face、Civitai、GitHub 等第三方社區(qū)的開源模型,并且添加至用戶「我的模型庫」列表中,方便進行體驗,讓用戶免除本地化部署的繁瑣流程。

這是為了大幅降低 AI 作畫的商用門檻。對于一些中小型企業(yè)來說,本地化部署大模型的成本是非常高的。硬件方面,訓練垂類模型需要搭建一定規(guī)模的 GPU 算力集群,還需要專業(yè)的技術團隊,人力成本也是比較高的。

秒畫為商湯自研文生圖模型和開源模型提供了一套算法框架和強大的算力基礎設施 ——AI 大裝置 SenseCore。B 端用戶可以直接在秒畫平臺上訓練定制化的 LoRA 模型,基于現有商湯自研文生圖模型的高度泛化性,B 端用戶只需要拖拽 20 張左右圖片作為訓練集,最低僅需 5 分鐘就能完成一個高質量模型的訓練。這讓中小型企業(yè)也能輕松擁有屬于自己的垂類模型。

此外,秒畫還提供了特異性推理優(yōu)化服務,開源模型導入后會自動采用秒畫平臺底層的模型編譯技術進行加速。借助這項加速技術,在本地 RTX 3070 顯卡上需要 10 秒生成的圖像,秒畫只要 2 秒的推理時間就可以生成。

總體來說,秒畫是一個依托商湯 AI 大裝置 SenseCore 的 to B 文生圖平臺,它基于商湯自研的超 10 億參數文生圖大模型,也能一鍵導入第三方開源模型,為 B 端客戶免去了本地化部署的繁瑣流程,并提供了簡單快速的訓練服務和推理加速功能。

打開 AIGC 的商業(yè)價值

隨著生成式 AI 模型迎來爆發(fā)式增長,越來越多的人開始探索 AIGC 的潛在應用場景。不同于 to C 的應用軟件,to B 的 AIGC 平臺需要為各行業(yè)找到合適的商業(yè)模式。

作為深耕 to B 業(yè)務的公司,商湯自去年開始就為 B 端用戶提供定制化的文生圖模型,當時的常見做法是根據用戶的需求為客戶訓練并封裝成 SDK 來交付。這樣的業(yè)務積累也讓商湯有了構建通用文生圖平臺的新思路,秒畫應運而生。

在文生圖領域,設計、營銷、游戲動畫等行業(yè)未來將成為 AI 作畫的主要應用場景。作為 to B 的文生圖平臺,秒畫具備賦能這些行業(yè)的優(yōu)勢。

例如,對比同類產品的生成效果,秒畫更適用于商業(yè)設計和產品營銷。在下面這個生成汽車圖像的例子中,相比于 Stable Diffusion,商湯自研模型的生成結果更符合 prompt 中的「概念設計」和「水墨」這兩個關鍵詞。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對比。

類似地,在游戲動畫行業(yè),圖像的展現效果將直接影響產品的質量,這對賦能該行業(yè)的 AIGC 工具提出了更高的要求,包括圖像生成效果和對文本的理解能力兩方面。以下圖生成「夢幻的蝴蝶」為例,基于商湯自研模型的優(yōu)化技術,秒畫在圖像風格、細節(jié)刻畫等方面都更符合行業(yè)要求。

“商湯秒畫 SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對比。

一方面,秒畫為 B 端客戶大幅降低了文生圖垂類模型的構建門檻和商用成本;另一方面,秒畫也符合當前主流 AI 作畫的應用場景,提高了文生圖模型的實用價值。

在 AI 作畫賺足眼球的今天,秒畫平臺從賦能行業(yè)的角度出發(fā),為 AIGC 打開商業(yè)價值提供了一個新的思路。

最后,我們想說,文生圖只是 AIGC 的方向之一。隨著生成式 AI 模型的迅速發(fā)展,AI 生成文本、AI 生成視頻等等多個領域都在加快應用落地,AI 終將掀起內容生產的新一輪變革。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯系,請保持電話暢通!
確定