發(fā)布時間:2024-04-03 14:31:33 瀏覽量:174次
允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
無需GPU即可部署,0.5秒就能通過單張圖片生成3D模型。
大語言模型風暴再起的一晚,3D生成領(lǐng)域也有新開源模型引發(fā)關(guān)注。
二月底,Stability AI悄然換將,新任CTO Christian是圖形學和機器視覺大佬。上任不到五天,立刻官宣為開源社區(qū)帶來重磅炸彈:和華人團隊VAST聯(lián)合推出3D生成模型TripoSR。
只需短短的0.5秒,TripoSR就能把單張圖片轉(zhuǎn)化為一個幾何結(jié)構(gòu)完整、材質(zhì)紋理清晰的3D模型,無需任何prompt和專業(yè)知識,甚至不需要依賴GPU。
△圖源Stability AI官網(wǎng)
可以看出,不管是人物角色、家裝建筑、食物擺件,TripoSR都能理解和還原。
△圖源TripoSR技術(shù)報告
TripoSR的靈感來源于2023年11月Adobe提出的LRM。
和Sora作為視頻生成模型使用的Transformer架構(gòu)相似,TripoSR和LRM都基于Transformer架構(gòu)。
這種方式將圖像生成3D模型的任務巧妙地理解為一場跨維度的語言翻譯。想象一下,每一張輸入的圖像都是一種獨特的語言,而模型的任務,就是將這種圖像語言翻譯成另一種三維的表達——3D模型語言。
在這場翻譯中,圖像語言的“詞匯”由輸入圖像精心切割成的一塊塊小方塊,類比于視頻語言的“詞匯”是patch,而3D模型語言的“詞匯”則是由“三平面(triplane)”構(gòu)成的三維空間中的小方塊。這個方法的核心就在于它能夠?qū)⑦@些圖像語言的“詞匯”一一對應地轉(zhuǎn)化為3D模型語言的“詞匯”,從而將二維的圖像轉(zhuǎn)化為三維的模型。
在transformer架構(gòu)的強力推動下,LRM在超過百萬級別的公開三維數(shù)據(jù)集上接受了訓練,這標志著它與以往那些僅限于特定類別的研究工作劃清了界限。這種對任意用戶輸入的廣泛適應性和超高的運行效率贏得了贊譽在學術(shù)界和工業(yè)界掀起了一陣熱潮。
盡管如此,LRM的代碼和模型并未對外開放,加之其訓練成本之高——需要128塊A100 GPU連續(xù)運行一周——這使得許多資源有限的研究團隊望而卻步,從而在一定程度上限制了這項技術(shù)向更廣泛領(lǐng)域的推廣。
或許還有人有印象Stability AI此前開源的3D項目Stable Zero123。
這個項目基于另一個受到廣泛關(guān)注的開源項目threestudio,盡管這個集成嘗試取得了不少進展,但由于其依賴的技術(shù)(比如score distillation sampling)需要較長的優(yōu)化和計算時間,使得生成一個3D模型既緩慢又資源消耗巨大,這個問題仍未能被充分解決。
直至TripoSR的出現(xiàn),學術(shù)界和開源界一直缺少一個開放、快速、且具備強大泛化能力的3D生成基礎(chǔ)模型和框架。
該模型基于LRM的原始算法,通過精細篩選和渲染的Objaverse數(shù)據(jù)集子集以及一系列的模型和訓練改進,顯著提高了從有限訓練數(shù)據(jù)中泛化的能力,同時也增強了3D重建的保真度。
△與其他算法對比
因此,可以說Tripo AI和Stability AI聯(lián)合推出的首個LRM高質(zhì)量開源實現(xiàn)——TripoSR極大地填補了3D生成式人工智能領(lǐng)域的一個關(guān)鍵空白。
△性能表現(xiàn):F-Score(越高越好)與推理時間(越低越好)的關(guān)系
作為Stable Diffusion背后公司,Stability AI無需多做介紹,那么此番與Stability AI攜手的Tripo AI又是何許人也?
根據(jù)公開信息,Tripo AI背后是一個叫作VAST AI Research的新銳3D研究機構(gòu)。
自2023年底相繼開源了Wonder3D、CSD、TGS等工作的代碼和權(quán)重,獲得了開源社區(qū)的廣泛好評。
Tripo是VAST在2023年12月推出的通用3D生成模型。能實現(xiàn)8秒內(nèi)通過文字或圖片生成3D網(wǎng)格模型,并通過5分鐘進行精細化生成,生成模型質(zhì)量在幾何和材質(zhì)層面都接近手工水平。
根據(jù)其披露的運營動態(tài),目前已上線模型生成之外,風格化、自動骨骼綁定等更多3D生成相關(guān)功能。
你覺得2024年會是3D生成領(lǐng)域爆發(fā)的一年嗎?
參考鏈接:
[1]TripoSR模型代碼:https://github.com/VAST-AI-Research/TripoSR
[2]TripoSR模型權(quán)重:https://huggingface.co/stabilityai/TripoSR
[3]TripoSR Demo:https://huggingface.co/spaces/stabilityai/TripoSR
[4]https://stability.ai/news/triposr-3d-generation
— 完 —
量子位 QbitAI · 頭條號
關(guān)注我們,第一時間獲知前沿科技動態(tài)簽約
熱門資訊
探討游戲引擎的文章,介紹了10款游戲引擎及其代表作品,涵蓋了RAGE Engine、Naughty Dog Game Engine、The Dead Engine、Cry Engine、Avalanche Engine、Anvil Engine、IW Engine、Frostbite Engine、Creation引擎、Unreal Engine等引擎。借此分析引出了游戲設(shè)計領(lǐng)域和數(shù)字藝術(shù)教育的重要性,歡迎點擊咨詢報名。
2. 手機游戲如何開發(fā)(如何制作傳奇手游,都需要準備些什么?)
?如何制作傳奇手游,都需要準備些什么?提到傳奇手游相信大家都不陌生,他是許多80、90后的回憶;從起初的端游到現(xiàn)在的手游,說明時代在進步游戲在更新,更趨于方便化移動化。而如果我們想要制作一款傳奇手游的
3. B站視頻剪輯軟件「必剪」:免費、炫酷特效,小白必備工具
B站視頻剪輯軟件「必剪」,完全免費、一鍵制作炫酷特效,適合新手小白。快來試試!
游戲中玩家將面臨武俠人生的掙扎抉擇,戰(zhàn)或降?殺或放?每個抉定都將觸發(fā)更多愛恨糾葛的精彩奇遇。《天命奇御》具有多線劇情多結(jié)局,不限主線發(fā)展,高自由...
5. Bigtime加密游戲經(jīng)濟體系揭秘,不同玩家角色的經(jīng)濟活動
Bigtime加密游戲經(jīng)濟模型分析,探討游戲經(jīng)濟特點,幫助玩家更全面了解這款GameFi產(chǎn)品。
6. 3D動畫軟件你知道幾個?3ds Max、Blender、Maya、Houdini大比拼
當提到3D動畫軟件或動畫工具時,指的是數(shù)字內(nèi)容創(chuàng)建工具。它是用于造型、建模以及繪制3D美術(shù)動畫的軟件程序。但是,在3D動畫軟件中還包含了其他類型的...
7. 3D動漫建模全過程,不是一般人能學的會的,會的多不是人?
步驟01:面部,頸部,身體在一起這次我不準備設(shè)計圖片,我從雕刻進入。這一次,它將是一種純粹關(guān)注建模而非整體繪畫的形式。像往常一樣,我從Sphere創(chuàng)建它...
8. 如何自己開發(fā)一款游戲(游戲開發(fā)入門必看:五大獨立游戲開發(fā)技巧)
?游戲開發(fā)入門必看:五大獨立游戲開發(fā)技巧無論您是剛剛起步開發(fā)自己的第一款游戲,還是已經(jīng)制作了幾款游戲,本篇文章中的5大獨立游戲開發(fā)技巧都可以幫助您更好地設(shè)計下一款游戲。無論你對游戲有著什么樣的概念,都
?三昧動漫對于著名ARPG游戲《巫師》系列,最近CD Projekt 的高層回應并不會推出《巫師4》。因為《巫師》系列在策劃的時候一直定位在“三部曲”的故事框架,所以在游戲的出品上不可能出現(xiàn)《巫師4》
10. 3D打印技巧揭秘!Cura設(shè)置讓你的模型更堅固
想讓你的3D打印模型更堅固?不妨嘗試一下Cura參數(shù)設(shè)置和設(shè)計技巧,讓你輕松掌握!
最新文章
同學您好!