發(fā)布時(shí)間:2024-04-01 15:30:23 瀏覽量:124次
修尋、羽扇 大淘寶技術(shù) 2023-08-30 16:20 發(fā)表于浙江
本文將以AIGC生成3D模型探索與實(shí)踐為主題,結(jié)合電商平臺(tái)的應(yīng)用需求,探討如何利用AIGC技術(shù)實(shí)現(xiàn)3D模型的個(gè)性化生成、大規(guī)模生產(chǎn)和快速推廣,以及其對(duì)于電商行業(yè)的推動(dòng)作用。
背景
隨著電商平臺(tái)的興起,3D模型已經(jīng)成為展示商品的重要手段,手機(jī)天貓正在積極探索3D相關(guān)的投放場(chǎng)景,電商商品3D化,可以使得用戶在APP中,實(shí)時(shí)瀏覽3D商品模型,更直觀地了解商品的外觀顏色、形狀結(jié)構(gòu)、物理材質(zhì)等信息,為用戶帶來更好的消費(fèi)體驗(yàn),為虛實(shí)結(jié)合帶來更多可能,后續(xù)也可以用于AR\VR等內(nèi)容生產(chǎn)。然而,傳統(tǒng)的3D模型生成方法存在著效率低、精度不夠高、難以滿足個(gè)性化需求等問題,導(dǎo)致商家在展示商品時(shí)難以達(dá)到理想的效果。而AIGC(Artificial Intelligence in Graphics and Computing)技術(shù)的出現(xiàn),為3D模型的生成提供了全新的思路和方法。AIGC技術(shù)可以利用人工智能和計(jì)算機(jī)圖形學(xué)的結(jié)合,實(shí)現(xiàn)更加高效、準(zhǔn)確和靈活的3D模型生成。
技術(shù)模型
2020年,谷歌提出神經(jīng)輻射場(chǎng)3D建模方法NeRF,可以渲染出較高質(zhì)量的圖片,不需要人工修模,3D建模成本較低,為大規(guī)模3D模型生產(chǎn)帶來了新思路。起初淘寶Meta 團(tuán)隊(duì)主要致力于 提升 NeRF重建效果(布料細(xì)節(jié)清晰度、商品文字清晰度等提升),使其渲染清晰度達(dá)到工業(yè)落地標(biāo)準(zhǔn)。
神經(jīng)輻射場(chǎng)(NeRF)是一個(gè)簡(jiǎn)單的全連接網(wǎng)絡(luò)(權(quán)重約為5MB),經(jīng)過訓(xùn)練,可以使用渲染損失再現(xiàn)單個(gè)場(chǎng)景的輸入視圖。網(wǎng)絡(luò)直接從空間位置和觀看方向(5D輸入)映射到顏色和不透明度(4D輸出),充當(dāng)“體積”,因此我們可以使用體積渲染來渲染新視圖。神經(jīng)輻射場(chǎng)是一種面向三維隱式空間建模的深度學(xué)習(xí)模型,這種深度學(xué)習(xí)模型又稱全連接神經(jīng)網(wǎng)絡(luò)(又稱多層感知機(jī))。NeRF 所要做的任務(wù)是 Novel View Synthesis,一般翻譯為新視角合成任務(wù),定義是:在已知視角下對(duì)場(chǎng)景進(jìn)行一系列的捕獲 (包括拍攝到的圖像,以及每張圖像對(duì)應(yīng)的內(nèi)外參),不需要中間三維重建的過程,僅根據(jù)位姿內(nèi)參和圖像,合成新視角下的圖像。在基于Nerf的表示方法下,三維空間被表示為一組可學(xué)習(xí)且連續(xù)的輻射場(chǎng),由輸入視角+位置學(xué)習(xí)后,得到密度+色彩。
盡管基于Rerf的相關(guān)生成模型在text-to-3D的相關(guān)任務(wù)下取得了較大的進(jìn)展, 但是大部分的的方法通常需要多個(gè)GPU小時(shí)才能生成一個(gè)樣本。這與最先進(jìn)的生成圖像模型形成了鮮明的對(duì)比,后者可以在幾秒鐘或幾分鐘內(nèi)生成樣本。2022年OpenAI又提出 Point-E的一種獨(dú)特的3D點(diǎn)云生成方法,該方法可以在單個(gè)GPU上僅用1-2分鐘生成3D模型。Point-E首先使用文本到圖像擴(kuò)散模型生成單個(gè)合成視圖,然后使用一個(gè)擴(kuò)散模型在生成的圖像的條件下產(chǎn)生3D點(diǎn)云。雖然Point-E在樣本質(zhì)量方面仍然不如最先進(jìn)的方法,但它在樣本生成速度上比最先進(jìn)的方法快1到2個(gè)數(shù)量級(jí)。
Code地址:
https://github.com/openai/point-e
OpenAI再次發(fā)布了一款升級(jí)模型Shap-E,相比基于點(diǎn)云的顯式生成模型Point-E,Shap-E直接生成隱函數(shù)的參數(shù)來渲染紋理和神經(jīng)輻射場(chǎng),收斂速度更快,在更高維的多表示輸出空間中實(shí)現(xiàn)了更好的樣本質(zhì)量!Shap-E是一種條件生成模型,用于生成3D資產(chǎn)。與最近的3D生成模型只能生成單個(gè)輸出表示不同,Shap-E直接生成可以呈現(xiàn)為紋理網(wǎng)格和神經(jīng)輻射場(chǎng)的隱式函數(shù)參數(shù)。Shap-E分兩個(gè)階段:首先訓(xùn)練一個(gè)編碼器,將3D資產(chǎn)確定性地映射到隱式函數(shù)的參數(shù)中;其次,在編碼器輸出上訓(xùn)練條件擴(kuò)散模型。Shap-E在大型配對(duì)的3D和文本數(shù)據(jù)集上訓(xùn)練時(shí),得到的模型能夠在幾秒鐘內(nèi)生成復(fù)雜而多樣化的3D資產(chǎn)。與點(diǎn)云上的顯式生成模型Point-E相比,盡管建模了更高維度的多重表示輸出空間,Shap-E收斂更快,并達(dá)到了更好的樣本質(zhì)量。
git: https://github.com/openai/shap-e/tree/main
![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() |
DreamFusion是谷歌提出的一種Text-to-3D模型,大體思路是通過 2D 生成模型(如 Imagen)生成多個(gè)視角的 3D 視圖,然后用NeRF 重建。這里面有個(gè)“雞生蛋蛋生雞”的問題:如果沒有一個(gè)訓(xùn)練得比較好的 NeRF,Imagen 吐出的圖會(huì)視角之間沒有consistency;而沒有 consistent 的多視角圖,又得不到一個(gè)好的 NeRF。于是作者想了個(gè)類似 GAN 的方法,NeRF 和 Imagen 來回迭代。好處是多樣性比較強(qiáng),問題也比較明顯,因?yàn)樾枰獌蛇厑砘氐?15,000 次,生成一個(gè)模型就需要在 4 塊 TPUv4 上訓(xùn)練 1.5 小時(shí)。
DreamFusion: 3D NeRF 和 2D 生成模型來回迭代優(yōu)化
?https://github.com/ashawkey/stable-dreamfusion
2022年11月,英偉達(dá)(Nvidia)提出的Magic3D模型在DreamFusion的基礎(chǔ)上提出了兩步優(yōu)化策略:首先用與DreamFusion相似的擴(kuò)散模型生成低分辨率、簡(jiǎn)單渲染的哈希網(wǎng)格三維模型,之后再采用與傳統(tǒng)計(jì)算機(jī)圖形學(xué)相似的方法對(duì)三維模型進(jìn)行更高質(zhì)量的渲染。
與DreamFusion相比,Magic3D模型生成的三維模型分辨率更高,且渲染效果更好,生成效率也有了顯著的提升。由于Magic3D模型的渲染方式與傳統(tǒng)計(jì)算機(jī)圖形學(xué)有非常緊密的關(guān)系,且其生成結(jié)果可以直接在標(biāo)準(zhǔn)的圖像軟件中進(jìn)行查看,因此Magic3D模型可以更好地與傳統(tǒng)三維生成工作進(jìn)行銜接。鑒于各方面優(yōu)勢(shì),Magic3D模型已經(jīng)具備進(jìn)行產(chǎn)業(yè)應(yīng)用的能力基礎(chǔ)。
在Magic3D模型之后,學(xué)界與業(yè)界也提出了更多三維生成模型,在生成質(zhì)量、生成效率、硬件需求、場(chǎng)景應(yīng)用等方面均進(jìn)行了更深入的探討,也有著較為明顯的優(yōu)勢(shì)與缺陷。
模型實(shí)踐
本地機(jī)器配置如下:
我們?cè)诒镜赝ㄟ^cuda部署了Shap-E模型,使用Jupyter Notebook 來進(jìn)行代碼測(cè)試,經(jīng)測(cè)試生成一個(gè)3d模型的平均時(shí)長(zhǎng)為5分鐘,但是生成的模型細(xì)節(jié)、質(zhì)量等都較差。
git: https://github.com/openai/shap-e/tree/main
DEMO
![]() | ![]() | ![]() | ![]() |
![]() | ![]() | ![]() | ![]() |
Prompt:A shark
Prompt:“A beautiful girl in a long dress”
我們基于頂會(huì)論文在本地部署了AvatarCLIP,AvatarCLIP是一個(gè)基于Zero-shot的文本驅(qū)動(dòng)的三維數(shù)字人模型與動(dòng)作生成器。訓(xùn)練一個(gè)精模至少需要10h以上的時(shí)間,生成的模型包含基礎(chǔ)的人體骨骼,可以通過mixamo平臺(tái)綁定骨骼獲取不錯(cuò)的動(dòng)畫效果,但是近看面部、手部等處細(xì)節(jié)比較差。項(xiàng)目地址:
https://hongfz16.github.io/projects/AvatarCLIP.html?
Prompt:a 3d rendering of a XX in unreal engine
生成一個(gè)宇航員的前1/5過程:
,時(shí)長(zhǎng)00:15
產(chǎn)出的梅西模型在mixamo平臺(tái)綁定骨骼后的動(dòng)畫效果:
,時(shí)長(zhǎng)00:14
業(yè)界的應(yīng)用場(chǎng)景
目前還沒有真正公測(cè)的產(chǎn)品
aigc生成3D模型目前存在的一些問題
參考資料
團(tuán)隊(duì)介紹
我們是大淘寶技術(shù)-手貓技術(shù)-營(yíng)銷&導(dǎo)購(gòu)團(tuán)隊(duì),我作為一支專注于手機(jī)天貓創(chuàng)新的商業(yè)化及導(dǎo)購(gòu)場(chǎng)景探索的團(tuán)隊(duì),我們團(tuán)隊(duì)緊密依托淘天集團(tuán)強(qiáng)大的互聯(lián)網(wǎng)背景,致力于為手機(jī)天貓帶來更高效、更具創(chuàng)新性的技術(shù)支持和商業(yè)化的導(dǎo)購(gòu)場(chǎng)景。
我們的團(tuán)隊(duì)成員來自不同的技術(shù)領(lǐng)域和營(yíng)銷導(dǎo)購(gòu)領(lǐng)域,擁有豐富的技術(shù)經(jīng)驗(yàn)和營(yíng)銷經(jīng)驗(yàn)。我們不斷探索并實(shí)踐新的技術(shù),創(chuàng)新商業(yè)化的導(dǎo)購(gòu)場(chǎng)景,并將這些創(chuàng)新技術(shù)應(yīng)用于手機(jī)天貓業(yè)務(wù)中,提高了用戶體驗(yàn)和平臺(tái)運(yùn)營(yíng)效率。
作為一支技術(shù)創(chuàng)新和商業(yè)化的團(tuán)隊(duì),我們致力于為手機(jī)天貓帶來更廣闊的商業(yè)化空間和更高效的技術(shù)支持,贏得了用戶和客戶的高度評(píng)價(jià)和認(rèn)可。
我們團(tuán)隊(duì)一直秉承“技術(shù)領(lǐng)先、用戶至上”的理念,不斷探索創(chuàng)新、提升技術(shù)水平,為手機(jī)天貓的導(dǎo)購(gòu)場(chǎng)景和商業(yè)化發(fā)展做出重要貢獻(xiàn)。
熱門資訊
探討游戲引擎的文章,介紹了10款游戲引擎及其代表作品,涵蓋了RAGE Engine、Naughty Dog Game Engine、The Dead Engine、Cry Engine、Avalanche Engine、Anvil Engine、IW Engine、Frostbite Engine、Creation引擎、Unreal Engine等引擎。借此分析引出了游戲設(shè)計(jì)領(lǐng)域和數(shù)字藝術(shù)教育的重要性,歡迎點(diǎn)擊咨詢報(bào)名。
2. 手機(jī)游戲如何開發(fā)(如何制作傳奇手游,都需要準(zhǔn)備些什么?)
?如何制作傳奇手游,都需要準(zhǔn)備些什么?提到傳奇手游相信大家都不陌生,他是許多80、90后的回憶;從起初的端游到現(xiàn)在的手游,說明時(shí)代在進(jìn)步游戲在更新,更趨于方便化移動(dòng)化。而如果我們想要制作一款傳奇手游的
3. B站視頻剪輯軟件「必剪」:免費(fèi)、炫酷特效,小白必備工具
B站視頻剪輯軟件「必剪」,完全免費(fèi)、一鍵制作炫酷特效,適合新手小白??靵碓囋嚕?/span>
4. Steam值得入手的武俠游戲盤點(diǎn),各具特色的快意江湖
游戲中玩家將面臨武俠人生的掙扎抉擇,戰(zhàn)或降?殺或放?每個(gè)抉定都將觸發(fā)更多愛恨糾葛的精彩奇遇?!短烀嬗肪哂卸嗑€劇情多結(jié)局,不限主線發(fā)展,高自由...
5. Bigtime加密游戲經(jīng)濟(jì)體系揭秘,不同玩家角色的經(jīng)濟(jì)活動(dòng)
Bigtime加密游戲經(jīng)濟(jì)模型分析,探討游戲經(jīng)濟(jì)特點(diǎn),幫助玩家更全面了解這款GameFi產(chǎn)品。
6. 3D動(dòng)畫軟件你知道幾個(gè)?3ds Max、Blender、Maya、Houdini大比拼
當(dāng)提到3D動(dòng)畫軟件或動(dòng)畫工具時(shí),指的是數(shù)字內(nèi)容創(chuàng)建工具。它是用于造型、建模以及繪制3D美術(shù)動(dòng)畫的軟件程序。但是,在3D動(dòng)畫軟件中還包含了其他類型的...
7. 3D動(dòng)漫建模全過程,不是一般人能學(xué)的會(huì)的,會(huì)的多不是人?
步驟01:面部,頸部,身體在一起這次我不準(zhǔn)備設(shè)計(jì)圖片,我從雕刻進(jìn)入。這一次,它將是一種純粹關(guān)注建模而非整體繪畫的形式。像往常一樣,我從Sphere創(chuàng)建它...
8. 如何自己開發(fā)一款游戲(游戲開發(fā)入門必看:五大獨(dú)立游戲開發(fā)技巧)
?游戲開發(fā)入門必看:五大獨(dú)立游戲開發(fā)技巧無論您是剛剛起步開發(fā)自己的第一款游戲,還是已經(jīng)制作了幾款游戲,本篇文章中的5大獨(dú)立游戲開發(fā)技巧都可以幫助您更好地設(shè)計(jì)下一款游戲。無論你對(duì)游戲有著什么樣的概念,都
?三昧動(dòng)漫對(duì)于著名ARPG游戲《巫師》系列,最近CD Projekt 的高層回應(yīng)并不會(huì)推出《巫師4》。因?yàn)椤段讕煛废盗性诓邉澋臅r(shí)候一直定位在“三部曲”的故事框架,所以在游戲的出品上不可能出現(xiàn)《巫師4》
10. 3D打印技巧揭秘!Cura設(shè)置讓你的模型更堅(jiān)固
想讓你的3D打印模型更堅(jiān)固?不妨嘗試一下Cura參數(shù)設(shè)置和設(shè)計(jì)技巧,讓你輕松掌握!
最新文章
同學(xué)您好!