激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

AIGC生成3D模型探索與實(shí)踐

發(fā)布時(shí)間:2024-04-01 15:30:23 瀏覽量:124次

修尋、羽扇 大淘寶技術(shù) 2023-08-30 16:20 發(fā)表于浙江




本文將以AIGC生成3D模型探索與實(shí)踐為主題,結(jié)合電商平臺(tái)的應(yīng)用需求,探討如何利用AIGC技術(shù)實(shí)現(xiàn)3D模型的個(gè)性化生成、大規(guī)模生產(chǎn)和快速推廣,以及其對(duì)于電商行業(yè)的推動(dòng)作用。



背景


隨著電商平臺(tái)的興起,3D模型已經(jīng)成為展示商品的重要手段,手機(jī)天貓正在積極探索3D相關(guān)的投放場(chǎng)景,電商商品3D化,可以使得用戶在APP中,實(shí)時(shí)瀏覽3D商品模型,更直觀地了解商品的外觀顏色、形狀結(jié)構(gòu)、物理材質(zhì)等信息,為用戶帶來更好的消費(fèi)體驗(yàn),為虛實(shí)結(jié)合帶來更多可能,后續(xù)也可以用于AR\VR等內(nèi)容生產(chǎn)。然而,傳統(tǒng)的3D模型生成方法存在著效率低、精度不夠高、難以滿足個(gè)性化需求等問題,導(dǎo)致商家在展示商品時(shí)難以達(dá)到理想的效果。而AIGC(Artificial Intelligence in Graphics and Computing)技術(shù)的出現(xiàn),為3D模型的生成提供了全新的思路和方法。AIGC技術(shù)可以利用人工智能和計(jì)算機(jī)圖形學(xué)的結(jié)合,實(shí)現(xiàn)更加高效、準(zhǔn)確和靈活的3D模型生成。


技術(shù)模型


?NeRF 神經(jīng)輻射場(chǎng)


2020年,谷歌提出神經(jīng)輻射場(chǎng)3D建模方法NeRF,可以渲染出較高質(zhì)量的圖片,不需要人工修模,3D建模成本較低,為大規(guī)模3D模型生產(chǎn)帶來了新思路。起初淘寶Meta 團(tuán)隊(duì)主要致力于 提升 NeRF重建效果(布料細(xì)節(jié)清晰度、商品文字清晰度等提升),使其渲染清晰度達(dá)到工業(yè)落地標(biāo)準(zhǔn)。


神經(jīng)輻射場(chǎng)(NeRF)是一個(gè)簡(jiǎn)單的全連接網(wǎng)絡(luò)(權(quán)重約為5MB),經(jīng)過訓(xùn)練,可以使用渲染損失再現(xiàn)單個(gè)場(chǎng)景的輸入視圖。網(wǎng)絡(luò)直接從空間位置和觀看方向(5D輸入)映射到顏色和不透明度(4D輸出),充當(dāng)“體積”,因此我們可以使用體積渲染來渲染新視圖。神經(jīng)輻射場(chǎng)是一種面向三維隱式空間建模的深度學(xué)習(xí)模型,這種深度學(xué)習(xí)模型又稱全連接神經(jīng)網(wǎng)絡(luò)(又稱多層感知機(jī))。NeRF 所要做的任務(wù)是 Novel View Synthesis,一般翻譯為新視角合成任務(wù),定義是:在已知視角下對(duì)場(chǎng)景進(jìn)行一系列的捕獲 (包括拍攝到的圖像,以及每張圖像對(duì)應(yīng)的內(nèi)外參),不需要中間三維重建的過程,僅根據(jù)位姿內(nèi)參和圖像,合成新視角下的圖像。在基于Nerf的表示方法下,三維空間被表示為一組可學(xué)習(xí)且連續(xù)的輻射場(chǎng),由輸入視角+位置學(xué)習(xí)后,得到密度+色彩。



?Point-E


盡管基于Rerf的相關(guān)生成模型在text-to-3D的相關(guān)任務(wù)下取得了較大的進(jìn)展, 但是大部分的的方法通常需要多個(gè)GPU小時(shí)才能生成一個(gè)樣本。這與最先進(jìn)的生成圖像模型形成了鮮明的對(duì)比,后者可以在幾秒鐘或幾分鐘內(nèi)生成樣本。2022年OpenAI又提出 Point-E的一種獨(dú)特的3D點(diǎn)云生成方法,該方法可以在單個(gè)GPU上僅用1-2分鐘生成3D模型。Point-E首先使用文本到圖像擴(kuò)散模型生成單個(gè)合成視圖,然后使用一個(gè)擴(kuò)散模型在生成的圖像的條件下產(chǎn)生3D點(diǎn)云。雖然Point-E在樣本質(zhì)量方面仍然不如最先進(jìn)的方法,但它在樣本生成速度上比最先進(jìn)的方法快1到2個(gè)數(shù)量級(jí)。



Code地址:
https://github.com/openai/point-e


?Shap-E


OpenAI再次發(fā)布了一款升級(jí)模型Shap-E,相比基于點(diǎn)云的顯式生成模型Point-E,Shap-E直接生成隱函數(shù)的參數(shù)來渲染紋理和神經(jīng)輻射場(chǎng),收斂速度更快,在更高維的多表示輸出空間中實(shí)現(xiàn)了更好的樣本質(zhì)量!Shap-E是一種條件生成模型,用于生成3D資產(chǎn)。與最近的3D生成模型只能生成單個(gè)輸出表示不同,Shap-E直接生成可以呈現(xiàn)為紋理網(wǎng)格和神經(jīng)輻射場(chǎng)的隱式函數(shù)參數(shù)。Shap-E分兩個(gè)階段:首先訓(xùn)練一個(gè)編碼器,將3D資產(chǎn)確定性地映射到隱式函數(shù)的參數(shù)中;其次,在編碼器輸出上訓(xùn)練條件擴(kuò)散模型。Shap-E在大型配對(duì)的3D和文本數(shù)據(jù)集上訓(xùn)練時(shí),得到的模型能夠在幾秒鐘內(nèi)生成復(fù)雜而多樣化的3D資產(chǎn)。與點(diǎn)云上的顯式生成模型Point-E相比,盡管建模了更高維度的多重表示輸出空間,Shap-E收斂更快,并達(dá)到了更好的樣本質(zhì)量。


git: https://github.com/openai/shap-e/tree/main



?DreamFusion



DreamFusion是谷歌提出的一種Text-to-3D模型,大體思路是通過 2D 生成模型(如 Imagen)生成多個(gè)視角的 3D 視圖,然后用NeRF 重建。這里面有個(gè)“雞生蛋蛋生雞”的問題:如果沒有一個(gè)訓(xùn)練得比較好的 NeRF,Imagen 吐出的圖會(huì)視角之間沒有consistency;而沒有 consistent 的多視角圖,又得不到一個(gè)好的 NeRF。于是作者想了個(gè)類似 GAN 的方法,NeRF 和 Imagen 來回迭代。好處是多樣性比較強(qiáng),問題也比較明顯,因?yàn)樾枰獌蛇厑砘氐?15,000 次,生成一個(gè)模型就需要在 4 塊 TPUv4 上訓(xùn)練 1.5 小時(shí)。



DreamFusion: 3D NeRF 和 2D 生成模型來回迭代優(yōu)化

?https://github.com/ashawkey/stable-dreamfusion


?Magic3D



2022年11月,英偉達(dá)(Nvidia)提出的Magic3D模型在DreamFusion的基礎(chǔ)上提出了兩步優(yōu)化策略:首先用與DreamFusion相似的擴(kuò)散模型生成低分辨率、簡(jiǎn)單渲染的哈希網(wǎng)格三維模型,之后再采用與傳統(tǒng)計(jì)算機(jī)圖形學(xué)相似的方法對(duì)三維模型進(jìn)行更高質(zhì)量的渲染。


與DreamFusion相比,Magic3D模型生成的三維模型分辨率更高,且渲染效果更好,生成效率也有了顯著的提升。由于Magic3D模型的渲染方式與傳統(tǒng)計(jì)算機(jī)圖形學(xué)有非常緊密的關(guān)系,且其生成結(jié)果可以直接在標(biāo)準(zhǔn)的圖像軟件中進(jìn)行查看,因此Magic3D模型可以更好地與傳統(tǒng)三維生成工作進(jìn)行銜接。鑒于各方面優(yōu)勢(shì),Magic3D模型已經(jīng)具備進(jìn)行產(chǎn)業(yè)應(yīng)用的能力基礎(chǔ)。


在Magic3D模型之后,學(xué)界與業(yè)界也提出了更多三維生成模型,在生成質(zhì)量、生成效率、硬件需求、場(chǎng)景應(yīng)用等方面均進(jìn)行了更深入的探討,也有著較為明顯的優(yōu)勢(shì)與缺陷。



模型實(shí)踐


本地機(jī)器配置如下:

  1. 顯卡:英偉達(dá)3060 12G
  2. CPU:Intel I9-13900KF
  3. 內(nèi)存:64GB


?Shap-E



我們?cè)诒镜赝ㄟ^cuda部署了Shap-E模型,使用Jupyter Notebook 來進(jìn)行代碼測(cè)試,經(jīng)測(cè)試生成一個(gè)3d模型的平均時(shí)長(zhǎng)為5分鐘,但是生成的模型細(xì)節(jié)、質(zhì)量等都較差。

git: https://github.com/openai/shap-e/tree/main


DEMO


Prompt:A shark



Prompt:“A beautiful girl in a long dress”



?AvatarCLIP


我們基于頂會(huì)論文在本地部署了AvatarCLIP,AvatarCLIP是一個(gè)基于Zero-shot的文本驅(qū)動(dòng)的三維數(shù)字人模型與動(dòng)作生成器。訓(xùn)練一個(gè)精模至少需要10h以上的時(shí)間,生成的模型包含基礎(chǔ)的人體骨骼,可以通過mixamo平臺(tái)綁定骨骼獲取不錯(cuò)的動(dòng)畫效果,但是近看面部、手部等處細(xì)節(jié)比較差。項(xiàng)目地址:
https://hongfz16.github.io/projects/AvatarCLIP.html?


Prompt:a 3d rendering of a XX in unreal engine


生成一個(gè)宇航員的前1/5過程:

,時(shí)長(zhǎng)00:15


產(chǎn)出的梅西模型在mixamo平臺(tái)綁定骨骼后的動(dòng)畫效果:


,時(shí)長(zhǎng)00:14


業(yè)界的應(yīng)用場(chǎng)景


?文本生成平面貼圖



  1. ?barium.ai(地址:https://unity.com/cn)?
  2. ?spline.design(地址:https://spline.design/)?
  3. ?Maliang(地址:https://www.bilibili.com/video/BV1A24y1x7vD/)


?根據(jù)幾何(mesh)在 UV 空間生成貼圖(“AI 畫貼圖”)


  1. ?Meshy.ai (地址:https://www.meshy.ai/)
  2. Polyhive.ai(地址:https://polyhive.ai/)


?文本直接生成 3D 模型



目前還沒有真正公測(cè)的產(chǎn)品


aigc生成3D模型目前存在的一些問題


  1. 數(shù)據(jù)質(zhì)量問題:由于采集數(shù)據(jù)的不準(zhǔn)確或缺失,可能導(dǎo)致3D模型中存在缺陷、錯(cuò)位或其他問題。
  2. 計(jì)算機(jī)性能問題:在生成復(fù)雜的3D模型時(shí),需要大量的計(jì)算和存儲(chǔ)資源,計(jì)算機(jī)性能不足可能導(dǎo)致生成效果差。
  3. 紋理映射問題:生成的3D模型需要進(jìn)行紋理映射,但是在現(xiàn)實(shí)世界中很難找到完美匹配的紋理圖像,這可能導(dǎo)致紋理不自然或者出現(xiàn)縫隙等問題。
  4. 模型解釋問題:生成的3D模型需要能夠被人理解和識(shí)別,但是可能存在歧義或者難以解釋的地方,導(dǎo)致使用者無法充分利用模型。


參考資料


  1. ?https://www.zhihu.com/search?type=content&q=DreamFusion?
  2. ?Taichi NeRF (下): 關(guān)于 3D AIGC 的務(wù)實(shí)探討(地址:https://zhuanlan.zhihu.com/p/613679756)??
  3. ?Taichi NeRF(上):不寫 CUDA 也能開發(fā)、部署 Instant NGP?
  4. ?詳解神經(jīng)渲染算法NeRF及其發(fā)展(地址:https://zhuanlan.zhihu.com/p/612102573)?
  5. ?https://github.com/awesome-NeRF/awesome-NeRF


團(tuán)隊(duì)介紹


我們是大淘寶技術(shù)-手貓技術(shù)-營(yíng)銷&導(dǎo)購(gòu)團(tuán)隊(duì),我作為一支專注于手機(jī)天貓創(chuàng)新的商業(yè)化及導(dǎo)購(gòu)場(chǎng)景探索的團(tuán)隊(duì),我們團(tuán)隊(duì)緊密依托淘天集團(tuán)強(qiáng)大的互聯(lián)網(wǎng)背景,致力于為手機(jī)天貓帶來更高效、更具創(chuàng)新性的技術(shù)支持和商業(yè)化的導(dǎo)購(gòu)場(chǎng)景。

我們的團(tuán)隊(duì)成員來自不同的技術(shù)領(lǐng)域和營(yíng)銷導(dǎo)購(gòu)領(lǐng)域,擁有豐富的技術(shù)經(jīng)驗(yàn)和營(yíng)銷經(jīng)驗(yàn)。我們不斷探索并實(shí)踐新的技術(shù),創(chuàng)新商業(yè)化的導(dǎo)購(gòu)場(chǎng)景,并將這些創(chuàng)新技術(shù)應(yīng)用于手機(jī)天貓業(yè)務(wù)中,提高了用戶體驗(yàn)和平臺(tái)運(yùn)營(yíng)效率。

作為一支技術(shù)創(chuàng)新和商業(yè)化的團(tuán)隊(duì),我們致力于為手機(jī)天貓帶來更廣闊的商業(yè)化空間和更高效的技術(shù)支持,贏得了用戶和客戶的高度評(píng)價(jià)和認(rèn)可。

我們團(tuán)隊(duì)一直秉承“技術(shù)領(lǐng)先、用戶至上”的理念,不斷探索創(chuàng)新、提升技術(shù)水平,為手機(jī)天貓的導(dǎo)購(gòu)場(chǎng)景和商業(yè)化發(fā)展做出重要貢獻(xiàn)。

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定