發(fā)布時間:2024-01-12 19:04:13 瀏覽量:328次
首先先吐槽一下版面費,太貴了6400………………舍不得錢發(fā)表,直接共享了得了。
摘要:近一年來,各種AI圖像生成程序席卷了整個互聯(lián)網(wǎng),隨著AI技術(shù)的不斷進步,傳統(tǒng)的設(shè)計行業(yè)也隨之而改變。本文主要基于stable diffusion為例,探討AI圖像生成程序?qū)τ诮ㄖO(shè)計的影響,簡要闡述世面常見AI程序及其相關(guān)原理,探索基于AI生成的建筑設(shè)計探索,提出未來可能的建筑設(shè)計流程。可以看出,以Stable Diffusion等為代表的圖像生成軟件在建筑設(shè)計領(lǐng)域有著廣闊的應(yīng)用前景,它們可以幫助建筑師在前期方案階段快速探索多種可能性,提高設(shè)計效率和創(chuàng)造力。
Summary: Over the past year, various AI image generation programs have swept the entire internet, and with the continuous advancement of AI technology, the traditional design industry has also changed accordingly. This article mainly explores the impact of AI image generation programs on architectural design using stable diffusion as an example. It briefly elaborates on common AI programs and their related principles, explores AI-generated architectural design, and proposes possible future architectural design processes. It can be seen that image generation software represented by Stable Diffusion has broad application prospects in the field of architectural design. They can help architects quickly explore multiple possibilities in the early stage of the scheme, improve design efficiency and creativity.
關(guān)鍵詞:AI設(shè)計、Stable Diffusion、artificial intelligence、AI設(shè)計流程、AI設(shè)計方法
Keywords: AI design, Stable Diffusion, artificial intelligence, AI design process, AI design methods
一、 研究背景與意義
《建筑學(xué)報》曾在2022年9月以“構(gòu)造未來:有關(guān)建筑學(xué)趨勢的設(shè)想”為專題出版了一期雜志,其中袁烽教授在《思辨人類世中的建筑數(shù)字未來》一文中指出:建筑業(yè)的“意圖——建筑制圖——再現(xiàn)——建造”的傳統(tǒng)流程亟待更新。新技術(shù)時代允許機器智能可以無縫銜接從意向到建造的全過程,這種人機智能共生的設(shè)計范式將誕生全新的創(chuàng)造力與生產(chǎn)力[1]。
圖1:傳統(tǒng)的設(shè)計建造流程
然而,就在這篇文章發(fā)布不到半年的時間里,就有許多的科技公司陸續(xù)發(fā)布了以神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)為基礎(chǔ)的 AI (Artificial Intelligence) 繪圖軟件,這些軟件能夠依據(jù)文件生成逼真圖像從而席卷了互聯(lián)網(wǎng),使它們成為迄今采用速度最快的技術(shù)之一[[1]]。其中一些AI生成工具,如DALL-E、MidJourney或ChatGPT已經(jīng)獲得了廣泛的公眾知名度。
這些AI創(chuàng)作的圖像不僅僅應(yīng)用于人物生成,也可以創(chuàng)造出令人驚嘆的建筑方案。AI有潛力改變建筑師在設(shè)計階段和概念創(chuàng)意階段的工作方式,大家除了驚嘆以外,更多討論的是AI將如何影響建筑設(shè)計的未來。隨著科技水平的不斷進步,AI設(shè)計在未來可能成為創(chuàng)造力的基石。雖然現(xiàn)階段AI設(shè)計尚不完善,但是該技術(shù)的主要優(yōu)勢在于AI能夠快速捕捉項目的愿景并給與具象的概念,在項目的早期階段甚至可以取代草圖和概念設(shè)計[[2]]。可以想象在未來,AI設(shè)計將會成為整個設(shè)計流程中重要的一部分,人機協(xié)作的流程將變革為“意向——生成——優(yōu)化——建造——評估”的螺旋進化式流程。
圖2:人工智能參與設(shè)計流程
現(xiàn)在比較主流的AI繪圖軟件有三款:DALL-E,midjourney和Stable Diffusion。這三款軟件均是基于文字生成圖片的基本原理來進行運作[[3]]。輸入的文字可以理解為對設(shè)計的意向,AI通過大語言模型根據(jù)文字意向生成相應(yīng)的結(jié)果,設(shè)計師可以基于AI生成的結(jié)果而進行優(yōu)化、建造、評估;待評估完畢后設(shè)計師將評估結(jié)果讓AI進一步學(xué)習(xí),這樣一個螺旋進化式流程便形成了。
二、常見AI繪圖軟件相關(guān)介紹
1.Stable Diffusion
Stable Diffusion是一種潛在的文本到圖像擴散模型(latent text-to-image diffusion model),能夠在給定任何文本輸入的情況下生成照片般逼真的圖像。它是由StabilityAI在2022年發(fā)布,是基于LAION-5B數(shù)據(jù)庫的512x512圖像子集上訓(xùn)練潛在擴散模型。而擴散模型是一種圖像生成模型,它通過學(xué)習(xí)如何迭代地反轉(zhuǎn)高斯噪聲,將隨機高斯噪聲轉(zhuǎn)換成圖像[[4]]。相比之前的text-to-image模型,Stable Diffusion通過將圖像形成過程分解為逐步應(yīng)用去噪自編碼器和擴散模型(DM),DM在圖像數(shù)據(jù)及其它方面實現(xiàn)了最先進的合成結(jié)果。因此,該模型相對較輕且可以在至少具有10GB VRAM的GPU上運行[[5]]。
圖3使用圖像到圖像的風(fēng)格轉(zhuǎn)移應(yīng)用程序進行擴散過程(以草圖為輸入,真實圖片為輸出)。
2.Midjourney (https://www.midjourney.com/)
Midjourney由同名的獨立研究實驗室創(chuàng)建的,他們是一個僅有11名全職員工的小型自助團隊。Midjourney可以從文本描述中合成圖像,旨意探索新的思維媒介,擴展人類的想象力[[6]]。Midjourney傾向于生成超現(xiàn)實主義圖像,深受藝術(shù)家的歡迎。
3.DALL·E
DALL·E是OpenAI基于GPT-3(120億參數(shù)版本)訓(xùn)練而成的神經(jīng)網(wǎng)絡(luò)程序,它通過使用文本-圖像對應(yīng)的數(shù)據(jù)集中獲取信息,可以根據(jù)自然語言表述的各種概念創(chuàng)建圖像。DALL-E 2是DALL-E的后續(xù)版本,OpenAI從互聯(lián)網(wǎng)抓取了大約6.5億個圖像文本并對其進行了訓(xùn)練,它可以在更高分辨率下創(chuàng)建比DALL-E更逼真的圖像,并可以生成不同的概念、屬性和風(fēng)格[[7]]。
幾款軟件相比,由于DALL.E 2是基于數(shù)百萬張庫存圖像進行訓(xùn)練的,所以它所創(chuàng)造的輸出更加復(fù)雜,最適合企業(yè)使用[[8]]。根據(jù)Stable Diffusion的創(chuàng)始人Emad Mostaque的說法,DALL.E 2的修復(fù)功能是其最佳特性,使其與其他圖像生成器區(qū)分開來[9]。此外,與Midjourney或Stable Diffusion相比,DALL.E 2在有超過2個角色的情況下生成的圖像要好得多[10]。
而midjourney更具有藝術(shù)家風(fēng)格,偏向憑空想象、無中生有。渲染效果和補充效果也更好。在設(shè)計中,它更偏向給出具有創(chuàng)意的概念方案或者天馬行空的設(shè)計靈感[11]。
Stable Diffusion的塑形控制能力更好,插件也更多,且為開源[[12]],所以應(yīng)用更廣泛,控制能力更高,適合對方案進行推敲,并且能夠適應(yīng)具有限定條件和不斷變化的設(shè)計要求。因此,對比三款軟件,本文主要基于Stable Diffusion進行AI設(shè)計流程的研究與探討。
圖4:在同樣的文字輸入情況下三款軟件的生成結(jié)果對比
Stable Diffusion為開源程序,因此眾多程序員基于其原始代碼進行二次開發(fā)。其中“AUTOMATIC1111”于2022年9月在github發(fā)布了基于個人電腦本地部署的“Stable Diffusion webUI”程序,這代表著個人免費文生圖程序時代的蒞臨。而本地部署webUI程序也是AI輔助設(shè)計的第一步工作。然而,在進行AI輔助設(shè)計之前,我們?nèi)孕铚?zhǔn)備和了解另外兩款基于Stable Diffusion的插件——ControlNet以及LoRA。
ControlNet可以支持額外的輸入條件用來控制預(yù)訓(xùn)練大型擴散模型。像stable diffusion這樣的大型擴散模型同樣也可以通過controlnet進行增強,比如利用邊緣圖、分割圖、關(guān)鍵點(edge maps, segmentation maps, keypoints)等條件輸入,可以實現(xiàn)多樣的控制大型擴散模型的方法,并進一步促進圖像生成的相關(guān)應(yīng)用[[13]]。
圖5:使用Hough線(M-LSD)控制stable diffusion。 “自動提示”是由BLIP根據(jù)默認結(jié)果圖像生成的,而不使用用戶提示。
LoRA(Low-Rank Adaptation)為一種大語言模型的低階適應(yīng)方法。該方法將預(yù)訓(xùn)練模型權(quán)重凍結(jié),從而大大減少了下游任務(wù)的可訓(xùn)練參數(shù)數(shù)量。經(jīng)過研究,LoRA可將可訓(xùn)練參數(shù)的數(shù)量減少10,000倍,并將GPU內(nèi)存需求降低3倍[[14]]。LoRA除了應(yīng)用在像ChatGPT這樣的大語言模型之外,在圖像生成模型中表現(xiàn)更為優(yōu)異。我們可以通過訓(xùn)練并使用LoRA模型更加精準(zhǔn)的控制圖像生成的風(fēng)格。
筆者通過不斷的試錯與研究,初步得出基于stable Diffusion建設(shè)設(shè)計生成方法,可供大家參考:
圖6:基于SU草模生成的建筑效果圖對比
圖7:不同LoRA生成圖片對比
圖8:動漫風(fēng)格與木模型風(fēng)格效果生成
AIGC發(fā)展的速度飛快,從互聯(lián)網(wǎng)的各種教程和展示可以看出,以Stable Diffusion等為代表的圖像生成軟件在建筑設(shè)計領(lǐng)域有著廣闊的應(yīng)用前景,它們可以幫助建筑師在前期方案階段快速探索多種可能性,提高設(shè)計效率和創(chuàng)造力。
對于未來的建筑設(shè)計的流程來說,Stable Diffusion可以做到以下四個方面:
1.從低信息量到高信息量的生成??梢愿鶕?jù)建筑師提供的簡單的體塊模型、手繪草圖或?qū)嶓w模型,生成更加細節(jié)豐富和風(fēng)格多樣的建筑方案。這樣可以在保持設(shè)計框架的同時,豐富設(shè)計細節(jié),深化設(shè)計。
2.從非建筑信息到建筑信息的遷移??梢詫⑴c建筑無關(guān)的信息轉(zhuǎn)化為建筑信息,例如將物件擺放、自然菌類或其他非人類信息作為輸入,生成對應(yīng)的建筑場景或形態(tài)。這樣可以拓展建筑師的視野和靈感,探索更多與建筑相關(guān)的理論和方法。
3.從一個方案到多個方案的擴展。可以利用隱空間中參數(shù)的連續(xù)性,生成一系列具有相似性和變化性的建筑方案。這樣可以給建筑師提供更多的選擇和可能性,優(yōu)化設(shè)計方案。
4.從二維圖像評估到三維模型生成的轉(zhuǎn)變??梢越Y(jié)合其他生成式算法,利用CLIP作為評估工具,指導(dǎo)算法優(yōu)化生成結(jié)果,從而得到符合提示語描述的三維模型。這樣可以更貼合建筑設(shè)計需求,提高設(shè)計質(zhì)量和效果。[[15]]
人工智能的高速發(fā)展確實極大的超出了人們的想象,并且以迅雷不及掩耳之勢席卷了整個設(shè)計行業(yè),大家對于未來的職業(yè)發(fā)展也是充滿的迷茫和不安,但筆者還是認為AI不能替代建筑師,因為建筑設(shè)計是技術(shù)與藝術(shù)的融合,即便AI可以輔助建筑師進行方案生成等工作,但是AI無法理解人類的情感和文化背景,更無法創(chuàng)造出具有個性和特色的建筑作品。建筑師的作用是將自己的理念和情感通過建筑的形式表達出來,與人類的生活和環(huán)境相互交流和影響,這些都是AI無法做到的。最終筆者相信,各位建筑師也一定會逐漸適應(yīng)并駕馭AI,與科技共同進步!
圖1來源于:袁烽,許心慧,李可可.思辨人類世中的建筑數(shù)字未來[J].建筑學(xué)報,2022(09)
:12-18.DOI:10.19819/j.cnki.ISSN0529-1399.202209002.
圖2依據(jù)袁烽,許心慧,李可可.思辨人類世中的建筑數(shù)字未來[J]中圖片作者自繪
圖3來源于Louis Bouchard.Google Brain's Answer to Dalle-e 2:
Imagen.https://www.louisbouchard.ai/google-brain-imagen/
圖4來源于fabians.eth in twitter
圖5來源于Zhang, Lvmin, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." arXiv preprint arXiv:2302.05543 (2023).
圖6:基于SU草模生成的建筑效果圖對比 作者自繪
圖7:不同LoRA生成圖片對比 作者自繪
圖8:動漫風(fēng)格與木模型風(fēng)格效果生成 作者自繪
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
最新文章
同學(xué)您好!