發(fā)布時(shí)間:2023-11-12 13:24:27 瀏覽量:116次
還自建首個(gè)有深度和紅外的大規(guī)模多模態(tài)數(shù)據(jù)集
AI4Happiness 投稿
|
北大聯(lián)合騰訊打造了一個(gè)多模態(tài)15邊形戰(zhàn)士!
以語(yǔ)言為中心,“拳打腳踢”視頻、音頻、深度、紅外理解等各模態(tài)。
具體來(lái)說(shuō),研究人員提出了一個(gè)叫做LanguageBind的多模態(tài)預(yù)訓(xùn)練框架。
用語(yǔ)言作為與其它模態(tài)之間的紐帶,凍結(jié)語(yǔ)言編碼器,然后用對(duì)比學(xué)習(xí)方法,將各個(gè)模態(tài)映射到一個(gè)共享的特征空間,實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的語(yǔ)義對(duì)齊。
使用這種方法,模型在5個(gè)數(shù)據(jù)集上的性能拿下新SOTA,在15個(gè)zero-shot檢索等任務(wù)中取得了顯著的性能提升,全面超越ImageBind、OpenCLIP。
LanguageBind包含三個(gè)部分:
多模態(tài)編碼器(Multi-modal Encoders),語(yǔ)言編碼器(Language Encoder),以及多模態(tài)聯(lián)合學(xué)習(xí)(Multi-modal Joint Learning)。
先來(lái)看多模態(tài)編碼器部分。
除了語(yǔ)言之外的其它模態(tài),研究人員使用24層、1024維的視覺(jué)Transformer,具有14的Patch大小。編碼器是從OpenCLIP-large初始化的。
深度和紅外被視為RGB圖像,在通道維度上復(fù)制3次與RGB圖像對(duì)齊。
按照ImageBind的方式,音頻數(shù)據(jù)被轉(zhuǎn)換為持續(xù)10秒(128個(gè)mel-bins)的頻譜圖,并進(jìn)行重復(fù)和填充。
為了解決在編碼器中處理所有Token的低效問(wèn)題,研究人員將圖像分成補(bǔ)丁,并通過(guò)Mask獲取一小部分圖片序列,按照MAE的方法進(jìn)行。
同時(shí)使用LoRA技術(shù)來(lái)加速微調(diào)。對(duì)于具有權(quán)重矩陣W0∈Rd×k的模態(tài)編碼器,在學(xué)習(xí)新的權(quán)重矩陣BA時(shí),保持權(quán)重矩陣W0不變。
將LanguageBind方法擴(kuò)展到多個(gè)(N個(gè))模態(tài)的第一步是將數(shù)據(jù)處理成令牌序列。隨后,參數(shù)將從OpenCLIP進(jìn)行初始化。然后通過(guò)令牌屏蔽和LoRA微調(diào)來(lái)訓(xùn)練不同模態(tài)的編碼器,同時(shí)保持語(yǔ)言編碼器凍結(jié)。最后,將該模態(tài)與語(yǔ)言特征空間對(duì)齊。
再來(lái)看看語(yǔ)言編碼器以及多模態(tài)聯(lián)合學(xué)習(xí)部分。
對(duì)于語(yǔ)言編碼器,研究人員使用了一個(gè)12層的transformer模型,維度為768,初始化來(lái)源于OpenCLIP。
對(duì)于給定的文本,他們首先使用BPE分詞器將單詞分割成相對(duì)常見(jiàn)的子詞。每個(gè)子詞對(duì)應(yīng)一個(gè)唯一的標(biāo)記,這些標(biāo)記在一個(gè)詞嵌入層內(nèi)嵌入。最終,這些標(biāo)記被語(yǔ)言編碼器編碼,以獲得文本對(duì)數(shù):
其中L表示序列的長(zhǎng)度。為了確??绮煌B(tài)的對(duì)齊,研究人員采用了對(duì)比學(xué)習(xí)原則。
這種方法的目標(biāo)是增加配對(duì)數(shù)據(jù)的相似性,將它們帶到相同的語(yǔ)義空間,同時(shí)減小不配對(duì)數(shù)據(jù)的相似性。研究人員利用對(duì)比學(xué)習(xí)將各個(gè)模態(tài)與語(yǔ)言綁定在一起。
此外,研究人員還創(chuàng)建了一個(gè)名為“VIDAL-10M”的高質(zhì)量數(shù)據(jù)集,其中包含1000萬(wàn)個(gè)具有對(duì)齊視頻-語(yǔ)言、紅外-語(yǔ)言、深度-語(yǔ)言、音頻-語(yǔ)言的數(shù)據(jù)對(duì),是第一個(gè)具有深度和紅外模態(tài)的大規(guī)模視頻多模態(tài)數(shù)據(jù)集。
數(shù)據(jù)集構(gòu)建方法如下:
△VIDAL-10M 構(gòu)建框架
第一步是生成搜索詞數(shù)據(jù)庫(kù),這個(gè)過(guò)程中,研究人員設(shè)計(jì)了一種獨(dú)特的搜索詞獲取策略,利用來(lái)自各種視覺(jué)任務(wù)數(shù)據(jù)集的文本數(shù)據(jù),包括標(biāo)簽和標(biāo)題,以構(gòu)建具有豐富視覺(jué)概念和多樣性的視頻數(shù)據(jù)集。
第二步是從互聯(lián)網(wǎng)收集相關(guān)視頻和音頻,并進(jìn)行一系列過(guò)濾處理,以確保數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性。
這個(gè)過(guò)程中,研究人員使用了多種過(guò)濾方法,包括基于文本的過(guò)濾、基于視覺(jué)與音頻的過(guò)濾,以確保數(shù)據(jù)集中的視頻和音頻與搜索詞相關(guān)且質(zhì)量高。
第三步是進(jìn)行紅外和深度模態(tài)生成,以及多視角文本生成和增強(qiáng)。
在空間信息增強(qiáng)方面,研究人員采用了OFA模型生成多個(gè)關(guān)鍵幀描述,以提升視頻內(nèi)容的空間表達(dá)質(zhì)量。
同時(shí),在時(shí)間信息增強(qiáng)方面,將視頻內(nèi)容、標(biāo)題以及Hashtag標(biāo)簽輸入到mPLUG-owl模型中,以獲取更為精煉和豐富的時(shí)間維度描述。
最后,研究人員運(yùn)用ChatGPT模型對(duì)文本描述進(jìn)行進(jìn)一步細(xì)化和增強(qiáng)。
綜合而言,多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分,為視頻內(nèi)容提供了全面且詳盡的描述。
在測(cè)試階段,大量的實(shí)驗(yàn)驗(yàn)證了VIDAL-10M數(shù)據(jù)集和LanguageBind方法的有效性,在視頻、音頻以及其它模態(tài)理解任務(wù)中取得了顯著的性能。
LanguageBind在四個(gè)數(shù)據(jù)集上都性能拿下SOTA。
在MSR-VTT上比InterVideo方法高出1.9%,在MSVD上比 InterVideo高出 8.8%,在DiDeMo上比InterVideo高出 6.3%,在ActivityNet上比InterVideo高出 4.4%。
值得注意的是,InterVideo采用了更廣泛的訓(xùn)練數(shù)據(jù),正表明LanguageBind的有效性。
△Zero-Shot視頻-文本檢索結(jié)果
視頻-語(yǔ)言、紅外-語(yǔ)言、深度-語(yǔ)言和音頻-語(yǔ)言Zero-Shot分類,在所有數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于ImageBind、OpenCLIP:
Zero-Shot音頻-語(yǔ)言檢索性能同樣優(yōu)越:
論文鏈接:https://arxiv.org/pdf/2310.01852.pdf
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無(wú)限制的AI視頻生成工具火了!國(guó)內(nèi)無(wú)障礙訪問(wèn)!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來(lái)...
最新文章
同學(xué)您好!