當(dāng)前位置：首頁(yè) >人工智能 >北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

發(fā)布時(shí)間：2023-11-12 13:24:27 瀏覽量：116次

還自建首個(gè)有深度和紅外的大規(guī)模多模態(tài)數(shù)據(jù)集

AI4Happiness 投稿

|

北大聯(lián)合騰訊打造了一個(gè)多模態(tài)15邊形戰(zhàn)士！

以語(yǔ)言為中心，“拳打腳踢”視頻、音頻、深度、紅外理解等各模態(tài)。

北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

具體來(lái)說(shuō)，研究人員提出了一個(gè)叫做LanguageBind的多模態(tài)預(yù)訓(xùn)練框架。

用語(yǔ)言作為與其它模態(tài)之間的紐帶，凍結(jié)語(yǔ)言編碼器，然后用對(duì)比學(xué)習(xí)方法，將各個(gè)模態(tài)映射到一個(gè)共享的特征空間，實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的語(yǔ)義對(duì)齊。

使用這種方法，模型在5個(gè)數(shù)據(jù)集上的性能拿下新SOTA，在15個(gè)zero-shot檢索等任務(wù)中取得了顯著的性能提升，全面超越ImageBind、OpenCLIP。

將各模態(tài)與語(yǔ)言綁定

LanguageBind包含三個(gè)部分：

多模態(tài)編碼器（Multi-modal Encoders），語(yǔ)言編碼器(Language Encoder)，以及多模態(tài)聯(lián)合學(xué)習(xí)(Multi-modal Joint Learning)。

先來(lái)看多模態(tài)編碼器部分。

除了語(yǔ)言之外的其它模態(tài)，研究人員使用24層、1024維的視覺(jué)Transformer，具有14的Patch大小。編碼器是從OpenCLIP-large初始化的。

深度和紅外被視為RGB圖像，在通道維度上復(fù)制3次與RGB圖像對(duì)齊。

按照ImageBind的方式，音頻數(shù)據(jù)被轉(zhuǎn)換為持續(xù)10秒（128個(gè)mel-bins）的頻譜圖，并進(jìn)行重復(fù)和填充。

Patch masking

為了解決在編碼器中處理所有Token的低效問(wèn)題，研究人員將圖像分成補(bǔ)丁，并通過(guò)Mask獲取一小部分圖片序列，按照MAE的方法進(jìn)行。

LoRA fine-tuning

同時(shí)使用LoRA技術(shù)來(lái)加速微調(diào)。對(duì)于具有權(quán)重矩陣W0∈Rd×k的模態(tài)編碼器，在學(xué)習(xí)新的權(quán)重矩陣BA時(shí)，保持權(quán)重矩陣W0不變。

Modality extending

將LanguageBind方法擴(kuò)展到多個(gè)（N個(gè)）模態(tài)的第一步是將數(shù)據(jù)處理成令牌序列。隨后，參數(shù)將從OpenCLIP進(jìn)行初始化。然后通過(guò)令牌屏蔽和LoRA微調(diào)來(lái)訓(xùn)練不同模態(tài)的編碼器，同時(shí)保持語(yǔ)言編碼器凍結(jié)。最后，將該模態(tài)與語(yǔ)言特征空間對(duì)齊。

再來(lái)看看語(yǔ)言編碼器以及多模態(tài)聯(lián)合學(xué)習(xí)部分。

對(duì)于語(yǔ)言編碼器，研究人員使用了一個(gè)12層的transformer模型，維度為768，初始化來(lái)源于OpenCLIP。

對(duì)于給定的文本，他們首先使用BPE分詞器將單詞分割成相對(duì)常見(jiàn)的子詞。每個(gè)子詞對(duì)應(yīng)一個(gè)唯一的標(biāo)記，這些標(biāo)記在一個(gè)詞嵌入層內(nèi)嵌入。最終，這些標(biāo)記被語(yǔ)言編碼器編碼，以獲得文本對(duì)數(shù)：

其中L表示序列的長(zhǎng)度。為了確?？绮煌B(tài)的對(duì)齊，研究人員采用了對(duì)比學(xué)習(xí)原則。

這種方法的目標(biāo)是增加配對(duì)數(shù)據(jù)的相似性，將它們帶到相同的語(yǔ)義空間，同時(shí)減小不配對(duì)數(shù)據(jù)的相似性。研究人員利用對(duì)比學(xué)習(xí)將各個(gè)模態(tài)與語(yǔ)言綁定在一起。

構(gòu)建高質(zhì)量數(shù)據(jù)集

此外，研究人員還創(chuàng)建了一個(gè)名為“VIDAL-10M”的高質(zhì)量數(shù)據(jù)集，其中包含1000萬(wàn)個(gè)具有對(duì)齊視頻-語(yǔ)言、紅外-語(yǔ)言、深度-語(yǔ)言、音頻-語(yǔ)言的數(shù)據(jù)對(duì)，是第一個(gè)具有深度和紅外模態(tài)的大規(guī)模視頻多模態(tài)數(shù)據(jù)集。

數(shù)據(jù)集構(gòu)建方法如下：

△VIDAL-10M 構(gòu)建框架

第一步是生成搜索詞數(shù)據(jù)庫(kù)，這個(gè)過(guò)程中，研究人員設(shè)計(jì)了一種獨(dú)特的搜索詞獲取策略，利用來(lái)自各種視覺(jué)任務(wù)數(shù)據(jù)集的文本數(shù)據(jù)，包括標(biāo)簽和標(biāo)題，以構(gòu)建具有豐富視覺(jué)概念和多樣性的視頻數(shù)據(jù)集。

第二步是從互聯(lián)網(wǎng)收集相關(guān)視頻和音頻，并進(jìn)行一系列過(guò)濾處理，以確保數(shù)據(jù)集的質(zhì)量和準(zhǔn)確性。

這個(gè)過(guò)程中，研究人員使用了多種過(guò)濾方法，包括基于文本的過(guò)濾、基于視覺(jué)與音頻的過(guò)濾，以確保數(shù)據(jù)集中的視頻和音頻與搜索詞相關(guān)且質(zhì)量高。

第三步是進(jìn)行紅外和深度模態(tài)生成，以及多視角文本生成和增強(qiáng)。

在空間信息增強(qiáng)方面，研究人員采用了OFA模型生成多個(gè)關(guān)鍵幀描述，以提升視頻內(nèi)容的空間表達(dá)質(zhì)量。

同時(shí)，在時(shí)間信息增強(qiáng)方面，將視頻內(nèi)容、標(biāo)題以及Hashtag標(biāo)簽輸入到mPLUG-owl模型中，以獲取更為精煉和豐富的時(shí)間維度描述。

最后，研究人員運(yùn)用ChatGPT模型對(duì)文本描述進(jìn)行進(jìn)一步細(xì)化和增強(qiáng)。

綜合而言，多視角文本增強(qiáng)涵蓋了標(biāo)題、標(biāo)簽、關(guān)鍵幀描述以及視頻描述等多個(gè)組成部分，為視頻內(nèi)容提供了全面且詳盡的描述。

多個(gè)測(cè)試拿下SOTA

在測(cè)試階段，大量的實(shí)驗(yàn)驗(yàn)證了VIDAL-10M數(shù)據(jù)集和LanguageBind方法的有效性，在視頻、音頻以及其它模態(tài)理解任務(wù)中取得了顯著的性能。

LanguageBind在四個(gè)數(shù)據(jù)集上都性能拿下SOTA。

在MSR-VTT上比InterVideo方法高出1.9%，在MSVD上比 InterVideo高出 8.8%，在DiDeMo上比InterVideo高出 6.3%，在ActivityNet上比InterVideo高出 4.4%。

值得注意的是，InterVideo采用了更廣泛的訓(xùn)練數(shù)據(jù)，正表明LanguageBind的有效性。

△Zero-Shot視頻-文本檢索結(jié)果

視頻-語(yǔ)言、紅外-語(yǔ)言、深度-語(yǔ)言和音頻-語(yǔ)言Zero-Shot分類(lèi)，在所有數(shù)據(jù)集上的準(zhǔn)確率均優(yōu)于ImageBind、OpenCLIP：

Zero-Shot音頻-語(yǔ)言檢索性能同樣優(yōu)越：

論文鏈接：https://arxiv.org/pdf/2310.01852.pdf

上一篇北師大未來(lái)設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇肚子越大，大腦萎縮越嚴(yán)重！還可能增加癡呆風(fēng)險(xiǎn)，最新研究雙倍扎心

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

將各模態(tài)與語(yǔ)言綁定

構(gòu)建高質(zhì)量數(shù)據(jù)集

多個(gè)測(cè)試拿下SOTA

請(qǐng)綁定手機(jī)號(hào)

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind

將各模態(tài)與語(yǔ)言綁定

構(gòu)建高質(zhì)量數(shù)據(jù)集

多個(gè)測(cè)試拿下SOTA

請(qǐng)綁定手機(jī)號(hào)

北大&騰訊打造多模態(tài)15邊形戰(zhàn)士！語(yǔ)言作“紐帶”，拳打腳踢各模態(tài)，超越Imagebind