激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確

發(fā)布時(shí)間:2023-11-28 14:55:08 瀏覽量:112次

全華人團(tuán)隊(duì)陣容

Michael 投稿自 凹非寺

|  

谷歌人機(jī)驗(yàn)證已經(jīng)攔不住AI了!

最新多模態(tài)大模型,能輕松找到圖中所有交通信號(hào)燈,還準(zhǔn)確圈出了具體位置。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

表現(xiàn)直接超越GPT-4V。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

這就是由蘋果和哥倫比亞大學(xué)研究團(tuán)隊(duì)帶來(lái)的多模態(tài)大模型“雪貂”(Ferret)。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

它具備更強(qiáng)的圖文關(guān)聯(lián)能力,提升了大模型在“看說(shuō)答”任務(wù)中的精確度。

比如下圖中非常細(xì)小的部件(region 1),它也可以分辨出來(lái)是避震。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

GPT-4V沒(méi)能回答正確,在細(xì)小部分上的表現(xiàn)不佳。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

所以,F(xiàn)erret是如何做到的呢?

“點(diǎn)一點(diǎn)”圖像大模型都懂

Ferret解決的核心問(wèn)題是讓引用(referring)和定位(grounding)兩方面空間理解能力更加緊密。

引用是指讓模型準(zhǔn)確理解給定區(qū)域的語(yǔ)義,也就是指一個(gè)位置它能知道是什么。

定位則是給出語(yǔ)義,讓模型在圖中找到對(duì)應(yīng)目標(biāo)。

對(duì)于人類來(lái)說(shuō),這兩種能力是自然結(jié)合的,但是現(xiàn)有很多多模態(tài)大模型卻只會(huì)單獨(dú)使用引用和定位。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

所以Ferret提出了一種新型的混合區(qū)域表示方法,能將離散坐標(biāo)和連續(xù)特征聯(lián)合起來(lái)表示圖像中的區(qū)域。

這樣一來(lái),模型就能分辨出邊界框幾乎一樣的對(duì)象。

比如下圖中兩個(gè)物體的情況,如果只用離散邊界框,模型會(huì)感到很“困惑”。和連續(xù)的自由形狀混合表示相結(jié)合,能很好解決這一問(wèn)題。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

為了提取多樣化區(qū)域的連續(xù)特征,論文提出了一種空間感知的視覺(jué)采樣器,能夠處理不同形狀之間的稀疏性差異。

因此,F(xiàn)erret可以接受各種區(qū)域輸入,如點(diǎn)、邊界框和自由形狀,并理解其語(yǔ)義。

在輸出中,它可以根據(jù)文本自動(dòng)生成每個(gè)定位對(duì)象的坐標(biāo)。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

為了實(shí)現(xiàn)這一目標(biāo),F(xiàn)erret模型的架構(gòu)包括圖像編碼器、空間感知的視覺(jué)采樣器和語(yǔ)言模型(LLM)等組成部分。

Ferret結(jié)合了離散坐標(biāo)和連續(xù)特征,形成了一種混合區(qū)域表示。

這種表示方法旨在解決表示各種形狀和格式的區(qū)域的挑戰(zhàn),包括點(diǎn)、邊界框和自由形狀。

離散坐標(biāo)中每個(gè)坐標(biāo)都被量化為一個(gè)目標(biāo)框的離散坐標(biāo),這種量化確保了模型對(duì)不同圖像大小的魯棒性。

而連續(xù)特征則由空間感知視覺(jué)采樣器提取,它利用二進(jìn)制掩碼和特征圖在ROI內(nèi)隨機(jī)采樣點(diǎn),并通過(guò)雙線性插值獲得特征。

這些特征經(jīng)過(guò)一個(gè)由3D點(diǎn)云模型啟發(fā)的空間感知模塊處理后,被濃縮成一個(gè)單一的向量, 并映射到大型語(yǔ)言模型(LLM)進(jìn)行下一步處理。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

為了增強(qiáng)Ferret的能力,論文還創(chuàng)建了一個(gè)名為GRIT的數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集包含1.1M個(gè)樣本,涵蓋了個(gè)體對(duì)象、對(duì)象之間的關(guān)系、特定區(qū)域的描述以及基于區(qū)域的復(fù)雜推理等四個(gè)主要類別。

GRIT數(shù)據(jù)集包括了從公共數(shù)據(jù)集轉(zhuǎn)換而來(lái)的數(shù)據(jù)、通過(guò)ChatGPT和GPT-4生成的指令調(diào)整數(shù)據(jù),并額外提供了95K個(gè)困難的負(fù)樣本以提高模型的魯棒性。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

實(shí)驗(yàn)結(jié)果表明,該模型不僅在經(jīng)典的引用和定位任務(wù)中表現(xiàn)出優(yōu)越性能,而且在基于區(qū)域和需要定位的多模態(tài)對(duì)話中遠(yuǎn)遠(yuǎn)超過(guò)現(xiàn)有其他MLLM模型。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

此外,研究還提出了Ferret-Bench,可以評(píng)估圖像局部區(qū)域的引用/定位、語(yǔ)義、知識(shí)和推理能力。

Ferret模型在LLaVA-Bench和Ferret-Bench上進(jìn)行評(píng)估,在所有任務(wù)中都表現(xiàn)出色,特別是在需要指代和視覺(jué)grounding的三個(gè)新任務(wù)上,F(xiàn)erret的表現(xiàn)很出色。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

而且在描述圖像細(xì)節(jié)上有明顯提升,幻覺(jué)有明顯下降。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

全華人團(tuán)隊(duì)

Ferret大模型由蘋果AI/ML和哥倫比亞大學(xué)研究團(tuán)隊(duì)共同帶來(lái),全華人陣容。

有昊軒和張昊天為共同一作。

有昊軒現(xiàn)在為哥倫畢業(yè)大學(xué)計(jì)算機(jī)科學(xué)博士,畢業(yè)后將加入蘋果AI/ML團(tuán)隊(duì)。2018年從西安電子科技大學(xué)本科畢業(yè)。

主要研究方向?yàn)橐曈X(jué)語(yǔ)言理解、文本-圖像生成和視覺(jué)語(yǔ)言。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

張昊天現(xiàn)在為蘋果AI/ML團(tuán)隊(duì)視覺(jué)智能研究員。

在加入蘋果之前,張昊天在華盛頓大學(xué)獲得博士學(xué)位,本科畢業(yè)于上海交通大學(xué)。

他是GLIP/GLIPv2的主要作者之一,GLIP曾獲得CVPR2022的Best Paper Award的提名。

AI搞定谷歌驗(yàn)證碼,最新多模態(tài)大模型比GPT-4V空間理解更準(zhǔn)確 | 蘋果AI/ML團(tuán)隊(duì)

此外團(tuán)隊(duì)成員還包括甘哲、王子瑞、曹亮亮、楊寅飛等前谷歌和微軟的多位優(yōu)秀的多模態(tài)大模型研究員。

論文地址:https://arxiv.org/abs/2310.07704

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定