發(fā)布時間:2023-11-28 14:54:14 瀏覽量:95次
權重已開源
明敏 發(fā)自 凹非寺
|
最近多模態(tài)大模型是真熱鬧啊。
這不,Transformer一作攜團隊也帶來了新作,一個規(guī)模為80億參數(shù)的多模態(tài)大模型Fuyu-8B。
而且發(fā)布即開源,模型權重在Hugging Face上可以看到。
該模型具備強大的圖像理解能力。
照片、圖表、PDF、界面UI都不在話下。
能從這么一張復雜的食物網(wǎng)里理清楚各個生物之間的關系。
提問:道格拉斯冷杉針葉缺失了,哪種生物會滅絕?
回答:紅樹田鼠。
也能從密密麻麻的連線圖里找到,權游“小指頭”扮演者Aidan Gillen出演過HBO兩個系列的劇。
看得懂專業(yè)圖表,可以幫你找到想要的數(shù)據(jù)。
提問:(左圖)24、32、33、42這組數(shù)字序列中丟了哪個數(shù)?
回答:29
一張包含多個圖表的PDF也難不倒它。提問:加州哪里的工作前景不錯?
Fuyu-8B可以準確找到對應的信息塊,并給出正確答案“洛杉磯”。
而且Fuyu-8B的處理速度很快,研究團隊表示100毫秒內(nèi)可反饋大圖像處理結果。
同時它還很“輕巧”,不僅模型規(guī)模沒超百億,還沒有使用圖像編碼器。
這讓它能更快速進行訓練和推理,并支持處理任意大小圖像。
Hugging Face聯(lián)創(chuàng)兼CTO看了都有點激動,表示假如自己還沒有創(chuàng)業(yè),那么這個項目會啟發(fā)他做點什么。
該成果來自Transformer一作Ashish Vaswani所在創(chuàng)業(yè)公司Adept。
目前該模型已開源,demo可線上試玩。
現(xiàn)在在Hugging Face上即可體驗Fuyu-8B的能力。
Demo中提供了兩種任務。
可以上傳一張圖片然后對大模型進行提問。
或者是直接讓它看圖然后描述圖片內(nèi)容。
大模型的常識水平不錯,比如問它一道甜點是怎么做的?
它給出的回答是:
這道甜點是用一層層的酥皮做成的,上面點綴著開心果和帕瑪森奶酪。
測試了下中文能力,發(fā)現(xiàn)它能理解中文,但是“習慣性”用英文回答。
模型采用了一種簡單的架構:純解碼器Transformer。
它沒有圖像編碼器。圖像塊(image patch)繞過embedding lookup,即在嵌入矩陣中查找特定輸入的過程,直接映射到Transformer的第一層。
這種架構使得模型能支持任意圖像分辨率。
研究團隊刪除了圖像特定位置嵌入,并按掃描線順序(raster-scan order)輸入盡可能多的圖像token。
通過一個特殊的圖像轉換行符號,模型能知道在什么時候斷行。
由此模型在訓練時可以使用任意大小的圖像。
這種架構也更進一步簡化了模型的訓練和推理過程。
這種架構模式也引起了不少網(wǎng)友的關注,有人就表示,之前總覺得大模型圖像理解能力差是因為使用了固定大小的patch。
但Fuyu-8B反駁了他的這一想法。
實驗結果顯示Fuyu-8B在多個任務中性能優(yōu)于PaLM-e-12B和QWEN-VL(10B)。
研究團隊還表示,刷榜不是他們本次工作的最終目的,所以模型沒有進行優(yōu)化。
他們構建這個大模型的真正目的是為了提升自家產(chǎn)品的能力。
Adept團隊致力于打造一個AI Copilot。
這個Copilot能夠理解用戶屏幕上的內(nèi)容(比如網(wǎng)頁、PPT、PDF、圖表等),并能輔助人類快速完成工作。
這就要求大模型需要能理解環(huán)境信息,同時可以代替人類進行操作。換言之,需要大模型能具備超強的圖像理解能力。
所以這也是為啥Fuyu-8B會很強調(diào)對UI的理解能力。
比如它能理解你打開的窗口,以及窗口內(nèi)的信息。
帶來這一新工作的團隊是Adept。
這是一家由Transformer一作、前OpenAI工程副總裁等業(yè)內(nèi)大佬共同創(chuàng)立的AI公司。
它成立于2022年4月。目前已完成B輪融資,總融資額達4.15億美元,公司估值超過10億美元。
首席科學家是Ashish Vaswani。他是《Attention is all you need》的第一作者,平常看論文時經(jīng)常出現(xiàn)的“(Vaswani et al., 2017)”就是這位大佬。
他博士畢業(yè)于南加州大學,在谷歌大腦工作已有5年。
Transformer的另一位作者Niki Parmar也加入了該團隊。
她在印度上完大學后,同樣在南加州大學讀完碩士,在谷歌工作了近7年。
創(chuàng)始人兼CEO David Luan,是前OpenAI加州實驗室工程副總裁,參與過GPT-2、GPT-3、CLIP、DALL-E等模型的開發(fā),后來加入谷歌,曾任谷歌大腦大模型研究的Director。
Adept致力于打造一個AI Copilot。
團隊在去年推出的首項工作,就頗有AutoGPT那感覺。
他們打造的Action Transformer(ACT-1),會使用瀏覽器、Excel等,能理解人類給出的命令并完成相應操作。
比如想要在Excel表格中加上利潤、利潤率,只需把這段話輸入給AI,它就能自己在對應行列創(chuàng)建公式完成任務了。
同時該團隊還非常關注開源工作。
今年先后推出的兩項工作Persimmon-8B和Fuyu-8B,都已對外開源。
Demo試玩:
https://huggingface.co/spaces/adept/fuyu-8b-demo
參考鏈接:
[1]https://www.adept.ai/blog/fuyu-8b
[2]https://twitter.com/AdeptAILabs/status/1714682413983601046
[3]https://twitter.com/julien_c/status/1714694606095310876?s=20
[4]https://twitter.com/main_horse/status/1714684833488949519?s=20
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
同學您好!