發(fā)布時間:2023-11-11 17:48:53 瀏覽量:105次
網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗等
克雷西 發(fā)自 凹非寺
|
針對Transformer,谷歌DeepMind一項新的發(fā)現(xiàn)引起了不小爭議:
它的泛化能力,無法擴展到訓(xùn)練數(shù)據(jù)以外的內(nèi)容。
目前這一結(jié)論還沒有進一步得到驗證,但已經(jīng)驚動了一眾大佬,比如Keras之父Francois Chollet表示,如果消息為真,將成為大模型界的一件大事。
谷歌Transformer是今天大模型背后的基礎(chǔ)架構(gòu),我們所熟悉的GPT里的“T”指的就是它。
一系列大模型表現(xiàn)出強大的上下文學(xué)習(xí)能力,可以快速學(xué)習(xí)示例并完成新的任務(wù)。
但現(xiàn)在,同樣來自Google的研究人員似乎指出了它的致命缺陷——超出訓(xùn)練數(shù)據(jù)也就是人類已有知識之外,全都無能為力。
一時間,不少從業(yè)者認(rèn)為AGI再次變得遙不可及。
然而,也有網(wǎng)友找出論文中更多關(guān)鍵卻被忽略的細(xì)節(jié),比如只做了GPT-2規(guī)模的試驗,訓(xùn)練數(shù)據(jù)也不是語言等。
隨著時間的推移,更多認(rèn)真研究了這篇論文的網(wǎng)友則指出,研究結(jié)論本身沒什么問題,但人們卻基于此做出過度的解讀。
而論文引發(fā)網(wǎng)友熱議之后,其中一名作者也出來做了兩點澄清:
首先實驗中使用的是簡單Transformer,既不“大”也不是語言模型;
其次,模型是可以學(xué)習(xí)新任務(wù)的,只是無法泛化到新類型的任務(wù)
此后,又有網(wǎng)友在Colab中重復(fù)了這一實驗,卻得到了完全不同的結(jié)果。
那么,我們就先來看看這篇論文,還有提出不同結(jié)果的Samuel,到底都說了什么。
實驗中,作者在基于Jax的機器學(xué)習(xí)框架上訓(xùn)練了規(guī)模接近GPT-2、只包含解碼器的Transformer。
其中包括了12層,8個注意力頭,嵌入空間維度為256,參數(shù)量約為950萬。
為了測試它的泛化能力,作者使用了函數(shù)作為測試對象——將線性函數(shù)和正弦函數(shù)一起作為訓(xùn)練數(shù)據(jù)喂模型。
這兩種函數(shù)對于此時的模型來說是已知,預(yù)測的結(jié)果自然也很好,但當(dāng)研究者把線性函數(shù)和正弦函數(shù)進行了凸性組合時,問題就出現(xiàn)了。
凸性組合并沒有那么神秘,作者構(gòu)建出了形如f(x)=a·kx+(1-a)sin(x)的函數(shù),在我們看來不過是兩個函數(shù)按比例簡單相加。
但我們之所以會這么認(rèn)為,正是因為我們的大腦擁有這方面的泛化能力,而大模型就不一樣了。
別看就是簡單相加,對于只見過線性和正弦函數(shù)的模型來說,這就是一種全新的函數(shù)。
對于這種新函數(shù),Transformer給出的預(yù)測可以說是毫無準(zhǔn)確性可言(圖4c)——于是作者就認(rèn)為模型在函數(shù)上沒有泛化能力。
為了進一步驗證自己的結(jié)論,作者調(diào)整了線性或正弦函數(shù)的權(quán)重,但即使這樣Transformer的預(yù)測表現(xiàn)也沒有顯著的變化。
只有一點例外——當(dāng)其中一項的權(quán)重接近1時,模型的預(yù)測結(jié)果和實際就比較吻合了。
但權(quán)重為1意味著,陌生的新函數(shù)直接變成了訓(xùn)練時見過的函數(shù),這樣的數(shù)據(jù)對于泛化能力來說顯然沒有什么意義。
進一步實驗還顯示,Transformer不僅對于函數(shù)的種類十分敏感,甚至同種函數(shù)也可能變成陌生條件。
研究人員發(fā)現(xiàn),哪怕是單純的正弦函數(shù),只是改變其中的頻率,模型的預(yù)測結(jié)果也會發(fā)生線束變化。
只有當(dāng)頻率接近訓(xùn)練數(shù)據(jù)中的函數(shù)時,模型才能給出比較準(zhǔn)確的預(yù)測,當(dāng)頻率過高或過低時,預(yù)測結(jié)果出現(xiàn)了嚴(yán)重的偏差……
據(jù)此,作者認(rèn)為,條件只要稍微有點不一樣,大模型就不知道怎么做了,這不就是說明泛化能力差嗎?
作者在文中也自述了研究中存在的一些局限性,如何將函數(shù)數(shù)據(jù)上的觀察應(yīng)用到token化的自然語言問題上。
團隊也在語言模型上嘗試了相似的試驗但遇到一些障礙,如何適當(dāng)定義任務(wù)族(相當(dāng)于這里的函數(shù)種類)、凸組合等還有待解決。
而Samuel這邊的模型規(guī)模更小,僅有4層,在Colab上訓(xùn)練5分鐘后就可以泛化到線性與正弦函數(shù)的組合。
綜合全文來看,Quora CEO這篇文章的結(jié)論非常窄,只在很多假設(shè)下才能成立。
斯隆獎得主、UCLA教授顧全全說,這篇論文本身的結(jié)論不存在爭議,但不應(yīng)該被過度解讀。
結(jié)合先前的研究,Transformer只是無法泛化到與預(yù)訓(xùn)練數(shù)據(jù)“明顯不同”的內(nèi)容,而實際上,大模型的泛化能力通常用任務(wù)多樣性和任務(wù)復(fù)雜性來衡量。
如果仔細(xì)追究Transformer的泛化能力,恐怕要讓子彈再飛一會兒了。
但是,就算真的缺乏泛化能力,又能怎么樣呢?
英偉達AI科學(xué)家Jim Fan就說,這種現(xiàn)象其實沒啥奇怪的,因為Transformer本來就不是萬金油,大模型表現(xiàn)得好,是因為訓(xùn)練數(shù)據(jù)剛好是我們關(guān)心的內(nèi)容。
Jim進一步補充道,這就好像是在說,用一千億張貓狗的照片訓(xùn)練視覺模型,接著讓模型去識別飛機,然后發(fā)現(xiàn),哇,居然真的不認(rèn)識誒。
不只是大模型,人類在遇到一些未知任務(wù)時也不一定能有解決方案,這是否也說明人類缺乏泛化能力呢?
所以,在目標(biāo)導(dǎo)向之下,無論是大模型還是人類,最終的目的還是要回到解決問題上來,而泛化只是一種手段。
借用這個表情包的說法,既然泛化能力欠缺,那就把它訓(xùn)練到?jīng)]有訓(xùn)練之外的數(shù)據(jù)為止。
那么,對于這項研究,你有什么看法呢?
論文地址:
https://arxiv.org/abs/2311.00871
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
9. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!