發(fā)布時間:2023-11-28 14:54:32 瀏覽量:115次
已在64k CodeLlama上通過驗證
豐色 發(fā)自 凹非寺
|
這兩天,F(xiàn)lashAttention團隊推出了新作:
一種給Transformer架構大模型推理加速的新方法,最高可提速8倍。
該方法尤其造福于長上下文LLM,在64k長度的CodeLlama-34B上通過了驗證。
甚至得到了PyTorch官方認可:
如果你之前有所關注,就會記得用FlashAttention給大模型加速效果真的很驚艷。
不過它僅限于訓練階段。
因此,這一新成果一出,就有網(wǎng)友表示:
等推理加速等了好久,終于來了。
據(jù)介紹,這個新方法也是在FlashAttention的基礎之上衍生而出,主要思想也不復雜:
用并行操作盡快加載Key和Value緩存,然后分別重新縮放再合并結果,最終獲得推理速度上的大幅提升。
詳細來看。
該方法被命名為Flash-Decoding。
根據(jù)作者介紹:
LLM的推理(即“解碼”)過程是迭代的,即一次生成一個token,組成一個完整句子需要n個token以及n次前向傳遞。
不過,由于我們可以緩存之前計算出來的token,所以單個生成步驟并不總是依賴于上下文長度。
但有一個操作例外:注意力?(attention),它不能隨著上下文長度靈活擴展。
鑒于長上下文已成趨勢,比如目前最大的開源LLM已達100k(CodeLlama),我們不得不注意到attention在大模型推理過程中浪費了太多時間,時間就是金錢。
更別提attention在batch size上進行擴展時,即使模型上下文相對較短,它也可能成為性能瓶頸(因為模型要讀取的內(nèi)存量與batch size成比例,而它僅取決于模型其余部分的大?。?。
怎么破解?
模型在推理也就是解碼過程中,為了計算softmax(queries @keys.transpose)@values這兩個值,生成的每個新token都需要關注先前的所有token。
團隊先前的工作FlashAttention,已經(jīng)在訓練階段對此操作進行了優(yōu)化。
當時,F(xiàn)lashAttention解決的主要瓶頸是讀寫中間結果的內(nèi)存帶寬(例如,Q @ K^T)。
然而,在推理階段,我們要面對的瓶頸變了,導致FlashAttention所做的優(yōu)化并不能直接拿過來應用。
具體而言:
在階段階段,F(xiàn)lashAttention在batch size和查詢長度維度上進行并行化。
在推理階段,查詢長度通常為1,這意味著如果batch size小于GPU上的流式多處理器數(shù)量(例如,A100為108),該操作將僅使用GPU的一小部分。
這對于長上下文情況尤甚,因為長上下文需要較小的batch size才能適應GPU內(nèi)存。
所以,結果就是,當batch size為1時,F(xiàn)lashAttention將只占用不足1%的GPU,非常不劃算。
當然,你可能會說,不用FlashAttention也行,用矩陣乘法原語來完注意力操作。
不過,作者指出,這種情況又會完全占用GPU,并啟動非常多的寫入和讀取中間結果的內(nèi)核,也不是最佳辦法。
最終,基于以上考量,作者在FlashAttention的基礎上,添加了一個新的并行化緯度:key和value序列長度。
這個方法(即Flash-Decoding)結合上述兩種方法的優(yōu)點:
與FlashAttention一樣,它在全局內(nèi)存中存儲的額外數(shù)據(jù)非常少,但只要上下文長度足夠大,即使batch size很小,它也可以充分利用GPU。
詳細來看,F(xiàn)lash-Decoding一共分為三個步驟:
1、先將key和value值分成更小的塊。
2、用FlashAttention并行計算每塊分割的查詢注意力。并為每行和每塊分割寫入一個額外標量:注意力值的log-sum-exp。
3、最后,通過減少所有分割來計算實際輸出,使用log-sum-exp來scale每塊分割的貢獻。
作者指出,由于attention/softmax可以迭代計算,以上所有操作均可行。
并且在Flash-Decoding中,ttention/softmax既可以在分割塊內(nèi),也可以跨分割塊來執(zhí)行最終的縮減,只不過后者可縮減的步驟很少。
而在實際操作中,步驟1不涉及任何GPU操作,因為key和value塊是完整的張量視圖。然后由2個獨立的內(nèi)核分別執(zhí)行步驟2和3。
驗證環(huán)節(jié),作者在CodeLLaMa-34b(架構與Llama 2相同)上對其解碼吞吐量進行了基準測試。
具體以tok/s為單位,測量了512到64k序列長度下的解碼速度(上限為從內(nèi)存中讀取整個模型以及KV緩存所需的時間),并和多種計算注意力的方法進行對比,包括:
最終,F(xiàn)lash-Decoding最高可將長序列解碼速度提升8倍,并比其他方法具 有更好的擴展性(受長度影響較?。?/p>
此外,作者還在A100上對各種序列長度和batch size的縮放多頭注意力進行了微基準測試。
結果顯示,當序列長度擴展到64k時,Flash-Decoding實現(xiàn)了幾乎恒定的運行時間。
以下是Flash-Decoding的獲取途徑,戳文末官方博客即可找到地址:
調(diào)度程序?qū)⒏鶕?jù)問題的大小自動使用Flash-Decoding或 FlashAttention方法。
目前Flash-Decoding還沒出論文,但作者團隊已透露,這次不再是Tri Dao“單打獨斗”,不過一作仍然是他。
Tri Dao今年博士畢業(yè)于斯坦福,7月份加盟大模型創(chuàng)業(yè)公司Together AI擔任首席科學家。
明年9月將上任普林斯頓大學助理教授,他是FlashAttention v1和v2的主要作者。
剩下三位作者分別是:
Daniel Haziza,F(xiàn)acebook AI Research研究工程師,主要負責xformers(用于訓練加速的開源框架);
Francisco Massa,同F(xiàn)acebook AI Research研究工程師, 主要從事PyTorch相關工作;
Grigory Sizov,Meta機器學習工程師,主要工作是優(yōu)化GPU上的LLM推理和其他AI工作負載,為PyTorch生態(tài)做出過貢獻。
官方博客:
https://princeton-nlp.github.io/flash-decoding/
參考鏈接:
https://twitter.com/tri_dao/status/1712904220519944411?s=20
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
同學您好!