發(fā)布時(shí)間:2023-11-28 14:55:03 瀏覽量:107次
使用多種優(yōu)化方式
克雷西 發(fā)自 凹非寺
|
來自“歐洲OpenAI”的“最強(qiáng)7B開源模型”Mistral最近可謂是圈粉無數(shù)。
它各方面的測試指標(biāo)全面超越了13B的Llama2,甚至讓一眾網(wǎng)友覺得羊駝不香了。
最新消息是,Mistral AI團(tuán)隊(duì)已經(jīng)發(fā)布了相關(guān)論文,透露背后的技術(shù)細(xì)節(jié)。
Mistral不僅全面戰(zhàn)勝了13B Llama2,在數(shù)學(xué)、代碼和推理方面,34B的Llama1也不是Mistral的對手。
在推理任務(wù)上,Mistral的表現(xiàn)更是直逼10倍參數(shù)量的Llama2-70B。
但Mistral消耗的資源卻很少,只需要6GB顯存,MacBook就能流暢運(yùn)行。
為了用更少消耗達(dá)到更好的效果,Mistral可謂是使出了渾身解數(shù)。
那么關(guān)于Mistral的這篇論文都透露了哪些技術(shù)信息呢?
基礎(chǔ)結(jié)構(gòu)上,Mistral基于Transformer架構(gòu)設(shè)計(jì),一共有32個n_layer,上下文長度達(dá)到了8192 token。
具體的參數(shù)如下表所示:
而Mistral能做到高性能低消耗,則要?dú)w功于所用到的多種優(yōu)化策略。
首先是最核心的注意力機(jī)制,其直接作用是減少計(jì)算量,具體包括了兩個方面。
第一種是滑動窗口(Sliding Window)注意力機(jī)制。
推理階段中,會設(shè)定出一個窗口長度,并在劃分出的注意力層范圍之內(nèi)進(jìn)行注意力運(yùn)算,而不是針對全文。
通過滑動方式,各注意力層之間會有所重疊,從而實(shí)現(xiàn)長文本序列的處理。
4096的長度,理論上可以處理13.1萬token。
這種注意力機(jī)制和標(biāo)準(zhǔn)注意力相比,可以將速度提升到兩倍。
另一種則是分組查詢(Grouped-query)注意力機(jī)制。
這種機(jī)制將查詢(query)拆分成多個組,每個組只與key的一個子集進(jìn)行注意力運(yùn)算,然后拼接出結(jié)果。
這樣不僅能降低運(yùn)算量,也能讓組間通信次數(shù)減少,并提高查詢吞吐。
除了在注意力機(jī)制上下功夫,開發(fā)者還引入了滾動緩沖區(qū)緩存(Rolling Buffer Cache)。
這種存儲方式固定了緩沖區(qū)的大小,從而限定了內(nèi)存消耗的最大值。
如果把緩沖區(qū)比作一座倉庫,每存進(jìn)一個新東西,都會占據(jù)相應(yīng)的位置。
而倉庫的總?cè)萘渴枪潭ǖ?,?dāng)倉庫被裝滿時(shí),就會把最先放入的東西移除,讓新的物品繼續(xù)進(jìn)倉。
但入倉時(shí)間更接近的物品則會留在倉庫中,就能在節(jié)約資源的同時(shí)保留一定長度的序列。
利用這種緩存機(jī)制,只要緩沖區(qū)大小設(shè)置得合理,就能實(shí)現(xiàn)預(yù)算效率與記憶力的平衡。
此外還有一種預(yù)填充和分塊機(jī)制,它的直接作用是減少重復(fù)運(yùn)算。
假如需要處理一個很長的句子,那么這個句子將被分割成小塊。
訓(xùn)練完前面的小塊之后,再加入后面的塊,以此類推……
這樣存儲空間中就有了前面的塊信息,用來建立長序列。
這種方式避免了從頭開始的重復(fù)運(yùn)算,從而使效率得到了提升。
以上就是開發(fā)者在Mistral中使用的優(yōu)化策略,而為了評估模型的泛化能力,開發(fā)者使用了HF上的公開數(shù)據(jù)集進(jìn)行了指導(dǎo)性微調(diào)。
結(jié)果Mistral的表現(xiàn)全面超過了13B參數(shù)的Llama 2,其中推理技能更是與70B版本十分接近。
Mistral的火爆程度,直接讓第三方工作室也推出了微調(diào)教程。
據(jù)介紹,用這種方法微調(diào)之后,可以進(jìn)一步提升Mistral的性能并降低消耗。
而這個微調(diào)的過程,用一塊3090就能完成。
首先是根據(jù)使用目的準(zhǔn)備數(shù)據(jù)集,轉(zhuǎn)化為prompt形式并劃分出訓(xùn)練和驗(yàn)證集。
然后是對模型進(jìn)行初始化,加載Mistral并設(shè)置4-bit量化和Lora等參數(shù)。
接著是構(gòu)建Trainer,輸入數(shù)據(jù)、模型等信息正式開始訓(xùn)練,然后測試并保存。
具體的細(xì)節(jié)可以到教程原文中去了解。
論文地址:
https://arxiv.org/abs/2310.06825
微調(diào)教程:
https://wandb.ai/byyoung3/ml-news/reports/Fine-Tuning-Mistral7B-on-Python-Code-With-A-Single-GPU—Vmlldzo1NTg0NzY5
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
8. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
9. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
最新文章
同學(xué)您好!