激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

發(fā)布時(shí)間:2023-11-09 14:57:09 瀏覽量:106次

來(lái)自人民大學(xué)等最新研究

明敏 發(fā)自 凹非寺

|  

別讓大模型被基準(zhǔn)評(píng)估給坑了”。

這是一項(xiàng)最新研究的題目,來(lái)自人民大學(xué)信息學(xué)院、高瓴人工智能學(xué)院和伊利諾伊大學(xué)厄巴納-香檳分校。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

研究發(fā)現(xiàn),基準(zhǔn)測(cè)試中相關(guān)數(shù)據(jù)意外被用于模型訓(xùn)練的現(xiàn)象,變得越來(lái)越常見(jiàn)了。

因?yàn)轭A(yù)訓(xùn)練語(yǔ)料中包含很多公開(kāi)文本資料,而評(píng)估基準(zhǔn)也建立在這些信息之上,本來(lái)這種情況就在所難免。

現(xiàn)在隨著大模型試圖搜集更多公開(kāi)數(shù)據(jù),問(wèn)題正在加重。

要知道,這種數(shù)據(jù)重疊帶來(lái)的危害非常大。

不僅會(huì)導(dǎo)致模型部分測(cè)試分?jǐn)?shù)虛高,還會(huì)使模型泛化能力下降、不相關(guān)任務(wù)表現(xiàn)驟降。甚至可能讓大模型在實(shí)際應(yīng)用中產(chǎn)生“危害”。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

所以這項(xiàng)研究正式發(fā)出警告,并通過(guò)多項(xiàng)模擬測(cè)試驗(yàn)證了可能誘發(fā)的實(shí)際危害,具體來(lái)看。

大模型“被漏題”很危險(xiǎn)

研究主要通過(guò)模擬極端泄露數(shù)據(jù)的情況,來(lái)測(cè)試觀察大模型會(huì)產(chǎn)生的影響。

極端泄露數(shù)據(jù)的方式有四種:

  • 使用MMLU的訓(xùn)練集
  • 使用MMLU以外所有測(cè)試基準(zhǔn)的訓(xùn)練集
  • 使用所有訓(xùn)練集+測(cè)試prompt
  • 使用所有訓(xùn)練集、測(cè)試集和測(cè)試prompt(這是最極端情況,僅為實(shí)驗(yàn)?zāi)M,正常情況下不會(huì)發(fā)生)

然后研究人員給4個(gè)大模型進(jìn)行“投毒”,然后再觀察它們?cè)诓煌琤enchmark中的表現(xiàn),主要評(píng)估了在問(wèn)答、推理、閱讀理解等任務(wù)中的表現(xiàn)。

使用的模型分別是:

  • GPT-Neo(1.3B)
  • phi-1.5(1.3B)
  • OpenLLaMA(3B)
  • LLaMA-2(7B)

同時(shí)使用LLaMA(13B/30B/65B)作為對(duì)照組。

結(jié)果發(fā)現(xiàn),當(dāng)大模型的預(yù)訓(xùn)練數(shù)據(jù)中包含了某一個(gè)評(píng)測(cè)基準(zhǔn)的數(shù)據(jù),它會(huì)在這一評(píng)測(cè)基準(zhǔn)中表現(xiàn)更好,但在其他不相關(guān)任務(wù)中的表現(xiàn)會(huì)下降。

比如使用MMLU數(shù)據(jù)集訓(xùn)練后,多個(gè)大模型在MMLU測(cè)試中分?jǐn)?shù)提高的同時(shí),在常識(shí)基準(zhǔn)HSwag、數(shù)學(xué)基準(zhǔn)GSM8K中分?jǐn)?shù)下降。

這表明大模型的泛化能力受到影響。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

另一方面,還可能造成不相關(guān)測(cè)試分?jǐn)?shù)虛高

如上給大模型進(jìn)行“投毒”的四個(gè)訓(xùn)練集中僅包含少量中文數(shù)據(jù),但是大模型被“投毒”后,在C3(中文基準(zhǔn)測(cè)試)中的分?jǐn)?shù)卻都變高了。

這種升高是不合理的。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

這種訓(xùn)練數(shù)據(jù)泄露的情況,甚至?xí)?dǎo)致模型測(cè)試分?jǐn)?shù),異常超越更大模型的表現(xiàn)。

比如phi-1.5(1.3B)在RACE-M和RACE-H上的表現(xiàn)優(yōu)于LLaMA65B,后者是前者規(guī)模的50倍。

但這種分?jǐn)?shù)升高沒(méi)有意義,只是作弊罷了。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

更嚴(yán)重的是,哪怕是沒(méi)有被泄露數(shù)據(jù)的任務(wù),也會(huì)受到影響,表現(xiàn)下降。

下表中可以看到,在代碼任務(wù)HEval中,兩個(gè)大模型都出現(xiàn)了分?jǐn)?shù)大幅下降的情況。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

同時(shí)被泄露數(shù)據(jù)后,大模型的微調(diào)提升遠(yuǎn)不如未被泄露情況。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

對(duì)于發(fā)生數(shù)據(jù)重疊/泄露的情況,本項(xiàng)研究分析了各種可能。

比如大模型預(yù)訓(xùn)練語(yǔ)料和基準(zhǔn)測(cè)試數(shù)據(jù)都會(huì)選用公開(kāi)文本(網(wǎng)頁(yè)、論文等),所以發(fā)生重疊在所難免。

而且當(dāng)前大模型評(píng)估都是在本地進(jìn)行,或者是通過(guò)API調(diào)用來(lái)獲得結(jié)果。這種方式無(wú)法嚴(yán)格檢查一些不正常的數(shù)值提升。

以及當(dāng)下大模型的預(yù)訓(xùn)練語(yǔ)料都被各方視為核心機(jī)密,外界無(wú)法評(píng)估。

所以導(dǎo)致了大模型被意外“投毒”的情況發(fā)生。

那該如何規(guī)避這一問(wèn)題呢?研究團(tuán)隊(duì)也出了一些建議。

如何規(guī)避?

研究團(tuán)隊(duì)給出了三點(diǎn)建議:

第一,實(shí)際情況中很難完全避免數(shù)據(jù)重疊,所以大模型應(yīng)該采用多個(gè)基準(zhǔn)測(cè)試進(jìn)行更全面的評(píng)估

第二,對(duì)于大模型開(kāi)發(fā)者,應(yīng)該要對(duì)數(shù)據(jù)進(jìn)行脫敏,公開(kāi)訓(xùn)練語(yǔ)料的詳細(xì)構(gòu)成。

第三,對(duì)于基準(zhǔn)測(cè)試維護(hù)人員,應(yīng)該提供基準(zhǔn)測(cè)試數(shù)據(jù)來(lái)源,分析數(shù)據(jù)被污染的風(fēng)險(xiǎn),使用更多樣化的提示進(jìn)行多次評(píng)估。

別讓大模型被基準(zhǔn)評(píng)估坑了!測(cè)試集亂入預(yù)訓(xùn)練,分?jǐn)?shù)虛高,模型變傻

不過(guò)團(tuán)隊(duì)也表示本次研究中還存在一定局限。比如沒(méi)有對(duì)不同程度數(shù)據(jù)泄露進(jìn)行系統(tǒng)性測(cè)試,以及沒(méi)能在預(yù)訓(xùn)練中直接引入數(shù)據(jù)泄露進(jìn)行模擬等。

本次研究由中國(guó)人民大學(xué)信息學(xué)院、高瓴人工智能學(xué)院和伊利諾伊大學(xué)香檳分校的多位學(xué)者共同帶來(lái)。

在研究團(tuán)隊(duì)中我們發(fā)現(xiàn)了兩位數(shù)據(jù)挖掘領(lǐng)域大佬:文繼榮和韓家煒。

文繼榮教授現(xiàn)任中國(guó)人民大學(xué)高瓴人工智能學(xué)院院長(zhǎng)、中國(guó)人民大學(xué)信息學(xué)院院長(zhǎng)。主要研究方向?yàn)樾畔z索、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大規(guī)模神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與應(yīng)用。

韓家煒教授領(lǐng)銜是數(shù)據(jù)挖掘領(lǐng)域?qū)<?,現(xiàn)為伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授,美國(guó)計(jì)算機(jī)協(xié)會(huì)院士和IEEE院士。

論文地址:
https://arxiv.org/abs/2311.01964

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定