當(dāng)前位置：首頁(yè) >人工智能 >OpenAI新模型Q*的三種猜測(cè)，奧特曼：推開(kāi)無(wú)知之幕，Ilya：數(shù)據(jù)限制可以被突破

OpenAI新模型Q*的三種猜測(cè)，奧特曼：推開(kāi)無(wú)知之幕，Ilya：數(shù)據(jù)限制可以被突破

發(fā)布時(shí)間：2023-11-27 12:05:05 瀏覽量：113次

Ilya：數(shù)據(jù)限制可以被突破

夢(mèng)晨發(fā)自凹非寺
|公眾號(hào)QbitAI

OpenAI宮斗大戲剛剛落幕，馬上又掀起另一場(chǎng)軒然大波！

路透社曝光，在奧特曼被解雇之前，幾位研究人員給董事會(huì)寫(xiě)的警告信可能是整個(gè)事件導(dǎo)火索：

內(nèi)部名為Q?（發(fā)音為Q-Star）*的下一代AI模型，過(guò)于強(qiáng)大和先進(jìn)，可能會(huì)威脅人類(lèi)。

Q*正是由這場(chǎng)風(fēng)暴的中心人物，首席科學(xué)家Ilya Sutskever主導(dǎo)。

人們迅速把奧特曼此前在APEC峰會(huì)上的發(fā)言聯(lián)系在了一起：

OpenAI歷史上已經(jīng)有過(guò)四次，最近一次就是在過(guò)去幾周，當(dāng)我們推開(kāi)無(wú)知之幕并抵達(dá)探索發(fā)現(xiàn)的前沿時(shí)，我就在房間里，這是職業(yè)生涯中的最高榮譽(yù)。”

OpenAI新模型Q*的三種猜測(cè)，奧特曼：推開(kāi)無(wú)知之幕，Ilya：數(shù)據(jù)限制可以被突破

Q*可能有以下幾個(gè)核心特性，被認(rèn)為是通往AGI或超級(jí)智能的關(guān)鍵一步。

突破了人類(lèi)數(shù)據(jù)的限制，可以自己生產(chǎn)巨量訓(xùn)練數(shù)據(jù)
有自主學(xué)習(xí)和自我改進(jìn)的能力

這則消息迅速引發(fā)了巨大討論，馬斯克也帶著鏈接來(lái)追問(wèn)。

最新的梗圖則是，好像一夜之間，人們都從研究奧特曼和OpenAI董事會(huì)的專(zhuān)家，變成了Q*專(zhuān)家。

突破數(shù)據(jù)限制

根據(jù)來(lái)自The Information的最新消息，Q*的前身是GPT-Zero，這個(gè)項(xiàng)目由Ilya Sutskever發(fā)起，名字致敬了DeepMind的Alpha-Zero。

Alpha-Zero無(wú)需學(xué)習(xí)人類(lèi)棋譜，通過(guò)自己跟自己博弈來(lái)掌握下圍棋。

GPT-Zero讓下一代AI模型不用依賴互聯(lián)網(wǎng)上抓取的文本或圖片等真實(shí)世界數(shù)據(jù)，而是使用合成數(shù)據(jù)訓(xùn)練。

2021年，GPT-Zero正式立項(xiàng)，此后并未有太多直接相關(guān)的消息傳出。

但就在幾周前，Ilya在一次訪談中提到：

不談太多細(xì)節(jié)，我只想說(shuō)數(shù)據(jù)限制是可以被克服的，進(jìn)步仍將繼續(xù)。

在GPT-Zero的基礎(chǔ)上，由Jakub Pachocki和Szymon Sidor開(kāi)發(fā)出了Q*。

兩人都是OpenAI早期成員，也都是第一批宣布要跟著奧特曼去微軟的成員。

Jakub Pachocki上個(gè)月剛剛晉升研究總監(jiān)，過(guò)去很多突破包括Dota 2項(xiàng)目和GPT-4的預(yù)訓(xùn)練，他都是核心貢獻(xiàn)者。

Szymon Sidor同樣參與過(guò)Dota 2項(xiàng)目，個(gè)人簡(jiǎn)介是“正在造AGI，一行代碼接一行代碼”。

在路透社的消息中，提到給Q*提供龐大的計(jì)算資源，能夠解決某些數(shù)學(xué)問(wèn)題。雖然目前數(shù)學(xué)能力僅達(dá)到小學(xué)水平，但讓研究者對(duì)未來(lái)的成功非常樂(lè)觀。

另外還提到了OpenAI成立了“AI科學(xué)家”新團(tuán)隊(duì)，由早期的“Code Gen”和“Math Gen”兩個(gè)團(tuán)隊(duì)合并而來(lái)，正在探索優(yōu)化提高AI的推理能力，并最終開(kāi)展科學(xué)探索。

三種猜測(cè)

關(guān)于Q*到底是什么沒(méi)有更具體的消息傳出，但一些人從名字猜測(cè)可能與Q-Learning有關(guān)。

Q-Learning可以追溯到1989年，是一種無(wú)模型強(qiáng)化學(xué)習(xí)算法，不需要對(duì)環(huán)境建模，即使對(duì)帶有隨機(jī)因素的轉(zhuǎn)移函數(shù)或者獎(jiǎng)勵(lì)函數(shù)也無(wú)需特別改動(dòng)就可以適應(yīng)。

與其他強(qiáng)化學(xué)習(xí)算法相比，Q-Learning專(zhuān)注于學(xué)習(xí)每個(gè)狀態(tài)-行動(dòng)對(duì)的價(jià)值，以決定哪個(gè)動(dòng)作在長(zhǎng)期會(huì)帶來(lái)最大的回報(bào)，而不是直接學(xué)習(xí)行動(dòng)策略本身。

第二種猜測(cè)是與OpenAI在5月發(fā)布的通過(guò)“過(guò)程監(jiān)督”而不是“結(jié)果監(jiān)督”解決數(shù)學(xué)問(wèn)題有關(guān)。

但這一研究成果的貢獻(xiàn)列表中并未出現(xiàn)Jakub Pachocki和Szymon Sidor的名字。

另外有人猜測(cè)，7月份加入OpenAI的“德?lián)銩I之父”Noam Brown也可能與這個(gè)項(xiàng)目有關(guān)。

他在加入時(shí)曾表示要把過(guò)去只適用于游戲的方法通用化，推理可能會(huì)慢1000被成本也更高，但可能發(fā)現(xiàn)新藥物或證明數(shù)學(xué)猜想。

符合傳言中“需要巨大計(jì)算資源”和“能解決一定數(shù)學(xué)問(wèn)題”的描述。

雖然更多的都還是猜測(cè)，但合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)是否能把AI帶到下一個(gè)階段，已經(jīng)成了業(yè)內(nèi)討論最多的話題之一。

英偉達(dá)科學(xué)家范麟熙認(rèn)為，合成數(shù)據(jù)將提供上萬(wàn)億高質(zhì)量的訓(xùn)練token，關(guān)鍵問(wèn)題是如何保持質(zhì)量并避免過(guò)早陷入瓶頸。

馬斯克同意這個(gè)看法，并提到人類(lèi)所寫(xiě)的每一本書(shū)只需一個(gè)硬盤(pán)就能裝下，合成數(shù)據(jù)將遠(yuǎn)遠(yuǎn)超出這個(gè)規(guī)模。

但圖靈獎(jiǎng)三巨頭中的LeCun認(rèn)為，更多合成數(shù)據(jù)只是權(quán)宜之計(jì)，最終還是需要讓AI像人類(lèi)或動(dòng)物一樣只需極少數(shù)據(jù)就能學(xué)習(xí)。

萊斯大學(xué)博士Cameron R. Wolfe表示，Q-Learning可能并不是解鎖AGI的秘訣。

但將“合成數(shù)據(jù)”與“數(shù)據(jù)高效的強(qiáng)化學(xué)習(xí)算法”相結(jié)合，可能正是推進(jìn)當(dāng)前人工智能研究范式的關(guān)鍵。

他表示，通過(guò)強(qiáng)化學(xué)習(xí)微調(diào)是訓(xùn)練高性能大模型（如ChatGPT/GPT-4）的秘訣。但強(qiáng)化學(xué)習(xí)本質(zhì)上數(shù)據(jù)低效，使用人工手動(dòng)標(biāo)注數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào)非常昂貴?？紤]到這一點(diǎn)，推進(jìn)AI研究（至少在當(dāng)前范式中）將嚴(yán)重依賴于兩個(gè)基本目標(biāo)：

讓強(qiáng)化學(xué)習(xí)在更少數(shù)據(jù)下表現(xiàn)更好。
盡可能使用大模型和少量人工標(biāo)注數(shù)據(jù)合成生成高質(zhì)量數(shù)據(jù)。

……如果我們堅(jiān)持使用Decoder-only Transformer的預(yù)測(cè)下一個(gè)token范式（即預(yù)訓(xùn)練 -> SFT -> RLHF）……這兩種方法結(jié)合將使每個(gè)人都可以使用尖端的訓(xùn)練技術(shù)，而不僅僅是擁有大量資金的研究團(tuán)隊(duì)！

One More Thing

OpenAI內(nèi)部目前還沒(méi)有人對(duì)Q*的消息發(fā)表回應(yīng)。

但奧特曼剛剛透露與留在董事會(huì)的Quora創(chuàng)始人Adam D’Angelo進(jìn)行了幾個(gè)小時(shí)的友好談話。

看來(lái)無(wú)論Adam D’Angelo是否像大家猜測(cè)的那樣是這次事件的幕后黑手，現(xiàn)在都達(dá)成和解了。

參考鏈接：
[1]https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern
[2]https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/
[3]https://www.youtube.com/watch?v=ZFFvqRemDv8
[4]https://www.youtube.com/watch?v=Ft0gTO2K85A
[5]https://x.com/cwolferesearch/status/1727727148859797600
[6]https://twitter.com/DrJimFan/status/1727505774514180188