激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

SuperCLUE中文大模型評(píng)測(cè):商湯商量攬總榜、AI智能體兩項(xiàng)第一

發(fā)布時(shí)間:2023-11-28 14:54:58 瀏覽量:99次

近日,中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE發(fā)布9月總排行榜和各個(gè)分類任務(wù)榜單,商湯商量SenseChat 3.0 位列中文大模型總榜排名第一。

近日,中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE發(fā)布9月總排行榜和各個(gè)分類任務(wù)榜單,商湯商量SenseChat 3.0 位列中文大模型總榜排名第一。在新增的AI Agent(AI智能體)子榜中,SenseChat 3.0 同樣排名第一,領(lǐng)先所有國(guó)內(nèi)中文大模型以及GPT-3.5 和 Claude 2,表現(xiàn)僅次于GPT-4,展示了商湯在大模型領(lǐng)域創(chuàng)新發(fā)展及釋放生產(chǎn)力的優(yōu)勢(shì),以及在探索AGI道路上的積累與潛力。

SuperCLUE中文大模型評(píng)測(cè):商湯商量攬總榜、AI智能體兩項(xiàng)第一

注:國(guó)外代表性模型(GPT4.0/Claude2/gpt-3.5)不參與排名。

SuperCLUE是中文通用大模型的綜合性評(píng)測(cè)基準(zhǔn),旨在對(duì)大模型在各個(gè)能力維度上的表現(xiàn)進(jìn)行全方位的評(píng)估,是國(guó)內(nèi)最具專業(yè)性和代表性的中文大模型評(píng)測(cè)基準(zhǔn)之一。此次評(píng)測(cè)選取了目前國(guó)內(nèi)外最具代表性的20個(gè)通用大語(yǔ)言模型。

商量總榜第一,客觀題成績(jī)超GPT-3.5

9月最新發(fā)布的SuperCLUE總排行榜和各個(gè)分類任務(wù)榜單,主要聚焦于大模型的四個(gè)能力象限,語(yǔ)言理解與生成,包括語(yǔ)言理解與抽取、上下文對(duì)、生成與創(chuàng)作、角色扮演;專業(yè)技能與知識(shí),包括知識(shí)與百科、計(jì)算、代碼、邏輯與推理;Agent智能體,包括工具使用、任務(wù)規(guī)劃;安全性,包括系統(tǒng)安全、指令攻擊,總共12項(xiàng)基礎(chǔ)能力。

在總排行榜中,商湯科技商量SenseChat 3.0以總分62.75分位列第一,其中在OPT客觀題部分,商湯SenseChat 3.0得分還超過(guò)了GPT-3.5,展示了在中文大模型方面極強(qiáng)的綜合競(jìng)爭(zhēng)力。

商湯商量SenseChat于2023年4月正式推出,是國(guó)內(nèi)最早的基于千億參數(shù)大語(yǔ)言模型之一,并不斷迭代更新。其背后依托的是商湯AI大裝置SenseCore,目前上線GPU數(shù)量約30,000塊,算力規(guī)模提升至6 ExaFLOPS,有效支持語(yǔ)言大模型的訓(xùn)練、升級(jí)迭代和服務(wù)。

推動(dòng)AI智能體發(fā)展,加速邁向AGI

隨著大模型發(fā)展,“聊天”已遠(yuǎn)遠(yuǎn)不能滿足人們的要求,能夠準(zhǔn)確使用工具成為解放大模型生產(chǎn)力的關(guān)鍵。SuperCLUE新增的AI Agent(AI智能體)子榜,是業(yè)界首個(gè)AI Agent榜單,它重點(diǎn)評(píng)估了AI Agent在“工具使用”和“任務(wù)規(guī)劃”兩個(gè)關(guān)鍵能力上的表現(xiàn)。評(píng)測(cè)顯示商湯商量SenseChat 3.0具備作為人類超級(jí)助手的潛力,可以根據(jù)人類需求自主完成任務(wù),進(jìn)而充分釋放大模型的生產(chǎn)力,使其在 AI Agent 榜單上表現(xiàn)僅次于GPT-4,全面領(lǐng)先其余參評(píng)大模型。

SuperCLUE中文大模型評(píng)測(cè):商湯商量攬總榜、AI智能體兩項(xiàng)第一

目前全球領(lǐng)先的AI 智能體,幾乎都以領(lǐng)先大模型GPT-4為核心驅(qū)動(dòng),它們借助強(qiáng)大的工具使用能力等,可將復(fù)雜問(wèn)題拆解成可實(shí)現(xiàn)的子任務(wù)、類人的自然語(yǔ)言交互等能力。商量SenseChat 3.0作為領(lǐng)先的中文大模型,通過(guò)使用代碼解釋器、API調(diào)用和搜索三類常用工具來(lái)解決復(fù)雜任務(wù),靈活搭建AI智能體應(yīng)用,支撐企業(yè)的生產(chǎn)力革新。

目前,商量SenseChat已經(jīng)在金融、手機(jī)、醫(yī)療、汽車、地產(chǎn)、能源、傳媒、工業(yè)制造等眾多垂直行業(yè)與超過(guò)500家客戶建立了深度合作。作為具備強(qiáng)大工具使用能力的大模型,商量SenseChat的持續(xù)快速提升,為商湯發(fā)展更強(qiáng)大的、能夠像人類一樣進(jìn)行交互的AI智能體,以及面向AGI道路的探索,都將提供重要的基礎(chǔ)和支撐。

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定