激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Agent-Pro: 玩游戲不再一枝獨秀的LLM Agent

發(fā)布時間:2024-04-19 16:00:30 瀏覽量:212次

Agent-Pro: 玩游戲不再一枝獨秀的LLM Agent

圖1 Agent-Pro示意圖

如上圖1所示,Agent-Pro以LLM作為基座模型,通過自我優(yōu)化的Prompt來建模游戲世界模型和行為策略。

  • Dynamic belief:Agent-Pro動態(tài)地生成自我信念(Self-Belief)和對外部世界的信念(World-Belief)。每次決策都基于這些信念,并動態(tài)地更新這些信念。

  • World Modeling & Behavior Policy: Agent-Pro內(nèi)部包括一個對任務世界的建模以及對自己行為策略的描述。在持續(xù)環(huán)境交互和探索中,Agent-Pro不斷優(yōu)化這個游戲世界模型和行為策略。

  • Policy-level Reflection and Optimization: 通過對歷史行動軌跡、信念和每局游戲結(jié)果進行策略級的反思,Agent-Pro“微調(diào)”其不正確的信念,優(yōu)化一個更好的prompt實現(xiàn)來對游戲世界和行為策略進行建模。

研究者在多人德州撲克和21 點這兩個廣為流行的博弈游戲中進行了實驗。結(jié)果表明,受益于持續(xù)優(yōu)化的世界模型和行為策略,Agent-Pro的游戲水平不斷提升,涌現(xiàn)出很多類似人類的高階技巧: 虛張聲勢,欺詐,主動放棄等。這為多種現(xiàn)實世界的很多場景提供了可行解決路徑。

論文題目:

Agent-Pro: an LLM-based Agent with Policy-level Reflection and Optimization

論文鏈接:

點擊咨詢

代碼鏈接:

點擊咨詢

Agent-Pro是如何學習和進化

1.1

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定