激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

「聽風」人工智能在電子游戲上的應用綜述

發(fā)布時間:2024-01-16 16:57:24 瀏覽量:181次

今天要講的內容是關于AI在電子游戲上應用的一個綜述。

魔獸世界在MMORPG游戲歷史上有著舉足輕重的作用,在其他方面的研究里也有著很重要的借鑒價值。



還記得祖爾格拉布“墮落之血”瘟疫傳染事件嗎,它過去曾被用于傳染病的研究上。



摘要

電子游戲從出現(xiàn)開始就推動著計算機技術的發(fā)展,在過去的十年里,人工智能(AI)技術的發(fā)展也離不開游戲的研究。作為AI研究絕佳的測試平臺,在人工智能方面從古老的棋盤游戲、之后又到經(jīng)典的街機游戲、再到2016年AlphaGo戰(zhàn)勝李世石,人工智能Agent都表現(xiàn)卓越。RPG游戲作為網(wǎng)絡游戲的一支很重要的大軍,勢必要搭上人工智能的車重新占領游戲市場。

本文分析了人工智能系統(tǒng)在電子游戲上的發(fā)展歷史以及現(xiàn)有的人工智能游戲的研究方向,提出了人工智能在未來RPG游戲游戲上的發(fā)展方向,以期對今后人工智能在游戲上的應用的研發(fā)和創(chuàng)新方向給出一定的指導。

關鍵詞:游戲人工智能、電子游戲、RTS、MOBA、MMORPG

電子游戲一直是人工智能研究和測試的重要組成部分。在二十世紀九十年代中期,IBM 的超級計算機「深藍」數(shù)次擊敗了國際象棋世界冠軍卡斯帕羅夫。后來到了 2011 年,IBM 的沃森人工智能在游戲《危險邊緣》就擊敗了最優(yōu)秀的人類玩家,并展示了 IBM 在自然語言處理的進展。2015 年,DeepMind 就開始使用機器學習來訓練人工智能玩一些復古的雅達利游戲(Atari games),并使其至少能做得和人類一樣好。后來在 2016 年的三月份,DeepMind 通過另一種方法訓練了 Alpha Go,并擊敗了圍棋世界冠軍李世乭。



在過去的十年里,人工智能以迅猛的發(fā)展之勢橫掃計算機界,而在有監(jiān)督學習的情況下,機器在圖像識別和語音識別能力上,已經(jīng)有預期的超越了人類的認知水平。前不久,DeepMind在A3C上發(fā)表的論文中提出了一套UNREAL系統(tǒng),在Atari游戲合集上的表現(xiàn)得分基本與人類玩家持平,而且有的還能超過人類。而阿里的新研究則通過BiCNet在《星際爭霸》上實現(xiàn)了多兵種協(xié)同作戰(zhàn),該實驗證明了這一系統(tǒng)在RTS(Real-Time Strategy Game)游戲上各兵種協(xié)調全作的有效性,以及指定獎勵和學習策略存在相關性。

谷歌DeepMind團隊與暴雪開源了星際爭霸2機器學習平臺,提供了游戲輸入輸出API,DeepMind又做了基于Python的封裝,持續(xù)發(fā)布基于replay的增強學習訓練數(shù)據(jù),此外兩家公司還發(fā)布了上百萬幀來自天梯專業(yè)選手的游戲記錄,這將有助于基于平臺算法應用到不同應用上。

之后,研究者們又嘗試使用在AlphaGo Zero中出現(xiàn)的蒙特卡洛樹搜索等技術,在MOBA(Multiplay Online Battle Arena Game)游戲——《王者榮耀》上得到展現(xiàn),證明了該項技術的深度神經(jīng)網(wǎng)絡實現(xiàn)可以創(chuàng)建一個適合《王者榮耀》游戲的有競爭力的AI智能體。



MMORPG(Massive Multiplayer Online Role-Playig Game)游戲在過去的十多年發(fā)展到現(xiàn)在,已經(jīng)處在一個比較尷尬的狀態(tài),處于下滑態(tài)勢。一方面由于游戲快餐化,娛樂模式呈現(xiàn)井噴,MMORPG又大體復制從出生就有的游戲模式,使得游戲在創(chuàng)新方面已無法滿足玩家游戲樂趣。

然而MMORPG停滯不前的十年正是人工智能發(fā)展的十年,隨著人工智能不斷的發(fā)展,游戲需要由低智能向高智能發(fā)展。以遺傳算法和神經(jīng)網(wǎng)絡為代表的強人工智能將大大提高游戲的智能性。我們基于游戲人工智能在Atari游戲,RTS游戲,MOBA游戲等各類游戲上的研究成果,可以預測MMORPG游戲也將搭乘人工智能的勢頭再度引起市場的關注,而以上的研究成果也將為我們研究人工智能在MMORPG游戲的應用提供一定的參考。

1. 游戲人工智能的發(fā)展介紹與分析

1.1 Atrai游戲

1977年,雅達利(Atari)發(fā)行了自家公司的新一代游戲機Atari2600,開創(chuàng)了現(xiàn)在游戲機的歷史,同時也開創(chuàng)了強化學習領域在訓練端到端的控制策略。《Playing Atari with Deep Reinforcement Learning》中說到,使用DQN網(wǎng)絡來訓練AI智能體,以達到游戲學習策略,這些策略的學習是通過計算機理解屏幕像素信息以及積分反饋來取得效果的,該網(wǎng)絡最初只有兩個卷積層,用來提取圖像特征,然而卻已經(jīng)取得了很大的效果,AI智能體表現(xiàn)了不俗的能力。

2010年,Lange提出Deep auto-encoder用于基于視覺的相關控制;

在2011年,Cuccu(Jurgen Schmidhuber課題組)等人做出了與DRL相近的研究;同年,Abtahi等人使用DBN替代傳統(tǒng)的強化學習中的逼近器;

2012年,Lange提出Deep Fitted Q學習做車輛控制;基于以上發(fā)展,

2013年,Deep Mind團隊在nips上發(fā)表 《Human-level control through deep reinforcement learning》,工作人員在7個Atari游戲,分別是激光騎士(Beam Rider),打磚塊(Breakout),摩托大戰(zhàn)(Enduro),乓(Pong),波特Q精靈(Q*bert),深海游弋(Seaquest),太空侵略者(Space Invaders),游戲過程中使用網(wǎng)絡深層架構、學習算法,最后AI通過自學完成了49種Atari視頻游戲的學習,并在23種游戲中擊敗了人類職業(yè)玩家。前不久DeepMind團隊結合之前發(fā)表的論文中的成果,又提出了UNREAL(無監(jiān)督強化和輔助學習/UNsupervised Reinforcement and Auxiliary Learning)代理,在一套57個Atari游戲全集和擁有13個級別的3D迷宮游戲Labyrinth中測試了一新系統(tǒng),并在新系統(tǒng)中超過了人類玩家。

從以上Atari游戲中人工智能的發(fā)展看,我們開發(fā)的AI已經(jīng)可以自主解決復雜問題,通過強化學習代理對大量數(shù)據(jù)進行長時間訓練,提高我們的通用學習算法,使用無監(jiān)督學習過程利用神經(jīng)網(wǎng)絡來教電腦玩視頻游戲,可以使計算機在一系列復雜任務當中與人類表現(xiàn)相當,這是一個算法的突破點。

1.2 RTS游戲

阿里巴巴和UCL的研究者們新提出了雙向協(xié)調網(wǎng)絡BiCNet來相互交流,通過評估-決策方式來完成星際爭霸戰(zhàn)斗任務。以RTS游戲《星際爭霸》為測試場景,設定任務為多個智能體互相協(xié)作試圖擊敗敵人。

為了保證溝通方式有效且可擴展,他們引入了多智能體雙向協(xié)調網(wǎng)絡(BiCNet),它具有向量化擴展評價器(actor-critic)形式。驗證了BiCNet可以協(xié)調不同兵種,在不同的場景和兩方智能體數(shù)量任意的情況下正常工作。分析證明,在沒有手動標記數(shù)據(jù)進行監(jiān)督學習的情況下,BiCNet可以學會多種有經(jīng)驗的人類玩家展示出的協(xié)調策略。

而且,BiCNet能夠輕松適應異構智能體任務。在實驗中,在不同的場景下用該新方法與不同的基準進行了對比;BiCNet展現(xiàn)出了最先進的性能,它具有在現(xiàn)實世界大規(guī)模應用的潛在價值。

BiCNet是一種利用雙向神經(jīng)網(wǎng)絡的多智能體強化學習框架。通過構建矢量化的評估-決策方式,其中每個維度對應一個智能體Agent。Agent之前的協(xié)調通過內部雙向通信?;诙说蕉藢W習,BiCNet可以學會多種有效的協(xié)同作戰(zhàn)策略。BiCNet提出了一種強化學習與遷移學習的方法,從而可以解決星際爭霸中多Agent控制問題。

中國科學院自動化所也在近期提出的一種強化學習+課程遷移學習的方法,可以讓AI Agent在組隊作戰(zhàn)過程中掌握微操作能力,控制多個單元。該研究定義了一種高效的狀態(tài)表征,提出一個參數(shù)共享多智能體梯度下降Sarsa(l)(PS-MAGDS)算法訓練單元,該方法使用一個神經(jīng)網(wǎng)絡作為函數(shù)近似器,以評估動作價值函數(shù),還提出了一個幫助單元平衡智能體的移動和攻擊。通過強化學習和課程遷移學習,智能體Agent可以在星際爭霸的微操場景中學習合適的策略。

在中科院的研究中,星際爭霸微操被定義為多智能體強化學習模型,整個強化學習范式如圖。

去年第一季度,暴雪和DeepMind開源了星際爭霸2的機器學習平臺,這個平臺對于state-of-the-art的深度強化學習算法是極好的測試平臺,此外,兩家公司還發(fā)布了上百萬幀的來自天梯上專業(yè)選手的游戲記錄。在新界面里,《星際爭霸 2》的圖形被簡化以便于機器學習系統(tǒng)進行識別,同時他們開放API,允許系統(tǒng)讀取游戲中的數(shù)據(jù),實現(xiàn)原先電腦玩家的部分功能。暴雪還發(fā)布游戲 replay文件數(shù)據(jù)集以供機器學習。

DeepMind的最終目標是讓人工智能系統(tǒng)和人類玩家一樣,通過處理視覺信息理解游戲。同時研究人員還開發(fā)出了一些更加有效的平臺來推動RTS游戲探索多智能體的控制方向上的發(fā)展,其中包括TorchCraftELFPySC2。

通過強化學習和課程遷移學習,我們的AI Agent能夠在星際爭霸微操場景中學習到合適的策略,并且在多單元協(xié)作行為上表現(xiàn)出眾。

DeepMind牽手暴雪,意在要讓人工智能征服星際爭霸,而這將為我們解決人類生活環(huán)境中的協(xié)同工作提供思路。當然我們有望可以先在游戲上應用上達到創(chuàng)新,以推動游戲的發(fā)展。

1.3 MOBA游戲

2017年8月,由OpenAI設計的bot打敗了Dota2世界頂級玩家,在人機匹配賽之前,OpenAI bot接受了一千次比賽的訓練,而且bot通過自我對弈,可以預測其他玩家的下一步操作。

從2017年起,騰訊AI Lab一直致力于MOBA游戲上的AI研究。于是在今年前不久,匹茨堡大學、騰訊AI Lab等機構提交到ICML。

2018大會一篇論文,展示了人工智能在王者榮耀中目前的能力。

2006年Remi Coulom首次介紹了蒙特卡洛樹搜索(MCTS)并在2012年由Browne等人在論文中進行了詳細的介紹。最近幾年,MCTS在游戲AI的領域引起了廣泛關注。而在近日的研究中,研究者們提出了一種新方法,在訓練中充分發(fā)掘MCTS的局部特性,迭代更新所有狀態(tài)的全局策略。其主要貢獻為:

(1)提出了一個基于批量MCTS的強化學習方法,利用子節(jié)點鑒別器通過之前的樹搜索結果進行更新生成更強大的樹搜索;

(2)提供了方法的復雜度分析,表明足夠大的樣本規(guī)模和充分的樹搜索可以使估計策略的性能接近最優(yōu);

(3)基于反饋的樹搜索算法的深度神經(jīng)網(wǎng)絡實現(xiàn)在MOBA游戲《王者榮耀》上,且表現(xiàn)良好;

在《王者榮耀》的測試中,研究者添加了游戲內建的AI狄仁杰作為基準,選擇六個內建AI狄仁杰能夠打敗的射手類英雄來對抗測試對手,在游戲中英雄對敵人造成傷害或者戰(zhàn)勝敵人時,都會得到金幣,經(jīng)過對決,智能體在對決完成后金幣比例總成達到一個高的值,表明其性能良好。

這項研究表明,MCTS已在人工智能領域取行成果,證明這項技術的深度神經(jīng)網(wǎng)絡實現(xiàn)可以創(chuàng)建一個適合MOBA游戲的有競爭力的AI智能體。這在某一種程度上提供了MOBA高階AI智能體的可能性。

1.4 MMORPG

1.4.1 MMORPG發(fā)展歷史

1980年第一款MMORPG(大型多人聯(lián)機角色扮演)游戲誕生——《凱斯邁之島》,后該類游戲逐漸進入玩家視野,從上世紀90年代末《網(wǎng)絡創(chuàng)世紀》、《無盡的任務》到2004年在全球發(fā)售運營的《魔獸世界》。

但是由于游戲市場的更迭以及各種類游戲對市場的逐漸分成,使得MMORPG在近年光環(huán)褪去,早在2010年,以《魔獸世界》為例,從曾一度擁有1200w續(xù)費玩家降到了780w,而且由于MMORPG游戲研發(fā)費用高昂,普通小型公司無法應付資金的巨大壓力,而且大型公司則是由于多年市場經(jīng)驗不愿承擔高額風險來換取該類型游戲的新鮮血液,導致MMORPG運轉狀況不佳,難以繼續(xù)吸引大量新的玩家。

Trion Worlds的《時空裂隙》和EA的《星球大戰(zhàn):舊共和國》都曾希望復制《魔獸世界》的成功模式,然而創(chuàng)新的玩法以及更高的智能體系統(tǒng)在沒出現(xiàn)之前,舊模式始終無法玩家的游戲性。

《魔獸世界》截止目前仍然是最成功的MMORPG,2010年付費用戶和收入到達峰值后,標志著歐美網(wǎng)游市場MMORPG開始走下坡路。

1.4.2 人工智能在MMORPG上的創(chuàng)新思路

基于Atria視頻游戲,RTS戰(zhàn)略游戲,以及MOBA對戰(zhàn)游戲上算法的研究,將該算法思路運用到魔獸世界插件系統(tǒng)中,人工智能體在通過玩家操作進行訓練,采用合適的以上算法訓練智能體插件,再通過玩家對戰(zhàn)進行實操,從而提供一套自學習的插件系統(tǒng),智能插件系統(tǒng)將會輔助玩家進行預判,游戲決策以及團隊決策等任務,這將成為游戲應用的一個創(chuàng)新設計。

2. 應用與創(chuàng)新實踐

分析AI算法在MMORPG應用上的可行性:

首先World of Warcraft APIBlizzard WoW客戶端提供的一套Lua函數(shù)與工具集,可以使用戶與游戲客戶端進行交互,同時用戶操作的數(shù)據(jù)可以通過接口獲取到;

其次,Lua作為一門輕量而快速的腳本語言,功能在高級動態(tài)語言中十分完備,對C API以及線程安全的VM支持,非常適合于處理業(yè)務邏輯; 本應用的幾個難點在于:

(1)如何通過WoW API收集用戶操作以產生可用的訓練數(shù)據(jù)集;

(2)如何將可用的訓練的數(shù)據(jù)運用到算法中,從而產生訓練結果以及結果回傳;

(3)如何進行訓練算法的改進,提供完整的適用于玩家插件需求的結果數(shù)據(jù); 最后,訓練算法基于C++實現(xiàn),LuaC/C++上的數(shù)據(jù)傳遞以及封裝上都比較方便,又魔獸世界又有開放的Lua腳本API,這將為該強化學習的系統(tǒng)在其上應用提供了保障。

3.總結與展望

基于星際爭霸等游戲的機器學習和深度學習算法,使得游戲多智能體能夠進行合作,以達到人類玩家微操的效果,這種強化學習以及遷移學習的方法,在Atari視頻游戲,RTS戰(zhàn)略游戲,MOBA對戰(zhàn)游戲上的可行性得到了初步的證明。

MMORPG游戲,特別是魔獸世界,在即時戰(zhàn)略系統(tǒng)上也可以使用相同的原理,基于魔獸世界插件的開放接口,可以將該訓練模型用于魔獸團隊戰(zhàn)略插件系統(tǒng)中。

這樣的一次嘗試將機器學習訓練系統(tǒng)運用到MMORPG游戲中,這將進一步肯定AI算法在游戲中的應用,將有利于創(chuàng)造更完善的游戲AI系統(tǒng),增加更智能的Boss體,以及更加智能的戰(zhàn)斗游戲策略,以此來提高游戲體驗。

以上

這篇文章是寫在2018年的12月,雖然已經(jīng)過去三年時間,但從現(xiàn)在看AI的熱度仍然只增不減,AI對于MMORPG游戲的應用仍在探索階段。近階段比較火熱的“元宇宙”概念,與MMORGP也有著千絲萬縷的關系。我堅信,MMORPG游戲也會借助“元宇宙”創(chuàng)造綻放出更加閃耀的光芒。

參 考 文 獻

  1. Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.
  1. V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518(7540), pp. 529-533, 2015.
  2. Peng Peng, Quan Yuan, Ying Wen, Yaodong Yang, Zhenkun Tang, Haitao Long, Jun Wang, “Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games,”, (1) Alibaba Group, (2) University College London, 2017.
  3. Kun Shao, Yuanheng Zhu, Dongbin Zhao, “StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning,”,IEEE, 2018.
  4. Oriol Vinyals, Timo Ewalds, Sergey Bartunov, Petko Georgiev, Alexander Sasha Vezhnevets, Michelle Yeo, Alireza Makhzani, Heinrich Küttler, John Agapiou, Julian Schrittwieser, John Quan, Stephen Gaffney, Stig Petersen, Karen Simonyan, Tom Schaul, Hado van Hasselt, David Silver, Timothy Lillicrap, Kevin Calderone, Paul Keet, Anthony Brunasso, David Lawrence, Anders Ekermo, Jacob Repp, Rodney Tsing, “StarCraft II: A New Challenge for Reinforcement Learning,”, 2017.
  5. 陳釔似.基于機器學習的游戲智能系統(tǒng)研究與應用[D].電子科技大學.2017
  6. 鄭其寶.人工智能影響下數(shù)字游戲智能化發(fā)展探究[D].南京藝術學院.2016
  7. 常迎春.基于分層時序記憶算法的游戲人工智能的異常檢測[D].河北工業(yè)大學.2015
  8. 姜文軍.網(wǎng)絡游戲中人工智能的研究及應用[D].上海交通大學.2012
  9. http://www.infoq.com/cn/articles/atari-reinforcement-learning
  10. https://blog.csdn.net/mydear_11000/article/details/51488118
  11. http://baijiahao.baidu.com/s?id=1566325283820033&wfr=spider&for=pc
  12. https://www.nextbigfuture.com/2014/12/deep-learning-and-deep-reinforcement.html

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定