DeepMind官博詳解AI打星際爭霸:靠戰(zhàn)略水平 而非手速

    人工智能
    2019
    01/26
    23:05
    新浪科技
    分享
    評論

    北京時(shí)間今日凌晨,谷歌母公司Alphabet旗下人工智能公司DeepMind與暴雪聯(lián)合直播最新AI程序“AlphaStar”與《星際爭霸2》職業(yè)選手比賽實(shí)況錄像,并讓AlphaStar和人類選手現(xiàn)場進(jìn)行一盤比賽。AlphaStar在實(shí)況錄像中的10場均獲勝,而在與人類選手現(xiàn)場比賽時(shí)不敵人類,因此最終總成績定格在10-1。

    在直播開始之際,DeepMind在官方博客上詳細(xì)解釋了打造AlphaStar的全過程。DeepMind團(tuán)隊(duì)認(rèn)為,盡管《星際爭霸》只是一款游戲,但不失為一款較為復(fù)雜的游戲。AlphaStar背后的技術(shù)可以用來解決其他的問題。在天氣預(yù)報(bào)、氣候建模、語言理解等等領(lǐng)域,以及研究開發(fā)安全穩(wěn)定的人工智能方面,都會(huì)有很大幫助。

    以下為DeepMind文章主要內(nèi)容:

    在過去幾十年里,人類一直用游戲測試評估AI系統(tǒng)。隨著技術(shù)的進(jìn)步,科學(xué)界尋找復(fù)雜的游戲,深入研究智力的方方面面,看看如何才能解決科學(xué)問題和現(xiàn)實(shí)問題。許多人認(rèn)為,《星際爭霸》是最有挑戰(zhàn)的RTS(實(shí)時(shí)戰(zhàn)略)游戲之一,也是有史以來電子競技領(lǐng)域最古老的游戲之一,它是AI研究的“大挑戰(zhàn)”。

    現(xiàn)在我們推出一個(gè)可以操作《星際爭霸2》游戲的程序,名叫AlphaStar,它是一個(gè)AI系統(tǒng),成功打敗了世界頂級職業(yè)玩家。12月19日,我們舉行了測試比賽,AlphaStar打敗了Team Liquid戰(zhàn)隊(duì)的Grzegorz "MaNa" Komincz,他是世界最強(qiáng)的職業(yè)玩家之一,以5比0獲勝,之前AlphaStar已經(jīng)打敗同隊(duì)的Dario “TLO” Wünsch。比賽是按照職業(yè)標(biāo)準(zhǔn)進(jìn)行的,使用天梯地圖,沒有任何游戲限制。

    在游戲領(lǐng)域,我們已經(jīng)取得一系列成功,比如Atari、Mario、《雷神之錘3:競技場》多人奪旗、Dota 2。但是AI技術(shù)還是無法應(yīng)付復(fù)雜的《星際爭霸》。想拿到好結(jié)果,要么是對游戲系統(tǒng)進(jìn)行重大調(diào)整,對游戲規(guī)則進(jìn)行限制,賦予系統(tǒng)超人一般的能力,或者讓它玩一些簡單地圖。即使做了修改,也沒有系統(tǒng)可以與職業(yè)玩家一較高下。AlphaStar不一樣,它玩的是完整版《星際爭霸2》,用深度神經(jīng)網(wǎng)絡(luò)操作,網(wǎng)絡(luò)已經(jīng)用原始游戲數(shù)據(jù)訓(xùn)練過,通過監(jiān)督式學(xué)習(xí)和強(qiáng)化式學(xué)習(xí)來訓(xùn)練。

    《星際爭霸》游戲的挑戰(zhàn)

    《星際爭霸2》由暴雪娛樂制作,是一款單位眾多的多層次宇宙科幻游戲,在設(shè)計(jì)上非常挑戰(zhàn)人工智能。與前作一樣,《星際爭霸2》也是游戲史上最宏大和成功的游戲,已有20余年的電競聯(lián)賽歷史。

    該游戲玩法眾多,但電競中最常見的是1對1對戰(zhàn),五局三勝制。開始時(shí),玩家從人類、星靈和異蟲三個(gè)種族中人選一個(gè)進(jìn)行操作,每個(gè)種族都有獨(dú)特的特點(diǎn)、能力(機(jī)關(guān)專業(yè)選手會(huì)專注于一個(gè)種族)。開局時(shí),每個(gè)玩家都有一些“農(nóng)民”來采集資源和建造建筑,解鎖新科技。這也讓玩家可以收集新的資源,建造更復(fù)雜的基地和建筑,研發(fā)新科技以勝過對手。要取得勝利,玩家必須仔細(xì)平衡宏觀經(jīng)濟(jì)管理,即宏觀經(jīng)濟(jì),和每個(gè)單位的控制,即微操。

    這就需要平衡短期和長期目標(biāo),還要應(yīng)對意外情況,整個(gè)系統(tǒng)因而經(jīng)常變得脆弱僵硬。處理這些問題需要在下列若干人工智能領(lǐng)域解決挑戰(zhàn),取得突破:

    - 游戲理論:《星際爭霸》是個(gè)游戲,就想剪刀石頭布一樣,沒有單一最佳戰(zhàn)略。因此人工智能訓(xùn)練過程中需不斷探索和擴(kuò)展最戰(zhàn)略知識前沿。

    - 瑕疵信息:不同于國際象棋或圍棋那種一覽無余的狀態(tài),星際玩家無法直接觀察到重要信息,必須積極探索“探路”。

    - 長期規(guī)劃:和許多現(xiàn)實(shí)世界中的問題并非是從“因”立即生“果”一樣,游戲是可以從任何一個(gè)地方開始,需要1個(gè)小時(shí)時(shí)間出結(jié)果,這意味著在游戲開始時(shí)的行動(dòng)可能在很長一段時(shí)間不會(huì)有收效。

    - 即時(shí)性:不像傳統(tǒng)桌面游戲,玩家輪流行動(dòng),星際玩家必須在游戲時(shí)間內(nèi)持續(xù)排兵布陣。

    - 龐大的行動(dòng)空間:要同時(shí)控制上百個(gè)單位及建筑,這就導(dǎo)致了大量的可能性,行動(dòng)是分級別的,可以被修改和擴(kuò)張。我們將游戲參數(shù)化后,每個(gè)時(shí)間步驟平均約有10到26個(gè)合理行為。

    由于上述的大量挑戰(zhàn),《星際爭霸》成為了人工智能研究中的“大挑戰(zhàn)”。自從2009年《母巢之戰(zhàn)》應(yīng)用參數(shù)界面問世后,圍繞《星際爭霸》和《星際爭霸2》開展了眾多人工智能競賽。

    AlphaStar與MaNa的第二場比賽可視化動(dòng)圖。人工智能的視角,原始觀測輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)內(nèi)部活動(dòng),一些人工智能考慮可采取的行動(dòng),如單擊哪里或在哪里建造,以及預(yù)測結(jié)果。MaNa的視角也在其中,但人工智能看不見他的視角。  AlphaStar與MaNa的第二場比賽可視化動(dòng)圖。人工智能的視角,原始觀測輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)內(nèi)部活動(dòng),一些人工智能考慮可采取的行動(dòng),如單擊哪里或在哪里建造,以及預(yù)測結(jié)果。MaNa的視角也在其中,但人工智能看不見他的視角。

    AlphaStar如何觀察游戲以及玩游戲的

    職業(yè)玩家TLO和MaNa的APM可以達(dá)到數(shù)百,現(xiàn)有機(jī)器人高出很多,它們可以獨(dú)立控制每一個(gè)單位,持續(xù)維持幾千甚至幾萬的APM。

    對決TLO和MaNa時(shí),AlphaStar的平均APM約為280,比職業(yè)玩家低,但它的動(dòng)作更精準(zhǔn)一些。為什么APM會(huì)低一些?主要是因?yàn)锳lphaStar是用錄像訓(xùn)練的,因此它會(huì)模擬人類玩法。還有,AlphaStar在觀察和行動(dòng)之間平均會(huì)有350ms的延遲。

    AlphaStar在APM和延遲方面與人類玩家的比較AlphaStar在APM和延遲方面與人類玩家的比較

    對決時(shí),AlphaStar借助原始界面與《星際爭霸》游戲引擎交流,也就是說,它可以直接觀察地圖上的我方單位和敵方可見單位,不需要移動(dòng)攝像頭。如果是人類玩家,注意力有限,必須調(diào)整攝像頭,讓它瞄準(zhǔn)應(yīng)該關(guān)注的地方。分析AlphaStar游戲能發(fā)現(xiàn),它有一個(gè)隱藏的注意力焦點(diǎn)。平均來說,游戲代理每分鐘會(huì)切換環(huán)境約30次,和MaNa、TLO的頻率差不多。

    比賽之后,我們開發(fā)了第二版AlphaStar。和人類玩家一樣,這個(gè)版本的AlphaStar需要確定何時(shí)移動(dòng)攝像頭,應(yīng)該瞄準(zhǔn)哪里,對于屏幕信息,AI的感知受到限制,動(dòng)作位置也受到可視區(qū)域的限制。

    AlphaStar在使用原始界面和控制攝像頭時(shí),其MMR數(shù)據(jù)比較AlphaStar在使用原始界面和控制攝像頭時(shí),其MMR數(shù)據(jù)比較

    我們訓(xùn)練了兩個(gè)代理,一個(gè)使用原始界面,一個(gè)學(xué)著控制攝像頭。兩個(gè)代理最開始時(shí)都用人類數(shù)據(jù)進(jìn)行監(jiān)督式和增強(qiáng)式訓(xùn)練。使用攝像頭界面的AlphaStar幾乎和使用原始界面的AlphaStar一樣強(qiáng)大,在內(nèi)部排行榜上達(dá)到7000 MMR(天梯積分)。在演示比賽中,MaNa用攝像頭界面打敗了原型版AlphaStar,但它只訓(xùn)練了7天。我們希望能在近期內(nèi)評估精煉的攝像頭界面AlphaStar。

    事實(shí)證明,AlphaStar與MaNa和TLO對決時(shí)之所以占據(jù)上風(fēng),主要是因?yàn)樗暮暧^戰(zhàn)略、微觀戰(zhàn)略決策能力更強(qiáng),靠的不是超級點(diǎn)擊率、超快響應(yīng)時(shí)間、原始界面。

    AlphaStar與職業(yè)玩家的較量

    《星際爭霸》這款游戲包含三大外星種族:人類、星靈和異蟲。玩家可以從中選擇一個(gè)族類開始游戲。目前,我們僅針對星靈一族對AlphaStar進(jìn)行了訓(xùn)練,以減少訓(xùn)練時(shí)間和差異。值得一提的是,相同的訓(xùn)練模式可以也應(yīng)用到其他兩個(gè)種族的訓(xùn)練上。經(jīng)過訓(xùn)練的代理可以在《星際爭霸2》(v4.6.2)的CatalystLE天梯地圖中,實(shí)現(xiàn)星靈族與星靈族的較量。

    為評估AlphaStar的表現(xiàn),團(tuán)隊(duì)最初測試了代理對弈玩家TLO(一位頂級職業(yè)異蟲玩家和大師級星靈玩家)的表現(xiàn)。AlphaStar以5:0的戰(zhàn)績獲勝,對弈過程中AlphaStar靈活使用了大量單位和建造命令。

    “代理的強(qiáng)大水平令我驚訝,”TLO表示,“AlphaStar將眾所周知的策略融會(huì)貫通。代理運(yùn)用的策略,也是我之前從未想到過的。也就是說對于這個(gè)游戲,我們或許還有很多玩法沒有探索出來。”

    對我們的代理繼續(xù)訓(xùn)練了一周之后,我們讓代理與另一名玩家MaNa進(jìn)行較量。MaNa不僅是世界頂級的《星際爭霸2》玩家,也是排名前十的最擅長使用星靈族的玩家之一。AlphaStar再次以5:0的戰(zhàn)績獲勝,體現(xiàn)了強(qiáng)大的微觀和宏觀策略技能。

    “AlphaStar在每局游戲中采用的操作和不同策略十分令人印象深刻,近乎人類選手般的游戲策略出乎我的意料,”MaNa說,“我這才意識到,自己之前的策略過分依賴失誤和人類反應(yīng)力,因此這場比賽讓我對游戲有了全新的認(rèn)識。我們很期待未來的無限可能。”

    AlphaStar和其他復(fù)雜問題

    盡管《星際爭霸》只是一款游戲,但不失為一款較為復(fù)雜的游戲。我們認(rèn)為,AlphaStar背后的技術(shù)可以用來解決其他的問題。比如,它的神經(jīng)網(wǎng)絡(luò)架構(gòu)可以基于不完美的信息,對長時(shí)間序列中的可能行為進(jìn)行建模——因?yàn)橐痪钟螒蛲ǔiL達(dá)1個(gè)多小時(shí)且涉及成千上萬次動(dòng)作。《星際爭霸》的每一幀都是輸入的一個(gè)動(dòng)作,神經(jīng)網(wǎng)絡(luò)在每一幀動(dòng)作之后都會(huì)對接下來的游戲發(fā)展進(jìn)行預(yù)測。根據(jù)較長的數(shù)據(jù)序列進(jìn)行復(fù)雜的預(yù)測,是很多現(xiàn)實(shí)世界挑戰(zhàn)中的基本問題,比如天氣預(yù)報(bào)、氣候建模、語言理解等等。AlphaStar項(xiàng)目的學(xué)習(xí)和發(fā)展對幫助這些領(lǐng)域取得顯著進(jìn)展的可能性,值得期待。

    我們還認(rèn)為,團(tuán)隊(duì)的一些訓(xùn)練方法或可有助于研究開發(fā)安全穩(wěn)定的人工智能。人工智能的一大挑戰(zhàn)是,系統(tǒng)出錯(cuò)的方式各種各樣。先前,《星際爭霸》的職業(yè)玩家可以通過各種新穎方式誘導(dǎo)代理失誤,輕易擊敗AI系統(tǒng)。AlphaStar采用的基于league模式的創(chuàng)新訓(xùn)練方式,可以找到最可靠、最不容易出錯(cuò)的方式。這一創(chuàng)新方式對改進(jìn)整體AI系統(tǒng)(尤其是在諸如能源等安全至上、且解決復(fù)雜邊緣案例十分關(guān)鍵的領(lǐng)域)的安全性和穩(wěn)定性的前景亦值得期待。

    實(shí)現(xiàn)最高水平的《星際爭霸》對弈代表了人工智能在有史以來最復(fù)雜電子游戲中取得的重大突破。我們相信,這些進(jìn)展,以及AlphaZero和AlphaFold等項(xiàng)目的其他進(jìn)展,代表著我們在創(chuàng)建人工智能系統(tǒng)之路上的又一大前進(jìn)。未來終有一日,智能系統(tǒng)將幫助人類解鎖解決世界上一些最重要、最基本之科學(xué)問題的創(chuàng)新方式。

    【來源:新浪科技】

    THE END
    廣告、內(nèi)容合作請點(diǎn)擊這里 尋求合作
    ai
    免責(zé)聲明:本文系轉(zhuǎn)載,版權(quán)歸原作者所有;旨在傳遞信息,不代表砍柴網(wǎng)的觀點(diǎn)和立場。

    相關(guān)熱點(diǎn)

    最后直播的一場比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MANA進(jìn)行比賽,讓人類終于贏了一場。最終總成績定格在10-1。
    業(yè)界
    近日,在《麻省理工科技評論》、DeepTech深科技聯(lián)合主辦的“全球新興科技峰會(huì)”后,英偉達(dá)副總裁Kimberly Powell(金佰利·鮑威爾)接受了包括第一財(cái)經(jīng)在內(nèi)的媒體采訪。
    業(yè)界
    中國人工智能學(xué)會(huì)、國家工信安全中心、華夏幸福產(chǎn)業(yè)研究院等四大權(quán)威機(jī)構(gòu)、歷史半年完成的重磅報(bào)告,給你一個(gè)全新的角度了解中國AI產(chǎn)業(yè)和學(xué)術(shù)的創(chuàng)新現(xiàn)狀。
    人工智能
    近日, LG在2019 CES消費(fèi)電子大展上推出可卷曲式OLED電視。
    家電
    人臉識別、語音助手、智能識圖、AI美顏、智慧識屏、隨行翻譯……2018年以來,手機(jī)行業(yè)搭載AI技術(shù)的新賣點(diǎn)層出不窮,究竟哪些才是最常使用的功能?哪些功能是徒增成本、并無實(shí)用的“花瓶”?
    人工智能
    最新文章

    相關(guān)推薦

    1
    3
    主站蜘蛛池模板: 精品无码人妻一区二区三区18| 日韩人妻不卡一区二区三区| 精品国产免费一区二区三区香蕉| 国精产品一区一区三区| 亚洲午夜一区二区三区| 中文字幕色AV一区二区三区| 色一情一乱一伦一区二区三区| 精品无码人妻一区二区免费蜜桃| 免费一区二区三区在线视频| 毛片一区二区三区| 国产一区二区三区乱码网站| 国产在线不卡一区二区三区| 中文字幕日本一区| 一区二区三区影院| 亚洲国产一区明星换脸| 精品乱码一区内射人妻无码 | 亚洲熟妇av一区| 精品久久久久久中文字幕一区| 熟女性饥渴一区二区三区| 日本精品一区二区三区在线视频| 日韩美女视频一区| 视频一区二区精品的福利| 美女视频免费看一区二区| 日本一区二区高清不卡| 日韩一区二区精品观看| 动漫精品专区一区二区三区不卡| 色一乱一伦一区一直爽| 日本中文一区二区三区亚洲| 一区二区三区四区在线播放| 亚洲第一区精品观看| 久久免费精品一区二区| 香蕉免费一区二区三区| ...91久久精品一区二区三区| 国内精品一区二区三区东京 | 久久中文字幕无码一区二区| 在线电影一区二区| 国产美女露脸口爆吞精一区二区 | 久久久国产精品亚洲一区 | 精品人体无码一区二区三区| 国模少妇一区二区三区| 久久精品国产AV一区二区三区|