<pre id="co8k0"><cite id="co8k0"></cite></pre><strike id="co8k0"></strike>
  • <acronym id="co8k0"><cite id="co8k0"></cite></acronym>
  • <nav id="co8k0"></nav>
    <input id="co8k0"><em id="co8k0"></em></input>
  • 史詩級勝利:谷歌新AI在《星際爭霸2》中10比1大勝職業選手


    今日凌晨,DeepMind與暴雪進行了聯合直播,在直播中公布了谷歌最新AI程序AlphaStar與《星際爭霸2》職業選手此前的比賽結果,名為“AlphaStar”的人工智能在與兩位人類職業選手“TLO”和“MaNa”的比賽中,均以5比0取勝。

    最后直播的一場比賽中,DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MaNa進行比賽,讓人類終于贏了一場。最終總成績定格在10-1。

    這次比賽是在去年12月進行的。在與TLO的對決中,因為目前AlphaStar的訓練只針對神族,所以它選擇的是蟲族,而TLO只能選擇神族。TLO在5次對決中竭盡全力,可惜還是完敗給AlphaStar。

    接下來,另一個AlphaStar代理挑戰神族玩家MaNa。在一些對決中,雙方旗鼓相當,但是AlphaStar還是5戰全勝,零封MaNa。

    而在最后直播的一場比賽中,MaNa再次與新的AlphaStar代理對決,這次MaNa終于贏了一場。DeepMind限制了AlphaStar的游戲視角,并在沒有測試的前提下與MaNa進行比賽,因此讓人類終于贏了一場。最終總成績定格在10-1。

    賽后TLO評價說:“在我們看來,MaNa打得不好,相信我,與AlphaStar這樣的對手對決是一件很頭痛的事,因為AlphaStar與人類完全不同,你之前沒有碰到過這樣的對手。AlphaStar給人留下深刻印象,的確是空前強大的游戲AI。”

    在對戰中,AlphaStar展示了驚人的微操技藝。它可以讓受傷單元快速后撤,讓滿血單元前移。不只如此,AlphaStar還通過前進來控制戰斗節奏,只有在適當的時候才后退,避免造成過大傷害。美國科技網站ExtremeTech指出,AI之所以能做到這一點,靠的不是高APM(手速),事實上,與人類相比,AlphStar的APM低很多,只是AI的決策更明智。

    AI制定的一些戰略決策相當有趣。例如,AI經常命令部隊在坡道上沖鋒,這樣做很危險,因為向上沖時視野受限,不過AI的做法似乎很管用。還有,AlphaStar會用一堆建筑封住坡道,這種策略人類也經常使用,非常實用,AI會用這種方法保護自己的基地。

    直到最后的直播比賽,人類才找到代理的一個缺陷。當時,AlphaStar代理調集幾乎所有部隊攻打MaNa的基地,MaNa將幾個戰斗單元傳送到AlphaStar基地的后方,每次傳送之后,AlphaStar都會讓軍隊回頭營救,這樣MaNa就有了足夠的時間擴張部隊,反擊AI。

    最終,AlphaStar贏了職業玩家10次,只輸了1次。ExtremeTech認為,如果AlphaStar能從最后一局中汲取教訓,下一次將會無敵。

    AlphaGo的首席作者大衛席爾瓦(Dave Sliver)同時也是AlphaStar團隊的核心人物,在直播中分享了AlphaStar技術上的一些細節。不過直播中并未公布AlphaStar后續的正式比賽計劃。

    AlphaStar是一種卷積神經網絡。研發團隊用職業玩家的錄像訓練網絡,然后借助對戰模式,研究人員訓練AlphaStar,教它如何打敗人類。隨著時間的推移,研究人員挑選出5個最好的“代理”,讓它們與世界上了些最棒的《星際爭霸2》玩家對決。這樣訓練出來的AlphaStar積累了相當于200多年的實踐經驗。

    11月份,在Blizzcon大會上,DeepMind就曾表示,機器學習算法在游戲進行到大約一半時,就擊敗了瘋狂難度的游戲內置AI工具。

    現代競技游戲相當復雜,《星際爭霸》正是這樣一款游戲。玩家需要瞬間做出決策,比如應該關注哪個區域。一般來說,在決策過程中涉及到不完全信息,也就是說你無法完全知道對手正在做什么,也不知道接下來會面對什么。

    OpenAI的工程師唐杰(Jie Tang,音譯)說:“這類實時戰略游戲非常有趣,它是測試現代AI研究的好標準。”為什么這樣說呢?有幾個原因。首先就是“長期視野”,也就是做出決定、看到結果之間有著很長的時間。如果是國際象棋或者圍棋,通過分析棋盤上的變化就能馬上判斷效果。

    但《星際爭霸》不太一樣。唐杰說:“在一個小時的時間內,每一秒你都要做十個決定,所以有成千上萬的舉動你要考慮進去。所以你要好好分配,為什么我能贏得游戲?是不是因為我早早制造了礦工?這可是一個很難的問題。”

    從《星際爭霸1》到《星際爭霸2》,20年來有許多人在網上玩游戲,積累了大量數據。如果是象棋或者圍棋,數據沒有那么豐富。

    美國媒體Vox指出,在對決演示中,有些比賽持續的時間長一些,有時短一些,不過沒有一盤持續時間超過半小時,所以我們還無法看到AlphaStar在后期對決中的表現,這點也向我們證明,暫時還沒有誰能將AlphaStar拖入后期對決。

    實際上,AlphaStar不完美的地方還很多。例如,有時AlphaStar會建造一些無用單位,有時還會陷入困惑,在一場比賽中,AI圍著一個點來回游蕩,漫無目地,評論員看不懂。有些工具本可以使用,便是AI沒有用。無論怎樣,最終AI還是打敗了人類。

    與TLO對決之后,DeepMind又將AlphaStar回爐,再次訓練。經過14天的實時訓練之后,AlphaStar回歸,這次用聯賽模式對決,它積累了200年的游戲經驗,表現更加出色。在戰術上,AI沒有明顯失誤。對于人類觀察者來說,AI的決定并非總是有意義,但它沒有犯下明顯錯誤。這次對手換成MaNa,他也沒有犯下明顯錯誤,但是AI合兵散兵的能力仍然技高一籌,最終拿下比賽。

    唐杰說:“非常有趣,非常引人注目。有一樣東西是我非常期待的,那就是戰略對決機制。”一方面,AI要為游戲制定宏觀策略,另一方面,AI要通過執行一系列糟糕的策略而獲勝,在這兩方面,AlphaStar都做得不錯。唐杰說:“AlphaStar制定的高級策略與頂級人類玩家非常相似,另外,它的機制也很完美。”

    在10次對決中,AI告訴我們它有一個巨大優勢,這個優勢是人類欠缺的:凡是地圖上能看到的地方,AI都能一覽無余,而人類必須依賴攝像頭。

    DeepMind正在訓練新AlphaStar,讓它也操縱攝像頭。雖然最后一場AlphaStar輸給了MaNa,不過新AI只訓練了7天。最終AlphaStar會回到戰場,向人類“復仇”。

    早期AlphaStar有許多缺陷,這些缺陷與最初的AlphaGo有些相似。開始時AlphaGo也能贏,但是經常犯下人類可以察覺的錯誤。隨著優化的繼續,目前的AlphaZero不會再犯下人類可謂察覺的錯誤了。

    很明顯,AlphaStar仍然有很大的改進空間。AlphaStar之所以能戰勝人類,主要還是因為它的微操控制更棒。AI經常利用側面包抄和機動作戰打敗人類,之所以做到,靠的是單位控制,它一次可以指控5個戰斗單元,人類做不到。還有,從游戲看來,AI無法制定出可以在職業世界廣泛流行的策略,換言之,在制定最佳策略時,人類仍然勝過機器算法,AI只是尋找最適合自己的策略,將優勢發揮出來。雖然AI的APM和響應時間仍然處在人類觸及的范圍,但是AI的操作精準度更高,所以它在人類面前仍然有優勢,人類與AI對決,并不是很公平。

    還有一點要說的是,對戰5盤之后,MaNa會根據AlphaStar制定新策略,這是AI做不到的。

    Vox認為,不論怎樣,AI已經向我們證明,它知道如何佯攻,知道如何發動早期攻擊,知道如何應對伏擊,知道如何利用地形。這些都向我們證明:AI進步神速。

    而ExtremeTech指出,人類一直認為,對于我們自己創造的游戲,人類才是真正的主宰,不過計算機一次又一次證明,它才是高手。谷歌DeepMind開發的算法已經在圍棋上擊敗人類,現在又在《星際爭霸2》獲得成功。【責任編輯/古飛燕】

    (原標題:谷歌新AI在《星際爭霸2》首秀:10比1大勝職業選手)

    來源:新浪科技

    IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
    創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。

    相關文章
    史詩級勝利:谷歌新AI在《星際爭霸2》中10比1大勝職業選手

    精彩評論