據國外媒體報道,人工智能技術越來越厲害,近日,一款名為“Pluribus”的人工智能撲克機器玩家在頗受歡迎的“德州撲克”游戲中擊敗了人類頂級職業撲克手。這是人工智能程軟件首次在超過兩名玩家的游戲中擊敗人類精英玩家。
這款撲克機器玩家的開發者,包括美國卡耐基梅隆大學團隊以及社交網絡公司Facebook旗下的人工智能研究團隊。
據國外媒體報道,美國紐約大學研究游戲和人工智能的學者朱利安·滕力思(Julian Togelius)表示:“雖然從兩名玩家增加到六名似乎是漸進的,但這實際上是一件大事。多人游戲是目前正在研究的其他人工智能游戲中一個空白的領域。”
據悉,撲克機器玩家Pluribus的開發團隊過去已經開發了一款名為Libratus的人工智能軟件,它在雙人撲克比賽中擊敗了專業人士。隨后,團隊通過升級Libratus構建了Pluribus,并創建了一個只需要更少計算能力就能玩比賽的人工智能機器玩家。
在為期12天的訓練中,這個機器玩家在一萬多手撲克游戲中打敗了15名頂尖的人類選手。
美國內基梅隆大學的諾姆·布朗(Noam Brown)和Facebook公司下屬的紐約人工智能研究所表示:“許多人工智能研究人員曾經認為,用我們的技術不可能做到這一點。”
實際上,越來越多的人工智能軟件已經涉足了人類游戲中,比如上述撲克機器玩家Libratus,以及谷歌機器學習公司DeepMind的圍棋玩家。在兩個玩家的零和游戲中,這些人工智能玩家被證明是難以戰勝的。
在這些場景中,總是有一個贏家和一個輸家,博弈論提供了一個明確的最佳策略。
但博弈論對于涉及多個利益沖突方、且沒有明確的贏輸條件的情形就沒有那么有用了——這些情況反映了現實生活中的大多數挑戰。
布朗表示,通過解決多人撲克游戲,Pluribus為未來人工智能解決這類復雜問題奠定了基礎。他認為他們的成功是邁向自動化談判、更好的欺詐檢測和自動駕駛汽車等復雜應用的一步。
技術復雜性
為了解決六人撲克游戲的問題,布朗和一位同事從根本上改進了Libratus的搜索算法。大多數人工智能游戲玩家會通過決策樹向前搜索,以在給定的情況下做出最佳的移動。比如,Libratus軟件在選擇動作之前會搜索到游戲的結束。
但額外玩家帶來的復雜性使得這種策略不切實際。撲克需要使用隱藏的信息來進行推理,玩家必須制定出一個策略,考慮對手手中可能有什么牌,下一步會怎么出牌。
但是更多的玩家使得在任何特定時刻選擇一個動作變得更加困難,因為這涉及到評估更多可能性。
關鍵的突破是開發出一種方法,讓人工智能玩家Pluribus能夠在只看后續幾個牌不是比賽結束后做出正確的選擇。
Pluribus使用一種類似DeepMind公司人工智能圍棋玩家的的強化學習形式,從零開始自學。它從隨機地玩撲克開始,計算出哪個動作贏得更多的錢而改進。每手牌結束后,它都會回顧自己的玩法,并檢查如果采取不同的選項,看它是否能賺到更多的錢。如果替代方案能帶來更好的結果,那么未來更有可能選擇這一方案。
通過與自己對弈數萬億張牌,Pluribus創造了一種基本策略,可以在比賽中使用。在每個決策點,它都會將游戲的狀態與自己的藍圖進行比較,并提前搜索一些步驟,然后決定是否可以改進它。由于它自學了在沒有人類輸入的情況下玩游戲,人工智能獲得一些人類玩家通常不會使用的撲克策略。
AI效率
Pluribus的成功很大程度上歸功于它的運行效率。當進行撲克游戲時,它只運行在兩個中央處理器。相比之下,DeepMind最初的圍棋玩家在首次擊敗頂級專業人士時,使用了近2000個處理器, Libratus使用了100個處理器。
當與自己對弈時,Pluribus在大約20秒內就能打出一只手——大約是專業玩家速度的兩倍。
事實證明,游戲是衡量人工智能進步的一種很好的方式,因為機器人可以在與頂尖人類的比賽中得分,而且如果它們獲勝,還能被客觀上譽為超人。但是布朗認為人工智能的發展已經超出了他們的游戲范圍。他說:“這一次是撲克比賽中最后的挑戰。”
但是滕力思認為人工智能研究人員和游戲還有很長的路要走。他說:“還有很多未開發的領域。”很少有人工智能能夠掌握一種以上的游戲,這需要綜合能力而不是特定技能。
滕力思表示,不僅僅是玩現有的游戲,“設計游戲也是一個巨大的人工智能挑戰領域。”