顛覆圍棋后,培養(yǎng)出“直覺”的人工智能又攻陷了德州撲克
在太平洋這頭的中國,谷歌旗下DeepMind研發(fā)的阿爾法狗(AlphaGo)剛剛披著“Master”的馬甲戰(zhàn)勝了“當(dāng)今圍棋第一人”柯潔,宣告著人工智能在圍棋領(lǐng)域的勝出,在太平洋那頭的加拿大,人類在德州撲克領(lǐng)域也要失守了?來自加拿大和捷克的10位科學(xué)家近日在預(yù)印本網(wǎng)站arXiv上載了一篇題為《DeepStack:無限注德?lián)涞膶I(yè)級(jí)人工智能玩家》的論文,介紹了一種能在一對(duì)一無限注德州撲克中擊敗人類玩家的新算法DeepStack。
在過去的20年里,我們見證了許多游戲領(lǐng)域在人工智能面前紛紛“淪陷”,比如西洋雙陸棋、跳棋、國際象棋和圍棋。人工智能在這些領(lǐng)域發(fā)揮的難度,主要取決于這些游戲需要作出的決策點(diǎn)(decision points)數(shù)量。一盤圍棋游戲約包含有10的170次方個(gè)決策點(diǎn)。
但是,圍棋等棋類游戲是完美信息游戲,也就是說,所有玩家在游戲中能獲得的確定性信息是對(duì)稱的。但除此之外,人類生活中還要面臨更多非完美信息的情景,正如計(jì)算機(jī)之父馮·諾依曼所說,“現(xiàn)實(shí)世界與此不同,現(xiàn)實(shí)世界包含有很多賭注、一些欺騙的戰(zhàn)術(shù),還涉及你會(huì)思考別人會(huì)認(rèn)為你將做什么?!?/p>
德州撲克就是這樣一種包含了欺騙、推測的非完美信息游戲,玩家只能掌握自己手上的牌,通過這種非對(duì)稱的信息與對(duì)手進(jìn)行博弈。
因此,雖然一對(duì)一無限注德?lián)溆螒蛑邪?0的160次方個(gè)決策點(diǎn),要少于圍棋,但它對(duì)人工智能的推理能力提出了更高的要求。
在過去,研究人員往往采用一種壓縮型的策略來開發(fā)算法,即通過把原始版本游戲中的設(shè)計(jì)和行為轉(zhuǎn)移到一個(gè)被壓縮了的情境下推理。但在壓縮的過程中,信息會(huì)出現(xiàn)丟失,造成此前人工智能從未在撲克領(lǐng)域擊敗人類玩家。
而這個(gè)加拿大和捷克的合作團(tuán)隊(duì)開發(fā)的新算法DeepStack,則注重培養(yǎng)人工智能出牌時(shí)的“直覺”。在運(yùn)用深度學(xué)習(xí),反復(fù)自我博弈之后,DeepStack學(xué)會(huì)了在每一個(gè)具體情境出現(xiàn)時(shí)進(jìn)行推理。這非常接近人類玩家的“牌感”,即在當(dāng)前情境下對(duì)個(gè)人牌面大小的感覺,并作出相應(yīng)的決策。
該團(tuán)隊(duì)邀請(qǐng)了來自17個(gè)國家的33名專業(yè)撲克選手挑戰(zhàn)DeepStack,在2016年11月7日到12月12日之間共進(jìn)行了44852次較量。DeepStack成為了首個(gè)在一對(duì)一無限注德?lián)渲袘?zhàn)勝人類玩家的人工智能,并且平均勝率達(dá)到了492mbb/g(milli-big-blinds per game,一般職業(yè)玩家認(rèn)為50mbb/g是個(gè)門檻)。
(原標(biāo)題:顛覆圍棋后,培養(yǎng)出“直覺”的人工智能又攻陷了德州撲克)
來源:吳曉曼