红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網站首頁
手機版

AI玩多人德撲擊敗頂級玩家!150美元,實力可掏空在線撲克公司(德撲人工智能)

更新時間:2024-03-22 14:03作者:小樂

人工智能終于開始掌握人類的一些獨特能力,而且它比它的老師更好地發(fā)揮這些能力。

要在撲克中獲勝,您需要利用一件事:狡猾。為了獲勝,玩家必須分析對手如何打牌,然后誘騙他們交出籌碼。當然,這種狡猾是人類的本能?,F在,人工智能程序首次被證明能夠使用類似的技能來欺騙人類職業(yè)撲克玩家。

最近,Facebook與卡內基梅隆大學合作開發(fā)的新型人工智能系統(tǒng)Pluribus擊敗了世界上最流行、最廣泛的撲克游戲——德州撲克。人類頂級職業(yè)選手。 Pluribus 在“5 AI + 1 人類玩家”和“1 AI + 5 人類玩家”模式中都擊敗了職業(yè)玩家。這是人工智能機器人首次在超過兩名玩家(或兩支球隊)的大型基準游戲中擊敗頂尖職業(yè)選手。

此前,人工智能技術已經能夠僅用一個對手就擊敗人類撲克大師。但在像Pluribus 這樣的多人游戲中擊敗人類精英玩家是關鍵的里程碑。

Pluribus 通過基于Libratus 的多項創(chuàng)新以及卡內基梅隆大學研究實驗室Tuomas Sandholm 開發(fā)的附加算法和代碼實現了這一成果。 Libratus 是2017 年在2 人無限注德州撲克中擊敗人類職業(yè)選手的人工智能。特別是,Pluribus 使用了一種新的在線搜索算法,只需之前的幾個步驟即可有效評估其下注選項,而無需進行搜索直到比賽結束。 Pluribus 還使用一種新的、更快的自玩算法來玩包含隱藏信息的游戲。

圖丨Tuomas Sandholm(來源:卡內基梅隆大學)

更令人驚訝的是,這些進步可以使用很少的處理能力和內存(相當于不到150 美元的云計算資源)來訓練Pluribus。這種效率與最近的其他人工智能里程碑項目形成鮮明對比,這些項目需要相當于數百萬美元的計算資源進行培訓。

撲克中的這些創(chuàng)新意義重大,因為兩個人之間的零和互動(一名玩家獲勝,一名玩家失?。┰谛蓍e游戲中很常見,但在現實生活中很少見。在現實世界中,針對有害內容采取行動、應對網絡安全挑戰(zhàn)以及管理在線拍賣或導航流量通常涉及多個參與者和多層隱藏信息。多人交互對過去的人工智能技術提出了嚴峻的理論和實踐挑戰(zhàn)。然而,現在的結果表明,人工智能算法可以在兩人零和游戲之外實現非凡的性能。

圖片| Seth Davies,職業(yè)撲克玩家(來源:Facebook)

它削弱了在線撲克公司的力量。研究人員通過與一組精英人類專業(yè)人士對戰(zhàn)來評估Pluribus。職業(yè)玩家包括2000年世界撲克系列賽主賽事冠軍Chris“耶穌”Ferguson、2012年世界撲克系列賽主賽事冠軍Greg Merson等。每位參賽玩家此前都在牌桌上贏得了超過100萬美元的獎金,其中一些贏得了超過100萬美元的獎金。 1000萬美元。

戰(zhàn)斗形式有兩種:五名職業(yè)玩家和一名人工智能,以及一名職業(yè)玩家和五名人工智能副本。在每種賽制中,牌桌上都有6 名玩家,每手牌起始籌碼為10,000 個。小盲注為50 個籌碼,大盲注為100 個籌碼。

雖然撲克是一種技巧游戲,但也有很大的運氣成分。對于頂級職業(yè)選手來說,僅僅因為運氣不好而輸掉一萬手牌是很常見的。為了減少運氣的作用,研究人員使用AIVAT方差縮減算法來評估結果。例如,如果機器人有一手非常強的牌,AIVAT 將從其獎金中減去基線值以抵消運氣成分。

在5個職業(yè)玩家+1個AI的實驗中,玩了12天,玩了10000手游戲。每天從專業(yè)人士中選出五名志愿者參與。官方將根據球員的表現獎勵5萬美元,以激勵他們發(fā)揮最佳水平。使用AIVAT 后,Pluribus 的勝率估計為每100 手5 個大盲注(5 bb/100),這是對精英人類的壓倒性勝利(有利可圖,p 值為0.021)。如果每個籌碼價值1 美元,Pluribus 平均每手可贏得5 美元,每小時可賺取1,000 美元。這個成績超出了職業(yè)選手在與職業(yè)和業(yè)余選手的混合比賽中獲勝的預期。

5 AI + 1 職業(yè)玩家模式,由3 名志愿者玩,每個人類玩家5000 手,5 個Pluribus 副本。 Pluribus 不會根據對手的情況調整策略,因此不存在AI 之間故意串通的問題??傮w而言,人類損失了2.3 bb/100(每100 手牌2.3 個大盲注)。

Pluribus 的算法是如此成功。幫助開發(fā)該算法的Facebook 研究員諾姆·布朗(Noam Brown) 表示:“這對于撲克社區(qū)來說可能非常危險。”他今年被評為《麻省理工科技評論》 35 歲以下技術創(chuàng)新者之一。

“你經常可以找到對手的弱點,但卻找不到(其)弱點,”游戲中的撲克職業(yè)選手賈森·萊斯(Jason Les) 說道。 “人工智能太強大了,你找不到任何可以利用或利用的機會。”

研究人員擔心Pluribus 可能會被用來充實在線德州撲克公司的金庫,因此決定不發(fā)布其代碼。目前,Facebook 沒有計劃實施為六人撲克開發(fā)的技術。

六人德州撲克的兩大挑戰(zhàn)幾十年來一直是人工智能領域的一項艱巨而重要的挑戰(zhàn)。

這是因為撲克游戲包含隱藏信息,你不知道對手的牌,獲勝需要虛張聲勢等策略,這與國際象棋、圍棋等游戲不同。這也是人工智能技術在其他游戲中取得突破,卻無法突破撲克的原因。撲克游戲本質上對人工智能技術具有抵抗力。

具體來說,六人德州撲克始終面臨兩大挑戰(zhàn)。

第一個挑戰(zhàn)是德州撲克不僅僅是兩個玩家之間的零和游戲。

以往人工智能突破的所有標桿游戲都僅限于只有兩名玩家或兩支隊伍的零和游戲,例如跳棋、國際象棋、圍棋、兩人撲克、星際爭霸2和Dota 2。在這些情況下,人工智能之所以成功,是因為它采用了一種稱為納什均衡的策略。在兩個玩家或兩個團隊之間的零和博弈中,精確的納什均衡是這樣的:無論對手做什么,都不可能輸(例如石頭剪刀布的納什均衡策略是隨機選擇石頭、布或剪刀的概率相同。剪刀)。

盡管納什均衡存在于任何游戲中,但在具有三個或更多對手玩家的游戲中,通常不可能有效地計算納什均衡。此外,在多人游戲中,即使是精確的納什均衡策略也可能會失敗。一個例子是《Lemonade Stand》游戲,每個玩家同時在圓環(huán)上占據一席之地,并嘗試與其他玩家保持盡可能遠的距離。納什均衡是指所有玩家在擂臺上的距離相等,但有無數種方法可以實現這一點。如果每個玩家獨立計算其中一個平衡點,那么所有玩家最終不太可能在環(huán)上等距。

圖丨Lemonade Stand 游戲(來源:Facebook)

在兩名以上參與者的零和博弈中,納什均衡的缺陷讓研究人員思考:這樣的博弈中正確的目標應該是什么?以六人德州撲克為例,研究人員認為,目標不應該是特定的博弈論解決方案,而是通過長期經驗創(chuàng)造出一種能夠擊敗人類對手甚至專業(yè)人士的人工智能。

在超過兩名玩家的零和博弈中,研究人員用來構建Pluribus 的算法不能保證收斂到納什均衡。盡管如此,Pluribus 的策略在六人撲克游戲中始終擊敗了人類精英撲克專家。

第二大挑戰(zhàn)是信息隱藏在更復雜的環(huán)境中。

沒有其他游戲像撲克一樣體現隱藏信息的挑戰(zhàn),其中每個玩家都擁有其他玩家缺乏的信息。一個成功的撲克人工智能必須推理出這些隱藏的信息,并仔細平衡其策略,以保持不可預測性,同時仍能很好地選擇下一步行動。例如,虛張聲勢有時可能有效,但一直虛張聲勢會預測對手的手牌,并可能導致損失很多錢。因此,有必要仔細權衡一個人詐唬的概率和他下注的概率。換句話說,在不完全信息博弈中,一個動作的價值取決于選擇該動作的概率以及選擇其他動作的概率。

相比之下,在完美信息博弈中,玩家不需要擔心平衡每一步棋的概率。例如,在國際象棋中,無論被選中的概率如何,好的一步都是好的。

之前的撲克游戲機器人Libratus通過將基于反事實遺憾最小化(CFR)理論的完美自玩算法與精心構建的不完全信息游戲搜索過程相結合來處理兩人德州撲克游戲中的隱藏信息。然而,向德州撲克添加更多玩家會成倍增加游戲的復雜性。這些先前的技術不能擴展到六人德州撲克?,F在,Pluribus 正在使用新技術來更好地應對這一挑戰(zhàn)。

Pluribus 的培訓費用不到150 美元。 Pluribus 策略的核心是通過自我對弈來計算,其中人工智能與自身的副本進行對戰(zhàn),而不使用任何人類游戲數據作為輸入。 AI通過隨機游戲從頭開始,逐步完善。它記錄了游戲采取的行動,以及這些行動的概率分布,然后在與早期版本的策略戰(zhàn)斗中獲得更好的輸出。 Pluribus 中使用的self-play 版本是迭代蒙特卡羅CFR (MCCFR) 算法的修改版本。

在算法的每次迭代中,MCCFR 指定一個玩家作為“遍歷者”,其當前策略在迭代期間更新。在迭代開始時,MCCFR 根據所有玩家當前的策略(最初是完全隨機的)模擬一手撲克牌。模擬完成后,算法會檢查遍歷者做出的每個決定,并研究如果選擇其他可用操作之一,它是否會做得更好或更差。接下來,人工智能根據可用行動評估每個假設決策的價值,依此類推。

在八天內,研究人員在64 核服務器上訓練了Pluribus 的藍圖策略,需要不到512 GB 的內存并且不使用GPU。典型的云計算成本估算表明培訓成本低于150 美元。這與人工智能項目最近取得的其他突破形成鮮明對比,這些項目通常需要花費數百萬美元進行培訓。

玩德州撲克時,Pluribus 在兩個CPU 上運行。相比之下,2016 年AlphaGo 在與頂級圍棋職業(yè)選手李世石的比賽中使用了1,920 個CPU 和280 個GPU 進行實時搜索。此外,Pluribus 使用的內存不到128 GB。 Pluribus 搜索每只手所需的時間在1 秒到33 秒之間,具體取決于情況。平均而言,Pluribus 的速度是典型人類職業(yè)選手的兩倍:在六人德州撲克中與自身的副本對戰(zhàn)時,每手牌需要20 秒。

圖丨Pluribus 與職業(yè)玩家的游戲界面(來源:Facebook)

從撲克游戲到現實的不完全信息博弈的挑戰(zhàn)此前,人工智能在完全信息的兩人零和博弈中取得了一系列令人矚目的成功。但現實世界中的大多數戰(zhàn)略互動都涉及隱藏信息,并不是兩方之間的零和博弈。 Pluribus的成功表明,在大規(guī)模、復雜的多人游戲中,精心構建的自對弈搜索算法盡管缺乏強大的性能和理論保證,仍然可以取得成功。

Pluribus 的另一個不同尋常之處在于,它的訓練和運行成本比基準游戲中使用的其他最新人工智能系統(tǒng)要低得多。此前,一些領域專家擔心,未來的人工智能研究將由擁有數百萬美元計算資源的大型團隊主導。 Pluribus 有力地證明,現在有理由相信,只需要少量資源的新方法就可以推進尖端人工智能研究。

圖丨Tuomas Sandholm 和Noam Brown 開發(fā)的計算機程序在2017 年的一場比賽中擊敗了四名職業(yè)撲克玩家(來源:互聯網)

盡管Pluribus 是為玩撲克而開發(fā)的,但它使用的技術并不是撲克專用的,并且不需要開發(fā)任何專門的領域知識。這項研究讓我們對如何構建通用人工智能有了更好的基本了解。此外,Pluribus 在牌桌上擊敗多個對手的技術可能有助于AI 社區(qū)在各個領域制定有效的策略。

為您推薦

二十載守初心功在不舍 三變遷運行升級東航云南公司OCC變遷記

暑運旺季剛過,東航云南公司克服了臺風“利奇馬”、長水機場改擴建及省內極端天氣頻發(fā)等不利因素,整個旺季航班關艙門正點率提升至90.24%,較去年同比增長21.71%。暑運旺季剛過,東航云南公司克服了臺風“利奇馬”、長水機場改擴建及省內極端天氣

2024-03-22 13:53

三變遷 東航云南運行升級(東航云南基地在哪)

暑運旺季剛過,東航云南公司克服了臺風“利奇馬”、長水機場改擴建及省內極端天氣頻發(fā)等困難,整個旺季航班關艙門正點率提高至90.24%,較去年同比增長21.71%。如何能在復雜的局面下取得兩位數的增長?這主要是得益于今年3月開始啟用的運行及客戶

2024-03-22 13:38

不花錢就能學到的MBA課程55(全面質量管理)

(全文約1萬8千字)上一篇給大家介紹盛田昭夫的阿米巴,后來很多人認為是對朱蘭和戴明全面質量管理的顛覆,今天沃將詳細介紹這個半個世紀被奉為經典的全面質量管理。二十世紀四十年代,人類在科學技術上獲得了巨大的突破,生產力水平得到了空前的發(fā)展和提高

2024-03-22 13:30

二十載守初心功在不舍 東航云南OCC變遷記(東航云南有限公司官網)

圖:新的OCC大廳,明亮如新民航資源網2019年10月12日消息:暑運旺季剛過,東航云南公司克服了臺風“利奇馬”、長水機場改擴建及省內極端天氣頻發(fā)等不利因素,整個旺季航班關艙門正點率提升至90.24%,較去年同比增長21.71%,如何能在如

2024-03-22 13:16

一張圖幫你講清楚MBA的課程體系

近些年國內讀個MBA已經很火爆,但是還是有部分人會問MBA是什么?作為12年行業(yè)經驗的專業(yè)咨詢,在這里從課程設置上為大家來分享一下。MBA誕生至今已有逾百年歷史,每年數以萬計的人畢業(yè)于全球各大商學院,成為出類拔萃的工商管理人才,領導著世界各

2024-03-22 13:04

MBA都有哪些課程??mba都有哪些課程可以選

MBA是工商管理碩士,全稱為工商管理類碩士研究生,要求理論與實踐相結合。MBA培養(yǎng)的是企業(yè)里的中高級管理層人物,因此學的東西涉及面相當的廣泛,包含了經濟學、管理學等諸多課程。那么,MBA課程都包括哪些內容呢?《MBA必讀12篇》為什么要提到

2024-03-22 12:48

加載中...