红菊直播官方版-红菊直播免费版app下载-红菊直播永久免费版下载

網(wǎng)站首頁
手機(jī)版

150美元成本,實(shí)力可掏空在線撲克公司!AI玩多人德?lián)鋼魯№敿壨婕?/h2>

更新時(shí)間:2024-08-06 22:13作者:小樂

人工智能終于開始掌握人類的一些獨(dú)特能力,而且它比它的老師更好地發(fā)揮這些能力。

要在撲克中獲勝,您需要利用一件事:狡猾。為了獲勝,玩家必須分析對手如何打牌,然后誘騙他們交出籌碼。當(dāng)然,這種狡猾是人類的本能。

現(xiàn)在,人工智能程序首次被證明能夠使用類似的技能來欺騙人類職業(yè)撲克玩家。

最近,F(xiàn)acebook與卡內(nèi)基梅隆大學(xué)合作開發(fā)的新型人工智能系統(tǒng)Pluribus在全球最受歡迎和廣泛使用的撲克游戲:六人無限注德州撲克中擊敗了人類頂級職業(yè)玩家。

Pluribus 在“5 AI + 1 人類玩家”和“1 AI + 5 人類玩家”兩種模式下都擊敗了職業(yè)玩家。這是人工智能首次在超過兩名玩家(或兩支球隊(duì))的大規(guī)模基準(zhǔn)比賽中擊敗頂尖職業(yè)選手。

此前,人工智能技術(shù)已經(jīng)能夠僅用一個(gè)對手就擊敗人類撲克大師。但與Pluribus 一樣,在多人游戲中擊敗人類精英玩家是一個(gè)關(guān)鍵的里程碑。

Pluribus 通過基于Libratus 的多項(xiàng)創(chuàng)新以及卡內(nèi)基梅隆大學(xué)研究實(shí)驗(yàn)室Tuomas Sandholm 開發(fā)的附加算法和代碼實(shí)現(xiàn)了這一結(jié)果。

Libratus 是2017 年在兩人無限注德州撲克中擊敗人類職業(yè)選手的人工智能。特別是,Pluribus 使用了一種新的在線搜索算法,只需之前的幾個(gè)步驟即可有效評估其下注選項(xiàng),而無需搜索直到比賽結(jié)束。 Pluribus 還使用一種新的、更快的自玩算法來玩包含隱藏信息的游戲。

托馬斯·桑德霍姆

更令人驚訝的是,這些進(jìn)步可以使用很少的處理能力和內(nèi)存(相當(dāng)于不到150 美元的云計(jì)算資源)來訓(xùn)練Pluribus。這種效率與最近的其他人工智能里程碑項(xiàng)目形成鮮明對比,這些項(xiàng)目需要相當(dāng)于數(shù)百萬美元的計(jì)算資源進(jìn)行培訓(xùn)。

撲克中的這些創(chuàng)新意義重大,因?yàn)閮蓚€(gè)人之間的零和互動(一名玩家獲勝,一名玩家失?。┰谛蓍e游戲中很常見,但在現(xiàn)實(shí)生活中很少見。

在現(xiàn)實(shí)世界中,針對有害內(nèi)容采取行動、應(yīng)對網(wǎng)絡(luò)安全挑戰(zhàn)以及管理在線拍賣或?qū)Ш搅髁客ǔI婕岸鄠€(gè)參與者和多層隱藏信息。多人交互對過去的人工智能技術(shù)提出了嚴(yán)峻的理論和實(shí)踐挑戰(zhàn)。然而,現(xiàn)在的結(jié)果表明,人工智能算法可以在兩人零和游戲之外實(shí)現(xiàn)非凡的性能。

它有能力掏空在線撲克公司

研究人員通過與一群精英人類專業(yè)人士競爭來評估Pluribus。職業(yè)選手包括2000年世界撲克系列賽主賽事冠軍Chris“耶穌”弗格森、2012年世界撲克系列賽主賽冠軍Greg Merson等。每位參賽選手此前都在牌桌上贏得了超過100萬美元的獎金,其中一些贏得了超過100萬美元的獎金。 1000萬美元。

戰(zhàn)斗形式有兩種:五名職業(yè)玩家和一名人工智能,以及一名職業(yè)玩家和五名人工智能副本。在每種賽制中,牌桌上都有6 名玩家,每手牌起始籌碼為10,000 個(gè)。小盲注為50 個(gè)籌碼,大盲注為100 個(gè)籌碼。

雖然撲克是一種技巧游戲,但也有很大的運(yùn)氣成分。對于頂級職業(yè)選手來說,僅僅因?yàn)檫\(yùn)氣不好而輸?shù)粢蝗f手牌是很常見的。為了減少運(yùn)氣的作用,研究人員使用AIVAT方差縮減算法來評估結(jié)果。例如,如果機(jī)器人有一手非常強(qiáng)的牌,AIVAT 將從其獎金中減去基線值以抵消運(yùn)氣成分。

在“5個(gè)職業(yè)玩家+1個(gè)AI”實(shí)驗(yàn)中,玩了10000手游戲,持續(xù)了12天。每天從專業(yè)人士中選出五名志愿者參與。官方將根據(jù)球員的表現(xiàn)獎勵5萬美元,以激勵他們發(fā)揮最佳水平。使用AIVAT 后,Pluribus 的勝率估計(jì)為每100 手5 個(gè)大盲注(5 bb/100),這是對精英人類的壓倒性勝利(有利可圖,p 值為0.021)。如果每個(gè)籌碼價(jià)值1 美元,Pluribus 平均每手可贏得5 美元,每小時(shí)可賺取1,000 美元。這個(gè)成績超出了職業(yè)選手在與職業(yè)和業(yè)余選手的混合比賽中獲勝的預(yù)期。

在“5 AI + 1職業(yè)玩家”模式中,三名志愿者參與,每位人類玩家和5個(gè)Pluribus副本玩了5000手。 Pluribus 不會根據(jù)對手的情況調(diào)整策略,因此不存在AI 之間故意串通的問題。總體而言,人類損失了2.3 bb/100(每100 手牌2.3 個(gè)大盲注)。

Pluribus 的算法是如此成功。幫助開發(fā)該算法的Facebook 研究員諾姆·布朗(Noam Brown) 表示:“這對于撲克社區(qū)來說可能非常危險(xiǎn)。”他今年被評為《麻省理工科技評論》 35 歲以下技術(shù)創(chuàng)新者之一。

“你經(jīng)??梢哉业綄κ值娜觞c(diǎn),但卻找不到(其)弱點(diǎn),”游戲中的撲克職業(yè)選手賈森·萊斯(Jason Les) 說道。 “人工智能太強(qiáng)大了,你找不到任何可以利用或利用的機(jī)會?!?

研究人員擔(dān)心Pluribus 可能會被用來充實(shí)在線德州撲克公司的金庫,因此決定不發(fā)布其代碼。目前,F(xiàn)acebook 沒有計(jì)劃實(shí)施為六人撲克開發(fā)的技術(shù)。

六人德州撲克的兩項(xiàng)挑戰(zhàn)

幾十年來,撲克游戲一直是人工智能領(lǐng)域的一項(xiàng)艱巨而重要的挑戰(zhàn)。

這是因?yàn)閾淇擞螒虬[藏信息,你不知道對手的牌,獲勝需要虛張聲勢等策略,這與國際象棋、圍棋等游戲不同。這也是人工智能技術(shù)在其他游戲中取得突破,卻無法突破撲克的原因。撲克游戲本質(zhì)上對人工智能技術(shù)具有抵抗力。

具體來說,六人德州撲克始終面臨兩大挑戰(zhàn)。

第一個(gè)挑戰(zhàn)是德州撲克不僅僅是兩個(gè)玩家之間的零和游戲。

以往人工智能突破的所有標(biāo)桿游戲都僅限于只有兩名玩家或兩支隊(duì)伍的零和游戲,例如跳棋、國際象棋、圍棋、兩人撲克、星際爭霸2和Dota 2。在這些情況下,人工智能之所以成功,是因?yàn)樗捎昧艘环N稱為納什均衡的策略。在兩個(gè)玩家或兩個(gè)團(tuán)隊(duì)之間的零和博弈中,精確的納什均衡是這樣的:無論對手做什么,都不可能輸(例如石頭剪刀布的納什均衡策略就是隨機(jī)選擇石頭、布或剪刀的概率相同)。

盡管納什均衡存在于任何游戲中,但在具有三個(gè)或更多對手玩家的游戲中,通常不可能有效地計(jì)算納什均衡。此外,在多人游戲中,即使是精確的納什均衡策略也可能會失敗。一個(gè)例子是《Lemonade Stand》游戲,每個(gè)玩家同時(shí)在圓環(huán)上占據(jù)一席之地,并嘗試與其他玩家保持盡可能遠(yuǎn)的距離。納什均衡是指所有玩家在擂臺上的距離相等,但有無數(shù)種方法可以實(shí)現(xiàn)這一點(diǎn)。如果每個(gè)玩家獨(dú)立計(jì)算其中一個(gè)平衡點(diǎn),那么所有玩家最終不太可能在環(huán)上等距。

檸檬水?dāng)傆螒?

在兩名以上玩家的零和博弈中,納什均衡的缺陷讓研究人員思考:這樣的博弈中正確的目標(biāo)應(yīng)該是什么?以六人德州撲克為例,研究人員認(rèn)為,目標(biāo)不應(yīng)該是特定的博弈論解決方案,而是通過長期的經(jīng)驗(yàn)創(chuàng)造出能夠擊敗人類對手甚至專業(yè)人士的人工智能。

在超過兩名玩家的零和博弈中,研究人員用來構(gòu)建Pluribus 的算法不能保證收斂到納什均衡。盡管如此,Pluribus 的策略在六人撲克游戲中始終擊敗了人類精英撲克專家。

第二大挑戰(zhàn)是信息隱藏在更復(fù)雜的環(huán)境中。

沒有其他游戲像撲克一樣體現(xiàn)隱藏信息的挑戰(zhàn),其中每個(gè)玩家都擁有其他玩家缺乏的信息。一個(gè)成功的撲克人工智能必須推理出這些隱藏的信息,并仔細(xì)平衡其策略,以保持不可預(yù)測性,同時(shí)仍能很好地選擇下一步行動。例如,虛張聲勢有時(shí)可能有效,但一直虛張聲勢會預(yù)測對手的手牌,并可能導(dǎo)致?lián)p失很多錢。因此,有必要仔細(xì)權(quán)衡一個(gè)人詐唬的概率和他下注的概率。換句話說,在不完全信息博弈中,一個(gè)動作的價(jià)值取決于選擇該動作的概率以及選擇其他動作的概率。

相比之下,在完美信息博弈中,玩家不需要擔(dān)心平衡每一步棋的概率。例如,在國際象棋中,無論被選中的概率如何,好的一步都是好的。

之前的撲克游戲機(jī)器人Libratus通過將基于反事實(shí)遺憾最小化(CFR)理論的完美自玩算法與精心構(gòu)建的不完全信息博弈搜索過程相結(jié)合,處理兩人德州撲克等游戲中的隱藏信息。然而,向德州撲克添加更多玩家會成倍增加游戲的復(fù)雜性。這些先前的技術(shù)不能擴(kuò)展到六人德州撲克?,F(xiàn)在,Pluribus 正在使用新技術(shù)來更好地應(yīng)對這一挑戰(zhàn)。

Pluribus 培訓(xùn)費(fèi)用不到150 美元

Pluribus 策略的核心是通過自我對弈來計(jì)算,其中人工智能與自身的副本進(jìn)行對戰(zhàn),而不使用任何人類游戲數(shù)據(jù)作為輸入。 AI通過隨機(jī)游戲從頭開始,逐步完善。它記錄了游戲采取的行動,以及這些行動的概率分布,然后在與早期版本的策略戰(zhàn)斗中獲得更好的輸出。 Pluribus 中使用的self-play 版本是迭代蒙特卡羅CFR (MCCFR) 算法的修改版本。

在算法的每次迭代中,MCCFR 指定一個(gè)玩家作為“遍歷者”,其當(dāng)前策略在迭代期間更新。在迭代開始時(shí),MCCFR 根據(jù)所有玩家當(dāng)前的策略(最初是完全隨機(jī)的)模擬一手撲克牌。模擬完成后,算法會檢查遍歷者做出的每個(gè)決定,并研究如果選擇其他可用操作之一,它是否會做得更好或更差。接下來,人工智能根據(jù)可用行動評估每個(gè)假設(shè)決策的價(jià)值,依此類推。

在八天內(nèi),研究人員在64 核服務(wù)器上訓(xùn)練了Pluribus 的藍(lán)圖策略,需要不到512 GB 的內(nèi)存并且不使用GPU。典型的云計(jì)算成本估算表明培訓(xùn)成本低于150 美元。這與人工智能項(xiàng)目最近取得的其他突破形成鮮明對比,這些項(xiàng)目通常需要花費(fèi)數(shù)百萬美元進(jìn)行培訓(xùn)。

玩德州撲克時(shí),Pluribus 在兩個(gè)CPU 上運(yùn)行。相比之下,AlphaGo 在2016 年與頂級圍棋職業(yè)選手李世石的實(shí)時(shí)搜索中使用了1,920 個(gè)CPU 和280 個(gè)GPU。此外,Pluribus 使用的內(nèi)存不到128 GB。 Pluribus 搜索每只手所需的時(shí)間在1 秒到33 秒之間,具體取決于情況。平均而言,Pluribus 的速度是典型人類職業(yè)選手的兩倍:在六人德州撲克中與自身的副本對戰(zhàn)時(shí),每手牌需要20 秒。

Pluribus 和職業(yè)玩家的游戲界面

從撲克游戲到現(xiàn)實(shí)不完全信息游戲的挑戰(zhàn)

此前,人工智能在完全信息的兩人零和博弈中取得了一系列令人矚目的成功。但現(xiàn)實(shí)世界中的大多數(shù)戰(zhàn)略互動都涉及隱藏信息,并不是兩方之間的零和博弈。 Pluribus的成功表明,在大規(guī)模、復(fù)雜的多人游戲中,精心構(gòu)建的自對弈搜索算法盡管缺乏強(qiáng)大的性能和理論保證,仍然可以取得成功。

Pluribus 的另一個(gè)不同尋常之處在于,它的訓(xùn)練和運(yùn)行成本遠(yuǎn)低于基準(zhǔn)游戲中使用的其他最新人工智能系統(tǒng)。此前,一些領(lǐng)域?qū)<覔?dān)心,未來的人工智能研究將由擁有數(shù)百萬美元計(jì)算資源的大型團(tuán)隊(duì)主導(dǎo)。 Pluribus 有力地證明,現(xiàn)在有理由相信,只需要少量資源的新方法就可以推進(jìn)尖端人工智能研究。

Tuomas Sandholm 和Noam Brown 開發(fā)的計(jì)算機(jī)程序在2017 年的錦標(biāo)賽中擊敗了四名職業(yè)撲克玩家

盡管Pluribus 是為玩撲克而開發(fā)的,但它使用的技術(shù)并不是撲克專用的,并且不需要開發(fā)任何專門的領(lǐng)域知識。這項(xiàng)研究讓我們對如何構(gòu)建通用人工智能有了更好的基本了解。此外,Pluribus 在牌桌上擊敗多個(gè)對手的技術(shù)可能有助于AI 社區(qū)在各個(gè)領(lǐng)域制定有效的策略。

為您推薦

什么是區(qū)域衛(wèi)星導(dǎo)航系統(tǒng)(區(qū)域衛(wèi)星定位導(dǎo)航定位)

區(qū)域衛(wèi)星導(dǎo)航系統(tǒng)僅可在一定區(qū)域內(nèi)實(shí)現(xiàn)導(dǎo)航定位。如我國的北斗一號衛(wèi)星導(dǎo)航系統(tǒng),其作用范圍為我國國土范圍和周邊地區(qū)。目前,國內(nèi)外已經(jīng)建成或正在建設(shè)的區(qū)域衛(wèi)星導(dǎo)航系統(tǒng)有日本的準(zhǔn)天頂衛(wèi)星服務(wù)系統(tǒng)(QZSS)和印度的區(qū)域衛(wèi)星導(dǎo)航系統(tǒng)(IRNSS).以

2024-08-06 22:12

大數(shù)據(jù)“掃黃”將啟動?符合4個(gè)特征就需留意,你可能“涉黃”了

大數(shù)據(jù)技術(shù)現(xiàn)如今已經(jīng)廣泛應(yīng)用到我們的生活當(dāng)中了,比如說我們在網(wǎng)購平臺上買東西,我們點(diǎn)外賣和地圖導(dǎo)航,其實(shí)這里面都缺少不了大數(shù)據(jù)的應(yīng)用,甚至可以說是大數(shù)據(jù)讓我們的生活更加便利,讓互聯(lián)網(wǎng)更加服務(wù)于我們的世界了。當(dāng)然弊端也是有的,最大的弊端就是,

2024-08-06 22:12

AI玩多人德?lián)鋼魯№敿壨婕遥?50美元,實(shí)力可掏空在線撲克公司,在線德?lián)溆心男?/a>

人工智能終于開始掌握人性中一些獨(dú)特的能力,并且比它的老師玩得還好。 要想在撲克中獲勝,就需要利用這樣一項(xiàng)能力:狡猾。為了獲勝,玩家必須分析對手如何出牌,然后欺騙他們交出手中的籌碼。當(dāng)然,這種狡詐對人來說很自然?,F(xiàn)在,人工智能程序首次表現(xiàn)出能

2024-08-06 22:11

二十載守初心功在不舍 東航云南OCC變遷記(東航云南公司機(jī)隊(duì))

圖:新的OCC大廳,明亮如新民航資源網(wǎng)2019年10月12日消息:暑運(yùn)旺季剛過,東航云南公司克服了臺風(fēng)“利奇馬”、長水機(jī)場改擴(kuò)建及省內(nèi)極端天氣頻發(fā)等不利因素,整個(gè)旺季航班關(guān)艙門正點(diǎn)率提升至90.24%,較去年同比增長21.71%,如何能在如

2024-08-06 22:11

三變遷 東航云南運(yùn)行升級(東航云南公司航線)

暑運(yùn)旺季剛過,東航云南公司克服了臺風(fēng)“利奇馬”、長水機(jī)場改擴(kuò)建及省內(nèi)極端天氣頻發(fā)等困難,整個(gè)旺季航班關(guān)艙門正點(diǎn)率提高至90.24%,較去年同比增長21.71%。如何能在復(fù)雜的局面下取得兩位數(shù)的增長?這主要是得益于今年3月開始啟用的運(yùn)行及客戶

2024-08-06 22:10

MBA的報(bào)考要求及流程,mba怎么報(bào)考流程

上次分享了我為什么要考MBA、MBA如何擇校、MBA的大致考試流程,詳情在這篇《本科生年入百萬的康莊大道》里。今天我來分享一下MBA的報(bào)考要求、提前面試、申請流程及材料準(zhǔn)備~一,MBA報(bào)考條件和要求1)國家承認(rèn)本科學(xué)歷的畢業(yè)生,大學(xué)本科畢業(yè)

2024-08-06 22:10

加載中...