AI 포커 봇 vs 프로 포커 플레이어

“멀티 플레이어 포커를 해결함으로써 미래의 AI가 이러한 유형의 복잡한 문제를 처리 할 수있는 기반을 마련했습니다.”라고 Brown은 말합니다.
그는 그들의 성취가 자동화 된 토론, 더 나은 사기 탐지 및 자율 주행 자동차와 같은 소프트웨어에 대한 측정이라고 믿습니다.
그러나 Togelius는 그럼에도 불구하고 AI 연구원과 경기에 마일리지가 있다고 믿습니다. “미개척지가 아주 많다”고 그는 말합니다.
시장 능력이 아닌 전체 능력이 필요한 한 게임을 마스터 한 AI는 거의 없습니다. 그리고 단순히 성냥을 즐기는 것 이상이 있다고 Togelius는 말합니다.

많은 게임의 AI는 의사 결정 트리를 통해 특정 상황에서 최선의 움직임을 추구합니다. Libratus는 행동을 결정하기 전에 경기가 끝날 때까지 사냥했습니다.
중요한 돌파구는 Pluribus가 게임의 끝을 향하는 대신 몇 가지 움직임을 내다 본 후 훌륭한 결정을 내릴 수 있는 방법을 만드는 것이었습니다.
Pluribus 뒤에 있는 그룹은 2인 포커에서 전문가를 물리친 Libratus라는 AI를 구축했습니다. Libratus를 업그레이드 하여 Pluribus를 구성하고 게임을 플레이하는 데 훨씬 적은 컴퓨팅 성능을 필요로 하는 봇을 생성했습니다. Pluribus의 성공은 주로 그 효능에 달려 있습니다. 자신과 대결한 후 Pluribus는 약 20분 만에 핸드 플레이를 수행합니다. 이는 프로 선수들보다 약 2배 빠른 속도입니다. 그러나 추가 플레이어와 함께 도입된 복잡성으로 인해 이 전략은 비실용적입니다. 포커는 숨겨진 정보에 대한 정당성을 필요로합니다.
게이머는 경쟁자가 가질 수 있는 카드와 이전 게임의 결과를 기반으로 경쟁자가 손에서 생각할 수 있는 카드를 고려하여 계획을 세워야합니다. 그러나 새로운 게이머는 더 많은 기회를 분석해야하기 때문에 주어진 시간에 액션을 선택하기가 더 어려워집니다.
기계는 지분을 다시 한 번 증가 시켰습니다. Pluribus라는 이름의 AI 포커 봇이 포커 게임에서 가장 인기있는 형태 인 6인 노 리밋 텍사스홀덤(온라인홀덤) 포커에서 최고의 포커 전문가를 물리 쳤습니다. 인공 지능 (AI) 애플리케이션이 플레이어가 2명 이상인 게임에서 엘리트 인간 플레이어를 물리 친 것은 이번이 처음입니다.

로봇은 선도적인 사람들과는 반대로 플레이 할 수 있으며 성공하면 초인적인 사람으로 칭송받을 수 있기 때문에 게임은 AI의 진행 상황을 정량화하는 훌륭한 방법을 보여주었습니다.
인간 게임을 마스터한 추가 AI(예:Libratus 및 DeepMind의 Go-playing 로봇)는 2인용 제로섬 경기에서 무적임을 입증했습니다. 이러한 상황에서는 항상 1명의 승자와 1명의 패자가 있으며 게임 이론은 잘 정의 된 최상의 접근 방식을 제공합니다.
게임과 AI를 분석하는 New York University의 Julian Togelius는 “게이머가 2명에서 6명으로 이동하는 것은 점진적으로 보일 수 있지만 정말 엄청난 일입니다.” 라고 말합니다. 멀티 플레이어 부분은 연구되는 다른 경기에서 모두 존재하지 않는 부분입니다.

Pluribus는 DeepMind의 AI 인 AlphaZero에서 활용하는 것과 매우 유사한 일종의 강화 학습을 사용하여 처음부터 스스로 교육합니다. 포커로 게임을 시작하면 어떤 활동이 더 많은 현금을 획득 할 수 있는지가 향상됩니다. 매 핸드마다, 그것은 수행한 방식으로 되돌아 가서 베팅을 고수하는 대신 레이즈와 같은 다양한 활동으로 더 많은 돈을 벌 었는지 평가합니다. 선택이 더 나은 결과로 이어질 때 앞으로 주제를 선택하는 경향이 더 커질 것입니다. Pluribus는 자체적으로 수조 개의 포커 핸드를 즐기면서 게임에서 활용할 수있는 간단한 계획을 세웠습니다. 모든 결정 지점에서 청사진을 사용하여 경기 조건을 대조하고 몇 가지 움직임을 추적하여 작업 수행 방식을 결정합니다. 그런 다음 개선 할 수 있는지 여부를 결정합니다. 그리고 인간의 입력없이 수행하도록 스스로를 배웠기 때문에 AI는 인간 플레이어가 일반적으로 사용하지 않는 몇 가지 접근 방식에 정착했습니다.