평균의 법칙과 이항분포, 그리고 베팅 시스템의 진실까지 살펴봤던 지난 챕터 5에서는 중요한 사실 하나를 배웠습니다. “확률이 변하지 않는 게임에서는, 어떤 전략도 결국 기대값을 바꿀 수 없다.” 그렇다면 이제 질문을 바꿔야겠죠. “상대가 있는 게임에서는, 어떻게 전략을 세워야 할까?”
『The Mathematics of Games and Gambling』 챕터 6는 바로 이 질문에 답합니다.
이번에는 확률의 세계를 넘어서 게임이론(Game Theory)의 세계로 들어갑니다. 상대가 있는 상황에서, 나의 선택이 어떻게 달라져야 하는지를 수학적으로 분석하는 도구죠.
단순한 도박 기술을 넘어, 현대 경제학과 정치학, 심지어 인공지능 연구까지 영향을 준 이론입니다. 그 영향력은 어마어마합니다. 실제로 1994년 존 내시(John Nash), 존 하사니(John Harsanyi), 라인하르트 젤텐(Reinhard Selten)은 게임이론 분석에 대한 공로로 노벨 경제학상을 수상하기도 했습니다. 카지노 수학, 게임 이론과 함께 이제 전략의 수학으로 넘어갈 시간입니다.
이론 파트: 협상이냐, 배신이냐
죄수의 딜레마, 카지노판 인간 심리 실험
책은 아주 유명한 이야기로 게임이론을 설명합니다. 바로 ’죄수의 딜레마(prisoner’s dilemma)’입니다. 둘이 함께 강도짓을 했는데 붙잡혔어요. 따로 조사받는 상황에서 다음 두 가지 선택이 주어집니다.
- 둘 다 자백하면: 둘 다 중형 (-4)
- 둘 다 침묵하면: 가벼운 무기 소지 혐의로 짧은 형 (-1)
- 한 명만 자백하면: 자백자는 석방(10), 침묵자는 모든 죄 뒤집어씀(-6)
수학적으로는 자백이 지배 전략입니다. 상대가 침묵하든 자백하든, 자백하는 편이 더 나아요. 그래서 결국 둘 다 자백하고 -4씩 형량을 받는 구조가 됩니다. 하지만 이게 최선일까요?
아니죠. 둘 다 침묵하면 -1밖에 안 되니까요. 하지만 상대가 자백할까 봐 나도 자백하는 구조, 이것이 바로 ’딜레마’입니다.
포커와 죄수의 딜레마
이 구조는 포커에서도 자주 등장합니다.
예를 들어, 나와 상대가 모두 강한 패를 갖고 있는 상황을 가정해보죠. 이때 블러핑을 할지 말지, 콜을 할지 폴드를 할지 고민하게 됩니다.
- 둘 다 블러핑하지 않으면 작은 팟을 두고 안전하게 승부가 납니다.
- 한 쪽이 블러핑하고, 상대가 폴드하면 블러핑한 쪽은 큰 이득을 봅니다.
- 둘 다 블러핑하면? 누군가는 큰 손해를 보게 되죠.
즉, 서로 신뢰할 수 없다면 나도 블러핑을 해야만 하는 상황이 만들어지고, 결국 손해를 보더라도 블러핑을 고르는 전략이 지배 전략이 됩니다. 죄수의 딜레마 구조와 흡사하죠.
반복 게임과 상호작용의 전략
책에서는 죄수의 딜레마가 여러 번 반복된다면 협력이 가능해진다고 설명합니다. 상대이 배신을 하는지 여부를 보며 다음 판에 보복할 수 있기 때문에, 장기적 관계를 고려한 협력이 유지될 수 있습니다. 이는 ‘눈에는 눈, 이에는 이(Tit for Tat)’ 같은 전략입니다. 상대가 나를 속이면 나도 다음 판에서 보복하고, 협력하면 나도 협력하는 방식이죠. 포커에서 상대의 블러핑 빈도를 기억해 대응하는 것 역시 이런 반복 게임 전략의 실제 응용입니다. 하지만 이는 끝이 정해지지 않은 반복 게임, 즉 언제 끝날지 모르는 상황에서의 얘기입니다.
만약, 횟수가 명확하게 정해져 있는 반복 게임을 보죠. 총 15판으로 끝나는 게임이라면 어떨까요?
- 마지막 판에는 상대의 보복이 없기 때문에, 대부분의 플레이어는 배신을 선택합니다.
- 이 사실을 안 상대는 그 전 판에서도 배신을 고려하게 되고…
- 이런 식으로 역으로 계산하다 보면 결국 처음부터 전부 배신이 유일한 합리적 선택이 됩니다.
이걸 후방 귀납법(backward induction)이라고 합니다. 즉, 끝이 정해진 반복 게임에서는 협력이 무너질 수밖에 없다는 점을 보여주는 논리입니다.
이렇게 게임 이론은 협력 가능성은 반복의 구조에 따라 달라진다고 설명합니다.
게임 이론의 확장성: 정치 그리고 AI
1) 과반수 게임과 미국 의회
게임이론은 도박만이 아니라, 정치 시스템 분석에도 쓰입니다.
예를 들어 미국 상하원과 대통령의 법안 통과 구조를 분석할 때, 가중 투표 게임(weighted voting game)이라는 개념을 사용합니다.
가중 투표 게임은 투표자마다 다른 투표권(가중치)을 부여하고, 특정 기준(할당량)을 넘어야 승리하는 게임입니다. 미국 입법 과정을 이 게임에 대입하면 다음과 같이 볼 수 있습니다.
- 플레이어: 하원 (435명), 상원 (100명), 대통령 (1명)
- 가중치: 각각의 투표권 수 (435, 100, 1)
- 승리 조건: 하원, 상원, 대통령 세 플레이어 모두 동의해야 법안 통과 (즉, 승리)
여기서 중요한 점은 이 게임이 모든 플레이어가 동의해야만 이길 수 있는 컨정션 게임(conjunction game)이라는 겁니다. 하원 435명과 상원 100명이 아무리 만장일치로 통과시킨다 해도, 대통령이 거부권(veto)을 행사하면 법안은 통과되지 못합니다. 이 구조 때문에 대통령의 1표는 단순히 1/536(435+100+1)의 비중을 갖는 것이 아니라 사실 1/270 정도의 비중을 갖는다고 합니다.
2) AI는 컴퓨터는 게임을 어떻게 배울까?
책에서는 또 흥미로운 게임이론의 예를 보여줍니다. 바로 컴퓨터가 게임을 배우는 법, 즉 AI와 게임이론의 만남입니다.
HEXPAWN 게임으로 배우는 컴퓨터 학습
책은 간단한 체스형 게임인 HEXPAWN을 소개합니다. 3×3 보드에서 말 세 개씩을 가지고 움직이는 아주 단순한 게임이지만,
- 트리 구조로 승패를 분석하고,
- 각 노드마다 최선의 수를 기록하고,
- 잘못된 수를 피하면서 점점 학습합니다.
이런 방식으로 컴퓨터는 ‘지면서 배우는’ 전략을 스스로 구성해가며, 결국 완벽한 플레이어가 될 수 있습니다.
HEXPAWN과 달리 체스는 너무 복잡해서, 25수 정도만 계산해도 10^75번의 경우를 따져야 합니다.
이런 복잡도 때문에 컴퓨터는 전체 트리 계산 대신 휴리스틱(heuristics)이라는 간략화된 전략 평가 기준을 사용합니다.
그 결과 체커, 체스, 바둑 같은 게임에서 컴퓨터는 인간을 이기기 시작했고, 게임이론은 AI의 학습 모델로까지 확장되었죠.
사람은 컴퓨터 만큼 많은 확률 계산을 빨리 하지 못한다는 점 이 점이 확률 계산을 할 줄 아는 것이 승패에 중요하단 것을 단적으로 보여줍니다.
FAQ: 게임이론과 도박에 대해 궁금한 것들
상대가 있는 도박 게임이라면 당연히요. 포커, 블러핑, 협상, 헤즈업 게임 등에서 핵심 이론이 됩니다.
블러핑, 콜, 폴드 같은 결정이 상대방의 선택과 엮여 있는 구조라면, 죄수의 딜레마와 비슷한 전략 선택이 요구됩니다. 반복적으로 상대의 스타일을 파악하고 대응하는 것도 게임이론 응용입니다.
’이번에 배신하면 다음 판에 나도 배신한다’는 식의 심리전이 가능해져서, 협력이 유지될 수 있습니다.
게임이론은 당신의 전략을 ‘예측 불가능하게’ 만들어줍니다. 예를 들어, 포커의 마지막 베팅 단계에서 당신이 ’진짜 좋은 패’와 ’블러핑용 나쁜 패’를 동시에 가지고 있다고 가정해 보세요. 이때 게임이론은 ’진짜 좋은 패로 베팅하는 빈도’와 ’나쁜 패로 블러핑하는 빈도’를 수학적으로 계산해줍니다. 이렇게 섞인 전략(Mixed Strategy)을 사용하면 상대는 당신의 베팅이 좋은 패 때문인지, 아니면 블러핑 때문인지 예측할 수 없게 됩니다.
네, 있습니다. 게임이론에 따르면 블러핑은 무턱대고 하는 것이 아닙니다. 상대가 콜을 하든 폴드를 하든 무차별하게 만드는 특정 빈도를 계산해 블러핑해야 합니다. 예를 들어, 상대방의 베팅이 크고 팟(pot)이 커질수록 블러핑 빈도를 조절해야 하는 이유가 여기에 있습니다. 이는 ’블러핑 밸런스’를 맞추는 핵심 원리가 됩니다.
마무리
게임이론은 단순히 수학의 영역이 아니라, 사람의 심리, 전략, 협력, 배신까지 모두 포괄하는 강력한 분석 도구입니다. 다음 포스트에서는 『The Mathematics of Games and Gambling』의 마지막 챕터인 Chapter 7을 소개할 예정입니다. 이번엔 복권, 경마, 파산 이론 등 다양한 도박 케이스를 수학으로 분석해볼 거예요. 카지노 수학의 마지막 비밀, 함께 파헤쳐 보시죠.