洞见 | 就算是输给AI，也不能说人类丢掉了德州扑克的阵地

本文作者：谷磊

2017-04-06 20:01

导语：亚洲首度德州扑克人机大战——“冷扑大师V.S.中国龙之队”巅峰表演赛已经在海南生态软件园传奇智力运动馆开始，获胜方将获得200万人民币奖励

雷锋网4月6日消息，亚洲首度德州扑克人机大战——“冷扑大师V.S.中国龙之队”巅峰表演赛已经在海南生态软件园传奇智力运动馆开始，获胜方将获得200万人民币奖励。首日上半场，中国龙之队顺利按进度完成3600手牌，冷扑大师暂时领先中国龙之队14145筹码。因为每人单副手牌重置后的筹码量就有20000，所以这个差距非常的小。

冷扑大师和中国龙之队的介绍详见雷锋网报道：亚洲首度德州扑克人机对战即将开赌！| 附李开复演讲全文

比赛时间：4月6日~10日上午8：00~13：00；下午16：00~21：00。现场画面将滞后2小时。

直播传送门：腾讯PC直播

腾讯app直播

看了上面的介绍我们知道，所谓的“冷扑大师”其实就是今年1月30日在匹兹堡战胜4位顶尖人类玩家的Libratus。那么同是人机对战，这次的看点在哪里呢？

看点

1、玩家

昨天的发布会上，从主办方公开的龙之队资料看，很多队员都有深厚的计算机专业背景。比如：杜悦、许朝军、张淮都曾就读于清华的计算机系。用李开复的话说就是：

匹兹堡之战中被击败的职业棋手确实都是德扑的顶尖职业牌手，但他们并不懂计算机原理，而此次龙之队都是学霸，全部拥有计算机领域的从业经验，会让比赛还保留悬念。

2、名人赛与名人点评

据悉，4月6日至10日期间，表演赛将以转播形式邀请多位爱好扑克的名人，远程在各大直播平台展开系列精彩点评，海泉基金创始人胡海泉、著名专栏作家王小山、360人工智能研究院院长颜水成、乐视云CEO吴亚洲、追梦者基金创始人朱波、英诺基金创始人李竹等将担任专家评论员。

同时，据主办方介绍，在4月10日赛事最后一天晚间，将有包括李开复在内的36位来自科技圈、投资圈、媒体圈的名人大咖组成六支战队来挑战冷扑大师。

比赛规则

随着比赛的开始，除了昨天雷锋网报道的规则外，更加详细的规则也浮出水面：

1、分组

龙之队成员分别在两个房间与冷扑大师进行1V1比赛。

ROOM1（A队）：杜悦、朱亚希、童舟；

ROOM2（B队）：许朝军、张淮、王天健。

德州扑克一张台面至少2人，最多22人，一般有2-10个玩家参与。目前冷扑大师还无法参与多人的牌局，这多少让人感觉不那么刺激和热闹。

2、发牌

每个人类玩家同时打两手牌，比赛采用复式发牌，也就是说A队人类拿到的手牌，是B队电脑的手牌，A队电脑的手牌是B队人类的手牌。而且是随机分配到某个牌手，并非一一对应。

据雷锋网了解，冷扑大师采用完全数学的模型和算法，后台的计算机群计算量很大，所以人类同时打两手牌时间上也是来得及的。

3、筹码

在每一手牌开始，牌手和AI均有20000的筹码，小盲注100，大盲注200。一手牌打完之后，无论结果如何，下一手牌双方的筹码都要重置回20000。

目前冷扑大师还不能在双方不同筹码的情况下与人类比赛，因为这在模型的建立上要更加复杂，而这无疑是降低了人机对抗时AI的难度。

德州扑克AI Libratus与围棋AI AlphaGo有何不同？

2016年3月，自从 AlphaGo 以4:1的成绩战胜职业九段李世乭以后，围棋AI的厉害为大众所熟知。不论是在专业的学术期刊还是社交网络，人们都展开了深入和广泛的讨论。但是对于德州扑克AI，大众还所知甚少。那么德州扑克AI与围棋AI有何不同？

AlphaGo是用大量的棋谱和自对弈做训练，而Libratus则是用随机生成的牌局（随机产生公共牌、底池筹码、玩家拿牌概率）和尝试性的动作带来的结果（在随机生成的输入情况下模拟玩家跟牌后的结果）作为训练数据。

“一对一无限注德州扑克”就是两个人玩的赌博游戏，因为事先会给每位玩家分发 2 张底牌，所以对方的“底牌信息”你是不知道的，对于计算机来说，就是在处理一种“非完整信息博弈”。而AlphaGo 玩围棋，对弈双方的信息是完整的、对称的，并没有隐藏的信息。

Facebook 人工智能研究院研究员田渊栋之前剖析过：

非完整信息博弈更难，体现在：
一方面是因为对于同样的客观状态，各个玩家看到的信息不同，因此增加了每个玩家状态空间的数目和决策的难度；
另一方面即使在同样的状态下，解非对称信息游戏所需要的内存也要比解对称信息要多得多，这个主要是对于对称信息博弈来说，只要记得当前局面并且向下推演找到比较好的策略就可以了；但对非对称信息博弈，只记得当前（不完整的）局面是不够的，即使盘面上的情况相同，但对手之前的各种招法会导致事实上局面不同，只有把它们全都罗列出来进行分析，才能保证想出的应对策略不被别人利用。
同时，非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛，涵括我们每天遇到的所有决策，上至国家战略，下至日常琐事，全都可以以同样的方法建模。

所以Libratus在德州扑克上AI取得了进步，是具有重要意义的。

据田渊栋近期在AI科技评论上所做的分享，CMU 的Libratus，也就是现在的冷扑大师有三个特点：

一是没有使用深度学习，而是用到了End-game solver。因为德扑一局时间比较短，几个回合就结束了，所以可以从下往上构建游戏树。这样的好处是，最下面节点游戏树的状态是比较容易算出来的，用这个反过来指导设计上面的游戏树。
二是像AlphaGo一样也采用了蒙特卡罗方法，标准的CFR（Counterfactual Regret Minimization）在每次迭代的时候，要把整个游戏树都搜一遍，这个对于稍微复杂一点的游戏来说是不可接受的。因为是指数级的复杂度，所以用蒙特卡罗方法，每次选一些节点去更新它上面的策略。
第三，一般来说我们在做游戏的时候往往会想到怎么去利用对方的弱点，但其实不是这样的。更好的方法是，我尽量让别人发现我的弱点，然后据此我可以去改进它，变得越来越强。用术语来讲，就是去算一下对手的最优应对（Best response），让对手来利用你的弱点，然后用这个反过来提高自己的水平。

德州扑克AI Libratus有无弱点？

经过AlphaGo和Libratus分别在围棋和德扑领域几次三番对人类顶尖玩家形成碾压，也许很多人已经对人类获胜不报期望。本次赛前发布会上，龙之队队长杜悦告诉媒体，这次他们仅有10%的获胜希望。

其实或许不必如此悲观，Libratus在两个月前的匹兹堡人机对抗中并非赢的一帆风顺，甚至还被人类玩家发现了破绽。这点或许我们可以从近期著名扑克牌杂志Card Player 对 Libratus 的创始成员 Brown 博士的专访中窥见一二。此前雷锋网已将专访进行翻译，详情请戳：德州扑克算法幕后研发者CMU博士Brown专访：AI如何打败顶级人类牌手？

洞见 | 就算是输给AI，也不能说人类丢掉了德州扑克的阵地

↑ 冷扑大师的创造者之一：Brown在现场（站着）

Card Player ：

在人类玩家紧追比分，对战进入白热化的时候，你是不是在想对手可能已经找到了Libratus的弱点，还是说仍旧很有信心？

Brown：

第一周比赛快要结束时，双方几乎打成平局。人类选手也在第一周对Libratus会如何调整打法、它的强项在哪里等做出了一系列推测。他们没有和我详谈他们认为战局将会如何发展，但从我听到的来看，他们应该是想从数据中寻找Libratus的套路，分析它的弱点和优势。所以，大体上我不怎么担心。他们认为AI在一些方面有缺陷，但实际上并没有。

比如，在有一天的比赛中，他们80%都是再加注（ three-betting ），因为从数据来看，他们认为AI 对特定的三倍打法（ three-bet size）不太擅长。但我不认为那是缺陷，只是他们的数据中存在噪音。他们在比赛进程中获得的数据导致他们得出了这样的结论。

但他们确实看到了里面存在的一些问题。比如Libratus对特定的开局下注的大小对应不好。比赛前我们认为这不是什么大问题，但事实证明，这个弱点很要命。好在AI还留有一手——趁当天晚上对手睡觉的时候，AI就开始连续不断地进行训练，弥补自己的不足以防止对手以后再次利用这一缺陷。所以你看到，从第二周局势就开始转变了。

虽然Brown博士在采访中一开始回应Libratus没有弱点，但是后来又改口说Libratus对特定的开局下注的大小对应不好是个很要命的弱点。而就像前面介绍的，这次龙之队的成员大多为拥有计算机专业背景的学霸，但愿他们能够及早发现“冷扑大师”的弱点并善加利用，这多少将给我们增添几分人类获胜的希望。

总结

从比赛规则的制定中可以看出，不管是要求1V1的单挑，还是单局手牌后的筹码重置，人类玩家都需要对AI “迁就”很多。所以即便是“冷扑大师”取得本次人机大赛的胜利，也不能说人工智能在德州扑克上完全战胜了人类。但是对于“非完整信息博弈”的人工智能研究课题而言，冷扑大师的胜利将有重大的意义。当然，比赛才刚刚开始，大奖花落谁家尚未可知，让我们拭目以待。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

谷磊

编辑

专注报道人工智能。微信：ydxy301

发私信

当月热门文章