2017第三届未来制造高峰论坛
深度观察

AI围棋已经无敌了,但是换做麻将呢?

2025China.cn   2017年02月23日

  这几天化身Master的阿尔法狗再战中日韩围棋界轻松赢得60大胜,但是如果将围棋换做麻将AI还能这么所向披靡吗?

  一. 麻将和围棋有什么不同?

  从博弈论的角度来讲,围棋是完全信息动态博弈,而麻将属于非完全信息动态博弈。围棋中对局双方所掌握的信息是对称的,而麻将中各对局者间所掌握的信息不对称。虽然大家都能看到每位牌手打过什么牌,但你不知道我的手牌是什么,我也不知道你的手牌是什么。这种信息不对称的产生的根本原因是牌墙的随机性。

  围棋与麻将(或者说棋与牌,弈与博)的上述区别,决定了它们获胜策略的根本不同。棋类项目本质上就是蒙特卡洛树,获胜策略就是选择或迫使对手选择一个分支,这个分支下面所有的结局都是自己胜。只不过由于棋类变化很多,连 AlphaGo 也远不可能遍历整个树,所以 AlphaGo 会通过价值网络来估计某一分支下胜结局的概率。其实人类的思维也是类似的,在围棋里平白被对手屠掉一条大龙,或者在象棋里平白送给对手一个车总是不好的——在这些分支下,胜结局的概率大大降低了。

  而牌类的获胜策略在于尽可能增大自己的得分期望(EV)。我并不知道我接下来要摸什么牌,或我的对手有什么牌,但所有可能的情形组成一个概率空间,我只需做出一个选择,使得自己的得分函数的期望最大。牌类策略的难点在于,影响这一概率空间的因素过多,且具体影响很难确定,比如对手打牌的习惯。

  ※下图选自《科学化麻雀》,闲家愚形听牌打 10% 危险度的牌对攻,x 轴为自己和牌时得分,y 轴为牌局巡次,z 轴为自己的得分期望。

  二. 何谓「获胜」?

  选手的竞技水平如何衡量?麻将是否是「运七技三」的游戏?其实无论围棋还是麻将,区分选手的竞技水平都不可能只靠一局,就好比 AlphaGo 和李世乭要进行五番棋对决,AlphaGo 赢第一盘时大家并不觉得 AlphaGo 一定比李世乭强一样。围棋有三番、五番、十番棋,对于竞技麻将(国标麻将、日本麻将)而言,区分顶尖选手的竞技水平至少需要 2000~10000 手牌(如果采用类似桥牌的复式赛制,这一数字会大幅降低)。

  至于衡量一个竞技项目的竞技性,单纯用运气所占比例是没有意义的。随着对局数的增大,运气所占比例会越来越小,选手的长期成绩必然会向其真实水平收敛。一个竞技项目的竞技性应当用「区分选手竞技水平所需必要对局时间」来衡量。比如围棋需要三番棋,麻将需要 2000 手牌,围棋一盘平均需要 4 小时,三番棋约 12 小时,而麻将一手牌约 3 分钟(网络对局),2000 手牌约 100 小时。麻将相比围棋有运气成分,并不意味着麻将选手的竞技水平无法衡量,而意味着麻将需要更多的对局时间来区分选手的竞技水平。

  下图选自日本麻将平台天凤麻雀凤凰桌 1000 场以上玩家安定段位排行。这里的「试合」是指半庄,也就是两圈牌,考虑到连庄,平均一试合是 10 手牌,1000 试合是 10000 手牌。可以看到牌手的竞技水平得到了很显著的区分,结果也与麻将圈内认知相似。

  所以在这个问题下我们讨论麻将 AI 能否战胜人类,指的是麻将 AI 长期成绩(10000 手牌以上)能否比人类更好,并不是单指一手牌。只打一手牌,谁都有可能和牌,这是牌类游戏的本质所决定的。

  当然,这里也不考虑牌手或 AI 作弊的问题。如果通过作弊获得别人手牌的非法信息,麻将的竞技平衡就完全被打破了。再强的麻将 AI 成绩也不可能比作弊的人类好,反之亦然。事实上,现在很多单机麻将游戏的 AI 就是通过作弊来增加「智能」的。

  三. 麻将会成为人类面对人工智能的「最后壁垒」吗?

  一言以蔽之,麻将 AI 不是做不了,而是没人做。之所以目前还没有能够战胜人类的麻将 AI,主要原因还是人们在麻将 AI 研究方面的投入不够。目前的麻将 AI 基本都是麻将游戏制作团队为麻将游戏设计的,在单机上就可以运行,强度自然有限。如果像 AlphaGo 一样,世界顶级团队制作,背后庞大资金支持,使用 1000 个 CPU 运行,想要设计一个轻易战胜人类顶尖麻将牌手的 AI 没有任何难度。

  首先,麻将的复杂度要远远小于围棋。单就自己的 14 张手牌来说(总牌数 136 张),组合共有 326520504500 种(计算方法详见麻雀の数学),远远小于围棋的 2.08×10^170。不足 10^12 的手牌种类意味着麻将 AI 完全可以提前计算好每手牌的打法估值并储存在资料库中,打牌时调用即可。

  选自日本麻将研究者らすかる的个人网站麻雀の数学。

  当然,打麻将也要考虑别人打的牌以及各家的得分。各家分差的复杂度是很小的,而别人打的牌虽然复杂度会很高(136 张牌的牌墙组合为 4.3×10^185 种,甚至超越了围棋的复杂度),但别人打的 10 张牌大多只有 1~2 张是有用的信息,AI 只需要识别这种模式并搜索对比以往对局的牌谱即可。

  其次,人类对麻将的研究远不及围棋,顶尖麻将牌手的训练水平很低。相比围棋研究几千年的历史,麻将诞生不过百余年,人们真正开始利用科学手段(统计学、大数据)来研究麻将只是近十年刚刚起步。例如「间四间」是上世纪流行的日本麻将理论,指的是别人打过中间相隔 4 张的 2 张同花色数牌,则这 2 张牌的内侧筋牌是危险牌。如别人打过三筒、八筒(中间相隔四五六七筒),则四七筒是危险牌,这是因为别人手里一开始可能是三五六八筒,三八筒效率较低被打掉,留下的五六筒要四七筒。这一理论在近十年的大数据研究中已被证明是完全错误的——别人要四七筒的概率并没有显著性的上升。

  可见,目前人们对麻将的研究还处在很初级的阶段,通过别人打过的牌来分析别人想要的牌的科学研究才刚刚开始。麻将界也没有围棋那样 3 岁开始学棋,10 几岁就和世界顶级高手过招,接受世界顶级指导的职业选手。麻将本身复杂度低,人类顶尖牌手水平又不高,被人工智能击败会比围棋要容易得多,不可能是「最后壁垒」。

  四. 现在有哪些比较强的麻将 AI?

  竞技麻将方面,目前国标麻将和日本麻将都有比较强的 AI(高于人类平均水平)。日本麻将的 AI 目前最强的当然是「爆打」。

  「爆打」是由东京大学工学系在读博士生水上直纪开发的日本麻将 AI,他所在的课题组就是专门研究麻将 AI 的。爆打和 AlphaGo 一样,也具有自我对局和分析并学习人类牌谱的能力。水上发表过的论文题目为《Realizing a Four-Player Computer Mahjong Program by Supervised Learning with Isolated Multi-Player Aspects》

  爆打从 2015 年开始在最大的日本麻将平台——天凤麻雀上开始运行,至 2016 年 2 月已经打了 1.3 万多场(约 13 万手牌)。2015 年 9 月,爆打达到天凤麻雀四段,2015 年 12 月更是一度冲进天凤七段,长期成绩显示平均为六段以上。这意味着什么呢?

  上图是天凤麻雀平台 2016 年 3 月 13 日的段位成绩分布图(来源オンライン対戦麻雀 天鳳 / ランキング)。天凤平台具有非常科学的段位和 Elo Rating 体系,越是和高水平牌手对局,获胜后 Rate 增加越多,失败后 Rate 减少越少;越是和低水平牌手对局,获胜后 Rate 增加越少,失败后 Rate 减少越多。最终段位和 Rate 值的稳定值就代表了牌手的真实实力。

  可以看到,天凤麻雀平台的活跃用户数约为 17 万人(不包括新人僵尸号),而六段以上的用户总数为 5793 人,约占 3.4%。也就是说,爆打打麻将比 96.6% 的麻将玩家要好,全世界麻将打得比爆打好的人,数量仅有几万人左右(包含所有麻将规则的估算)。这只是一个课题组,用时一年多研究出的,在一台电脑上运行的麻将 AI,就已经基本赶上 AlphaGo 早期版本所取得的成绩了。

  总之,麻将的复杂度较低,算法上可以用搜索树穷举法以及大量牌谱的自我学习来解决,只要有大量牌谱资料,有人肯花时间,有人愿意出资,开发一个能胜过人类的麻将 AI,非常容易。

 

2025china原创,转载请注明!  

ZERO1整理编译

标签:AlphaGo 人工智能 我要反馈 
英特尔的物联网资源方案
专题报道
引领创新 同心致远——西门子创新故事
引领创新 同心致远——西门子创新故事

西门子自1872年进入中国,145余年来以创新的技术、卓越的解决方案和产品坚持不懈地对中国的发展提供全面支持,并以出众的

集结伙伴共建物联协作平台 推动产业迈向智能整合应用
集结伙伴共建物联协作平台 推动产业迈向智能整合应用

2017中国国际工业博览会工业自动化展即将亮相国家会展中心,研华科技以【集结伙伴共建物联协作平台推动产业迈向智能整合应用

来福禄克接招,见证工作难题由难变易
来福禄克接招,见证工作难题由难变易

参与活动挑战难题,激发脑力,激荡智慧!让福禄克陪你见证迎刃而解的时刻!