通用版 AlphaGo 登《Nature》：最强 AI 棋手，不懂规则也能精通游戏-联网快讯

2020年12月31日00:05:28IT相关已关闭评论1,55112317字阅读7分43秒阅读模式

继 AlphaGo 扬名海外后，DeepMind 再推新模型 MuZero，该模型可以在不知道游戏规则的情况下，自学围棋、国际象棋、日本将棋和 Atari 游戏并制定最佳获胜策略，论文 12 月 24 日发表至《Nature》。文章源自联网快讯-https://x1995.cn/8609.html

论文链接：文章源自联网快讯-https://x1995.cn/8609.html

https://arxiv.org/pdf/1911.08265.pdf文章源自联网快讯-https://x1995.cn/8609.html

自 2016 年，令柯洁流泪、让李世石沉默的 AlphaGo 横空出世，打遍棋坛无人能敌后，AI 棋手的名号就此一炮打响，而其背后的发明家 DeepMind 却没有因此止步，四年之内迭代了四代 AI 棋手，次次都有新突破。文章源自联网快讯-https://x1995.cn/8609.html

始祖 AlphaGo 基于人类棋手的训练数据和游戏规则，采用了神经网络和树状搜索方法，成为了第一个精通围棋的 AI 棋手。文章源自联网快讯-https://x1995.cn/8609.html

二代 AlphaGo Zero 于 2017 年在《Nature》发表，与上代相比，不需要人类棋手比赛数据作为训练集，而是通过自对抗的方式自己训练出最佳模型。文章源自联网快讯-https://x1995.cn/8609.html

三代 AlphaZero 在 2018 年诞生，将适应领域拓宽至国际象棋和日本将棋，而不是仅限于围棋。文章源自联网快讯-https://x1995.cn/8609.html

第四代、也就是今天新公布 MuZero 最大的突破就在于可以在不知道游戏规则的情况下自学规则，不仅在更灵活、更多变化的 Atari 游戏上代表了 AI 的最强水平，同时在围棋、国际象棋、日本将棋领域也保持了相应的优势地位。文章源自联网快讯-https://x1995.cn/8609.html

01. 从未知中学习：三要素搭建动态模型

与机器擅长重复性的计算和牢固的记忆不同，人类最大的优势就是预测能力，也就是通过环境、经验等相关信息，推测可能会发生的事情。文章源自联网快讯-https://x1995.cn/8609.html

比如，当我们看到乌云密布，我们会推测今天可能有雨，然后再重新考虑是否要出门。即使对于仅有几岁的孩子而言，学会这种预测方式，然后推广到生活的方方面面也是很容易，但这对于机器来说并不简单。文章源自联网快讯-https://x1995.cn/8609.html

对此，DeepMind 研究人员提出了两种方案：前向搜索和基于模型的规划算法。文章源自联网快讯-https://x1995.cn/8609.html

前向搜索在二代 AlphaZero 中就已经应用过了，它借助对游戏规则或模拟复盘的深刻理解，制定如跳棋、国际象棋和扑克等经典游戏的最佳策略。但这些的基础是已知游戏规则及对可能出现的状况大量模拟，并不适用情况相对混乱的 Atari 游戏，或者未知游戏规则的情况。文章源自联网快讯-https://x1995.cn/8609.html

基于模型的规划则是通过学习环境动态进行精准建模，再给予模型给出最佳策略。但对于环境建模是很复杂的，也不适用于 Atari 等视觉动画极多的游戏。目前来看，能够在 Atari 游戏中获得最好结果的模型（如 DQN、R2D2 和 Agent57），都是无模型系统，也就是不使用学习过的模型，而是基于预测来采取下一步行动。文章源自联网快讯-https://x1995.cn/8609.html

也是由于以上两个方法中的优劣，MuZero 没有对环境中所有的要素进行建模，而是仅针对三个重要的要素：文章源自联网快讯-https://x1995.cn/8609.html

1、价值：当前处境的好坏情况；文章源自联网快讯-https://x1995.cn/8609.html

2、策略：目前能采取的最佳行动；文章源自联网快讯-https://x1995.cn/8609.html

3、奖励：最后一个动作完成后情况的好坏。文章源自联网快讯-https://x1995.cn/8609.html

那接下来，我们就来看看 MuZero 是如何通过这三个要素进行建模。文章源自联网快讯-https://x1995.cn/8609.html

MuZero 从当前位置开始（动画顶部），使用表示功能 H 将目前状况映射到神经网络中的嵌入层（S0），并使用动态函数（G）和预测函数（F）来预测下一步应该采取的动作序列（A）。文章源自联网快讯-https://x1995.cn/8609.html