机器学习系列报告之三：超越AlphaGo，自我学习规则的MuZero有何突破？-20210922-22页

257

机器学习系列报告之三：超越AlphaGo，自我学习规则的MuZero有何突破？-20210922-22页

# 机器学习 # AlphaGo 大小：1.73M | 页数：22 | 上架时间：2021-09-23 | 语言：中文

类型: 专题

上传者: YLY.sjz

撰写机构: 申万宏源

出版日期: 2021-09-22

摘要：

MuZero 自我学习规则，降低了对环境信息的依赖，具有更强的泛化能力。2020 年底，DeepMind 提出MuZero。MuZero 取得的一项突破进展是可以对规则进行自我学习，降低了对环境信息的依赖。在之前的几个版本中，应用场景主要还是棋类游戏。而MuZero在Atari 游戏中，也可以取得很好的效果。

AlphaGo 成功地将深度神经网络、强化学习以及蒙特卡洛树搜索结合到了一起，通过深度神经网络和强化学习来指导蒙特卡洛树搜索。在训练过程中，基于监督学习方法学习策略网络的参数，再使用强化学习中的策略梯度方法进行优化。在对弈过程中，AlphaGo 基于大量自我对弈棋局，对策略进行评估，得到新的价值网络。

展开>> 收起<<

请登录，再发表你的看法

YLY.sjz

关注