AlphaGo Zero横空出世 完全自学21天虐Master

新版AlphaGo自我学习能力

新智元报道

来源:Nature;DeepMind

编译:闻菲,刘小芹

[新智元导读]新智元AI World 2017世界人工智能大会倒计时进入20天,DeepMind 如约公布了他们最新版AlphaGo论文,也是他们最新的Nature论文,介绍了迄今最强最新的版本AlphaGo Zero,使用纯强化学习,将价值网络和策略网络整合为一个架构,3天训练后就以100比0击败了上一版本的AlphaGo。AlphaGo已经退休,但技术永存。DeepMind已经完成围棋上的概念证明,接下来就是用强化学习创造改变世界的价值。

今年5月乌镇围棋大赛时,DeepMind CEO Hassabis 表示,将在今年晚些时候公布战胜了柯洁的那版AlphaGo的技术细节。今天,这个承诺如约兑现,DeepMind在他们最新发表于Nature的一篇论文中,描述了迄今最强大的一版AlphaGo—— AlphaGo Zero 的技术细节。

AlphaGo Zero完全不依赖于人类数据,因此,这一系统的成功也是朝向人工智能研究长期以来的目标——创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法——迈进的一大步。

作者在论文中写道,AlphaGo Zero 证明了即使在最具挑战的领域,纯强化学习的方法也是完全可行的:不需要人类的样例或指导,不提供基本规则以外的任何领域知识,使用强化学习能够实现超越人类的水平。此外,纯强化学习方法只花费额外很少的训练时间,但相比使用人类数据,实现了更好的渐进性能(asymptotic performance)。

在很多情况下,人类数据,尤其是专家数据,往往太过昂贵,或者根本无法获得。如果类似的技术可以应用到其他问题上,这些突破就有可能对社会产生积极的影响。

是的,你或许要说,AlphaGo已经在今年5月宣布退休,但AlphaGo的技术将永存,并进一步往前发展、进化。DeepMind已经完成围棋上的概念证明,接下来,就是用他们的强化学习改变世界。

这也是为什么接下来我们要介绍的这篇论文如此重要——它不仅是很多人期盼已久的技术报告,也是人工智能一个新的技术节点。在未来,它将得到很多引用,成为无数AI产业和服务的基础。

迄今最强大的围棋程序:不使用人类的知识

DeepMind这篇最新的Nature,有一个朴素的名字——《不使用人类知识掌握围棋》。

摘要

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域,以超越人类的精通程度学习的算法,“tabula rasa”(译注:一种认知论观念,认为指个体在没有先天精神内容的情况下诞生,所有的知识都来自于后天的经验或感知)。此前,AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练,同时也通过自我对弈进行强化学习。

在这里,我们介绍一种仅基于强化学习的算法,不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度,使落子质量更高,自我对弈迭代更强。从“tabula rasa”开始,我们的新系统AlphaGo Zero实现了超人的表现,以100:0的成绩击败了此前发表的AlphaGo。

DOI:10.1038/nature24270

全新的强化学习:自己成为自己的老师

AlphaGo Zero 得到这样的结果,是利用了一种新的强化学习方式,在这个过程中,AlphaGo Zero 成为自己的老师。这个系统从一个对围棋游戏完全没有任何知识的神经网络开始。然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。

这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的 AlphaGo Zero 版本,再次重复这个过程。在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的 AlphaGo Zero 版本。

这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,从世界上最强大的围棋玩家——AlphaGo 自身——学习。

AlphaGo Zero 在其他方面也与之前的版本有所不同:

这篇文章对你有用吗?

点右边奖杯,点个赞⤵

平均分: / 5. 评价数:

太好了,这篇文章对你有用...

请在社交媒体上转发!

很抱歉,这篇文章对你没用...

让我们改进这篇文章!

发表评论

电子邮件地址不会被公开。