您当前的位置:首页 > 交换空间 > 正文

AlphaGo进化:3天100:0碾压旧版 不使用人类知识

2017/11/27 3:57:58 作者:admin 点击:483 次 

AlphaGo进化:3天100:0碾压旧版 不使用人类知识

天下彩齐中网资料大全

当地时间10月18日,谷歌人工智能团队DeepMind团队在在国际学术期刊《自然》(Nature)上发表论文,宣布新版AlphaGo——AlphaGo可以在没有人类指导的情况下学习,其水平超过此前所有AlphaGo(阿尔法狗),仅用3天就碾压了此前击败李世石的旧阿尔法狗。

AlphaGoZero仅拥有4个TPU,零人类经验,所以,它的名字叫作零(Zero),Nature这篇论文——《MasteringthegameofGowithouthumanknowledge》中,Deepmind展示新版本围棋程序AlphaGoZero在数百万局自我对弈后,随着程序训练的进行,独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略。《自然》为该论文配发两篇评论文章,一篇来自计算机科学家,一篇来自围棋选手。强大的围棋程序:可通过与自己对弈学习今年5月乌镇大会上,中国棋手、世界冠军柯洁9段以0:3不敌AlphaGo。

随后Deepmind创始人Hassabis宣布,AlphaGo将永久退出竞技舞台,不再进行比赛。

同时Hassbis表示:“我们计划在今年稍晚时候发布最后一篇学术论文,详细介绍我们在算法效率上所取得的一系列进展,以及应用在其他更全面领域中的可能性。

就像第一篇AlphaGo论文一样,我们希望更多的开发者能够接过接力棒,利用这些全新的进展开发出属于自己的强大围棋程序。

”Deepmind如约在Nature发布了这篇论文《MasteringthegameofGowithouthumanknowledge》。

论文中,Deepmind展示了AlphaGoZero一种新的强化学习方式,通过自我对弈学习AlphaGoZero成为自己的老师。

这个学习系统从一个对围棋游戏完全没有任何知识的神经网络开始。

然后,通过将这个神经网络与一种强大的搜索算法相结合,它就可以自己和自己下棋了。

在它自我对弈的过程中,神经网络被调整、更新,以预测下一个落子位置以及对局的最终赢家。

这个更新后的神经网络又将与搜索算法重新组合,进而创建一个新的、更强大的AlphaGoZero版本,再次重复这个过程。

在每一次迭代中,系统的性能都得到一点儿的提高,自我对弈的质量也在提高,这就使得神经网络的预测越来越准确,得到更加强大的AlphaGoZero版本。

天下彩齐中网资料大全相关链接:天下彩齐中网资料大全 天下彩齐中网资料大全 天下彩齐中网资料大全 香港马会大中华