本篇文章2812字,读完约7分钟

年1月28日,《自然》杂志封面年10月18日,deepmind团队发表了最强版阿尔法围棋、符号alphago zero。 那时deepmind说,棋类ai的算法主要基于很多杂乱的列举,需要人工判断,人们在过去几十年里达到了这个方法的极限。 超人在阿尔法戈零围棋中的表现是通过和自己下棋来练习的。 现在,deepmind研究小组将这种做法宣传到alphazero的算法上,alphazero最多花了13天的时间“自学成才”,然后与世界冠军级围棋类ai进行了对决:国际象棋中,alphazero在4小时后首次 在日本象棋中,alphazero在2小时后打败了象棋联盟的世界冠军elmo。 在围棋中,alphazero经过30小时的鏖战打败了李世石版alphago。 alphazero :一个算法通过三大棋类alphago的上一代版本,最初与人类棋手棋谱进行了成千上万的训练,学习了围棋的做法。 到了阿尔法戈零后跳过这一步,在自我游戏中学习国际象棋,从零开始学习。 系统从对围棋一无所知的神经网络开始,把这个神经网络和强大的搜索算法结合起来做自我游戏。 在游戏过程中,神经网络不断调整、升级,预测每一步的落子和最终胜者。 与alpha goro一样,从随机小游戏开始,alpha 0依赖于深度神经网络、通用强化学习算法、蒙特卡洛树搜索,在游戏规则以外没有知识背景的情况下,用自己游戏进行强化学习。 加强学习的方法是基于“反复试验”的机器学习方法 deepmind在那个博客上,最初alphazero完全是盲目玩的,随着时间的推移,系统从胜、负和平局学习,调整神经网络的参数,每次这样往返,系统的表现都有几点 神经网络所需的训练量依赖于游戏的风格和多样性。 经过实验,alphazero花了9个小时学习国际象棋,学习日本象棋花了12个小时,学习围棋花了13天。 alphazero的训练步骤 ;  ; 阿尔法零继承了阿尔法零的算法设定和互联网架构等,但两者也有很多不同。 比如在围棋中很少打成平局。 这个alpha goro 0是为了在假设结果为“不赢就输”的情况下,估计获胜概率,进行最优化。 alphazero还会考虑平局和其他潜在结果,估计和优化结果。 其次棋盘旋转或反转,结果不变。 因为这个alpha goro通过生成8个对称图像来增强训练数据。 但是,在国际象棋和日本象棋中,棋盘是不对称的。 因此,alphazero不会增强训练数据,也不会在蒙特卡洛树搜索中转换棋盘的位置。 在alpha goro 0中,自我游戏是由以前所有迭代中最优秀的玩家生成的,自我游戏也是对由此生成的新玩家进行的。 alphazero只继承了alphago zero的单一神经网络,这个神经网络不是等待迭代完成,而是不断更新。 自我游戏是使用该神经网络的最新参数生成的,因为省略了判定步骤和选择最佳玩家的步骤。 另外,alpha goro采用了通过贝叶斯优化调整搜索的超级参数。 alphazero对所有游戏反复采用相同的超级参数。 这是因为不需要比较特定游戏的调整。 唯一的例外是为了保证搜索噪音和学习率 研究小组以alphazero执行白、stockfish执行黑的国际象棋,经过1000次、10000次……100万次的模拟,显示了alphazero蒙特卡洛树的内部搜索状态。 每个树图示都显示了最经常搜索的10个状态。 根据通过自我学习掌握国际象棋、日本象棋、围棋的强化学习算法《科学》杂志《深明》研究小组,各ai的硬件是定制的。 例如,在tces世锦赛上,stockfish和elmo采用了44核cpu。 阿尔法zero和阿尔法gozero采用了配备四个第一代tpu和44核cpu的机器。 虽然体系结构无法相比,但第一代tpu的解决速度相当于英伟达企业的titan v型商用gpu。 研究小组作为训练的一环,投入5000代tpu生成自我游戏,投入16代tpu训练神经网络。 卡斯帕罗夫:聪明工作比拼命工作更重要的国际象棋是计算机科学家很早就开始研究的行业。 1997年,深蓝色( deep blue )打败了人类国际象棋冠军卡斯帕罗夫,成为人工智能迅速发展的里程碑。 但是,那时卡斯帕罗夫对深蓝色的印象不太深,深蓝色的智能水平被认为和闹钟差不多。 现在他对棋类ai的看法也改变了。 他认为alphazero“像自己一样”和国际象棋的风格改变了,很开放。 在该杂志《科学》中,卡斯帕罗夫写道:“以前传来的机器是不断列举下棋,最终将局面拖到无聊的平局中。” 但是,在我的注意下,alphazero喜欢优先棋子的活动而不是棋盘上的分数特征,落到风险相对较高的地方。 “与以前传达的冠军级计划相比,研究者使用训练有素的神经网络指导蒙特卡洛搜索,选择了最有可能取得胜利的一步,因为这个alphazero每秒计算的位置要少得多。 根据deepmind,国际象棋中alphazero每秒只计算了6万个位置,而stockfish只计算了6千万个位置。 但从比赛结果来看,alphazero的思考显然更有效率。 在国际象棋比赛中,alphazero打破了年tcec (第九季度)世界冠军stockfish,在1000场比赛中赢得了155场比赛,输了6场比赛(剩下的是平局)。 为了验证alphazero的鲁棒性,研究小组进行了从“人类的开局方法”开始的一系列比赛,alphazero打破了stockfish。 在象棋比赛中,alphazero打破了年csa世界冠军版elmo,赢了91.2%的比赛。 在围棋比赛中,阿尔法零打破阿尔法零,赢了61%的比赛。 关于alphazero获得的战绩,卡斯帕罗夫认为这是一句老话。 聪明地工作比拼命工作更重要。 在阿尔法零方面是业界最强的ai战绩,绿色是阿尔法零获胜,灰色是平局,粉红色是输。  ; 科学杂志的图也说,程序的优点一般反映了程序员的思维优先顺序和思维上的偏见,但alphazero通过和自己下棋来完善自己的想法,因此其风格反映了自己 在进行马拉松比赛的过程中,deepmind的研究小组在国际象棋中,alphazero掌握了一些常见的开局模式、保王( king safety )的思考和各种士兵阵容的布局等,alphazero自己 但另一方面,alphazero是自学的,不受以前流传的观念的影响。 那是因为可以为以前传下来的策略的迅速发展注入新鲜的血液。 这些得到了日本象棋史上首次获得七冠的羽生善治的赞同。 “alphazero会把国王移到棋盘中央。 从人的立场来看是违反象棋理论的,那一点路程也很危险。 但难以置信的是,它总是控制着局面。 alphazero独特的风格打开了日本象棋新世界之门 ”羽生善治说 (本论文来自澎湃信息,因此越来越多的原始信息请下载“澎湃信息”app )

来源:天津新闻信息网

标题:热门:AlphaZero登上《科学》封面:一个算法通吃三大棋类

地址:http://www.tcsdqw.cn/tjxw/20590.html