您的位置:beat365亚洲官方网站 > 生命科学 > AlphaZero登上《科学》封面:一个算法通吃三大棋

AlphaZero登上《科学》封面:一个算法通吃三大棋

2019-12-04 17:51
AlphaZero登上《科学》封面:一个算法通吃三大棋类

本月初,谷歌母公司Alphabet旗下人工智能公司DeepMind的研究人员发表了一篇关于人工智能前沿技术应用于国际象棋的论文。

12月7日,谷歌旗下的人工智能实验室DeepMind研究团队在《科学》杂志上发表封面论文,公布了通用算法AlphaZero和测试数据。《科学》杂志评价称,通过单一算法就能够解决多个复杂问题,是创建通用的机器学习系统、解决实际问题的重要一步。该论文的作者包括AlphaGo的核心研发人员戴维·席尔瓦(David Silver)和DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)等。图片 1AlphaZero:一个算法通吃三大棋类AlphaGo的前几代版本,一开始都是与人类棋手的棋谱进行上千盘的训练,学习如何下围棋。到了AlphaGo Zero则跳过了这个步骤,通过自我对弈学习下棋,从零学起。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。与AlphaGo Zero一样,从随机小游戏开始,AlphaZero依靠深度神经网络、通用强化学习算法和蒙特卡洛树搜索,在除了游戏规则外没有任何知识背景的情况下,通过自我对弈进行强化学习。强化学习的方式是一种通过“试错”的机器学习方式。DeepMind在其博客中介绍,一开始AlphaZero完全是在瞎玩,但随着时间的推移,系统从胜、负和平局中学习,调整神经网络的参数,如此往复循环,每过一轮,系统的表现就提高了一点点,自我对弈的质量也提高了一点点,神经网络也就越来越准确。神经网络所需的训练量取决于游戏的风格和复杂程度。经过试验,AlphaZero花了9个小时掌握国际象棋,花了12个小时掌握日本将棋,花了13天掌握围棋。图片 2卡斯帕罗夫:聪明地工作比拼命地工作更重要国际象棋是计算机科学家很早就开始研究的领域。1997年,深蓝(Deep Blue)击败了人类国际象棋冠军卡斯帕罗夫,这一事件成为了人工智能发展的里程碑。但彼时卡斯帕罗夫对深蓝的印象并不深刻,认为深蓝的智能水平和一个闹钟差不多。如今,他对棋类AI的看法也发生了转变。他认为AlphaZero“像自己一样”,下棋风格多变而开放。在同一期《科学》杂志上,卡斯帕罗夫撰文称,“传统的机器是通过不断枚举来下棋,最终把棋局拖入无聊的平局。但在我的观察中,AlphaZero会优先考虑棋子的活动而非盘面上的点数优势,并且喜欢在相对风险更大的地方落子。”尽管与传统的冠军级程序相比,研究人员用训练好的神经网络指导蒙特卡罗树搜索,来选择最有可能获得胜利的一步,因此AlphaZero每秒计算的位置要少得多。据DeepMind介绍,在国际象棋中,AlphaZero每秒仅计算6万个位置,相比之下,Stockfish则会计算6千万个位置。但从比赛的结果来看,AlphaZero的思考显然更有效率。在国际象棋比赛中,AlphaZero击败了2016年TCEC世界冠军Stockfish,在1000场比赛中,赢得155场比赛,输了6场。为了验证AlphaZero的稳健性,研究团队还进行了一系列比赛,这些比赛都是从“人类开局方式”开始的,而AlphaZero都击败了Stockfish。在将棋比赛中,AlphaZero击败了2017年CSA世界冠军版Elmo,赢得了91.2%的比赛。在围棋比赛中,AlphaZero击败了AlphaGo Zero,赢得了61%的比赛。对于AlphaZero取得的战绩,卡斯帕罗夫认为这正是印证了一句老话——聪明地工作比拼命地工作更重要。图片 3

2014年1月26日,Google宣布已经同意收购DeepMind科技。这次收购发生在2013年Facebook与DeepMind科技结束谈判之后,收购的价格大概为4亿美元。

四、2017年5月,在中国乌镇围棋峰会上,阿尔法围棋以3比0的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的2017年5月26日,阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。在柯洁与阿尔法围棋的人机大战之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。

现在的问题是,机器学习能否帮助人类发现所关心问题的真相?比如像癌症和意识、免疫系统之谜、基因组之谜等科学和医学尚未解决的重大问题。

这家公司是在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。在2014年,DeepMind荣获了剑桥大学计算机实验室的“年度公司”奖项。

最令人不安的是,AlphaZero似乎表达出一种天然的洞察力。它具备浪漫而富有攻击性的风格,以一种直观而优美的方式发挥着电脑所没有的作用。它会玩花招,冒险。在其中几局中,它使Stockfish瘫痪并玩弄它。当AlphaZero在第10局进行进攻时,它把自己的皇后佯退到棋盘的角落里,远离Stockfish的国王。通常来说,这并不是攻击皇后应该被放置的地方。

另一篇文章也涉及一种机器学习算法,其能够确定急诊室病人的CT扫描是否显现出中风、颅内出血或其他重要神经疾病的迹象。对于中风患者来说,每一分钟都很重要;治疗耽误的时间越长,结果就越糟。新算法的准确性堪比人类专家,而且比人类专家快150倍。一个更快的诊断有助于医生对最紧急病例进行快速分类,并由人类放射科医生进行复查。

经过几十年的发展,人类大师关于棋类游戏的经验都被作为复杂的评估工具编进程序中,表明在下棋中该寻求什么样的有利位置以及避免陷入什么样的不利境地:比如王的安全性,棋子的活动,兵形,中心控制,以及如何平衡利弊。但今天很多国际象棋程序却天生无视这些原则,给人留下的印象是野蛮粗暴的:速度快得惊人,但却完全缺乏洞察力。

所有这些都随着机器学习的兴起而改变。AlphaZero通过与自己对弈并根据经验更新神经网络,从而发现了国际象棋的原理,并迅速成为史上最好的棋手。它不仅能够轻而易举地击败所有最强大的人类棋手,还能击败当时的计算机国际象棋世界冠军Stockfish。在与Stockfish进行的100场比赛中,AlphaZero取得28胜72平的好成绩。它没有输掉一场比赛。

事实上,这一情况在数学领域中早有耳闻。四色映射定理就是这样一个长期存在的数学问题。该定理指出在一定的合理约束条件下,有关相邻国家的任何地图都可以只使用四种颜色进行着色,这样相邻两个国家的颜色就不会相同。

三、2016年末2017年初,该程序在中国棋类网站上以“大师”为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;

六、AlphaGo Zero迎来升级,这个被称为AlphaZero的程序在三天内自学了三种不同的棋类游戏,包括国际象棋、围棋和日本的将军棋,无需人工干预,一篇描述这一成就的论文今年12月初在《科学》杂志发表。

二、2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,举世哗然,人工智能概念开始被大众熟知。

DeepMind的围棋高手炼成记

很明显,AlphaZero获胜靠的是更聪明的思维,而不是更快的思维;它每秒只计算6万个位置,而Stockfish会计算6千万个。它更明智,知道该思考什么,该忽略什么。卡斯帕罗夫在《科学》杂志文章附带的一篇评论中写道,AlphaZero通过自主发现国际象棋的原理,开发出一种“反映游戏真相”的玩法,而不是“程序员式的优先级和偏见”。

虽然人们最终在计算机帮助下于1977年证明了四色映射定理,但是没有人能够检验论证中的所有步骤。从那以后,这个定理的证明得到了验证和简化,但仍有一些部分需要进行蛮力计算。这种发展使许多数学家感到恼火。他们不需要确认四色定理是正确的,但他们想知道为什么这是真的,但是证明没有帮助。

然而令人沮丧的是,机器学习算法还无法清晰表达它们的想法。我们不知道它们如何得出结论,所以也就无从确定能否信任机器。AlphaZero似乎已经发现了一些有关国际象棋的重要原则,但它无法与我们分享这种洞察力。作为人类,我们想要的不仅仅是答案。我们想要的是洞察力。从现在起,这将成为我们与电脑互动紧张的源渊。

本文由beat365亚洲官方网站发布于生命科学,转载请注明出处:AlphaZero登上《科学》封面:一个算法通吃三大棋

关键词: