再次对决AlphaGo 人类棋手柯洁的胜算有多大.docx

资源描述

再次对决AlphaGo 人类棋手柯洁的胜算有多大.docx

《再次对决AlphaGo 人类棋手柯洁的胜算有多大.docx》由会员分享，可在线阅读，更多相关《再次对决AlphaGo 人类棋手柯洁的胜算有多大.docx（13页珍藏版）》请在冰豆网上搜索。

再次对决AlphaGo 人类棋手柯洁的胜算有多大.docx

再次对决AlphaGo人类棋手柯洁的胜算有多大

再次对决AlphaGo人类棋手柯洁的胜算有多大？

柯洁参加《朗读者》

　　酝酿了近一年的二次人机大战终于有了正式消息。

4月10日，谷歌与中国棋院宣布，2017年5月23日起，AlphaGo将与柯洁进行三番棋对决。

胜者奖金150万美元，负者出场费也高达30万美元，是围棋比赛有史以来的最高奖金。

　　一、胜一盘的重要性

　　然而，150万美元奖金虽高却像画饼，几乎没人相信柯洁能胜两盘获得比赛的胜利。

但这不是钱的事，只要柯洁胜一盘，就能封神了。

　　这次比赛会下满三盘，古力说柯洁只有10%的机会胜一盘，还可能乐观了。

一些资深棋迷打赌开的赔率也是柯洁胜一盘赔10倍。

这相当于说，柯洁和AlphaGo下，30盘才能胜一盘。

　　棋界现在一种说法是，AI战胜人类带来围棋技术的大发展，人类学习AI与AI共同进步。

这算是呼应谷歌团队的姿态，说棋艺有大发展、学习AI，这都没问题。

但围棋首先是个胜负的游戏，对职业棋手来说，胜负压倒一切。

围棋和国际象棋、中国象棋不一样，和棋极少，输半目也是输，更残酷。

现在不能认怂，还是应该争取战胜AlphaGo，只胜一盘意义都大于这150万美元的奖金。

我相信，如果柯洁能胜AlphaGo一盘，倒贴钱他都愿意。

柯洁自己也是斗志满满，在央视《朗读者》上读哈里波特，把AlphaGo比作伏地魔，声称要“零封AlphaGo”。

　　去年李世石以1：

4惨负AlphaGo，震动了棋界甚至整个世界，引发了人工智能热潮。

《自然》与《科学》都将这个事件列为年度八大、十大科技进展。

对外界来说，1：

4和0：

5似乎区别不大，对棋界就不一样了。

如果没有这一胜，棋手们面对AlphaGo将极度自卑，只剩下各种恐惧与膜拜。

去年人机战第三盘AlphaGo序盘碾压李世石，以3：

0胜出比赛的时候，棋界气氛极度压抑，几乎没人再对李世石抱有希望。

直到第四盘李世石胜出，棋手们才恍然大悟，原来AlphaGo的命门是计算！

整个棋界大缓了一口气。

李世石说，这一胜拿什么也不换，意义真有这么大。

　　去年正因为我深深知道人类胜局的重大意义，才在几乎所有人都绝望的时候，仍然坚持分析AlphaGo的弱点，还真预测到了李世石胜出的方式。

　　Master年初60：

0碾压人类高手，现在棋界的气氛又和去年3：

0时差不多了。

某种程度甚至更为绝望，因为这回盘数很多有说服力。

而且能战胜人类的AI不只AlphaGo了，还有绝艺和DeepZenGo。

好消息是有职业实力的AI只有这三个，坏消息是连最弱的DeepZenGo都不好对付。

　　3月18至19日的计算机围棋UEC杯，绝艺在预赛和决赛中两胜DeepZenGo，AI界的老二老三座次排定。

紧接着3月21至23日的首届世界围棋最强战中，老三DeepZenGo代表AI与中日韩三大高手下了三局每方三小时的慢棋，一局完胜两局憾负，前半盘都是明显领先。

3月26日UEC杯的后续节目电圣战，绝艺与DeepZenGo都表现上佳击溃日本新锐一力辽。

在野狐围棋网，绝艺实力不断进步，在快棋中对人类高手胜率高达9成，并以碾压态势率先升为10段。

柯洁对绝艺13连败，已经1个月没有公开和绝艺下了。

如果人类连绝艺和DeepZenGo都打不过，那还怎么和AlphaGo较量？

　　二、正确认识AlphaGo，消除恐惧

　　人类棋手的误区是，总是不由自主把围棋AI当作人来看待，首先根据战绩判断AI的实力，其次看棋谱。

以前看棋谱觉得AlphaGo实力不强，李世石100万美元奖金天上掉馅饼。

AlphaGo3：

0胜出的时候，又觉得AlphaGo不可战胜了，要让二子。

李世石胜了一盘，又觉得原来AI有弱点，畏惧心理消除。

AlphaGo升级为Master下得又快又好创新很多，又觉得它深不可测，不可战胜了。

看DeepZenGo网上战绩，高手们评价不太高，但从最强战三局慢棋实战表现来看是低估了它。

只有绝艺一直和高手们亲密接触，甚至有能悔棋的内测版，开发人员中也有罗洗河这个世界冠军，所以棋手们了解多些。

　　围棋AI是程序，思维和人截然不同，不能象观察人那样去想象它的能力。

它强的地方，不要低估，它弱的地方，也不要高估。

除了战绩、棋谱这些摆在明面上的信息，更值得分析的是AI的算法。

应该从算法原理去分析，围棋AI为什么强，为什么弱，结合实战表现，做出合理的解释与猜想。

现在棋界一大问题是对AlphaGo太过惧怕，不少职业棋手对Master可以说是吓死的，招法完全变形，序盘就败了。

不了解对手，对手下的招出乎预料就害怕傻眼了，时间压力之下失去正常思维，这根本没法下棋了。

　　棋界迫切需要尽量了解AlphaGo，对它的行为模式建立预期，消除恐惧。

Master的60局棋谱，棋手们研究一段时间了，有了相当的认识。

由于谷歌的保密风格，算法上AlphaGo有什么重大进展信息极少，但也还是有一些可以分析的，本文会从算法角度进行推测。

　　我的结论是，AlphaGo是个“围地大师”、“创新大师”，但并不是“战斗大师”，棋艺从原理上就存在短板，但是特长极强，掩盖了弱点。

柯洁仅仅是消除畏惧心理，恢复平常心是不够的，这还是传统思维模式，也不一定做得到。

人类高手不能空喊“有信心”之类的口号，需要从理性上确立“获胜是可以做到的”这个信念，根据AlphaGo的算法特点，改变传统思维模式，针锋相对与它战斗，争取在人机战中获得胜利突破。

柯洁在人类棋手中思维活跃、搅功无敌，是战胜AlphaGo的最好人选。

希望柯洁采用正确战术，取得一胜。

只要一胜，二次人机大战就会成为棋手与棋迷的狂欢节。

　　特别有帮助的是，腾讯开发的绝艺达到了极高水平，柯洁和绝艺极为开放的内测版下，可以反复实践演练自己的想法，并不是闷头准备。

腾讯开发围棋AI的团队就有三个，绝艺只是胜出的那个，这个投入确实很有魄力，如果柯洁能打破AlphaGo的坚冰，棋界要感谢腾讯。

　　由于绝艺不断在野狐围棋网上下，虽然胜率不断提高，但还是经常输给职业高手，所以人们可能低估了它的实力。

绝艺输主要是出bug，表现正常的时候实力极为可怕，而且在快速进步，要看最近的胜率。

业余六段和职业棋手也就是让先到二子的差距，据说有业六让四子和绝艺下20分钟的慢棋还是输了。

绝艺的棋风和AlphaGo不同，创新不多，但是力量太大了，出手很敏锐。

4月10日开始绝艺在野狐复出下棋每天两盘，是20分钟和三次1分钟读秒的慢棋。

到4月14日，对10位职业高手取得了9胜1负的战绩。

　　通过和绝艺的不断对局，人类高手已经相信，自己正常1分钟读秒的表现会比20、30秒好得多，对绝艺胜率明显提高（指以前版本，绝艺最新版本又进步了）。

AI对手和人不是一回事，人类下快棋对AI实力会大降。

如果现在的绝艺和人类高手下20秒、30秒的快棋，再加上人类高手不了解它，如果它还新手不断，杀个60：

0不是不可想象。

有了绝艺这个参照物，年初Master的表现也就不是这么震憾了。

绝艺虽然在快速进步，但人类高手由于看着它成长的，和它下思维比较正常，表现要好得多。

　　我这并不是心灵鸡汤式的给人类围棋高手打气。

如果是国际象棋，从算法原理上就知道，人类不可能战胜AI。

国际象棋AI和人下棋的思路差不多，算得比人深远，无论是局势评估还是推理搜索，人会的AI全会，还更厉害。

国际象棋AI能下出人类无法想象的“AI”棋，人类确实没理由战胜AI。

但围棋是另一种游戏，不仅复杂得多，特点还完全不同。

AI和人是用两种截然不同的思维模式下围棋，AI学会了人的部分本事，还发展出了新的本事，在局势评估上远远强于人。

但是人也有AI不会的绝招，就是复杂战斗、对杀、死活、精确收官等以推理为基础的围棋技术，由于AI没有概念推理的能力，这些任务对AI算法来说很困难。

　　相当于人和汽车的赛跑比赛，如果是一条平路，汽车必然战胜人。

如果路上有的地方有墙，有的地方有沟，人会翻墙也会下到沟里再上来，而汽车翻墙过沟不太会，可能会翻车输给人。

人如果选择在平路和汽车比拼，那当然必输；如果把比赛引向翻墙过沟的比拼，不仅比赛有趣多了，还真可以获胜。

比赛之前人制定战术的时候，不能说要平常心，要学习汽车的高速度争取跑出博尔特的水平，那也是输。

为了胜利就应该扬长避短，跑步也要会，不要跑步就把腿折了退赛。

速度落后于汽车不要惊慌，如果能把汽车引向有墙有沟的路段，就能等到时机。

　　当然AlphaGo的能力很强，很难把它引向表现差的路段，这只是一个比喻。

但可以肯定AlphaGo不是全能的，从算法原理上就有漏洞。

最高水平的国际象棋AI互相比赛绝大多数是平局。

两个AlphaGo自我对局总是能分出胜负，也不是每局都差距很小。

这中间肯定有大量的局面，在算法的能力之外，AlphaGo执黑或执白随机地出错。

　　三、AlphaGo的算法进步与人类棋手的应对

　　打了很多比喻，还是要具体说算法。

AlphaGo在去年3月以后，算法框架又有了突破。

但是从种种迹象来看，围棋AI下棋还是依靠三大技术：

给出搜索候选点的策略网络、评估局势的价值网络、展开搜索树模拟至终局数子的MCTS（蒙特卡洛树形搜索），这三大技术全部以“胜率”这样的概率输出统一起来。

AlphaGo、绝艺、DeepZenGo，以及一些更弱的AI都是这样下棋的，在基本框架上没有本质区别，有的没有价值网络。

谷歌团队厉害的是，在训练上有很多突破，做出来的策略网络、价值网络在质量与特性上，比其它AI要厉害得多。

　　在策略网络上，围棋AI都是学习人类高手棋谱训练的，AlphaGo的策略网络并不突出。

这是一个深度学习训练问题，Facebook的Darkforest在预测人类高手着手时正确率还更高，也有一些业余开发者做出了不错的策略网络。

AlphaGo展现的高超实力，并不是靠策略网络，它的开发门槛不高。

　　但是价值网络的开发门槛很高。

只有谷歌这种大公司，才能动用十几万个服务器产生几千万局机器自我对弈棋局，用于价值网络的训练。

后来腾讯也做到了，绝艺自我对弈超过30亿局。

而DeepZenGo的价值网络训练就似乎不容易，开发者加藤英树抱怨合作公司的支持不够。

DeepZenGo的价值网络甚至犯了这样一个错：

2017年3月22日世界围棋最强战，DeepZenGo执白负朴廷桓

　　这个局面左上部的几个白子是死棋，连业余棋手都知道。

但是DeepZenGo的价值网络却判断是“双活”，给出了完全错误的胜率判断。

这个局部看上去和双活的棋形很象，黑棋要吃掉白要经过一定次序的紧气。

这说明，价值网络是根据静态的相似棋形来判断的，不管怎么训练它的搜索能力都很差。

绝艺和AlphaGo的价值网络训练的棋局数多，表现肯定好些，但也还是静态的卷积神经网络计算，不具备动态的搜索能力。

　　从算法原理上就可以确信，无论怎么训练，价值网络都存在“bug局面”。

比如复杂的对杀、局部棋块死活，价值网络肯定会作出错误判断。

网上实战，绝艺和DeepZenGo就经常判断错误。

AlphaGo的价值网络肯定也有bug局面，它总是一个静态的神经网络，就算系数多达几百M，也不可能解决需要复杂推理的棋块死活问题，深度神经网络没有这种神奇能力。

正如人类高手看一眼棋局，也不能说出局部是死是活，得花些时间计算，除非以前见过这类“局部常形”。

　　这也是围棋奇妙的地方，局面稍有差别，价值网络可能以为是一回事，但死活就可能倒转，倒转突变程度远超国际象棋。

价值网络常见棋形训练多了知道是死是活，但如果局部棋形没出现过或者训练不足，就可能发生死活误判。

而且神经网络深度学习训练也不是说堆积样本就一定能全部训练正确，总会有一定差错率。

训练会进入瓶颈，这个训练弄对了，原先对的那个又错了。

包括策略网络的训练，预测人类高手着手正确率只会是50%多，再高上不去了，也没意义。

谷歌可以堆机器把训练做得更快，但不可能让价值网络产生神奇的能力，bug局面绝对大量存在。

　　据Deepmind透漏，2016年3月以后，AlphaGo的训练流程确实进入了瓶颈，应该是训练出来的新版对上一个新版棋力提升不多了。

价值网络和策略网络再怎么训练，棋力也没有显著提高了。

这时谷歌开发团队又做出了一个创新，可能就是Master神秘实力的重要来源。

　　之前围棋AI是学习人类高手棋谱生成策略网络的，但是人类高手群体其实有很多盲区！

就像后来不少高手看到Master的表现说，像开局点三三之类的着手，没有一个棋手想得到，集体没往那个方向想，但其实是可行的。

学习人类高手棋谱，这些新招只会有极低的预测概率，就搜索不到了。

但是开发团队发现，有些选点，虽然策略网络不看好，但真要下出来，价值网络却给出了不错的评分。

可以在训练中对价值网络海量尝试，补充一些胜率不错的选点给策略网络，又经过搜索与海量对弈发现，这确实是不错的选点。

这就是Master新招不断的技术秘密，其实也没那么神奇。

人类棋手没有明确的价值网络，也不可能天天去试一些奇招。

而机器自我对弈学习却可以这么做，训练流水线运转起来后，所有选点都试一下不过是写个循环，靠机器算力猛试就行了。

就算绝大部分失败，只要找到一些新招就足以震憾人类棋手了。

　　最后结果就是，获得价值网络的回赠之后，Master的策略网络已经和人类棋手很不一样了，人类棋手不敢想的招，Master敢想敢下。

Master和人类棋手60局对局，几乎每局都有这种人类想不到的招，这也是棋手们对Master十分敬畏的来源。

人类棋手要创新很难，能不断下出可行新招的棋手会得到极高的推许，正如吴清源大师，不知道他为什么那么能创新。

但是Master的创新却不难理解，就是极高质量价值网络的附加效应。

其实Master的新招下出来以后，人类棋手慢慢也能理解了，甚至在实战中应用了。

2016年12月31日，Master执黑对金庭贤

　　Master在17位挂了以后，19位直接开局点三三，惊爆眼球。

棋手们总结后也理解了，实战要点是不能D2位扳粘凑白虎成铁厚，而两侧的黑子能限制白厚势的发展。

后面条件成熟，黑就能从两侧攻逼这块厚势，E5的点会很犀利。

人类更多是没往这个方向想，而不是不能理解。

机器的价值网络是中立的，下出来它就冷静地全盘评估，没有人类阻碍创新的固有错误逻辑，天然就能发现好点。

Master的很多新手都有这个特点。

朴永训在正式比赛中对於之莹也是开局点三三，而且还胜了，复盘这招也是可行的。

　　可以从理论上相信，AlphaGo的价值网络，加上MCTS终局数子，对地域的估算比人精确得多。

对于一些虚虚的厚势，人类很难讲清楚其价值，AlphaGo却有成熟的套路给出胜率评估。

以此为基础，AlphaGo的价值网络加上搜索，在很多局面能发现人类的盲点，找出更恰当的围地选择。

如果围棋是一个双方和平围地的游戏，理论上人类棋手就可以认输了。

实际上Master的60局中不少就是如此，没有激烈的战斗，几个选择后，人莫明其妙就落后了。

其实就是围地搞不过AlphaGo。

　　围地就是子力的配合，角上、边上、中央，配合的方式多种多样，有的子能自己围，有的能破对方。

几面围起来空挺大，但是对手进来一个头效率就剧降，围地的效率很有讲究。

棋块的方向选择互相配合非常关键，低手往往想象不到这有多重要。

2009年9月4日，第一届丰田杯八强赛李昌镐执黑胜阿基鲁尔

　　阿根廷业余棋手阿基鲁尔曾杀入世界大赛八强与李昌镐对局，完全没战斗，就是划分地域，到这个局面就落后30目了。

黑棋的子都围了很结实确定的地，白棋边角的确定地不多，棋块形成的厚势面对黑的活棋没有作用，相互配合又成不了大空。

　　人类棋手也发展出不少围地理论，布局理论一度非常流行，甚至被认为是最高级的棋艺。

中国国家队曾长期学习日本，集体研究大局观，说收官与战斗自己研究就行。

但是世界棋坛的发展却出乎预料，高手们走向了暴力围棋。

这是因为人类棋手眼中的大局观，琢磨到后来就说不清楚了，高手复盘时经常意见不统一。

低手大局观提升变高手可以，高手再怎么提高就不知道了。

后来甚至以为围棋布局也就这回事，再怎么琢磨也占不了多大便宜，随便下下就行了，中后盘决战才是王道。

而且实战也确实如此，没有哪个棋手布局优势突出，都是拼中后盘。

　　直到围棋AI出现，人们才明白，原来布局方向选择比想象的还要重要。

不仅是AlphaGo，人们眼中实力并不太强的DeepZenGo大局观都很好。

最强战三场比赛，芈昱廷、朴廷桓、井山裕太大局上都落后于DeepZenGo。

如果和AI比大局观，比围地，人类棋手连DeepZenGo都战胜不了。

我和唐韦星九段一起在腾讯直播解说了DeepZenGo和一力辽的比赛，DeepZenGo虽然下得很快，但大局观还是明显比一力辽强。

绝艺的大局观应该和DeepZenGo类似，并不强太多，UEC杯决赛对DeepZenGo直到120手胜率还是0.5不占优。

AlphaGo由于有创新，大局观又要强很多。

　　人类选手在大局观上面对绝艺和DeepZenGo已经占不到便宜，甚至会吃点亏，但还没到被碾压的程度，后面可以等机会翻盘。

高手们面对Master可以说布局阶段就明显吃大亏，从来没碰到过这样的对手，一时不知道怎么办了。

首先用时策略就得改。

　　人类高手和AI下的时候，从围棋技术角度还以为是和人下，但又知道对手是AI心态扭曲，表现甚至更差。

和人下，会感觉布局并不是太重要，20秒、30秒双方下得有模有样。

谁也没有很厉害的大局功夫，有人稍强点也有限。

用时分配上就明显有倾向，布局阶段往往下得快，感觉差不多就下了。

不是说没时间思考，习惯上就不觉得能想多少，没什么好想的秒下算了。

有时碰上新手才用多些时间应对。

到中盘战斗与收官“复杂”起来，才开始习惯性长考，有人甚至认为长考说明局势困难。

　　这个用时策略对付绝艺或者DeepZenGo可能还行，吃亏不太大后面总有机会。

对付Master就不行了，感觉行棋布局肯定顶不住。

由于Master对人60：

0都是网棋，每手20秒或者30秒，人类高手被迫用错误的时间策略和它下，输这么惨这是很重要一个因素，Master的棋力优势放大了很多。

这次柯洁对战AlphaGo是3小时思考时间，五人相谈棋是2个半小时，一定要注意把时间花在序盘布局。

1分钟读秒的紧棋高手们有经验，宁肯进入中后盘读秒下，也不要序盘下快了莫明其妙吃大亏。

　　其实人类高手布局水平也不是说差到被Master碾压的程度，仔细思考表现会好得多。

如果思考时先存了一个“布局不要吃大亏”的想法，一些行棋方向判断仔细体会，肯定可以提高。

Master的60局中一些创新，体现了一些布局新思想，隐约有“全局关联”行棋的感觉，远处几个子不一样，焦点处的选择就不一样。

Master并不是靠惊天妙手在局部击溃高手们，更多是在平平淡淡的局面选择中体现功力，有不少反直觉的招法，仔细体会是成立的。

从算法角度，这些新招是可以解释的，就是价值网络的贡献，突破了人类策略网络的成见，不要看得太神秘。

多挖掘分析Master在60局中领先的原因，有助于人类高手在布局阶段顶住。

一些棋手已经在正式对局中模仿Master的下法，但不少棋手都说如果没有理解盲目模仿并没有好处，这是对的。

要下功夫去理解这些棋谱。

2016年12月29日，Master执黑胜於之莹

　　这是Master对於之莹的对局，黑23、25捞地，白26封住，好象是很自然的招法。

但是黑27不好应付。

白的棋形出现弱点，为了防断，只好28和30位补强自身。

这时黑31拆就显得价值极大了。

Master的棋经常有这种表现，它捞地，人类对手自以为外面是厚势。

但是再来几招就发现，对手的厚势Master有几个子远远的限制着，还有几个子贴着很讨厌，厚势变孤棋甚至被吃都可能。

后来白这团“厚势”确实被吃了。

2016年12月31日，Master执黑胜朴廷桓

　　这个局面也类似，Master连爬二路，4目做活，看上去很委曲。

但是仔细看，黑上面一块已经是带眼铁活的厚势，黑所得不小。

而白三路连压这一串，说是厚势，其实没有眼，黑棋再来一两手，这块棋就得忙做活了。

而且白这块“厚势”没有发展了，下面四个黑子远远地限制着，白也没有手段借这块厚势打入黑下面大搞破坏。

　　这类局面Master得心应手，而人类棋手即使在局面形成后能明白，前面也习惯性地行棋。

如“压对手爬二路真爽”，“封住再说”，“外面打一下不亏”，“分断总是对的”。

这些其实都不是绝对真理，需要继续推更多步来判断。

曾经日本棋手面对中韩棋手有理说不清，战斗起来被暴打。

其实就是感觉行棋，以为棋形正就对了。

日本前辈总结说，中韩棋手先不管棋形，不靠感觉判断，而是往下摆，摆出结果自然就说明问题了。

同样的错误，现在人类棋手面对AI布局时也在犯。

人类布局就靠感觉，有时根据一些“格言”秒拍，或者粗粗看下就觉得可行。

其实有些后续招法有必然性，能往后推不少步，再来判断感觉可能就不一样了。

布局时不能一味讲究“棋形”、“经验”。

哪怕就按人类下棋时的思维方法，也可以往后多推一些，再小心地进行局面判断，有时是能纠正一些错觉的。

　　布局时什么时候要小心，其实也不是完全没迹象。

如果子都在近前，人自然知道要小心推理，局部结果都受影响了。

就是有些子远远的放着，人容易掉以轻心，只看局部。

其实推多些步以后，这些远远的子就关联上了，有时甚至能直接参与战斗，更常见是能影响局部结果评估。

可能Master的价值网络也并不是多神奇，只是天生就是全局思维，从来不会只看局部，对这些全局微妙的地方体会深，不会产生错误的局部“格言”。

人类也要这样全局思维。

虽然一时难以做到很好，但和AlphaGo对战布局时改变一下思维模式，提醒自己多进行布局分析，应该是可以的。

　　这需要改变平时网上拍快棋的习惯。

年青高手特别喜欢在网上拍快棋，20秒都觉得慢了，经常下15秒的。

这是能锻炼棋感，但这么快下出来形成的往往只是局部的棋感。

要从全局出发培养棋感，需要多下慢棋，在慢棋中仔细体会全局配置。

起码要有了全局思维的习惯，再去下拍快棋。

高手们细心体会Master的全局思维，布局水平一定会有很大进步。

如果全局思维上取得进步，虽然从原理上还是没法胜过AlphaGo，和它对局时莫明其妙吃大亏的机会就小多了。

这其实是人类和AlphaGo目前差距最大的地方，也是人可以主动努力提高的方向。

　　人类棋手如果布局能顶住，战胜AlphaGo的机会就会明显上升，因为从算法原理上AlphaGo仍然会有难以消除的弱点。

　　谷歌团队在AlphaGo训练到瓶颈以后，又搞了几种创新。

除了前面提到的用价值网络选点补策略网络极大提升创新能力，可以肯定的是AlphaGo的训练速度提升了，从一月一个新版本进步到一周一个。

另外，还用了强化学习领域的一个技术，做了一个Anti-AlphaGo来专门针对AlphaGo的弱点，更快改进提升跳出训练中的局部陷阱。

这可能就是一周能出一个新版的技术原因。

另外还有说法，AlphaGo的策略网络和价值网络改了模型，输入不再是三值（黑白无）的图形，每个点根据棋块的性质可以有几十个值，相当于用彩色图形输入进行深度学习图像识别训练了。

也许这能提升计算速度，极大改进AlphaGo训练与下棋时的速度，快棋水平急剧提升。

这次比赛据说AlphaGo会用完全舍弃人类棋谱从0开始训练的版本，这个版本无疑创新性会极强，完全不受人类成见的“污染”。

具体会如何实在没法猜想，但棋谱会很有趣，说不定开局就不下角上。

　　这些改进一方面是提升了AlphaGo的下棋速度，另一方面提升了价值网络的水平，搜索时局面判断能力更强了。

这让AlphaGo的判断更强，围地能力更强，抛离人类对手很多，是绝对的“围地大师”、“创新大师”。

其实它自己并没有“创新”的感觉，它只是想围地，下出新招是对人类而言的。

但是，能不能说AlphaGo是“战斗大师”？

虽然它的战斗力也不弱，但明显不如布局创新这样能给人震憾。

有一些局面，人类是奔着大战一场去的，Master却平淡地控制局面，绕开了这类看不清的“大决战”。

　　从算法原理上来说，对杀、死活、劫争之类的战斗局面主要靠MCTS展开搜索树推理。

价值网络是不行的，静态的计算没法解决战斗问题。

AlphaGo是有推理能力的，会展开二三十步的搜索树推理，算法进步、硬件进步能更扩展更多步。

但是，这个框架就必然有一些机器的“难言之隐”。

展开阅读全文