主题：创新才有围棋的未来--再说alphaGo -- pattern

共:💬11 🌺49 新:

老大河待整

创新才有围棋的未来--再说alphaGo

3月15日，alphaGo 以4:1 战胜了李世石，这是alphaGo 第二次对战职业围棋手，这样的成就的确是令人吃惊的。alphaGo短短时间内先横扫所有以前的围棋程序，然后战胜二段职业选手，最后战胜顶级围棋高手。这样的速度，这样的成就，令人窒息。比赛之前，很少有人看好alphoGo ,实际上我先前预测的的比分也是 4:1，(链接出处)只不过是李世石胜，囧。预测失败的原因（狡辩）也在那个帖子里。

是谁战胜了李世石？

虽然还有小部分人怀疑，但是大多数人恐怕要质疑中日韩棋院的存在必要性了。拼死拼活也干不过计算机，棋院的继续存在还有意义吗？棋手们的存在意义在哪里？有alphaGo就够了。可是，真的是计算机战胜了李世石吗？从alphaGo 的原理来看（链接出处），我们不能得出这个结论。

alphaGo的智能首先来源于过去围棋大师们的棋谱，alphaGo在工程师们的安排下，不停学习高手们是如何下棋的。然后把学习成果固化成alphaGo.所以实际上并不是计算机战胜了李世石，而是工程师们融合了以前的围棋大师们的智慧，用这种全面学习的方式战胜了顶尖棋手。李世石面对的不是alphaGo，而是所有过去和现在的高手（也许还包含他自己），所以他输得不冤枉。因此我们也可以比较有把握地判断，柯洁或者其他人，短时间内也无法战胜alphaGo 了。

点看全图

alphaGo 是围棋终结者吗？

那么alphaGo达到了什么水平?我认为是到达了人类目前的最高水平，也许还要高一点或者低一点，但是不会太多。它的左右互博训练方法可以帮助它达到和维持现有的水平，但是从原理上来说，能够在此基础上再提高一点都是非常困难的。因为围棋的空间如此之大，它无法判断左右互博下出的棋是一个能提高自己的好样本。那么谁能判断这是一局好棋？只有人类反复琢磨，反复演化，才能评判是否可以列入好样本。如果说人类目前探索了围棋世界的10%，那么alphoGo 也基本上包含在这10%里面。剩余的90%大家都还不清楚。所以alphaGo还远称不上是围棋终结者，更谈不上是人类终结者。我们人类的可怜未来还可以继续。

创新才有围棋的未来

但是有了alphaGo，围棋的确和以前不一样了。那些还在旧的10%里面下棋的人，创造力相对较小的将会比较郁闷；而对顶尖高手来说，alphaGo 却为他们打开了一个新天地，因为现在他们有了一个不知疲倦，永远保持在高水平的对手，任何创意和想法都会有很好的回应。将遇良才，棋逢对手，正是探索无穷棋道的好时光。下出10%范围的人，打败alphaGo,甚至经常打败alphaGo也会发生。

通宝推：jent,唐家山,铁手,青颍路,

复创新才有围棋的未来--再说alphaGo

家园

谷歌已经计划要阿尔法狗重新学围棋了

不同的是，这一次不从人类的棋谱中学，只是左右互搏。

过几个月，看看新版本的阿尔法狗再出场，能不能还有九段水平，还是天外来客水平。

复创新才有围棋的未来--再说alphaGo

家园

只要有固定规则与边界的事物都是计算机可以对付的

阿尔法狗说明的一个道理是，基本上，这种存在固定规则的，即使计算量大到超过计算机能力，以后也可以交给计算机去处理了。就比如无人驾驶汽车有可能在公路上行驶，因为有交通规则，有交通信号等。但是没有道路的地方，只有人可以开车了。

扩展一步说，只要是人制定规则的系统，从管理到设计，从法律到产品，慢慢的都是计算机可以大行其道的领域。只有面对自然与未知，这个才是人制造的计算机无法面对的地方。

复创新才有围棋的未来--再说alphaGo

家园

兄弟你好纠结这个左右互搏啊

我觉得左右互搏能够提高狗狗的能力，能够创新，不会局限于人类棋谱并不存在太大的问题

看你前面的文章，兄弟应该也挺关心深度学习的unsupervised learning吧。其实深度学习用于supervised learning也就是这两三年的事，深度学习是从unsupervised起步的，可以看一下谷歌在2012年CVPR上的那篇关于人脸猫脸的论文。深度学习的最本源理论是华裔数学家陶哲轩的compressed sensing/sparse coding（图灵死之前的研究好像跟这个很类似，他在琢磨怎样用数学公式将奶牛身上的花纹描述出来，可惜没研究完就死了，不然现在我们可能都躺营养液里呢。。。），谷歌最初就是依据这个理论，输入大量图像，要求计算机用最少（稀疏）的特征将所有图像描述出来，然后能进行损失最小的还原，实验的结果，机器从这些图片里挖掘出来了人脸猫脸这些相对抽象的概念，虽然机器并不知道这些概念是什么

换句话说，深度学习的能力是其与生俱来的，只要能设计出合适的loss function，在这个loss function的inference中不存在循环论证，就能解决问题，supervised learning只是把这种能力限制到我们指定的任务中，学习起来可能更快

对于围棋来说，其实这个loss function天然存在，就是最后的输赢，同样的可以参考谷歌从零开始玩像素游戏的论文，目标是得到尽可能高的游戏分数。所以我觉得谷歌说从零开始学围棋并不是一句空话，可行性是非常高的，既然如此的话，那左右互搏能够增强狗狗棋力就是板上钉钉的事情了

非常恐怖而又可悲的一点，在超大型多人在线角色扮演游戏“地球online”或者“宇宙online”中，这个loss function也是天然存在的--生存or灭亡！所以我个人觉得，这可能是一个很危险的尝试

通宝推：乔治·奥威尔,铁手,

复兄弟你好纠结这个左右互搏啊

家园

unsupervised learning

是个很好的方向，比supervised也更有吸引力，可是目前有什么样的成果呢？核心是loss function 的设计吗？

从deepmind 的论文看，alphoGo的框架是很清楚的。他们是说自己的左右互博是 "增强学习"，不是无监督学习。谷歌说从零开始学围棋，我看了一下，应该还只是新闻上的一些随便一说的东西，没有严格论证的。至少我觉得这个方向是很悬的，难度不是一般的大。当然能成的话意义也很大，不是一般的大。

Idea is cheap,show me the result!

复谷歌已经计划要阿尔法狗重新学围棋了

家园