西西河

主题:【围观】Alphago zero的第一盘棋和后来 -- PBS

共:💬24 🌺40 🌵2 新:
分页树展主题 · 全看 下页
  • 家园 【围观】Alphago zero的第一盘棋和后来

    在什么都不会的情况下,仅仅服从围棋规则,阿狗零左右手互搏下出这样的第一盘局面:

    图1

    点看全图

    外链图片需谨慎,可能会被源头改

    看了以后哈哈大笑,两个傻棋手规规矩矩下傻棋。

    经过3天72小时连续不停下了490万盘棋后,无师自通,达到击败李世石的阿狗李版本,21天后,达到击败柯洁的阿狗大师版本。

    图2

    点看全图

    外链图片需谨慎,可能会被源头改

    图3

    点看全图

    外链图片需谨慎,可能会被源头改

    此次的亮点在于,在没有人类历史对局的记录作为参考,AlphaGo Zero无需人类指导就能让自己成为自己的老师,并且训练的时间更短。

    根据谷歌的DeepMind团队表示,人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。此次AlphaGo Zero的出现不仅仅意味着围棋上的成功,还意味着距离通过创建通用算法来解决科学中的难题又进了一步。

    此次运行阿狗零的计算机硬件只有4个TPU,比前两个版本少了一大截。

    关键词(Tags): #人工智能
    • 家园 狗蛋表示

      我不是针对谁,我是说在座的各位

    • 家园 革命性的进步

      AI在加速,很快就可以在越来越多的领域取代人类了

    • 家园 不知道这个能自学习的Ai在实际应用中会有什么的表现。

      感觉是个改变人类历史的东西。

      • 家园 AI可以应用在什么领域?

        俺自认为,AI的领域如下:

        1. 只要能把学习成本降下来,就可以应用AI。

        2. 要想AI做得比人好,目标必须可以客观量化。

        没有学过AI,希望抛砖引玉。

        • 家园 也许这个演讲有些线索

          黄士杰台湾人工智慧年会演讲:Zero版本并未到达极限

          2016 年,Google 旗下 DeepMind 公司开发的 AlphaGo 击败了韩国职业九段棋士李世石。今年 5 月,AlphaGo 以三战全胜的纪录赢了名列世界第一的棋王柯洁。隔了五个月后,DeepMind 公布了 AlphaGo Zero,它再度让人类感到震撼。

          「我没有想过一个名词能获得所有人的认同,从政治人物、科学家、企业家、到学生甚至是小孩,都觉得这件事明天会发生,这场完美风暴的引爆点是 AlphaGo,黄士杰可能自己都没想过,他那隻帮机器下棋的手,改变这个世界:让大家相信或者忧虑机器会超越人类」,Google 台湾董事总经理简立峰说。

          人工智慧,是简立峰口中的完美风暴,AlphaGo 则是这一波 AI 风潮的最佳代言人,那麽,黄士杰呢?相信 DeepTech 的读者们已经对这个名字并不陌生,他是 DeepMind 资深研究员,是与人类顶尖棋手对弈时代 AlphaGo 执棋的「人肉臂」,更重要的是,他还是开发这个神秘大脑的关键人物之一。

          11 月 10 日,黄士杰应台湾人工智慧年会之邀来台演讲,演讲主题是「AlphaGo—— 深度学习与强化学习的胜利」,也是他首次公开演讲。

          不久前,在 DeepMind 发表了《Mastering the game of Go without human knowledge》的最新论文后,黄士杰曾在 Facebook 写下: AlphaGo Zero 是完全脱离人类知识的 AlphaGo 版本。这也就是取名为 AlphaGo Zero 的原因——AlphaGo 从零开始。

          在今天的演讲上,他强调,DeepMind 的目标是要做出一个通用人工智慧,也就是强人工智慧,但他也认为,对 DeepMind 来说,强人工智慧还是很遥远,现在最强的学习技能仍然在人类大脑内,有人说强人工智慧要到 2045 年,有人说至少还要 100 年,黄世杰的回答是:「大家不要太担心,电影还是电影。」

          从 DeepMind 为什麽开始做围棋一直到最新的 AlphaGo Zero,见证了这一切的他称「这几年好像在做梦」。

          以下为演讲内容整理(原文略有删改):

          「人因梦想而伟大」,是我加入(DeepMind)五年之后最大的体会,这段经历对我个人最大的影响就是整个人对 AI 的认识不断加深。DeepMind 团队卧虎藏龙,精神非常强,当 AlphaGo 结束时,我的老板过来跟我说:「Aja(黄士杰英文名),AlphaGo 已经完成所有一切我们希望它该完成的任务,所以我们要再往前迈进」。这群高手都有一个清楚的远大目标,就是做出通用人工智慧——解决 A I,把世界变得更好。

          我从小就喜欢下棋,棋艺业馀六段,再往上就是职业等级。回顾加入 DeepMind 这五年及 AlphaGo 的发展历史,有四件事对我意义非常大,第一件是在韩国赢了李世石,那天 Demis Hassabis(DeepMind 的 CEO)在推特上写著:「赢了,AlphaGo 登上月球」。我们最初没想过会做出这麽强的 AlphaGo,当初是抱持著「探索」的心理开始的。开发过程很辛苦,连过圣诞节时,AlphaGo 都还在自我对弈,同事也都还在工作。所以对我们来说,AlphaGo 赢了就像阿姆斯特朗登上月球一样:「这是我的一小步,却是人类的一大步。

          第二件是操作 AlphaGo Master 在网路 取得 60 连胜,第三是在中国乌镇比赛打赢柯洁。我参加了两次人机大战,两次的气氛都非常不一样。在韩国时,我们都可以深深感受到李世石的巨大压力,感觉他是为人类而战,第二次在乌镇的气氛倒是满愉快,大家是一种建设性而不是对抗性的气氛。

          第四件事就是 AlphaGo Zero 诞生,DeepMind 把所有人类围棋知识抛弃掉,只给规则让它从头开始学。我回想起我在师大念博士班开发 Erica 围棋电脑程序,每天写程序、解 Bug 、做测试到半夜的日子,但 AlphaGo Zero 把我之前做的这些事全部取代,完全不需要我的协助。

          于是有同事问我,AlphaGo Zero 把你过去十几年在计算机上做的研究一点一点的拿掉,还远远超越你,你有什麽感觉?一开始我心情有点複杂,但后来想想这是「趋势」。如果我让 AlphaGo 有所阻碍的话,那我确实应该被拿掉,AlphaGo 99% 的知识经我之手,它到达这一步其实是我从事计算机围棋研究的非常好的收尾,我已经非常满足了。

          开发 Erica,获邀加入 DeepMind

          AlphaGo 怎麽开始的?其实是三组人马走在一起、串起来的结晶,第一条线是 Demis Hassabis 和 DeepMind AlphaGo 项目负责人 David Silver,第二条线是我,第三条线是 Google Brain 的两位人员 Chris Maddison 和 Ilya Sutskever。

          Demis Hassabis 和 David Silver 是在剑桥大学的同学,他们一起创业。他们为什麽想做围棋呢?当年 IBM 深蓝赢了西洋棋世界冠军卡斯巴罗夫,就只剩下围棋是人工智慧最大的挑战。因此他们一直就希望做出很强的围棋程序,这是他们的梦想。一开始,研究人员是将西洋棋的技术放进围棋,但这失败了,2006 年蒙特卡洛树出来之后,围棋程序提升到业馀三段,但离职业水平还是有极大的差距。

          当我开发出的 Erica 在 2010 年的计算机奥林匹亚获得 19 路围棋的冠军时,我使用的硬体是 8 cores,Zen 用了 6 台 PC,美国的 Many Faces of GO 是用 12 cores,其他对手都是用大机器,但小虾米却赢了大鲸鱼。不久,Demis Hassabis 就写了一封信问我要不要加入,面试时他们告诉我,他们的梦想就是强人工智慧。隔年我就加入 DeepMind。当我们开始做 GO Project 时,大家都有一个共识——不複製 Erica,因为没有意义,我们决定要把深度学习应用进来。

          AlphaGo 的成功是深度学习与强化学习的胜利

          我们怎麽判断深度学习可能可以用在围棋呢?如果说,人看一个棋盘,几秒内大概可以知道下这裡、下那裡会是好棋,这种任务神经网路就办得到,但如果要想好几分钟后怎麽走,那神经网路就可能办不到。当初我们就有这 么一个直觉:要以深度学习建构策略网路。

          AlphaGo 的主要突破是价值网路,有一天,David Silver 跟我说他有这样一个想法,当时我还有点质疑。我们把策略网路做出来后,胜率就提高到 70~80%,后来加入了 David Silver 提出的价值网路,要让机器进行不断左右互搏的自我学习,一开始不太成功,过了一个月我们克服 over fitting 的问题后,AlphaGo 的胜率大大提升到 95%,而这也是后面 AlphaGo Zero 的主要核心。

          后来老板就说,要跟人类面对面下棋,就得跟樊麾老师比赛。我记得,当樊麾第二盘棋输了之后,他就说:我要出去走走,因为现场只有我和他说中文,我就说:我陪你,他回答:不用,我自己透透气。樊麾回来后,他变得很正面,他不觉得这东西很可怕,而是很正面也很值得期待,因此他后来也变成 DeepMind 团队的一员。再后来,我们选择公开发表这个研究的论文,因为科学的精神就是互相分享,希望推动整个研究领域进步。之后,加入 Google 也为我们带来很大帮助,特别是硬体上,从 GPU 到 TPU 都没有后顾之忧。但 TPU 对我们有极大帮助,把胜率提高了很多。

          另外,大家不要忘记,AlphaGo 在跟李世石比赛时,第四盘棋输的很惨,我当时想说,我自己来下都比较好。儘管最后我们赢了,但回去后就一定要解决这个弱点,不是只解决当初第四盘的弱点,必须全面性地解决,否则以后还是没有人敢用 AI 系统。进化后的版本就是 AlphaGo Master。

          我们到底怎麽解决呢?还是用深度学习跟强化学习的方法,而不是用人类知识方法。

          1. 我们把 AlphaGo 的学习能力变强,从神经网路加深:从 13 层变成了 40 层,并改成 ResNet。

          2. 把 2 个网路(决策网路、价值网路)结合成 1 个网路,让 AlphaGo 的直觉和判断同时得到训练,更有一致性。

          3. 改进训练的 pipeline。

          4. 解决了模仿期、循环期等特别情况。

          超越以往的 AlphaGo Zero

          AlphaGo Zero 是连我们自己都很惊讶的版本,因为它第一步就是把所有人类知识的部分都抛掉,它是脱离「人类知识」,不是脱离「规则知识,我们一样是给要它 19X19 的盘面训练。

          从零开始的 AlphaGo 还真的是全部乱下、彻底乱下,所以最初我们预期 AlphaGo Zero 应该是赢不了 AlphaGo Master,后来我们用了一些方法把卡住的地方解决了,细节可以参考论文,没想到 AlphaGo Zero 进一步超越原先的版本,3 天就走完人类几千年围棋研究的历程。深度学习跟强化学习的威力真是太大。

          AlphaGo Zero 用了 2000 个 TPU 、训练了 40 天。第 40 天还没有到达其极限,但因为我们机器要做其他事情就停下了,所以它还有很大的潜力。AlphaGo Zero 论文的目的不是要做出很强的程序,也没有想要跟人类知识比较、或是讨论人类知识有没有用这些问题,而是想证明程序不需要人类知识也可以拥有很强的能力。

          我观察到,计算机围棋 AI 的价值在于帮助人类或棋手扩展围棋的理论和思路,未来 AI 是人类的工具,跟人类合作,而非跟人类对抗。强人工智慧还是 Far Away,现在最强的学习技能仍在人类的脑袋裡。

          David Silver 曾指出:”lphaGo 已经退役了。这意味著我们将人员和硬体资源转移到其他 AI 问题中,我们还有很长的路要走」。大家都在关注未来 DeepMind 下一个锁定的领域,而在会议上,黄士杰没有透露太多,但强调「让世界变得更好」,就是 DeepMind 的终极目标。

          至于是否可能将 AlphaGo Zero 开源?黄士杰的回答是目前公司没有这种想法,论文其实写得很清楚,之后大家也可以进一步优化演算法。

          和此前的 AlphaGo 版本相比,AlphaGo Zero 的主要成果如下:

          1. AlphaGo Zero 从零开始自我学习下围棋。

          2. 仅仅 36 小时后,AlphaGo Zero 靠著自我学习,就摸索出所有基本且重要的围棋知识,达到了与李世石九段对战的 AlphaGo v18(也就是 AlphaGo Lee)的相同水平。

          3. 3 天后,AlphaGo Zero 对战 AlphaGo v18 达到 100% 的胜率。

          4. 不断进步的 AlphaGo Zero 达到了 Master 的水平。Master 即年初在网路上达成 60 连胜的 AlphaGo 版本。

          5. 40 天后,AlphaGo Zero 对战 Master 达到近 90% 胜率,成为有史以来 AlphaGo 棋力最强的版本。

          过去,DeepMind 在训练 AlphaGo 时,先让机器看 20~30 万个棋谱,累积一定的人类知识后开始进行自我对弈,自我对弈到达一定程度后机器就有机会赢过人类,因为机器可以在数个礼拜内就下几百万盘,它的经验比人多得多。黄士杰指出:「AlphaGo 成功的背后是结合了深度学习(Deep Learning)、强化学习(Reinforcement learning)与搜索树演算法(Tree Search)三大技术。」

          简单来说,当时的 AlphaGo 有两个核心:策略网路(Policy Network)、评价网路(Value Network),这两个核心都是由卷积神经网路所构成。具体而言,首先是大量的棋谱被输入到「策略网路」中,机器会进行监督式学习,然后使用部分样本训练出一个基础版的策略网路,以及使用完整样本训练出进阶版的策略网路,让这两个网路对弈,机器通过不断新增的环境数据调整策略,也就是所谓的强化学习。而「策略网路」的作用是选择落子的位置,再由「评价网路」来判断盘面,分析每个步数的权重,预测游戏的输赢结果。当这两个网路把落子的可能性缩小到一个范围内时,机器计算需要庞大运算资源的负担减少了,再利用蒙特卡洛搜索树于有限的组合中算出最佳解。

          不过,到了 AlphaGo Zero,DeepMind 则是让它「脑袋空空」——没有输入任何棋谱,让机器自己乱玩。

          也就是说,从一个不知道围棋游戏规则的神经网路开始,没有任何人类指导或人类智能的参与,仅仅通过全新的强化学习演算法,让程序自我对弈,自己成为自己的老师,在这过程中神经网路不断被更新和调整。没想到的是,机器训练的时间更短,但却更聪明,例如,AlphaGo Zero 在 3 天内进行过 490 万次自我对弈,就达到了先前击败李世石的程度,但之前他们训练与李世石对战的 AlphaGo 却花费了长达数个月的时间。另外,AlphaGo Zero 21 天就达到了在乌镇围棋峰会打败柯洁的 AlphaGo Master 的水平。

      • 家园 应该有很多用处

        凡是从零开始的东西都可以计算。

        比如进化,生命起源等等。

      • 家园 觉得这玩意在医学影像诊断上会很有用

        但是我不懂AI,影像懂一点。。有没有人合作的?

        • 家园 这个。。。在各大医疗器械公司都在大力拓展当中

          举例而言,至少不晚于2003年前后,西门子就开展了基于MRI大医疗图像数据库的技术研发与产品研发,蔡司的眼底OCT其医学数据分析更是一大卖点,飞利浦的超声波更是早早就把图像分析,分类,识别等等AI技术应用在他们的产品当中。

          ------------------------

          同时,医学影像产品在各领域都有其专业的标准化体系。所以,如果你想做这一块的话,最好能够对这些有所了解。

        • 家园 额,围棋有明确的规则。

          医学影像不懂,医学影像是有明确的规则的么?

          • 家园 插一嘴哈,医学影像有一定的规则,不过肯定有模糊地带。

            围棋有明确的规则,所以afZero只需要几十个小时就能超越人类千年的努力。

            医学影像的话,会慢很多,每次Zero做出一个结果后,医学影像专家给它一个反馈,Zero再进行学习调整。

            不过最有趣的是,Zero在完成学习后,反过来会推导出一个更明确的规则。

            估计围棋也是,围棋的贴目到底多少合适,从目前Zero 的自对局胜率来看,好像6.5目有点高。

            • 家园 所以问题就来了

              “医学影像专家给它一个反馈,Zero再进行学习调整。”如果是这样的话,那么其实Zero是无法超脱目前医学发展水平的。它只能在这个水准内逼近极限,不知道这样说有没有问题。

              同时,由于人类无法明确“模糊地带”的定义,Zero最多最多,只能给出某种程度的概率,而无法在医学影像上“推导出一个更明确的规则”??

              --------

              我其实一直在怀疑这种AI最终的用途。跟以前电脑所引发的革命一样,在明确的规则面前,人类是完败的。但是规则不明确的情况下呢,会如何。

              • 家园 可以找最后有活检的案例学习

                因为活检可以看成是确定的信息,对判断准确与否的最终判断,AI超过人是毋庸置疑的

              • 家园 极限肯定存在

                你看图3,到了5000点以后,阿狗零的进展就不快。

                是19X19盘子到了极限还是其它原因?

              • 家园 目前来看,人工智能的前景很乐观

                人类的规则其实也都是明确的,但是可能特别复杂,以至于无法有效地抽象出来

                说白了,人脑也就是简单结构的叠加,只不过神经元的数目众多,所以海量的简单结构相互协同作用,形成了看似复杂的思维

                目前的硬件条件还比不上人脑众多的神经元,所以很多训练过程需要人工辅助定义规则或者损失,否则永远算不出来。不过这只是量的区别,不是质的区别

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河