西西河

主题:人类在所有竞技项目上输给机器是必然的 -- 贼不走空

共:💬63 🌺183 新:
全看分页树展 · 主题 跟帖
家园 不幸言中

一转眼一年又两个多月就过去了,阿狗刚刚赢得了与柯洁的第一局对弈的胜利

在赛后的新闻发布会上,从谷歌员工的口中亲耳得证了一年多以前的这个猜想

第一,谷歌应该是采用了这种multi-task的策略来进行这一代阿狗的训练,从而在布局与中盘阶段(这时候严格来说应该胜率起伏不是太大,因此胜率偏导落子的梯度较小),给阿狗以有意义的目标,避免丧失目标下臭棋。从整局的情况来看,我猜测阿狗这次搞了两套模型,一套是这种multi-task的,用于布局与中盘,另一套是原来单一task的,用于收官,因为这时候从策略上看,应该以求稳为主,而且梯度噪声的影响会比较小了

第二,谷歌声称这一代阿狗较上一代,计算量减小了一个数量级,也即10%,那么非常直观地,可以较为肯定地猜测,阿狗2.0采用了MobileNets网络架构,从论文上看,也基本上是正好运算量降一个数量级(Million Mult-Adds: 462->52.3, 4866->569)

第三,有记者提到了这个问题,但是估计是同传没有表达清楚,谷歌的回答有点文不对题,就是这一代阿狗是不是完全靠左右互博训练出来的。猜测应该有那么一点意思,但是还不够彻底。从谷歌的回答上,模模糊糊感觉value net的训练还是靠阿狗1.0的互博至终盘的结果,因此理论上不能说已经完全脱离了最初用于训练的人类棋局的影响。另一方面,从MobileNets方面来看,采取了一个比较重要的训练手段就是distillation,那么阿狗2.0也很有可能是从阿狗1.0上蒸馏出来再进一步训练的。因此现阶段就说是从零开始学围棋,可能还不是非常客观的

第四,谷歌提到这一代阿狗下棋,采用了10个TPU处理器。这个就不深究了,反正前几天google I/O上也说了,估计英伟达老黄会感到菊花一紧吧

最后一句,去年跟一个叫pattern的兄弟谈到关于阿狗左右互博里牵涉到的unsupervised learning的问题,看看这一年来火得发烫的各种GAN,也只能说当初我们的想像力都还不够,哈哈

全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河