- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:人类在所有竞技项目上输给机器是必然的 -- 贼不走空
一转眼一年又两个多月就过去了,阿狗刚刚赢得了与柯洁的第一局对弈的胜利
在赛后的新闻发布会上,从谷歌员工的口中亲耳得证了一年多以前的这个猜想
第一,谷歌应该是采用了这种multi-task的策略来进行这一代阿狗的训练,从而在布局与中盘阶段(这时候严格来说应该胜率起伏不是太大,因此胜率偏导落子的梯度较小),给阿狗以有意义的目标,避免丧失目标下臭棋。从整局的情况来看,我猜测阿狗这次搞了两套模型,一套是这种multi-task的,用于布局与中盘,另一套是原来单一task的,用于收官,因为这时候从策略上看,应该以求稳为主,而且梯度噪声的影响会比较小了
第二,谷歌声称这一代阿狗较上一代,计算量减小了一个数量级,也即10%,那么非常直观地,可以较为肯定地猜测,阿狗2.0采用了MobileNets网络架构,从论文上看,也基本上是正好运算量降一个数量级(Million Mult-Adds: 462->52.3, 4866->569)
第三,有记者提到了这个问题,但是估计是同传没有表达清楚,谷歌的回答有点文不对题,就是这一代阿狗是不是完全靠左右互博训练出来的。猜测应该有那么一点意思,但是还不够彻底。从谷歌的回答上,模模糊糊感觉value net的训练还是靠阿狗1.0的互博至终盘的结果,因此理论上不能说已经完全脱离了最初用于训练的人类棋局的影响。另一方面,从MobileNets方面来看,采取了一个比较重要的训练手段就是distillation,那么阿狗2.0也很有可能是从阿狗1.0上蒸馏出来再进一步训练的。因此现阶段就说是从零开始学围棋,可能还不是非常客观的
第四,谷歌提到这一代阿狗下棋,采用了10个TPU处理器。这个就不深究了,反正前几天google I/O上也说了,估计英伟达老黄会感到菊花一紧吧
最后一句,去年跟一个叫pattern的兄弟谈到关于阿狗左右互博里牵涉到的unsupervised learning的问题,看看这一年来火得发烫的各种GAN,也只能说当初我们的想像力都还不够,哈哈
- 相关回复 上下关系8
压缩 2 层
🙂知己知彼,因敌制胜 1 贼不走空 字81 2016-03-15 11:10:14
🙂时间都去哪儿了…… 4 贼不走空 字859 2016-03-14 23:12:53
🙂不一定 16 jahcoo 字1589 2016-03-14 09:27:30
😉不幸言中
🙂觉得谷歌如果是为了测试程序,这个比赛形式不对 2 scorpioking 字243 2016-03-15 05:51:28
🙂呵呵,或许赛前谷歌也没想到小李子这么猛 5 jahcoo 字1268 2016-03-15 10:49:42
🙂比赛之前,谷歌团队内部估算小李子没有胜算 2 新陈代谢 字483 2016-03-15 14:04:57
🙂不錯, 要測肯定是請專業棋社組隊測 10 岑子 字1623 2016-03-15 07:52:55