主题：人类在所有竞技项目上输给机器是必然的 -- 贼不走空

共:💬63 🌺183 新:

老大河待整

不幸言中

一转眼一年又两个多月就过去了，阿狗刚刚赢得了与柯洁的第一局对弈的胜利

在赛后的新闻发布会上，从谷歌员工的口中亲耳得证了一年多以前的这个猜想

第一，谷歌应该是采用了这种multi-task的策略来进行这一代阿狗的训练，从而在布局与中盘阶段（这时候严格来说应该胜率起伏不是太大，因此胜率偏导落子的梯度较小），给阿狗以有意义的目标，避免丧失目标下臭棋。从整局的情况来看，我猜测阿狗这次搞了两套模型，一套是这种multi-task的，用于布局与中盘，另一套是原来单一task的，用于收官，因为这时候从策略上看，应该以求稳为主，而且梯度噪声的影响会比较小了

第二，谷歌声称这一代阿狗较上一代，计算量减小了一个数量级，也即10%，那么非常直观地，可以较为肯定地猜测，阿狗2.0采用了MobileNets网络架构，从论文上看，也基本上是正好运算量降一个数量级（Million Mult-Adds: 462->52.3, 4866->569）

第三，有记者提到了这个问题，但是估计是同传没有表达清楚，谷歌的回答有点文不对题，就是这一代阿狗是不是完全靠左右互博训练出来的。猜测应该有那么一点意思，但是还不够彻底。从谷歌的回答上，模模糊糊感觉value net的训练还是靠阿狗1.0的互博至终盘的结果，因此理论上不能说已经完全脱离了最初用于训练的人类棋局的影响。另一方面，从MobileNets方面来看，采取了一个比较重要的训练手段就是distillation，那么阿狗2.0也很有可能是从阿狗1.0上蒸馏出来再进一步训练的。因此现阶段就说是从零开始学围棋，可能还不是非常客观的

第四，谷歌提到这一代阿狗下棋，采用了10个TPU处理器。这个就不深究了，反正前几天google I/O上也说了，估计英伟达老黄会感到菊花一紧吧

最后一句，去年跟一个叫pattern的兄弟谈到关于阿狗左右互博里牵涉到的unsupervised learning的问题，看看这一年来火得发烫的各种GAN，也只能说当初我们的想像力都还不够，哈哈

全看分页树展 · 主题跟帖

相关回复上下关系8
压缩 2 层
- - 🙂知己知彼，因敌制胜 1 贼不走空字81 2016-03-15 11:10:14
- 🙂时间都去哪儿了…… 4 贼不走空字859 2016-03-14 23:12:53
- 🙂不一定 16 jahcoo 字1589 2016-03-14 09:27:30
  - 😉不幸言中
  - 🙂觉得谷歌如果是为了测试程序,这个比赛形式不对 2 scorpioking 字243 2016-03-15 05:51:28
    🙂呵呵，或许赛前谷歌也没想到小李子这么猛 5 jahcoo 字1268 2016-03-15 10:49:42
    🙂比赛之前，谷歌团队内部估算小李子没有胜算 2 新陈代谢字483 2016-03-15 14:04:57
    🙂不錯, 要測肯定是請專業棋社組隊測 10 岑子字1623 2016-03-15 07:52:55

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明