主题：alphaGo 系统以及人工智能的未来 -- pattern

共:💬83 🌺264 新:

谢谢链接

田的分析对搞这行的人来说没什么新意可言，只能算是个科普吧。。。

谷歌的nature文章是早就出来了，但是细节内容有所保留无疑

举个最简单的，比如谷歌说自己和自己下棋，每盘棋是只选了一个局面作为样本来进行训练

但是这个局面是怎么选出来的呢？我想如果是random，那结果一定不会是现在这样的

直观来看，最有效的样本应该是在“胜负手”的位置上，不仅学得的效果会好，而且训练速度也会快不少

当然“胜负手”的判断利用value network是能够做到的，但是这样的话value network和policy network之间一定会有一个成为整个系统的天花板，但是狗狗好像没碰到这个问题，所以一定是有黑科技没有公布出来

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友