主题：alphaGo 系统以及人工智能的未来 -- pattern

共:💬83 🌺264 新:

我们在左右互搏这个问题上

不太一致。你大概是认为左右互博可以有很多超越人类的创新。

我认为左右互博只是弥补样本不足的问题。DEEPMIND 在他们的论文中说通过强化学习，策略网络的准确率从57%提升到了80%。我觉得这个小组还是通过人类的棋局来判断准确率的。但是人类的棋局太少，因此需要自我下棋来增多样本来提高网络的准确率。

核心就是我认为这些样本不太会有超越人类的创新。高水平的左右互博也许会有一些创新，但不太会有太大的比例。因为这相当于用蒙特卡洛算法可以下出大量超越现有水平的棋。如果这个能实现的话，也用不着深度学习了。

另一方面，左右互博的样本，还有一个可能是下了一盘臭棋，因此会降低网络的胜率。DEEPMIND是如何排除，或者是一股脑儿接收的。这个还需要进一步的细节。

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友