主题：【原创】机器学习的基础是什么？(0) -- 看树的老鼠

共:💬154 🌺509 🌵1 新:

老视野待整

全看分页树展 · 主题跟帖

复我的想法是你恐怕考虑偏了一些

家园

我确实思考偏了，因为我对传统科学方法感情太深

现今的机器学习，实际上和你的这些思考关系并不大。你的这些思考实际上是在思考人类的认知和科学的发展，而不是现今的机器学习。

如鸿乾兄所说，现今的机器学习主流，与我的这些思考关系并不不大。

我之所以有这些思考，来源于最初我对机器学习的期待过高，以为它得到的模型和传统科学理论有可比之处。然后让我烦恼的就是：它怎么能比传统科学研究方法便捷这么多。

我这系列文章，都是在解决这个问题，机器学习在解决问题上确实便捷很多，但和传统科学范式完全不同。完全牺牲了可理解性。

但是，这个凑数据的深度和广度完全不同，最关键的是背后的推动模式完全不同，或者说，凑数据用的道理的方式，完全不同。机器学习是用的现成的数学模型，唯一可以改变的就是模型的参数。而科学家群体能够做的事情，背后的推动，就完全不是现成的数学模型可以涵盖的。

回头来说这个问题，机器学习模型是否应该具备可理解性？我觉得是可能的。

有两种理解方法，一个方法是机器学习模型的底层数学模型的概念是清楚的。这里不多说。你好像不太喜欢数学模型，咱们先放放，后面再谈。

另一种理解方法，就是看这个模型的外在表现。以前在猫的帖子中，Google的深度神经网络各个节点的含义，很难用数学说清楚。这也是很正常的。假设人脑中有一个猫神经元，这个神经元的连接关系，用数学描述出来，人估计也看不懂。但是呢，把这个节点对哪些图像感兴趣，把这些图像列出来，人是能看明白的。

同理，我们做一个自然语言处理的神经网络，现在也能够看出，某些神经网络节点表达的是一类概念相近的词语。最近还有一个特别好玩的工作，就是把每个词表达为一组神经网络节点的开与关，这样就形成了一个0/1向量。现在呢，我们把所有词表达为向量，结果有人发现，king向量-man向量+woman向量，得到的结果，与之最接近的向量对应的词语是什么，大家猜猜？

再深一步，我在想，机器学习模型是否可以创造可理解的科学理论呢？现在的机器学习就是拿最简单的函数来搭出一个模型，比如这个函数是logistic函数。比如我们用机器学习来学习万有引力定理，万有引力定理是GMm/(r^2)，机器搭出来的模型是用logistic函数模拟的，所以机器的模型里面没有乘法、除法、平方函数，但是，选取一个节点A，如果我们发现它和输入的关系就是M*m（这个关系是通过很多logistic函数模拟的），另一个节点B，它和输入的关系接近于r^2，然后节点C，它经过很复杂的网络与A、B相连，但是它从最终的表现来它等于A*B。

如果这样，这个模型就可以理解了。就是说我们先学一个模型出来，然后用人可以理解的理论去解析它。

再进一步说这个问题，未来的机器学习模型是否是一个数学模型？

这个很难说。就像傅里叶最初搞出傅里叶变换的时候，也是连蒙带猜，混合了猜测、数学推理和实践。

我觉得，第一个类脑模型，肯定是有一些大家的猜想、有一些数学支持、有一些工程实践。

然后慢慢的，随着理解的深入，数学会变得多一点。数学能够把这个模型中的概念抽象化、精确化，这样就可以仔细分析这个模型为什么有道理，在保持这个模型的道理不变的情况下，用精确的方法尽量多的榨出油水来。

关于你的担心：

现有的计算技术是建立在已知的数学模型上的，没有一个数学模型，寸步难行，因此也就被局限在这个数学模型中了。

这一点我想尝试解释一下。

早期的数学模型，确实约束很强，比如线性分类器，上来就限制死了，只能是线性函数。

不过现在的很多模型都声称自己是universal approximator，什么意思呢？就是说可以模拟任意函数。所以我觉得，数学模型其实不是特别强的约束。

现在麻烦的问题是，数学模型本身是universal approximator，可是我们机器的计算能力有限，不可能在有限的时间内遍历宇宙中所有可能的函数。怎么聪明的先检查那些性质比较好的函数（什么叫好性质？这个就是研究的焦点了。这是不是可以看成鸿乾兄所说的人脑认知规律？如果我们知道人脑能够表达什么样的函数形式，我们就能让机器也只检查这些函数），如果我们强行说，只能检查线性函数，那么就又回到了线性模型了。如果我们的约束松一点，比如我们对机器说，你最好给我线性函数，不过如果真的搞不定，多项式啊或者更复杂的函数也可以，这样机器的限制就松一点了。

本帖一共被 1 帖引用 (帖内工具实现)

特别喜欢你这个思路

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂我觉得大脑其实是非常低效的， 1 桥上字231 2014-02-07 22:38:04
  - 🙂机器学习的基础是什么？(4) 与传统科学方法的区别 18 看树的老鼠字6319 2014-01-25 10:08:27
    🙂我的想法是你恐怕考虑偏了一些 4 鸿乾字1463 2014-01-27 11:38:42
    🙂我确实思考偏了，因为我对传统科学方法感情太深
    🙂我觉得其实人脑不寻求遍历性， 1 桥上字92 2014-02-07 22:43:16
    🙂丢硬币 2 皮儿字329 2014-01-26 22:26:42
    🙂是的看树的老鼠字157 2014-01-27 06:57:45
    🙂也不一定 2 方向符号字204 2014-01-29 03:28:22

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明