主题：【讨论】中国首枚智能芯片问世 -- 红茶冰

共:💬41 🌺131 新:

唉，看着你的数学表达式真是着急，接砖头吧

不管是ANN也好，SVM也好，Boosting也好，都是传统的shallow方法，具体做法可能不一样，但是效果都差不多

我就知道ANNs,其余的名字不写全称我真不知道。那个shallow是指单隐藏层吧，deep是指多层隐藏层是吧。

我们的目的，都是要拟合一个从输入到输出的映射函数y=f(x)

这个函数没有任何问题。

最简单的情况是“线性可分”，也就是y=f(x)=<w,x>+b

这个表达式是定义x和y的边界范围吧，你确定x可以是无限大的变量，而y可以是无限小的变量？

那么这个函数可以用无穷多个核函数的线性加权来拟合，y=\sum(<w,k(x)>+b)

我思索了很长时间，终于明白你要表达的是一个分段函数，但你却用了一个多自变量线性加权函数。“sum”是summation的意思，是一个加法运算符号。给你个分段函数的表达式作为参考吧：yi=k(xi)， where i=1， 2，3，。。。，n；这里的n表示分了n段。

“线性加权”这个词是用在多自变量的情况。公式可以是：y=sum（wig（xi）），where i=1， 2，3，。。。，n；这里的n表示有n个自变量， wi 是指加权系数。

，目前的事实说明一个好的g(x)是一个超出了我们理解的函数，但是这个g(x)也可以表达成类似于“核函数”的复合函数形式，g(x)=a(b(c(d(...(x)))))

这个很好理解，比如我们有abcd四层隐藏层，那么第一层函数公式是y=a(x)；第二层函数公式是y=b（a(x)）；第三层函数公式是y=c（b（a(x)））；第四层函数公式是y=g（x）=d（c（b（a(x)）））。

一个非常有意思的现象，在这整个的复杂非线性函数g(x)里，非线性的部分其实只有y=max{x,0}这一个异常简单的函数而已

y=max{x,0}是什么意思？比如x=100，根据你这个等式y=100.你认为对吗？

其实利用最小二乘法就能解释清楚，公式是 min（sum（sq（y-f（x））），就是最小化预测值和测量值之间的差距的平方。

在此之前，我们也尝试过很多非线性函数比如sigmoid、tanh等，事实的表现上，用复杂非线性函数的效果，也并不比y=max{x,0}的效果更好，但是学习的收敛速度会更慢，至于为什么会这样，我们不知道。。。

现实运用中，很多情况都是非线性函数比进行函数好用，不然还要这些非线性函数干什么？再者，线性函数关系并非加减运算，用线性函数运算当然比非线性函数速度快得多，这有什么不好理解的。

以及为什么深度学习现在更像是一个工程而不是科学问题，因为里面有太多我们目前理解不了的原理，但这并不妨碍我们做出和使用这样的工具，因为工具里的组件像螺丝、钉子这些其实并不复杂

只问你一个问题：发明改进提高ANNs是工程师的工作还是科学家的工作？工程师的主要工作是应用，发现问题，解决实际应用问题。阿发狗的研发人员基本上都有doctor的头衔吧，有没有工程师的头衔呢？

通宝推：刹那芳华,

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友