西西河

主题:【讨论】中国首枚智能芯片问世 -- 红茶冰

共:💬41 🌺131 新:
全看分页树展 · 主题 跟帖
家园 唉,看着你的数学表达式真是着急,接砖头吧

不管是ANN也好,SVM也好,Boosting也好,都是传统的shallow方法,具体做法可能不一样,但是效果都差不多

我就知道ANNs,其余的名字不写全称我真不知道。那个shallow是指单隐藏层吧,deep是指多层隐藏层是吧。

我们的目的,都是要拟合一个从输入到输出的映射函数y=f(x)

这个函数没有任何问题。

最简单的情况是“线性可分”,也就是y=f(x)=<w,x>+b

这个表达式是定义x和y的边界范围吧,你确定x可以是无限大的变量,而y可以是无限小的变量?

那么这个函数可以用无穷多个核函数的线性加权来拟合,y=\sum(<w,k(x)>+b)

我思索了很长时间,终于明白你要表达的是一个分段函数,但你却用了一个多自变量线性加权函数。“sum”是summation的意思,是一个加法运算符号。给你个分段函数的表达式作为参考吧:yi=k(xi), where i=1, 2,3,。。。,n;这里的n表示分了n段。

“线性加权”这个词是用在多自变量的情况。公式可以是:y=sum(wig(xi)),where i=1, 2,3,。。。,n;这里的n表示有n个自变量, wi 是指加权系数。

,目前的事实说明一个好的g(x)是一个超出了我们理解的函数,但是这个g(x)也可以表达成类似于“核函数”的复合函数形式,g(x)=a(b(c(d(...(x)))))

这个很好理解,比如我们有abcd四层隐藏层,那么第一层函数公式是y=a(x);第二层函数公式是y=b(a(x));第三层函数公式是y=c(b(a(x)));第四层函数公式是y=g(x)=d(c(b(a(x))))。

一个非常有意思的现象,在这整个的复杂非线性函数g(x)里,非线性的部分其实只有y=max{x,0}这一个异常简单的函数而已

y=max{x,0}是什么意思?比如x=100,根据你这个等式y=100.你认为对吗?

其实利用最小二乘法就能解释清楚,公式是 min(sum(sq(y-f(x))),就是最小化预测值和测量值之间的差距的平方。

在此之前,我们也尝试过很多非线性函数比如sigmoid、tanh等,事实的表现上,用复杂非线性函数的效果,也并不比y=max{x,0}的效果更好,但是学习的收敛速度会更慢,至于为什么会这样,我们不知道。。。

现实运用中,很多情况都是非线性函数比进行函数好用,不然还要这些非线性函数干什么?再者,线性函数关系并非加减运算,用线性函数运算当然比非线性函数速度快得多,这有什么不好理解的。

以及为什么深度学习现在更像是一个工程而不是科学问题,因为里面有太多我们目前理解不了的原理,但这并不妨碍我们做出和使用这样的工具,因为工具里的组件像螺丝、钉子这些其实并不复杂

只问你一个问题:发明改进提高ANNs是工程师的工作还是科学家的工作?工程师的主要工作是应用,发现问题,解决实际应用问题。阿发狗的研发人员基本上都有doctor的头衔吧,有没有工程师的头衔呢?

通宝推:刹那芳华,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河