- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:【讨论】中国首枚智能芯片问世 -- 红茶冰
重要的事说三遍...
大规模神经网络,和人脑规模可比拟的,在可预见的未来没有任何希望把内存和计算全部整合。
运算效率越高的巨型机,花在互联上的钱越多。天河2开发专门的数据交换芯片,也是为了提升数据交换速度。性能稍微好点的巨型机,互联的成本占系统的成本要超过一半。如果存储和计算可以那么容易集成,何必在这里花这么多钱?
如果人脑是最有效的计算结构的话,那它给人类设计计算机指明了方向:互联比计算更重要,因为白质比灰质多得多。
至于只需几十万个神经元的这种小型系统,当然可以用非常高效的专用芯片制作。
有种“黑科技”叫做封装。用这种工艺就可以把我所说的内存和计算核心“捏在”一块了。因此 不需要3Dor2.5D那么酷炫的制程工艺就能达到理想的设计要求。
我觉得需要设定一个比较明确的议题,这样才能求同存异。
因为我和你之间是以俩种不同的角度来讨论,这样既不能增加彼此在知识面上的补充,也起不到启发作用。
另外推荐一篇关于寒武纪的帖子;英伟达一出手,中国寒武纪就完蛋?
从你的答复中可以明显看出你对神经网络的理论理解很弱,尤其是数学方面。你在上一帖中说
再有,关于收敛速度的问题,现今神经网络的工作机理无法用数学模型来表示,又如何计算收敛性收敛速度。
只要不加ReLu,(Ax+b)矩阵乘下来总是线性的啊。
i7-4770R: L4 cache latency = 76.2 ns.
i7-5775C: L4 cache latency = 42.4 ns.
看啥时候能做到20ns
有2个自变量x1和x2,如果方程中有(x1x2)项,这个方程就是的非线性方程。
矩阵方程你要看是自变量矩阵,是应变量矩阵还是系数矩阵。
唉,一声叹息。
收敛性可以看loss曲线,经过一定次数的iteration,loss下降越快就是收敛速度越快
我不懂神经网络,按照此文的科普
两层网络是
g(W(1) * a(1)) = a(2);
g(W(2) * a(2)) = z;
g是非线性函数,
权值矩阵W是常数且没有g的话这系统乘几次都是线性的。
你要说W是根据输入a来调整的,那是另外一故事。
我平时就是个好好先生,但有学生犯了低级的学术错误,我会大骂的。
收敛性是控制论的重要概念,需要有数学模型支持的,一个系统可不可控就要看它收不收敛。你说的是迭代次数更多的用在数值分析里面。你说的loss曲线我还没有用过,也不了解。
或许点的科技树比较接近吧