西西河

主题:【讨论】中国首枚智能芯片问世 -- 红茶冰

共:💬41 🌺131 新:
全看树展主题 · 分页 上页
家园 大规模、大规模、大规模

重要的事说三遍...

大规模神经网络,和人脑规模可比拟的,在可预见的未来没有任何希望把内存和计算全部整合。

运算效率越高的巨型机,花在互联上的钱越多。天河2开发专门的数据交换芯片,也是为了提升数据交换速度。性能稍微好点的巨型机,互联的成本占系统的成本要超过一半。如果存储和计算可以那么容易集成,何必在这里花这么多钱?

如果人脑是最有效的计算结构的话,那它给人类设计计算机指明了方向:互联比计算更重要,因为白质比灰质多得多。

至于只需几十万个神经元的这种小型系统,当然可以用非常高效的专用芯片制作。

家园 多谢回复

有种“黑科技”叫做封装。用这种工艺就可以把我所说的内存和计算核心“捏在”一块了。因此 不需要3Dor2.5D那么酷炫的制程工艺就能达到理想的设计要求。

家园 多谢回复

我觉得需要设定一个比较明确的议题,这样才能求同存异。

因为我和你之间是以俩种不同的角度来讨论,这样既不能增加彼此在知识面上的补充,也起不到启发作用。

另外推荐一篇关于寒武纪的帖子;英伟达一出手,中国寒武纪就完蛋?

家园 不是主业,但也做过这方面的研究,发表过这方面的文章

从你的答复中可以明显看出你对神经网络的理论理解很弱,尤其是数学方面。你在上一帖中说

f(x)=a(b(c...(x))),如果a、b、c等都是线性函数,那f仍然是一个线性函数一样(这意味着对于n维的x来说,虽然每个子函数a、b、c都有n+1个参数,但真正有效参数仍然只有n+1个,参数可以大致等价于隐藏层的神经元;另外我只是说像这种样子,不是说ANN里面每一层都是线性函数哈)
就是明显错误的。即使ANN里面每一层都是线性函数,只要每层的神经元多于1个,那么复合函数f(x)=a(b(c...(x)))就是高度非线性的。

再有,关于收敛速度的问题,现今神经网络的工作机理无法用数学模型来表示,又如何计算收敛性收敛速度。

通宝推:刹那芳华,
家园 为啥多个神经元就会产生非线性呢?

只要不加ReLu,(Ax+b)矩阵乘下来总是线性的啊。

家园 intel把eDram跟cpu封在一起做L4,性能一般

i7-4770R: L4 cache latency = 76.2 ns.

i7-5775C: L4 cache latency = 42.4 ns.

看啥时候能做到20ns

家园 初中数学知识

有2个自变量x1和x2,如果方程中有(x1x2)项,这个方程就是的非线性方程。

矩阵方程你要看是自变量矩阵,是应变量矩阵还是系数矩阵。

唉,一声叹息。

家园 随便吧,您开心就好

收敛性可以看loss曲线,经过一定次数的iteration,loss下降越快就是收敛速度越快

家园 别闹了,这楼里大概没人需要你来补初中数学

我不懂神经网络,按照此文的科普

外链出处

两层网络是

g(W(1) * a(1)) = a(2);

g(W(2) * a(2)) = z;

g是非线性函数,

权值矩阵W是常数且没有g的话这系统乘几次都是线性的。

你要说W是根据输入a来调整的,那是另外一故事。

家园 你也别介意

我平时就是个好好先生,但有学生犯了低级的学术错误,我会大骂的。

收敛性是控制论的重要概念,需要有数学模型支持的,一个系统可不可控就要看它收不收敛。你说的是迭代次数更多的用在数值分析里面。你说的loss曲线我还没有用过,也不了解。

家园 这楼里只能看懂你在说啥

或许点的科技树比较接近吧

全看树展主题 · 分页 上页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河