主题：【讨论】中国首枚智能芯片问世 -- 红茶冰

共:💬41 🌺131 新:

老大河待整

分页树展主题 · 全看下页

家园 【讨论】中国首枚智能芯片问世
原帖地址；中科院研究员陈云霁：中国智能芯片引领世界
中国科学院计算技术研究所陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu以及全球首个深度学习处理器架构寒武纪。
陈云霁本人在介绍寒武纪架构是这么说的
陈云霁：深度学习的基本操作是神经元和突触的处理，而传统的处理器指令集（包括x86和ARM等）是为了进行通用计算发展起来的，其基本操作为算术操作（加减乘除）和逻辑操作（与或非），往往需要数百甚至上千条指令才能完成一个神经元的处理，深度学习的处理效率不高。因此谷歌甚至需要使用上万个x86 CPU核运行7天来训练一个识别猫脸的深度学习神经网络。
DianNaoYu指令直接面对大规模神经元和突触的处理，一条指令即可完成一组神经元的处理，并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。
话说寒武纪和IBM的SyNAPSE有何区别呢？河里的大虾过来聊聊呗。
贴一篇知乎对SyNAPSE介绍
通宝推：秦波仁者,
- 复【讨论】中国首枚智能芯片问世
  家园 不看好
  人类神经元的扇入扇出系数在5000-10000，CMOS在32-64。要实现巨大的扇入扇出就要用专门的驱动门，事实上是用面积换连接，而面积可直接兑换为计算能力。而巨大的扇入扇出也要求有巨大的神经元数量，太小的芯片面积没有意义。
  因此来说，CMOS工艺下，专用ANN芯片和GP-CPU以及GP-GPU哪个运行大规模的神经网络模型哪个好，真的不一定。
  - 复不看好
    家园 多谢回复
    首先既然是专用芯片，那么芯片设计上可以专门为此做优化，比方说pipeline 以及把fanout分散在多个周期。因为算法是固化到芯片里的，事实上解算用到的流程和周期远低于通用型芯片。其实你可以将GPU也视作某种程度的专用芯片，因为GPU适用的计算模型范围远低于X86（尽管N家和A家为了扩大应用范围不断加大编译力度与工具，试图扩展市场。但是这与我所说的事实并不矛盾）
    专用芯片追求的并不是应用范围与功耗，而是效率。这一点可以参考bitcoin矿机。更何况现在神经元芯片应用的设计理念很超前，以True North为例，它的内存、CPU和通信部件是完全集成在一起。因此信息的处理完全在本地进行，而且由于本地处理的数据量并不大，传统计算机内存与CPU之间的瓶颈不复存在了。同时神经元之间可以方便快捷地相互沟通，只要接收到其他神经元发过来的脉冲，这些神经元就会同时做动作。
    就我个人猜测而言，陈云霁所开发的寒武纪或许还是常规类的电路设计？没有true north没么酷炫。不过这样也可以用来测试算法各种实际性能，毕竟算法也是很重要的核心技术。从演进路线来说也是稳妥，无可厚非的。做个暂时的AI“矿机”我想也是可以接受的。
    - 复多谢回复
      家园 大规模神经网络的瓶颈在内存带宽
      神经网络节点运算极小，绝大多数资源花费在连接上。看大脑灰质与白质体积比例就知道了。而连接，在技术上的实现是数据传送。数据传送，在芯片内部是连线和驱动门，在芯片级别是内存带宽，在主机级别是网络。显然连线和驱动门是最快的，但是除非芯片规模可以达到无需多芯片并行的程度（对简单的任务是可能的，但是对“灵魂”这样的任务基本上没有希望），主要的数据传送手段必然不可能是连线和驱动门。只要存在片间通信，那么内存带宽就是瓶颈。现在的GP-CPU和GP-GPU，在各种cache架构的支持下，基本上可以保证运行大型神经网络时可以充分利用内存带宽了。在这种情况下，专用芯片有多少优势很值得怀疑。
      不是说专用芯片不会提速，它甚至可能有数量级的提速，但是，通用芯片低廉的价格、完善的配套体系支持下，相同的成本，可能通用芯片的总性能会更高。单纯比面积，专用芯片可能会赢，但是工业化大生产的特性决定了通用芯片的成本会大大降低而专用芯片的成本会非常高。
      - 复大规模神经网络的瓶颈在内存带宽
        家园 兄弟是搞软件的的吧？
        因为你的思路完全是从软件角度来分析的。想让ASIC内存带宽利用效率好于CPU是个很艰难的目标，但是要比CPU低很多，只能说这个设计师的能力很一般了。
        传统的冯诺伊曼结构的cpu，计算和存储是分开的。做传统硬件设计很大的力量都花在在两者之间搬移数据，要真的做ASIC，不能做成两者分开，如果分开就会永远卡在内存瓶颈，要做成计算和储存紧密结合的。
        更何况ASIC不会受某些指令集的桎梏，不会因时钟周期使数据”排队等候“对内存利用率远好于CPU。如果CPU高效那么天河2号怎么会专门设计前端处理器对数据预处理呢？
        至于价格只能说仁者见仁，智者见智了。目前确实专用硬件综合成本高。但未来这个成本会逐渐降低，生态，服务，软件都会跟上。
        复兄弟是搞软件的的吧？
        家园 大规模、大规模、大规模
        重要的事说三遍...
        大规模神经网络，和人脑规模可比拟的，在可预见的未来没有任何希望把内存和计算全部整合。
        运算效率越高的巨型机，花在互联上的钱越多。天河2开发专门的数据交换芯片，也是为了提升数据交换速度。性能稍微好点的巨型机，互联的成本占系统的成本要超过一半。如果存储和计算可以那么容易集成，何必在这里花这么多钱？
        如果人脑是最有效的计算结构的话，那它给人类设计计算机指明了方向：互联比计算更重要，因为白质比灰质多得多。
        至于只需几十万个神经元的这种小型系统，当然可以用非常高效的专用芯片制作。
        复大规模、大规模、大规模
        家园 多谢回复
        我觉得需要设定一个比较明确的议题，这样才能求同存异。
        因为我和你之间是以俩种不同的角度来讨论，这样既不能增加彼此在知识面上的补充，也起不到启发作用。
        另外推荐一篇关于寒武纪的帖子；英伟达一出手，中国寒武纪就完蛋？
        复兄弟是搞软件的的吧？
        家园 现在的技术水平下，存储和计算要是能够做在一起，CPU早就
        CPU早就做在一起了。何必要等到这个专用芯片呢？
        CPU和存储的工艺根本就不通用，没法大规模的做在一起。
        复现在的技术水平下，存储和计算要是能够做在一起，CPU早就
        家园 多谢回复
        有种“黑科技”叫做封装。用这种工艺就可以把我所说的内存和计算核心“捏在”一块了。因此不需要3Dor2.5D那么酷炫的制程工艺就能达到理想的设计要求。
        复多谢回复
        家园 intel把eDram跟cpu封在一起做L4，性能一般
        i7-4770R: L4 cache latency = 76.2 ns.
        i7-5775C: L4 cache latency = 42.4 ns.
        看啥时候能做到20ns
- 复【讨论】中国首枚智能芯片问世
  家园 非常有前途
  我的理解，这种智能芯片就相当于有深度神经网络处理功能的GPU芯片。我们知道通用芯片运行神经网络功能时耗时耗能，现在就可以直接交给智能芯片处理就行了。这就相当于CPU把图形的运算处理交给GPU一样。智能芯片就是加速这个神经网络的运算（几个数量级）和极大的降低功耗。它有自己的指令集diannaoyu。
  和IBM的TRUENORTH的区别就是：运用不同的技术来实现神经网络的运算功能， Truenorth 是仿生技术，就是所谓脉冲神经网络。
- 复【讨论】中国首枚智能芯片问世
  家园 不看好这个方向
  走这个路线还是太早了，没发展到那个程度。
  现在股票最火的是nVidia，AMD也坐不住了，看好GPU的随着深度学习需求的进一步进化，不过VR一项就已经够让GPU吃香喝辣好多年了。
  中国芯片业如果可以弄GPU，最好弄成白菜价，不是说中国制造有这个绰号么，现在最迫切需要白菜价的就是TM的GPU了，NND中国人为什么还不出手。
  - 复不看好这个方向
    家园 多谢回复
    我脚的，出现国产GPU大战A N俩家的话，或许龙心早就和Inter和AMD三足鼎立（甚至于AMD早就挂球了）
  - 复不看好这个方向
    家园 这个脑洞开得好！
    大赞Made in China GPU，跟NVidia价格战！
- 复【讨论】中国首枚智能芯片问世
  家园 洗洗睡吧
  不都是个FPGA么。第一个方面，做这种玩意儿的自然有专业的FPGA公司，比如Altera，其产品目前在微软、百度、好像还有谷歌都在试用了。要买FPGA，你选Xilinx、Altera的，还是别家的？就像要买电脑，CPU一般估计还是会买Intel或者AMD的吧。第二个方面，FPGA这东西，功耗是低，但是价格也不便宜啊，为啥也就微软、百度这些用呢，买不起啊。。。真想引领世界，到ASIC再说吧
  再说了，FPGA还是硬件编程，一般来说，你见过算法还没固定就硬化的吗？深度学习的发展日新月异，好多个算法更新换代的暗流涌动，我觉得到明后年又是完全另一片天地，现在做硬化的，搞搞科研积累点经验提高一下知名度都是可以的，真要去产品化，除非真的不差钱儿，要不就还是再等等吧

分页树展主题 · 全看下页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明