西西河

主题:【文摘】龙芯意见 -- 【子衿】

共:💬57 🌺229 新:
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 TSMC没有出产过商用级的cpu

只是流片过,工艺不过关,没有下文.amd所有的cpu都是自己的fab和后来拆分出去的GF制造的.tsmc只有制作芯片组和amd并购ati后的gpu.

TSMC的核心竞争力还是成本优势,而不是制造工艺的性能优势.做为代工厂TSMC已经算不错了,但是离业界最高还是有相当大的差距的.

amd分拆出的GF在高性能芯片上的实力就远超tsmc.但是也只有高性能cpu需要这样的工艺,在一般的芯片上又没有成本优势,所以GF目前还无法撼动tsmc的地位.

家园 单就芯片制造工艺上来说,Intel确实是顶尖的。

单就芯片制造工艺上来说,Intel确实是顶尖的。这方面它确实是比IBM要强。因为这就是Intel的核心竞争力。它在把CPU芯片做得快,高主频方面基本上是无敌手的。业界一般公认AMD的数字设计架构常常领先Intel,它假如能找到一家工厂有Intel fab一样的工艺水平帮它制造的话,CPU的天下早就翻过来了。

家园 搞什么龙芯,不会走就开始跑了,现代版大跃进

国内半导体行业就连普通的IC都很少有产的,还搞什么CPU。

家园 只用HDL语言是做不出芯片的吧

整个芯片的设计流程下来,要多少到优化流程啊

从顶层的高位设计,到floorplanning这些,C语言之类的算法导入那时相当的重要啊。

国内应该没有那么白痴吧。你说的商业方法,也只是为了降低开发成本,和缩短成品时间罢了。

据说中科大那帮人,可以用画网表的方法画出芯片的,靠的就是个吃苦耐劳。这种方法做出来的芯片,不见得就不好。只不过开发成本太大而已

家园 一个CPU一个GPU,无法比较

GPU结构简单多了。

家园 高频往往是多级流水线算出来的

高频往往是多级流水线算出来的,如果分支预测失败再递推回去性能立马下降。所以intel以前以多流水线(貌似20多级吧)弄出3.XG的P4,现在是多核+中频(不超过3G,流水线好像不超过20级)。

龙芯是多发射,RISC构架,所以800M频率总体并不比2G的intel差很多。至于某些方面,比如多媒体解码、压缩解压缩可能是要差些。

家园 x86与RISC

现代的x86 CPU(P6架构以后)实际已经是RISC核心了,一条x86指令要翻译成5、6条RISC指令再执行。除了Atom这类所谓低能耗的CPU,x86早就用多发射架构。所以从这些方面x86跟MIPS、PowerPC没有区别。

当然x86抛开钟频论效能的话,实际上还是比不过RISC,不过Intel在工艺制造上的优势决定了没人能比他造出更快的CPU(在同样的生产良率下,单位成本很重要)。同时x86体系独霸天下事实决定了其他体系不可能获得充分的现金流跟Intel竞争。

流水线深度的问题,高频CPU都需要面对,不仅仅Intel而已。好的动态分支预测单元可以对付大部分应用程序。

奔4的失败是一个市场策略问题,不是技术问题。当年面对AMD步步进逼,Intel的如意算盘是利用市场对频率的迷信,采用易上高钟频的NetBurst架构来拉大差距。简单说就是搞钟频竞赛,一力降十会,用块头压死对手。单论钟频,工艺上落后一代的AMD是没法子追赶的。问题是Intel对摩尔定律带来的工艺进步过分乐观,没料到进入90纳米之后能耗剧增,钟频上不去了。所以只好抛弃傻快的NetBurst,回到架构设计与钟频并重的正途上来。事实证明,采用Core/Core2以后的Intel,还是王者。

主要的RISC体系也有各自多媒体扩展指令集,相比带MMX和SSE2的x86先天上并不逊色。差距主要是编译器支持不够,以及应用程序没有做相应优化——当然了,这些都需要投入大量的人力,开发者首先要看会有多少用户用到。象x86这种市场巨无霸人家肯定拼了命优化,MIPS用户少,软件公司就没那么上心了。

通宝推:大溪水,
家园 只用HDL能设计出软核

不过不考虑平衡流水线和平面规划之类的,钟频一定上不去。

进入深亚微米(DSM)工艺之后,人手是肯定优化不过来了,必须得用EDA工具。画网表的办法,就算不犯人为错误,布线时面对线路延迟(wire delay)也是一筹莫展的。

家园 搞什么载人飞船,不会走就开始跑了,现代版大跃进

还有,“搞什么四代机,不会走就开始跑了,现代版大跃进”

搞什么大飞机,不会走就开始跑了,现代版大跃进,

搞什么高铁,不会走就开始跑了,现代版大跃进

家园 手工怎么可能画网表?

几百万门级的电路手工画网表?

再说普通芯片工艺没有短到90纳米之前,也就是没有RF的问题出现之前,HDL应该可以设计出完整可以流片的芯片的吧?

家园 我的理解

那是多年以前的事,设计相对简单,肯定没有到几百万门的级别。

去年还有个加州的发烧友,手工用铜线绕了个8位的CPU出来呢。

Homebrewed CPU Is a Beautiful Mess of Wire

点看全图

外链图片需谨慎,可能会被源头改

还能跑Minix

点看全图

外链图片需谨慎,可能会被源头改

这哥们的真容

点看全图

外链图片需谨慎,可能会被源头改

家园 高频和多极流水线根本没有必然联系.

深流水线结构需要更高的频率去弥补分支miss造成的延迟,而不是高频率要靠采用深流水线结构去达成.流水线结构是逻辑层面的东西,而频率是物理层面的问题.

龙芯做不到过G,是因为芯片频率超过800mhz后,需要在物理层面面对电信号的干扰和失真,需要在芯片上加上更多的电容和buffer,需要优化布局和走线,需要解决信号纠错的问题.频率越高,这个问题就越严重.

家园 这条新闻我看过,当时的反应就是不信

原因在于如此长的电线,最长路径一定很差,也就是说频率很低的难以接受。用这么长的导线去处理大规模数据的0和1,简直难以置信。我对MINIX没有任何研究,但是总应该有个timeout的概念吧,这种CPU也能适应MINUX 2.0的timeout?还是把minix一起改造了?那就太厉害了,但意义还是不大。

我不知道有些朋友所谓的手工layout是什么意思,他们真的手动画过线吗?实际上几百个门就可以足以把人绕晕了,更不用说修改和维护了,这样费时费力的事情,怎么现在还会有人去做?是不是他们手工做的是placement,而不应该是layout。

家园 可不是,那么多半导体公司都fabless了

唯有intel永远保留自己的fab.到了nm尺寸,设计由工艺决定,工艺又由设备决定,等到国内的intel<-->AMAT,ASML,KLA链条完善起来,再来比较吧

家园 非实时操作系统所谓的timeout

参考的是实时钟,具体讲是一个外部的中断源,这跟CPU主频没有太大关系。

举个例子,FPGA上烧个软核进去,钟频500KHz都可以跑个简单的操作系统,只是慢一点。在这样的频率下,电路中布线延时基本可以忽略,最长路径只取决于门延时。

不过我也怀疑这哥们的确用的是改造过的Minix,因为原始的Minix也是跑在32位平台上的。对Minix没有研究,不过Unix系统对地址字长有一定要求,他的平台未必满足。当然这哥们的8位机寻址应该至少是16位,否则程序代码都放不下。虚拟内存是一定没有的,一个MMU所需要的门数就比他的ALU还要多。

早期的芯片设计的确是手工的,记得当年给俺们讲课的有个ARM的元老,绘声绘色说起N年前做LVS的经历:巨幅电路布局挂在墙上,一个人对着纸上的网表读,一个人拿着红笔站在梯子上画出连接。70年代克雷的大型机,连接线(没错,是铜线)的长度都要人手裁好,钻到机柜里头一条条绕。为了减少铜线延时,机柜的空间都设计得非常狭小,得专门找身材矮小的技工钻进去。而且采用的就是这个Bill Buzbee的绕法,因为要保证可靠的电气连接,这个比手工焊接更容易,万一绕错了也可以拆下来重新绕过。

即使是现在,大部分高性能模拟和混合信号的芯片,仍然需要手工设计所有的掩膜,也就是——建模跟仿真当然用软件,非关键电路可以半自动(包括place & route),然而主要设计还是靠经验。

上面的情况,对于高速数字电路仍然是适用的——频率上去了,器件特性就不能看成是纯数字的,必须用混合电路的方法。用这套东西来设计CPU,当然NRE费用也就出奇的高,是个不折不扣烧钱的买卖,非巨无霸玩不起。前面有人说楼主是Intel的,大概是根据这个。当然,即使是Intel,设计新一代CPU的时候也不需要每一个单元电路都从头来过,早就模块化了,大部分组件调整一下是能够重用的,不然Intel的工程师再多也忙不过来。

不过话得说回来,今天销量最大的CPU还真是用HDL设计出来的软核,那就是ARM。ARM也卖硬核,那是软核综合到特定半导体厂商的标准元件库上,再通过一系列后端处理跟优化得到的,跟楼主的专门设计(custom design)流程不同。在嵌入式领域,对时钟频率要求不高。此外,因为摩尔定律的作用,像台积电这样的代工厂所提供的标准元件库,工作速度也越来越高。一个设计得好的软核,使用90nm工艺,即使只有5级流水线,也能达到700MHz以上的主频,实际性能可以轻松超过1.6GHz的Atom,而能耗要低得多。

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河