- 发帖可能变空内容,邪门暂不知所以然
- 『稷下学宫』新认证方式,24年网站打算和努力目标
主题:超级计算机世界排名今年出现大变化 -- 彼得格勒
美东时间6月8日,美国能源部所属橡树岭国家实验室(ORNL)发布超级计算机Summit,称其为全球运算性能最强大、最智能的科研超级计算机。
Summit由IBM在英伟达帮助下为ORNL开发,耗资约2亿美元,占地面积相当于两个网球场。它的峰值运算性能为200PFlops,即每秒执行20亿亿次浮点运算。而前世界排名第一的中国神威·太湖之光其持续计算能力为93PFlops,紧随其后的中国天河二号计算能力33.9PFlops。
除了2018年6月25日投入使用的Summit超级计算机(20亿亿次)之外。美国能源部2018年还计划部署另外2台超级计算机。
第二台名为Sierra的超级计算机(12.5亿亿次)将安装在劳伦斯?利弗莫尔国家实
验室(Lawrence Livermore National Laboratory),计划2018年年中投入使用,专门进行核武器模拟爆炸;
第三台超级计算机名为Aurora(18.5亿亿次),由克雷和英特尔联合研发,将于2018年末在阿尔贡国家实验室( Argonne National Laboratory)投入使用。
今年这3台美国超级计算机的投产,将使得中国的原先排名世界第一第二的超级计算机挤出前三,落到第四第五的位置上了。
这是去年超级计算机大会的两大热门新闻之一,另一个大新闻是英特尔停止Phi的开发,Phi芯片本来被业内寄予厚望,美国还在2015年特地宣布该芯片对中国禁运,导致天河二号无法进行计划中的达到10亿亿次的升级,结果中国2016年拿出个全国产芯片的神威太湖之光,还是世界第一。
为什么美国能源部要推迟Aurora,是因为目前的排名只是个热身赛,现在大家憋足了劲的比赛是谁最先到1Exaflop(100亿亿次),美国推迟Aurora正是打算让Aurora去争第一台1E计算机的称号,但如果Aurora这机器2021年才能做出来很可能就输了 -- 中国的计划是2020年达到1E,而且是三个机构在争夺:国防科大(天河三号),中科院曙光,和总参江南所的神威(现在应该算战略支援部队了),而且要感谢美国在2015年对超级计算机芯片的禁运,这三家的1E机器从一开始就不打算用美国芯片了。。。
记得2013年天河二号拿到世界排名第一,纽约时报在酸天河二号还不是用英特尔的芯片,结果2016年神威用全国产芯片又拿个世界第一,这次是日本媒体酸溜溜的说,超级计算机软件方面的最高奖 -- 戈登贝尔奖 -- 中国人还从来没拿过呢,结果只过了几个月,2016年底这奖就被中科院的人拿去了,2017年很不幸这奖中科院没能蝉联,2017年的得主来自 --
。
。
。
。
。
。
。
。
。
清华,呵呵。。。
Power 9是第一个使用了每秒16 GTransfer、 PCI Express 第4 代互连的微处理器。另外,Power 9还用了新的 每秒25 Gbit物理互连,名为IBM BlueLink。
两个互连均支持 48 个通道,并可容纳多种协议。PCIe 链接利用IBM 的 CAPI 2.0 连接 FPGA 和 ASIC。BlueLink将配置新一代NVLink及新的CAPI。NVLink的开发也可用于Nvidia GPU。
扩展到100亿亿,应该不难。现在才4000多节点。
不再是Aurora了。
现在美国能源部、国家核安全局、制造商都面临E级计算机研发的巨大压力。能源部决定跳过Aurora,直接开始性能是Aurora五倍的A21的研制。
还有一个华北所,现在去那里啦?又新生了吗?
不然就是个耗电机器而已。量子计算,人工智能,高速模拟,人机对抗等,需要突破的领域太多了。
中国没那么透明滴。话说2015年美国宣布对天河二号芯片禁运,导致该机器无法升级,问中国行内人士怎么办,人家笑而不答。后来才知道,神威太湖之光这台机器当时就已经出来了,雪藏了一年,到2016才公开,这之前是总参保密项目,外界谁都不知道,不信大师就去找找,看看有没有2016年之前对神威的报道。。。
知乎上的一个行家对太湖之星的评论很有见地
比较显著的一个指标是这个CPU的内存带宽/浮点比率达到令人难以置信的1/22.4=0.045 Byte/FLOP。作为对比(数据来源Yokota,J Algo Comp Tech, 7,3,2013):
INTEL Xeon E5 2690: 0.211
AMD Opteron 6284 SE: 0.235
NVIDIA Fermi GF110: 0.266
IBM PowerPC A2(BG/Q):0.208
Fujitsu Sparc64(FX10):0.359
相比较而言sw26010的内存带宽太小,很多操作都会卡在内存上。实际应用上,优化好的FMM或者DGEMM大概需要0.2,使用特殊向量指令还可以更低,3D FFT大概需要0.6~0.9, stencil大概2~3,spmv大概5。在x86上FMM/DGEMM是compute bound,后面几个都是memory bound,而在sw26010上这些操作几乎全都是memory bound。
所以在Graph500里面太湖之光落后内存带宽有很大优势的Sparc64 K是很正常的结果。
这是设计取向问题。
作为一个HPC用户,sw26010这样的cpu很难优化,内存带宽小是一方面。另一方面计算核有“The Computer Processing Element (CPE) is composed of an 8x8 mesh of 64-bit RISC cores, supporting only user mode, with a 256-bit vector instructions, 16 KB L1 instruction cache and 64 KB Scratch Pad Memory (SPM).”只有很小的L1指令缓存,要靠手工维护scratch pad memory,这个内存结构有点像Fermi架构之前的nvidia GPU,nbody这种简单暴力的写起来比较适合,想做点复杂的就很麻烦。
从太湖之光官网的软件环境(国家超级计算无锡中心)里也可以看出,目前科学计算软件里大量的都是比较适合这类CPU结构跑的nbody类型分子模拟程序,比如NAMD,LAMMPS,Amber,GROMACS之类。
另一方面在缺乏Petsc/trilinos这样的并行计算基础库的条件下给太湖之光写代码是
成本非常高的事情,一般大学里只有极少数实力强大的组有这个条件(经费、时间、人力)从底层开始写一套大程序,这也制约了这一套系统的潜在用户数量。用户数太少的话软件基础设施永远停留在比较原始的阶段。
现在IBM体系和Intel/Cary体系的超算都在压缩能耗。
美国这个最新Summit超算只有4000个节点,是太湖之星的1/5,速度是2倍,能源消耗节省了30%。
现在看来IBM体系可能胜出。