主题：超级计算机世界排名今年出现大变化 -- 彼得格勒

共:💬72 🌺501 🌵16 新:

老大河待整

超级计算机世界排名今年出现大变化

美东时间6月8日，美国能源部所属橡树岭国家实验室（ORNL）发布超级计算机Summit，称其为全球运算性能最强大、最智能的科研超级计算机。

Summit由IBM在英伟达帮助下为ORNL开发，耗资约2亿美元，占地面积相当于两个网球场。它的峰值运算性能为200PFlops，即每秒执行20亿亿次浮点运算。而前世界排名第一的中国神威·太湖之光其持续计算能力为93PFlops，紧随其后的中国天河二号计算能力33.9PFlops。

除了2018年6月25日投入使用的Summit超级计算机（20亿亿次）之外。美国能源部2018年还计划部署另外2台超级计算机。

第二台名为Sierra的超级计算机（12.5亿亿次）将安装在劳伦斯?利弗莫尔国家实

验室(Lawrence Livermore National Laboratory)，计划2018年年中投入使用，专门进行核武器模拟爆炸；

第三台超级计算机名为Aurora(18.5亿亿次），由克雷和英特尔联合研发，将于2018年末在阿尔贡国家实验室( Argonne National Laboratory)投入使用。

今年这3台美国超级计算机的投产，将使得中国的原先排名世界第一第二的超级计算机挤出前三，落到第四第五的位置上了。

关键词(Tags): #超算世界排名， 通宝推：PBS,

复超级计算机世界排名今年出现大变化

家园

大师的消息早过时了，Aurora被推到2021年咯

这是去年超级计算机大会的两大热门新闻之一，另一个大新闻是英特尔停止Phi的开发，Phi芯片本来被业内寄予厚望，美国还在2015年特地宣布该芯片对中国禁运，导致天河二号无法进行计划中的达到10亿亿次的升级，结果中国2016年拿出个全国产芯片的神威太湖之光，还是世界第一。

为什么美国能源部要推迟Aurora，是因为目前的排名只是个热身赛，现在大家憋足了劲的比赛是谁最先到1Exaflop（100亿亿次)，美国推迟Aurora正是打算让Aurora去争第一台1E计算机的称号，但如果Aurora这机器2021年才能做出来很可能就输了 -- 中国的计划是2020年达到1E，而且是三个机构在争夺：国防科大（天河三号），中科院曙光，和总参江南所的神威（现在应该算战略支援部队了），而且要感谢美国在2015年对超级计算机芯片的禁运，这三家的1E机器从一开始就不打算用美国芯片了。。。

通宝推：wage,PCB,心有戚戚,唐家山,jboyin,沾花富翁,混沌之源,joomla,newbird,方恨少,愚弟,别来无样,dzhao,武工队,

复大师的消息早过时了，Aurora被推到2021年咯

家园

另外软件方面

记得2013年天河二号拿到世界排名第一，纽约时报在酸天河二号还不是用英特尔的芯片，结果2016年神威用全国产芯片又拿个世界第一，这次是日本媒体酸溜溜的说，超级计算机软件方面的最高奖 -- 戈登贝尔奖 -- 中国人还从来没拿过呢，结果只过了几个月，2016年底这奖就被中科院的人拿去了，2017年很不幸这奖中科院没能蝉联，2017年的得主来自 --

。

清华，呵呵。。。

通宝推：逍遥蜀客,唐家山,尚儒,wage,jboyin,从来,大司农,newbird,故乡在喀什,伏波将军,mezhan,方恨少,dzhao,三笑,

复超级计算机世界排名今年出现大变化

家园

Power 9 都出来了

Power 9是第一个使用了每秒16 GTransfer、 PCI Express 第4 代互连的微处理器。另外，Power 9还用了新的每秒25 Gbit物理互连，名为IBM BlueLink。

两个互连均支持 48 个通道，并可容纳多种协议。PCIe 链接利用IBM 的 CAPI 2.0 连接 FPGA 和 ASIC。BlueLink将配置新一代NVLink及新的CAPI。NVLink的开发也可用于Nvidia GPU。

扩展到100亿亿，应该不难。现在才4000多节点。

通宝推：PBS,

复大师的消息早过时了，Aurora被推到2021年咯

家园

美国E级超算系统A21，不是Aurora

不再是Aurora了。

现在美国能源部、国家核安全局、制造商都面临E级计算机研发的巨大压力。能源部决定跳过Aurora，直接开始性能是Aurora五倍的A21的研制。

通宝推：PBS,

复美国E级超算系统A21，不是Aurora

家园

取消Aurora的原因是Summit已经领先

通宝推：PBS,

复大师的消息早过时了，Aurora被推到2021年咯

家园

江南所是原来的华东所吗？这几个都是老牌计算所，

国防科大（天河三号），中科院曙光，和总参江南所的神威

还有一个华北所，现在去那里啦？又新生了吗？

复江南所是原来的华东所吗？这几个都是老牌计算所，

家园

江南所在无锡

复大师的消息早过时了，Aurora被推到2021年咯

家园

不过目前看来中国E级机的技术不是特别成熟

评论中有同志提到今天美国公布的Summit峰值性能达到了200PF，问我兔有何计划。答：正如原答案中预测的（也就是圈里的专家都知道的）那样，美国这几年就是会发布几台150PF~400PF的超算机器。Summit只是其中一台（由IBM和NVIDIA搭建），不久之后可能Aurora（intel 出品）也会发布，预计峰值约180PF。因为这些机器的建造都是意料之中的事，所以也说不上什么应对策略，中国下一代超算的研发制造仍在按计划进行，今年年内将部署三台E级原型机（规模很小，只是用来验证设计思路），然后根据三台原型机（代表不同技术路线）的表现确定下一代超级计算机的技术路线，不过想看到新的大机器估计得等到2020年了吧。2020年如果有新的超算发布，也不会是E级（百亿亿次），答主猜测可能是200PF~500PF之间，想要看到E级机，估计得等到2022年以后。当然也不排除为了献礼第一个一百年而抢先做全球第一个E级机，不过目前看来中国的技术不是特别成熟，可能还是会让美国抢占先机。欧洲和日本的状态似乎不太可能继续参与第一名的竞争，但可能会在节能计算或者某些特定应用方面有所突破。

通宝推：PBS,

复大师的消息早过时了，Aurora被推到2021年咯

家园

这种数字上的竞争意义不大，关键要突破算法数模瓶颈，

不然就是个耗电机器而已。量子计算，人工智能，高速模拟，人机对抗等，需要突破的领域太多了。

复江南所是原来的华东所吗？这几个都是老牌计算所，

家园

华东所已经名存实亡了

复美国E级超算系统A21，不是Aurora

家园

别再说笑话了，A21其实就是Aurora2021的简称

复不过目前看来中国E级机的技术不是特别成熟

家园

大师这么相信网上的消息啊

中国没那么透明滴。话说2015年美国宣布对天河二号芯片禁运，导致该机器无法升级，问中国行内人士怎么办，人家笑而不答。后来才知道，神威太湖之光这台机器当时就已经出来了，雪藏了一年，到2016才公开，这之前是总参保密项目，外界谁都不知道，不信大师就去找找，看看有没有2016年之前对神威的报道。。。

复大师这么相信网上的消息啊

家园

你从网上得到的消息都是扭曲的

知乎上的一个行家对太湖之星的评论很有见地

太湖之光的CPU sw26010在设计取向上是针对“暴力浮点”优化的，出现上面这个结果（FLOPS强，某些其他测试不太好）意料之中。

比较显著的一个指标是这个CPU的内存带宽／浮点比率达到令人难以置信的1/22.4=0.045 Byte／FLOP。作为对比（数据来源Yokota，J Algo Comp Tech， 7，3，2013）：

INTEL Xeon E5 2690: 0.211

AMD Opteron 6284 SE： 0.235

NVIDIA Fermi GF110: 0.266

IBM PowerPC A2（BG/Q）：0.208

Fujitsu Sparc64（FX10）：0.359

相比较而言sw26010的内存带宽太小，很多操作都会卡在内存上。实际应用上，优化好的FMM或者DGEMM大概需要0.2，使用特殊向量指令还可以更低，3D FFT大概需要0.6～0.9， stencil大概2～3，spmv大概5。在x86上FMM／DGEMM是compute bound，后面几个都是memory bound，而在sw26010上这些操作几乎全都是memory bound。

所以在Graph500里面太湖之光落后内存带宽有很大优势的Sparc64 K是很正常的结果。

这是设计取向问题。

作为一个HPC用户，sw26010这样的cpu很难优化，内存带宽小是一方面。另一方面计算核有“The Computer Processing Element (CPE) is composed of an 8x8 mesh of 64-bit RISC cores, supporting only user mode, with a 256-bit vector instructions, 16 KB L1 instruction cache and 64 KB Scratch Pad Memory (SPM).”只有很小的L1指令缓存，要靠手工维护scratch pad memory，这个内存结构有点像Fermi架构之前的nvidia GPU，nbody这种简单暴力的写起来比较适合，想做点复杂的就很麻烦。

从太湖之光官网的软件环境（国家超级计算无锡中心）里也可以看出，目前科学计算软件里大量的都是比较适合这类CPU结构跑的nbody类型分子模拟程序，比如NAMD，LAMMPS，Amber，GROMACS之类。

另一方面在缺乏Petsc／trilinos这样的并行计算基础库的条件下给太湖之光写代码是

成本非常高的事情，一般大学里只有极少数实力强大的组有这个条件（经费、时间、人力）从底层开始写一套大程序，这也制约了这一套系统的潜在用户数量。用户数太少的话软件基础设施永远停留在比较原始的阶段。

通宝推：PBS,

复这种数字上的竞争意义不大，关键要突破算法数模瓶颈，

家园

现在玩超算，不会节能的设计根本走不下去了

现在IBM体系和Intel/Cary体系的超算都在压缩能耗。

美国这个最新Summit超算只有4000个节点，是太湖之星的1/5，速度是2倍，能源消耗节省了30%。

现在看来IBM体系可能胜出。

通宝推：PBS,

全看树展主题 · 分页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明