西西河

主题:世界首台100P超级计算机-神威太湖之光在中国诞生了! -- 尖石

共:💬105 🌺723 🌵7 新:
全看树展主题 · 分页首页 上页
/ 7
下页 末页
家园 干这活的机器哪会公开啊
家园 节点间通讯体系,技术难度比CPU还大?
家园 Hpcg

http://www.hpcg-benchmark.org

看了下介绍。感觉很含糊。有内行的个科普一下么?

家园 搞模拟,解方程

算的越快,内存越大,能模拟的东西越大,飞机坦克啥的。

家园 蒙特卡洛法

算积分可以的

家园 今年高考数学有一道选择题就是算圆周率

用蒙特卡洛法

家园 发展潜力很大啊

如果是32nm或40nm流片的话,到16nm性能提高一倍功耗降低一倍问题不大。我还琢磨呢,TMSC16nm线产能太紧张,难道用了三星的14nm线?或者是28nm线呢。

南京的tmsc16nm线好像年底开始试产,要能和华为麒麟一样在16nm线上从试产就开始,太湖之光性能非爆表不可。

---------------------------------------------------------------------

修改,刚才看了报道,好像是28nm流片的,当然,仍然有进步的余地。

家园 可用于天气预报
家园 全文转载是违反河规的

首先你这个就是从solidot.org上全文抄过来的

其次solidot又是从hpcwire上抄过来的

所以你们一窍不通,还装神弄鬼

下面是你们都不知道的关键细节:

首先是Linpack和HPCG的区别。Linpack是用高斯消元法解n元一次线性方程组,这是一类常见的工程问题,所以它被用来做超算的基准测试。它最大的问题是,当n增大时,浮点计算量按O(n^3)增长,而通讯量只按O(n^2)增长,所以其高度依赖峰值浮点性能,而对节点间通讯测试不足。而HPCG改为用共轭梯度法解线性方程组,浮点运算和内存访问/节点间通讯之间更为均衡,所以除了峰值浮点性能,下面四个因素极大地影响了了HPCG成绩: 缓存大小和速率、内存带宽、节点间通讯延迟和节点通讯的半径。

HPCG的出台主要受现在GPU超算的影响。GPU浮点运算是巨人,数据吞吐是侏儒。早期大家对GPU集群很有意见,把老程序放到Linpack成绩极好的集群上,性能一塌糊涂,唾沫都把这些GPU集群给淹死了。大家的强烈意愿推动了HPCG这类测试,这下GPU集群 Linpack 成绩不管用了,HPCG 成绩惨不忍睹。这时美帝的泰坦也唰地一下就下来了。说起HPCG效率,泰坦 (1.1%) 还不如天河二 (1.2%),当然比太湖之光的0.3%还是好看些,而全CPU版本的京 (K computer)就能做到4.0%的HPCG效率。

太湖之光的架构决定其峰值速率很高,功耗控制很好,但跑HPCG一定成绩很差。 跑HPCG最大的问题在于其缓存。SW26010 每个 core 只有一级 64kb 的数据缓存,而现在常见的 Intel Xeon 使用三级缓存体制,有几兆到几十兆的数据缓存,二者差三个数量级。缓存是耗电大户,少了缓存耗电量自然就下来了,当然对Intel CPU而言低效的x86核心拖后腿的效应也是客观的。太湖之光的第二个问题是内存吞吐,用的是DDR3,不是DDR4。第三个问题是神威网络,就是其节点间通讯的机制,虽然神威网络现在的吞吐率是很好的 ( MPI通讯:12 GBytes/s ),但是延迟相对比较大 (1us)。

从总体架构上讲,太湖之光是一台非常专一甚至可以说偏颇的超算。它更类似一套用GPU搭起来的同构集群。说它像GPU是说它的缓存结构比较简单,缓存也比较小。但是它是同构集群,全部是CPU,所以程序优化比GPU简单多了,并行效率也很好(以Linpack计有74%,天河二和泰坦分别是61%和64%),功耗很低,所以和现在TOP500排名靠前的几个含GPU或Intel Phi处理器的异构超算相比有很大优势,抢占GPU超算市场不是难事,这世界上还有乌泱乌泱的超算应用是和Linpack近似的。

说"Linpack并不能反映实际应用"是对的,但是隐含的"HPCG能反映实际应用"却是错的。实际的应用,既不同于Linpack,也不同于HPCG。计算机是死的,人是活的,计算机适合哪种运算,实际的应用就会向哪个方向优化。以分子动力学为例。分子动力学就是超算应用中的所谓“药物设计”、“材料设计”的大头了。分子动力学中包含一个计算很大的稀疏矩阵的共轭梯度的过程,而且这个计算过程就是计算中最耗时的步骤之一,历来是并行化的重点。从原理上说,HPCG是更贴近分子动力学的测试,那么不用测我们就可以得出一个结论:GPU不适合分子动力学,因为把原始程序简单GPU化以后,保证跑得比CPU还慢,一做profiling,时间全花在内存和GPU缓存之间的数据交换上。但现实是,现在大所数人都用GPU加速这一过程,加速比还不错,从2-3倍到10倍到几十倍的都有。GPU加速版本,基本上是通过增加局部数据交换,减少全局数据交换,取得一个接近CPU版本的足够好的近似解。一块做GPU运算的显卡比一块CPU便宜,运算还快,经济上自然取得优势。以前没深入优化的老程序在GPU集群上跑加速比有限,现在慢慢地在提高,GPU集群的接受度也越来越高。就连HPCG这个测试本身,在天河二上优化优化,成绩居然有6.8倍的提升。

通宝推:otto,朴石,indy,曾自洲,一介书生,nighter,parishg,梓童,mezhan,预备役师的防化,石狼,snark,北纬42度,盲人摸象,崇文尚武,关中农民,图灵,敲门,nettman,唐家山,刹那芳华,witten1,epimetheus,pattern,桥上,
家园 C919大仰角气动模拟,核武器模拟,地质信息运算
家园 大规模量子蒙卡

大规模量子蒙卡是其中的一个应用,我的一个同学,在天河二号上,每年用量子蒙卡算多体量子体系的物理性质花费都是几百万RMB的级别。他所在单位每年在天河一号及二号上的开销都是几千万到亿级别。

从我同学那知道的是天河二号基本是在满负荷运转,像他这样的运算需求,往往都是见缝插针的把调好的程序qsub上去。

家园 我比较俗

不知道能否用来挖矿,挣点比特币?

起码先把开发的成本先挣回来再说嘛!

家园 观察者网这篇也不错

这算什么“装神弄鬼”,实事求是,技术产品肯定有其特点,亮出来才能惊艳么。下面只摘个文章结尾吧。

--《观察者网》----------------

结论:

虽然“神威太湖之光”在整机性能、整机功耗、整机效率、性能功耗比等重要参数上无与伦比,但也并非尽善尽美,它也有自己的阿克琉斯之踵——其内存只有1.31 PB(天河2号为1.4PB)。另外,由于国产众核芯片内存带宽仅有136.51G,而且用的还是DDR3,相比之下,Intel的KNL和英伟达的Tesla都采用3D堆叠内存,内存带宽更是达到512G(Intel PHI) 和 720G(英伟达 Tesla)。因为单个CPU的内存带宽不大,所以对于现实生活中的应用,很难跑出接近峰值的性能。对于某些对内存带宽要求高的应用,实际使用中就不如Tesla和PHI了。

不过,这并非申威26010和“神威太湖之光”的硬伤,得益于申威26010异乎寻常的设计理念,使申威26010单芯片能够完成Intel E5+PHI,或Power+Tesla两款产品的功能,而且相对于Intel E5+PHI,或Power+Tesla,申威26010能够实现共享内存,这就避免了Intel E5+PHI,或Power+Tesla必须面对的显式拷贝,从而降低了对内存的压力,并减小了性能损失。笔者猜测,正是因为申威26010异常先进的设计理念,一定程度上弥补了内存上的不足,使中国科研人员敢于采用136.51G的内存方案。

虽然有内存上的瑕疵,但瑕不掩瑜——在美国的100P超算问世之前(估计要2018年前后),“神威太湖之光”会是全球性能最好的超算。

家园 抛砖一下

天河2号跑的应用以科研院校的研究项目偏多。而科研院校里面,以计算化学、计算材料偏多,涉及的程序基本就是分子动力学、第一性原理计算程序。其次是生物医药类的多,基因组装、药物筛选。工程类的计算话主要是CFD,高铁气动外形,大飞机机翼选型,RCS分析……

还有一块计算量很大的地方也可以算是计算流体方向,气象预报,海洋模式,地球系统模式。

核武模拟,这个真的没有,军方有银河呐(想来只强不弱),天河2号不具备这个保密资质哈。

没参观过美帝的,不妄言,但有一点可以明确的,

我们的计算机硬件制造水平不弱了,但是配套软件是跟不上的。

不说底层操作系统的问题,绝大部分应用程序都是国外的,包括开源的,商业的。

万幸的是,还是有一部分实力派玩家,能把天河2号整机万把个结点并行跑起来的都是国内自己写程序的。

家园 难说,这也许是数字货币化战略的一部分

加快挖矿速度,取代美元在国际上的流通。

全看树展主题 · 分页首页 上页
/ 7
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河