Menu Close

搭建一个超算中心,需要哪些芯片?中国超算的算力已不及美国“前沿”的十分之一

2022国际超算大会发布最新TOP500榜单,美国田纳西州橡树岭国家实验室(ORNL)的“前沿”(Frontier)以1.102 exaflops的成绩屠榜,成为第一个真正突破Exascale大关的超算。

在这一份榜单中,我国的神威太湖之光位列第六,天河二号位列第九,与前几年相比排名有所下降,算力也不及美国“前沿”的十分之一。

长期以来,超算被视为综合国力的象征之一,是支撑国家持续发展的关键技术之一。那么,中国的超算能力如何?国内芯片供应链是否能够支撑中国搭建超算中心呢?

计算机电脑机场

超算市场的形成

简单来说,超级计算机是指由数千甚至更多处理器组成、能计算普通计算机和服务器不能完成的大型复杂课题的计算机,它是将大量的处理器集中在一起以处理庞大的数据量,同时运算速度比常规计算机快许多倍。

根据中国科学院院士钱德沛2019年所做的一个报告,1993-2012年,超级计算机的性能大约每10年提高1000倍,从2013年起,上升速率变缓,降低为每10年100倍左右。但无论如何,超级计算机性能增长的速度远高于民用PC的性能增长,这说明超级计算机性能提高固然要靠单芯片性能的增长,也非常依赖系统规模的扩大。

最早,超算领域一直是由美国主导的,美国是该领域的传统强国,已构建了三大E级超算体系。自20世纪80年代中期开始,日本逐渐追赶上,其自主研发的超级计算机的性能屡创佳绩。

近几年,中国在超算领域也逐渐崛起,占据了突出优势。在2022年的榜单上,中国共有两个超级计算机进入前十,分别是HPL得分为93PFlop/s、位列第六的“神威·太湖之光”和HPL得分为61.4PFlop/s、位列第九的“天河二号”。

截至目前,我国共挂牌8座国家级超算中心,分别位于天津、长沙、济南、广州、深圳、无锡、郑州、昆山。

那么如此重要的算力场景,究竟需要那些芯片呢?

超算中心需要哪些芯片?

先来看国内,2010年,中国的“天河一号”位居全球超级计算机500强排行榜榜首。其思路采用“CPU+GPU”的设计思路,结合了大约7000个英伟达GPU和14000个英特尔CPU,将GPU(图形芯片)用于超级计算机,起到了“CPU加速器”的作用。

尽管“天河”的主要部件仍来自英特尔与英伟达两个美国制造商,但互联芯片则完全是中国自主研发,“天河”安装有由中国自主研发的“飞腾1000”芯片,部分取代了进口芯片。

2016年“神威·太湖之光”诞生,是世界首台峰值运算性能超过每秒十亿亿次浮点运算能力的超级计算机。这台计算机共有40960颗国产芯片,运算系统全面采用了国产“申威26010”众核处理器。这也是我国第一台全部采用国产处理器构建的超级计算机。

从北京超级云计算中心来看,根据处理器的类别,北京超级云计算中心的超算分区可以划分为四大系列:基于AMD芯片的A分区与M分区,以及A分区的加强版「A6分区」;基于英特尔芯片的T分区与L分区;基于国产芯片的先导一号;基于英伟达芯片的AI智算云,比如N17、N19区。

其中,A分区采用的是AMD在2019年推出的第二代EPYC(霄龙)服务级处理器,代号罗马(Rome),基于7nm工艺,搭载64核心128线程,每一个核心的内存为4GB,在提升核心的同时也提升了时钟速度,加速频率可达3.4GHz。

国外方面,今年在超算榜单排名第一的美国的“前沿(Frontier)”超级计算机,相较于神威·太湖之光,美国的Frontier只有9408个节点,每个节点配备一个AMD Epyc 7A53 CPU和四个AMD Instinct MI250X加速卡。显然,Frontier的节点间通信的压力要小得多,也更容易设计。

该系统共包括8730112个内核,整个系统总共有9400多个CPU和37000多个GPU。Frontier核心计算部分主要依靠AMD Instinct MI250X加速卡,采用的是CDNA2架构。

此外,每块加速卡上还集成了128GB HBM2e高带宽内存。现在的超算主要还是冯·诺依曼结构占主导,内存速度将直接影响计算速度,这种内存比普通的要快得多,目前却只有少数企业能够生产。

超算中心如何分配芯片

超级计算机的性能野蛮生长了20年,至今为止,美国研制Frontier的花费也不过区区6亿美元,这说明超算系统规模的扩大并不是简单的堆硬件。

日本“富岳”(Fugaku)超算,宣称它的浮点运算速度峰值可达每秒41.5亿亿次;中国的“神威太湖之光”,它的浮点运算速度峰值是每秒12.5亿亿次。都达到了10亿亿次以上。超算用了很多个芯片,让它们同时执行任务,而单个芯片的性能跟个人电脑的芯片是差不多的。用科学术语来说,这叫做“并行计算”,这是高性能计算的基本思路。

超算的算力是和核数有关的。但算力速度并不能与核数构成正比例关系。实际上,要让多个芯片同时运行,就必须首先给它们划分好任务,这个任务划分是要消耗时间的。然后,当各个芯片开始计算之后,还不时地要和其他芯片交换数据,这个通信也是要消耗时间的。

超算的竞争主要是超算系统中调度、分发、通信相关的软硬件的竞争。早期的超算中心,每一个节点要么纯CPU,要么是CPU+加速卡的异构计算方案。但从2010年前后开始,纯CPU的方案劣势太大,越来越少地被采用。CPU+加速卡的异构计算方案也存在很大缺点,即计算的数据会反复在CPU和加速卡之间传输,造成大量的性能浪费。

因此,为了更高的性价比和计算速度,早期国内往往会购买英特尔和英伟达两家美国厂商的成熟产品。

再之后异构计算进入超算中心的眼帘。事实上,最近几年曾经在TOP500刷榜,或者排名靠前的超算都采用了异构计算——中国神威太湖之光、美国超算泰坦、中国天河1号和天河2号。

泰坦有18688个运算节点,每个运算节点由1个16核心AMD Opteron 6274处理器和1个英伟达 Tesla K20加速器组成,共计299008个运算核心,属于CPU+GPU。

天河1号使用了14336片英特尔 Xeon X5670处理器和7168片英伟达 Tesla M2050高性能计算卡,属于CPU+GPU。

天河2号有16000个计算节点,每个节点由2片英特尔的E5 2692和3片Xeon PHI组成,共使用了32000片英特尔的E5 2692和48000片Xeon PHI,属于CPU+众核芯片。正在升级的天河2号则将美国的Xeon PHI换成了自主研发的矩阵2000,属于CPU+DSP。

神威·太湖之光使用的sw26010将两个部分的电路,集成到了一个芯片上(片上异构),这样既避免了纯CPU不擅长专业计算的劣势,又避免了加速卡不能和CPU共享内存的问题。使得sw26010在设计团队规模很小,制程落后整整两代的情况,实现了和英特尔类似产品相似的功耗和性能。

太湖之光的成功,启迪了后来日本的“富岳”超算。“富岳”同样抛弃了美国成熟的计算方案,购买ARMv8.2-A指令集开发管理核心,并自研专业计算模块,推出了富士通版的片上异构芯片A64FX。

总结

我国在发展超算中心的途中,仍有许多问题。国产芯片研究起步较晚,CPU、GPU等超算核心芯片指令集架构领域仍然存在明显短板,缺乏高端芯片制造能力。EDA和编程平台长期面临卡脖子风险,核心设备依赖进口,自主权和议价权仍由国外巨头掌控。

目前来看,超级计算机的核心硬件CPU与GPU市场呈现马太效应,CPU主要由Intel与AMD领跑,GPU市场由英伟达等国际巨头掌握关键技术话语权。并且在美国的刻意制裁下,上榜超算大会TOP500的企业,往往更容易被加入实体清单。

2019年6月,美国将江南计算技术研究所等列入实体清单;2021年4月8日,包括天津飞腾信息技术公司、上海集成电路技术与产业促进中心、Sunway Microelectronics、国家超级计算济南中心、国家超级计算深圳中心、国家超级计算无锡中心以及国家超级计算郑州中心被美国列入黑名单。

在重重压力下,我国超算仍然保持着优秀的成绩。在今年的ISC 2022超级计算大会上,中国是超级计算机上榜数量最多的国家,以173台的数量位列第一,占全球34.6%;排名第二的美国从上一期的150台下降到127台,占比25.6%;排名第三的日本则有33台进入榜单,占比6.6%。

从2016年开始,我国超算进入TOP500榜单的数量,除了2017年6月稍下滑位居第二外,基本上就一直稳定在世界第一的位置。这些成绩的出现,并非易事。

随着我国高度重视超级计算机核心芯片自主国产化研究,国产x86架构CPU、DCU深度计算单元均已获得一定的应用。

(Visited 19 times, 1 visits today)
除教程外,本网站大部分文章来自互联网,如果有内容冒犯到你,请联系我们删除!
评论区评论发表10个有质量的评论,可以联系我们 申请作者权限.

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

Leave the field below empty!

Posted in 半导体基础

Related Posts