华为联手中科大铸就高校超算新标杆
“小科小科,吃饭去啊。”
“你们先去吧,等会人少了我再去。最近事太多,我要抓紧把这组数据跑个结果出来,导师催着要呢。”
“你还在用咱们实验室的集群在跑吗?”
“是啊,实验室买了这么多服务器,可还是跑的很慢。”
“你去超算中心啊,他那边跑的快很多。”
“我之前试过,那边排队太长了,比我们实验室快不了多少。”
“现在他们新买的华为HPC平台,规模比之前大了很多,作业周转快基本不用排队。而且I/O特别快,算我们这种作业快得不要不要的。”
“真的吗?那我们一起吃饭,最近天天晚去吃剩饭都快不行了。回来我赶紧试试华为的平台。”
小科下午登录超算中心的系统,提交了几个计算作业。不用不知道,一用就见识了这个平台的快:下午提交的作业到凌晨依次运行完毕,第二天一早就拿到了需要的计算结果。
“幸亏你推荐我去超算中心跑程序,不然用实验室的集群估计还要跑10天半个月,少不了挨导师批。”
第二天中午小科在食堂吃饭轻松多了。
帮助小科的这个平台叫做“瀚海20超级计算系统”,他拥有CPU计算集群30480颗核,系统理论峰值性能2.52Pflops,实测HPL双精度浮点计算能力:700个节点1.43PFlops,计算效率为63.95%,甚至部分计算节点HPL效率跑出了71%以上的超高性能。”瀚海20系统”采用InfiniBand HDR100100Gbps网络技术构建的全线速的高速计算网络,在600纳秒的极低延迟下,每秒可发送2亿条消息,让用户获得更快的网络性能,也是全国高校首例。
不光是小科同学,中科大合肥微尺度物质科学国家研究中心的胡老师针对大尺度分子固体材料的第一性原理计算模拟,以自主开发的第一性原理线性标度计算软件DGDFT[JCP 143, 124110 (2015)]为基础,开发低标度、低通讯,低内存、低访存的并行计算方法,实现超大规模高性能并行计算,DGDFT采用了多级MPI并行以及高效求本征值方法,DGDFT具有高度可扩展性,本次测试在某校外超算和“瀚海20系统”超算平台上分别计算金属石墨烯C2880(2880个碳原子),在相同核数下的绝对计算速度比该校外超算运行快30%以上。
该系统也为科研用户提供了多种计算选择,采用20台华为Taishan服务器构建全自研的鲲鹏生态计算集群。华为Taishan服务器采用了自研鲲鹏架构,该架构芯片在部分单精度和整型计算应用程序性能表现优异,可用于生物信息学计算软件,和流体力学计算。中国科大网络信息中心张焕杰老师利用其实现了ARM平台甄别邮件系统中用户弱口令问题,由原来的X86单机1天,缩短到利用Taishan服务器30几秒即可完成,大大缩短了处理时间,提高了邮件系统的安全性。
中科大“瀚海20系统”不光好用还省钱,系统采用液冷技术进行高效散热,可循环使用的冷却水流经CPU、内存等高发热量器件,80%的热量直接由冷却水带走,大幅降低超算中心的散热能耗。华为承诺基础设施10年以上的寿命,设备5年以上的寿命,充分保护了用户投资。“瀚海20系统”的720台华为X6000液冷高密服务器计算节点仅需10个机柜即可部署,每个机柜72个节点39KW的超高密计算系统,相比传统服务器每年至少可节省电费17余万元。
中心主任李京教授说,在华为的帮助下,我们成功建设了超算平台“瀚海20系统”,已稳定高效运行7个多月,整个系统运行流畅、运维简单、绿色节能,能够满足师生日益增长的高性能计算的要求,相信中科大的师生在瀚海20系统上继续产出高水平研究成果。“工欲善其事,必先利其器”,相信这套先进、高效的“瀚海20系统”超算平台,将更好地助力中科大各院校师生开展科学研究,极大地促进中科大的双一流建设发展。