科技日报:让中国超算不只“听起来爽”
——中科院计算机网络信息中心服务超算20年
前不久,使用中国自主芯片制造的“神威·太湖之光”取代“天河二号”登上全球超级计算机500强排行榜榜首。其实在此之前,另一项世界纪录也已“低调”产生,依托“神威·太湖之光”,利用自主研发的并行计算软件ScETD-PF,中科院计算机网络信息中心(以下简称中科院网络中心)实现了使用全机系统900万核的并行计算规模,实测性能达到峰值性能的40%,是目前世界上最大的并行计算,遥遥领先于国际同类计算机模拟水平。
可能大多数非业内人士并不能完全理解这一成绩的意义,但在中国超算不断冲击世界第一桂冠的路上,除了赞誉和掌声外,质疑和反思也一直没有间断过,比如高昂的能耗费用、实际利用率低、应用软件开发周期过长、人才梯队储备不足等等。甚至有人尖锐的提出,占有量和运算速度诚然是一个“听起来爽”的指标,但如果没法用起来,再高的计算能力也只是一个让人迷醉的数字。
“脱离软件开发利用,超算就是一堆破铜烂铁。同样,光有高性能机器,没有人才做高水平的服务,那机器过5年就过时了。”在中科院网络中心副主任、计算科学应用研究中心主任迟学斌看来,除了要做好基础研究、前沿研究之外,更要在超算应用的软件通用性、行业专用性和软件工程化等方面取得突破。
并行计算:20年独磨一剑
对于超级计算机,中国与国外的建设方式略有不同,以美国为例,超级计算机的建设方研发的目的都是自用,一般是先有计算量需求,根据所需计算量设计系统,根据需求设计超级计算机的架构方式。而中国则是先进行建设,尽力提高性能,尝试满足更高的计算需求。
“其实无论是先用后建,还是先建后用,能满足应用的计算机即是最佳计算机。尤其是千万亿次计算时代的到来,仅靠简单地使用更多的处理核来执行原有的并行应用程序已不可能,这就需要对应用程序进行深度的并行优化,设计出性能更加优良的并行算法。”在迟学斌看来,中国超算的超前发展是技术发展的必然趋势,但只有抓住并行计算这个“牛鼻子”,才能提高计算效率和应用领域。
从1997年开始,围绕大气、物理、化学、海洋、金属材料等领域,中科院网络中心一步步的完善自己的基础算法库,并在数学方法上进行创新。
“以此次现场模拟为例,为了与‘神威’系统紧密结合,从程序实现、软件开发到大规模并行计算的实现和验证用了近3年的时间,仅算法就写了一万多行。”中科院计算科学应用研究中心研究员张鉴告诉记者。
“一个超算中心在其生命周期之内,能够解决一个问题,就有可能为某一个领域、某一个行业省下十几年、几十年的时间跨度,这个价值用钱没法算。”迟学斌认为,超算应用的发展需要长期持续地投入和积累,才能在未来某一个时间看到明显效果。
一组数字就很能说明问题,截至2015年12月,中科院超级计算环境已经面向用户提供了计算物理、计算化学、材料科学、流体力学等多个领域的87个并行应用,累计开通外部账号498个,累计提交有效网格作业逾55万个,累计使用机时已超过1.2亿CPU小时。
瞄准应用:抢占E级高地
打开中科院超级计算网络环境部署图,一个三层结构的超级计算环境已具雏形,“总中心—分中心—所级中心”聚合了逾千万亿次的计算能力,而且每层结构都建立了面向相关领域的系统运维与应用支持团队。
“随着神威26010软硬件生态系统的不断成熟,对应用平台的需求更加多样化的,要满足不同类型用户的需求,人才队伍的多元化发展至关重要。在超算中心每个研究人员可以自行选择喜欢的领域,我们没有任务指标,也没有考核,也不要求大家发文章。”迟学斌告诉记者。
在张鉴看来,这种组合方式就如同一支支随时准备打仗的部队,尽管大家专注的领域不同,但有一根弦始终紧拉着,那就是围绕并行计算开展服务和研究,一旦有任务就能顶上去。
不求闻达,不事张扬是这支队伍的真实写照,但也正是有了这种支撑,中科院内外的许多科研工作才得以硕果累累。
数据显示,“十二五”期间中科院超级计算环境用户发表论文数量不断攀升,各类论文共2724篇,其中绝大多数是SCI论文。更加可喜的是,中科院网络中心基于“神威·太湖之光”的“钛合金微结构演化相场模拟”成功入围国际高性能计算应用领域最高奖——戈登贝尔奖提名。
“这不仅是中国团队首次入围,更打破了西方发达国家的垄断,说明我们国家不仅能够造好的计算机,也能用好计算机。”尽管在迟学斌的口中只是“造”和“用”的细微区别,但这一字却凝结了中科院网络中心人不忘初心的决心和坚持。
谈及未来的研究重点,迟学斌说,“E级超算被全世界公认为‘超级计算机界的下一顶皇冠’,我们要抢占这个战略制高点为其提供支撑服务,同时还要针对行业重大应用需求和企业重大目标进行产品开发,提供应用计算服务,研发并行软件等等。”