“神威”超算启示录

2016年08月30日08:26  来源:中国科学报
 
原标题:“神威”超算启示录

 

  2016年6月,新一期全球超级计算机500强榜单揭晓,中国超算创下两项“历史首次”。在“天河二号”过去三年连续六度称雄后,使用中国自主芯片制造的“神威·太湖之光”取而代之荣登榜首。

  但是,8月27日,在国家超级计算无锡中心举办的超算技术峰会暨中国计算机学会青年计算机科技论坛(CCF YOCSEF)学术委员会全体会议上,专家们一致认为,“中国是超算大国,但称不上超算强国”“中国在利用超算方面还和其他国家存在巨大差距”。

  中国的超级计算,弱在应用和人才两个方面。专家认为,大家对于实验、理论都比较重视,但对于计算手段的应用,还没有那么重视。而“神威·太湖之光”的研发过程,或许能给以后的超级计算研发提供经验。

  最强超算易主

  “在过去的15~20年之间,我国通过部署‘863’计划及其他科研项目为推动超算发展作出了很大的贡献,比如神威、天河、曙光这些机器都获得过国家‘863’计划的支持。”中国计算机学会(CCF)常务理事、国家并行计算机工程技术研究中心研究员漆锋滨介绍。

  国家超级计算无锡中心主任、清华大学教授杨广文谈起无锡超算中心的成立时说,“十二五”期间,科技部支持了两个十亿亿次级的超算项目,其中一个是先期启动的“天河二号”,而后在2014年,“神威·太湖之光”也在科技部正式立项,并于当年底完成原型机的验证,2015年底就已完成“神威·太湖之光”系统的研制与组装。“由于当时科技部的要求是建‘全球一流的超级计算机和全球一流的超算中心’,所以在超算研制完成的同时,超算中心也就成立了”。

  用两年左右的时间研制出世界第一的超算系统,速度之快令人惊叹。“‘神威·太湖之光’的具体研制时间虽然短,但它之前经过了很长时间的技术预研,准备时间充分。”杨广文介绍说。

  这台超算机器采用的是国家“核高基”重点科技专项支持的,由国家高性能集成电路设计中心通过自主核心技术开发的全国产“申威”CPU。“申威”系列的技术路线比较明晰而稳定,而且采用上一代“申威”CPU的“神威蓝光”超算为“神威·太湖之光”的发展做了很好的铺垫和尝试。“没有它,‘神威·太湖之光’也就不会那么快研制出来。”杨广文坦言。

  这台世界一流的超级计算机器,最大的优势在于拥有全部自主的核心技术。“因为当时中国最高水平的超算‘天河二号’采用的是美国英特尔公司的‘至强’处理器,所以国家希望能采用另一种技术路线来研制新的超算。”杨广文解释说,新超算从布局之初的思路就是要打造拥有全国产架构、自主可控的软硬件。

  还有个优势是“神威·太湖之光”从原型机研制阶段就开始与应用方一起讨论互动,否则也不可能在首次夺得TOP500冠军时,就有三大应用入围世界高性能计算应用最高奖——“戈登贝尔奖”提名。

  按照战略需求来发展

  中国超算的发展长久以来一直受到关注,但外界对于这个“烧钱”的战略项目也有不少质疑,其中很重要的一个依据就是中国花大价钱造出了全球性能最好的超算,但在应用方面却实力薄弱。

  对此,杨广文坦言,在21世纪前几年,中国的超算应用能力确实比较弱,但在2005年之后则进入一个快速成长期,主要因为超算越来越受到科研单位与产业的重视,从事超算的人才也越来越多。

  国内的发展趋势是机器牵引着应用走。“如果想要让国家的重点基础研究、核心装备研发甚至产业发展都用上超算,那超算的需求是无止境的。”杨广文说。

  据介绍,“神威·太湖之光”半年来的利用率已经超过50%,目前已经累计拥有50多项应用。目前有一些重大项目正在“神威·太湖之光”上进行全机测试,比如获得了戈登贝尔奖的三大应用。

  戈登贝尔奖被誉为计算机高性能应用领域的诺贝尔奖。杨广文介绍,2016年度戈登贝尔奖的6个提名中,“神威·太湖之光”就占了3个,分别涉及大气、海洋、材料三个领域的应用,今年有望实现我国在这个奖项上零的突破。

  目前,包括国家气象局等多个国家专业机构与研究院所都在“神威·太湖之光”上开展应用研究,并进一步与无锡超算中心寻求全面合作。“目前最核心的问题不是如何让它跑满,而是如何把它用好,可以多出重量级的成果。”杨广文说。

  “神威·太湖之光”之所以在这么短的时间内,就能有目前这么高的利用率,原因在于能够在超算研制初期就开始布局应用,杨广文在分享快速提升超算应用水平的经验时说。

  超算是一个交叉性很强的学科,需要一大批多领域专家集中在一起共同研发,如果全靠超算中心自己来招聘人才是难以承受的。所以无锡超算中心正在运作一种全新的机制:与应用部门共同成立专题联合实验室,比如流体力学实验室、新药研发实验室、汽车碰撞实验室等。

  杨广文介绍说,联合实验室的主任由应用方的学科带头人来担当,就是要让相关领域最强的专家来引领这一联合实验室的工作,而无锡超算中心则利用全球最强的运算能力为他们提供支持,并指导或协助进行程序移植,自主研发大型并行应用软件。此外,还可以与有需求的企业联合开发应用软件。这样,超算中心就不用招聘那么多的应用人才,而是需求方带着自己的应用软件与研究团队到无锡超算中心一起工作,“这可能也是解决人才短缺的办法”。

  努力向超算强国迈进

  “国内的应用软件与国外相比差距很大,想通过购买来满足我们的需求是不可能的。”漆锋滨在谈到国内超算水平时说,超算跟应用是亲兄弟,超算是应用的需求,应用牵引了超算的发展。“价格和安全等因素都要求我们只能靠自己研发。发展要多一份耐心,多一份坚持,要不断地积累。”

  CCF计算机应用专委会副主任、生物信息专业组副主任彭绍亮认为,做超算的团队也要懂得高性能计算应用。“这个交叉是一个非常好的方向,而且已经有越来越多从事软件研发的人员,愿意在开源社区作点贡献,带来了一些新的契机。”

  “对国家来说,超算直接关系到国民经济发展的重大方向。”CCF理事、北京并行科技股份有限公司总经理陈健介绍,“美国向全球技术的输出分为五类,超算是单独被列出的一类,可见其重要性。”

  并行公司在做的事情就是,利用高性能计算软件,作为第三方服务商,提供把一个顶级的超算资源很方便地传递到用户手中的通道。

  “当我需要一台云主机的时候,IT变成了基础架构,如何让计算也变成基础架构,首要的就是超算。怎样能够把非常强的超算资源方便地给到有需求的计算用户或者最终用户手里,实际上需要做环境建设或者生态建设的居多,或许在技术上并不算太高大上,但这可以实实在在解决应用和推广的问题,目标就是让用户关注计算应用,无须关注计算本身”。陈健说。

  记者手记

  探秘“神威·太湖之光”

  很多人可能认为运营着全球最强超算的无锡超算中心一定非常高大上,但实际上,该中心位于无锡西南方向一个并不起眼的科技园区内。而它所在的大楼也非常低调,只在大堂正中墙壁上挂着一个液晶屏:“国家超级计算无锡中心欢迎您”。

  中国计算机学会青年计算机科技论坛(CCF YOCSEF)学术委员会全体会议之后,《中国科学报》记者与其他参会人员一同进入了无锡超算中心最核心的区域——“神威·太湖之光”的机房。所有进入机房区域的人员都必须穿上防静电服和防尘鞋套。在6月20日机器发布之前,“神威·太湖之光”处于严格保密阶段,这里是严禁拍照的。之后,整个无锡超算中心无论对于国内外同行,还是有意合作的应用方,都抱着一种开放的态度。

  走进机房内部,首先映入记者眼帘的是三组巨大的机柜,据国家超级计算无锡中心主任、清华大学教授杨广文介绍,该机房的面积约1000平方米,三组机柜是以0、1、0的顺序摆放,其中两个“0”是由每组20个机舱组成的运算设备,中间的“1”是由8个机舱构成的网络设备(用来实现处理单元的互联互通),一共加起来是48个机舱。机柜之所以以“0、1、0”的顺序摆放,主要考虑计算机的代码就是由0和1组成的,同时也有充分利用空间和布局整体效果的考虑。

  杨广文打开了一个机舱,里面密密麻麻排列的运算单元很像抽拉式档案柜。据介绍,每个机舱里面有4组超节点,每组超节点有32块运算插件板,每个插件板上有8个CPU,而这8个CPU的运算能力就可以达到每秒25万亿次以上,一个机舱的运算能力是3.2千万亿次,相当于“神威蓝光”整体运算能力的3.2倍。

  在机柜的后面,记者看到这些运算设备除了连接着大量网线外,每组运算单元上都接着两根水管。据介绍,这是用来冷却运算设备的重要组成部分,而这一水冷技术是“神威系列”超算的一大特点,它可以充分保证对高速运转芯片的降温效果,这一技术对于未来中国研制下一代百亿亿次级超算也将带来巨大的帮助。

  这么强大的运算机器在运转时噪音是不是很大?记者在进入机房时几乎没有听到噪音,除了环境空调出风的嗡嗡声,超算机器本身基本不产生噪音。

  在机房外面,还以实物形式展示了“神威·太湖之光”采用的申威众核处理器。单个处理器看起来非常小巧,但它所蕴藏的运算潜力以及全部国产的技术含金量,不亚于一块钻石,而正是这一个个小“钻石”排列在一起构成了“神威·太湖之光”峰值运算速度每秒12.54亿亿次、持续计算速度每秒9.3亿亿次的全球最强运算能力。(贡晓丽)

(责编:魏艳、赵竹青)

推荐阅读

韩春雨实验结果遭质疑 科学界表示仍需等待 3个月前,因发现了一种革命性的基因编辑方法并在顶级期刊《自然·生物技术》发表而“一鸣惊人”的河北科技大学副教授韩春雨,近日再次被推向风口浪尖。因为到目前为止,全球还没有一家实验室对外宣布能够完全成功重复韩春雨的实验。【详细】

我国第二批航天员首次曝光 参加国际训练意大利撒丁岛组织的航天员洞穴训练任务,来自不同国家的航天员组成乘组,在与外界隔离的复杂洞穴中进行探险、勘查和测绘等活动,并完成采集洞穴样本、寻找生命等一系列科学试验,旨在通过在极端环境中工作和生活,评估和锻炼航天员的行为绩效技能。【详细】