当前位置:首页 > 工作总结 > 谁能扛鼎千万亿次HPC高速互联|扛鼎
 

谁能扛鼎千万亿次HPC高速互联|扛鼎

发布时间:2018-12-30 04:19:13 影响了:

  在高性能计算当中,海量数据的计算、存储与传输是并举的三要素。在最理想的情况下,三者应该呈等比例缩放,以相匹配的步调共同发展,但这毕竟只是理想情况。事实上,多核、众核、混合架构等新技术的出现,让计算远远走在前面,存储和互联往往成为限制系统性能发挥的瓶颈。目前最为流行的是集群系统,其节点数目随系统计算能力提升而增加。这样一来,节点内部及节点之间的高速I/O就显得尤为关键。
  当高性能计算机逐渐越过百万亿次的门槛,冲向下一个数量级千万亿次时,到底哪种技术才有可能胜任如此庞大系统的高速互联呢?这个热点议题正是日前召开的HPC顾问委员会亚洲研讨会的研讨焦点。
  
  慎选互联技术
  
  系统互联带来的瓶颈被形象地称为“互联墙”,中科院计算所副研究员霍志刚认为,不仅高密度节点给系统互联带来了很大压力,我们过去长期依赖的经验也显得过时了,很难再用处理器主频与内存容量、I/O速度的简单匹配来指导更大规模的高性能计算机设计。当规模变得庞大,规则就有可能被打破,过去的一些小问题也开始被放大,甚至可能影响到整个系统。
  霍志刚是我国正在研制的千万亿次高性能计算机――曙光6000的通信与容错课题的负责人。他表示,曙光6000对于高速互联网络的考量主要有几个方面:首先是兼顾低成本与高性能。高性能主要表现在要有可接受的低延迟,系统规模增大时能与之匹配扩展,以及具有良好的可用性,不会再重蹈过去使用InfiniBand技术时的覆辙。除此之外,系统厂商还需要有对所采用互联技术的出色的技术支持,并且保证开放性,“最起码要有多个厂商可以提供产品和解决方案,以免发生技术垄断”。
  
  InfiniBand前景看好
  
  美国橡树岭国家实验室,这个以高性能计算模拟核爆而闻名的机构也同样遭遇了系统互联难题。该实验室今年最新部署的一套“蜘蛛”(Spider)系统的峰值性能达到了1.38PFlops,是世界上最为庞大的高性能计算机之一。该实验室研究科学家王非一介绍,他在解决问题时采用了与HPC顾问委员会及合作伙伴共同研制开发的办法,最终决定采用InfiniBand高速互联技术搭建“蜘蛛”。将所有节点连接在一起的线缆长度超过5km,InfiniBand端口超过3000个。
  Gilad Shainer是HPC顾问委员会主席,他领导的这一致力于提供HPC实践并探索其未来发展的全球性组织,目前已拥有厂商、用户等110多个会员单位。对于系统互联问题,他同样态度鲜明,认为需要改变过去服务器与网络带宽的分配比率,网络互联设备需要针对每代系统平台提供4倍的性能,而发展中的InfiniBand将是千万亿次高性能计算机采用的理想技术。
  Gilad Shainer进一步分享了HPC顾问委员会与系统互联技术相关的实测数据。在MPQC、NAMD等大型并行量子化学、分子动力学等Benchmark测试中,结果显示,相比千兆以太网和万兆以太网,InfiniBand技术在性能表现和可扩展性方面都有着明显优势,从DDR到QDR模式演进后,这种优势更是压倒性的。
  据了解,InfiniBand技术目前在高端HPC应用较多,比如走鹃(Roadrunner)、蜘蛛(Spider)都采用了这项技术。在今年全球HPC Top500的系统中,前10名中有4套,前100名中有59套系统都采用了InfiniBand,而且还呈继续增长的趋势。霍志刚告诉记者,曙光6000应该毫无悬念地采用InfiniBand互联技术,只是曙光6000为异构系统,将大量采用龙芯处理器,他们正在仔细考量InfiniBand对龙芯的支持程度如何,以及研究技术实现曙光6000上的InfiniBand虚拟化。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3