如果说计算机领域,国际上的*高奖项是图灵奖,那么国内*高奖就是CCF颁发的奖项。知情人士介绍,能获得CCF颁发的奖项,无疑是一个计算机学科的极高荣誉和实力体现。CCF创新奖旨在表彰在计算机科学、技术或网络工程领域具有重要发现、发明、创新,在相关领域有国际影响的优秀成果。获得此奖项不仅代表着中国科技力量有能力创新性地解决算力落地中的实际问题,而且意味着未来我们可以将此类创新成果更好地分享给世界。
那么,此次北大和华为联合获得的创新成果到底有何含金量呢?让我们仔细道来。
近年来,算力已经像水、电一样,渗透到生产生活的各个领域,成为经济社会高质量发展的重要驱动力。目前,我国算力总规模居全球第二,保持30%左右的年增长率,新增算力设施中智能算力占比过半,成为算力增长的新引擎。一系列显著增长点都让人看到了属于“中国算力”的勃勃生机。
从去年年底以来,ChatGPT引发了全球对于大模型的关注,由此点燃了千行百业对于AI训练的需求。各大高校和科研院所的计算平台使用人数激增,用户的作业量逐渐超过了平台承受能力,网络基础设施的业务吞吐量和复杂性都大大增加。如何破解拥堵难题,让算力更好地服务高质量发展已经成为当务之急。
北京大学早在2018年就建成了高性能计算校级公共平台,先后建成投用了“未名一号”“未名二号”“未名生科一号”等5套集群,共有732个节点、31000多个核心,计算峰值3.65PFLOPS,配备存储14PB。
高性能计算校级公共平台从整体上提升了北京大学的科研服务能力,降低了科研成本。截至2023年5月12日,该平台为来自数学、力学、物理、化学、生物、地球科学等96个院系的5000多名师生提供了高性能计算服务,支撑了545项科研课题,1400多篇科研论文,并支撑了2020年戈登贝尔奖的发布。
不过随着平台使用人数、计算任务的增加,网络基础设施的吞吐量和复杂性都大大增加,年均节点占用率都在80%以上,“未名生科一号”的节点占用率甚至长期处于95%以上,作业时间和排队时间变得越来越漫长。
不能让科研攻关任务堵在“临门一脚”!为了提升高性能计算的效率,降低科研成本,北京大学高性能计算校级公共平台组织了一次厂家“考核”,意在选出智能时代*的高性能计算网络。通过严格测试,北京大学高性能计算校级公共平台选择采用华为超融合以太网络解决方案,基于智能无损高性能计算网络搭建高性能计算集群,100%释放算力,缩短作业运行时间和排队时间。
针对热门大型公共计算平台排队和作业时间过长的问题,各厂商先后提出IB(Infiniband)、RoCEv1、RoCEv2等无损网络技术。但是,通用计算区部署的传统以太网、高性能计算区部署的IB网、存储区部署的FC网,是三张异构网络,他们协议各异、架构割裂,带来了运维困难、专网生态封闭、成本高、无法实现全生命周期管理等问题。
华为超融合以太网络解决方案*实现以太网0丢包,与传统以太网相比,可实现服务器规模不变,算力翻番;可构建10E级的超大规模算力集群;*实现网算一体,网络协助计算,经第三方权威测试机构Tolly认证,任务完成时间(JCT)对比IB 缩短17%。
此次北京大学和华为的联合获奖绝非偶然,这证明了超算行业技术圈对华为超融合以太网络解决方案的充分认可。