研究团队使用El Capitan前身系统加速多物理场模拟

放大字体  缩小字体 2024-04-26 17:51  浏览次数:

LLNL team accelerates multi-physics simulations with El Capitan predecessor systems

劳伦斯利弗莫尔国家实验室(LLNL)的研究人员在加速和增加图形处理单元(gpu)上复杂的多物理场模拟功能方面取得了里程碑式的进展,这一发展可能会推动高性能计算和工程的发展。

随着LLNL为国家核安全管理局的首台百亿亿次超级计算机El Capitan做好准备,该团队的工作集中在开发下一代gpu多物理场代码MARBL上。El Capitan基于AMD尖端的MI300A加速处理单元(apu),它将中央处理单元(cpu)、gpu和高带宽内存集成到一个封装中,从而实现更高效的资源共享。

研究人员说,El Capitan的异构(CPU/GPU)计算架构,以及对大多数未来超级计算机将是异构的预期,使得像marb这样的多物理场代码——针对与任务相关的高能量密度(HED)物理,如那些涉及惯性约束聚变(ICF)实验和库存管理应用——能够在各种各样的架构中有效地执行。

在最近发表在《流体工程杂志》上的一篇论文中,研究人员通过利用gpu的功能,特别是El Capitan早期访问机器上的AMD MI250X gpu,成功地扩展了MARBL的功能,包括对HED物理和聚变建模至关重要的额外物理。

首席研究员Rob Rieben说:“这篇论文的重点是支持多物理场,特别是多群辐射扩散和热核燃烧,这涉及到核聚变反应,以及所有这些与模拟流体运动的高阶有限元移动网格的耦合。”

“为了在GPU上获得性能,你必须在编程,优化内核,平衡内存以及将代码转换为GPU并行代码方面做很多工作,而我们能够完成这些。”

自2015年以来,Rieben的团队一直致力于设计可扩展的GPU加速多物理应用MARBL,用于模拟HED物理实验平台,专注于软件抽象和算法开发的同步进步,以实现GPU性能。

合著者Alejandro Campos说,最近的论文中描述的工作对于交付严重依赖大规模计算科学的编程任务至关重要,以回答棘手的国家安全问题。他补充说,该团队在扩展MARBL能力方面面临两个主要挑战:验证额外的物理模块被准确实现,并确保这些新模块在下一代基于gpu的机器上运行时能够有效地执行。

研究人员表示,该团队通过一些技术解决了这些挑战,比如解决带有预调节器的线性系统的新算法,这些算法历来都是针对cpu进行优化的。LLNL应用科学计算中心(CASC)的一项突破导致了一种适合gpu的新型预调节器,该预调节器被集成到代码中并扩展到生产使用。

Rieben说,线性解算器的预处理器很难以高性能的方式移植到gpu上。“CASC提出了一种求解扩散方程所需的新型预调节器,专门为GPU上的高阶方法提供高性能,这使我们能够在El Capitan等GPU机器上运行大型3D多物理场模拟。

“我们的工作是将他们的方法放到产品代码中,扩大规模,并证明它不仅在基准测试中有效,而且在我们关心的实际问题上有效。我们与CASC的研究人员合作,将其纳入我们的代码中,并进行了所有必要的调整,以使其在多个GPU系统上表现良好。”

在论文中,该团队将传统的分布式CPU方法与GPU架构支持的快速计算进行了比较,并专注于开发能够有效利用GPU硬件的单指令/多数据范式的软件。该团队报告称,模拟的多物理场特性引入了瓶颈,增加了任务的复杂性,如果处理不当,可能会降低整体性能和可扩展性。

研究人员表示,该团队使用性能可移植性抽象层,如llnl开发的RAJA可移植性套件和MFEM有限元离散化库,有助于使MARBL的单一源代码能够针对多个GPU/CPU架构。

“在这篇论文中,我们把重点放在AMD gpu上,因为我们可以利用这里开发的其他开源性能可移植性库,比如RAJA,”合著者Tom Stitt说。“虽然需要做出一些针对amd的改变,但并没有那么多,也没有花费太多时间,所以开始我们的性能可移植性策略,这是一个胜利。”

Stitt补充说,让MARBL在LLNL当前的CPU/GPU旗舰产品Sierra上运行大约需要6年的员工时间,而在El Capitan早期访问系统上实现性能大约需要4个月,生产率提高了18倍。






“如果我们必须在这个新平台上再投入6年的时间,我们就不会成功;我们还在努力,”Stitt说。“我们的代码成功表明,RAJA可移植性套件是编写代码的一个非常可行的选择,可以跨CPU和GPU架构以及跨不同GPU供应商工作。”

Stitt说,除了RAJA, umpire——一个帮助缓解sierra内存限制的编程接口——也帮助改进了El Capitan的代码。由于El Capitan每个节点的内存是Sierra的8倍,研究人员将能够在单个节点上解决更大的问题,并利用AMD apu提供的并行性,研究人员说。

“mi300a是AMD GPU处理器的下一个进化,因此,我们非常兴奋地利用这些资源进行我们的模拟,”合著者亚历杭德罗·坎波斯说。“我们依赖于LLNL开发的各种库,如MFEM、RAJA、Umpire等,以抽象出一些性能可移植性方面的工作,因此,我们希望MARBL向新处理器的过渡将尽可能简单。”

合著者亚伦·斯金纳(Aaron Skinner)表示,由于架构的差异,之前在基于cpu的机器上运行MARBL的方法被证明是具有挑战性的。认识到这些限制,Skinner与CASC的其他研究人员一起开发了适合gpu的代码和算法增强功能,这一努力已成功地使多个物理模块受益。

斯金纳说:“我们早就知道,我们需要无矩阵的方法来获得gpu上的性能,但我们最好的线性解算器并不容易实现这种形式。”

“通过CASC,我们花了很多时间来实施和优化这些无矩阵方法,这些方法确实得到了回报,因为相同的线性求解器可以用于许多不同类型的模块,包括辐射扩散、热传导和α粒子扩散。我们的方法结合了代码优化和算法重构,以提高线性求解器的性能,而线性求解器往往占计算工作量的大部分。”

研究人员表示,MARBL的GPU加速成功代表了高性能计算的飞跃,不仅对El Capitan,而且对整个计算科学都有重大影响。

提高性能可移植性将提高灵活性,同时推进GPU加速可以为高能量密度物理中的现实科学问题(包括由激光或脉冲功率驱动的聚变能)以及航空航天和汽车工程、材料科学、气候、生物应用和其他复杂现象的代码提供更高效和准确的模拟。

Campos说:“像MARBL这样的代码的性能可移植性将允许更快地提供答案的模拟,或者以前即使在最大的超级计算机上也无法进行的模拟,因为它允许无缝利用不同的GPU硬件,而不需要大量的硬件特定移植。”

在论文中,该团队对关键物理基准问题进行了缩放研究,以证明他们的方法在各种计算架构上的成功,展示了GPU加速高阶有限元多物理场模拟的潜力,并强调了其性能可移植性方法的多功能性和适应性。

Rieben说:“事实上,我们有一个单一的源代码,可以针对来自不同供应商的多个gpu,这真的是一件大事。”“在美国能源部的实验室,我们的原则之一是,我们不能被锁定在一个特定的供应商。这是我们开发软件的方式,所以这对我们来说是一个巨大的胜利。就能够在尽可能多的平台上运行代码而言,这是一个巨大的乘数。”

研究人员表示,他们能够在El Capitan的早期访问机器上运行MARBL问题,其中集成的CPU/ gpu共享单个内存空间,速度约为Sierra的两倍,目标是在El Capitan先进的MI300 apu上达到5倍或更高,比实验室目前最快的商品技术系统增加15到20倍。

Rieben说,通过gpu更快的计算速度与科学发现直接相关,因为研究人员可以通过运行大量的模拟而不仅仅是一个模拟来学习。高分辨率的快速迭代使用户能够快速解决问题,从而提高生产力。此外,El Capitan增加的计算能力将使LLNL能够进行以前无法实现的大规模模拟,并提高模拟复杂性的标准。

Rieben表示:“在3D环境中以全保真度和高分辨率快速迭代的能力对于有效发现至关重要。“这是一个立竿见影的好处;人们可以更快地解决问题。所以,速度的提高直接转化为用户生产力的提高。”

“它让你做的另一件事当然是规模,所以现在你可以在一个你以前不会考虑的规模上考虑事情。随着时间的推移,曾经被认为是前沿的东西将变得越来越普遍。”

更多信息:Thomas Stitt等,高阶有限元多物理场应用的高性能便携式图形处理单元加速,流体工程学报(2024)。引文:研究团队使用El Capitan前身系统加速多物理场模拟(2024年4月24日),检索自2024年4月25日的https://techxplore.com/news/2024-04-team-multi-physics-simulations-el.html。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心