美国能源部先进科学计算咨询委员会(ASCAC)向先进科学计算研究办公室提交了一份报告,旨在应对美国在高性能计算领域的挑战。

12

在至关重要的高性能计算(HPC)领域,美国已不再是当之无愧的全球领导者。日本、欧盟和中国已经推出了与美国最快的超级计算机不相上下的系统。从半导体到科学软件,任何产品的供应链都呈现出全球化特征。然而,美国的经济前景和安全在很大程度上取决于美国是否有能力以比竞争对手更快的速度进行创新,而创新的速度越来越取决于大规模计算科学和工程,因此也越来越取决于高性能计算。美国应如何应对这一挑战?本报告旨在就这一重要问题发起一场新的、可能具有变革意义的全国性讨论。

美国能源部(DOE)先进科学计算研究(ASCR)项目完全有能力在全球科学探索发现领域中,就美国应在哪些领域开展合作以及在哪些领域开展竞争做出明智而有针对性的决策。通过聚焦对美国和世界至关重要的问题,开展富有成效的合作,进行战略性投资,ASCR能够恢复并巩固美国在关键领域的科学领先地位,同时加强美国的研究基础设施,培养多元化的科学家。最终,ASCR及其培养出的科学家将为美国安全繁荣的未来铺平道路。

30多年来,ASCR计划提供了高性能计算和网络能力及专业知识,支持DOE履行推进美国国家安全、经济安全和能源安全的使命。该计划现在面临的挑战是开发和部署下一代高性能计算系统和技术,将高性能计算和人工智能(AI)技术广泛应用于科学和工程研究问题。在研发过程中,ASCR计划还必须推动HPC发展,促进科学发现和技术创新。

为此,美国需要大幅增加投资,并制定创新性的政策和计划。本小组委员会意识到,美国是在资源有限的情况下提出建议并呼吁采取行动的。国家领导人必须平衡各种相互竞争的优先事项,以新的方式利用资源,并在设施和运营方面寻求效率。但是,我们不能因此让想象力受限,也不能停止主张。ASCR计划是美国科研基础设施的重要组成部分,也是美国经济增长和竞争力的重要组成部分。ASCR有责任以决心和热情履行使命:推进高性能科学计算、人工智能技术应用以及建设先进研究设施。

为履行科学事业之于国家的责任,ASCR应制定发布清晰的愿景,阐述工作目标、优先事项和相关建议。除此之外,还应争取长期资助,展示科学的领导力,这将使该项目能够在已有成就的基础上更上一层楼,实现其雄心勃勃的愿景,并持续作出贡献。

基本现状

对国家具有重要意义的科学和工程应用将需要更高性能的先进计算系统,以模拟复杂现象,处理、分析和管理海量数据,支持尖端实验。要满足这些要求进而保持国际领先地位,就必须在计算、网络、数学和人工智能技术方面不断取得重大进步。国家实验室及其大学合作伙伴有条件做到这一点,但前提是在领导力、愿景以及资金方面得到适当的支持。

在能源部的主要领导下,美国在应用数学和计算科学与工程研究领域一直处于国际领先地位,并利用其专业知识提升建模和仿真能力,服务科学、能源和核安全领域的国家优先事项。美国在计算机科学领域一直处于领先地位,能源部的作用主要集中在与高性能计算有关的领域(如编程、并行算法和性能优化技术)以及网络和数据科学(科学发现的方法和工具)。

大数据和高性能计算对科学发现都非常重要,而且两者具有协同作用。整个能源部科学办公室的实验设施对前沿计算和网络设施、方法和服务的需求与日俱增。这些需求包括移动、分析、共享和管理来自观测传感器和科学仪器的数据集的能力,以及使用人工智能技术将数据与基于物理和数据驱动的模型进行集成的能力,这些模型本身可能会产生巨大的数据集,并需要大量计算来进行模型训练和推理。

超大规模计算计划是美国在高性能计算领域发挥领导作用的典例,该计划将最新的数学和计算创新成果融入到科学应用中,创建了一个全面的超大规模软件堆栈,并提高了一流计算设施的能力,使未来的科学突破成为可能。

能源部与行业伙伴密切合作,开发、部署和应用先进技术,特别是在领先的计算机系统和尖端网络服务方面。能源部实验室与工业界的最终用户密切合作,取得了许多具有重大影响的成果,扩大了与公司合作的机会。

超大规模计算项目(ECP)的结束既是一项成就,也带来了巨大的风险。该项目提供了强有力的人力、技术等相关能力。但现在,由于未来的资金来源尚不明确,能源部极易流失训练有素的员工。

美国、能源部和ASCR在关键领域的领导地位正受到威胁,造成这种局面的原因是国际竞争加剧和地缘政治变化(例如与其他国家的合作与竞争关系的变化),美国市场压力增大,近期一些商业目标对于人才、资金吸引力较强,获得了较多注意力。

技术领域已经发生了根本性的变化:登纳德缩放比例定律十年前便已谢幕,摩尔定律的效果现在也在减弱。超大规模企业(如云计算和社交网络公司)在计算方面的投资规模巨大,正推动市场朝向其特定需求发展。目前,人工智能相关计算已成为工业领域和超级分频器数据中心内高端高性能计算系统的主要性能驱动因素。定制/半定制硅(晶圆级人工智能芯片、芯片组、可扩展甚至开放式指令集架构等)兴起,为利用商品技术创造了新的可能性。目前潜在的颠覆性技术,如量子计算和网络(设备、架构、模型)获得持续投资,但这些技术可能需要几十年的时间才能完善和成熟

与过去不同,今天的科研格局和高性能计算供应链是横向的、国际化的,包括硬件、软件、网络组件和人才。要想在高性能计算领域取得领先地位,就必须像科学办公室的其他学科,如高能物理(HEP)、聚变能源科学(FES)一样,主动、长期、持续地参与这一广泛的国际生态系统。行业伙伴关系至关重要,需要加以关注和改进,特别是在共同设计方面,可以从ECP和其他国际努力中吸取经验教训,以便改进。

ASCR研究经费的实际水平正在下降,在量子信息科学(QIS)和人工智能/机器学习(ML)等新研究方向上的经费分配更加分散。与此同时,为满足支持超大规模计算计划部署的超大规模平台的需求,ASCR对设施的投资在不断增加。现有的研究经费越来越多地用于短期竞争性项目,而对“稳定”基础经费的拨款却在减少。ECP项目即将结束,却没有后续计划来吸引那些训练有素、技术精湛、才华横溢的研究人员留在DOE实验室。由此产生的不确定性,在实验室工作人员中,尤其是初级研究人员中,引发了极大的焦虑。而与此同时,来自产业界的人才竞争却日益加剧。因此,ASCR在研发创新技术和解决方案方面的领导地位面临着巨大风险。

国家实验室的吸引力和声望一直在下降。造成这一问题的因素既有内部因素,又有外部因素,包括实验室内部缺乏长期计划、愿景和稳定资金,以及与高性能计算、人工智能和大数据等行业的竞争加剧。实验室岗位的自主性和灵活性也有所下降。受新冠疫情影响,许多公司的工作岗位比国家级实验室所提供的工作机会灵活性更强,表现为拥有更多学术界和产业界的联合任命以及开源合作的项目,这些都有助于提高研究影响力,缩小报酬差距。

在当前资源紧张的环境下,大科学和先进的科学计算与网络越来越需要国际合作,并能为各方参与者带来益处。我们也注意到了全球范围内人员、思想、软件和技术交流卓有成效的许多例子。

从超大规模计算和以往计算进展中可以发现,要想实现能源部和国家所需的科学突破,必须在硬件系统和软件基础设施两方面进行创新。推动ASCR设施发展需要依赖以共同设计为基础的跨学科方法,而不是仅仅依赖供应商市场。ASCR将继续鼓励科学团队、计算研究人员、设施工作人员和供应商开展合作。

主要建议

四个关键领域 凭借在应用数学和计算科学与工程中高级计算和独特的用户设施方面的现有优势,ASCR今后的工作重点需要放在四个关键领域并追求领域内的领先地位:科学与工程领域的高端建模与仿真(如应用数学、软件、高级应用);科学与工程领域的人工智能(如人工智能方法、软件、数据集、高级应用);超大规模前沿计算架构和系统(如硬件架构、软件、部署的基础设施);应用于综合研究性基础设施的先进网络和未来互联网架构(如架构、软件、已部署的基础设施)。

值得注意的是,这四个领域都与白宫的关键和新兴技术清单相一致。这四个领域中的每个领域都有长期的研究挑战,应通过基础计划资助(促进职业发展)和机会性任命(提供灵活性)相结合的方式加以应对。每个领域还需要开发和部署能够支撑广泛研究事业的基础设施,如代码、图书馆、模型、高性能计算、人工智能、数据和边缘硬件设施、国家设施等。

战略与路线图 ASCR领导层应与DOE实验室合作,基于ASCR在数学和计算方面的优势,与能源部的世界级设施合作开展研究,制定十年期以上的愿景和战略。这项工作的重点应放在提供持续的投资,以保持和扩大ASCR在应用数学和计算科学与工程研究与多学科团队合作方面的领先地位。同时也要在新兴课题方面建立新的应用领域,如用于科学、能源和安全的数字孪生和人工智能,以及在摩尔定律不再适用时应对艰巨的计算挑战。

该战略应包括制定相关的ASCR技术和投资路线图,其中包括以下内容:1)达成超大规模后的关键技术投资计划,包括多周期十年设施路线图,满足建模、模拟和人工智能领域日益增长的计算需求;全球领先系统所需的电源和冷却因素考量,开展提高硬件能效的研究;考虑新出现的和非常规的架构,并为外部提供的替代方案开展探路活动。2)对ASCR已确立领导地位的领域进行再投资,防止美国失去领导地位以及巩固该地位所需的智力资源(如用于科学计算的软件工具和数字图书馆)。3)重视在能源部有能力建立领导地位的新兴领域的前瞻性投资,例如,大规模人工智能方法,侧重于能源部任务领域中世界领先的科学问题。4)重视人力资源。这一工作的关键是要有一个长期愿景,并辅之以稳定的长期研究资助模式,以招募和留住先进科学计算领域的顶尖人才,尤其要重视培养代表人数不足的群体。5)明确工业合作伙伴的作用,留住人才。应特别关注联合任命和其他类型的合作,发挥其在提高实验室人员能力方面的积极作用。

国际合作 ASCR需要为以超大规模计算和网络为重点的国际合作阐明愿景、相关目标和里程碑。ASCR应与实验室合作,确定关键的研究和设施机会,这些机会可能依托国际合作伙伴关系。ASCR应与战略伙伴建立信任,确定协议结构(可能超越传统的合作备忘录),并为发展灵活的多方合作提供资源。

前瞻性投资 ASCR需要对先进计算机体系结构和系统概念方面的长期前瞻性共同设计研究进行投资,以确定推动可持续发展的潜在方案,持续提升未来的科学计算系统的生产力。共同设计工作需要政府大幅增加对基础研发的投资。此外,能源部还应资助硬件和软件原型的大规模建造,以便使用定制硅片和相关软件测试新想法。

资料来源 ASCAC