郑纬民院士:哪类算力更适合建在西部

文 | 郑纬民(中国工程院院士、清华大学计算机系教授)

有统计显示,算力规模前20的国家,有17个是全球排名前20的经济体。可见,数字经济发展水平与算力规模密切相关。有人说“得算力者得未来”,这话虽有些绝对,但不可否认,我们已进入算力时代。

当前科学发现的四个范式——实验验证、理论研究、计算科学、大数据分析和人工智能计算处理中,第三和第四范式都与算力密切相关。但是,这两种范式背后的算力不尽相同。

一般认为,算力可分为三大类:高性能计算的算力(HPC算力或超算)、人工智能计算的算力(AI算力或智算)、数据中心的算力(通用算力)。在回答“哪类算力更适合建在西部”这个问题之前,需要了解这些算力的特点以及发展中面临的难题。

国内超算“花样”太多

超算是“国之重器”,它们被制造出来应对世界上最富有挑战性的计算问题。我国超算发展很快,曾经有3台超级计算机占据世界最快超算500强榜单的榜首。可以说,过去十年,我国在顶尖超算系统的研制和部署数量方面都处于国际领先行列。

我国超算应用也有很大进步。过去十年,我国科学家依托国内顶尖超算系统,多次入围高性能计算应用领域的国际最高奖“戈登贝尔奖”,并在2016年首次摘奖。

此后,2017年、2021年再次获奖(2020年的戈登贝尔奖由中美科学家联合团队摘得,这支8人团队中有7张中国面孔)。

但超算的问题在哪儿?如何高效地将世界领先的计算能力转化为解决尖端科学与工程难题的能力,依然是挑战——这不是中国超算特有的问题,而是全球面临的共同问题,目前许多大型超算的建构选择异构路线更加大了这一鸿沟。

怎么办?超算基础软件是提升转换能力的关键之一。然而,超算软件所面临的环境并不好。

目前,我国超算平台架构多样,应用移植和调优工作量大。国产超算的三类机器——神威、天河、曙光,都做得很好,但它们分属不同架构。一个超算软件要从一台机器移植到其他机器上非常难,移植成本也很高。

比如,社区大气模式CAM5在“神威·太湖之光”上的移植和优化成本在10人年以上,中科院大气物理研究所高分辨率海洋模式LICOM3在某超算上的移植和优化成本也要 6~10人年。

这背后的问题在于,我国超算“花样”太多、种类太多。美国超算发展之初,也是百花齐放,但现在基本上是CPU+GPU的异构高性能计算机。

我们也要想办法,比如建立一个编译优化平台,平台提供统一并行编程模型,程序员可以在这个模型和平台上编程、优化,降低开发复杂度的同时还可以跨平台高效运行。此外,国产超算平台支持复杂应用全流程计算的能力也亟待提高。

智算:面临“卡脖子”风险

2020年4月,国家发展改革委明确将AI纳入“新基建”范围。此后AI算力成为热门。AI计算机发展很快,国内也在建设很多智算中心。

智算大概有三类应用:图像检测和视频检索、博弈决策、自然语言处理。其中前两类应用在国民经济和信息安全保障等方面发挥巨大作用,但我认为它们都不需要太大的计算机。

不过现在国内已有20个城市投建了AI计算中心,规模很大、价格不菲。它们如果被用来做自然语言处理还可以,但前两类应用并不需要。

自然语言处理类应用有4种:基于模型的语言翻译、人机交互、文本生成摘要、关键词创作。目前,AI正快速向大模型方向发展,因为参数数量增长很快,大概每3~4月就需要机器算力翻倍。

我国AI产业快速发展,预计我国2025年AI产业规模将超过4500亿元,带动产业规模超1.6万亿。但要注意的是,我国AI企业却面临巨大“卡脖子”风险。

2021年我国AI服务器芯片总出货量100万片,但国产芯片出货量只有5万片,95%依赖进口。此外,AI算法和深度学习框架,几乎90%以上由他国开发。中国99.5%的在校理工科大学生学习的是国外的AI技术,学习自主AI技术的仅占0.5%。

目前,三类算力——HPC、智能计算机、数据中心是分开的。我希望“HPC+AI+大数据”能够融合。

过去,HPC程序从头到尾基本上是解方程这类“普通玩法”,但如今HPC面临的应用问题在中间可能会有AI计算需求。预计未来三五年后,计算机会把HPC、AI、大数据计算融合在一起。

短临天气预报就是一个FABS(融合AI、大数据、科学计算)场景案例。它需要大数据处理,又需要将HPC、AI融合在一起。目前的处理相对麻烦,预处理需要一台机器,做高性能计算也需要一台机器,后处理还需要一台机器,因此融合是未来方向。

“东数西算”:并网和调度是两大难题

“东数西算”的出发点是把东部的数据流动到西部存储和计算。东部产生的数据比较多,希望机器也在东部存储、计算,但计算机不能全在东部,这不利于“碳达峰”“碳中和”。西部有土地资源和清洁能源,所以要把存储器建在西部。

那么哪些数据适合在东部计算、哪些适合在西部?一般来说,对实时性要求高的在东部计算,对实时性要求不高的可以放到西部。

在三大算力类型中,HPC、AI算力建在西部是合适的。HPC 做天气预报的计算,一算几个钟头,中间也不必进行数据交换;AI模型的训练一连几天,这些都可以放在西部。

但数据中心搬到西部则不可行,比如短视频、电子游戏、网络即时通信等应用对实时性要求很高,无法忍受远距离网络传输带来的时延。我们调查过几个数据中心,它们80%~90%的机器在为这三类计算服务。

“东数西算”战略之下,算力网络建设是应有之义。“算力网络”就是把很多机器连在一起做事,但这件事做起来很费劲,主要面临两大困难——并网和调度。

并网需要把算力连接起来,这不是简单的网,需要带宽高、时延低。如果能做到,在北京打电子游戏的客户,机器放在西部照样能玩。但我认为还很难。

做调度同样很难,调度不是房屋租赁中介,只需要对接供需信息就可以。打个比方,有个计算需求想用“神威·太湖之光”,但现在机器很忙,恰好中山大学的机器闲置。把问题调度给中山大学超算上能不能行?有时候不行,这台机器可能运行不了专门针对“神威·太湖之光”写的软件。

要想把并网和调度这两件事同时做好,非常难,建议成立一个类似“链家”的公司专门做调度。这家公司可以没有计算机,就像“链家”没有房子一样。

综上所述,我国算力发展面临三大问题。第一,国产超算平台架构多样,应用移植和调优工作难度大。第二,国产算力平台支持复杂应用全流程计算的能力亟待提高。第三,AI企业面临巨大“卡脖子”风险。

笔者建议,第一,加强跨平台编译优化研究建设。第二,加强国产超算HPDA系统的软件研发。第三,定义自主AI产品(如国产AI芯片和学习框架),出台措施鼓励行业加速使用。第四,加强HPC、AI、大数据三类计算系统的融合研究。