智算集群
智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即算、存、运和服务的紧密协同。
来源 | 人民邮电报(转载请注明来源)
9月20日,中国工程院院士倪光南在2024华为全联接大会期间,发表了“要用复杂工程系统思维统筹规划我国智算集群建设,以标准引领智算集群高质量发展”的主题演讲。
以下为演讲全文:
要用复杂工程系统思维统筹规划我国智算集群建设,以标准引领智算集群高质量发展
科学技术的迅猛发展,带来了新一轮的科技革命和产业变革。数据爆发式增长、算力不断跃迁、算法的持续演进带领我们即将进入一个万物重构和万物智联的新时代。智算集群是引领这一时代发展的主要新质生产力,是支撑数字中国建设和数字经济运行的重要基础设施。我们要实现“极致集群算力、协同系统优化、长稳可靠训练、灵活算力供给、绿色低碳节能”的高质量智算集群的建设标准。为此,在大力发展算力、存力、运力的同时还要注重加强智算集群的服务体系建设。
智算集群建设是复杂的工程系统
系统是由若干要素组成的具有独特结构和功能的整体,系统要实现不断优化和进化就必须重视整体性及要素的关联性、耦合性和协同性。1989年底,我国著名科学家钱学森发表的“一个科学新领域——开放的复杂巨系统及其方法论”,标志着复杂工程系统理论的建立。党的二十届三中全会《决定》提出要坚持系统观念这个重大原则,强化系统集成,加强整体谋划、系统布局,使各方面改革相互配合、协同高效,发挥系统整体性1+1>2的优势。
智算集群建设就好比构建一个足球冠军团队,不仅需要有各个优秀球员,还需要球员之间的协同和配合以达到最高效能。智算集群是一个复杂工程系统,而不是简单的软硬件的堆砌,它要求“3+1”算力体系,即算、存、运和服务的紧密协同。也正是基于复杂工程系统思维,智算集群在算力规模、算力利用率、集群可靠性等关键指标上,可以持续“挑战”和“对抗”源于单模块、单机、单系统的各种物理极限和物理失效问题。
以国内刚刚建成的某运营商超大规模集群为例,它共含近2万张算卡,2千多台智算设备,近8万根线缆互联,7百多台RoCE高速交换机,以及800多台通算、存储设备,10万+光模块占用1千多个机柜。数量巨大的这些设备之间相互交织互联,任何一个关键点出现问题都可能影响训练任务中断,一卡断,万卡停。一个典型的超大规模集群一年的运营成本超过亿元,假设由于各种单点故障导致了训练时间上5%的浪费,都会带来上千万元的直接经济损失。
由此,我们可以看到智算集群建设除了具备系统性(或整体性)、规模性等特征之外,还呈现出多层次性、动态性、不确定性等典型特征,归结如下:
第一,多层次性:智算集群具有复杂多层次结构,各核心技术构成全栈系统的不同层次的子系统和更小的子系统,他们在水平和垂直层面的集成组合会表现出不同的系统效能。
第二,动态性:在时间维度上,随着不同的子系统的状态变化,智算集群的复杂度出现非线性增长的特征。要在近万条业务路径上快速定位与排除故障点是一个巨大挑战。
第三,不确定性:上述复杂多层次结构与各子系统状态动态变化的特性,都使模型训练的结果、推理的性能、用户体验存在不确定性。
做好高质量智算集群全生命周期运营运维服务
当前信息技术服务体系和运维已越来越受到重视,尤其智算集群系统建设与运营运维管理维度催生了新模式、新业态,我们要密切关注。
虽然系统内部存在大量的随机性和不确定性,但如果在建设前期通过专业的智算服务团队系统规划、系统集成及系统运营运维,将逻辑过程与空间计算等技术融入,可以有效地管理系统的复杂度,确保复杂工程系统的安全可靠、高质高效运行,可以放大系统整体能力来实现智算集群建设的效能和经济效益。比如,空间计算与人工智能的融合改变了我们二维的交互方式,引领我们进入一个三维实时交互的场景,这不仅对企业后期复杂系统服务运维带来了极大的便捷,同时也有颠覆未来产业范式的趋势,这些技术的进步和演进正在重塑新的产业变革。
构建和完善中国的智算集群建设与运营运维标准体系
我们以数据中心的标准体系建设为例,西方国家在设计、建设和运营运维领域,已形成了诸如BICSI、TIA、OCP等行业标准,定义了数据中心基础设施的集成与运营运维标准,强调客户需要选择可靠的供应商及专业的服务人员,以确保他们提供良好的服务。在其数据中心政策指引上,均出现了系统级服务,如系统规划、系统集成、系统运营运维等的采购条目。我国在数字化转型项目上初步明确了相关的政策与标准,但在智算中心项目上仍缺失基于智算服务的政策和标准,亟需补充完善。
借此华为全联接大会的契机,我就“系统思维、标准建设、人才培养”三个方面,谈几点建议:
第一,系统思维,统筹规划。用复杂工程系统思维提升对智算集群的认知来统筹规划和建设“3+1”现代算力产业体系,为科技强国建设和数字经济发展提供坚实保障。
第二,政策引导,标准护航。通过行标和团标的建设牵引,完善面向智算中心的集群集成标准、集群运营运维标准。智算集群作为新型重要基础设施,要做好规划、设计、部署、交付、运营运维管理的不同阶段的标准建设,注重智算集群建设的高质量发展。
第三,产业振兴,人才优先。高校要注重复杂工程系统人才培养。打造既在纵向具备深厚专业领域技术、又在横向具备复杂工程系统广度知识的“T”型复合人才,引领技术发展,打造智算领军。
综上所述,全球科技创新已经进入加速期,为早日实现科技强国的战略目标,我们必须学习用复杂工程系统思维来谋划我国新时期的算力基础设施的建设,健全和完善我国智算集群服务体系标准,注重工程系统人才培养,迎接新一代信息技术变革带给我们的新机遇和新挑战。