随着科技的飞速发展,人工智能(AI)已成为驱动社会进步的重要引擎。在AI的众多领域中,云端人工智能芯片产业以其独特的技术优势和广泛的应用前景,正逐渐崭露头角。中国作为全球最大的芯片市场之一,云端人工智能芯片产业的发展态势引人关注。随着人工智能应用场景加速落地,AI模型智能计算需求亦呈快速增长态势,云端AI芯片的市场需求也随之上升,其产业发展态势也因此备受瞩目。本文研究了我国云端人工智能芯片产业的发展态势,分析其当前的市场状况、技术进步、政策环境等关键因素,并探讨其未来的发展趋势。
一、云端AI芯片概述 AI芯片按部署位置分类,可分为云端AI芯片、边缘端AI芯片和终端AI芯片。云端AI芯片特指部署和应用在云或智能计算中心等相对远离用户侧的AI芯片,算力通常可达到100TOPS以上;边缘AI芯片指部署在靠近应用场景的小型计算集群、边缘服务器和工控机等设备上的AI芯片,算力范围在50-100TOPS;终端AI芯片通常部署在汽车、摄像头、音响等终端设备上。 云端AI芯片技术栈通常包括支持芯片正常运行的软硬件基础组件,如编程语言、软件工具包等。云端AI芯片技术栈可分为硬件层、软件层和应用层。在硬件层,AI服务器是云端AI芯片的重要硬件搭载环境。软件层通常包括端到端的软件工具包和AI计算框架,是云端AI芯片实现高性能、高通用性、高易用性,以及针对不同应用场景深度优化的关键。AI计算框架是AI算法模型设计、训练和验证的一套标准接口、特性库和工具包,集成了算法的封装、数据的调用以及计算资源的使用,同时面向开发者提供了开发界面和高效的执行平台,是现阶段AI算法开发的必备工具。应用层是指面向互联网、金融、交通、能源等不同行业,云端AI芯片可提供服务的应用场景。应用层是云端AI芯片实现价值的最重要体现。为了向市场提供多元化、适配性强的解决方案,芯片厂商还需提升云端AI芯片软硬件定制化能力,确保芯片产品能与众多应用场景的AI算法相适配,充分满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下的云端智能处理需求。 二、云端AI芯片计算架构的重要特征 (一)通用性 云端人工智能芯片计算架构的“通用性”是指,芯片计算架构具备高度灵活性,使得基于该计算架构设计的芯片能够应用于AI计算领域的各类算法,服务众多AI场景。换言之,只有在不同应用场景下均能实现大规模商业化应用,而非仅支持视觉或语音等单一场景,一个计算架构才可称为在AI领域具有高通用性。云端AI芯片能否实现多种功能的计算处理是其计算架构是否具备通用性的重要判断依据。通用计算架构的典型特征是其能够实现多样的算法模型,广泛应用于不同计算场景,而仅通过芯片的架构类型来界定通用性是错误的理念。随着芯片厂商研发能力的增强,过去被认为只具备专用性的ASIC或DSA架构,现在不仅含有用于AI加速计算的专用单元,还含有与英伟达GPU中CUDA Core类似的通用计算单元,同样可以实现对各种指令的处理。因此,无论是GPU、ASIC或DSA架构,云端AI芯片厂商在架构设计中更需要关注的是通用和专用计算单元的搭配,以便应对AI计算持续演变带来的挑战。 (二)易用性 易用性也是云端AI芯片计算架构的重要特征,指的是云端AI芯片为开发者提供友好的软件使用环境,一是便于开发者高效率开发算子,二是能实现对主流深度学习框架的高度兼容。在云-边-端协同发展、异构计算融合发展趋势明确的背景下,上层软件生态的易用性显得尤为重要,成熟且高效的编程语言和完善的软件工具栈有助于快速迭代开发任务。 云端AI芯片计算架构的易用性直接影响了终端开发者的开发效率。以英伟达CUDA生态为例,CUDA软件栈包含高性能算子库,针对深度学习、机器学习和高性能计算提供了优化功能,可满足众多AI应用场景的需要。经过长期的软件资源投入和丰富的场景验证,CUDA算子库已能满足众多开发者对算子覆盖率和模型精度的要求,提高了开发新模型以及使用定制化模型的效率。基于英伟达领先的市场份额和其CUDA生态的完备程度,其他AI芯片公司在软件栈搭建的技术路径中通常面临与CUDA生态类似的兼容性和相似性问题。当前,主流的AI芯片软件栈技术路径可分为两类,第一类为自研编程语法;第二类为兼容CUDA代码,即直接迁移CUDA代码或者通过转换器完成转换后再进行迁移。第二种路径的优势在于针对开源算法迁移时的便捷性更高,开发者无需重新学习新的编程语言。但由于芯片硬件设计思路差异和CUDA部分核心算子库未开源等原因,此类技术路线在代码迁移时会面临性能受限或无法迁移等问题,因此仍需不断优化。 (三)高性能 高性能是指云端AI芯片能够及时响应业务需求、快速完成计算任务,并及时反馈满足精度要求的结果的能力。目前业界多使用MLPerf基准测试来衡量AI芯片的性能水平,MLPerf作为业界认可的测试方法,其测试结果基本能够反映硬件系统处理人工智能算法的能力,但在实践中仍有一定局限性,如测试模型相对固化、无法完全模拟真实应用环境等。当前,业界也正在向构造更加贴近现实的测试环境和寻找可扩展性强的测试方法而努力。 云端AI芯片实际性能不宜仅用基础指标来衡量,还应结合研发投入和应用表现综合评判。云端AI芯片的高性能,不应仅指算力、内存带宽、互联、时延等基础特性,系统级硬件、软件框架、库、工具链等都应纳入评判性能高低的考虑范围。换言之,不仅要关注芯片基础指标性能,还需关注芯片的产品成熟度,甚至包括其所适应的AI计算架构的稳定性。除此之外,云端AI芯片的实际应用场景也是需要关注的重点,高性能芯片应可广泛适用于多个应用场景,而不是只针对某个特定的单一场景表现出较高性能。因此,对于云端AI芯片的实际性能水平的评判,还需建立一套科学合理的指标评价体系,从关键性能、软件生态和应用场景等多个维度来评价。 三、我国云端AI芯片产业发展规模 (一)我国云端AI芯片市场规模 如图1所示,2017—2025年我国云端AI芯片市场规模呈平稳上升态势。2022年我国云端AI芯片市场规模达到238.6亿元,约为2017年的9.2倍。预计到2025年,云端AI芯片市场规模有望超出350亿元。
(二)我国云端AI芯片细分领域市场规模 如图2所示,2017—2025年我国云端AI推理芯片、云端AI训练芯片市场规模均保持上升态势。2022年,我国云端推理芯片市场规模达104亿元,占总市场规模比例为43.6%;我国云端训练芯片市场规模达134.6亿元,占总市场规模比例为56.4%。推理和训练芯片市场规模将快速扩张,随着AI算法进入落地应用期,智能计算中心推理算力需求的增长将超过训练算力的需求,推理芯片的市场增速略高于训练芯片。预计到2025年,推理芯片和训练芯片市场规模都将突破170亿元。 图2:2017—2025年我国云端芯片细分市场规模及预测
四、我国云端AI芯片产业发展态势 (一)技术水平提升,行业迈入高速增长阶段 我国云端AI芯片企业虽然起步较晚,但一直深耕GPU领域,致力于芯片架构创新和算效提升,芯片研发能力不断增强。纵观我国云端AI芯片发展历程,可以总结如下发展规律:一是芯片厂商加大研发投入,芯片产品迭代周期缩短。近年来,寒武纪、昆仑芯科技等企业高度重视科研人才培养,均组建了专业的研发团队,在较短时间内实现了芯片产品的推陈出新;二是芯片性能大幅提升,芯片制造工艺日益精进。目前,国内领先芯片厂商推出的系列云端AI芯片产品,在芯片设计、FPGA验证、晶圆光刻显影、蚀刻、芯片封装等工艺上有较大提升;三是芯片应用场景丰富多样,可广泛支持视觉、语音、自然语言处理以及传统机器学习等高度多样化的人工智能应用。中国庞大的消费市场和大量人才为云端AI芯片发展创造了良好的外部条件,众多厂商克服芯片研发、设计等方面的困难,不断提升技术水平,云端AI芯片行业得以快速发展。 (二)市场需求强劲,企业竞争日趋激烈 当前,受益于国家对“新型基础设施建设”的政策扶持,我国数据中心、云计算产业保持快速增长。截至2023年底,全国在用数据中心机架总规模超过810万标准机架。作为云端AI芯片应用最多的物理载体—数据中心产业的飞速发展将促使云端AI芯片的需求急剧上升。在此情况下,众多企业加入了云端AI芯片研发队伍。当前,在国际市场,以英伟达、英特尔、AMD为首的国际半导体巨头占据主要市场份额,亚马逊、谷歌等互联网跨界公司也相继加入竞争行列。在国内市场,华为海思、寒武纪、昆仑芯科技等企业初具优势,均推出了企业自研的创新成果。在云端AI芯片厂商的共同努力下,已形成蓬勃发展的行业格局,云端AI芯片产业生态日益丰富。 (三)发展势头猛进,加速芯片生态探索 当前,昆仑芯科技、寒武纪、华为海思等多家企业均实现了芯片量产,芯片产品可支持计算机视觉、视频处理、自然语言处理等众多场景的应用,产品生态体系日益健全。例如,寒武纪为云端AI芯片提供了统一的平台级基础系统软件,可满足客户高灵活度、快速迭代的软件开发需求;昆仑芯科技推出的云端AI芯片,在适配百度飞桨的同时,也可与主流学习框架、服务器进行适配,部署场景多元,落地案例丰富。在摩尔定律增速放缓、研发生产成本居高不下等全球芯片发展面临的共同瓶颈下,我国云端AI芯片厂商还需找准发展定位、坚持技术创新,努力打造全球知名的芯片品牌。 五、结束语 我国云端AI芯片作为技术密集型产品将持续研发创新。随着智能计算日益普及、算力需求大幅度提升,AI芯片技术发展逐步加快,芯片制程代代更新,芯片行业的门槛不断提高,芯片产业投入不足。其中部署在云和数据中心的云端AI芯片,作为AI芯片的重要赛道,技术创新热潮正在加速到来,我国云端AI芯片的技术发展趋势将备受业界关注。