国务院最新上了一堂课！深圳人关心的新空间、下一个前沿领域要打开了！

标题摘要内容

来源: | 作者:AIIAIC | 发布时间: 2026-02-21 | 515 次浏览 | 🔊 点击朗读正文 ❚❚ ▶ | 分享到:

2月11日，国务院以深化拓展“人工智能+”、全方位赋能千行百业为主题，进行第十八次专题学习，释放重磅信号。

上海人工智能实验室主任周伯文作讲解，李强在听取讲解和交流发言后指出：面向未来，“人工智能+”前景广阔，将不断带动消费和产业升级，在各个领域打开新的增量空间。

深圳梦注意到，近日，深圳正式印发《深圳市“人工智能+”先进制造业行动计划（2026-2027年）》（以下简称《行动计划》），清晰勾勒出未来两年人工智能赋能制造业的“施工图”。

深圳梦推荐上海人工智能实验室主任周伯文近日发表题为《从推理到科学发现：探索通专融合的AI之路》的报告，供你参考。下一个前沿领域是什么？他认为是科学发现（Scientific Discovery, SD）。他认为提出，我们已身处 “通用人工智能”（AGI）前夕，但仍面临重要环节的缺失 —— 通专融合的智能。我们亟需推动科学智能从 1.0 向 2.0 迭代，即从 AI4S 迈向 AGI4S。

"深刻认识和把握人工智能发展态势"，深圳人关心的新空间、下一个前沿领域要打开了！

”

李强主持国务院第十八次专题学习，顶尖AI专家周伯文作讲解

2月11日，国务院以深化拓展“人工智能+”、全方位赋能千行百业为主题，进行第十八次专题学习。国务院总理李强在主持学习时强调，要深入学习贯彻习近平总书记关于人工智能发展的重要指示精神和党中央有关决策部署，全面推进人工智能科技创新、产业发展和赋能应用，培育壮大新质生产力，推动高质量发展。

上海人工智能实验室主任周伯文作讲解。国务院副总理丁薛祥、张国清，国务委员吴政隆作交流发言。

重访路线图（2016 年）：通往 AGI 之路

战略路径：

通专融合与科学发现的终极试炼

随着 Scaling Law 赋予了大语言模型广泛的泛化能力（ABI），在 2023 年初我们提出了一个关键的战略设问：通往 AGI 的下一步，仅仅是计算量的堆叠吗？对这些设问的思考促使我在 2023 年提出了 “通专融合” 路径。核心思想是如何动态实行融合人类认知思维的系统 1 和系统 2，以应对各种现实世界的任务。

重新定义 AGI 之路

过去 70 年 AI 的发展长期在 “专业性” 与 “通用性” 两个维度上分别进展。以 AlphaFold 为代表的早期系统是极致的 “专家”，在特定领域超越人类却缺乏迁移能力；而当前的大语言模型则是博闻广识的 “通才”，虽具广度但在处理复杂专业任务时往往难以企及专家深度和缺失关键细节。真正的 AGI 必须打破这种二元对立，构建一种能够动态融合 “系统 1”（直觉式快思考）与 “系统 2”（逻辑式慢思考）的智能架构 —— 即在保持通用认知基座的同时，能够在任意特定任务上通过持续学习与深度推理实现专家级的专精（阐述这一思路系统的立场论文已于 2024 年在 ArXiv 上发表）。

2024 年末 OpenAI o1 与 2025 年初 DeepSeek-R1 的出现，通过在大模型之上应用强化学习显著提升逻辑推理能力，有力地验证了关于 “通专融合” 路径预判的正确性。2025 年 10 月，约书亚・本吉奥教授等人提出了 AGI 的定义，将其分解为十种核心通用能力以及众多狭义的专业能力。若能全面达成这些能力，即意味着实现了 AGI。这一定义与我们 “通专融合是通往 AGI 的战略路径” 的观点高度吻合 —— 这表明该路径正日益成为整个学术社区的普遍共识。

科学发现：推理智能的终极前沿

下一个前沿领域是什么？我认为是科学发现（Scientific Discovery, SD）。在我看来，除了科学智能（AI for Science, AI4S）所承诺的治愈癌症等诸多益处之外，科学发现更是推理智能的终极考验，因此也是 AI 探索的绝对前沿。科学发现是已知与未知之间复杂的相互作用，涵盖了从假设生成、实验验证到理论总结的全过程。其对 AI 提出了三重极限挑战：

已知的未知：典型的如组合爆炸，比如分子设计或材料科学的搜索空间高达 10^60 量级，远超传统遍历能力；
未知的未知：科学探索本质上是对分布外（OOD）知识的泛化，是对模型创造力的真正考验；
稀疏与延迟奖励：科学实验的周期长、反馈慢，是对强化学习算法的严峻测试。

因此，科学发现不仅是 AI 的最佳应用场景，更是驱动 “通专融合” 迈向 AGI 的根本动力。

接下来，我想分享我们为应对这一挑战提出的技术架构 ——“智者”SAGE。

“技术架构：递归循环的通用专家

协同架构“智者”SAGE

为将 “通专融合” 战略转化为可落地的技术方案，上海 AI 实验室在 2024 年提出了“智者”SAGE 架构 —— 其并非若干模型的简单堆砌，而是一个旨在弥合广泛泛化与深度专精鸿沟的统一认知生态系统。该架构由三个逻辑耦合的层次构成：

底部的基础模型层致力于结构上的重构，通过将知识储备与推理能力解耦，为高阶因果推理提供更灵活的 “画布”；
中间的融合协同层通过密集过程奖励机制，动态协调直觉式 “快思考” 与逻辑性 “慢思考”，精准把控泛化与专精的节奏；
顶层的探索进化层则赋予 AI 主动能动性，完成从被动数据拟合到主动环境探索的范式转变。

至关重要的是，SAGE 绝非静态的架构，而是一个递归运行的活体生态。它通过双向循环实现全栈进化：一方面，底层解耦的表征自下而上地支撑推理策略的生成；另一方面，顶层主动发现获得的高水平反馈自上而下回流，将探索中的 “未知” 转化为新的训练信号。这种闭环机制确保了 SAGE 不仅能实现模型参数的优化，更能推动认知策略本身的持续进化。

记忆解码器：面向大语言模型的预训练、

即插即用记忆体

强化学习：连接基础层与进化层的纽带

强化学习（RL）是连接 SAGE 基础层与融合层、进化层的纽带，也是实现 “通专融合” 的核心动力之一。回顾其演进历程，RL 经历了从早期封闭环境下的博弈（如 AlphaGo），演进至通过 RLHF 实现人类偏好对齐，目前正处于以 o1 和 DeepSeek-R1 为代表的可验证推理（RLVR）阶段，并终将迈向面向物理世界与科学发现的开放式体验学习新纪元。

隐式奖励强化学习算法（PRIME）

这一创新带来了多维度的显著优势：

计算效率的飞跃：与 Math-Shepherd 等依赖独立 PRM 模型的方法相比，PRIME 在推理阶段无需额外的模型调用开销，直接利用生成模型本身的概率分布即可获得反馈，极大地提升了计算效率；
系统架构的可扩展性：在 SAGE 的系统实现中，PRIME 方案展现出极强的工程韧性。我们将策略模型与隐式 PRM 进行联动，依托结果验证器和前序步骤产出的自由过程奖励，构建了高效的在线更新闭环；
极致的数据效率：实验表明，PRIME 方案仅需 SOTA 模型 1/10 的训练数据量，即可达到相当的性能水平，极大地降低了对高质量标注数据的依赖。

基准测试结果有力地验证了 PRIME 的有效性：在 AIME 2024 数据集上，模型准确率提升了 23.4%；在 AMC 数据集上提升了 27.7%；在 MATH-500 等权威测试中也取得了显著增长。这一系列数据充分证明，通过隐式机制构建的稠密奖励，能够有效驱动模型突破复杂推理的瓶颈。

强化学习的熵机制：避免 “过度自信” 导致探索止步

专家化模型的训练不仅需要反馈，更需要持续不断的学习。在深入研究用于推理的强化学习时，我们揭示了一个阻碍模型进化的根本性障碍 —— 熵坍缩。通俗地讲，这等同于解决如何让通用模型在专家化的过程中，始终保持探索与好奇心，让模型和顶级人类专家一样在专业问题的挑战上避免过早过分自信，而是 “stay hungry, stay foolish”（求知若饥，虚心若愚）。

在训练过程中，随着模型性能的初步提升，策略熵往往会急剧下降。这种下降意味着模型对其输出的置信度快速提高，导致其过早地收敛于局部最优解，从而丧失了探索更优推理路径的可能性。实验数据显示，熵的消耗主要集中在训练的前数百步，此后模型的性能提升便迅速进入边际效益递减阶段。这种现象极似人类认知中的 “过度自信”，即因自满而停止了对问题细微差异的主动探索 —— 而这种主动探索，恰恰是通用模型进化为能捕捉深层规律的 “专精模型” 的关键所在。

为了解决这一问题，我们深入探究了熵与奖励之间的权衡机制，并发现了一个关键的定量关系：验证性能（R）与熵（H）呈现显著的对数线性相关。这一简洁而深刻的结论为训练方案的优化指明了方向：构建可扩展推理 RL 框架的难点，不在于单纯堆砌训练时长，而在于对熵消耗的精细化管理，确保模型在训练全周期内保留足够的不确定性，以驱动持续的探索。

我们提出了一种精准化、局部化且轻量化的熵控制方案：针对这类标记开展选择性调控（如采用 Clip-Cov、KL-Cov 等方法），能够达成局部、轻量的熵控制效果，既保障模型探索性不受损，又不会干扰正常优化流程。该方法实现了对熵的局部控制，既保障了模型的探索性不受损，又避免了对正常优化流程的干扰。应用该策略后，模型在保持高探索能力的同时，显著提升了下游任务的准确率。这一方法已被实验室的“书生”科学多模态大模型 Intern-S1 等多个头部机构采纳应用，其相关成果更由斯坦福 Yejin Choi 教授在 2025 年神经信息处理系统大会（NeurIPS）上进行了重点阐述。

测试时强化学习与自我进化（TTRL）

实测数据验证了 TTRL 的惊人潜力：

性能跃升：在 AIME 2024 数据集上，搭载 TTRL 的 Qwen-2.5-Math-7B 模型准确率实现了 159% 的相对提升；
自我超越：TTRL 优化后的模型展现出了 “青出于蓝” 的特性，其性能不仅超越了自身的 “最优 N 采样” 基准线，甚至逼近了使用带真实标签训练的理论上限（Oracle 基线）；
强泛化性：在 AMC、MATH-500 等未见过的权威基准测试中，模型同样表现出强劲的泛化能力。

TTRL 的成功证明了智能体具备自主螺旋式上升的成长潜力，为 SAGE 架构中的自我进化提供了一条简洁高效的路径。

规模维度：InternBootcamp 与任务扩展定律

在解决了 “怎么学” 的信号问题后，必须回答 “在哪学” 的规模问题。通专融合模型不仅需要在单一任务上通过 “慢思考” 实现专精，更需要在成百上千个任务上同时实现能力适配。此外，我们还希望探索一个更深刻的问题：当测试任务的数量与多样性同步扩增时，是否存在专门针对在测试环境下、针对任务数量的 Scaling Law？

为此，我们研发了大规模、标准化、可扩展的交互验证环境 ——InternBootcamp 。

作为首个覆盖 8 大任务类别、超 1000 种多样化环境的平台，InternBootcamp 支持在指定环境中开展大规模强化学习训练。其独特的 “任务与验证函数自动生成” 能力，使得用户能够便捷地将电路设计等专业领域任务转化为可验证环境，通过仿真手段完成结果核验。

极端数据稀缺情况下的在线强化学习框架 SimpleVLA-RL

实验结果颠覆了对数据效率的传统认知：

超高数据效率：仅需 “单轨迹” 监督微调结合 RL，即可实现 96.9% 的成功率，性能反而超越了全轨迹监督微调；
策略涌现：机器人通过 RL 自主探索出了从未被演示过的全新推控策略，展现出强大的适应性；
Sim-to-Real 突破：在叠碗等典型操作任务中，仿真到现实的迁移成功率提升了 21%；
长时程任务能力：在近期落地中，该方案在长时程灵巧操作任务上，实现了相对性能提升 300%，并展现出令人惊喜的自主恢复能力。

得益于 SimpleVLA-RL，我们仅用极少的数据与计算资源，便取得了可与 Physical Intelligence 团队 π*0.6 模型比肩的性能表现。这一成果标志着 SAGE 架构彻底打通了负责推理决策的 “大脑” 与负责执行动作的 “躯体”，真正实现了智能体在物理世界中的 “具身化” 演进。

经过近两年的扎实探索，SAGE 架构已跨越理论构想阶段，完成了全栈验证。在基础层，MemoryDecoder 实现了记忆与计算的结构性解耦；在融合层，PRIME 与 FlowRL 攻克了监督稀缺与推理单一性的难题；在进化层，TTRL、InternBootcamp 与 SimpleVLA-RL 构建了从测试时强化到 “具身化” 演进的闭环。

范式革命：从 AI4S 到 AGI4S

尽管以 AlphaFold 为代表的 AI for Science（AI4S）技术在蛋白质折叠、气象预测等特定领域取得了里程碑式成就，但近期《Nature》发表的研究指出，过度依赖现有深度学习模型可能局限新知识的探索边界，甚至在某种程度上阻碍创新。这印证了我们的核心观点：擅长处理数据充足、定义明确任务的传统深度学习，若仅作为工具存在，难以应对科学发现中 “未知的未知”。

系统性的评估进一步揭示了当前前沿模型的短板。我们联合来自 10 个不同科学领域的 100 位科学家设计了评估体系，结果显示：前沿模型在通用科学推理任务中得分可达 50 分（满分 100），但在各类专业推理任务（如专项文献检索、具体实验方案设计）中，得分骤降至 15-30 分。

这种明显的 “木桶效应” 表明，科学发现全周期的效能正受制于专业推理能力的最薄弱环节。因此，整合通用推理与专业能力，进而推动科学智能从 AI4S 向 AGI4S 迭代成为必然选择。

研究表明，当前所有前沿模型的科学能力均显不足

从 AI4S 迈向 AGI4S，这一升级旨在推动研究者、研究工具与研究对象的协同演进。通过 AGI 促进三者相互作用、协同演进、螺旋式上升，将创造出真正 “革命的工具”，推动科研范式变革。

从 AI4S 1.0 到 AI4S 2.0（AGI4S）

Intern-S1：面向科学的可深度专业化通用模型

为打破上述瓶颈，我们研发了 “书生” 科学多模态大模型（Intern-S1）。作为 SAGE 架构在科学领域的集中体现，Intern-S1 旨在构建一个既具备强大通用能力，又能理解复杂科学数据的 “可深度专业化通才”。其在三个层面进行了深度创新：

基础层（数据适配）：针对科学数据的多模态异构性，提出了科学专用架构。采用动态分词器与专用编码器，原生支持 DNA 序列、蛋白质结构、时间序列等 10 余种模态。相较于 GPT-OSS 等通用模型，其在科学数据上的压缩率提升了 1.7 倍，并基于 2.5 万亿高质量科学 Token 进行了预训练。
融合层（混合奖励）：构建了混合奖励框架（MoR），将多种强化学习算法与熵机制整合。该框架平衡了计算、推理、实验设计等不同技能所需的奖励信号，有效缓解了特定任务过拟合问题，增强了模型在跨领域复杂推理中的泛化能力。
进化层（交互专精）：依托 InternBootCamp 框架，模型在超 1000 项专业任务（如逆合成分析）中与模拟器进行交互学习，实现了大规模的任务专精。

测评结果显示，Intern-S1 在通用能力上对齐 SOTA 开源模型，而在涵盖化学、生物、材料等 9 大领域的科学性能上，全面超越了包括 GPT-5 和 Grok-4 在内的顶尖闭源模型。

Intern-Discovery：全流程科学智能体系统

如果说 Intern-S1 是科学大脑，那么 Intern-Discovery 则是具备行动力的科学智能体。该平台构建了一个将 Intern-S1 与海量数据、2000 + 专业工具及湿实验室验证环境深度融合的智能体系统，实现了从假设生成到实验验证的闭环。

Intern-Discovery 的核心逻辑在于建立 “智能体生成” 与 “智能体验证” 的双向循环：前者主动洞察现象、提出假设并设计实验；后者通过仿真与物理实验验证假设，并将反馈回传以修正认知。

为支撑这一复杂流程，系统引入了两大关键支柱：

科学智能上下文协议（SCP）：针对现有 MCP 协议在科学资源整合上的不足，SCP 定义了领域特定的结构与协调机制，实现了对数据集、湿实验室设备及复杂工作流的标准化调度与全生命周期管理。
分层记忆模块：通过策略程序记忆（SPM）、任务情景记忆（TEM）与语义知识记忆（SKM）的协同，系统能够沉淀高阶研究模式、记录实验细节并整合长期知识，从而在持续迭代中避免逻辑幻觉。

案例实证：重塑科学发现流程

Intern-Discovery 已在气候科学与生物医学领域展现出 “革命性工具” 的潜力。

在气候科学领域，面对降水预测中极端复杂的非线性交互，Intern-Discovery 自主调用 30 余种工具，分析了 20 年的多模态数据。它写了 4000 多行专业代码，成功发现了被人类专家忽略的水汽与动力项关联，并推导出一个简洁的新型显式非线性方程。该方程不仅形式优雅简洁，且显著提升了模拟精度，有效修正了长期存在的系统性偏差，证明了智能体在理论构建层面的创造力⑰。