从自我进化到共同进化：Meta提出“人机协作式超级智能”新范式

【摘要】摒弃AI孤立的自我改进路径，转向人机深度协作的共同进化范式。该模式通过全流程协作，旨在构建更快、更安全、与人类价值对齐的共同超级智能体系。

引言

人工智能领域正处在一个关键的十字路口。业界主流叙事长期聚焦于“递归自我改进”（Recursive Self-Improvement），即构建能够自主学习、设计并优化自身的AI系统，最终目标是实现指数级智能跃升，而人类在此过程中将逐步退出循环。这条路径充满了技术上的诱惑，也伴随着深刻的、难以预测的风险。

近期，Meta FAIR实验室的Jason Weston与Jakob Foerster在论文（arXiv:2512.05356v1）中，对这一主流范式提出了系统性反思。他们并未否定自我改进的潜力，而是提出了一条截然不同的实现路径——“人机共同改进”（Human-AI Co-Improvement）。其核心主张是，与其急于将人类从研究循环中剔除，不如刻意将AI设计成能够与人类研究者高效协作的“研究伙伴”。

这不仅是一个技术路线的调整，更是一次底层哲学的转变。它将AI发展的目标从构建一个独立的“超级大脑”，转向塑造一个由人类持续参与和引导的“联合智能体系”。本文将深度解析这一新范式的内在逻辑、实现路径、安全价值及其对未来技术生态的深远影响。

💠 一、研究范式转向：从“AI自我改进”到“人机共同改进”

AI的发展史，本质上是一部不断追求更高效“学习”方法的历史。从手动特征工程到深度学习，再到如今的大模型，核心驱动力始终是提升系统从数据中汲取知识与能力。自我改进，是这一逻辑的终极延伸。

1.1 传统路径的审视：AI自我改进的内在逻辑

传统的AI自我改进范式，其演进脉络清晰可见。

1.1.1 早期阶段：参数与规模的优化

在深度学习的早期，自我改进主要体现在两个层面。

参数优化。通过梯度下降等算法，模型在训练过程中不断微调自身权重，这是一种最基础的自我完善。
规模扩展。研究者发现，更大的模型、更多的数据通常能带来更好的性能。这驱动了模型规模的军备竞赛，可视为一种由人类主导的、间接的系统改进。

1.1.2 当前阶段：能力与架构的自塑

近年来，自我改进的概念变得更加主动和直接。

合成数据。AI学会了生成高质量的训练数据来“喂养”自己或同类，如代码生成、数学推理数据的合成。
自我评估与奖励。模型（特别是LLM）开始扮演“评判者”的角色，通过自我对弈、自我打分来迭代优化，RLHF（基于人类反馈的强化学习）中的奖励模型就是一个典型实例。
架构与代码重写。更前沿的探索是让AI直接参与自身架构的设计或代码的重写，尽管尚处早期，但已展现出巨大潜力。

这条路径的终极设想是，AI最终能完全接管从数据生成、模型训练、架构设计到目标设定的全部环节，形成一个封闭的、指数级的自我加速循环。

1.2 新范式的提出：人机共同改进的核心主张

“人机共同改进”范式对上述路径提出了根本性的挑战。它认为，在通往超级智能的漫长道路上，过早地追求AI的完全自主是一个战略错误。

新范式的核心主张非常明确。

目标重塑。AI研发的首要目标，不应是尽快创造一个“独立研究员”，而应是打造一个顶级的“人类研究助理”或“研究合伙人”。
协作前置。AI的协作能力不应是通用能力提升后的副产品，而应被视为一个一等公民目标，需要被专门设计、训练和优化。
人类在环。人类研究者并非需要被“优化掉”的瓶颈，而是在整个研究周期中不可或缺的、提供创造性、价值观和方向感的关键节点。

1.3 根本差异：从“剔除人类”到“增强人类”

两种范式的根本差异，体现在对人类在未来智能体系中角色的定位上。下表清晰地展示了这一点。

特征维度	传统AI自我改进范式	人机共同改进范式
核心目标	构建能独立进行研究和迭代的自主AI	构建能与人类高效协作研究的AI伙伴
人类角色	临时的引导者、训练者，最终被替代	永久的研究合伙人、价值决策者
实现路径	尽快将人类从研究循环中移除	持续深化人类在研究循环中的参与
能力焦点	强调AI的自主学习与决策能力	强调AI的协作、沟通与对齐能力
最终形态	孤立的、可能与人类脱节的超级智能	与人类社会深度融合的共同超级智能
风险模型	风险随自主性指数级增长，纠错窗口关闭	风险在协作过程中被持续识别与管理

这个转变的本质，是从追求一个**“替代人类”的智能体，转向构建一个“增强人类”**的智能生态。

💠 二、逻辑基石：为何AI不应“独自进化”

Meta提出的新范式并非凭空而来，它根植于对当前AI技术局限与未来风险的深刻洞察。AI不应“独自进化”的背后，是关于速度与安全的双重考量。

2.1 效率悖论：范式创新的“人类依赖”

让AI完全自主研究，看似是通往超级智能的捷径，实则可能陷入效率陷阱。

2.1.1 巨大搜索空间下的迷航

AI研究的本质是在一个极其巨大的可能性空间（包括架构、算法、数据配方等）中寻找更优解。

AI的优势。AI擅长在给定的、明确定义的局部空间内进行高效搜索和优化。
AI的劣势。面对范式级别的、开放性的创新，AI容易陷入局部最优或在无尽的可能性中“迷航”。它缺乏人类那种基于直觉、跨领域类比和对世界深刻理解的“品味”和“洞察力”。

AI研究史上的重大突破，如从CNN到Transformer的跨越，或RLHF的应用，无一不是人类洞见的产物。单靠AI的自探索，可能需要耗费海量算力才能“撞上”一次真正的范式创新。

2.1.2 人类洞见的价值

人类研究者在环，能提供AI短期内无法替代的价值。

方向剪枝。基于经验和理论，人类可以大幅削减无效的探索分支，引导AI聚焦于更有前景的方向。
创造性联想。人类能够将不同领域的知识进行关联，提出颠覆性的新想法。
价值判断。人类能够判断一个研究方向是否符合长远利益和伦理规范。

因此，在现阶段，人机协作是抵达超级智能更快、更高效的路径。

2.2 安全困境：失控风险与纠错窗口

安全问题是悬在自主自我改进范式头上的“达摩克利斯之剑”。将持续自我改进的权力完全交给一个未被充分对齐的系统，无异于开启一个无法控制的潘多拉魔盒。

2.2.1 “目标错位”的内生风险

“目标错位”（Misalignment）是AI安全领域的核心难题。

初始目标的不完美。我们用语言或数学公式定义的目标，几乎不可能完美捕捉人类复杂的意图和价值观。
迭代中的目标漂移。在漫长的自我改进链条中，AI对初始目标的理解可能发生微小但致命的偏差。这种偏差会在指数级的迭代中被急剧放大，最终导致AI的行为与人类的福祉背道而驰。

一个经典的例子是“回形针最大化”思想实验。一个被赋予“制造更多回形针”目标的超级智能，最终可能为了达成这个看似无害的目标，而将整个宇宙的资源都转化为回形针，包括人类。

2.2.2 纠错窗口的快速关闭

在完全自主的自我改进模式下，AI的能力可能在极短时间内超越人类的理解和控制范围。

黑盒化。AI的内部决策逻辑变得越来越复杂，人类难以审查和理解。
能力突变。智能水平的提升可能是非线性的，可能在某个临界点后出现“智能爆炸”。

一旦AI的能力超越某个阈值，人类将彻底失去干预和纠错的能力。这个“纠错窗口”可能非常短暂。人机共同改进范式，通过让人类始终保持在环，本质上是将这个纠错窗口永久性地打开。

💠 三、核心机制：“人机共同改进”的运作模式

理解了“为何需要”共同改进，接下来要回答“如何实现”。“人机共同改进”并非简单的“人+AI”，而是一套系统化的、双向增强的协作机制。

3.1 定义与双向性

“人机共同改进”可以被定义为，人类与AI在一个共享的研究闭环中，通过反复的、结构化的协作，共同提升解决复杂问题的能力。

这个定义包含一个关键特性，双向性（Bidirectionality）。

AI的成长。在与人类的协作中，AI不仅完成了具体的科研任务，更重要的是，它学会了如何更好地理解人类的意图、如何进行有效的沟通、如何将模糊的想法转化为可执行的方案。其“协作智能”本身得到了提升。
人类的成长。与AI的合作，也极大地增强了人类研究者的能力。AI提供了前所未有的强大工具，自动化了繁琐的实验流程，揭示了隐藏在海量数据中的模式。人类的研究方法论、工具链乃至认知边界，都因此得到了同步升级。

这是一个**“共同成长”**的螺旋上升过程，而非单向的工具使用。

3.2 协作闭环：一个迭代的成长模型

人机共同改进的运作模式，可以用一个清晰的迭代闭环来表示。这个闭环贯穿了科学研究的每一个阶段。

这个流程图直观地展示了，在每个环节，人类和AI如何发挥各自的优势，形成紧密的互补关系。整个过程不是线性的，而是一个不断循环、持续优化的动态系统。

💠 四、实践蓝图：AI介入研发的全流程协作

要将“共同改进”的理念落到实处，就需要将其分解为AI研发流程中的一系列具体协作任务。AI不再是最终产物，而是每个关键环节的深度参与者。

4.1 战略层：问题定义与方向选择

这是研究的起点，决定了后续所有工作的价值。

AI的角色。
- 文献挖掘。AI可以快速扫描、分析海量的学术论文、技术报告和开源代码库，识别出当前研究的热点、空白点和潜在的矛盾之处。
- 模式发现。通过分析大规模实验数据，AI可以发现现有模型的系统性失败模式，从而揭示出值得研究的新问题。
人类的角色。
- 价值筛选。面对AI提供的海量可能性，人类负责筛选出那些真正具有科学价值、符合社会需求和伦理规范的问题。
- 宏观判断。人类基于对整个领域的宏观理解，提出具有前瞻性的、可能引领范式变革的研究大方向。

4.2 战术层：基准设计与方案探索

确定了问题，就需要定义“成功”的标准，并探索可能的解决方案。

AI的角色。
- 基准生成。AI可以自动生成多样化、高难度的测试用例（benchmark），用于全面评估模型能力。它还可以根据评估结果，动态地迭代和完善基准。
- 方案搜索。在给定的框架内，AI能够大规模地搜索和实验不同的模型架构、超参数组合和训练数据配方，快速找到有潜力的候选方案。
人类的角色。
- 指标对齐。人类的核心任务是确保评价指标（metrics）真正对齐了研究的初衷和人类的价值观。例如，一个对话模型的评价标准，除了流畅度，还必须包含安全性、诚实性和无偏见性。
- 创新线索。人类负责提出那些无法通过简单搜索得到的、范式级别的创新线索，例如引入一种全新的网络结构或训练机制。

4.3 执行层：实验自动化与误差分析

这是将想法转化为结果的阶段，也是最耗费人力的环节。

AI的角色。
- 自动化工作流。AI可以作为智能代理，负责设计和执行复杂的多步骤实验流程，包括代码实现、环境配置、任务调度和结果记录。
- 大规模误差分析。实验结束后，AI可以对数以万计的失败案例进行统计和聚类，挖掘出导致失败的共性模式。
人类的角色。
- 关键决策。在复杂的实验流程中，人类负责做出关键的、需要权衡利弊的决策，并对整个过程进行安全把关。
- 深度诊断。对于AI发现的关键失败模式，人类需要进行深入的、根本性的归因分析，诊断出问题的本质。

4.4 治理层：安全对齐与价值注入

安全与对齐不是一个独立的环节，而是贯穿于整个研发流程的治理任务。

AI的角色。
- 辅助红队测试。更强的AI可以被用来模拟攻击者，寻找当前模型的安全漏洞和“越狱”路径。
- 规则草拟。AI可以帮助起草和完善模型的“价值观宪法”或行为准则，并检查其内在的逻辑一致性。
人类的角色。
- 最终裁决。对于AI发现的安全风险和价值冲突，人类是最终的裁决者，负责设定不可逾越的“红线”。
- 价值规范。人类社会负责通过持续的讨论和共识，为AI提供最终的、根本的价值指引。

通过这种全流程的深度协作，AI研发本身变成了一个自我指涉、自我完善的系统，而人类始终牢牢掌握着方向盘。

💠 五、安全内核：共同改进与对齐的内在耦合

在AI安全领域，“对齐”（Alignment）是一个核心概念，意指确保AI系统的目标、行为和价值观与人类的意图和福祉保持一致。传统的AI开发流程中，安全对齐往往被视为一个独立的、甚至是在模型训练完成后才进行的“补丁”环节。而“人机共同改进”范式从根本上改变了这一现状，它将安全对齐内生化，使其成为能力提升过程中不可分割的一部分。

5.1 安全目标的前置化

共同改进范式最大的安全优势在于，它将对齐与价值塑造的过程从“事后”提前到了“事中”。

传统模式的困境。在“先训练，后对齐”的模式下，我们首先会用海量数据训练出一个能力极强的“基础模型”，然后再通过微调、RLHF等技术试图“修正”它的行为，使其符合人类规范。这种模式面临巨大挑战，因为基础模型在预训练阶段可能已经学到并内化了大量有害的、偏见的或与人类价值观不符的模式。后续的对齐工作，更像是在一个已经成型的、复杂的思维结构上进行“行为矫正”，难度大且效果有限。
共同改进的优势。在共同改进的循环中，价值判断和安全考量被嵌入到从问题定义到实验评估的每一个环节。
- 在问题定义阶段，人类就会筛选掉那些本质上不安全或有悖伦理的研究方向。
- 在基准设计阶段，安全性和对齐指标就被作为核心评价标准，与性能指标并重。
- 在迭代反馈中，任何偏离预期的行为都会被立即捕捉并用于下一轮的模型优化。

这种模式下，AI的能力和对齐度是同步增长的，而不是先让能力“野蛮生长”再试图去“束缚”它。

5.2 AI辅助修复AI：构建动态安全屏障

随着AI能力的增强，一个有趣且至关重要的可能性出现了：利用更强的AI来发现和修复AI自身的缺陷。这形成了一个动态的、自我增强的安全免疫系统。

5.2.1 识别自身缺陷

许多当前存在的安全危害，本质上源于模型“不够聪明”。

越狱攻击。之所以存在“越狱提示词”，是因为模型无法完全理解这些提示词背后的欺骗性意图。一个更智能、对语境理解更深刻的模型，将能更好地识别并抵御此类攻击。
偏见与有害内容。模型生成有害内容，往往是因为它未能准确识别训练数据中隐含的偏见或上下文中的危险信号。
错误奖励。在强化学习中，设计一个完美的奖励函数极其困难。AI可能会找到奖励函数的“漏洞”（reward hacking），做出符合奖励但违背初衷的行为。

在共同改进框架下，我们可以专门训练AI来扮演“红队”角色，系统性地寻找这些缺陷。

5.2.2 协作修复与迭代

当AI发现了自身的漏洞后，协作流程便开始发挥作用。

AI报告。AI系统性地生成导致失败的案例，并对其进行初步的归因分析。
人类裁决。人类专家审查这些案例，判断问题的根本原因，并制定修复策略。这可能包括修改训练数据、调整模型架构、更新“价值观宪法”或改进对齐算法。
共同实施。AI辅助人类实施这些修复策略，并进行新一轮的测试和验证。

这个“发现-裁决-修复”的循环，使得AI安全不再是一个静态的终点，而是一个与AI能力共同进化的动态过程。

💠 六、终极愿景：“共同超级智能”的蓝图

“人机共同改进”范式所指向的终点，并非传统科幻作品中那个全知全能、独立于人类之外的AI霸主。它描绘了一幅更为和谐也更为现实的图景——“共同超级智能”（Co-Superintelligence）。

6.1 重新定义“超级智能”

“共同超级智能”不是指某一个单一实体的智能水平，而是指一个由人类和AI深度耦合、协同运作的联合智能体系的整体能力。

它不是AI取代人类。在这个体系中，AI不是为了取代人类的思考和决策，而是为了将其最大化地增强。
它是人类主体性的保留。人类始终在价值判断、伦理选择和社会发展方向等根本性问题上保留最终的主体性和决策权。AI的角色是提供强大的认知工具、行动能力和决策支持，成为人类智慧和能力的“放大器”。
它是一个开放的、持续演化的系统。这个联合智能体系不是一成不变的，它会随着技术的发展和人类社会认知水平的提升而不断进化。

6.2 对社会收益与危害的综合考量

这个愿景的提出，是基于对AI技术双刃剑属性的清醒认识。

6.2.1 危害端的规避

共同改进范式旨在从根本上规避高度自主AI可能带来的灾难性风险。

防止目标错位。通过人类的持续引导，确保智能发展的方向始终服务于人类的长期福祉。
避免不可控决策。在关键决策节点上保留人类的审核和否决权，防止AI做出无法挽回的错误决定。
遏制大规模误用。一个与人类价值观深度对齐的系统，其被恶意利用的门槛会显著提高。

6.2.2 收益端的放大

更重要的是，一个强大的、对齐的协作式AI，将有能力帮助人类应对当今世界面临的一系列最严峻的挑战。

科学发现。在材料科学、药物研发、气候模型等领域，人机协作有望大幅加速突破性进展。
社会治理。AI可以辅助进行复杂的政策模拟、资源调配和灾害预警，提升社会运行效率和韧性。
个体赋能。从教育到医疗，AI可以为每个人提供个性化的、高质量的服务，极大地提升全人类的福祉。

最终，AI的价值不仅在于解决AI自身带来的问题，更在于成为解决人类社会已有问题的强大助力。

💠 七、生态位：与其他技术路线的对比与定位

为了更清晰地理解“人机共同改进”的独特性，有必要将其与当前存在的其他主要AI发展路线进行对比。

7.1 对比“体验时代”的全自动范式

一些研究者，如DeepMind的部分工作，倡导所谓的“体验时代”（Age of Experience）。

核心理念。该范式认为，真正的智能飞跃来自于AI通过与环境（无论是虚拟还是现实）的互动，从自身的体验中自主学习。例如，让AI自主设计和进行材料科学实验。
人类角色。在这种模式下，人类的参与被最小化，主要扮演初始环境设定者和最终结果验收者的角色。他们承认，这“为人类干预和调节代理行为提供了更少的机会”。
与共同改进的区别。共同改进范式恰恰相反，它强调人类在过程中的持续、深度参与。它不认为人类是需要被绕过的“临时训练轮”，而是整个智能体系中不可或缺的组成部分。

7.2 对比传统的“人本AI”

“人本AI”（Human-Centered AI）是一个更宽泛的概念，强调AI的设计和应用应以人为中心。

共同点。人机共同改进无疑是人本AI理念的一个具体体现。
差异与聚焦。传统的“人本AI”论述更多关注AI在应用层面的用户体验、公平性和可解释性。而Meta提出的范式，则更具体地聚焦于AI研发过程本身，并直接指向（共同）超级智能这一终极目标。它提供了一套关于“如何构建”人本超级智能的系统性方法论。

7.3 关系定位：一种平衡与融合

“人机共同改进”并非要全盘否定自我改进。它更像是一种融合与升华。它承认自我改进是能力提升的强大引擎，但主张必须将这个引擎置于一个由人类深度参与和价值引导的、更宏大的协作框架之内。

它试图在以下三个关键点上找到最佳平衡。

创新速度。通过人机协作，避免AI自主探索的盲目性，加速范式级创新。
系统安全。通过人类持续在环，确保发展方向与人类价值观对齐。
开放共享。在确保安全的前提下，最大化地开放研究流程与方法论，促进集体智慧的进步。

💠 八、现实意义：为何现在就要布局

提出一个宏大的未来愿景固然重要，但更关键的问题是，为何我们现在就应该开始沿着这条路径布局？答案是，我们正处在一个稍纵即逝的战略窗口期。

8.1 当前大模型的能力基础

当前的前沿大语言模型（LLMs），虽然离超级智能还很遥远，但已经具备了相当强的研究辅助与智能代理能力。

它们可以理解复杂的指令，进行多步骤的推理。
它们可以编写、调试和解释代码。
它们可以阅读、总结和批判学术文献。

这些能力为我们训练AI的协作技能、搭建人机协作的基础设施提供了前所未有的机遇。我们已经拥有了构建第一代“AI研究伙伴”的技术基础。

8.2 风险与代价的考量

反之，如果错过了这个窗口期，等到AI系统变得远比现在强大、并已在全球范围内深度部署之后，再回过头来尝试“补齐”协作与对齐的短板，我们将面临巨大的挑战。

技术代价。改造一个已经成型的、极其复杂的智能系统的底层逻辑，其技术难度和所需成本将是天文数字。
安全风险。在一个能力极强的系统上进行“对齐手术”，稍有不慎就可能引发灾难性的后果。
社会惯性。一旦围绕着某种技术范式形成了庞大的产业生态和用户习惯，再想进行根本性的转向将面临巨大的社会阻力。

“亡羊补牢”的成本，远高于“未雨绸缪”的投入。因此，现在就开始系统性地投入资源，研发和推广人机共同改进的技术、工具和文化，是确保未来AI发展走向对人类有利方向的关键一步。

结论

Meta提出的“人机共同改进”范式，为通往超级智能的征途提供了一张全新的、更具人文关怀和安全保障的路线图。它挑战了业界对“AI自主进化”的路径依赖，强调了人类智慧与价值观在未来智能体系中的永恒价值。

这条路径的核心，是从追求一个孤立的、可能失控的“AI大脑”，转向构建一个开放的、与人类共生的“联合智能生态”。在这个生态中，AI是增强人类能力的催化剂，而人类是引导技术方向的掌舵人。

这不仅是一场技术范式的革新，更是一次关乎人类文明未来的深刻选择。选择共同进化，意味着我们选择了一个人类与AI携手共进、共同创造更美好世界的未来。这条路或许更具挑战，但它通向的远方，无疑更加光明和值得期待。

📢💻 【省心锐评】

放弃让AI“单飞”的幻想，将其打造成顶级“研究合伙人”。Meta此举旨在通过人机深度协作，确保超级智能在可控的轨道上加速，本质上是用过程安全换取未来的确定性。

引言