【摘要】AGI量化评估框架首次为业界提供了统一标尺。GPT-5的“体检报告”揭示其58%总分背后,存在能力分布的严重不均。长期记忆等关键认知域的结构性缺失,将迫使AI研发路径从规模竞赛转向架构革新。

引言

2025年10月21日,人工智能领域迎来了一个里程碑。由斯坦福、MIT等29家研究机构联合发布的AGI量化评估框架,为通用人工智能这个长期游走于科幻与工程边界的概念,首次提供了可操作的度量体系。这项由Yoshua Bengio等学者牵头的工作,其意义不亚于为混沌的炼金术引入了元素周期表。它将AGI的讨论,从“它是什么”的哲学思辨,拉回到了“如何衡量”的工程实践。

过去,我们评价一个模型,往往依赖于特定任务的基准测试得分。这种方式如同管中窥豹,无法描绘其认知能力的全貌。行业在“AGI何时到来”的预测上,也因此陷入了无休止的混乱与争议。这个新框架的出现,旨在终结这种局面。它以“受过良好教育的成年人”为参照系,提供了一份全面的“体检”标准。

本文将深度剖析这份框架,并以其对GPT-5的评估结果为案例,拆解当前顶尖AI模型的能力剖面。我们将看到,58%的得分并非故事的全部。那些隐藏在平均分之下的“零分项”,才是理解当前AI架构局限性、并指引未来研究方向的关键所在。

一、 AGI评估框架:从玄学到工程

在深入分析评测结果之前,我们必须首先理解这把“标尺”本身。它的构建,标志着AGI研究范式的一次重要迁移。

1.1 历史困境:AGI定义的“巴别塔”

长期以来,AGI的定义极其模糊。行业内缺乏一个公认的标准,导致了严重的“定义内卷”。

  • 图灵测试:侧重于行为模仿,无法深入评估认知过程。一个系统可能通过巧妙的语言技巧“欺骗”裁判,但其内部并无真正的理解或推理能力。

  • 咖啡测试:要求AI进入一个普通家庭,自主操作咖啡机。这考验了具身智能和物理交互,但对抽象认知能力的衡量不足。

  • Wozniak测试:与咖啡测试类似,强调在陌生环境中的自主操作能力。

这些定义各有侧重,但都无法形成一个可量化、可比较的评估体系。开发者、研究者和公众对AGI的理解,如同建造巴别塔的工人,语言不通,目标涣散。这种混乱直接阻碍了资源的有效投入和研究方向的聚焦。我们需要一个能被广泛接受的、基于科学理论的度量衡。

1.2 理论基石:CHC模型的工程化转译

新框架的理论基础,选择了心理测量学领域沉淀近百年的卡特尔-霍恩-卡罗尔(Cattell–Horn–Carroll, CHC)理论。这是一个明智且坚实的选择。

CHC理论将人类智能描绘成一个三层结构。

  • 第三层(顶层):一般智力因素(g因素),代表个体总体的认知能力水平。

  • 第二层(中层):包含约10种广义能力,如晶体智力(Gc)、流体智力(Gf)、短时记忆(Gsm)等。这些是构成g因素的核心模块。

  • 第一层(底层):包含超过70种狭义能力,是广义能力的具体表现。

该框架的核心工作,就是将CHC理论的第二层进行工程化转译。它选取了其中最核心、最普适的10个认知领域,将其作为评估AGI的“一级指标”。这种做法的优势在于。

  • 科学性:CHC理论基于大规模的实证数据,是现代智力测验(如韦氏智力测验)的理论基础,其有效性得到了广泛验证。

  • 全面性:它覆盖了从知识积累到即时推理,从信息处理到记忆存储的完整认知链路,避免了单点评估的片面性。

  • 可操作性:将复杂的智能概念分解为可测量的独立模块,为设计具体的评测任务提供了清晰的指引。

1.3 十大认知域:构建AGI的“能力雷达图”

该框架最终确立了十大等权重的认知领域。每个领域占据10%的权重,总分100%代表达到人类水平。框架为每个领域都给出了明确的能力定义、样例任务和核心度量指标,确保了评估的客观性和可复现性。

代码 (Code)

领域 (Domain)

能力定义 (Capability Definition)

样例任务 (Sample Task)

主要度量 (Primary Metric)

K

知识储备 (Knowledge)

常识与学科知识的广度

解释月相成因与二战结局

正确率与解释一致性

RW

读写能力 (Reading & Writing)

复杂文本理解与结构化写作

从长文提取约束并撰写摘要

细粒度抽取与结构严整度

M

数学能力 (Mathematics)

算术至高数的符号推演

复合计费与几何构型

步骤正确率与解的可验证性

R

即时推理 (Reasoning)

面对新题的逻辑规划

关系图谱逻辑题与假设检验

迁移性与多步一致性

WM

工作记忆 (Working Memory)

临时存储与序列操作

列表变换与跨轮指令维护

跨轮保持与干扰鲁棒性

MS

长期记忆存储 (Long-term Memory Storage)

将新信息转为持久记忆

跨会话回忆新引入人物信息

跨时复现与覆盖度

MR

长期记忆检索 (Long-term Memory Retrieval)

快速准确提取与抑制幻觉

识别设问错误并拒答

准确性与拒答恰当性

V

视觉处理 (Visual Processing)

图像与视频理解

识别扭曲画面与异常关系

语义一致性与细节定位

A

听觉处理 (Auditory Processing)

语音与节奏理解

语音转写与节奏比对

错词率与时序一致性

S

速度 (Speed)

反应时与吞吐效率

快速计数与低延迟多模态

延迟分位数与并发吞吐

这十大领域共同构成了一张评估AI的“能力雷达图”,可以直观地展示其优势与短板。

1.4 评测原则:“裸机性能”的极限压测

为了确保评估的公正性和准确性,框架制定了极其严格的评测原则。其中最核心的一条是**“原生能力评估”**。

这意味着,在测试过程中,严禁使用任何外部工具。模型不能联网搜索,不能调用计算器,更不能依赖检索增强生成(RAG)等外部知识库。所有问题,都必须由模型自身的参数和架构来解决。

这个原则的意义重大。它剥离了所有“辅助装备”,旨在测量AI模型的“裸机性能”。我们想知道的是这台“发动机”本身有多强大,而不是它外挂了多少个涡轮增压器。只有这样,才能真正洞察其底层架构的优势与缺陷。

二、 GPT-5“体检报告”深度剖析

在这套严苛的“体检”标准下,GPT-5的报告呈现出一种复杂且发人深省的面貌。

2.1 总体评估:58%背后的“锯齿状剖面”

GPT-5的综合得分为58%,相较于其前代GPT-4的27%,进步显著。单看这个数字,似乎预示着通往AGI的道路已经走过一半。但魔鬼隐藏在细节中。

报告的核心发现,是其极不均衡的能力分布,研究者称之为**“锯齿状能力剖面”(Jagged Capability Profile)**。这意味着模型在某些领域表现出色,接近甚至超越人类,但在另一些领域却表现得像一个初学者,甚至完全无能。

下表详细对比了GPT-4与GPT-5在十大认知域上的得分,直观地揭示了这种“偏科”现象。

领域

GPT-4

GPT-5

备注

知识 K

8

9

广度强,知识密度高

读写 RW

6

10

结构化写作强,检索式阅读稳

数学 M

4

10

符号推演强,长链推理更稳

推理 R

0

7

面对新题有规划能力但不稳定

工作记忆 WM

2

4

跨轮保持有限,易受干扰

长期存储 MS

0

0

新知识难以固化

长期检索 MR

4

4

提取尚可,抑制幻觉弱

视觉 V

0

4

基本识别与描述能力

听觉 A

0

6

转写可用,节奏对齐提升

速度 S

3

3

简单任务尚可,多模态延迟偏高

从表中可以清晰地看到,GPT-5的进步主要集中在数学(从4分跃升至10分)和推理(从0分突破至7分)等领域。然而,在长期记忆存储(MS)和速度(S)等关键维度上,却毫无进展,甚至原地踏步。

2.2 优势区间:符号处理能力的“登峰造极”

GPT-5在知识、读写和数学这三个领域取得了接近满分的成绩。这并不令人意外。这三个领域都高度依赖于对符号系统的掌握。

  • 知识储备(9/10):Transformer架构本质上是一个强大的序列模式学习器。通过在海量文本数据上进行预训练,模型将互联网规模的知识压缩进了其庞大的参数矩阵中。如备注所示,其知识广度强,密度高

  • 读写能力(10/10):这是大型语言模型的“本行”。其在文本理解和生成上的卓越表现,源于其对语言统计规律的深刻把握,实现了结构化写作强,检索式阅读稳

  • 数学能力(10/10):GPT-5在数学上的飞跃,可能得益于更优化的训练数据、思维链(Chain-of-Thought)等推理技术的内在泛化,以及模型规模扩大带来的涌现能力。它学会了将复杂的数学问题分解为一步步的符号推演,长链推理更稳

这些领域的成功,证明了当前AI架构在处理静态、结构化、符号化信息方面的强大能力。它像一个博闻强识的学者,几乎读完了人类所有的书籍。

2.3 瓶颈区间:迈向通用智能的“中间地带”

在推理、工作记忆、多模态和速度等领域,GPT-5的表现则差强人意。这些领域是连接“知晓”与“行动”、“理解”与“创造”的桥梁。

  • 即时推理(7/10):虽然比GPT-4的零分有巨大进步,但7分意味着它在面对新题时有规划能力但不稳定。这表明其推理能力更多是模式匹配的泛化,而非真正意义上的、基于世界模型的因果推理。

  • 工作记忆(4/10):4分是一个危险的信号。它直接关联到模型的上下文理解能力。如备注所言,其跨轮保持有限,易受干扰。这意味着在处理长对话、复杂指令或多步骤任务时,模型很容易“忘记”前面的信息,导致前后矛盾或任务失败。

  • 视觉(4/10)与听觉(6/10):多模态能力的得分不高,反映了当前模型在跨模态信息融合上的挑战。它具备了基本的识别与描述能力语音转写也基本可用,但要实现真正意义上的“视听联合理解”,还有很长的路要走。

  • 速度(3/10):低分的速度表明,随着模型能力的增强,其推理延迟也在急剧增加。简单任务尚可,但多模态延迟偏高,这限制了其在实时交互、边缘计算等场景下的应用。通用智能不仅要“聪明”,还要“敏捷”。

2.4 零分“病灶”:长期记忆的“结构性缺失”

报告中最具冲击力的发现,是GPT-5在长期记忆相关领域的彻底失败。

2.4.1 存储(MS)为零的根源

长期记忆存储(Long-term Memory Storage)得分为零。这是一个架构层面的根本性缺陷。

当前的Transformer模型,其核心是无状态(Stateless)的。在推理阶段,模型的权重参数是只读的。每一次用户交互,都是一次独立的、从头开始的前向传播计算。模型无法在交互过程中,根据新的信息动态、永久地更新自身的权重

打个比方,模型就像一张CD光盘。你可以读取里面的数据,但你无法向里面写入任何新内容。你今天教给它的所有知识,明天它会忘得一干二净。因为它根本没有“写入”的机制。备注中的“新知识难以固化”一针见血地指出了这个问题。这种无法从经验中持续学习、累积个性化知识的能力缺失,是其迈向真正AGI的最大障碍。

2.4.2 检索(MR)的“幻觉”顽疾

与存储相关的,是长期记忆检索(Long-term Memory Retrieval)。虽然在信息提取速度上,模型尚可得分(4分),但在抑制幻觉这一关键子项上,得分同样为零。

“幻觉”的本质,是模型在回答其知识边界之外的问题时,会倾向于**“最优化地编造”**。由于其生成过程是基于概率的,它会输出一个在统计上最“像”正确答案的序列,而不是坦诚地回答“我不知道”。

这个问题的根源,同样与缺乏稳定的长期记忆有关。模型没有一个可靠的、可查证的“事实数据库”作为锚点。它的所有知识都弥散在数万亿个参数的汪洋大海中,无法进行精确的溯源和校验。因此,当被问及一个它从未“读过”或记忆模糊的事实时,它只能依赖统计模式进行“创作”。备注中“抑制幻觉弱”的评价,是对这一顽疾的精准概括。

这两个“零分”,共同指向了当前主流AI架构的一个核心矛盾:一个没有稳定记忆系统的智能,其知识和推理都建立在流沙之上。

三、 “能力扭曲”:当前AI架构的“代偿机制”

面对长期记忆缺失这一根本性缺陷,当前的AI系统并非束手无策。它们演化出了一系列巧妙但脆弱的“代偿机制”。研究报告将这种现象称为**“能力扭曲”(Capability Contortions)**。

“能力扭曲”指的是,系统利用其某个超强能力,来弥补另一个极弱能力的不足。这就像一个没有腿的人,通过锻炼出极其强壮的手臂来“行走”。虽然表面上实现了移动,但其方式是低效、不自然且有严重局限的。

3.1 上下文窗口:被“滥用”的工作记忆

最典型的“能力扭曲”,就是用超长上下文窗口来模拟长期记忆

  • 技术本质:上下文窗口本质上是模型的工作记忆(WM)。它允许模型在一次交互中处理和关联大量信息。近年来,上下文窗口从几千token扩展到数百万token,这本身是巨大的技术进步。

  • 扭曲表现:开发者和用户开始将整个对话历史、大量背景文档全部塞进上下文窗口,试图让模型“记住”这些信息。这实际上是在强迫工作记忆去执行长期记忆的任务

  • 内在缺陷:这种方法的弊端显而易见。

    1. 成本高昂:处理长上下文需要巨大的计算资源和时间,导致推理成本和延迟飙升。

    2. 容量有限:无论窗口多大,终究有上限。一旦超出,信息就会被遗忘。它无法实现真正意义上的、无限累积的终身学习。

    3. 注意力衰减:“大海捞针”问题。在超长上下文中,模型对中间信息的注意力会下降,导致关键信息被忽略。

    4. 非持久化:交互一旦结束,上下文中的所有信息都会丢失。下一次对话,一切归零。

用一个表格来对比这种代偿机制与真实长期记忆的区别。

特性

上下文窗口 (工作记忆代偿)

真实长期记忆 (理想机制)

持久性

临时,会话结束即消失

永久,跨会话持续存在

容量

有限,受硬件和算法限制

理论上可无限增长

更新机制

每次交互需重新加载全部信息

增量式学习,动态更新知识

检索效率

随长度增加而下降(注意力机制)

高效,通过索引和关联快速定位

计算成本

极高,与上下文长度成非线性关系

推理成本相对固定

3.2 RAG:记忆的“体外循环”

另一个主流的代偿策略是检索增强生成(Retrieval-Augmented Generation, RAG)

  • 技术本质:RAG为模型外挂了一个外部知识库(如向量数据库)。当用户提问时,系统首先从知识库中检索相关信息,然后将这些信息作为上下文,一同提供给模型,辅助其生成答案。

  • 扭曲表现:RAG被广泛用于解决模型的知识更新滞后和“幻觉”问题。它相当于给了模型一个可以随时查阅的“开卷考试”工具。

  • 内在缺陷

    1. 非内化知识:模型只是信息的“搬运工”和“整合者”,知识并未被其真正理解和吸收。它无法基于这些外部信息进行深度的、跨领域的推理和创新。

    2. 检索依赖性:系统的表现高度依赖于检索模块的质量。如果检索失败或返回不相关信息,生成质量会急剧下降。

    3. 处理局限:RAG擅长处理事实性、陈述性的知识。但对于程序性知识(如何做某事)、情景记忆(个人经历)和需要复杂推理才能获得的隐性知识,RAG无能为力。

    4. 个性化难题:为每个用户维护一个动态更新、高度个性化的RAG知识库,在技术和成本上面临巨大挑战。

“能力扭曲”的存在,给我们一个重要的警示:我们不能将模型在特定任务上的高性能,与真正的认知能力提升划等号。很多时候,这种高性能只是巧妙工程妥协的产物,它掩盖了底层架构的根本性缺陷。

四、 启示与未来路径:从“更大”到“更完整”

这份AGI“体检报告”的价值,不仅在于诊断问题,更在于为未来指明方向。它将推动AI研究的范式,从追求“更大”的模型,转向构建“更完整”的认知架构。

4.1 对产业与研发的启示

  1. 重新定义“护城河”:单纯的模型规模和参数量,不再是唯一的竞争壁垒。未来,拥有高效、稳定长期记忆机制的架构,将成为新的核心竞争力。

  2. 聚焦架构创新:资源投入应从无休止的“军备竞赛”式预训练,向更根本的架构研究倾斜。学术界和工业界需要探索超越Transformer的新范式。

    • 可塑性权重:研究如何让模型权重在推理阶段也能进行高效、稳定的更新,实现真正的在线学习。

    • 记忆模块化:设计专门的、可读写的长期记忆模块,与现有的推理模块解耦,类似于人脑中海马体与新皮层的分工。

    • 世界模型:构建能够表征因果关系和物理规律的内部世界模型,作为推理和记忆的“骨架”。

  3. 产品设计的现实主义:在当前阶段,产品设计必须充分考虑AI的记忆边界。

    • 明确用户预期:在产品交互中,应明确告知用户AI的记忆是临时的。

    • 设计记忆辅助:提供显式的、用户可控的记忆管理工具,如“记忆胶囊”、“知识库快照”等,让用户帮助AI“记住”关键信息。

    • 人机回路:在需要持续性、个性化的任务中,设计更紧密的人机协作流程,由人类来扮演“长期记忆”的角色。

4.2 对普通用户的启示

  1. 成为一个“聪明的用户”:理解AI的能力边界,是高效使用它的前提。

    • 任务分解:将复杂的、跨时间的任务,分解为一系列独立的、信息完备的子任务交给AI处理。

    • 情景“注入”:每次与AI交互时,主动提供必要的背景信息,不要假设它“还记得”之前的对话。

  2. 善用“简易checklist”:普通用户也可以借鉴十大认知域,快速评估一个AI工具的适用场景。

    • 这个任务主要需要知识储备(K)还是即时推理(R)?

    • 它是否需要记住我们上周的讨论(MS/MR)?

    • 它需要处理图片(V)和语音(A)吗?
      通过这种简单的自问,可以快速识别任务需求与AI能力短板是否匹配。

  3. 保持批判性思维:鉴于AI在避免幻觉上得分为零,交叉验证永远是必要的。不要将AI的输出作为唯一信源,尤其是在做出重要决策时。

结论

29家顶尖机构联合发布的AGI评估框架,是一次及时的“祛魅”。它用冷静的工程语言和严谨的科学方法,为狂热的AI领域注入了一剂清醒剂。GPT-5的“体检报告”告诉我们,尽管AI在符号处理上取得了惊人的成就,但它距离一个认知功能完整、均衡的通用智能体,依然道阻且长。

“锯齿状”的能力剖面,特别是长期记忆的“零分病灶”,揭示了当前主流AI架构的内在局限。而“能力扭曲”现象则提醒我们,必须警惕那些用工程技巧掩盖根本性缺陷的“虚假繁荣”。

未来,通往AGI的道路,将不再是单纯比拼算力和数据的线性赛跑。它将转向一场更为深刻的、围绕认知架构的“范式革命”。如何为AI装上一个真正意义上的“记忆系统”,让它能够从经验中学习、在时间中成长,将是未来十年AI研究的核心命题。这把“标尺”已经给出,现在,轮到整个行业来回答这份考卷。

📢💻 【省心锐评】

AGI评估框架终结了定义的混乱,GPT-5的58分揭示了“偏科”现实。长期记忆的零分是架构性硬伤,迫使行业焦点从“堆规模”转向“补短板”,真正的智能需要记忆与成长,而非仅靠算力堆砌。