【摘要】权威数据揭示AI正经历指数级增长,其能力约每7个月翻一番。所谓“泡沫论”源于对该趋势的误读。最新评估显示,顶尖模型在近半专业任务中已媲美人类专家,社会各界需为即将到来的经济整合做好准备。

引言

在科技圈,没有什么比“AI”这个词更能点燃人们的激情与争论了。我们身处一个奇特的时代,一边是资本的狂热追捧与大众对通用人工智能(AGI)的无限遐想,另一边却是此起彼伏的“泡沫论”与“平台期”警告。许多人看到AI在编写代码或设计网站时依然会犯错,便轻易断言其潜力有限,不过是又一个被过度炒作的风口。

这种心态,危险且熟悉。

AI明星公司Anthropic的研究员Julian Schrittwieser一针见血地指出,当前对AI的普遍质疑,是对技术指数级增长趋势的严重误读,其本质与新冠疫情初期,全球对病毒指数级传播的集体性忽视如出一辙。当时,清晰的指数曲线已经预示了一场全球大流行的到来,但大多数人依旧将其视为遥远的、局部的现象,直到浪潮席卷而来。

Schrittwieser在他的博客文章《再次未能理解指数级》中,将这种因关注当下不完美而低估未来变革规模的心态,称为一种“自欺欺人”。毕竟,就在几年前,让AI自主编程听起来还像是科幻小说里的情节。而今天,我们却在因为它写出的代码不够完美而感到失望。

这篇深度文章的目的,正是要拨开围绕AI的迷雾。我们将不再依赖于直觉或个例,而是深入挖掘来自行业前沿的量化研究与评估图表。通过翔实的数据、严谨的分析和清晰的图表,我们将共同见证AI能力增长的真实轨迹,理解为何“泡沫论”在指数曲线面前显得如此苍白无力,并展望这场技术革命在未来几年将如何重塑我们的经济与社会。

这不仅仅是一场关于技术潜力的讨论,更是一次关于我们如何认知、准备和迎接未来的思想演练。

一、📈 AI能力的“新摩尔定律”:指数级增长的铁证

要理解AI发展的真实速度,我们必须抛弃线性思维,拥抱指数视角。幸运的是,我们不必凭空想象。独立的AI评估机构METR(原ARC Evals)提供了一把精确的标尺,其发布的系列评估报告,为我们揭示了AI能力增长的惊人规律。

1.1 何为METR评估?一把衡量AI自主能力的标尺

METR并非简单地让AI做几道选择题。他们建立了一套严谨的评估体系,旨在衡量AI模型能够自主执行真实世界软件工程任务的长度和复杂度。这个体系的核心指标非常巧妙。

METR的核心评估指标

模型在50%成功率下,能够独立完成的任务所对应的人类专家所需完成时长。

换句话说,如果一个模型能在METR的测试中获得“1小时”的评分,意味着它有一半的几率,可以独立完成一个需要人类软件工程师花费1小时才能完成的编程任务。这套评估覆盖了近170个从真实工作场景中提取的任务,涵盖了从基础编程、算法实现到网络安全、机器学习等多个领域。其有效性也通过了《Nature》等外部渠道的验证,确保了评估结果的客观与权威。

1.2 “7个月翻一番”:指数曲线的清晰显现

当METR将不同时期发布的AI模型放置在这把标尺上进行测量时,一条清晰的指数增长曲线跃然纸上。如下图所示,AI模型处理任务的复杂度(以任务时长衡量)大约每7个月就翻一番。这被一些观察家称为AI时代的“新摩尔定律”。

我们可以将图表中的关键信息整理如下,以更直观地感受这种增长。

AI 模型 (AI Model)

大致发布时间

任务时长

该时长对应的任务示例

GPT-2

~ 2019年

约 3-4 秒

回答问题 (Answer question)

GPT-3

~ 2020年底

约 15 秒

回答问题 (Answer question)

GPT-3.5

~ 2022年中

约 45-50 秒

统计段落字数 (Count words in passage)

GPT-4

~ 2023年初

约 4 分钟

统计段落字数 (Count words in passage)

GPT-4o

~ 2024年初

约 15 分钟

在网上查找事实 (Find fact on web)

Sonnet 3.7

~ 2024年中

约 1 小时

训练分类器 (Train classifier)

未来预测

~ 2025年底

约 4 小时

训练对抗性鲁棒图像模型 (Train adversarially robust image model)

从上表可以清晰地看到,AI的能力并非线性爬升,而是在以一个稳定的倍率加速。这种增长的意义是深远的。一个能处理1小时任务的AI,与一个只能处理15分钟任务的AI,其能力差异绝非简单的“4倍”。前者意味着它必须具备更强的上下文理解能力、更长的逻辑链条、更复杂的项目管理能力以及初步的自我调试和修正能力。这标志着AI正从一个“代码片段生成器”向一个初级的“自主软件工程师”演进

1.3 前沿模型 vs. 普通模型:趋势线上的领跑者

最新的METR评估图表进一步证实并深化了这一观察。它通过颜色区分了位于“能力前沿”的模型(绿色)和其他模型(灰色),让我们能更精确地理解这条指数曲线的真正含义。

这张图告诉我们一个关键事实:定义AI发展速度的,是那些处于能力前沿的顶尖模型(绿色点),它们共同构成了指数增长的趋势线。而许多新发布的模型(灰色点)实际上并未推动能力的边界。

AI 模型 (AI Model)

大致发布时间

任务时长

GPT-4

~ 2023年初

约 4-5 分钟

Qwen2-72B

~ 2024年中

约 4-5 分钟

Claude 3.5 Sonnet (Old)

~ 2024年中

约 20-30 分钟

GPT-5

~ 2025年底 (预测)

约 1.5 - 2 小时

例如,2024年中期发布的Qwen2-72B模型,其能力水平与一年前的GPT-4相当,因此它是一个灰色点,位于趋势线下方。这解释了为什么有些人会感觉AI“进步不大”,因为他们可能接触到的是非前沿模型。而真正的变革驱动力,始终来自于那些不断突破极限的绿色点。

当前对AI的种种质疑,很大程度上正是源于对这些“噪声”(灰色点)的过度关注,而忽视了背后那条由“信号”(绿色点)构成的、坚定上扬的指数主线。

二、🌍 跨越代码:AI在44个职业中追赶人类专家

如果说METR的数据证明了AI在技术领域的深度,那么OpenAI推出的GDPval评估体系,则展示了其惊人的广度。这项评估有力地回应了“AI只擅长编程”的质疑,揭示了AI正在如何全面渗透到我们经济活动的方方面面,并快速逼近人类专家的水平。

2.1 什么是GDPval?衡量AI经济价值的“试金石”

GDPval(Gross Domestic Product-weighted evaluation)是一个雄心勃勃的评估项目。它的目标是衡量AI模型在更广泛经济活动中的实际表现。其设计极具现实意义。

  • 覆盖范围广
    评估覆盖了对美国GDP贡献最大的九大行业,包括金融、医疗、教育、制造业等,从中选取了44个典型职业

  • 任务来源真实
    所有评估任务均由在这些行业中平均拥有14年经验的资深专家提供。这些任务不是学术化的考题,而是他们日常工作中需要处理的真实问题。

  • 交付物多样化
    GDPval不仅考察文本生成,还要求AI处理和生成包括文件、幻灯片、图表、电子表格在内的多模态交付物。这极大地提升了评测的真实性,因为现实世界的工作远不止于文字。

通过GDPval,我们可以看到AI不再是一个局限于数字世界的“书呆子”,而是一个能够处理商业报告、分析市场数据、制作演示文稿的“多面手”。

2.2 惊人的追赶:顶尖AI与行业专家的正面交锋

当最新的AI模型在GDPval的竞技场上与人类专家进行比较时,结果令人震惊。最新的跨模型对比图表显示,顶尖AI的表现已经“惊人地接近”人类水平,甚至开始挑战行业专家的能力。

这张图表清晰地展示了当前顶尖AI模型市场的性能分层,其中最前沿的模型已经非常接近50%的“与专家平价”线。

AI 模型 (AI Model)

总胜率 (优于或持平专家) (Total Win Rate - Wins and Ties)

关键解读 (Key Interpretation)

GPT-4o

12.4%

作为基准模型,显示了AI能力的基本盘。

Grok 4

24.3%

表现是GPT-4o的两倍,显示出显著的代际提升。

Gemini 2.5 Pro

25.5%

与Grok 4处于同一性能梯队,略有优势。

o4-mini high

27.9%

性能再次小幅提升,属于中上游水平。

o3 high

34.1%

首次突破30%大关,进入第一梯队。

GPT-5 high

38.8%

性能强劲,非常接近40%,是顶尖模型之一。

Claude Opus 4.1

47.6%

当前表现最佳的模型,距离50%的“平价线”仅一步之遥。

这组数据传递了几个至关重要的信息。

首先,AI的能力已经跨越了“可用”的门槛,进入了“专家级”的竞争区。来自Anthropic的Claude Opus 4.1以47.6%的总胜率位居榜首,这意味着在近一半的专业任务中,其产出被认为不亚于人类行业专家。这是一个决定性的里程碑。

其次,行业内部的良性竞争与开放性正在加速发展。Schrittwieser特别赞扬了OpenAI能够坦诚发布一项显示竞争对手(Anthropic)模型在某些指标上更优的评估报告。他认为“这是诚信和关心有益AI成果的好迹象”。这种开放的评估文化,确保了整个行业能够基于真实数据不断迭代。

2.3 稳定且可预测的追赶之路

这种惊人的表现并非偶然。OpenAI发布的另一张图表,展示了其自家前沿模型随时间演进的性能轨迹,证实了这种进步是稳定且可预测的。

这张图表显示,从2024年6月的GPT-4o到预测中2025年9月的GPT-5-high,模型的“优于或持平”胜率呈现出近乎直线的稳定增长。

AI 模型 (AI Model)

时间点 (Time Point)

胜率 (优于或持平专家) (Win Rate - Wins and Ties)

GPT-4o

2024年6月

约 13%

o3-high

2025年3月 (预测)

约 34%

GPT-5-high

2025年9月 (预测)

约 39%

这表明,AI能力的提升并非一蹴而就的跳跃,而是一个持续、可预测的追赶过程。按照这个趋势,跨越50%的“与专家平价”线,只是时间问题。

2.4 效率与成本的颠覆:100倍速度与1%成本

除了质量上的逼近,AI在效率和成本上的优势更是颠覆性的。GDPval的报告指出,在AI能够胜任的任务子集上,其完成速度比人类专家快约100倍,而成本仅为人类专家的百分之一

这是一个什么概念?

想象一下,一个需要人类专家团队花费一周时间、耗费数万美元完成的市场分析报告,一个AI模型可能在几分钟内就生成一份质量相当的初稿,成本仅为几美元。

当然,我们必须理性看待这个数据。目前的评估尚未涵盖所有现实工作环节,特别是那些需要多轮沟通、反复修改和高度人际交互的复杂场景。AI的优势主要体现在那些定义清晰、知识密集的标准化任务上。

即便如此,其影响也是巨大的。这意味着在许多工作的核心环节,AI已经能够作为一个强大的“加速器”和“成本压缩器”。企业可以采用“AI试做+人类把关”的混合范式,将专家从繁琐、重复的初级工作中解放出来,专注于更高层次的战略、创意和最终决策。这不仅是效率的提升,更是对整个工作流程和组织分工的根本性重构。

三、🚀 展望未来:2026-2027,AI经济整合的关键节点

基于上述跨越多个行业、得到多方验证的指数级增长数据,对AI的未来进行预测,便不再是天马行空的幻想,而是一种基于趋势外推的科学推演。Schrittwieser认为,如果AI的改进在此时突然停止,那将是“极其令人惊讶的”。

那么,沿着这条指数曲线向前看,未来几年我们会看到什么?

3.1 AI能力的三级跳:从小时级到全天候自主工作

通过简单地推断图表上的直线,我们可以得出一个比大多数“专家”更可靠的未来模型能力预测。

AI能力发展时间线预测

  • 到2026年中:模型将能够自主工作一整个工作日(8小时)
    这意味着AI将不再是一个只能执行孤立指令的工具,而是一个能够管理长周期、多步骤项目的“数字雇员”。它可以在早上接收一个复杂的任务需求,然后自主规划、执行、调试,并在一天结束时交付一个完整的成果。这将从根本上改变自由职业、外包和企业内部项目管理的面貌。

  • 到2026年底:至少有一个模型将在许多行业中达到人类专家水平
    这不再是遥远的猜想。鉴于Claude Opus 4.1在2024年就已经在47.6%的任务中达到或超越专家,那么在两年后,某个模型在更广泛的任务上全面达到50%的平价线,是完全符合当前趋势的合理推断。

  • 到2027年底:模型在许多任务上将频繁超越专家
    如果说“达到”专家水平是量变,“超越”则是质变。这意味着AI将开始在某些领域展现出超越人类的洞察力、创造力和效率。它可能发现人类分析师忽略的金融市场模式,设计出人类建筑师未曾想过的建筑结构,或者提出比人类科学家更优的实验方案。

3.2 从“任务”到“项目”:自主完成周级工作的可能性

除了单日工作能力的提升,研究界和媒体也在探讨AI完成更长周期项目的能力。对于AI何时能自主完成“几天到几周”级别的复杂项目,目前存在两种估计。

  • 保守估计:2031年附近
    这种观点认为,随着任务复杂度的指数级增加,AI所需克服的挑战(如长期记忆、动态环境适应、多方协作等)也会急剧增多,从而拉长实现周期。

  • 激进估计:2028年附近
    这种观点则相信,随着模型能力的提升和新架构(如Agentic AI)的出现,AI解决复杂问题的能力也会呈指数级增长,从而能够比预期更快地胜任长期项目。

无论哪种预测成真,一个清晰的共识是,在未来十年内,我们将看到能够独立承担并完成复杂项目的AI系统出现。这预示着一个AI深度参与甚至主导经济活动的时代的到来。

四、🔬 理性审视:正视AI的局限与挑战

在为AI的指数级进步感到振奋的同时,保持理性和清醒也至关重要。承认AI的局限性,不仅不会削弱其发展趋势的论证,反而能让我们更准确地把握其应用的边界和未来的发展方向。

4.1 评估体系的“盲区”:尚未覆盖的真实世界

尽管METR和GDPval已经做得非常出色,但它们目前的评估体系仍存在一些“盲区”。

  • 缺乏多轮迭代与高度交互
    当前的评估大多是“一次性”的。AI接收任务,然后交付成果。但在现实工作中,任务往往需要与同事、客户进行多轮沟通、反馈和修改。这种高度动态和交互性的场景,是现有评估体系难以覆盖的。

  • 对模糊需求的应对能力
    真实世界的需求往往是模糊、不完整甚至自相矛盾的。如何澄清需求、管理预期、并在信息不充分的情况下做出合理决策,是人类专家的核心价值之一,也是AI目前面临的巨大挑战。

  • 知识型任务的偏重
    GDPval等评估主要覆盖的是知识型、可在电脑上完成的任务。对于那些需要物理操作、现场感知或高度情商的职业(如外科医生、水管工、心理咨询师),目前的AI还远未触及。

OpenAI和Anthropic等机构都已明确表示,未来的评估将扩展范围,纳入更多行业和更复杂的任务类型,以更贴近真实的工作流。

4.2 “锯齿状边界”的现实影响

AI能力的“锯齿状边界”意味着,即使一个模型在99%的任务上表现完美,那1%的意外失败也可能造成灾难性后果。在自动驾驶、医疗诊断等高风险领域,这种不可预测性是AI大规模应用前必须解决的核心问题。

因此,在可预见的未来,“AI+人类”的协同模式仍将是主流。AI负责处理其擅长的、可标准化的部分,提供强大的分析和执行能力;而人类则负责最后环节的把关、应对意外情况、进行创造性决策和承担最终责任。

4.3 指数增长的终点在哪里?

任何指数增长最终都会遇到物理极限。无论是晶体管密度(摩尔定律),还是病毒传播(疫情),最终都会进入S型曲线的平缓期。AI的能力增长是否也会有天花板?

这是一个开放性问题。目前的增长主要由数据、算力和算法三者驱动。

  • 数据:高质量的训练数据正变得越来越稀缺。

  • 算力:芯片制造的物理极限和巨大的能源消耗是可见的瓶颈。

  • 算法:目前的大语言模型架构是否能持续带来突破,尚无定论。

然而,许多专家认为,在达到这些物理极限之前,AI的能力还有巨大的提升空间。而且,AI本身的发展,也可能帮助我们突破这些极限,例如用AI设计更高效的芯片,或发现更优的算法。

因此,与其过早担忧增长的终点,不如将注意力集中在如何应对未来几年内几乎确定会发生的巨大变革上。

结论

回到我们最初的问题:AI是泡沫吗?

综合所有证据,答案已经非常明确。当前对AI“泡沫”或“平台期”的质疑,源于一种根植于人类直觉的线性思维,是对清晰可见的指数级增长趋势的集体性误判

无论是METR揭示的“7个月能力翻一番”的软件工程能力,还是GDPval展示的在44个职业中对人类专家的快速追赶,都用无可辩驳的数据证明,AI正处在一条陡峭的上升曲线上。它的早期错误和不完美,不是停滞的信号,而是指数爆发前夜的正常现象。

我们正站在一场深刻变革的门槛上。未来几年,AI将从一个辅助工具,演变为能够自主完成全天工作的“数字员工”,并在越来越多的专业领域达到甚至超越人类专家的水平。这将对我们的经济结构、工作方式乃至社会分工产生前所未有的冲击。

低估这场变革,就像在海啸来临前争论浪花的大小一样,不仅毫无意义,而且极其危险。它可能会让整个社会、企业乃至个人,错失应对技术变革的最佳窗口期。

与其继续争论“AI泡沫”这个伪命题,或纠结于“AGI何时到来”这个哲学问题,更务实的做法是立刻行动起来。我们应该:

  1. 接受指数增长的现实,并以此为前提规划未来。

  2. 积极拥抱“AI试做+人类把关”的混合工作范式,在组织内部重构流程与分工,释放生产力。

  3. 提前布局制度、伦理和工程基础,为迎接更高水平的AI自动化做好准备。

历史告诉我们,面对指数级的变革,最昂贵的代价永远是“未能理解”。这一次,我们不能再犯同样的错误。

📢💻 【省心锐评】

别再盯着AI犯的低级错误了。看看数据,看看趋势线。这不是泡沫,这是浪潮的序幕。现在不开始重塑你的工作流,几年后被重塑的可能就是你。