【摘要】AI 正从像素预测转向物理理解。空间智能通过构建大型世界模型,旨在赋予 AI 物理常识,解决其在真实世界交互中的核心局限,重塑机器人、AR/VR 等产业的基础范式。

引言

人工智能的发展范式正在经历一场深刻的演进。如果说以 GPT 为代表的大语言模型(LLM)让机器学会了“读万卷书”,掌握了人类语言的复杂逻辑;以 Sora 为代表的视频生成模型让机器学会了“画千里景”,能够渲染出视觉上令人信服的动态画面;那么,我们正站在一个新纪元的门槛上。这个新纪元的核心议题,不再是语言或像素的精妙模仿,而是让 AI 真正理解并行动于我们所处的物理世界。

斯坦福大学教授李飞飞及其创立的 World Labs,通过“空间智能(Spatial Intelligence)”这一概念,明确指出了 AI 发展的第三阶段,即“从文字到世界(From Words to Worlds)”。这一转变的背后,是对当前生成式 AI 核心局限的深刻洞察。尽管 AI 生成的内容日益逼真,但其内在逻辑时常与物理现实脱节,暴露出“数字幻觉”的本质。本文将系统性地剖析空间智能的技术内核、其与传统模型的根本区别、关键应用场景,以及 World Labs 在此基础上的商业构想与面临的现实挑战。这不仅是一次技术迭代,更是一场关乎 AI 能否从虚拟走向现实,从辅助工具成为物理世界行动者的关键变革。

一、AI 的“数字幻觉”:当前生成式模型的核心局限

当前主流的生成式人工智能模型,无论在文本、图像还是视频领域,都取得了令人瞩目的成就。然而,在其光鲜的表象之下,一个根本性的局限日益凸显,即它们普遍缺乏对物理世界基本规律的理解。这种局限导致 AI 的产出虽然在“像素层面”上高度逼真,但在“物理层面”上却常常显得荒诞不经。

1.1 本质:高维空间中的概率预测器

要理解这一局限,必须回归其技术本质。无论是 LLM 还是扩散模型,其核心都可以被视为一个高维概率预测器。LLM 的任务是基于海量文本语料,预测给定上下文中下一个最可能出现的单词或 token。同样,图像和视频生成模型通过学习庞大的视觉数据集,预测在特定像素区域周围,其他像素应该呈现何种颜色与纹理分布。

这种机制决定了它们擅长的是模式匹配与统计关联,而非因果推理。模型知道“猫”和“玻璃桌”这两个视觉概念在图像中通常如何共存,但它并不理解“玻璃”是一种刚性固体,“猫”具有质量并受重力影响。因此,当模型生成“猫跳上玻璃桌”的场景时,它只是在像素层面复现一种“看起来像”的组合,而非模拟一个真实的物理过程。

1.2 表现:逼真画面下的物理荒诞

这种内在机制的缺失,直接导致了生成内容中频繁出现的“常识性错误”。这些错误在静态图像中可能尚不明显,但在需要时空连续性的动态视频中则暴露无遗。

  • 物体穿模(Object Clipping):这是最常见的错误之一。AI 生成的视频中,角色的肢体可能毫无阻碍地穿过墙壁,或者像前文提到的猫爪直接没入玻璃桌面。模型无法理解物体边界的排他性。

  • 材质属性错乱:模型可能无法正确表达不同材质在受力下的物理特性。金属可能像橡胶一样弯曲,水面可能像固体一样碎裂,玻璃可能像果冻一样产生波纹。

  • 运动规律违背:物体运动的轨迹常常违背基本的动力学常识。例如,抛出的球可能以恒定速度直线飞行,完全忽略重力和空气阻力的影响;车辆转弯时可能没有表现出应有的惯性。

这些问题共同构成了一种“数字幻각”,即 AI 创造了一个看似真实、实则脆弱的虚拟表象。它是一个优秀的“旁观者”和“描述者”,能够描绘世界的样子,但它无法成为一个可靠的“参与者”或“行动者”。

1.3 后果:交互能力的缺失与安全风险

这种局限性严重制约了 AI 在需要与物理世界进行可靠交互领域的应用。当 AI 的任务从屏幕内的内容生成,转向操控现实世界中的实体时,物理常识的缺失将是致命的。

  • 机器人领域:一个不理解“杯子是易碎的”机器人,在执行抓取任务时可能因用力过猛而捏碎杯子。一个不理解“地面是湿滑的”机器人,在导航时可能无法调整步态而导致摔倒。

  • 自动驾驶系统:系统需要准确预测其他交通参与者(车辆、行人)在物理约束下的未来轨迹。如果一个模型不能理解一辆重型卡车无法像跑车一样瞬间完成制动或变向,就可能做出灾难性的决策。

  • 工业自动化:在复杂的装配线上,机械臂需要理解零件的几何形状、重量和重心,以规划稳定且高效的抓取与放置路径。

因此,让 AI 掌握物理常识,不再是一个锦上添花的选项,而是其应用边界能否从数字世界拓展到物理世界的决定性因素。李飞飞用“寒武纪大爆发”的比喻恰如其分,生物进化出视觉系统,其根本驱动力是为了行动——捕食、避险、导航。AI 的视觉能力发展至今,也必须回归这一本源目标。

二、空间智能:从理解像素到理解世界的概念跃迁

为了弥补上述鸿沟,李飞飞团队提出了“空间智能”这一核心概念。它标志着 AI 研究范式的一次重要跃迁,即从专注于理解和生成非结构化的数据(如语言、图像),转向理解和构建一个结构化的、可交互的三维世界。这要求 AI 不仅要“看见”,更要“看懂”世界背后的空间关系与物理规则。

2.1 核心内涵:三大支柱

空间智能并非单一技术,而是一个复合能力体系,其核心可以分解为三个相互关联的支柱。

核心支柱

具体能力要求

解决的问题

三维空间结构理解

几何关系(位置、朝向、距离)、遮挡关系(谁在谁前面)、拓扑结构(连通性、路径规划)、场景布局(房间、街道的整体结构)。

AI 不再将世界视为扁平的像素集合,而是构建一个具有深度和结构的心理地图,知道哪里可以走,哪里有障碍物。

物体物理属性感知

材质(刚性、弹性、脆性)、质量、形状、重心、可动性(关节、自由度)、功能属性(门可以开、椅子可以坐)。

AI 能够为场景中的每个物体赋予内在属性,理解“苹果是圆的会滚动”和“箱子是方的会静止”之间的区别。

物理交互结果预测

碰撞检测与响应、重力与摩擦力影响下的运动轨迹、流体动力学(水的流动)、刚体与柔体动力学(布料的飘动、物体的破碎)。

AI 具备了“如果...那么...”的因果推理能力,能够预判一个动作(如推、拉、扔)可能导致的物理后果,从而进行决策。

这三大支柱共同构成了空间智能的基础,使 AI 能够从一个被动的观察者,转变为一个能够主动理解和预测物理世界动态的智能体。

2.2 定位:具身智能的基石

空间智能的最终目标,是服务于具身智能(Embodied AI)。具身智能强调智能体必须拥有一个物理身体,并通过与环境的实时交互来学习和执行任务。这与当前主流的、运行在云端服务器上的“大脑式”AI 形成了鲜明对比。

空间智能正是连接 AI 的“大脑”与物理“身体”之间的关键桥梁。它构成了具身智能体“感知-规划-行动”闭环中至关重要的一环。

如上图所示,空间智能模型(C)接收来自传感器的原始数据(B),并将其转化为一个结构化的世界状态理解(D),包括场景的几何布局和物体的物理属性。基于这个内部世界模型,智能体才能进行有效的任务规划(E),例如预测“如果我以这个角度和力度推动箱子,它会移动到哪里”,并最终生成精确的动作指令(F)来与物理世界(A)交互。没有空间智能,这个闭环就是不完整的,AI 的行动将是盲目且不可靠的。

三、大型世界模型(LWM):一种全新的技术范式

为了实现空间智能,需要一种全新的模型架构,即大型世界模型(Large World Models, LWMs)。LWM 的设计理念与传统的 LLM 或扩散模型存在本质区别,其目标不再是生成孤立的内容片段,而是构建一个内部自洽、可动态演化的“世界模拟器”。

3.1 LWM 与传统模型的根本差异

LWM 的出现,代表了 AI 模型在目标、约束和输出形态上的全面升级。我们可以通过一个详细的对比来理解其间的差异。

对比维度

传统生成模型 (LLM / 扩散模型)

大型世界模型 (LWM)

核心差异

核心目标

内容生成。生成语义连贯的文本、视觉逼真的图像或短视频。

世界建模。构建一个内部一致、符合物理规律的三维世界状态。

从“生成表象”转向“构建内在规律”。LWM 追求的是对世界底层运行机制的模拟,而不仅仅是其外在表现。

核心约束

语义连贯性单帧/局部质量。关注句子是否通顺,画面是否好看。

空间一致性物理合理性。强调在不同视角、不同时间点,世界的结构和物理规律保持稳定。

LWM 引入了来自物理世界的强约束。一个在 LWM 中生成的房间,从任何角度看,家具的位置都必须是固定的,推倒的杯子必须符合重力定律。

数据处理方式

将世界视为非结构化的数据流(token 序列、像素网格)。

将世界表示为结构化的实体、属性和关系(场景图、物理参数)。

LWM 试图从非结构化的感知数据中,反向工程出一个结构化的世界表征。这是从“感知”到“认知”的关键一步。

交互性

弱交互或无交互。输出是静态的文本、图像,用户无法在其中行动。

强交互性。模型本身就是一个可交互的仿真环境,用户或 AI Agent 可以在其中施加动作并观察结果。

LWM 的输出不是“最终产品”,而是一个“动态沙盒”。你可以改变其中的光源、施加力、移动物体,并观察世界的实时响应。

输出形态

孤立的内容资产(一篇文章、一张图片、一段视频)。

可复用的世界底座(World Foundation)。一个可以被多种应用(机器人、游戏、AR)共同调用的基础环境。

LWM 的价值在于其通用性和可扩展性。同一个世界模型可以同时服务于机器人的训练、游戏的场景生成和 AR 应用的环境理解。

这个对比清晰地表明,LWM 并非现有模型的简单延伸,而是一种全新的范式。它要求模型具备超越模式识别的、更高层次的抽象和推理能力,即对世界进行建模的能力。

3.2 LWM 的技术实现路径

实现一个功能完备的 LWM,需要融合计算机视觉、计算机图形学和机器学习等多个领域的前沿技术。其技术栈大致可以分为数据、表示、建模和学习四个层面。

  • 数据形态升级:训练 LWM 需要的数据远比传统的 2D 图像和文本复杂。它需要能够反映三维结构和动态交互的数据,例如:

    • 多视角视频:从不同角度同时拍摄的视频,用于重建三维场景。

    • RGB-D 数据:同时包含颜色(RGB)和深度(Depth)信息的图像,直接提供了场景的三维几何信息。

    • 点云(Point Clouds)与网格(Mesh):由激光雷达(LiDAR)等传感器直接采集的三维空间点集或表面模型。

    • 时序交互数据:记录了动作(如机器人的关节角度)与环境反馈(传感器读数变化)的序列数据。

  • 三维场景表示:如何高效、精确地在计算机中表示一个复杂的三维世界是核心问题。近年来涌现出多种前沿技术:

    • 神经辐射场(NeRF):用一个神经网络来隐式地表示整个三维场景。通过输入空间坐标(x, y, z)和观察方向,网络可以输出该点的颜色和密度,从而渲染出任意视角下的逼真图像。

    • 三维高斯溅射(3D Gaussian Splatting, 3DGS):将场景表示为大量三维高斯分布的集合。这种方法在保持高质量渲染的同时,实现了比 NeRF 更快的训练和推理速度,更适合实时应用。

    • 场景图(Scene Graphs):一种更抽象的表示方法,将场景分解为物体、属性和它们之间的关系(如“椅子”在“桌子”旁边),更利于高层语义理解和规划。

  • 时空与物理建模:在静态的三维表示之上,LWM 必须能够建模世界的动态变化。

    • 时空建模(Spatio-Temporal Modeling):利用 Transformer、循环神经网络(RNN)等架构,学习场景随时间演化的规律,预测“下一帧会发生什么”。

    • 物理动力学隐式学习:与传统的物理引擎不同,LWM 不依赖于手写的、显式的物理公式(如牛顿定律)。它通过观察海量的真实世界或仿真数据,以数据驱动的方式,让神经网络隐式地学习到物理规律。例如,模型通过观看大量物体下落的视频,自己学会近似重力加速度的效果,而无需被告知 F=ma

这种从“显式建模 + 数值求解”到“数据驱动的隐式仿真”的转变,是 LWM 相比传统物理引擎的潜在优势所在。它有望在处理复杂、非刚性、多物体交互等传统方法难以建模的场景时,展现出更强的泛化能力和更高的效率。

四、应用场景的范式重塑:从“锦上添花”到“不可或缺”

空间智能及其载体 LWM 的价值,最终体现在其对具体应用场景的颠覆性影响上。在机器人、虚拟内容创作和混合现实等领域,空间智能并非一项“锦上添花”的优化技术,而是解决其核心瓶颈、推动其从实验室走向大规模应用的“不可或-缺”的基础设施。

4.1 机器人:赋予自主行动的“世界观”

当前机器人技术面临的最大挑战之一是泛化能力。大多数机器人在高度结构化、预先编程的环境(如工厂流水线)中表现出色,但一旦进入动态、非结构化的真实世界(如家庭、办公室),其性能就会急剧下降。根本原因在于它们缺乏对环境的深层理解和适应能力。

空间智能将从根本上改变这一现状。

  • 从“环境编程”到“环境理解”:传统的机器人部署,需要工程师为每个新环境进行繁琐的地图绘制、路径标定和任务编程。搭载了 LWM 的机器人,则可以像人类一样,通过短暂的观察(“看一眼”),快速在内部构建起对环境的三维模型和物理认知。它能自主识别出哪里是可通行的地面,哪里是障碍物,桌上的杯子是什么形状,应该从哪个方向抓取。

  • 提升任务鲁棒性:在执行抓取任务时,一个具备空间智能的机器人能够实时感知物体的精确位置、姿态和材质。如果目标物体被轻微移动或部分遮挡,它能够动态调整抓取策略,而不是像传统程序一样执行失败。它还能根据对物体重量和易碎性的预判,精细控制抓取力度,大幅提升任务成功率。

  • 实现高级人机协作:在人机协作场景中,机器人需要理解人类的意图并预测其行为。空间智能使机器人能够理解人类的姿势、视线和动作所蕴含的空间意义,例如,当人伸手去拿一个工具时,机器人能够预测其路径并主动避让,或者递上辅助工具,实现更自然、更安全的协作。

4.2 游戏与虚拟世界:内容生产力的指数级革命

3A 级游戏、元宇宙平台和数字孪生应用的核心成本与壁垒在于高质量三维内容的生产。一个庞大、真实、可交互的虚拟世界,往往需要数百人的团队耗费数年时间进行手动建模、纹理绘制和物理引擎调试。LWM 有望彻底颠覆这一劳动密集型的生产模式。

  • 自动化世界生成:开发者不再需要一砖一瓦地构建虚拟城市或关卡。他们可以通过自然语言描述(如“生成一个赛博朋克风格、下着雨的城市夜景,街道上有霓虹灯和飞行器”)或提供几张参考图片,让 LWM 自动生成一个符合要求、且内部物理逻辑自洽的宏大场景。

  • 物理交互的“开箱即用”:传统游戏开发中,为场景中的每个物体设置碰撞体积、物理材质和交互脚本是一项枯燥且耗时的工作。LWM 生成的世界是“天生”就带有物理属性的。其中的石头就是坚硬的,水就是流动的,车辆碰撞就会产生符合动力学的碎片。这极大地降低了实现复杂物理交互的门槛。

  • 动态与可变的世界:LWM 不仅能生成静态场景,还能模拟世界的动态演化。例如,它可以模拟一个生态系统中的植物生长、天气变化,或者一个城市中交通流量和人群活动的日夜循环。这为创造真正“活的”虚拟世界提供了可能。

4.3 增强/虚拟/混合现实(AR/VR/MR):打破虚实的最后壁垒

AR/VR/MR 技术的核心体验,在于将虚拟信息和物体无缝地融入现实世界。当前,这一体验常常被糟糕的环境理解能力所破坏,导致虚拟物体出现悬浮、穿模、不合理的遮挡等问题,让用户瞬间“出戏”。

空间智能是解决这些问题的关键。

  • 精准的环境重建与理解:搭载了 LWM 的 AR/VR 设备能够实时、高精度地扫描和重建用户所处的物理空间,并理解其中的语义信息。它不仅知道哪里有一堵墙,还知道这是一堵“墙”,墙上挂着一幅“画”。

  • 实现自然的虚实遮挡与交互:当一个虚拟角色在房间里走动时,它能够被真实的沙发、桌子自然地遮挡。用户可以将一个虚拟水杯稳稳地放在真实的桌面上,而不是悬浮在空中。用户扔出的虚拟球,会与真实的墙壁发生碰撞并反弹。

  • 支撑高级混合现实体验:空间智能还能让虚拟物体对现实环境产生影响。例如,一个虚拟台灯可以照亮真实的桌面,并在真实物体上投下逼真的阴影。一个虚拟的雨滴,打在真实的窗户上会形成水渍并滑落。这种深度的虚实融合,将是混合现实从“新奇玩具”走向“生产力工具”的决定性一步。

五、World Labs 的商业棋局:构建“世界模型”的基础设施

面对空间智能这一潜力巨大的赛道,李飞飞和她的 World Labs 并没有选择去做某一个垂直领域的应用,而是采取了一种更具野心的平台化战略。其商业模式的核心,是成为未来所有需要与物理世界交互的 AI 应用的“基础设施提供商”。

5.1 核心定位:世界模型即服务(World Model as a Service, WaaS)

World Labs 的商业定位与 OpenAI 颇为相似,即通过 API 的方式,将底层的、复杂的 LWM 能力封装起来,以服务的形式提供给各行各业的开发者。这种 “世界模型即服务” 的模式具有显而易见的优势。

  • 最大化市场覆盖:通过平台化路线,World Labs 可以同时赋能游戏、机器人、AR/VR、工业仿真、自动驾驶等多个高价值赛道,而无需自己深入每个行业的具体业务。

  • 降低技术门槛:训练和部署 LWM 需要巨大的算力投入和顶尖的技术人才,这对大多数公司来说是难以承受的。WaaS 模式让中小企业也能以较低的成本,按需调用最先进的世界建模能力。

  • 聚焦核心技术:作为平台方,World Labs 可以将所有资源集中在打磨 LWM 这一核心技术上,不断提升其精度、效率和通用性,从而构建起深厚的技术壁垒。

5.2 护城河:数据飞轮与生态粘性

在 AI 领域,最坚固的护城河往往来自于数据。LWM 对数据的需求尤为特殊和苛刻,这也构成了 World Labs 商业模式的核心壁垒。

  • 构建“数据飞轮”:这是一个正向循环的增长引擎。

    1. 吸引早期用户:通过提供强大的初始模型能力,吸引第一批来自机器人、游戏等领域的企业客户接入 API。

    2. 沉淀交互数据:这些企业在真实场景中使用 LWM(例如,机器人在仓库中导航、玩家在游戏中与环境互动),会产生海量的、带有真实物理反馈的 3D 交互数据。

    3. 模型迭代优化:World Labs 将这些宝贵的真实世界数据用于模型的持续优化和迭代,使其物理模拟更逼真,场景理解更准确。

    4. 提升产品力,吸引更多用户:更强大的模型能力会吸引更多、更大的客户接入,从而产生更多、更高质量的数据。

    一旦这个飞轮转动起来,后来者将很难在数据积累上追赶,从而形成强大的网络效应。

  • “场景资产沉淀”提升粘性:与调用一次性的内容生成 API 不同,用户在 World Labs 平台上构建的虚拟世界本身就是一种有价值的数字资产。一家建筑公司可以在平台上构建一个项目的数字孪生模型,并持续对其进行更新和模拟。一家零售企业可以生成一个虚拟展厅,并长期用它来展示商品。这些沉淀下来的“场景资产”具有复用价值,甚至可以被授权或交易,从而将用户深度绑定在平台上,从“工具使用者”转变为“生态共建者”。

六、前路漫漫:空间智能面临的三大核心挑战

尽管空间智能的前景无比广阔,但在通往大规模商业化落地的道路上,依然横亘着三座必须翻越的大山。这些挑战不仅是技术性的,也是工程和商业层面的。

6.1 算力黑洞:成本与效率的平衡

实时地对一个复杂三维世界进行建模,并模拟其中所有物体的物理交互,对计算资源的需求是惊人的,远超当前主流的文本或图像生成任务。

  • 训练成本:训练一个基础 LWM 所需的数据量和计算量可能是 GPT-4 的数倍甚至数十倍,这意味着天文数字级的初始投入。

  • 推理成本:在实际应用中,无论是机器人导航还是 AR 渲染,都要求极低的延迟。如何在云端和边缘设备(如 AR 眼镜、机器人本地处理器)上实现 LWM 的高效推理,是一个巨大的工程挑战。过高的算力成本可能会让许多潜在用户望而却步。

  • 解决方案探索:业界正在探索多种路径来应对这一挑战,包括开发专用加速芯片、研究模型量化与蒸馏等压缩技术、设计分层精度的渲染与仿真方案(即对用户关注的焦点区域进行高精度模拟,对背景区域进行低精度处理)。

6.2 物理“恐怖谷”:对真实性的苛刻要求

人类在长期的进化过程中,形成了一套对物理世界运行规律的、极其敏锐的直觉。这导致我们对物理模拟的“真实性”有着极高的要求,形成了一种“恐怖谷”效应。

  • 高容错度 vs 低容错度:一段文字如果有个别语法错误,我们通常仍能理解其大意。一张图片如果有些许瑕疵,我们可能不会太在意。但是,一个物体如果以一种稍显不自然的轨迹下落,或者碰撞后的声音与预期不符,我们会立刻感觉到“假”。

  • 精度与一致性的挑战:要跨越物理恐怖谷,模型不仅要在单个物理效果上做到精确(如摩擦系数、反弹系数),更要在整个世界的长时间演化中保持所有物理规律的一致性。这对模型的稳定性和鲁棒性提出了极高的要求。

6.3 数据瓶颈:稀缺与获取成本

这是制约空间智能发展的最根本、也是最难解决的问题。与互联网上唾手可得的万亿级文本和图像数据相比,高质量、多样化的 3D 物理交互数据极其稀缺。

  • 数据获取难度:获取这类数据成本高昂。通过真实世界的传感器(如机器人、自动驾驶汽车)采集,不仅设备昂贵,而且过程缓慢、充满不确定性。

  • 数据标注挑战:如何为这些数据打上精确的标签(如物体的质量、材质、关节位置、受力情况)是一个巨大的难题,往往需要复杂的人工标注或精密的物理仿真环境。

  • 多源数据融合:未来的解决之道,很可能在于结合多种数据来源,形成合力。

    • 合成数据:利用 Unreal Engine 5、NVIDIA Omniverse 等高保真物理仿真引擎,大规模生成带有完美标注的合成数据。

    • 真实世界数据:通过与行业伙伴合作,从真实场景中采集少量但高价值的数据,用于模型的校准和微调。

    • 自监督学习:设计巧妙的自监督任务,让模型能够从无标注的多视角视频或交互序列中,自己学习到世界的空间结构和物理规律。

结论

空间智能的提出,标志着人工智能的竞争焦点正在发生根本性的转移。上半场,业界比拼的是谁能让 AI 更像人一样“说话”和“画画”,核心是语言和图像的表现力。而下半场,竞争的核心将是谁能构建出更准确、更高效、更通用的世界模型,让 AI 真正理解我们这个世界的运转规则。

李飞飞和 World Labs 的工作,本质上是在教 AI 掌握那些我们习以为常、却又至关重要的物理常识——“杯子掉在地上会碎”、“走路要避开障碍物”。这不仅仅是技术上的演进,更是 AI 从一个“虚拟世界的数字大脑”,迈向一个“能够在物理世界可靠行动的智能体”的关键一步。

尽管前路依然充满挑战,算力、数据和物理拟真的高墙仍需时日去攻克,但方向已经明确。当 AI 真正懂得了物理,它才能真正走出屏幕,走进工厂的车间、家庭的客厅、城市的街道,成为重塑实体经济的决定性力量。这场关于 AI 与世界互动规则的重写,才刚刚拉开序幕。

📢💻 【省心锐评】

空间智能是 AI 从“模拟表象”到“理解本质”的质变。它让 AI 不再是“像素画家”,而是“物理学徒”,这是 AI 赋能实体世界不可或缺的一步,其价值将在机器人和 AR/VR 领域最先引爆。