【摘要】本文系统梳理了香港大学团队联合多家机构在“让AI像人类一样探索和思考世界”领域的最新突破。文章涵盖了机器人视觉、空间理解、智能决策等关键技术创新,深入剖析了EmbRACE-3K数据集的构建、AI主动探索的三大难题、技术框架、实验成果及未来展望。通过丰富实例和详实数据,展现了AI从被动感知到主动推理的进化路径,并对行业应用和未来挑战进行了深度分析。
引言
当我们走进一个陌生的房间,寻找桌上的钥匙时,眼睛、身体和大脑协同工作,主动探索、记忆空间、调整策略。这种看似简单的行为,背后却是极其复杂的认知与推理过程。相比之下,当前最先进的人工智能系统在面对类似任务时,往往表现得笨拙而无助。它们擅长分析静态图片,却难以在动态环境中自主决策和持续追踪目标。
近年来,人工智能与机器人领域在“让AI像人类一样探索和思考世界”方面取得了突破性进展。以香港大学林明贤、黄伟等研究者为代表的团队,联合清华大学、LIGHTSPEED公司和北京师范大学,于2025年7月发表了具有里程碑意义的论文(arXiv:2507.10548),推动了机器人视觉、空间理解和智能决策等多个关键方向的发展。本文将系统梳理该领域的最新进展、技术创新、实验成果及未来展望,深入探讨AI如何从“看见”到“理解”,再到“像人类一样”主动探索和思考。
一、AI如何“看见”与“理解”世界
1.1 传统AI视觉的局限
人工智能视觉系统的进步令人瞩目。AI已经能够识别图像中的物体、场景,甚至进行复杂的图像生成和编辑。然而,真正的“理解”远不止于此。空间关系、物体运动、动态环境下的推理,这些能力是人类日常生活中不可或缺的,却是AI的短板。
1.1.1 空间推理的挑战
以MMSI-Bench等基准测试为例,当前最先进的多模态大模型(MLLM)在多图像空间推理任务上的准确率仅为41%,而人类则高达97.2%。AI在物体位置、运动轨迹、空间关系等方面的理解力,远未达到实用水平。
1.1.2 被动感知与主动探索的鸿沟
现有AI模型大多依赖于静态图片或视频片段进行训练。它们像习惯看照片的人,面对真实世界的动态变化时,缺乏主动探索和决策的能力。AI可以“看见”世界,却难以“理解”世界,更谈不上像人类一样主动行动。
1.2 机器人智能的闭环系统
香港大学团队的研究聚焦于让机器人通过视觉感知和语言指令,自主学习和泛化技能,实现从“看视频”、“听指令”到“动手操作”的闭环智能系统。这一系统不仅要求AI能够识别和理解环境,还要能够根据任务目标,主动规划、探索和执行动作。
1.2.1 视觉与语言的深度融合
通过视觉语言模型(如Prismatic-7B),机器人能够将视觉观察和自然语言指令编码为统一输入。例如,面对“拿起红色杯子”的指令,机器人不仅要识别红色杯子的位置,还要规划路径、避开障碍、完成动作。
1.2.2 从视频中学习动作本质
团队利用未标注的网络视频数据(如Ego4D),让AI提取与任务相关的核心动作。即使只用10%的训练数据,系统性能也能超越传统方法。这种自监督学习方式极大提升了数据利用效率。
二、AI主动探索的三大难题
2.1 “短视探索”现象
AI在主动探索任务中,常常表现出“短视”行为。比如,面对“找到红色汽车并走近它”的任务,AI可能只向左看一眼,没看到目标就立即转向,缺乏系统性的搜索策略。这种行为源于AI训练时从未学会如何主动寻找信息。
2.2 “动态空间语义漂移”
人类能够根据自身位置和朝向,灵活理解空间关系。而AI在移动过程中,往往无法正确更新对空间关系的理解。例如,“左边的椅子”在不同视角下指代不同对象,AI却难以适应这种变化。
2.3 “目标遗忘”困境
AI在执行多阶段任务时,容易遗忘目标。例如,“先走到垃圾桶旁边,再走向红色汽车”,AI可能完成第一个目标后,完全忘记了第二个目标。这反映了AI在长期记忆和目标维护方面的根本缺陷。
三、EmbRACE-3K数据集:为AI量身定制的“现实世界生存指南”
3.1 数据集构建流程
EmbRACE-3K数据集的构建过程堪比制作一部详尽的纪录片,记录了人类在各种环境中如何观察、思考和行动。整个过程分为四个阶段:
3.1.1 环境多样性与标准化
团队利用UnrealCV-Zoo等平台,确保环境的多样性和真实性。每个观察点都记录六自由度坐标和第一人称视角图像,保证数据的丰富性和一致性。
3.1.2 任务类型与分布
任务分为五类:
基础任务:目标清晰可见,立即可达
探索任务:目标需主动搜索
动态空间语义任务:考察空间关系理解
多阶段任务:考察长期规划与目标维护
交互任务:涉及物体操作
这种设计确保了AI在各类挑战场景中都能得到充分训练。
3.1.3 人类示范与推理标注
人类玩家的示范轨迹为AI提供了高质量的行为样本。每一步都配有详细的推理解释,捕捉了感知-动作-意图的闭环依赖关系。
3.2 数据集创新点
细粒度、多模态标注:每个决策步骤包含视觉、动作、推理三重信息
任务类型均衡:基础与高阶任务合理分布,兼顾训练与评测需求
环境多样性:24个虚拟场景,覆盖多种空间结构和光照条件
标注标准化:统一格式,便于模型训练和结果复现
四、技术创新与核心框架
4.1 多平面同步与3D世界重建
香港大学团队提出的“多平面同步”技术,使AI能够从一张普通照片“脑补”出完整的360度世界。通过创新的注意力机制、卷积和归一化操作,实现了2D到3D的无缝跨越,解决了传统全景生成中的拼接、色彩不一致和空间逻辑断裂等难题。该机制无需重新训练模型,只需模块级调整,即可提升全景图像和深度图的生成质量。
4.2 视觉与语言的深度融合
团队采用视觉语言模型,将视觉观察和自然语言指令编码为统一输入,使机器人能够理解复杂任务意图。例如,机器人可根据“拿起红色杯子”的指令,结合视觉信息定位目标并执行动作。
4.3 从视频中学习动作本质
通过利用未标注的网络视频数据,AI能够提取与任务相关的核心动作,提升数据效率。研究表明,即使只用10%的训练数据,系统性能也能超越传统方法。
4.4 跨领域泛化与隐式动作空间
通过设计任务中心的隐式动作空间,机器人可在不同硬件平台、场景和任务间快速适配。在LIBERO等基准测试中,相关系统在空间推理、物体泛化和长期任务规划中表现优异,成功率最高达96.5%。
4.5 世界模型与自监督学习
团队借鉴了“世界模型”理念,让AI通过观察和交互主动构建对环境的理解和预测。国际上如Meta的V-JEPA 2模型,通过观看海量视频自我学习,能够理解和预测未来场景,指导机器人完成复杂任务。中国的上海人工智能实验室也提出了“人类思维启发的图像寓意理解与推理框架”,推动AI向更高层次的智能迈进。
五、实验成果与实际应用
5.1 基准测试与仿真平台
在仿真平台如LIBERO和CALVIN上,系统展现了优越的通用性和任务适应能力,平均成功率提升18.5%。在真实机器人部署中,系统实现了10Hz以上的实时推理控制,在“清理案板”、“叠汉诺塔”等任务中平均成功率超过80%。
5.2 EmbRACE-3K上的性能分析
5.2.1 零样本测试的挑战
当GPT-4o、Gemini 2.5 Pro等模型在EmbRACE-3K上进行零样本测试时,所有模型的成功率均低于20%。基础任务成功率尚可,但一旦涉及探索、空间推理或多阶段任务,性能急剧下降。
5.2.2 微调与强化学习的提升
经过EmbRACE-3K数据集的监督微调,Qwen2.5-VL模型在各类任务上的成功率大幅提升,基础任务从26.4%提升至72.9%,探索任务从0%提升至71.4%,多阶段任务从0%提升至81.8%。进一步引入强化学习后,模型在未见环境中的泛化能力显著增强。
5.2.3 推理标注的作用
去除推理标注的模型在动态空间语义任务中的成功率仅为27.1%,而包含推理标注的模型则高达68.6%。这表明逐步推理监督对于维持空间定位和任务上下文至关重要。
5.3 真实世界应用场景
服务机器人:自主导航、物品查找与搬运
自动驾驶:复杂交通环境下的实时决策
虚拟现实/增强现实:智能交互与场景理解
智能助手:多步任务规划与执行
六、训练方法与技术挑战
6.1 两阶段训练框架
6.1.1 监督微调
利用EmbRACE-3K中的高质量推理轨迹,模型在多轮对话形式下学习感知-推理-行动的闭环。输出包含推理过程和最终动作决策,提升了模型的可解释性和可调试性。
6.1.2 强化学习优化
采用组相对策略优化(GRPO)算法,模型在实际环境中通过试错提升决策质量。奖励函数兼顾格式和准确性,参数设置针对长序列任务进行优化,确保训练稳定高效。
6.2 技术难点与解决方案
七、未来展望与行业影响
7.1 数据集与算法的扩展
未来,EmbRACE-3K将进一步扩展规模和多样性,涵盖更多真实世界场景和复杂任务。多模态融合、元学习、终身学习等新技术将不断提升AI的泛化与适应能力。
7.2 真实世界迁移与安全性
从模拟到现实的迁移仍是重大挑战。需要开发更逼真的仿真环境、有效的域适应方法,以及安全可靠的测试框架,确保AI系统在现实世界中的稳定性和安全性。
7.3 行业应用前景
智能家居与服务机器人
智能制造与自动化物流
智能交通与自动驾驶
智能医疗与辅助诊断
教育与虚拟训练
7.4 伦理与可解释性
随着AI系统日益智能和自主,行为的可解释性、可控性和安全性成为行业关注焦点。未来研究将更加重视AI系统的透明度和合规性,确保其行为符合人类价值观和社会规范。
结论
香港大学团队的创新研究,正让“机器人眼中的世界”变得更加丰富和真实。通过多平面同步、视觉语言融合、世界模型和自监督学习等多项技术创新,AI正逐步具备像人类一样主动探索、理解并适应复杂世界的能力。EmbRACE-3K数据集不仅为AI系统提供了系统化的训练和评测平台,更为行业应用和未来发展奠定了坚实基础。尽管仍面临数据稀缺、泛化能力、实时性和安全性等挑战,但随着技术进步,未来的机器人有望在更多实际场景中展现出接近人类的智能水平,助力智能社会的到来。
📢💻 【省心锐评】
“香港大学团队的研究为具身智能开辟了新路径,EmbRACE-3K是关键一步,未来AI的泛化与安全仍需深耕。”
评论