看一张目标图就能干活：Act2Goal 用“世界模型 + 多尺度规划”突破机器人长程控制

【摘要】机器人控制范式革新。Act2Goal仅凭目标图像，通过世界模型预演与多尺度规划，实现复杂长时序任务的自主执行，破解误差累积难题。

引言

在机器人技术领域，实现通用自主控制始终是一项核心挑战。长期以来，机器人执行任务严重依赖于详尽的编程脚本或精确的语言指令。这种模式不仅限制了机器人的应用场景，也构成了人机交互的巨大障碍。我们期待的理想状态是，机器人能像人类一样，仅凭一个直观的目标就能理解意图并自主完成任务。例如，向机器人展示一张整理完毕的房间照片，它便能自行规划并执行所有必要的整理动作。

实现这一愿景的关键瓶颈在于目标图像驱动的长时序任务控制。当任务流程变长，机器人极易因微小误差的累积而偏离最终目标，这种现象被称为“长程任务中的目标漂移”。传统的端到端策略模型，虽然在短时任务中表现尚可，但在面对这种长程挑战时，往往因缺乏中间过程的理解与规划而失效。

2025年12月，由Agibot Research团队发表的研究成果 "Act2Goal: From World Model To General Goal-conditioned Policy"，为解决这一难题提供了开创性的思路。该研究提出的Act2Goal系统，首次在真实环境中验证了仅通过一张目标图片，即可驱动机器人完成复杂、长时序任务的能力。它将“世界模型”的预测能力与“多尺度规划”的控制思想相结合，构建了一个既能“脑内预演”又能精确执行的闭环控制框架，标志着机器人控制从直接的策略回归，向模型化规划与执行相结合的范式迈出了坚实一步。

🎯 一、核心困境：目标图像驱动的长程控制难题

在深入Act2Goal的技术细节之前，有必要厘清其试图解决的核心问题。目标图像驱动的控制任务，其输入高度凝练，仅包含初始状态的观测与最终状态的图像，这对系统的自主规划能力提出了极高要求。

1.1 问题定义：从像素到行动的巨大鸿沟

任务的输入极为简洁，仅由两部分构成：

当前观测 (Current Observation)：机器人通过传感器（如摄像头）获取的当前环境状态。
目标图像 (Goal Image)：一张静态图片，描绘了任务完成后的期望状态。

系统的输出则是一个连续的动作序列，驱动机器人从当前状态逐步过渡到目标状态。这种模式完全摒弃了对中间步骤的文字描述、人工示教或预定义脚本的依赖，要求机器人自身具备填补从初始状态到目标状态之间巨大“语义鸿沟”的能力。

1.2 技术挑战：误差累积与目标遗忘

长时序任务的控制难点主要体现在两个方面：

误差累积 (Error Accumulation)：机器人的每一个动作都伴随着微小的执行误差。在长达数十甚至上百步的任务序列中，这些微小误差会像滚雪球一样被放大，最终导致机器人状态与预期轨迹产生巨大偏离，任务失败。
目标遗忘 (Goal Forgetting)：传统的策略网络在进行决策时，主要依据是近期的状态信息。随着任务的推进，初始的目标图像信息在网络中的权重可能逐渐衰减，导致机器人“忘记”了最终目标，仅在局部空间内执行看似合理但与全局目标无关的动作。这就像一个没有地图的旅行者，虽然每一步都走得很稳，但早已偏离了正确的方向。

🎯 二、Act2Goal架构解析：想象与执行的二重奏

为了克服上述挑战，Act2Goal设计了一套创新的双模块协同框架。该框架将复杂的长程控制任务解耦为两个相对独立的子问题：“路径应该是什么样的？”以及“如何精确地走完这条路？”。前者由世界模型负责“想象”，后者由动作策略负责“执行”。

2.1 总体框架：规划先于行动

Act2Goal的控制流程清晰而高效，其核心思想是用生成式的视觉规划指导判别式的动作生成。

上图展示了其工作流：

输入整合：系统同时接收当前观测 (Current Observation) 和目标图像 (Goal Image)。
视觉规划：目标条件世界模型 (Goal-Conditioned World Model) 作为“想象引擎”，基于当前状态和最终目标，生成一系列中间状态的预测图像，构成一条通往目标的视觉轨迹 (Visual Trajectory)。这些图像如同电影分镜，描绘了任务完成的合理过程。
动作生成：动作策略 (Action Policy) 作为“执行引擎”，将当前观测和世界模型生成的视觉里程碑作为联合输入，输出机器人需要执行的具体动作 (Robot Actions)。
闭环交互：机器人在环境中执行动作，产生新的观测状态，系统进入下一轮“规划-执行”循环，直至当前状态与目标图像匹配。

2.2 “想象引擎”：目标条件世界模型

Act2Goal的核心突破在于引入了一个强大的目标条件世界模型。与传统的世界模型不同，它不仅能预测“下一步会发生什么”，还能在给定最终目标的前提下，反向推演出一条“如何才能到达那里”的合理路径。

这个模型的功能可以类比为一位经验丰富的厨师看菜谱。新手厨师只能严格按照步骤操作，而经验丰富的大厨看到一张成品菜肴的图片，就能在脑海中构想出从备料、处理到烹饪、摆盘的完整流程。Act2Goal的世界模型扮演的正是这位大厨的角色。

它通过生成一系列中间视觉状态，将一个宏大、遥远的目标分解为一系列小而可达的子目标。这极大地降低了策略网络的学习难度。策略网络不再需要一步到位地思考如何完成整个任务，而只需聚焦于如何从当前状态到达下一个视觉里程碑即可。

2.3 “执行引擎”：动作策略网络

如果说世界模型负责“出谋划策”，那么动作策略网络则负责“冲锋陷阵”。它是一个高度精密的控制器，其职责是将抽象的视觉规划转化为机器人可以理解和执行的物理动作。

为了确保动作的平滑与连贯，Act2Goal的动作策略采用了先进的流匹配 (Flow Matching) 技术。该技术能够生成平滑的动作轨迹，有效避免了传统方法中常见的动作抖动或突变，这对于需要精细物理交互的任务至关重要。

更重要的是，动作策略并非孤立决策。它会持续参考世界模型提供的视觉轨迹，确保当前执行的动作不仅在局部最优，同时也服务于全局的最终目标，从而实现了规划与控制的紧密耦合。

🎯 三、核心机制：多尺度时间哈希 (MSTH) 的精妙设计

仅仅将任务分解为规划和执行两个阶段还不够。长时序任务的复杂性在于，它同时包含了需要高频、精细控制的阶段（如抓取物体）和需要低频、宏观引导的阶段（如在房间内移动）。如果用单一的时间粒度进行规划，要么会因规划步长太长而忽略细节，要么会因规划步长太短而陷入局部，无法顾及全局。

Act2Goal通过引入多尺度时间哈希 (Multi-Scale Temporal Hashing, MSTH) 机制，巧妙地解决了这一矛盾。该机制在同一个模型内部，实现了对不同时间尺度的统一建模。

3.1 控制的二元性：近端精度与远端一致

机器人长程控制面临一对经典矛盾：

近端精细控制 (Near-term Fine-grained Control)：在执行抓取、对准、插入等需要物理接触的操作时，机器人需要高频率、高精度的动作指令来应对瞬息万变的环境反馈。
远端目标一致性 (Long-term Goal Consistency)：在执行跨度较长的任务时，机器人需要一个宏观的“指南针”来确保其所有局部操作都服务于最终目标，防止路径偏离。

MSTH的核心思想就是不再试图用一种尺度去解决所有问题，而是同时提供两种尺度的规划信息，让策略网络“远近兼顾”。

3.2 MSTH的工作原理：双轨并行规划

MSTH将未来的时间轴非均匀地划分为两个尺度，并为每个尺度生成相应的视觉预测和动作指导。

时间尺度	节点分布	核心功能	应用场景示例
近程尺度 (Near-term Scale)	密集、均匀分布	提供高频、精细的即时动作指导，确保局部操作的平滑与精确。	物体抓取时的手指闭合控制、插入操作时的微小姿态调整、在白板上书写时的笔画连接。
远程尺度 (Long-term Scale)	稀疏、对数分布	提供关键的宏观路径节点（里程碑），作为全局导航，防止长期目标漂移。	从房间一端移动到另一端、整理书桌时先清理桌面再摆放书籍的顺序规划。

这种设计非常符合人类的认知习惯。当我们规划一次长途旅行时，我们会详细计划接下来几小时的行程（密集近程），同时只为几天后的行程设定一些关键的目的地（稀疏远程）。

通过这种双轨并行的规划机制，Act2Goal的动作策略可以同时获取两种信息：

根据近程规划，精确控制当前一两秒内的电机输出。
参考远程规划，确保当前的精细操作符合通往下一个、乃至最终里程碑的正确方向。

这两种尺度的信息通过注意力机制在模型内部动态融合，使得机器人既能像绣花一样完成精细活，又能像下棋一样胸有全局。

🎯 四、学习与进化：从离线训练到在线自适应

一个强大的模型架构需要同样强大的训练策略来激发其潜力。Act2Goal采用了一套“分阶段训练 + 在线自适应”的学习范式，确保模型不仅能学到通用技能，还能在部署后持续进化。

4.1 离线训练：分阶段协同优化

初始模型的训练分为两个主要阶段，旨在确保规划的合理性与执行的可行性高度统一。

基础能力预训练：在第一阶段，世界模型和动作策略会分别进行训练，学习各自的基础能力。世界模型学习如何根据物理规律生成合理的视觉序列，而动作策略则学习如何模仿专家数据生成有效的动作。
端到端联合微调：在第二阶段，整个系统进行端到端 (End-to-End) 的联合优化。这一步至关重要，它能确保世界模型“想象”出的路径是动作策略能够稳定跟随的。如果规划出的路径过于理想化，超出了机器人的实际执行能力，那么整个系统依然无法工作。此阶段的目标就是拉齐“想象”与“现实”的差距。

4.2 在线自适应：部署后的快速进化

Act2Goal最令人印象深刻的能力之一，是其在部署后通过少量试错就能快速提升性能。这得益于其高效的在线自适应机制。

4.2.1 变废为宝：后见之明经验重放

在机器人执行任务时，失败是在所难免的。传统方法通常会丢弃这些失败的轨迹数据。Act2Goal则采用了后见之明经验重放 (Hindsight Experience Replay, HER) 的思想，对这些数据进行“目标重标记”。

具体来说，如果机器人的目标是把积木放到A点，但最终错误地放到了B点。系统不会将这次尝试标记为“失败”，而是将其重新解读为一次“成功地将积木放到B点”的经验。通过这种方式，每一次尝试，无论结果如何，都能转化为有价值的正面训练样本，极大地提升了数据利用效率。

4.2.2 轻量化学习：参数高效微调

在真实环境中进行模型更新，对计算资源和时间效率的要求极高。Act2Goal借助了低秩适应 (Low-Rank Adaptation, LoRA) 等参数高效微调技术。

LoRA允许在不改动庞大预训练模型主体参数的情况下，仅通过训练和更新少量（通常不到1%）的附加参数，就能使模型快速适应新任务或新环境。这带来了几个显著优势：

低计算成本：更新所需的计算资源远小于完整模型的微调。
快更新速度：整个“数据收集-模型更新”的循环可以在短短5分钟内完成。
无灾难性遗忘：保留了预训练模型学到的通用知识，避免了在新任务上训练导致旧能力退化的问题。

正是这种高效的在线学习闭环，使得Act2Goal展现出“越用越聪明”的特性，让机器人从一个静态的工具，转变为一个能够持续进化的智能体。

🎯 五、实证效果：仿真与真实世界的双重检验

一个理论上再完美的模型，最终也必须通过严格的实验来验证其价值。Act2Goal的研究团队在仿真环境和真实机器人平台上进行了一系列详尽的测试，结果充分证明了其在长任务成功率和域外泛化能力上的卓越表现。

5.1 仿真环境测试：应对复杂与未知

研究团队选用了业界公认的机器人操作基准测试平台 Robotwin 2.0。该平台包含了多种具有挑战性的任务，并分为“简单”和“困难”两种模式。困难模式下会引入训练时未见过的新物体、新布局和新干扰，专门用于评估模型的泛化能力。

任务 (困难模式)	Act2Goal 成功率	其他SOTA方法平均成功率	性能优势
移动罐子 (Move Can)	13%	~0%	从0到1的突破
抓取双瓶 (Pick Up Double Bottles)	43%	< 6%	数量级领先
放置空杯 (Place Empty Cup)	25%	~5%	显著优势
摆放鞋子 (Arrange Shoes)	31%	< 10%	大幅超越

从上表可以看出，在面对充满未知因素的困难任务时，传统的端到端策略方法几乎完全失效，成功率接近于零。而Act2Goal凭借其模型化的规划能力，依然能保持可观的成功率，实现了从0到1的突破。这清晰地表明，当任务复杂性超出简单模仿学习的范畴时，基于规划的控制范式展现出压倒性的优势。

5.2 真实机器人测试：高精度与强泛化

仿真环境的成功固然重要，但真实世界的物理交互充满了噪声和不确定性，是检验机器人系统鲁棒性的最终试金石。研究团队在 AgiBot Genie-01 机器人平台上部署了Act2Goal，并设计了三项极具挑战性的真实世界任务。

5.2.1 白板写字：对精细控制的极致考验

这项任务要求机器人手持马克笔，在白板上书写英文单词。这不仅考验系统的视觉理解能力，更对长序列动作的平滑性、精确性和一致性提出了极高要求。

域内测试 (In-domain)：书写训练数据中出现过的单词，成功率高达 93%。
域外测试 (Out-of-domain)：书写由训练时未见过的字母组合而成的新单词，成功率依然维持在 90%。

90%的域外成功率尤为惊人。它证明了Act2Goal并非死记硬背单词的笔画顺序，而是真正学会了如何根据目标字母的形态来规划和生成书写动作，展现出强大的组合泛化能力。

5.2.2 甜点摆盘与物体插入：复杂交互与空间推理

甜点摆盘：要求机器人根据一张参考图片，将多种不同形状的甜点摆放到盘子的指定位置。这项任务考验了系统的多物体识别、空间关系理解和精细操作能力。在域外测试中，面对全新的甜点和布局，成功率仍能达到 48%。
物体插入：这是工业装配中的典型任务，要求机器人将物体精确插入对应的孔洞中，对力控制和定位精度要求极高。在处理全新物体时，Act2Goal的成功率维持在 30%。

5.3 在线学习验证：肉眼可见的快速进步

为了直观展示在线自适应能力，研究团队进行了一项特别实验：要求机器人在白板上画出训练时从未见过的复杂图案。

初始表现：在没有任何针对性学习的情况下，机器人画出的图案模糊不清，与目标相去甚远，初始成功率仅为 30%。
在线学习后：经过短短 15分钟 的自主尝试和在线模型更新，机器人的绘画质量得到显著提升，能够画出清晰、准确的图案，最终成功率飙升至 90%。

这种“肉眼可见”的快速进步，雄辩地证明了Act2Goal在线学习机制的高效性与实用性。它让机器人摆脱了“一次训练定终身”的僵化模式，赋予了其在真实工作场景中持续成长的能力。

🎯 六、应用前景与边界条件

Act2Goal所展示的技术突破，为智能机器人的广泛应用开启了新的想象空间。它所代表的“以目标状态为导向”的控制范式，天然契合了大量现实世界的需求。

6.1 广阔的应用前景

家庭服务：用户只需拍摄一张理想中整洁房间的照片，服务机器人便能自动完成收纳、整理、清洁等一系列复杂家务，人机交互变得前所未有的直观和简单。
柔性制造：在工业生产线上，当需要更换生产品种时，工程师不再需要繁琐地重编程机器人，只需提供新产品的装配完成图，机器人就能自主规划新的装配流程，极大提升生产线的柔性和换产效率。
医疗康复与教育：康复机器人可以根据标准康复姿态的图片，为患者提供个性化的、自适应的训练指导。教学机器人则可以根据范例作品，引导学生一步步完成绘画或手工制作。
其他领域：在农业采摘、零售商品陈列、物流仓储分拣等众多场景，这种“看图干活”的能力都将大幅简化任务部署流程，降低对专业技术人员的依赖。

6.2 务实的边界条件

尽管前景广阔，我们仍需清醒地认识到当前技术的边界与挑战。

数据与算力依赖：Act2Goal的强大能力建立在高质量的训练数据和大规模的计算资源之上。其离线训练阶段需要16张A800级别的GPU运行数天，这对于许多中小型应用场景而言仍是不小的门槛。
接触动力学的挑战：对于需要精细力控制或与环境发生强力交互的任务（如拧螺丝、打磨），当前模型的可靠性仍有待提升。物理世界的复杂接触动力学建模依然是机器人领域的一大难题。
安全性与可解释性：当机器人被赋予更高的自主性时，如何确保其行为的安全性、可预测性和可解释性变得至关重要。尤其是在人机协作的场景下，建立完善的安全保障机制是技术落地前必须解决的工程问题。

结论

Act2Goal的出现，并非仅仅是一次模型性能的提升，它更代表着机器人控制理念的一次重要演进。它成功地将基于模型的规划能力与无模型策略的灵活性相结合，为解决长期困扰机器人领域的长时序任务控制问题，提供了一条清晰且被验证有效的技术路径。

通过引入“目标条件世界模型”进行视觉预演，再利用“多尺度时间哈希”机制实现远近兼顾的规划，最后通过高效的在线自适应能力不断进化，Act2Goal构建了一个完整的“感知-思考-规划-执行-学习”闭环。它让机器人不再是一个只能被动执行指令的工具，而更像一个能够“以终为始”进行主动思考和决策的智能伙伴。

这项工作不仅为学术研究开辟了新的方向，也为智能机器人在工业、商业和家庭等领域的实际应用带来了巨大的商业价值。未来，随着模型效率的进一步提升和硬件成本的持续下降，我们有理由相信，“看图干活”的机器人将不再是科幻设想，而是会真正走进我们的生产和生活。

📢💻 【省心锐评】

Act2Goal的核心是“规划先行”，用世界模型生成的可视化路径，取代了传统端到端策略的“黑箱”决策。这让长程任务控制从“凭感觉”走向了“按图纸”，是机器人自主性的关键一步。