【摘要】面对AI在物理世界中的“行动鸿沟”,智元机器人以速度驱动“数据飞轮”,通过“一脑多形”的务实策略适配多元场景,并构建了从全栈自研硬件到开源操作系统“灵渠OS”及UGC创作平台“灵创”的完整生态,为具身智能的商业化落地与智能涌现提供了可行的中国方案。

引言

我们正处在一个奇特的时代。

手机里的AI,聪明得让人不安。它能模仿莎AKESPEARE写诗,也能瞬间剖析复杂的财务报表。在那个由0和1构成的、零摩擦的数字世界里,AI仿佛无所不能,通用人工智能(AGI)的曙光似乎就在眼前。

但你若让这个“超级大脑”去做一件最简单的事,比如拧开一瓶矿泉水,或者把散落的乐高积木搭起来,它便束手无策。这就像一个能心算微积分的天才,却不会系自己的鞋带。

这个现象,早在上世纪80年代就被机器人学家汉斯·莫拉维克精准地描述过,并命名为“莫拉维克悖论”。让计算机在国际象棋上战胜人类冠军相对容易,但让它像一岁孩童一样行走和感知世界,却难如登天。悖论揭示了一个被长期忽视的真相,我们人类习以为常的“手感”、“分寸感”,这些被中科院吕本富教授称为“默会知识”的东西,才是智能与物理世界交互的核心。

如果说过去几年的AI浪潮,主要是在“信息”层面掀起波澜,那么现在,我们正站在一个新时代的门槛上,一个属于“行动”的时代。具身智能(Embodied AI),正是这场革命的核心议题。它的终极目标,就是让AI从屏幕后面走出来,真正地去感知、去交互、去“干活”。

在这场方兴未艾的“行动革命”中,一家名为智元机器人(AgileX Robotics)的公司,以其独特的系统性打法和惊人的发展速度,吸引了整个科技界的目光。他们正试图用一套组合拳,正面挑战并跨越“莫拉维克鸿沟”。本文将深入剖析智元机器人是如何通过其多维度的战略布局,推动这场深刻变革的。

为了近距离观察这场革命的真实进展,一群见证了中国互联网三十年风雨的“IT老友会”老兵,于2025年8月21日探访了位于上海的智元机器人总部。这次探访恰逢其第一届合作伙伴大会,为我们提供了一个绝佳的窗口,得以一窥这个新兴技术生态的内核与未来。

🚀 一、现实世界的“复仇”与速度法则

当AI试图进入物理世界,它遇到的第一个敌人,不是算力瓶颈,而是现实世界本身。

1.1 物理世界的“摩擦力”

在数字世界里,复制一个文件,瞬间即可完成,完美无瑕。但在物理世界,让机器人拿起一个杯子,却是一个极其复杂的任务。它需要实时考虑杯子的材质、重量、表面摩擦力、光线变化,甚至桌面的轻微晃动。现实世界充满了不确定性与无处不在的“摩擦力”

在智元的研讨会上,与会专家对此深有感触。资深媒体人秦朔直言,想要穷尽物理世界的所有场景,是“极为艰难”的。著名学者吴伯凡则提出了**“反摩尔定律”(Eroom's Law)的概念。我们熟知的摩尔定律是,芯片性能每18个月翻一倍,价格减半。但在物理世界,规律可能恰好相反,越接近目标,付出的代价可能呈指数级增长。吴伯凡警告说,“你以为都快近在眼前的那一刻一步之遥的时候,可能花的成本是最多的,甚至功亏一篑。”

这好比攀登珠峰,最后的几百米,才是最艰难、最危险的路程。面对现实世界的这种“复仇”,如果还固守在实验室里慢悠悠地搞理论研究,等待一个完美的通用大模型从天而降,那无异于坐以待毙。

1.2 “快”是唯一的生存法则

所以,智元的策略是什么?一个字,

快到什么程度?智元董事长邓泰华透露,“我们是2023年年初创立的公司,但是今年(2025年)出货量大概有5000多台”,他又补充道,“其实去年四季度智元机器人才刚刚开始量产”。两年半,从零到5000台量产,在重资产、长周期的机器人行业,这个速度快得惊人。智元机器人CMO邱恒更表示,他们是“全球第一个实现一千台人形机器人量产的公司”,并且已经在部分场景开始盈利。最近,智元机器人更成为湖北人形机器人创新中心采购项目的第一中标候选人,投标报价超过三千万元。

这种速度,不能简单视为一种“抢占市场”的商业行动。它更应该被理解为具身智能时代的“生存法则”

1.3 驱动“数据飞轮”

具身智能的学习方式与大语言模型截然不同。大语言模型可以抓取海量的互联网文本进行学习,但具身智能不行。它必须在真实的物理世界里摸爬滚打,在一次次试错中积累经验。如果说数据是AI进化的燃料,那么机器人本体就是采集这些燃料的关键工具。

逻辑很简单,部署的机器人越多,覆盖的场景越广,积累的有效数据就越多,其背后的模型才会越聪明

这就是“数据飞轮”效应。

智元的法则,就是通过极致的速度,让这个飞轮率先、并高速地转起来。秦朔对此的评价非常到位,当一些同行还停留在“小实验室”阶段时,智元已经构建了一个**“超级实验工厂”

1.4 速度背后的系统能力

那么,智元凭什么能这么快?

浙大方兴东教授一语道破,“这可能是智元的团队基因。”在研讨会上,邱恒展示了一张图,在人形机器人产业链的约40项关键技术中,智元自研或合作定义的超过30项,涵盖了从核心零部件(关节、灵巧手)到大模型算法的全栈技术。只有极少数部件,是直接从市场采购的。

邱恒解释说,“因为整个这个产业还没有那么长的发展时间,很多技术原本并不成熟,仅依赖市面上的东西造产品,很难商用化。”

这背后是一种“自己的命运必须掌握在自己手里”的思维方式。正是这种系统性的作战能力,让智元如同一支装备精良的正规军,在物理世界的“丛林”中,硬生生杀出一条路来。在别人还在纠结如何造“枪”的时候,他们已经在前线“开火”了。

🧩 二、“一脑多形”的务实主义

在探讨具身智能时,一个绕不开的问题是,我们到底在谈论什么形态的物种?人形是否是唯一的、必须的形态?

2.1 形态追随空间

吴伯凡给出了一个深刻的定义,“你的身体长什么样,在很大程度上,它反映的不是你的身体,是反映你的空间。”

这句话听起来有些哲学,但其实很好理解。蝙蝠的形态,是为了适应在黑暗中用超声波定位;鱼的形态,是为了适应在水中游弋。身体的形态,本质上是物种与特定空间交互后,演化出的最优解,它决定了物种在该空间内的自由度。

因此,虽然智元的主力产品是“人形机器人”,但他们并未在现阶段强行要求所有机器人都长得像人。在当前的技术和成本条件下,用单一的“人形”去适配所有场景,既不经济,也不高效。

2.2 “1+3”战略下的机器人家族

智元的思路非常清晰务实,那就是**“一脑多形”,一个超级大脑,可以搭载到不同的身体上。在合作伙伴大会上,智元联合创始人兼CTO彭志辉(稚晖君)详细介绍了他们的“1+3”战略,“1”是机器人本体,“3”是三大核心智能(运动、交互、作业)。

基于这个统一的技术底座,智元变幻出了一个形态各异的“机器人家族”。稚晖君的总结非常精辟,“远征走出去,精灵干起来,灵犀动人心”。这个机器人家族的成员分工明确,各有所长。

产品

形态

主要场景

技术特点

远征A2

全尺寸人形

复杂环境、交互

40+自由度、全身控制

精灵G1

轮式双臂

工业、物流、作业

高效数据采集、柔性作业

灵犀X2

交互型小型

文娱、教育、情感

42自由度、流畅动作

X2-W

轮式作业型

家庭、低成本应用

低成本、作业智能

2.2.1 远征(Yuanzheng)系列,那个最像人的家伙

“远征”系列是我们传统印象中的全尺寸人形机器人,它的核心任务是探索技术的边界

在大会视频中,远征A2已经可以在草地、碎石、台阶等复杂地形上稳定行走。这背后是技术的巨大突破。稚晖君提到,他们正在从单纯控制下半身移动,转向“全身控制”。“基于Sim-to-Real(仿真到现实)的强化学习泛化自然步态上面,现在已经取得了很大的突破。”这意味着机器人不仅能走,还能跳舞,能完成复杂的全身协调动作,通过了控制精度的极致考验。

同时,远征也是下一代最重要的“交互终端”。就像鼠标定义了PC,触摸屏定义了手机,未来我们与机器人的交互,也应该像人与人之间一样自然。“我们需要赋予机器人一些性格,能够让它有足够的多样性,不同的机器人千人千面。”为此,远征A2支持全身定制,不仅可以更换外壳,还能定制性格和音色。他们甚至让A2代言百事可乐,现场专家开玩笑说,这是一个“永不翻车”的明星。

2.2.2 精灵(Jingling)系列,那个真正干活的家伙

如果说远征思考的是技术边界问题,那么精灵思考的就是生产力问题

“机器人到底能不能真正的替人去干活,我们精灵的产品就是为此而生。”稚晖君直言,“人形并不是一个万能的形态。”

在工厂流水线、物流分拣等需要长时间移动和精细操作的场景,双足人形机器人移动速度慢,能耗也高。所以,“精灵”被设计成一个移动吧台的形态,下面是高效的轮式底盘,上面是灵活的双臂。

精灵的核心价值在于“数据”。传统工业机器人只能执行预先编程的固定动作,但现代柔性制造需要机器人能随机应变。要让机器人学会“干活”,必须从真实数据中学习。因此,精灵首先是一个高效的数据采集平台。它配备了VR、动捕等遥操作设备,让人类可以远程操作它,从而采集海量真实的动作数据。这些数据,正是训练具身大模型的宝贵“燃料”。

目前,智元将作业智能划分为G1到G5五个等级(类似自动驾驶的L1到L5)。精灵在一些场景已经达到了可商业化落地的G2级别。即将发布的精灵G2,将具备高精度力控能力,能胜任插接电路板等更为精细的工作。

2.2.3 灵犀(Lingxi)系列,那个让人心动的“作品”

“灵犀”是智元最新的产品线,身高1.3米,像个孩子。但它绝非玩具。稚晖君称其为目前“运动能力最强,体验最流畅的一款产品”

灵犀X2的自由度(关节数量)高达42个,甚至超过了许多全尺寸机器人。它专为交互而生,跳舞动作极其流畅自然。它在网络上刷屏的视频,充分证明了机器人在提供“情绪价值”方面的巨大潜力。

2.2.4 X-Lab的惊喜,未来的形态

在发布会最后,稚晖君还放出了一个“One More Thing”——X2-W。这是智元机器人实验室X-Lab的新作品。它像是将灵犀的上半身安装在了一个轮式底盘上,W代表Wheel(轮子)和Work(工作)。它的目标是成为低成本作业智能的标杆,未来有望进入家庭,帮助我们处理家务。

“一脑多形”的策略,充分体现了智元的务实。他们没有陷入“100%复刻人形”的教条主义,而是根据场景需求,选择最优的“身体”形态。这使得他们能够快速切入不同市场,加速商业化落地。

🗺️ 三、操作系统暗战与“灵渠”之基

如果把具身智能比作一次“大航海”,那么机器人本体是船,而操作系统(OS)就是决定航向的罗盘和海图。

3.1 一个意外的决定

在智元成立之初,他们做了一个让外界颇感意外的决定,自研原生的机器人操作系统“灵渠OS”(Lingqu OS)

目前,全球机器人行业普遍使用的是ROS(Robot Operating System)。ROS起源于美国学术界,后来其商业主体被谷歌收购。既然已经有了现成的ROS,智元为何要费力不讨好地“重复发明轮子”?

这背后的故事,其分量远超技术本身。

3.2 战略自觉与“第二选择”

“我们的团队过去这么多年做操作系统,就很清楚这个商业逻辑。”邓泰华在研讨会上说。他判断,具身智能是一个大赛道,其市场空间可能达到“智能手机的数量乘以单车的价格”。在这个赛道上,中国拥有供应链、场景、数据等得天独厚的优势。

因此,智元的判断是,在这样一个关乎未来的战略性产业中,如果不掌握操作系统的“根”,就无异于将自己的命脉交到别人手中。

“一开始就要考虑好这个软件生态的根。”邓泰华说。构建一个“第二选择”,不是一种可有可无的选择,而是一种历史的必然。

3.3 为未来而生的“新物种”

除了战略布局的考量,自研OS也是技术发展的必然要求。传统的ROS并非为人形机器人和具身智能时代设计,它在实时性、多智能体协同、云边端融合等方面存在先天不足。

而“灵渠OS”是一个为未来而生的“新物种”。智元产品总监胡旷介绍,它是**“一个原生的支持具身智能的操作系统”。它的设计目标非常明确。

方向

目标

解决问题

南向

连接硬件

更好地适配人形机器人这种高自由度、高实时性要求的本体

北向

连接应用

更好地支持具身智能大模型和各种上层智能应用

它要解决的,正是智能化、群体协同、云边端融合这些全新的挑战。

3.4 开源的“阳谋”

做一个操作系统不易,做一个成功的生态更是难如登天。智元为“灵渠OS”规划了一条务实且充满智慧的开源路径。

  1. 从增量市场切入
    “我们从具身智能开始做,不去碰工业机器人,不去碰原来老的存量。”邓泰华表示。他们选择避开ROS在传统工业机械臂领域的存量优势,专注于全新的、快速增长的人形机器人市场。

  2. 兼容并蓄
    智元采用了“双栈”策略。“我们也兼容ROS。ROS已有的生态、海外的生态,我们也可以无缝地接进来,我并不排斥。”这种开放的态度,有助于吸引更多开发者,实现向原生生态的平滑过渡。

  3. 产业共有
    智元计划在2025年底将“灵渠OS”正式开源,并将代码捐赠给开源基金会。他们希望通过自身产品的规模化应用(明年数万台设备全部搭载灵渠OS)来率先带动生态的发展。

“灵渠”这个名字本身就寓意深远。它是秦始皇时期修建的伟大水利工程,沟通了长江和珠江水系,为中华版图的统一奠定了根基。智元的“灵渠OS”,同样承载着沟通硬件与应用、构建自主可控生态的宏大愿景。

🎨 四、从“编程”到“创作”的生态激活

有了船,有了罗盘,要真正征服星辰大海,还需要无数充满创造力的水手和探险家。这就是生态。

4.1 伪生态与“半成品”思维

“生态”这个词,在中国科技界几乎被说滥了。我们见过太多失败的例子。吴伯凡老师一针见血地指出,“那种‘我来坐庄,大家来陪我玩儿’的思维,是伪生态。”

真正的生态,需要一种“半成品”思维。就像苹果提供了iPhone和App Store这个基础平台,然后让全球的开发者去共同创造和定义应用的未来。

那么,在具身智能时代,如何激活一个真正的生态?智元在发布会上展示的全新“灵创平台”,可能预示着一个根本性的思路转变,从“编程”到“创作”。

4.2 跨越开发的“死亡之谷”

目前,机器人应用开发的最大障碍是门槛太高。稚晖君提到了一个痛点,你在网上看到很多机器人跳舞的视频,动作灵活生动,但翻来覆去就那么几段。因为让机器人完成一个复杂的动作,需要强化学习、模仿学习等非常专业的知识,普通人根本无法企及,只能被动等待厂商更新。这种高门槛,严重阻碍了应用的创新。

“灵创平台”的目标,就是把机器人开发的权力,从少数专业人士手中解放出来,交到广大普通用户手中

4.3 像剪视频一样“玩”机器人

在现场演示中,人们看到,“灵创平台”(支持电脑和手机)的界面就像一个视频编辑软件。用户可以在动作库里挑选动作,在时间轴上进行剪辑,甚至可以精细调整每一个关节的角度。

更进一步,用户可以上传一段音频,比如一首歌,平台内置的AI模型就能根据音乐的情绪和节奏,自动生成匹配的肢体动作。“所有的动作都是生成式的”,稚晖君强调。用户还可以在歌词的关键位置,插入特定的动作指令(如“指向前方”),并选择动作的风格。

整个过程,不需要编写一行代码。这极大地降低了机器人内容创作的门槛。

4.4 改变游戏规则的瞬间

稚晖君还在现场进行了另一个足以改变游戏规则的演示。他让同事用手机随便录了一段他自己的动作视频。然后,他将这段普通的2D视频上传到平台。平台通过AI模型,从2D视频中提取出3D的动作数据,再通过Retargeting(动作重定向)技术,将人的动作完美映射到机器人身上

很快,台上的机器人灵犀X2,就分毫不差地复现了稚晖君刚刚做的动作。

“它不需要动捕的设备,不需要VR设备,所有设备都不需要,只需要有一台手机。”稚晖君说。

每一个伟大的技术时代,都需要一个“普惠化”的过程。传统的动作采集需要昂贵的专业设备和复杂的系统。而智元的技术,让任何一个普通人,都可以通过一部手机,来“教”机器人学习新的动作。

4.5 开启具身智能的UGC时代

“灵创平台”的初心,是开启一个人形机器人的UGC(用户生成内容)时代

稚晖君将其与快手的起源类比,“快手的前身其实是一款软件,叫做快手GIF,最终演变为现在一个短视频平台的巨头。那我觉得说不定未来我们自己的灵创平台也会成为一个(伟大)产品的雏形。”

的确,当用户不仅仅是使用者,而是成为创造者时,生态才真正拥有了生命力。无数用户可以根据自己的奇思妙想,快速生成机器人的动作和行为,并在社区中分享、迭代,这将引爆一个前所未有的应用创新浪潮。

⏳ 五、长跑者的耐心与未来展望

尽管智元展现了惊人的速度和宏大的愿景,但与会的IT老兵们,在兴奋之余,也保持了必要的冷静。一个绕不开的问题是,具身智能的“ChatGPT时刻”到来了吗?

5.1 审慎与敬畏

大家的共识是,还没有。从“信息智能”到“行动智能”的跨越,注定是一场漫长的征途。

苇草智酷的段永朝老师提醒,要警惕“乐观情绪”,对爆发点的精确预测往往反映了内心的焦躁。财经作家陆新之也提到了几十年前科幻小说《小灵通漫游未来》的例子,提醒我们技术发展的不可预测性。我们这一代人已经被“爽约”过一次,希望下一代人不要再失望。

这种审慎,源于对产业规律的敬畏。构建一个繁荣的生态,需要“快变量”和“慢变量”的结合。“灵创平台”是快变量,能迅速激发创造力。但要构建一个真正有护城河的生态,还需要在操作系统、开发者社区等慢变量上持续下功夫。

5.2 “奇点”的正确姿势

回到那个终极问题,具身智能的“奇点”何时到来?

吕本富教授认为,关键在于“涌现能力什么时候呈现”。他正在研究如何通过数学模型来预测这个“相变”点。行行AI创始人李明顺则认为,引爆点需要一个“超级应用”,“一定是要有一个超级应用,所有人都能接受、能够用到”。

或许,具身智能的“DeepSeek时刻”不会像大语言模型那样,以一种石破天惊的方式突然降临。它更可能是一个渐进的过程,在工业、物流、家庭、文娱等不同场景中,逐次爆发,最终汇聚成改变时代的洪流。

智元的策略,正是通过快速的规模化部署,疯狂加速数据飞轮的运转,以期早日达到那个“一句顶一万句”(一个机器人学会,所有机器人都学会)的智能涌现临界点。这是在巨大的不确定性中,寻找确定性的最现实路径。

结论

前路依然漫长,挑战依然巨大。物理世界的“摩擦力”不会轻易消失,生态的构建需要时间的沉淀和耐心的浇灌。

智元机器人通过全栈自研的硬实力、数据飞轮的快策略、一脑多形的巧布局、开源OS的深远谋划以及UGC平台的生态激活,正在以一种极具中国特色的速度和方案,实质性地填平“莫拉维克鸿沟”。它不仅在打造产品,更是在构建一个可复制、可落地的具身智能产业范本。

正所谓“问渠哪得清如许,为有源头活水来。”如“灵渠”之寓意,智元以及更多像它一样的中国机器人企业,正在为全球具身智能产业注入源源不断的“活水”。当AI真正学会“干活”,一个属于“行动智能”的新纪元,或许已不再遥远。

📢💻 【省心锐评】

智元打的不是单点技术战,而是生态闪电战。用极致的速度换取数据规模,用开放的平台撬动开发者杠杆,这是将互联网思维成功嫁接到硬核物理世界的经典案例,其核心是抢占定义下一代人机交互范式的先机。