【摘要】Sora引爆视觉想象力之后,OpenAI的真正野心浮出水面。通过Apps in ChatGPT与Agent Kit,它正围绕对话交互构建一个集算力、模型、生态于一体的AI“超级系统”,意图将ChatGPT从一个聊天工具,彻底改造为下一代互联网的终极入口。

引言

Sora的视频生成能力确实震撼了世界,几乎让所有人都在讨论AI将如何颠覆内容创作。它的出现,像一颗投入平静湖面的巨石,激起了千层浪花。

但是,如果只把目光聚焦在Sora上,可能会错过OpenAI更深远的布局。Sora更像是一次华丽的技术肌肉秀,而真正决定其未来版图的,是那些在DevDay上悄然公布,却更具底层颠覆性的产品——Apps in ChatGPTAgent Kit

这两件“武器”的亮相,清晰地表明了OpenAI的战略意图。它不再满足于只做一个强大的聊天机器人,而是要围绕ChatGPT的对话式交互,构建一个AI时代的“Windows”系统。一个能够连接万物、调度万物、最终成为所有信息和服务“终极入口”的超级系统。

这篇文章将深入剖析OpenAI这盘大棋。我们将拆解其“超级系统”的三层战略,亲身体验并剖析Apps in ChatGPT的现状与局限,探讨Agent Kit如何开启AI交互的新范式,并重新审视AI助理在未来的角色定位。最后,我们还会将目光投向国内外,看看这场围绕AI入口的战争,将如何演变。

一、 🏗️ OpenAI的阳谋:三位一体的“超级系统”

OpenAI的CEO山姆·奥特曼曾坦言,ChatGPT的成功有两大“惊喜”。一是用户增长和黏性远超预期;二是科技巨头们未能及时跟进,给了OpenAI宝贵的窗口期。

利用这个窗口期,OpenAI没有急于四处出击,而是稳步推进一个宏大的三层战略。这个战略的全景,就是要构建一个由算力、模型、生态三位一体、相互依存的AI基础设施。其最终目标,是打造一个奥特曼口中“真正强大的AI超级系统”。

1.1 战略基石:近乎疯狂的算力投资

AI的竞争,归根结底是算力的竞争。没有足够强大的计算能力,再先进的算法也只是纸上谈兵。OpenAI对此有着清醒甚至残酷的认知。

有估算认为,OpenAI在算力采购领域的投资总额已接近1万亿美元。这个数字听起来匪夷所思,但它恰恰反映了OpenAI的决心。这笔钱,砸向的是AI时代的“石油”——高端芯片、数据中心和配套基础设施。

通过与英伟达、甲骨文等巨头的深度绑定,OpenAI正在做的,是提前锁定未来数年内最核心的生产资料。这不仅是为了支撑现有大模型的运行和推理,更是为了下一代更强大、更通用模型的训练储备弹药。

层级/方向

具体举措与内容

目标与意义

风险与挑战

算力基础设施

近万亿美元级投资,采购芯片、建设数据中心,与英伟达、甲骨文等深度绑定

支撑大模型进化与大规模应用,构建底层护城河

巨大的资本压力、供应链安全与高昂的能耗成本

这种近乎“豪赌”的投入,意图非常明显。在AI军备竞赛的牌桌上,OpenAI要做的不仅是玩家,更是那个能控制发牌节奏的人。当其他玩家还在为GPU发愁时,OpenAI已经拥有了相对充裕的算力资源,这为其在模型研发和应用部署上赢得了宝贵的时间和战略主动权。

1.2 技术核心:持续领先的大模型家族

如果说算力是地基,那么大模型就是这座超级系统的主体建筑。OpenAI的策略是,在核心技术层面始终保持领先优势。

从最初的GPT系列,到引爆多模态革命的DALL-E和Sora,OpenAI打造了一个性能强悍的大模型家族。它不仅要能聊,还要能看、能听、能画、能生成视频。这种多模态能力是构建通用AI助理的基础。一个只能处理文本的助理,在现实世界中的能力是极其有限的。

层级/方向

具体举措与内容

目标与意义

风险与挑战

大模型家族

持续优化GPT、Sora等多模态模型,保持文本、图像、视频等领域领先

提供强大、可靠的AI核心能力,支撑多场景应用

技术闭环的难度、生态验证的速度、模型安全与伦理问题

持续领先的模型,本身就是最强大的引力场。它能吸引全球最多的用户和开发者,形成一个庞大的数据飞轮。用户的每一次交互、开发者的每一次调用,都在为模型的优化提供养料。这种正向循环,使得OpenAI的模型能力能够以更快的速度迭代,进一步拉开与追赶者的差距。

1.3 生态闭环:应用与Agent的星辰大海

拥有了强大的算力和领先的模型,OpenAI的第三步,也是最关键的一步,是构建一个繁荣的应用生态。这正是Apps in ChatGPT和Agent Kit所要扮演的角色。

这套打法,科技行业并不陌生。微软用Windows捆绑了PC桌面,苹果用iOS和App Store定义了移动互联网。它们成功的关键,都不在于自己开发了所有应用,而在于它们建立了一个平台,制定了规则,并吸引了千百万开发者为其生态添砖加瓦

OpenAI正在做的,是同样的事情,只是这一次的平台,不再是图形界面,而是对话界面

层级/方向

具体举措与内容

目标与意义

风险与挑战

应用与生态

以ChatGPT为入口,推出Apps in ChatGPT、Agent Kit、Apps SDK等工具

打造AI时代的“超级入口”与生态闭环,重塑应用分发

生态成熟度、与合作伙伴的利益分配、商业变现机制的建立

通过Apps in ChatGPT,传统的App可以被“嵌入”到对话流中。通过Agent Kit,开发者可以低门槛地创建能够自主执行任务的AI智能体。通过统一的账号和权限体系,ChatGPT将成为连接用户与所有服务的枢纽。

这三层战略并非孤立推进,它们咬合在一起,形成了一个强大的正向飞轮。

这个飞轮的逻辑很清晰。

  1. 强大的算力支撑更优的模型研发。

  2. 更优的模型吸引海量用户和开发者,催生繁荣的生态

  3. 繁荣的生态带来巨大的商业价值和数据回流,为算力建设提供资金和方向,同时海量应用需求也反向驱动模型能力的提升。

通过这个闭环,OpenAI正悄然从一个“AI技术研发商”,向一个“AI生态运营商”转型。它要做的,不是一个更聪明的搜索引擎,也不是一个功能更全的超级App,而是一个全新的、基于对话的操作系统

二、 📱 从调用到委派:Apps与Agent Kit的现在与未来

理解了OpenAI的宏大战略,我们再来聚焦到具体的实现路径上。Apps in ChatGPT和Agent Kit,就是这盘大棋中,已经落下的两颗关键棋子。它们分别代表了AI应用的“现在”和“未来”,揭示了从“App调用”到“Agent委派”的范式迁移。

2.1 Apps in ChatGPT:一次“不完美”却必要的尝试

在OpenAI发布的信息中,Booking.com、Canva、Coursera、Expedia、Figma、Spotify、Zillow是首批参与Apps in ChatGPT的合作伙伴。当我满怀期待地打开ChatGPT体验时,发现这个功能目前还处在一个相当初级的阶段。

2.1.1 亲身体验:在粗糙中寻找新意

我尝试复现发布会上的演示,让ChatGPT帮我找几家北京的、可以提供停车位的酒店。

整个流程大致如下。

  1. 发起指令。在对话框中输入需求。

  2. 授权连接。ChatGPT弹出授权界面,请求连接我的Booking.com账号。

  3. 调用App。点击确认后,ChatGPT显示正在调用App。

  4. 结果呈现。聊天界面内嵌了一个Booking.com的窗口,以卡片形式展示了几家酒店的推荐,每个卡片下面都有一个跳转到Booking原生站点的链接。

到这里,体验还算新颖。但是,当我试图进行更深度的交互,比如“给我介绍一下第一家酒店的详细信息”时,问题出现了。ChatGPT告诉我,目前不支持在App内查看酒店的详细信息,只能像以前一样,将信息整理成文字呈现在聊天界面中。

我又尝试了唤起Zillow和Spotify。前者打开速度很慢,体验不佳;后者则没有成功唤起,ChatGPT依然是自己整理了一份文字歌单给我。

功能/产品

现状与体验

存在问题/局限性

Booking.com

对话中授权后内嵌卡片展示酒店列表,支持跳转原生站点

深度交互不完备,详情查看、预订等复杂操作受限

Zillow

可被唤起,但加载较慢,影响用户体验

性能与稳定性需要大幅优化

Spotify

某些场景下未能成功内嵌,助理转为生成文字歌单

功能覆盖有限,App的唤起与集成逻辑尚不完善

合作伙伴生态

首批包含Booking、Canva、Coursera、Expedia等知名应用

生态处于起步阶段,应用类型丰富度与能力深度都有待提升

用户体验

需授权连接App,部分功能最终仍需跳转原生App完成

体验流畅度与合作伙伴利益之间需要做出平衡

很明显,Apps in ChatGPT目前的功能还非常粗糙和有限。它更像一个“安全可控的网页内嵌与账号转接”工具,扮演的是“启动器+初步结果展示器”的角色。对于复杂任务和深度交互,它还无法实现无缝的闭环。

2.1.2 “伙伴优先”:妥协背后的战略智慧

这种“不完美”的体验,是技术限制吗?不完全是。

奥特曼在一次采访中坦言,OpenAI本可以设计出更流畅的使用体验,但这会对合作伙伴极为不利。所以,他们有意选择将用户引导回原生App中

“用户明确指定要使用某类服务时,我们会主动推荐合作方。合作方接管交互界面并关联用户账户,确保用户能与原服务保持直接、透明的连接。这种方式或许在用户体验的流畅度上略有妥协,但从长远来看,更有利于整个行业的健康发展。”

这段话道出了OpenAI的“阳谋”。它深知,一个繁荣的生态,离不开合作伙伴的支持。如果ChatGPT变成一个流量黑洞,将所有用户和价值都截留在自己的体系内,那么没有哪个App愿意真心实意地接入。

所以,OpenAI主动让渡了一部分体验流畅度和商业利益,换取合作伙伴的信任。这种“伙伴优先”的策略,虽然在短期内让产品显得“不完美”,但却是在为构建一个可持续的、共赢的生态铺路。这是一种着眼于长远的战略智慧。

2.2 Agent Kit:通往智能体时代的“金桥”

如果说Apps in ChatGPT是当下的权宜之计和生态入口,那么Agent Kit则指向了真正的未来——一个由无数AI智能体(Agent)协作的时代。

Agent是什么?简单来说,它是一个能够自主理解用户意图、进行任务规划、调用多种工具、并最终完成任务的智能程序。它不是被动地等待调用,而是可以主动地、多步骤地去执行复杂指令。

Agent Kit的推出,其战略意义远大于Apps in ChatGPT。它是一个支持零/低代码搭建专业AI Agent的工具包,极大地降低了开发者创建智能体的门槛。

2.2.1 从App到Agent:一次交互范式的跃迁

Apps in ChatGPT无法实现的复杂交互,未来都将由Agent来完成。从App到Agent,绝非简单的功能升级,而是一次彻底的交互范式迁移

我们可以通过一个表格来清晰地对比两者的区别。

维度

网页式App(当前)

Agent(未来)

交互范式

人 → App (点选/跳转/浏览)

人 → 助理 → Agent (对话委派/多步执行)

可编排性

低,多为单点工具,应用间是孤岛

高,可跨工具、跨数据源、跨应用进行任务编排

个性化与记忆

依赖各自App的账号与Cookie

由AI助理统一进行记忆管理和权限治理

权限/安全

各App有各自的安全规则和权限体系

统一的权限模型与审计,更易于管理和追溯

复杂任务处理

受限于网页形态,难以处理多步、跨应用任务

多Agent协作,更擅长处理需要长期规划的复杂任务

开发门槛

需要Web嵌入、接口打通等传统开发技能

低代码/可视化搭建,让更多非专业开发者也能参与

这个表格清晰地揭示了,Agent将如何改变我们与数字世界的交互方式。

未来的场景可能是这样。你对AI助理说,“帮我规划一个五一去杭州的家庭旅行,三大一小,预算一万,要订好往返机票、西湖边的亲子酒店,并推荐几个适合孩子的景点,规划好每日行程。”

AI助理接收指令后,不会只弹出一个Booking的窗口。它会自主地委派任务给多个专门的Agent。

  • 机票Agent会去各大航司比价,找到最合适的航班。

  • 酒店Agent会根据你的要求(西湖边、亲子)筛选酒店,并结合评论数据给出建议。

  • 行程规划Agent会调用地图数据和景点信息,设计出合理的游玩路线。

  • 预算控制Agent会实时监控整个过程的花费,确保不超过一万元。

这些Agent协同工作,最后将一个完整的旅行方案呈现给你。你只需要在关键节点进行确认,甚至可以直接授权助理完成所有预订。

2.2.2 Agent Kit的深远影响

Agent Kit的推出,正是为了让上述场景成为现实。它为开发者和企业提供了前所未有的可编排性个性化服务能力

  • 对开发者而言,他们不再需要从零开始构建复杂的AI逻辑,而是可以利用Agent Kit,像搭积木一样,快速创建出能够解决特定领域问题的专业Agent。

  • 对企业而言,可以将自己的核心业务能力封装成Agent,接入到ChatGPT这个巨大的流量入口中,以一种更智能、更主动的方式服务用户。

  • 对整个生态而言,Agent Kit的普及将催生一个庞大而多样化的Agent Store。就像今天的App Store一样,无数的Agent将在这里被创造、分发和交易,形成一个全新的商业闭环。

这是AI应用从“工具”到“智能体”的关键跃迁。也是OpenAI构建其“超级系统”生态最核心的一步棋。

三、 🧑‍💼 AI助理的重新定位:从工具到“超级枢纽”

OpenAI的系列动作,正在推动我们重新理解AI助理的角色。它不再是一个简单的问答工具或效率插件,而是正在进化为一个集“入口、管家、账号体系”于一身的“超级枢纽”。

3.1 终极管家:任务的编排者与执行者

未来的AI助理,其核心角色是管家。它负责统筹家庭或工作中的所有“工作人员”(即各种App和Agent),为主人提供端到端的服务。用奥特曼的话说,AI助理的目标是提供单一且高效的AI服务,贯穿于用户的“整个生活轨迹并持续输出价值”。

要胜任这个角色,AI助理必须具备几个关键特质。

  • 跨硬件能力。它需要无缝地存在于你的手机、电脑、汽车、智能家居等所有设备上。

  • 长期记忆能力。它必须记住你的偏好、习惯、历史任务,从而提供连贯的、个性化的服务。

  • 庞大用户体量。只有足够大的用户规模,才能吸引足够多的应用和服务接入,形成网络效应。ChatGPT全球周活跃用户已达到8亿,这为其扮演“管家”角色提供了坚实的流量基础。

3.2 超级入口:与浏览器的“主次易位”

长期以来,浏览器是互联网的绝对入口。但AI助理的出现,正在改变这一格局。

未来,AI助理将成为一级入口,而浏览器将“降级”为辅助性的“操作台”或“看板”。用户通过与AI助理对话来发起任务,AI助理负责理解、规划并调用后台服务。浏览器则更多地用于呈现复杂信息(如数据报表、设计稿),或作为人机协同操作的界面。

这种“主次易位”将彻底改变信息的流动和分发方式。AI助理将获得更大的主动性,成为决定用户看到什么、使用什么服务的关键节点。

3.3 核心账号:隐私与权限的治理者

AI助理将成为最懂你、掌握你最多隐私信息的个人账号。这听起来有些可怕,但也蕴含着巨大的价值。

奥特曼认为,AI助理未来可以智能地判断用户的哪些信息可共享、哪些信息需予以保护。它将成为一个统一的账号与权限治理中心

当你需要使用一项新服务时,不再需要重复注册、填写个人信息,只需授权你的AI助理将必要的信息(在你的许可下)同步给对方即可。当你在工作和生活场景中切换时,AI助理也能智能地适配不同的权限和能力要求,调用不同的工具完成任务。

这种C端和B端应用的融合,将催生出一款能覆盖所有场景的通用AI工具,这正是OpenAI要建设的超级系统的雏形。

四、 🌏 行业格局对比与未来变量

OpenAI的系统化攻势,为全球AI竞赛设定了新的标准。国内外的主要玩家,都在这场竞赛中寻找自己的位置。

4.1 国内外玩家现状

企业/产品

现状/策略描述

未来变量/潜力

OpenAI

明确构建AI超级系统,三层战略清晰,生态逐步完善

继续引领AI入口革命,定义行业标准

字节跳动(豆包)

明确在构建系统化AI能力,产品迭代快,用户增长迅速

有望成为国内最先跑通AI超级系统模式的代表

阿里/百度/腾讯

多点尝试,分别围绕核心业务布局,但尚未形成“助理+浏览器+Agent”的战略合力

需加快Agent生态建设,并将AI助理提升到公司级战略入口的高度

腾讯(微信)

拥有庞大用户体量、成熟的小程序生态和商业闭环,但AI助理尚未正式上线

一旦上线强大的AI助理,极有可能凭借生态优势,重塑国内AI竞争格局

4.2 竞争的核心:四件套的整合

通过对比可以发现,未来的竞争核心,将不再是单一模型的性能比拼,而是“助理+Agent+浏览器+账号”这四件套的整合能力与生态深度。

  • AI助理是入口和交互核心。

  • Agent生态决定了服务的多样性和复杂任务处理能力。

  • 浏览器(或类似的可视化界面)是人机协同和复杂信息呈现的必要补充。

  • 统一账号体系是实现个性化、跨场景服务的基石。

从这个角度看,国内企业中,字节跳动在战略思路上最接近OpenAI。而微信则手握最好的“牌”,它已经拥有了用户、生态和账号,一旦补齐AI助理这块关键拼图,其潜力不可估量。

五、 流程拆解:从用户指令到伙伴共赢

为了更直观地理解Apps in ChatGPT的工作模式及其背后的产品哲学,我们可以将其典型的用户流程进行拆解。

5.1 典型用户流程(以Booking为例)

5.2 流程背后的产品哲学

这个流程图清晰地揭示了几个关键点。

  1. 闭环不完整。当前主要实现了“唤起-授权-初步展示-跳转”的流程。深度交互(如在窗口内查看详情、下单)和复杂任务处理能力缺失,最终仍需回退到文本总结或跳转原生App。

  2. “伙伴优先”的体现。流程中的“跳转链接”和最终引导至原生App完成下单的设计,并非技术上的无奈,而是战略上的选择。这体现了OpenAI“主动让渡”部分流量和体验,以换取生态伙伴信任和共赢的“产品哲学”。

  3. 权限与账号是核心。流程的第一步就是授权,这说明统一的账号和权限管理是整个系统的基础。未来,这个环节将变得更加智能和无感。

六、 🔭 未来信号与行动建议

对于关注这一领域的开发者和产品团队来说,识别未来的发展信号,并据此调整自己的行动策略,至关重要。

6.1 值得关注的可验证信号

  • AgentKit的进化。观察AgentKit的模板复杂度是否提升,是否支持更多头部App的深度操作(如下单、修改、提交),而不仅仅是查询。

  • 浏览器的“看板化”。是否有产品开始尝试将浏览器改造为多任务状态的实时展示看板,支持多Agent协作过程的可视化。

  • 账号与权限管理器的出现。主流AI助理的UI中,是否出现了独立的、用户可精细化管理的账号、权限和记忆中心。

  • 开发者变现细则落地。OpenAI或其他平台何时公布清晰的、可操作的开发者盈利模式和分成细则,这是生态能否繁荣的关键。

6.2 给产品团队的行动建议

  • 拥抱Agent范式。优先思考如何将自身业务能力封装成Agent,构建支持协作和权限治理的架构,并预留人工纠偏和日志审计的接口。

  • 重新思考UI。将浏览器或App界面视为“看板与回放器”,让关键步骤可视化、可追溯、可干预。

  • 坚持伙伴友好。在设计与外部服务的集成时,采取伙伴友好策略,支持“回原生App”完成闭环,并探索清晰的变现路径。

  • 关注新指标。除了传统的DAU、留存率,更应关注唤起成功率、首字节时延、委派成功率、任务完成转化率、撤销授权率、故障回退率等新的关键指标。

最终结论

OpenAI通过其三层战略,清晰地描绘了AI超级系统的蓝图。Apps in ChatGPT和Agent Kit是这个蓝图从构想走向现实的关键步骤。它们不仅在重塑人机交互的范式,更在定义AI时代的商业规则和生态格局。AI助理正从一个简单的工具,演变为集入口、管家、账号体系于一身的数字中枢,其背后是深刻的行业变革和权力转移。

国内外的科技巨头已经全部入局,这场关于未来的竞赛已经全面展开。字节跳动的系统化追赶、腾讯微信的巨大潜力、以及阿里百度的差异化探索,共同构成了这场竞赛的精彩看点。

然而,技术的飞速发展也带来了对隐私、公平和权力集中的深刻忧虑。如何在享受技术红利的同时,为其套上“缰绳”,建立起一个开放、公平、安全的AI生态,是我们所有人需要共同面对和回答的时代命题。前路漫漫,挑战与机遇并存,一个由AI定义的全新时代,正以前所未有的速度向我们走来。

📢💻 【省心锐评】

OpenAI的阳谋是操作系统,Agent是灵魂。国内巨头若只做应用,恐将沦为生态的打工者,窗口期已然不多。