不止Sora，OpenAI再亮剑：Apps与Agent Kit如何将ChatGPT打造成终极AI入口？

【摘要】Sora引爆视觉想象力之后，OpenAI的真正野心浮出水面。通过Apps in ChatGPT与Agent Kit，它正围绕对话交互构建一个集算力、模型、生态于一体的AI“超级系统”，意图将ChatGPT从一个聊天工具，彻底改造为下一代互联网的终极入口。

引言

Sora的视频生成能力确实震撼了世界，几乎让所有人都在讨论AI将如何颠覆内容创作。它的出现，像一颗投入平静湖面的巨石，激起了千层浪花。

但是，如果只把目光聚焦在Sora上，可能会错过OpenAI更深远的布局。Sora更像是一次华丽的技术肌肉秀，而真正决定其未来版图的，是那些在DevDay上悄然公布，却更具底层颠覆性的产品——Apps in ChatGPT与Agent Kit。

这两件“武器”的亮相，清晰地表明了OpenAI的战略意图。它不再满足于只做一个强大的聊天机器人，而是要围绕ChatGPT的对话式交互，构建一个AI时代的“Windows”系统。一个能够连接万物、调度万物、最终成为所有信息和服务“终极入口”的超级系统。

这篇文章将深入剖析OpenAI这盘大棋。我们将拆解其“超级系统”的三层战略，亲身体验并剖析Apps in ChatGPT的现状与局限，探讨Agent Kit如何开启AI交互的新范式，并重新审视AI助理在未来的角色定位。最后，我们还会将目光投向国内外，看看这场围绕AI入口的战争，将如何演变。

一、 🏗️ OpenAI的阳谋：三位一体的“超级系统”

OpenAI的CEO山姆·奥特曼曾坦言，ChatGPT的成功有两大“惊喜”。一是用户增长和黏性远超预期；二是科技巨头们未能及时跟进，给了OpenAI宝贵的窗口期。

利用这个窗口期，OpenAI没有急于四处出击，而是稳步推进一个宏大的三层战略。这个战略的全景，就是要构建一个由算力、模型、生态三位一体、相互依存的AI基础设施。其最终目标，是打造一个奥特曼口中“真正强大的AI超级系统”。

1.1 战略基石：近乎疯狂的算力投资

AI的竞争，归根结底是算力的竞争。没有足够强大的计算能力，再先进的算法也只是纸上谈兵。OpenAI对此有着清醒甚至残酷的认知。

有估算认为，OpenAI在算力采购领域的投资总额已接近1万亿美元。这个数字听起来匪夷所思，但它恰恰反映了OpenAI的决心。这笔钱，砸向的是AI时代的“石油”——高端芯片、数据中心和配套基础设施。

通过与英伟达、甲骨文等巨头的深度绑定，OpenAI正在做的，是提前锁定未来数年内最核心的生产资料。这不仅是为了支撑现有大模型的运行和推理，更是为了下一代更强大、更通用模型的训练储备弹药。

层级/方向	具体举措与内容	目标与意义	风险与挑战
算力基础设施	近万亿美元级投资，采购芯片、建设数据中心，与英伟达、甲骨文等深度绑定	支撑大模型进化与大规模应用，构建底层护城河	巨大的资本压力、供应链安全与高昂的能耗成本

这种近乎“豪赌”的投入，意图非常明显。在AI军备竞赛的牌桌上，OpenAI要做的不仅是玩家，更是那个能控制发牌节奏的人。当其他玩家还在为GPU发愁时，OpenAI已经拥有了相对充裕的算力资源，这为其在模型研发和应用部署上赢得了宝贵的时间和战略主动权。

1.2 技术核心：持续领先的大模型家族

如果说算力是地基，那么大模型就是这座超级系统的主体建筑。OpenAI的策略是，在核心技术层面始终保持领先优势。

从最初的GPT系列，到引爆多模态革命的DALL-E和Sora，OpenAI打造了一个性能强悍的大模型家族。它不仅要能聊，还要能看、能听、能画、能生成视频。这种多模态能力是构建通用AI助理的基础。一个只能处理文本的助理，在现实世界中的能力是极其有限的。

层级/方向	具体举措与内容	目标与意义	风险与挑战
大模型家族	持续优化GPT、Sora等多模态模型，保持文本、图像、视频等领域领先	提供强大、可靠的AI核心能力，支撑多场景应用	技术闭环的难度、生态验证的速度、模型安全与伦理问题

持续领先的模型，本身就是最强大的引力场。它能吸引全球最多的用户和开发者，形成一个庞大的数据飞轮。用户的每一次交互、开发者的每一次调用，都在为模型的优化提供养料。这种正向循环，使得OpenAI的模型能力能够以更快的速度迭代，进一步拉开与追赶者的差距。

1.3 生态闭环：应用与Agent的星辰大海

拥有了强大的算力和领先的模型，OpenAI的第三步，也是最关键的一步，是构建一个繁荣的应用生态。这正是Apps in ChatGPT和Agent Kit所要扮演的角色。

这套打法，科技行业并不陌生。微软用Windows捆绑了PC桌面，苹果用iOS和App Store定义了移动互联网。它们成功的关键，都不在于自己开发了所有应用，而在于它们建立了一个平台，制定了规则，并吸引了千百万开发者为其生态添砖加瓦。

OpenAI正在做的，是同样的事情，只是这一次的平台，不再是图形界面，而是对话界面。

层级/方向	具体举措与内容	目标与意义	风险与挑战
应用与生态	以ChatGPT为入口，推出Apps in ChatGPT、Agent Kit、Apps SDK等工具	打造AI时代的“超级入口”与生态闭环，重塑应用分发	生态成熟度、与合作伙伴的利益分配、商业变现机制的建立

通过Apps in ChatGPT，传统的App可以被“嵌入”到对话流中。通过Agent Kit，开发者可以低门槛地创建能够自主执行任务的AI智能体。通过统一的账号和权限体系，ChatGPT将成为连接用户与所有服务的枢纽。

这三层战略并非孤立推进，它们咬合在一起，形成了一个强大的正向飞轮。

这个飞轮的逻辑很清晰。

强大的算力支撑更优的模型研发。
更优的模型吸引海量用户和开发者，催生繁荣的生态。
繁荣的生态带来巨大的商业价值和数据回流，为算力建设提供资金和方向，同时海量应用需求也反向驱动模型能力的提升。

通过这个闭环，OpenAI正悄然从一个“AI技术研发商”，向一个“AI生态运营商”转型。它要做的，不是一个更聪明的搜索引擎，也不是一个功能更全的超级App，而是一个全新的、基于对话的操作系统。

二、 📱 从调用到委派：Apps与Agent Kit的现在与未来

理解了OpenAI的宏大战略，我们再来聚焦到具体的实现路径上。Apps in ChatGPT和Agent Kit，就是这盘大棋中，已经落下的两颗关键棋子。它们分别代表了AI应用的“现在”和“未来”，揭示了从“App调用”到“Agent委派”的范式迁移。

2.1 Apps in ChatGPT：一次“不完美”却必要的尝试

在OpenAI发布的信息中，Booking.com、Canva、Coursera、Expedia、Figma、Spotify、Zillow是首批参与Apps in ChatGPT的合作伙伴。当我满怀期待地打开ChatGPT体验时，发现这个功能目前还处在一个相当初级的阶段。

2.1.1 亲身体验：在粗糙中寻找新意

我尝试复现发布会上的演示，让ChatGPT帮我找几家北京的、可以提供停车位的酒店。

整个流程大致如下。

发起指令。在对话框中输入需求。
授权连接。ChatGPT弹出授权界面，请求连接我的Booking.com账号。
调用App。点击确认后，ChatGPT显示正在调用App。
结果呈现。聊天界面内嵌了一个Booking.com的窗口，以卡片形式展示了几家酒店的推荐，每个卡片下面都有一个跳转到Booking原生站点的链接。

到这里，体验还算新颖。但是，当我试图进行更深度的交互，比如“给我介绍一下第一家酒店的详细信息”时，问题出现了。ChatGPT告诉我，目前不支持在App内查看酒店的详细信息，只能像以前一样，将信息整理成文字呈现在聊天界面中。

我又尝试了唤起Zillow和Spotify。前者打开速度很慢，体验不佳；后者则没有成功唤起，ChatGPT依然是自己整理了一份文字歌单给我。

功能/产品	现状与体验	存在问题/局限性
Booking.com	对话中授权后内嵌卡片展示酒店列表，支持跳转原生站点	深度交互不完备，详情查看、预订等复杂操作受限
Zillow	可被唤起，但加载较慢，影响用户体验	性能与稳定性需要大幅优化
Spotify	某些场景下未能成功内嵌，助理转为生成文字歌单	功能覆盖有限，App的唤起与集成逻辑尚不完善
合作伙伴生态	首批包含Booking、Canva、Coursera、Expedia等知名应用	生态处于起步阶段，应用类型丰富度与能力深度都有待提升
用户体验	需授权连接App，部分功能最终仍需跳转原生App完成	体验流畅度与合作伙伴利益之间需要做出平衡

很明显，Apps in ChatGPT目前的功能还非常粗糙和有限。它更像一个“安全可控的网页内嵌与账号转接”工具，扮演的是“启动器+初步结果展示器”的角色。对于复杂任务和深度交互，它还无法实现无缝的闭环。

2.1.2 “伙伴优先”：妥协背后的战略智慧

这种“不完美”的体验，是技术限制吗？不完全是。

奥特曼在一次采访中坦言，OpenAI本可以设计出更流畅的使用体验，但这会对合作伙伴极为不利。所以，他们有意选择将用户引导回原生App中。

“用户明确指定要使用某类服务时，我们会主动推荐合作方。合作方接管交互界面并关联用户账户，确保用户能与原服务保持直接、透明的连接。这种方式或许在用户体验的流畅度上略有妥协，但从长远来看，更有利于整个行业的健康发展。”

这段话道出了OpenAI的“阳谋”。它深知，一个繁荣的生态，离不开合作伙伴的支持。如果ChatGPT变成一个流量黑洞，将所有用户和价值都截留在自己的体系内，那么没有哪个App愿意真心实意地接入。

所以，OpenAI主动让渡了一部分体验流畅度和商业利益，换取合作伙伴的信任。这种“伙伴优先”的策略，虽然在短期内让产品显得“不完美”，但却是在为构建一个可持续的、共赢的生态铺路。这是一种着眼于长远的战略智慧。

2.2 Agent Kit：通往智能体时代的“金桥”

如果说Apps in ChatGPT是当下的权宜之计和生态入口，那么Agent Kit则指向了真正的未来——一个由无数AI智能体（Agent）协作的时代。

Agent是什么？简单来说，它是一个能够自主理解用户意图、进行任务规划、调用多种工具、并最终完成任务的智能程序。它不是被动地等待调用，而是可以主动地、多步骤地去执行复杂指令。

Agent Kit的推出，其战略意义远大于Apps in ChatGPT。它是一个支持零/低代码搭建专业AI Agent的工具包，极大地降低了开发者创建智能体的门槛。

2.2.1 从App到Agent：一次交互范式的跃迁

Apps in ChatGPT无法实现的复杂交互，未来都将由Agent来完成。从App到Agent，绝非简单的功能升级，而是一次彻底的交互范式迁移。

我们可以通过一个表格来清晰地对比两者的区别。

维度	网页式App（当前）	Agent（未来）
交互范式	人 → App (点选/跳转/浏览)	人 → 助理 → Agent (对话委派/多步执行)
可编排性	低，多为单点工具，应用间是孤岛	高，可跨工具、跨数据源、跨应用进行任务编排
个性化与记忆	依赖各自App的账号与Cookie	由AI助理统一进行记忆管理和权限治理
权限/安全	各App有各自的安全规则和权限体系	统一的权限模型与审计，更易于管理和追溯
复杂任务处理	受限于网页形态，难以处理多步、跨应用任务	多Agent协作，更擅长处理需要长期规划的复杂任务
开发门槛	需要Web嵌入、接口打通等传统开发技能	低代码/可视化搭建，让更多非专业开发者也能参与

这个表格清晰地揭示了，Agent将如何改变我们与数字世界的交互方式。

未来的场景可能是这样。你对AI助理说，“帮我规划一个五一去杭州的家庭旅行，三大一小，预算一万，要订好往返机票、西湖边的亲子酒店，并推荐几个适合孩子的景点，规划好每日行程。”

AI助理接收指令后，不会只弹出一个Booking的窗口。它会自主地委派任务给多个专门的Agent。

机票Agent会去各大航司比价，找到最合适的航班。
酒店Agent会根据你的要求（西湖边、亲子）筛选酒店，并结合评论数据给出建议。
行程规划Agent会调用地图数据和景点信息，设计出合理的游玩路线。
预算控制Agent会实时监控整个过程的花费，确保不超过一万元。

这些Agent协同工作，最后将一个完整的旅行方案呈现给你。你只需要在关键节点进行确认，甚至可以直接授权助理完成所有预订。

2.2.2 Agent Kit的深远影响

Agent Kit的推出，正是为了让上述场景成为现实。它为开发者和企业提供了前所未有的可编排性和个性化服务能力。

对开发者而言，他们不再需要从零开始构建复杂的AI逻辑，而是可以利用Agent Kit，像搭积木一样，快速创建出能够解决特定领域问题的专业Agent。
对企业而言，可以将自己的核心业务能力封装成Agent，接入到ChatGPT这个巨大的流量入口中，以一种更智能、更主动的方式服务用户。
对整个生态而言，Agent Kit的普及将催生一个庞大而多样化的Agent Store。就像今天的App Store一样，无数的Agent将在这里被创造、分发和交易，形成一个全新的商业闭环。

这是AI应用从“工具”到“智能体”的关键跃迁。也是OpenAI构建其“超级系统”生态最核心的一步棋。

三、 🧑‍💼 AI助理的重新定位：从工具到“超级枢纽”

OpenAI的系列动作，正在推动我们重新理解AI助理的角色。它不再是一个简单的问答工具或效率插件，而是正在进化为一个集“入口、管家、账号体系”于一身的“超级枢纽”。

3.1 终极管家：任务的编排者与执行者

未来的AI助理，其核心角色是管家。它负责统筹家庭或工作中的所有“工作人员”（即各种App和Agent），为主人提供端到端的服务。用奥特曼的话说，AI助理的目标是提供单一且高效的AI服务，贯穿于用户的“整个生活轨迹并持续输出价值”。

要胜任这个角色，AI助理必须具备几个关键特质。

跨硬件能力。它需要无缝地存在于你的手机、电脑、汽车、智能家居等所有设备上。
长期记忆能力。它必须记住你的偏好、习惯、历史任务，从而提供连贯的、个性化的服务。
庞大用户体量。只有足够大的用户规模，才能吸引足够多的应用和服务接入，形成网络效应。ChatGPT全球周活跃用户已达到8亿，这为其扮演“管家”角色提供了坚实的流量基础。

3.2 超级入口：与浏览器的“主次易位”

长期以来，浏览器是互联网的绝对入口。但AI助理的出现，正在改变这一格局。

未来，AI助理将成为一级入口，而浏览器将“降级”为辅助性的“操作台”或“看板”。用户通过与AI助理对话来发起任务，AI助理负责理解、规划并调用后台服务。浏览器则更多地用于呈现复杂信息（如数据报表、设计稿），或作为人机协同操作的界面。

这种“主次易位”将彻底改变信息的流动和分发方式。AI助理将获得更大的主动性，成为决定用户看到什么、使用什么服务的关键节点。

3.3 核心账号：隐私与权限的治理者

AI助理将成为最懂你、掌握你最多隐私信息的个人账号。这听起来有些可怕，但也蕴含着巨大的价值。

奥特曼认为，AI助理未来可以智能地判断用户的哪些信息可共享、哪些信息需予以保护。它将成为一个统一的账号与权限治理中心。

当你需要使用一项新服务时，不再需要重复注册、填写个人信息，只需授权你的AI助理将必要的信息（在你的许可下）同步给对方即可。当你在工作和生活场景中切换时，AI助理也能智能地适配不同的权限和能力要求，调用不同的工具完成任务。

这种C端和B端应用的融合，将催生出一款能覆盖所有场景的通用AI工具，这正是OpenAI要建设的超级系统的雏形。

四、 🌏 行业格局对比与未来变量

OpenAI的系统化攻势，为全球AI竞赛设定了新的标准。国内外的主要玩家，都在这场竞赛中寻找自己的位置。

4.1 国内外玩家现状

企业/产品	现状/策略描述	未来变量/潜力
OpenAI	明确构建AI超级系统，三层战略清晰，生态逐步完善	继续引领AI入口革命，定义行业标准
字节跳动（豆包）	明确在构建系统化AI能力，产品迭代快，用户增长迅速	有望成为国内最先跑通AI超级系统模式的代表
阿里/百度/腾讯	多点尝试，分别围绕核心业务布局，但尚未形成“助理+浏览器+Agent”的战略合力	需加快Agent生态建设，并将AI助理提升到公司级战略入口的高度
腾讯（微信）	拥有庞大用户体量、成熟的小程序生态和商业闭环，但AI助理尚未正式上线	一旦上线强大的AI助理，极有可能凭借生态优势，重塑国内AI竞争格局

4.2 竞争的核心：四件套的整合

通过对比可以发现，未来的竞争核心，将不再是单一模型的性能比拼，而是“助理+Agent+浏览器+账号”这四件套的整合能力与生态深度。

AI助理是入口和交互核心。
Agent生态决定了服务的多样性和复杂任务处理能力。
浏览器（或类似的可视化界面）是人机协同和复杂信息呈现的必要补充。
统一账号体系是实现个性化、跨场景服务的基石。

从这个角度看，国内企业中，字节跳动在战略思路上最接近OpenAI。而微信则手握最好的“牌”，它已经拥有了用户、生态和账号，一旦补齐AI助理这块关键拼图，其潜力不可估量。

五、流程拆解：从用户指令到伙伴共赢

为了更直观地理解Apps in ChatGPT的工作模式及其背后的产品哲学，我们可以将其典型的用户流程进行拆解。

5.1 典型用户流程（以Booking为例）

5.2 流程背后的产品哲学

这个流程图清晰地揭示了几个关键点。

闭环不完整。当前主要实现了“唤起-授权-初步展示-跳转”的流程。深度交互（如在窗口内查看详情、下单）和复杂任务处理能力缺失，最终仍需回退到文本总结或跳转原生App。
“伙伴优先”的体现。流程中的“跳转链接”和最终引导至原生App完成下单的设计，并非技术上的无奈，而是战略上的选择。这体现了OpenAI“主动让渡”部分流量和体验，以换取生态伙伴信任和共赢的“产品哲学”。
权限与账号是核心。流程的第一步就是授权，这说明统一的账号和权限管理是整个系统的基础。未来，这个环节将变得更加智能和无感。

六、 🔭 未来信号与行动建议

对于关注这一领域的开发者和产品团队来说，识别未来的发展信号，并据此调整自己的行动策略，至关重要。

6.1 值得关注的可验证信号

AgentKit的进化。观察AgentKit的模板复杂度是否提升，是否支持更多头部App的深度操作（如下单、修改、提交），而不仅仅是查询。
浏览器的“看板化”。是否有产品开始尝试将浏览器改造为多任务状态的实时展示看板，支持多Agent协作过程的可视化。
账号与权限管理器的出现。主流AI助理的UI中，是否出现了独立的、用户可精细化管理的账号、权限和记忆中心。
开发者变现细则落地。OpenAI或其他平台何时公布清晰的、可操作的开发者盈利模式和分成细则，这是生态能否繁荣的关键。

6.2 给产品团队的行动建议

拥抱Agent范式。优先思考如何将自身业务能力封装成Agent，构建支持协作和权限治理的架构，并预留人工纠偏和日志审计的接口。
重新思考UI。将浏览器或App界面视为“看板与回放器”，让关键步骤可视化、可追溯、可干预。
坚持伙伴友好。在设计与外部服务的集成时，采取伙伴友好策略，支持“回原生App”完成闭环，并探索清晰的变现路径。
关注新指标。除了传统的DAU、留存率，更应关注唤起成功率、首字节时延、委派成功率、任务完成转化率、撤销授权率、故障回退率等新的关键指标。

最终结论

OpenAI通过其三层战略，清晰地描绘了AI超级系统的蓝图。Apps in ChatGPT和Agent Kit是这个蓝图从构想走向现实的关键步骤。它们不仅在重塑人机交互的范式，更在定义AI时代的商业规则和生态格局。AI助理正从一个简单的工具，演变为集入口、管家、账号体系于一身的数字中枢，其背后是深刻的行业变革和权力转移。

国内外的科技巨头已经全部入局，这场关于未来的竞赛已经全面展开。字节跳动的系统化追赶、腾讯微信的巨大潜力、以及阿里百度的差异化探索，共同构成了这场竞赛的精彩看点。

然而，技术的飞速发展也带来了对隐私、公平和权力集中的深刻忧虑。如何在享受技术红利的同时，为其套上“缰绳”，建立起一个开放、公平、安全的AI生态，是我们所有人需要共同面对和回答的时代命题。前路漫漫，挑战与机遇并存，一个由AI定义的全新时代，正以前所未有的速度向我们走来。

📢💻 【省心锐评】

OpenAI的阳谋是操作系统，Agent是灵魂。国内巨头若只做应用，恐将沦为生态的打工者，窗口期已然不多。

引言