【摘要】Sora引爆视觉想象力之后,OpenAI的真正野心浮出水面。通过Apps in ChatGPT与Agent Kit,它正围绕对话交互构建一个集算力、模型、生态于一体的AI“超级系统”,意图将ChatGPT从一个聊天工具,彻底改造为下一代互联网的终极入口。
引言
Sora的视频生成能力确实震撼了世界,几乎让所有人都在讨论AI将如何颠覆内容创作。它的出现,像一颗投入平静湖面的巨石,激起了千层浪花。
但是,如果只把目光聚焦在Sora上,可能会错过OpenAI更深远的布局。Sora更像是一次华丽的技术肌肉秀,而真正决定其未来版图的,是那些在DevDay上悄然公布,却更具底层颠覆性的产品——Apps in ChatGPT与Agent Kit。
这两件“武器”的亮相,清晰地表明了OpenAI的战略意图。它不再满足于只做一个强大的聊天机器人,而是要围绕ChatGPT的对话式交互,构建一个AI时代的“Windows”系统。一个能够连接万物、调度万物、最终成为所有信息和服务“终极入口”的超级系统。
这篇文章将深入剖析OpenAI这盘大棋。我们将拆解其“超级系统”的三层战略,亲身体验并剖析Apps in ChatGPT的现状与局限,探讨Agent Kit如何开启AI交互的新范式,并重新审视AI助理在未来的角色定位。最后,我们还会将目光投向国内外,看看这场围绕AI入口的战争,将如何演变。
一、 🏗️ OpenAI的阳谋:三位一体的“超级系统”
OpenAI的CEO山姆·奥特曼曾坦言,ChatGPT的成功有两大“惊喜”。一是用户增长和黏性远超预期;二是科技巨头们未能及时跟进,给了OpenAI宝贵的窗口期。
利用这个窗口期,OpenAI没有急于四处出击,而是稳步推进一个宏大的三层战略。这个战略的全景,就是要构建一个由算力、模型、生态三位一体、相互依存的AI基础设施。其最终目标,是打造一个奥特曼口中“真正强大的AI超级系统”。
1.1 战略基石:近乎疯狂的算力投资
AI的竞争,归根结底是算力的竞争。没有足够强大的计算能力,再先进的算法也只是纸上谈兵。OpenAI对此有着清醒甚至残酷的认知。
有估算认为,OpenAI在算力采购领域的投资总额已接近1万亿美元。这个数字听起来匪夷所思,但它恰恰反映了OpenAI的决心。这笔钱,砸向的是AI时代的“石油”——高端芯片、数据中心和配套基础设施。
通过与英伟达、甲骨文等巨头的深度绑定,OpenAI正在做的,是提前锁定未来数年内最核心的生产资料。这不仅是为了支撑现有大模型的运行和推理,更是为了下一代更强大、更通用模型的训练储备弹药。
这种近乎“豪赌”的投入,意图非常明显。在AI军备竞赛的牌桌上,OpenAI要做的不仅是玩家,更是那个能控制发牌节奏的人。当其他玩家还在为GPU发愁时,OpenAI已经拥有了相对充裕的算力资源,这为其在模型研发和应用部署上赢得了宝贵的时间和战略主动权。
1.2 技术核心:持续领先的大模型家族
如果说算力是地基,那么大模型就是这座超级系统的主体建筑。OpenAI的策略是,在核心技术层面始终保持领先优势。
从最初的GPT系列,到引爆多模态革命的DALL-E和Sora,OpenAI打造了一个性能强悍的大模型家族。它不仅要能聊,还要能看、能听、能画、能生成视频。这种多模态能力是构建通用AI助理的基础。一个只能处理文本的助理,在现实世界中的能力是极其有限的。
持续领先的模型,本身就是最强大的引力场。它能吸引全球最多的用户和开发者,形成一个庞大的数据飞轮。用户的每一次交互、开发者的每一次调用,都在为模型的优化提供养料。这种正向循环,使得OpenAI的模型能力能够以更快的速度迭代,进一步拉开与追赶者的差距。
1.3 生态闭环:应用与Agent的星辰大海
拥有了强大的算力和领先的模型,OpenAI的第三步,也是最关键的一步,是构建一个繁荣的应用生态。这正是Apps in ChatGPT和Agent Kit所要扮演的角色。
这套打法,科技行业并不陌生。微软用Windows捆绑了PC桌面,苹果用iOS和App Store定义了移动互联网。它们成功的关键,都不在于自己开发了所有应用,而在于它们建立了一个平台,制定了规则,并吸引了千百万开发者为其生态添砖加瓦。
OpenAI正在做的,是同样的事情,只是这一次的平台,不再是图形界面,而是对话界面。
通过Apps in ChatGPT,传统的App可以被“嵌入”到对话流中。通过Agent Kit,开发者可以低门槛地创建能够自主执行任务的AI智能体。通过统一的账号和权限体系,ChatGPT将成为连接用户与所有服务的枢纽。
这三层战略并非孤立推进,它们咬合在一起,形成了一个强大的正向飞轮。
这个飞轮的逻辑很清晰。
强大的算力支撑更优的模型研发。
更优的模型吸引海量用户和开发者,催生繁荣的生态。
繁荣的生态带来巨大的商业价值和数据回流,为算力建设提供资金和方向,同时海量应用需求也反向驱动模型能力的提升。
通过这个闭环,OpenAI正悄然从一个“AI技术研发商”,向一个“AI生态运营商”转型。它要做的,不是一个更聪明的搜索引擎,也不是一个功能更全的超级App,而是一个全新的、基于对话的操作系统。
二、 📱 从调用到委派:Apps与Agent Kit的现在与未来
理解了OpenAI的宏大战略,我们再来聚焦到具体的实现路径上。Apps in ChatGPT和Agent Kit,就是这盘大棋中,已经落下的两颗关键棋子。它们分别代表了AI应用的“现在”和“未来”,揭示了从“App调用”到“Agent委派”的范式迁移。
2.1 Apps in ChatGPT:一次“不完美”却必要的尝试
在OpenAI发布的信息中,Booking.com、Canva、Coursera、Expedia、Figma、Spotify、Zillow是首批参与Apps in ChatGPT的合作伙伴。当我满怀期待地打开ChatGPT体验时,发现这个功能目前还处在一个相当初级的阶段。
2.1.1 亲身体验:在粗糙中寻找新意
我尝试复现发布会上的演示,让ChatGPT帮我找几家北京的、可以提供停车位的酒店。
整个流程大致如下。
发起指令。在对话框中输入需求。
授权连接。ChatGPT弹出授权界面,请求连接我的Booking.com账号。
调用App。点击确认后,ChatGPT显示正在调用App。
结果呈现。聊天界面内嵌了一个Booking.com的窗口,以卡片形式展示了几家酒店的推荐,每个卡片下面都有一个跳转到Booking原生站点的链接。
到这里,体验还算新颖。但是,当我试图进行更深度的交互,比如“给我介绍一下第一家酒店的详细信息”时,问题出现了。ChatGPT告诉我,目前不支持在App内查看酒店的详细信息,只能像以前一样,将信息整理成文字呈现在聊天界面中。
我又尝试了唤起Zillow和Spotify。前者打开速度很慢,体验不佳;后者则没有成功唤起,ChatGPT依然是自己整理了一份文字歌单给我。
很明显,Apps in ChatGPT目前的功能还非常粗糙和有限。它更像一个“安全可控的网页内嵌与账号转接”工具,扮演的是“启动器+初步结果展示器”的角色。对于复杂任务和深度交互,它还无法实现无缝的闭环。
2.1.2 “伙伴优先”:妥协背后的战略智慧
这种“不完美”的体验,是技术限制吗?不完全是。
奥特曼在一次采访中坦言,OpenAI本可以设计出更流畅的使用体验,但这会对合作伙伴极为不利。所以,他们有意选择将用户引导回原生App中。
“用户明确指定要使用某类服务时,我们会主动推荐合作方。合作方接管交互界面并关联用户账户,确保用户能与原服务保持直接、透明的连接。这种方式或许在用户体验的流畅度上略有妥协,但从长远来看,更有利于整个行业的健康发展。”
这段话道出了OpenAI的“阳谋”。它深知,一个繁荣的生态,离不开合作伙伴的支持。如果ChatGPT变成一个流量黑洞,将所有用户和价值都截留在自己的体系内,那么没有哪个App愿意真心实意地接入。
所以,OpenAI主动让渡了一部分体验流畅度和商业利益,换取合作伙伴的信任。这种“伙伴优先”的策略,虽然在短期内让产品显得“不完美”,但却是在为构建一个可持续的、共赢的生态铺路。这是一种着眼于长远的战略智慧。
2.2 Agent Kit:通往智能体时代的“金桥”
如果说Apps in ChatGPT是当下的权宜之计和生态入口,那么Agent Kit则指向了真正的未来——一个由无数AI智能体(Agent)协作的时代。
Agent是什么?简单来说,它是一个能够自主理解用户意图、进行任务规划、调用多种工具、并最终完成任务的智能程序。它不是被动地等待调用,而是可以主动地、多步骤地去执行复杂指令。
Agent Kit的推出,其战略意义远大于Apps in ChatGPT。它是一个支持零/低代码搭建专业AI Agent的工具包,极大地降低了开发者创建智能体的门槛。
2.2.1 从App到Agent:一次交互范式的跃迁
Apps in ChatGPT无法实现的复杂交互,未来都将由Agent来完成。从App到Agent,绝非简单的功能升级,而是一次彻底的交互范式迁移。
我们可以通过一个表格来清晰地对比两者的区别。
这个表格清晰地揭示了,Agent将如何改变我们与数字世界的交互方式。
未来的场景可能是这样。你对AI助理说,“帮我规划一个五一去杭州的家庭旅行,三大一小,预算一万,要订好往返机票、西湖边的亲子酒店,并推荐几个适合孩子的景点,规划好每日行程。”
AI助理接收指令后,不会只弹出一个Booking的窗口。它会自主地委派任务给多个专门的Agent。
机票Agent会去各大航司比价,找到最合适的航班。
酒店Agent会根据你的要求(西湖边、亲子)筛选酒店,并结合评论数据给出建议。
行程规划Agent会调用地图数据和景点信息,设计出合理的游玩路线。
预算控制Agent会实时监控整个过程的花费,确保不超过一万元。
这些Agent协同工作,最后将一个完整的旅行方案呈现给你。你只需要在关键节点进行确认,甚至可以直接授权助理完成所有预订。
2.2.2 Agent Kit的深远影响
Agent Kit的推出,正是为了让上述场景成为现实。它为开发者和企业提供了前所未有的可编排性和个性化服务能力。
对开发者而言,他们不再需要从零开始构建复杂的AI逻辑,而是可以利用Agent Kit,像搭积木一样,快速创建出能够解决特定领域问题的专业Agent。
对企业而言,可以将自己的核心业务能力封装成Agent,接入到ChatGPT这个巨大的流量入口中,以一种更智能、更主动的方式服务用户。
对整个生态而言,Agent Kit的普及将催生一个庞大而多样化的Agent Store。就像今天的App Store一样,无数的Agent将在这里被创造、分发和交易,形成一个全新的商业闭环。
这是AI应用从“工具”到“智能体”的关键跃迁。也是OpenAI构建其“超级系统”生态最核心的一步棋。
三、 🧑💼 AI助理的重新定位:从工具到“超级枢纽”
OpenAI的系列动作,正在推动我们重新理解AI助理的角色。它不再是一个简单的问答工具或效率插件,而是正在进化为一个集“入口、管家、账号体系”于一身的“超级枢纽”。
3.1 终极管家:任务的编排者与执行者
未来的AI助理,其核心角色是管家。它负责统筹家庭或工作中的所有“工作人员”(即各种App和Agent),为主人提供端到端的服务。用奥特曼的话说,AI助理的目标是提供单一且高效的AI服务,贯穿于用户的“整个生活轨迹并持续输出价值”。
要胜任这个角色,AI助理必须具备几个关键特质。
跨硬件能力。它需要无缝地存在于你的手机、电脑、汽车、智能家居等所有设备上。
长期记忆能力。它必须记住你的偏好、习惯、历史任务,从而提供连贯的、个性化的服务。
庞大用户体量。只有足够大的用户规模,才能吸引足够多的应用和服务接入,形成网络效应。ChatGPT全球周活跃用户已达到8亿,这为其扮演“管家”角色提供了坚实的流量基础。
3.2 超级入口:与浏览器的“主次易位”
长期以来,浏览器是互联网的绝对入口。但AI助理的出现,正在改变这一格局。
未来,AI助理将成为一级入口,而浏览器将“降级”为辅助性的“操作台”或“看板”。用户通过与AI助理对话来发起任务,AI助理负责理解、规划并调用后台服务。浏览器则更多地用于呈现复杂信息(如数据报表、设计稿),或作为人机协同操作的界面。
这种“主次易位”将彻底改变信息的流动和分发方式。AI助理将获得更大的主动性,成为决定用户看到什么、使用什么服务的关键节点。
3.3 核心账号:隐私与权限的治理者
AI助理将成为最懂你、掌握你最多隐私信息的个人账号。这听起来有些可怕,但也蕴含着巨大的价值。
奥特曼认为,AI助理未来可以智能地判断用户的哪些信息可共享、哪些信息需予以保护。它将成为一个统一的账号与权限治理中心。
当你需要使用一项新服务时,不再需要重复注册、填写个人信息,只需授权你的AI助理将必要的信息(在你的许可下)同步给对方即可。当你在工作和生活场景中切换时,AI助理也能智能地适配不同的权限和能力要求,调用不同的工具完成任务。
这种C端和B端应用的融合,将催生出一款能覆盖所有场景的通用AI工具,这正是OpenAI要建设的超级系统的雏形。
四、 🌏 行业格局对比与未来变量
OpenAI的系统化攻势,为全球AI竞赛设定了新的标准。国内外的主要玩家,都在这场竞赛中寻找自己的位置。
4.1 国内外玩家现状
4.2 竞争的核心:四件套的整合
通过对比可以发现,未来的竞争核心,将不再是单一模型的性能比拼,而是“助理+Agent+浏览器+账号”这四件套的整合能力与生态深度。
AI助理是入口和交互核心。
Agent生态决定了服务的多样性和复杂任务处理能力。
浏览器(或类似的可视化界面)是人机协同和复杂信息呈现的必要补充。
统一账号体系是实现个性化、跨场景服务的基石。
从这个角度看,国内企业中,字节跳动在战略思路上最接近OpenAI。而微信则手握最好的“牌”,它已经拥有了用户、生态和账号,一旦补齐AI助理这块关键拼图,其潜力不可估量。
五、 流程拆解:从用户指令到伙伴共赢
为了更直观地理解Apps in ChatGPT的工作模式及其背后的产品哲学,我们可以将其典型的用户流程进行拆解。
5.1 典型用户流程(以Booking为例)
5.2 流程背后的产品哲学
这个流程图清晰地揭示了几个关键点。
闭环不完整。当前主要实现了“唤起-授权-初步展示-跳转”的流程。深度交互(如在窗口内查看详情、下单)和复杂任务处理能力缺失,最终仍需回退到文本总结或跳转原生App。
“伙伴优先”的体现。流程中的“跳转链接”和最终引导至原生App完成下单的设计,并非技术上的无奈,而是战略上的选择。这体现了OpenAI“主动让渡”部分流量和体验,以换取生态伙伴信任和共赢的“产品哲学”。
权限与账号是核心。流程的第一步就是授权,这说明统一的账号和权限管理是整个系统的基础。未来,这个环节将变得更加智能和无感。
六、 🔭 未来信号与行动建议
对于关注这一领域的开发者和产品团队来说,识别未来的发展信号,并据此调整自己的行动策略,至关重要。
6.1 值得关注的可验证信号
AgentKit的进化。观察AgentKit的模板复杂度是否提升,是否支持更多头部App的深度操作(如下单、修改、提交),而不仅仅是查询。
浏览器的“看板化”。是否有产品开始尝试将浏览器改造为多任务状态的实时展示看板,支持多Agent协作过程的可视化。
账号与权限管理器的出现。主流AI助理的UI中,是否出现了独立的、用户可精细化管理的账号、权限和记忆中心。
开发者变现细则落地。OpenAI或其他平台何时公布清晰的、可操作的开发者盈利模式和分成细则,这是生态能否繁荣的关键。
6.2 给产品团队的行动建议
拥抱Agent范式。优先思考如何将自身业务能力封装成Agent,构建支持协作和权限治理的架构,并预留人工纠偏和日志审计的接口。
重新思考UI。将浏览器或App界面视为“看板与回放器”,让关键步骤可视化、可追溯、可干预。
坚持伙伴友好。在设计与外部服务的集成时,采取伙伴友好策略,支持“回原生App”完成闭环,并探索清晰的变现路径。
关注新指标。除了传统的DAU、留存率,更应关注唤起成功率、首字节时延、委派成功率、任务完成转化率、撤销授权率、故障回退率等新的关键指标。
最终结论
OpenAI通过其三层战略,清晰地描绘了AI超级系统的蓝图。Apps in ChatGPT和Agent Kit是这个蓝图从构想走向现实的关键步骤。它们不仅在重塑人机交互的范式,更在定义AI时代的商业规则和生态格局。AI助理正从一个简单的工具,演变为集入口、管家、账号体系于一身的数字中枢,其背后是深刻的行业变革和权力转移。
国内外的科技巨头已经全部入局,这场关于未来的竞赛已经全面展开。字节跳动的系统化追赶、腾讯微信的巨大潜力、以及阿里百度的差异化探索,共同构成了这场竞赛的精彩看点。
然而,技术的飞速发展也带来了对隐私、公平和权力集中的深刻忧虑。如何在享受技术红利的同时,为其套上“缰绳”,建立起一个开放、公平、安全的AI生态,是我们所有人需要共同面对和回答的时代命题。前路漫漫,挑战与机遇并存,一个由AI定义的全新时代,正以前所未有的速度向我们走来。
📢💻 【省心锐评】
OpenAI的阳谋是操作系统,Agent是灵魂。国内巨头若只做应用,恐将沦为生态的打工者,窗口期已然不多。
评论