【摘要】AI规模化常败在数据链路、调度、IO与尾延迟,场景画像与软硬协同才决定成本和稳定性。

引言

2025 年的生成式 AI 已经不缺模型,也不缺算力口号。更常见的情况是,企业把试点跑通了,却迟迟不敢把它推到核心链路里。原因不复杂,业务要的是稳定、可控、可复用的产出,技术团队给出的往往是一次性的“能用”,两者之间隔着工程化和成本结构这条鸿沟。

MIT 在 2025 年 7 月发布的《The GenAI Divide: State of AI in Business 2025》给了一个很刺眼的现实。全球 300 亿到 400 亿美元的 AI 转型投入里,绝大多数项目停留在试点阶段,难以产生可衡量的业务价值,真正跨越到规模化的比例很低。把问题归因到“模型还不够强”很省事,但也最误导。规模化阶段的失败,往往不是算力不足,而是算力被用在了错误的位置。

很多团队在一次次“上 GPU,上更大模型”的循环里消耗预算,却没有把端到端链路拆开看。数据从哪里来,怎么清洗、转码、压缩、检索,特征怎么存,RAG 怎么读,在线服务的 P99 怎么控,系统抖动怎么收敛,弹性怎么做,合规怎么落地。这些环节里,GPU 只是其中一段,甚至不是最难的一段。把 AI 落地简化成 GPU 采购清单,是一种典型的工程错觉。

接下来讨论的重点只有一个。AI 落地要从行业口号回到业务场景,把算力需求做成“画像”,再用软硬协同把性能、成本、稳定性拉到同一张表里对齐。

◆ 一、GPU崇拜为何会让项目走偏

1.1 规模化失败的常见形态

试点阶段的成功标准通常很宽松,能展示效果就算赢。规模化阶段的标准很硬,线上要有 SLA,成本要能解释,安全要能审计,出了问题要能回滚。很多项目在扩容时突然失速,表现形式很固定。

1.1.1 端到端时延并不由模型决定

在线业务的用户体验看的是端到端时延,尤其是 P99、P999。模型推理时延只占其中一段,前后处理、特征读取、向量检索、缓存未命中、跨可用区网络、容器冷启动、线程调度抖动,都可能把尾延迟拉爆。只优化 GPU 推理毫秒数,无法解决尾延迟的秒级波动。

1.1.2 单位成本失控并不来自模型价格

规模化后最敏感的是单位成本,例如每千次请求成本、每分钟视频成本、每 GB 数据处理成本。很多系统的成本大头不是 GPU 推理本身,而是数据管道长期跑满、存储回源频繁、CPU 预处理吞吐不足导致 GPU 空转、离线任务调度不合理导致资源碎片化。成本失控常见的根因是链路效率,而不是模型 license 或卡价。

1.1.3 系统稳定性变差并不是模型不稳定

规模化以后,系统面对的是复杂输入、异常流量、依赖抖动、跨地域访问、合规策略差异。模型只是一段计算,真正影响稳定性的是工程系统,例如熔断与限流策略、依赖超时配置、缓存层击穿、索引重建窗口、队列积压处理、跨区灾备演练。把故障归因到模型波动,常常是对系统问题的回避。

1.2 “GPU算力等于AI能力”这句话的问题

“算力越强效果越好”在研究阶段有一定道理,但在工程落地里,它把多维约束压扁成单指标,容易产生三个偏差。

第一,GPU 强并不等于系统强。很多链路的瓶颈在 CPU、内存带宽、网络和存储,GPU 再多也会被喂不饱。

第二,SOTA 并不等于可用。模型越大,输入输出越复杂,对上下游链路的压力越大,反而更难达成稳定的 SLA。

第三,采购并不等于能力。企业真正缺的是持续交付能力,包括数据治理、评测体系、可观测性、成本核算、弹性调度、安全合规。GPU 只能买到峰值算力,买不到端到端确定性。

1.3 把需求从“行业”切到“场景”才有解

同一个行业里,算力需求可以相差一个数量级。金融既有离线风控训练,也有在线实人认证。制造既有视觉质检在线推理,也有离线数据回放。游戏既有大厅在线服务,也有战斗服低抖动计算。行业标签只能告诉你业务大概在哪,不能告诉你系统会卡在哪里。

场景画像比行业标签更可靠。画像的核心不是一句话描述,而是指标集合和资源模型。做到这一步,选 GPU、选 CPU、选网络规格才有依据。

◆ 二、场景化算力的三类“底层特征”

把复杂需求压缩成三类特征不是为了偷懒,而是为了把系统指标和资源手段对齐。落地时可以用这三类作为第一层分类,然后在每一类里再细分业务子场景。

2.1 在线业务 低时延、高并发、高可用

在线业务的共同点是用户在等结果,系统容错空间很小。典型包括 Web、数据库服务、IoT 平台长连接、实时认证、在线推理与智能体服务。

2.1.1 在线业务真正看的是尾延迟

在线系统优化不能只看平均值,必须围绕 P95、P99、P999 做闭环。常见的尾延迟来源包括缓存不命中、向量检索回源、序列化与反序列化、线程调度抢占、NUMA 访问、跨区网络抖动、虚拟化开销。在线系统的优化目标是把抖动变小,把可解释性变强。

2.1.2 在线业务的资源模型更像“峰值防御”

很多在线系统的瓶颈在峰值时刻,例如活动流量、夜间设备上报高峰、跨国访问波动。资源策略要兼顾弹性和隔离,否则会出现相互挤压,导致业务互相拖垮。

2.2 离线业务 高吞吐、高效率、成本控制

离线业务的共同点是处理量大、时效性相对可控、成本敏感。典型包括训练前数据处理、PB 级多模态清洗、转码压缩、批量检索、索引构建、仿真任务流水线。

2.2.1 离线链路里 CPU 经常是主角

自动驾驶数据工程就是典型例子。多模态数据的清洗、畸变校正、转码、压缩、切片、抽帧、特征提取,很多都是 CPU 密集型工作。GPU 负责训练,但训练之前的准备决定了 GPU 的利用率。离线链路的关键指标是吞吐和单位成本,GPU 空转是最贵的浪费。

2.2.2 离线链路要把 IO 变成可控变量

离线任务经常被存储和网络拖慢。把冷热数据分层、压缩格式选择、并行度控制、批处理窗口、对象存储读写模式,都会直接影响吞吐。只在计算侧加卡,无法解决 IO 瓶颈。

2.3 高主频低抖动业务 游戏、量化交易、实时仿真

这类业务的共同点是对抖动极敏感,算力波动会直接变成体验或收益波动。游戏强调稳定帧时间和网络同步,量化交易强调微秒级路径稳定,实时仿真强调确定性。

2.3.1 抖动来自哪里

抖动常见来源包括 CPU 频率波动、邻居噪声、虚拟化层开销、NUMA 跨节点访问、GC 暂停、锁竞争、网络队列拥塞。这一类系统的优化重点是确定性,不是峰值。

2.3.2 资源隔离比弹性更重要

高主频低抖动业务可以接受更高成本,但不能接受不可预测。资源隔离、绑核、拓扑感知调度、网络栈优化,比“多开几台”更有效。

2.4 一张表把三类场景的指标对齐

场景类型

核心指标

常见瓶颈

优先手段

在线业务

P99、可用性、并发、QPS

尾延迟、缓存击穿、虚拟化、网络抖动

拓扑感知调度、缓存与索引优化、网络吞吐与隔离、弹性策略

离线业务

吞吐、单位成本、资源利用率

IO、预处理、转码、压缩、数据搬运

并行流水线、压缩与卸载、内存带宽、冷热分层、批处理窗口

低抖动业务

帧时间稳定、微秒级延迟稳定

频率波动、邻居噪声、跨 NUMA

绑核与隔离、频率稳定、网络栈优化、拓扑固定

把业务归类到这张表里,选型和优化才会变得可执行。

◆ 三、CPU为何重新回到核心位置

GPU 对矩阵计算很强,这一点没有争议。问题在于,企业的 AI 系统并不是一段矩阵计算,它是一条链路。链路里最容易被忽略的部分,常常由 CPU 决定上限。

3.1 端到端链路里 CPU 负责“前后左右”

很多团队把 CPU 视为“只能跑业务逻辑”,这已经过时了。现代 CPU 在数据处理、向量计算、压缩解压、加密、网络栈、调度方面都扮演关键角色。放到 AI 链路里,它承担的工作包括但不限于以下几类。

3.1.1 数据预处理和转码

视频转码、抽帧、图像解码、音频处理、日志解析、特征拼接,这些操作对 CPU 和内存带宽敏感。离线任务里,预处理吞吐决定训练供给速度。在线任务里,预处理时延决定尾延迟。

3.1.2 检索与 RAG 的高频数据访问

RAG 场景的瓶颈经常出现在向量检索和文本检索的组合上。索引扫描、缓存命中、序列化开销、网络回源,都是 CPU 和 IO 的工作。RAG 做不稳,很多时候不是 embedding 不好,而是检索链路不稳。

3.1.3 服务编排和调度

在线推理服务要做线程池、队列、限流、熔断、批处理、优先级,调度策略不合理会带来排队放大和尾延迟扩散。调度是 CPU 的工作,也是系统工程能力的集中体现。

3.2 以“指令与加速”补齐 CPU 在 AI 负载的短板

讨论 CPU 不是回到纯通用计算,而是讨论它在 AI 负载里的效率。以业界常用的矩阵指令加速、向量指令、压缩卸载为例,它们可以把原本占 CPU 周期的热路径压下去,把单位成本做出来。

这里不展开具体品牌对比,只强调一个工程规律。**只要 AI 系统里存在大量前后处理、检索、压缩、加密、协议栈工作,CPU 的能力就会影响 GPU 的利用率和系统的尾延迟。**规模化阶段,这往往比单次推理快多少更重要。

3.3 一张“链路视角”的示意图

这张图想表达的点很简单。GPU 只在 D 处是主角,但 B、C、E、F 的问题会决定 D 能不能持续满载,也会决定端到端 SLA 能不能守住。

◆ 四、把“场景画像”落到工程动作

很多团队知道要“按场景优化”,但落地时容易停在概念层。工程上更有效的方法是把场景画像变成指标表,再把指标表变成资源和代码层的动作清单。

4.1 先做指标再做选型

在线、离线、低抖动三类场景各自最关键的指标不同,不能混用。

4.1.1 在线业务的指标最小集合

在线业务至少要有以下四类指标,并且要能按业务维度切片。

  • SLA 指标,例如成功率、超时率

  • 时延指标,例如 P50、P95、P99、P999

  • 并发与队列指标,例如队列长度、排队时长、拒绝率

  • 依赖指标,例如缓存命中率、回源时延、跨区调用比例

没有 P99 和依赖分解,在线业务的优化方向经常是拍脑袋。

4.1.2 离线业务的指标最小集合

离线业务要把吞吐、成本和资源利用率绑定起来看。

  • 吞吐指标,例如每小时处理数据量、每节点吞吐

  • 成本指标,例如每 TB 处理成本、每分钟任务成本

  • 利用率指标,例如 CPU 利用率、IO 吞吐、GPU 利用率

  • 稳定性指标,例如失败重试率、任务拖尾分布

离线链路最怕平均值好看,拖尾把窗口撑爆。

4.1.3 低抖动业务的指标最小集合

这类业务要用稳定性指标替代平均性能指标。

  • 抖动指标,例如帧时间方差、延迟抖动分位数

  • 频率稳定性指标,例如全核频率波动范围

  • 调度干扰指标,例如上下文切换、抢占次数

  • 网络稳定性指标,例如丢包、队列抖动

4.2 再把指标映射到“资源与架构动作”

下面是一张更贴近工程实施的映射表,方便在评审时对齐。

问题信号

常见根因

优先动作

P99 突刺

依赖回源、缓存击穿、线程排队

依赖超时分级、缓存预热、批处理与限流、线程池隔离

GPU 利用率低

CPU 预处理慢、数据搬运慢、IO 饱和

提升预处理并行度、压缩卸载、数据分片、提升带宽与缓存命中

吞吐不线性扩展

锁竞争、NUMA 跨节点、队列积压

拓扑感知调度、减少共享状态、分区队列、绑核

延迟抖动大

频率波动、邻居噪声、虚拟化开销

资源隔离、频率策略、网络隔离、减少跨节点访问

这张表里有一个共同点。动作大多不是“换更大模型”,也不是“多买几张卡”,而是围绕链路效率和确定性做系统工程。

◆ 五、案例视角下的“同名需求,不同本质”

行业里经常出现同一句需求,比如高并发、低时延、降本增效。真正决定方案的,是需求背后的约束。

5.1 金融安全的高并发是零容错

实人认证、反欺诈、深度伪造对抗这类系统的特征是风险高、链路短、合规重。它需要在很短时间内并行完成多任务,并且对数据访问和审计留痕有硬要求。工程上常见的关键点包括并行流水线、低尾延迟、数据加密与隔离、跨地域一致性策略。

在这类场景里,**算力不是单点峰值,算力是可预测的响应时间。**这也是很多团队开始关注通用计算与云侧调度能力的原因,例如更好的缓存与内存带宽、更低的虚拟化损耗、更稳定的网络路径,往往比单次推理快几毫秒更有效。

5.2 游戏的高并发是零抖动

游戏服的压力不只在并发连接,更多在高频同步、物理仿真、AI 逻辑、状态广播。玩家感知的是帧时间稳定和延迟稳定。这里的关键不是平均性能,而是抖动控制,包括线程调度隔离、频率稳定、网络隔离、拓扑固定。

低抖动业务的本质是确定性工程。这类工程做得好,体验会稳到玩家不说话。做不好,社区会替你说。

5.3 自动驾驶离线链路的关键是吞吐和成本

自动驾驶的数据工程常见痛点在 PB 级数据处理,包括多模态清洗、转码、压缩、抽帧、标注协同、仿真回放、相似度检索。GPU 训练消耗高,但训练效率取决于数据供给效率。工程上最常见的浪费,是 GPU 等数据,或者一边等一边空转。

离线链路的降本路径往往来自 CPU 预处理、压缩卸载、存储分层、调度策略,而不是减少训练轮次。

5.4 AIoT 平台的核心是连接稳定性和峰值守护

千万级设备长连接的系统面对的是持续在线、状态上报、指令下发、夜间峰值。它更接近通信系统,对网络吞吐、连接维护、稳定性、热升级能力敏感。这里的“算力”常常被网络与系统开销重新定义。

在线连接型系统的成本优化,核心是单位连接成本和故障域控制。

◆ 六、软硬协同不是口号,是一套可验证的方法

把“软硬协同”讲清楚,要回到可验证的东西,例如指标提升、成本下降、迁移复杂度降低。以业界公开信息较多的云实例升级为例,像采用新一代通用 CPU 并结合云侧卸载与调度架构的路线,通常带来三类变化。

第一类是通用负载性能提升,例如数据库、Web、Java 等工作负载在新一代实例上获得可量化提升。第二类是单位成本下降,例如同等目录价格下性能上升,或者在性能更高的同时价格不升反降。第三类是迁移门槛降低,例如不改代码就能享受到指令级加速、缓存与内存带宽提升、虚拟化开销下降等红利。

这三类变化之所以重要,是因为它们符合规模化落地的真实约束。企业可以接受渐进式升级,但很难接受大规模重构。能在不大改系统的前提下,让端到端链路更稳、更省,这类提升才会被业务买单。

结论

AI 落地进入深水区后,失败和成功的分界线开始从模型侧移到系统侧。试点阶段比的是“有没有效果”,规模化阶段比的是“能不能稳定交付,能不能把单位成本压下来”。这要求团队放下对单一硬件指标的迷信,把业务拆成可度量的链路,再用场景画像把指标、资源、架构动作对齐。

别只盯着 GPU。GPU 解决的是一段计算,场景化算力解决的是整条链路。当在线业务的尾延迟可控,离线链路的吞吐和成本可控,低抖动业务的确定性可控,AI 才会从演示走到生产,从试点走到规模化。

📢💻 【省心锐评】

规模化AI拼的是链路效率和确定性,先做场景画像和指标拆解,再谈GPU和大模型,成功率会高很多。