【摘要】深度拆解 MaaS 商业模式下的 Token 计费体系,对比文生文、文生图、文生视频的计算成本差异,解析厂商定价策略与行业竞争格局,提供全链路 AI 成本控制方法与模型选型指南,帮助开发者精准管控 AI 应用成本并做出最优技术决策。
引言
AI 生成技术正从文本向多模态快速演进,文生视频的突破让内容生产进入全新阶段。但多数开发者对 AI 模型的计费规则缺乏系统认知,常出现 demo 阶段突然产生高额费用、成本预估严重偏差等问题。本文面向 AI 应用开发者、技术架构师和产品经理,从 Token 的本质出发,系统解析三类主流 AI 生成模型的计费规则与计算原理,拆解 MaaS 厂商的成本结构与定价逻辑,并提供可落地的成本优化方案与模型选型建议。
一、🔑 Token:AI 计费体系的基石
%20拷贝.jpg)
1.1 Token 的本质与定义
Token 是大模型词表中的一个条目,是模型理解和处理信息的最小语义单元。大语言模型无法直接理解自然语言,必须先将文本转换为 Token 序列,经过神经网络计算后,再将输出的 Token 序列转换回自然语言。这个转换过程称为 Token 化,是所有 AI 交互的前置步骤。
不同语言和内容的 Token 化效率存在显著差异。对于中文普通文本,1 个汉字约等于 1.3 个 Token,一段 1000 字的中文文章大约消耗 1300 个 Token。如果文本包含大量代码、数学公式、特殊符号或罕见词汇,Token 数量会显著增加,极端情况下可能达到汉字数量的 2-3 倍。
为什么不同模型的 Token 换算比例不同?核心原因在于词表大小和分词算法的差异。GPT 系列模型使用 50257 个条目的词表,而多数国产大模型采用更大的中文优化词表,分词粒度更粗,相同长度的中文文本会生成更少的 Token。例如,doubao-seed 系列模型的中文 Token 化效率比 GPT-4 高约 15%-20%。
1.2 Token 化的技术原理
主流大模型普遍采用 BPE(字节对编码)算法进行 Token 化。BPE 的核心思想是通过统计学习,将频繁出现的字节对合并为子词,在控制词表大小的同时,最大限度保留语义完整性。
BPE 算法的执行流程分为三个阶段:
初始化阶段:将所有文本拆分为单个字节,词表初始化为所有 ASCII 字符和特殊符号。
合并阶段:统计训练语料中最频繁出现的字节对,将其合并为一个新的子词并加入词表。重复此过程直到词表达到预设大小。
推理阶段:将输入文本拆分为单个字节,然后按照训练阶段学习到的合并规则,逐步将字节合并为子词,最终生成 Token 序列。
这种子词分词方式解决了传统分词方法的两个核心问题:一是避免了词表过大导致的计算效率低下,二是能够处理训练语料中未出现的罕见词,通过拆分为子词的方式保留语义信息。
1.3 Token 计费的核心逻辑
AI 模型按 Token 计费而非按字数或请求数,本质是因为模型的计算量与 Token 数量直接相关。不同长度的请求消耗的 GPU 算力差异巨大,按请求数计费会导致短请求补贴长请求的不公平现象,也无法准确反映实际的资源消耗。
Token 计费的核心原则是 “谁消耗谁付费”。模型处理每个 Token 都需要占用 GPU 的计算和内存资源,处理的 Token 数量越多,消耗的算力越多,费用也就越高。这种计费方式对厂商和用户都更加公平,能够准确反映服务的实际成本。
需要注意的是,Token 计费通常采用 “向上取整” 规则。如果一次请求的 Token 数量不足 1000,多数厂商会按 1000Token 计费。对于大量短请求的场景,这种规则会导致实际成本高于理论计算值,开发者在成本预估时需要考虑这一因素。
二、📊 三类 AI 生成模型的计费规则深度对比
%20拷贝.jpg)
2.1 文生文模型:输入输出分离的线性计费
2.1.1 基础计费公式与组成部分
文生文模型是目前应用最广泛的 AI 模型,其计费规则相对简单,采用输入和输出分离的线性计费方式。完整的计费公式为:
在线推理费用 = 输入单价 × 输入 Token + 缓存输入单价 × 缓存命中 Token + 缓存存储单价 × 缓存存储 Token × 时长 + 输出单价 × 输出 Token
输入 Token 由三部分组成:
系统提示词:开发者为模型设定的角色、行为规则和输出格式要求,通常长度在 100-2000Token 之间。
历史对话:之前所有轮次的用户提问和模型回复,随着对话轮次增加会不断累积。
当前用户输入:用户本次发送的具体问题或指令。
输出 Token 仅包含模型生成的回复内容。多数模型的输出单价显著高于输入单价,通常是输入单价的 2-5 倍。
下表为火山引擎主流文生文模型的常规在线推理单价(单位:元 / 百万 Token):
部分模型采用分段计费规则,根据输入长度的不同适用不同的单价。输入长度越长,单位 Token 的价格越高。这是因为长上下文需要更大的 GPU 内存和更多的计算资源,处理难度显著增加。
2.1.2 输入输出定价差异的技术根源
输出 Token 单价高于输入 Token,本质是由大模型推理过程的两个阶段的计算特性决定的:
Prefill 阶段(预填充):处理输入 Token。该阶段可以并行计算,模型同时处理所有输入 Token,计算速度快,GPU 利用率高。
Decode 阶段(解码):生成输出 Token。该阶段必须串行计算,模型每次只能生成一个 Token,且每生成一个 Token 都需要参考之前所有的输入和已生成的输出 Token。
生成一个输出 Token 的 GPU 计算时间大约是处理一个输入 Token 的 5-10 倍。这就是为什么输出 Token 的单价通常是输入 Token 的 2-5 倍。对于长输出场景,输出部分的费用会占据总费用的 80% 以上。
为什么长上下文对话的成本会快速上升?因为每次新的请求都需要重新处理所有历史对话 Token。例如,一个 10 轮的对话,第 10 轮请求的输入 Token 包含了前 9 轮的所有内容,输入 Token 数量是第 1 轮的 10 倍以上。如果不加以控制,长对话的成本会呈指数级增长。
2.1.3 缓存机制对成本的影响
多数主流模型支持透明前缀缓存功能,能够显著降低重复请求和长对话的成本。缓存机制的工作原理是:当多个请求有相同的前缀(如相同的系统提示词和历史对话),模型会将这部分的计算结果缓存起来,后续请求只需要处理新增的输入部分,不需要重新计算整个前缀。
缓存计费分为两部分:
缓存存储费用:按缓存的 Token 数量和存储时长计费,通常为 0.017 元 / 百万 Token / 小时。
缓存输入费用:命中缓存的 Token 按更低的单价计费,通常为正常输入单价的 20%。
对于多用户共享相同系统提示词的场景,缓存机制可以降低 50% 以上的输入成本。对于长对话场景,合理利用缓存可以将输入成本降低 30%-70%。优化建议包括尽量复用系统提示词、避免频繁修改系统提示词、定期清理不必要的历史对话。
2.2 文生图模型:按张计费的像素成本逻辑
2.2.1 为什么文生图不按 Token 计费
文生图模型的计费方式与文生文模型完全不同,采用按 “张” 计费的方式。这是因为文生图的成本主要集中在图片生成阶段,而不是文本理解阶段。
理解一段生成图片的 Prompt 通常只需要几百个 Token,消耗的计算资源可以忽略不计。但生成一张 1024×1024 的图片,需要扩散模型在像素级别进行数百万次的迭代计算,消耗的 GPU 算力是处理相同长度文本的数百倍。因此,文生图的计费单位是 “张” 而不是 “Token”。
2.2.2 影响文生图价格的核心因素
文生图的价格并非固定值,主要受三个因素影响:
分辨率:分辨率是影响价格的最主要因素。图片的像素量与价格近似成正比,2048×2048 图片的像素量是 1024×1024 的 4 倍,价格也约为 4 倍。
推理步数:扩散模型从纯噪声逐步去噪到最终图片的迭代次数。步数越多,图片质量越高、细节越丰富,但计算时间越长。主流 API 默认使用 30-50 步,部分模型支持自定义步数,更高的步数需要支付额外费用。
图片数量:多数平台支持一次生成多张图片,按实际生成的数量计费。例如,Midjourney 默认一次生成 4 张图片,即使只选择其中 1 张,也需要支付 4 张的费用。
下表为火山引擎主流文生图模型的单价:
2.2.3 文生图的成本优化技巧
优先使用满足需求的最低分辨率。多数场景下 1024×1024 的分辨率已经足够,不需要盲目追求 2048×2048 或更高分辨率。
一次生成 1 张图片,避免不必要的浪费。只有在需要对比不同生成效果时,才生成多张图片。
利用批量生成接口。多数平台提供批量生成功能,批量生成的单张价格比单次生成低 10%-20%。
避免过于复杂的 Prompt。过于复杂的描述会增加模型的生成难度,导致生成失败率上升,间接增加成本。
2.3 文生视频模型:三维计算的指数级成本
2.3.1 视频生成的 Token 计算公式
文生视频是当前所有 AI 生成模式中成本最高的,一段 5 秒的 1080p 视频价格可能相当于生成 50-100 张同分辨率的图片。文生视频模型仍然采用按 Token 计费的方式,但其 Token 计算规则与文生文模型完全不同。
火山引擎视频生成模型的 Token 计算公式为:
Token 用量 = (输入视频时长 + 输出视频时长) × 输出视频的宽 × 输出视频的高 × 输出视频的帧率 / 1024
总成本 = Token 单价 × Token 用量
视频生成的 Token 用量由三个维度共同决定:
空间维度:由输出视频的分辨率决定,宽 × 高的乘积越大,Token 用量越多。4K 视频每帧的像素量是 720p 的 9 倍,Token 用量也约为 9 倍。
时间维度:由视频时长和帧率决定,总帧数 = 时长 × 帧率,总帧数越多,Token 用量越多。10 秒 30fps 的视频有 300 帧,Token 用量是 5 秒 24fps 视频的 2.5 倍。
输入维度:如果输入包含图片或视频,会额外增加 Token 用量。输入视频的时长越长,Token 用量越多。
2.3.2 5 秒视频 39 元的成本拆解
回到文章开头的案例,使用 doubao-seedance-2.0 模型生成一段 5 秒 1080p 的图生视频,费用约 39 元。我们可以通过官方定价公式进行详细拆解:
根据火山引擎官方文档,doubao-seedance-2.0 模型 1080p 分辨率下,输入包含视频的 Token 单价为 31 元 / 百万 Token。5 秒 1080p 视频的最低 Token 用量限制为 437400Token。
假设输入参考视频时长为 10 秒,输出视频时长为 5 秒,帧率为 24fps,宽 1920,高 1080:
Token 用量 = (10+5) × 1920 × 1080 × 24 / 1024 = 15 × 49766400 / 1024 ≈ 729000 Token
总成本 = 729000 × 31 / 1000000 ≈ 22.6 元
如果输入视频时长为 20 秒,Token 用量将达到:
Token 用量 = (20+5) × 1920 × 1080 × 24 / 1024 ≈ 1215000 Token
总成本 = 1215000 × 31 / 1000000 ≈ 37.7 元
这与实际支付的 39 元基本一致。需要注意的是,官方规定了不同时长视频的最低 Token 用量限制。如果计算出的 Token 用量低于最低限制,将按最低限制计费。例如,5 秒 1080p 视频的最低 Token 用量为 437400,即使输入视频时长为 0,也需要支付 437400×31/1e6≈13.56 元。
为什么视频生成的成本远高于图片生成?因为视频生成除了空间维度的像素计算,还增加了时间维度的帧间一致性计算。模型需要保证相邻帧之间的物体位置、颜色、光照等保持一致,不能出现跳变。这需要模型在生成每帧时参考之前的多帧信息,显著增加了计算复杂度和内存消耗。
2.3.3 视频生成的成本优化最佳实践
原型阶段优先使用 fast 模型和低规格参数。doubao-seedance-2.0-fast 模型的价格比标准版低约 20%,生成速度更快。原型验证阶段使用 480p 分辨率和 15fps 帧率,可以将成本降低 70% 以上。
尽量使用文生视频而非图生视频或视频生视频。输入视频会显著增加 Token 用量,文生视频的成本通常只有图生视频的 50%-60%。
合理控制单段视频时长。利用最低 Token 限制,将单段视频时长控制在 5-10 秒之间。例如,4 秒视频的最低 Token 用量为 340200,5 秒为 437400,生成 5 秒视频的单位时长成本更低。
分片段生成再后期拼接。避免生成超过 15 秒的长视频,将长视频拆分为多个 5-10 秒的片段分别生成,再通过剪辑软件拼接。这样可以避免长视频的高失败率和高成本。
优化提示词质量。清晰、准确的提示词可以提高生成成功率,减少重复生成的次数。避免使用过于模糊或复杂的描述,降低模型的生成难度。
为什么不同视频模型的价格差异这么大?核心原因在于模型架构和生成质量的差异。doubao-seedance-2.0 采用了最新的扩散 Transformer 架构,支持 1080p 高分辨率和高帧率,帧间一致性和细节表现远优于前代模型,因此定价更高。而 seedance-1.5-pro 虽然价格更低,但仅支持 720p 分辨率,生成质量也稍逊一筹。
三、💰 MaaS 厂商的成本结构与定价策略
%20拷贝-dhot.jpg)
3.1 大模型服务的五大成本构成
MaaS(模型即服务)厂商的成本主要由五部分组成,其中 GPU 算力成本是最大的支出项:
GPU 算力成本是决定大模型服务价格的核心因素。一张 NVIDIA H100 GPU 的售价约为 20-30 万元,一个拥有 1000 张 H100 的推理集群硬件投入就超过 2.5 亿元。按 3 年折旧计算,每年的折旧成本约 8300 万元。加上电力、人力和其他成本,这个集群每年的运营成本约 1.2 亿元。
如果这个集群每天能够处理 1 亿个 Token,那么每个 Token 的平均成本约为 0.00033 元,即 0.33 元 / 百万 Token。这就是为什么多数轻量级文生文模型的输入单价在 0.3-1 元 / 百万 Token 之间,基本覆盖了硬件和运营成本。
3.2 厂商定价差异的核心驱动因素
当前市场上不同厂商的模型价格差异巨大。例如,GPT-4 Turbo 的输入单价约为 70 元 / 百万 Token,输出约 210 元 / 百万 Token;而 DeepSeek-V3 的输入单价仅为 2 元 / 百万 Token,输出为 8 元 / 百万 Token,价格相差 30 倍以上。这种巨大的价格差异主要由三个因素决定:
3.2.1 推理优化技术的差距
推理优化技术是导致价格差异的最主要因素。优秀的推理优化可以将模型的推理成本降低一个数量级。主流的推理优化技术包括:
量化:将模型的权重和激活值从 32 位浮点数降低到 8 位或 4 位整数,减少计算量和内存占用。4 位量化可以将推理成本降低 75% 以上。
蒸馏:用大模型训练一个更小的学生模型,在保持大部分性能的同时,显著降低推理成本。
投机解码:用一个小模型预测大模型的输出,一次性生成多个 Token,然后由大模型验证,提高解码速度。
MoE 架构:混合专家架构,每次推理只激活部分专家网络,而不是整个模型,大幅降低计算量。
DeepSeek 之所以能够定出极低的价格,核心原因就是其在推理优化上做到了极致。DeepSeek-V3 采用了 MoE 架构,每次推理仅激活约 1/7 的专家,推理成本仅为同级别稠密模型的 1/10 左右。
3.2.2 算力基础设施的成本差异
海外厂商主要依赖 NVIDIA GPU,价格高且供应紧张。而国内厂商部分采用国产 GPU,如华为昇腾 910B、寒武纪思元 590 等,采购成本比 NVIDIA H100 低 30%-50%。此外,中国的工业电价和人力成本也低于美国,进一步降低了运营成本。
云厂商的规模效应也会影响算力成本。阿里云、腾讯云、火山引擎等头部云厂商拥有大规模的 GPU 集群,能够通过资源复用和调度优化,降低单位算力的成本。而小型厂商的算力成本通常比头部云厂商高 20%-50%。
3.2.3 市场定位与定价策略
不同厂商采取了不同的定价策略,以适应其市场定位:
高价值定价:代表厂商为 OpenAI 和 Anthropic。它们的模型质量处于行业领先地位,拥有强大的品牌溢价,因此采取高价格高利润的策略,用高利润支持持续的研发投入。
渗透定价:代表厂商为 DeepSeek 和部分国产模型。它们通过极低的价格快速获取用户和市场份额,建立生态壁垒,期待通过规模效应降低成本后实现盈利。
性价比定价:代表厂商为字节跳动、百度、阿里等国内大厂。它们的模型质量接近海外头部模型,但价格更低,主打性价比,吸引对价格敏感的企业用户。
3.2.4 开源模型的价格天花板效应
开源模型的存在为闭源模型的定价设定了一个无形的天花板。如果闭源模型的价格远高于自部署开源模型的成本,用户就会选择自部署开源模型。
例如,自部署一个 7B 参数的开源模型,使用单张 RTX 4090 GPU,每天可以处理约 1000 万 Token,硬件成本约 1.5 万元,年电费约 2000 元,平均每个 Token 的成本约为 0.000005 元,即 0.005 元 / 百万 Token。这就是为什么轻量级闭源模型的价格不能定得太高,否则会失去竞争力。
DeepSeek 正是利用了这一点,将其 API 价格降到了接近开源自部署的成本,从而吸引了大量原本打算自部署开源模型的用户。
3.3 MaaS 商业模式的本质与挑战
MaaS 商业模式的本质是前期高固定成本,后期低边际成本。模型训练和基础设施搭建需要投入巨额的固定成本,但一旦模型和基础设施就绪,每增加一个请求的边际成本非常低。
这种商业模式决定了 MaaS 厂商必须追求足够大的用户规模,才能摊薄前期的固定成本,实现盈利。当前多数 MaaS 厂商仍处于亏损状态,主要原因是用户规模还不够大,无法覆盖前期的研发和基础设施投入。
MaaS 行业面临的主要挑战包括:
算力短缺:高端 GPU 供应紧张,限制了厂商的服务能力和扩张速度。
价格战:随着模型能力的趋同,价格成为主要的竞争手段,压缩了整个行业的利润空间。
差异化竞争:厂商需要在模型能力、服务质量、生态建设等方面做出差异化,避免陷入单纯的价格战。
成本控制:持续优化推理技术和运营效率,降低单位算力成本,是厂商保持竞争力的关键。
四、🛠️ 开发者 AI 成本控制与模型选型指南
4.1 不同场景的模型选型原则
模型选型的核心原则是在满足业务需求的前提下,选择性价比最高的模型。不同的业务场景对模型的能力要求不同,对应的最优模型也不同:
对于对延迟不敏感的批量处理任务,优先使用批量推理接口。批量推理的价格通常比在线推理低 50%,能够显著降低大规模数据处理的成本。
4.2 全链路成本优化技巧
4.2.1 文生文场景优化
精简系统提示词,只保留必要的角色设定和输出规则。避免在系统提示词中加入无关的内容。
采用滑动窗口机制管理历史对话,只保留最近的 5-10 轮对话,而不是全部历史。对于不需要长上下文的场景,可以限制历史对话的最大长度。
充分利用缓存机制。对于多用户共享的系统提示词,开启前缀缓存功能,可以降低 50% 以上的输入成本。
限制输出长度。在 API 请求中设置 max_tokens 参数,避免模型生成不必要的长文本。
合并小请求。对于大量短请求,可以将多个请求合并为一个大请求,减少 API 调用次数和向上取整带来的额外成本。
4.2.2 文生图场景优化
使用满足需求的最低分辨率。多数展示场景下 1024×1024 的分辨率已经足够,不需要盲目追求更高分辨率。
一次生成 1 张图片。只有在需要对比不同效果时,才生成多张图片。
避免使用过高的推理步数。默认的 30-50 步已经能够满足大多数场景的需求,更高的步数对质量的提升有限,但会显著增加成本。
利用批量生成功能。如果需要生成多张图片,使用批量生成接口,单张价格更低。
4.2.3 文生视频场景优化
原型阶段使用 fast 模型和 480p 分辨率。验证效果后再升级到标准版和更高分辨率。
优先使用文生视频。图生视频和视频生视频的成本是文生视频的 2-3 倍,除非必要,尽量避免使用。
控制单段视频时长在 5-10 秒之间。利用最低 Token 限制,提高单位时长的性价比。
分片段生成再拼接。避免生成超过 15 秒的长视频,降低失败率和成本。
优化提示词,提高生成成功率。清晰、准确的提示词可以减少重复生成的次数,降低隐性成本。
4.3 成本监控与预警
建立完善的 Token 用量监控体系。实时跟踪各模型、各业务线的 Token 消耗情况,及时发现异常消耗。
设置多级费用预警阈值。当费用达到月度预算的 50%、80%、100% 时,分别触发不同级别的预警,避免意外产生高额费用。
定期进行成本分析。每月分析成本结构,找出消耗最高的环节,针对性地进行优化。
定期对比不同模型的性价比。随着模型的不断更新,新模型的性价比可能会超过旧模型,及时切换到更优的模型可以降低成本。
如何准确估算 AI 应用的月度成本?首先统计典型请求的输入和输出 Token 数,乘以日均请求量,得到月度总 Token 数。然后乘以对应模型的单价,加上缓存费用和其他费用,得到月度成本预估。可以使用厂商提供的价格计算器进行更准确的估算,例如火山引擎的价格计算器支持自定义输入输出 Token 数、请求量等参数,能够生成详细的成本预估报告。
结论
Token 是整个 AI 计费体系的基石,不同类型 AI 模型的计费规则源于其计算特性的本质差异。文生文模型采用输入输出分离的线性计费,输出单价更高是因为解码阶段的串行计算特性;文生图模型按张计费,因为图片生成的像素计算成本远高于文本理解;文生视频模型的高成本则来自空间、时间和一致性三个维度的指数级计算量增长。
MaaS 厂商的定价差异主要由推理优化技术、算力基础设施成本和市场定位决定。头部厂商凭借模型质量和品牌溢价采取高价值定价,追赶者通过低价策略快速获取市场份额,开源模型则为闭源模型设定了价格天花板。
对于开发者而言,控制 AI 应用成本的关键在于合理选型和精细化运营。根据业务场景选择性价比最高的模型,利用缓存、批量推理等技术优化计算效率,建立完善的成本监控体系,能够将 AI 应用的成本降低 50% 以上。
未来 MaaS 市场将逐步从价格竞争转向差异化竞争。模型能力、服务质量、生态建设将成为厂商的核心竞争力。同时,推理技术的持续进步将不断降低 AI 生成的成本,推动 AI 技术在更多行业的普及应用。
📢💻 【省心锐评】
AI 生成成本的本质是算力与算法的博弈,合理选型与精细化运营是控制成本的关键,差异化能力是厂商长期生存的核心。
SEO 关键词:MaaS 计费、Token 消耗、AI 视频成本、大模型定价、推理优化、成本控制
评论