英伟达把“开源大模型”卷到可复现：Nemotron 3 公开权重+数据+训练配方，混合 Mamba/Transformer/MoE 冲长上下文吞吐

【摘要】Nemotron 3 不止是模型，更是可复现的工业级蓝图，定义了开源 AI 的新标准。

引言

大模型领域的开源竞赛，正从单纯的模型权重发布，转向一场关于透明度、可复现性与工程实践的深度博弈。过去，社区获取的开源模型更像是一个功能固定的“黑盒”，其背后的训练数据、优化策略与工程决策往往秘而不宣。这种模式限制了技术的深度消化与二次创新。英伟达 Nemotron 3 系列的发布，则试图彻底打破这一局面。它所代表的，不仅是一个高性能的模型家族，更是一套完整的、可供社区复现的工业级大模型“制造手册”。通过将权重、超大规模数据、训练配方乃至软件工具链全盘托出，英伟达正在推动开源 AI 从“可用”时代，迈向一个全新的“可复现”时代。

一、🎯 开源范式转移：从“可用”到“可复现”的体系化开放

Nemotron 3 的核心价值，在于其对“开源”一词的重新定义。它不再是单一节点的成果分享，而是一整套覆盖模型生命周期的体系化开放，旨在将工业界顶尖的研发流程与资源，转化为社区可触及、可验证、可迭代的基础设施。

1.1 超越权重：一份完整的技术蓝图

传统的开源模式通常止步于模型权重的发布。开发者可以利用这些权重进行推理或微调，但无法探究其“所以然”。Nemotron 3 则提供了一份详尽的技术蓝图，其开放范围涵盖了以下几个关键层面。

模型权重：开放 Nemotron 3 家族多个规模的模型权重，作为直接应用或研究的基础。
训练数据：这是本次开源最具颠覆性的一环。英伟达不仅公布了数据配比，还逐步开放其超过 10 万亿 token 的庞大训练语料库，这为社区研究数据工程对模型能力的影响提供了前所未有的机会。
训练配方与流程：公开详细的预训练与后训练（对齐）方法论，包括超参数设置、数据清洗策略、混合精度训练细节等，相当于公开了模型的“烹饪秘方”。
软件与工具栈：以 Apache 2.0 协议开源 NeMo-RL（可扩展强化学习训练库）与 NeMo-Gym（强化学习环境集合），将 Agent 能力的训练过程工程化、标准化。

这种“全家桶”式的开放，意味着只要具备相应的算力资源，任何团队都有可能复现、验证甚至改进 Nemotron 3 的训练过程，这在根本上提升了开源社区的技术天花板。

1.2 数据宝库：10 万亿 Token 口径的训练语料

数据是驱动大模型的燃料，其质量与规模直接决定了模型的上限。Nemotron 3 在数据开放上的力度是空前的。

数据集名称	规模	主要特点与用途
Nemotron-pretraining	3 万亿 token (已公开部分)	高质量预训练语料，侧重于代码、数学和逻辑推理能力的构建。
Nemotron-post-training 3.0	1300 万条样本	用于监督微调（SFT）和强化学习（RL）阶段，包含高质量的指令与反馈数据。
未来规划语料	超 10 万亿 token	将逐步开放更完整、更多样化的训练数据，为社区提供持续的研究资源。

如此大规模、高质量且经过验证的训练数据公开，其意义深远。它不仅为复现 Nemotron 3 提供了基础，也为学术界和产业界研究数据配比、数据质量对模型能力（如涌现、对齐）的影响提供了宝贵的实验场。

1.3 生态集成：无缝融入主流开发流程

一个成功的开源项目，离不开繁荣的生态支持。英伟达深谙此道，在发布 Nemotron 3 的同时，也为其铺设了完善的生态集成路径。

标准化工具链：开源的 NeMo Gym 和 NeMo RL 库，为开发者提供了一套端到端的 Agent 能力训练与评估框架，降低了从零开始构建复杂 RL 系统的门槛。
主流框架兼容：Nemotron 3 积极适配了业界主流的推理与部署框架，包括 vLLM、SGLang、llama.cpp、LM Studio 等。这确保了开发者可以轻松地将模型集成到现有的应用与服务中，快速实现价值转化。
安全与评估组件：配套提供丰富的模型评估与安全验证工具，帮助用户在部署前对模型的可靠性、偏见和安全性进行全面审查，这在企业级应用中至关重要。

通过这一系列举措，Nemotron 3 不再是一个孤立的模型，而是一个融入全球开发者生态的、即插即用的技术组件。

二、🎯 架构解耦：混合设计的工程哲学

Nemotron 3 的架构设计充分体现了英伟达作为硬件与系统厂商的深刻理解，其核心目标是在保证模型强大能力的同时，将推理效率，特别是长上下文场景下的吞吐量，推向极致。这背后是一种务实的工程哲学，即通过混合不同架构的优势，来应对现实世界中的性能瓶颈。

2.1 Mamba-Transformer 共生：为长序列推理减负

传统 Transformer 架构在处理长序列时，其自注意力机制的计算复杂度与序列长度的平方成正比。更致命的是，在自回归生成任务中，不断增长的 KV Cache 会持续占用大量显存，并成为推理速度的主要瓶颈。

Nemotron 3 的解决方案是引入状态空间模型（SSM）的最新变体 Mamba-2，并与 Transformer 进行深度融合。

Mamba-2 的核心优势：Mamba-2 在生成 token 时，仅需维持一个固定大小的状态（State），其计算与存储开销几乎不随序列长度增长而变化。这从根本上解决了 KV Cache 的膨胀问题。
混合架构的实现：模型并非完全抛弃 Transformer，而是采用了“扬长避短”的策略。以 Nano 型号为例，其网络结构主要由交替堆叠的 Mamba-2 层和 MoE 层构成，仅在特定位置保留了少数几个自注意力层。这种设计旨在利用 Mamba-2 处理长距离依赖的高效率，同时借助注意力层强大的局部信息整合与对齐能力。

这种混合架构带来的性能提升是显著的。在 8k 输入、16k 输出的典型长上下文推理场景下，Nemotron 3 Nano 30B-A3B 的吞吐量可以达到同级别 MoE 模型 Qwen3-30B-A3B 的 3.3 倍，并且序列越长，这一优势越发明显。

更重要的是，这种效率的提升并未以牺牲长上下文任务的鲁棒性为代价。在 RULER 百万 token 基准测试中，Nemotron 3 Nano 基座模型取得了 68.2 分，而其上一代纯 Transformer 架构的 Nemotron 2 Nano 12B 在同样条件下仅得到 23.43 分，出现了性能的“断崖式下跌”。这充分证明了混合架构在**长度外推（Length Extrapolation）**能力上的卓越表现。

2.2 LatentMoE：在潜空间中重构专家网络

混合专家（MoE）架构是扩展模型参数规模、提升模型容量的有效手段。然而，在实际部署中，MoE 模型面临两大工程瓶颈。

低延迟场景：当每次只处理少量 token 时，从海量专家中加载被激活的专家权重所带来的显存带宽开销成为瓶颈。
高吞吐场景：当批处理大量 token 时，不同设备上的专家之间需要进行大规模的数据交换，此时节点间的 All-to-All 通信成为瓶颈。

为解决这一难题，Nemotron 3 的 Super 和 Ultra 型号引入了创新的 LatentMoE 架构。其核心思想是将计算密集且通信密集的专家路由与计算过程，从高维的隐藏空间（Hidden Dimension）转移到低维的潜在空间（Latent Dimension）。

LatentMoE 的工作流程如下：

降维：将输入的 token 表征从原始的隐藏维度 d，通过一个线性投影层，压缩到一个更小的潜在维度 ℓ（通常 ℓ = d/4）。
潜空间计算：在这个低维的 ℓ 空间内完成专家的路由选择和计算。由于维度降低，每个专家的权重大小和 All-to-All 通信的数据量都减少了 d/ℓ 倍。
升维：将潜空间中的计算结果再通过另一个线性投影层，恢复到原始的隐藏维度 d。

这种“先压缩、再计算、后还原”的策略，极大地降低了对显存带宽和网络通信的压力。省下来的计算与通信预算，被巧妙地用于增加专家的总数和每个 token 激活的专家数量，从而在总参数量和激活参数量几乎不变的情况下，提升模型的整体性能。

对比项	标准 MoE (示例)	LatentMoE (Nemotron 3)	提升/变化
总专家数	128	512	增加 4 倍
激活专家数	6	22	增加 3.6 倍
总参数量	~73B	~73B	基本持平
激活参数量	~8B	~8B	基本持平
MMLU-Pro 得分	48.30	52.87	+4.57
代码任务得分	51.95	55.14	+3.19
数学任务得分	78.32	80.19	+1.87

需要强调的是，为了保证模型性能，路由门控网络中的共享专家计算以及非专家层（如 Mamba 层和注意力层）仍然保留在原始的 d 维度进行，因为这些部分对性能瓶颈的贡献相对较小。LatentMoE 是一种外科手术式的精准优化，而非全局性的维度压缩。

三、🎯 训练与对齐：效率与能力的双重极限探索

如果说架构创新是 Nemotron 3 的骨架，那么其训练与对齐策略则是赋予其强大能力的血肉。英伟达在这一环节同样展现了深厚的工程积累，通过极限的低精度训练和先进的强化学习范式，实现了效率与效果的双赢。

3.1 NVFP4：将 4-bit 低精度训练推向主干链路

降低训练成本、提升训练效率是大规模模型研发的永恒主题。英伟达在 Nemotron 3 的训练中，大胆地将自研的 NVFP4（4-bit 浮点）格式应用到了高达 25 万亿 token 级别的预训练中，这标志着极低精度训练技术从实验性探索正式走向了生产级应用。

3.1.1 NVFP4 格式解析

NVFP4 是一种专为 AI 计算设计的 4-bit 浮点格式，其核心是在极低的比特数下最大化信息的表达能力。

元素格式：采用 E2M1 格式，即 2 位指数（Exponent）和 1 位尾数（Mantissa）。
微块缩放：配合 16 个元素的微块（Micro-scaling）和 E4M3 格式的块缩放因子（Block Scaling Factor），以组为单位进行动态范围调整，弥补单元素精度不足的问题。

在硬件层面，英伟达的 GB300 等新一代计算卡对 FP4 提供了原生支持，其峰值吞吐量是 FP8 的 3 倍，能效比极高。

3.1.2 性能与稳定性的权衡

大规模采用 NVFP4 训练的最大挑战在于如何在不牺牲模型收敛稳定性和最终性能的前提下，享受其带来的硬件加速红利。Nemotron 3 的实验结果给出了肯定的答案。

损失差距可控：与使用 BF16 格式进行训练相比，采用 NVFP4 训练的 Nano 模型最终的损失（Loss）差距被控制在 1% 以内。对于参数规模更大的 Super/Ultra 模型，由于其更强的容错性，这一差距进一步缩小到 0.6% 以内。
下游任务精度几乎无损：在 MMLU、GSM8K、HumanEval 等多个主流下游任务基准上，NVFP4 训练出的模型与 BF16 版本所展现出的准确率曲线几乎完全重合，证明了该技术在实践中的有效性。

3.1.3 混合精度策略的必要性

尽管 NVFP4 表现出色，但它并非万能药。团队发现，模型中的某些特定层对精度非常敏感，强制进行 4-bit 量化会导致严重的性能下降。因此，Nemotron 3 采用了一套精细的混合精度训练策略。

模块/层	保留精度	原因分析
Mamba 输出投影层	MXFP8	该层在量化到 NVFP4 后，会出现高达 40% 的“flush-to-zero”（因数值过小被直接置零）现象，严重影响信息传递。
QKV 投影与注意力投影	BF16	保留少数注意力层的计算保真度，对于维持模型的关键能力至关重要。
网络最后 15% 的层	BF16	靠近输出层的部分对模型最终的收敛稳定性影响巨大，保持高精度有助于平稳训练。
MTP 层与潜在投影层	BF16	这些层对推理时间的总体影响很小，保留高精度以换取更高的模型质量是值得的。

这种基于实证分析的差异化精度配置，是成功将 NVFP4 应用于超大规模训练的关键所在，体现了深度的模型理解与工程智慧。

3.2 多环境强化学习：一体化的能力对齐范式

模型的对齐（Alignment）是决定其是否能真正“有用”和“安全”的关键一步。传统做法通常是分阶段、分任务地进行对齐，例如先用 SFT 注入基础指令遵循能力，再用 RLHF 提升对话质量，接着针对数学、代码等特定能力进行专项训练。这种方法的弊端在于，新能力的学习往往会造成旧能力的遗忘或退化（Catastrophic Forgetting）。

Nemotron 3 采用了一种更先进的多环境强化学习（Multi-Environment RL）范式，其核心是一次性联合训练（Simultaneous Training）。

同步覆盖多任务：在同一个 RL 训练循环中，模型需要同时处理来自不同“环境”的任务，这些环境覆盖了数学推理、竞赛编程、指令遵循、软件工程、工具使用、长上下文理解等多种复杂场景。
统一的奖励信号：通过设计统一的奖励模型或多目标奖励函数，引导模型在所有关心的能力维度上同步优化。

实验证明，这种同步训练方式相比分阶段训练具有明显优势。

训练过程更稳定：避免了因任务切换导致的能力波动。
有效抑制“奖励黑客”：模型难以通过“钻空子”的方式在单一任务上获得虚高奖励，因为它必须兼顾所有任务的表现。
避免能力回退：各项能力齐头并进，全程呈现稳定上升趋势。例如，模型的 AIME25 数学分数从 80 稳步提升到 90，LiveCodeBench 代码能力从 65 提升到 72。

3.3 加速 RL 训练的工程实践

强化学习，特别是对于大模型而言，需要生成海量的轨迹（Rollout）样本，这是一个巨大的计算开销。Nemotron 3 的高效推理架构在这里发挥了关键作用，但团队还采用了一系列工程手段来进一步加速 RL 训练。

异步 RL 架构：将**训练（策略更新）和推理（样本生成）**两个过程解耦。专用的推理服务器集群负责高效生成海量 rollout 样本，而训练服务器集群则专注于利用这些样本进行模型参数的更新，两者互不阻塞。
多 Token 预测：在生成 rollout 样本时，并非一次只预测一个 token，而是采用一些技巧（如 Speculative Decoding 的变体）来一次性预测多个 token，从而大幅提升样本生成的吞吐量。
策略差异处理：由于采用了异步架构，生成样本的策略（Rollout Policy）与正在训练的策略（Training Policy）之间会存在差异。团队使用 GRPO（Generalized Reward Policy Optimization）配合掩码重要性采样（Masked Importance Sampling）等算法来有效处理这种策略滞后，保证训练的稳定性和有效性。

这些工程优化，使得在可接受的时间内完成对 Nemotron 3 这样规模模型的复杂多环境 RL 训练成为可能。

四、🎯 部署与应用：面向生产的精细化控制

一个模型的最终价值，体现在其在实际应用中的表现。Nemotron 3 在设计之初就充分考虑了生产环境的部署需求，提供了一系列实用特性，帮助开发者在成本、延迟和精度之间找到最佳平衡点。

4.1 “思维预算”：可控的推理成本与精度权衡

在许多需要复杂推理（如思维链 CoT）的场景中，模型生成的中间步骤 token 数量直接决定了推理成本和延迟。Nemotron 3 引入了**“思维预算”（Thinking Budget）**的控制机制。

工作原理：用户可以在发起推理请求时，指定一个思维链的最大 token 数量。
预算触发：当模型生成的中间步骤达到这个预算上限时，系统会自动追加一个特殊标记，提示模型必须基于当前已有的部分思维链，生成最终的答案。

这一功能极为实用。它允许开发者根据不同的应用场景和成本约束，对模型的“思考深度”进行精细化控制。例如，在对延迟要求极高的在线服务中，可以设置一个较小的预算以保证快速响应；而在需要高质量答案的离线分析任务中，则可以给予更充足的预算。论文中给出的准确率与平均生成 token 数之间的权衡曲线，为开发者进行这种效率-精度平衡提供了清晰的数据参考。

4.2 长上下文吞吐：核心的生产力优势

回归到架构设计的初衷，Nemotron 3 的核心竞争力之一，就是其在长上下文任务上的高吞吐、低成本特性。这在 RAG（检索增强生成）、长文档分析、多轮对话客服、代码辅助生成等企业级应用中具有直接的商业价值。

当其他模型还在为如何优化数万 token 的 KV Cache 而苦恼时，Nemotron 3 凭借其 Mamba-Transformer 混合架构，已经能够在处理百万 token 级别的输入时，依然保持高效的推理性能和稳健的能力表现。这不仅降低了单位 token 的计算成本，也为过去因性能限制而难以落地的新型长序列应用打开了大门。

结论

英伟达 Nemotron 3 的发布，远不止是开源社区的一次常规模型更新。它通过体系化的开放、前沿的混合架构、极限的低精度训练和一体化的对齐范式，为业界树立了一个关于“工业级开源 AI”的新标杆。其核心贡献在于，将大模型研发的焦点从单纯追求排行榜上的分数，拉回到了工程实践的可复现性、推理效率的经济性以及部署应用的灵活性上。

通过开放从数据到配方的全链路资源，Nemotron 3 极大地降低了社区复现和创新顶尖大模型的门槛，有望催生一个更加繁荣和务实的技术生态。它所倡导的，是一种回归工程本质的研发哲学，这对于推动 AI 技术从实验室走向更广阔的产业应用，无疑具有里程碑式的意义。

📢💻 【省心锐评】

Nemotron 3 不再是给社区一条鱼，而是开源了整套工业化捕鱼船队的设计图与航海日志，迫使开源竞赛进入“可复现”的深水区。