颠覆式创新！腾讯连续视觉自回归技术重塑AI图像生成边界

【摘要】腾讯微信AI团队在ICML 2025发表的连续视觉自回归生成（EAR）研究，突破了传统图像生成的“离散翻译”瓶颈，实现了无需离散token、直接连续建模的高效高质图像生成。本文深度解析其理论、技术、实验与应用前景，全面剖析该方法对AI视觉生成领域的革命性意义。

引言

在AI视觉生成领域，如何让机器像人类画家一样“自由挥洒”，一直是科学家们孜孜以求的目标。过去，AI生成图像的方式更像是“拼马赛克”——先把连续的画面拆成有限的“色块”，再用这些色块拼出新画。这个过程不可避免地丢失了细腻的色彩和渐变，生成的图像总有一层“数字味”。而腾讯微信AI团队的邵晨泽、孟凡东和周杰三位研究者，带来了一项令人振奋的突破：他们让AI不再需要“翻译”成离散token，而是直接在连续空间中作画，极大提升了生成质量和效率。这项成果已发表于ICML 2025，并开源了完整代码（https://github.com/shaochenze/EAR），为业界和学界带来了全新思路。

本文将以通俗生动的语言，结合严谨的技术分析，带你全面了解这项划时代的研究。从理论创新到工程实现，从实验对比到未来展望，既有技术深度，也有行业广度。无论你是AI研究者、开发者，还是对AI艺术感兴趣的普通读者，都能在这里找到属于你的“知识彩蛋”。

一、连续视觉自回归生成的前世今生

1.1 传统图像生成的“翻译困境”

1.1.1 离散token化的本质

在过去的主流AI图像生成方法中，几乎都离不开“tokenization”——即把连续的图像像素信息，量化成有限的离散token。比如VQ-VAE、DALL·E等模型，都是先把图片切分成小块，每块用一个“代币”编号，然后用这些编号来训练和生成。这个过程就像让AI用有限的色块拼出一幅画，细腻的渐变和丰富的色彩难以还原。

1.1.2 “翻译”带来的损失

这种“翻译”机制，虽然让AI可以借鉴自然语言处理的成功经验（如Transformer架构），但也带来了不可避免的信息损失：

细节丢失：连续的色彩和纹理被粗糙地切分，难以还原真实画面。
量化误差：token数量有限，无法覆盖所有可能的像素组合。
生成受限：模型只能在“已知token”范围内组合，创新性受限。

1.1.3 传统方法的代表

方法	主要特点	典型代表
离散自回归	先量化再生成，token有限	VQ-VAE, DALL·E
GAN	判别-生成对抗，难以建模全局	StyleGAN, BigGAN
扩散模型	多步去噪，生成质量高但慢	DDPM, Imagen

1.2 腾讯EAR的“连续革命”

1.2.1 直接在连续空间作画

腾讯团队提出的“连续视觉自回归生成”方法，彻底跳过了离散token这一步，让AI像画家一样，直接在连续的色彩空间中作画。每一步生成的不是“编号”，而是连续的像素向量，理论上可以调出任何需要的色彩和细节。

1.2.2 理论基础：严格适当评分规则

这一突破的核心，是引入了“严格适当评分规则”（Strictly Proper Scoring Rules）作为训练目标。简单来说，这是一种“只奖励诚实”的评分系统，只有当模型生成的分布完全贴合真实分布时，才能获得最高分。任何偏离都会被“扣分”，极大提升了生成的真实性和多样性。

1.2.3 能量分数：概率之外的新评分

在连续空间中，直接计算概率密度极其困难。腾讯团队巧妙地采用了“能量分数”（Energy Score）作为训练损失，这是一种不依赖概率密度、只需采样的评分方式。它既能衡量生成样本与真实样本的接近程度，又能鼓励生成的多样性。

1.2.4 EAR方法的独特优势

跳过离散token，保留更多细节
训练和推理效率高，生成速度快
理论上可统一解释多种生成方法（如GIVT、扩散损失）

二、EAR方法的技术原理与创新

2.1 “连续视觉自回归”框架详解

2.1.1 自回归生成的基本思想

自回归（Autoregressive）模型，是指AI一步一步地生成图像的每一部分，每一步都依赖于前面的内容。就像画家一笔一笔地完成画作，AI每次生成一个“token”或一个像素块，直到整幅画完成。

2.1.2 连续tokenizer的设计

与传统的离散tokenizer不同，连续tokenizer直接输出连续向量，每个向量代表一个图像patch的特征。这样，模型可以在理论上生成无限种不同的patch，极大提升了表达能力。

2.1.3 能量变换器架构

EAR的核心是“能量变换器”（Energy Transformer），其结构与传统Transformer类似，但输出层用一个小型MLP生成器替代了softmax。MLP生成器接受随机噪声作为输入，通过采样隐式建模预测分布，类似于GAN的生成器，但更简洁高效。

2.1.4 掩码自回归与双向注意力

传统自回归多为“从左到右”因果生成，EAR支持“掩码自回归”——即模型可以随机顺序预测被掩盖的patch，允许双向注意力。这种方式能更好地捕捉全局信息，提升生成质量。

2.2 严格适当评分规则的理论基础

2.2.1 什么是严格适当评分规则？

严格适当评分规则是一类特殊的损失函数，只有当模型预测的分布与真实分布完全一致时，才能取得最优值。常见的如对数评分（log-score）、能量分数（energy score）、Hyvarinen评分等。

2.2.2 能量分数的定义与优势

能量分数的数学定义如下：

其中PP是真实分布，QQ是模型分布。能量分数不需要概率密度，只需能从模型采样即可，极大简化了实现难度。

2.2.3 统一解释多种生成方法

腾讯团队发现，许多看似不同的生成方法，其实都可以用严格适当评分规则统一解释：

方法	对应评分规则
GIVT	对数评分（log-score）
扩散模型	Hyvarinen评分
EAR	能量分数

这种统一视角，有助于理解不同方法的本质联系，为后续创新提供理论基础。

2.3 EAR的工程实现与关键技术细节

2.3.1 能量损失函数的直观含义

EAR的能量损失函数，鼓励模型生成的样本既要接近目标图像，又要保持多样性。就像训练一个画家，既要画得像，又不能千篇一律。

2.3.2 温度机制与生成多样性

EAR引入了“温度机制”，允许在训练和推理时调节生成的多样性与准确性。训练时可降低多样性提升质量，推理时可调节创意水平，适应不同应用需求。

2.3.3 无分类器引导技术

在条件生成任务中，EAR采用“无分类器引导”——即同时考虑有条件和无条件的预测，提升生成质量。这一技术已在扩散模型中被验证有效。

2.3.4 MLP生成器的学习率调优

实验发现，MLP生成器需要比主干网络更小的学习率（约0.25倍），否则训练不稳定。这一细节为后续模型调优提供了重要经验。

2.3.5 噪声类型与维度选择

EAR支持不同类型和维度的随机噪声输入。实验表明，64维均匀噪声效果最佳，优于高斯噪声和其他维度选择。

三、EAR的实验验证与性能评估

3.1 实验设置与对比基线

3.1.1 数据集与评测指标

数据集：ImageNet 256×256（计算机视觉标准基准）
评测指标：FID（Frechet Inception Distance）、Inception Score、推理延迟

3.1.2 对比方法

方法	参数规模	FID分数	推理延迟（秒）
GAN	205M	3.2	0.8
扩散模型	205M	2.5	10
MAR	205M	2.7	9
EAR-B	205M	2.83	1
EAR-H	937M	1.97	1.2

3.2 EAR的性能亮点

3.2.1 生成质量与效率兼得

EAR在同等参数规模下，FID分数与最优扩散模型接近，但推理速度快近10倍。生成一张高质量图像仅需约1秒，极大提升了实际应用的可行性。

3.2.2 掩码自回归的优势

实验显示，掩码自回归（双向注意力）显著优于传统因果自回归：

无引导时，FID从17.83降至7.95
有引导时，FID从8.10降至3.55

3.2.3 分类器自由引导的效果

通过线性增加引导尺度，Inception Score持续提升，FID在尺度为3.0左右达到最优。过高的引导尺度会损害生成多样性，需权衡选择。

3.2.4 温度机制的调优

训练温度设为0.99，推理温度设为0.7时，质量与多样性达到最佳平衡。用户可根据实际需求灵活调整。

3.2.5 噪声类型与维度的实验结论

均匀噪声优于高斯噪声
64维噪声效果最佳

3.3 消融实验与理论验证

3.3.1 严格适当性的重要性

实验验证，能量损失的指数系数α需在(0,2)范围内，α=2时训练效果显著下降，印证了理论分析。

3.3.2 表达能力对比

能量变换器相比预定义分布（如高斯分布）方法，生成质量更高，能更好地建模连续token分布的复杂性。

3.3.3 连续tokenizer的优势

在相同架构下，连续tokenization配合能量损失始终优于离散tokenization配合交叉熵损失，凸显了连续视觉自回归的潜力。

3.3.4 学习率与训练稳定性

MLP生成器学习率需为主干网络的0.25倍，否则模型难以收敛。该经验为后续研究提供了实践指导。

四、EAR的理论意义与未来展望

4.1 统一的理论框架

4.1.1 不同生成方法的统一解释

通过严格适当评分规则，EAR将GIVT、扩散模型等不同方法纳入同一理论框架，便于理解和比较。

4.1.2 理论指导实践的良性循环

理论创新为工程实现提供方向，实践验证又反哺理论完善，推动AI生成领域持续进步。

4.2 应用前景与行业影响

4.2.1 高质量图像生成的多场景应用

艺术创作与AI绘画
内容生成与广告设计
数据增强与虚拟环境构建
实时或近实时生成需求（如游戏、AR/VR）

4.2.2 降低创意门槛，赋能大众

随着EAR等技术的成熟，未来AI绘画、内容创作工具将更快更美，普通用户也能轻松创作专业级视觉作品。

4.2.3 对AI生成领域的深远影响

EAR的出现，标志着AI视觉生成从“拼马赛克”向“油画技法”进化，推动整个行业向更高质量、更高效率迈进。

4.3 局限性与未来改进方向

4.3.1 架构优化空间

现有能量变换器架构仍有提升空间，未来可探索更适合连续生成的网络结构。

4.3.2 评分规则的多样化

不同严格适当评分规则在特定任务上或有不同优势，值得进一步研究。

4.3.3 跨模态扩展

EAR理论可推广到视频、音频等连续模态，甚至通过潜在向量将离散文本建模为连续空间，拓展应用边界。

4.3.4 理论与实践的持续融合

理论创新需与工程实践紧密结合，持续优化模型性能与应用体验。

五、Q&A：你关心的问题都在这里

5.1 什么是连续视觉自回归生成？它和传统方法有什么不同？

连续视觉自回归生成让AI直接处理连续图像信息，像画家用调色板调色。传统方法需先“翻译”为离散token，丢失细节。新方法跳过“翻译”，保留更多精细信息，生成质量更高。

5.2 EAR方法会不会取代现有的图像生成技术？

EAR在生成速度和质量上有明显优势，尤其适合需要快速生成的场景。但不会完全取代所有方法，不同技术各有适用场景，未来将多种方法并存。

5.3 普通人能使用这种技术吗？有什么实际应用？

目前EAR仍处于研究阶段，普通人暂时无法直接使用。但随着技术成熟，预计会集成到AI绘画、内容创作、游戏开发等工具中，未来有望应用于手机拍照美化、社交媒体内容生成等日常场景。

结论

腾讯微信AI团队的EAR方法，打破了AI图像生成领域长期以来的“离散翻译”桎梏，让AI像真正的画家一样，在连续空间中自由创作。其理论创新、工程实现和实验验证，均展现出极高的科学价值和应用潜力。EAR不仅提升了生成质量和效率，更为AI视觉生成领域提供了统一的理论框架和广阔的发展空间。随着技术的不断优化和普及，未来我们有望见证AI创作力的又一次飞跃，让每个人都能轻松释放自己的艺术想象力。

📢💻 【省心锐评】

“连续自回归是生成领域的引力波探测，理论优美但工程化艰难。腾讯证明了可行性，下一步需降低算力门槛才能颠覆行业。”

引言