4 月 5 日,Meta 发布新一代开源大模型 Llama 4,主打混合专家(MoE)架构与千万 token 长上下文能力。然而,模型发布仅 36 小时后,评论区便陷入 “差评如潮”,用户实测暴露代码能力缺陷,第三方基准测试排名末尾,与官方测评成绩形成强烈反差。这场争议不仅揭开了 Meta AI 的技术短板,更折射出大模型竞赛背后的深层问题。
一、实测 “翻车”:代码能力成重灾区
在经典 “氛围编程” 小球反弹测试中,Llama 4 的表现引发全网调侃 —— 小球直接穿过虚拟墙壁坠落,被网友制成表情包 “穿墙术大师”。这一现象暴露了模型在物理模拟和逻辑推理上的硬伤。开发者社区的实测结果同样令人失望:
Kscores 基准测试:Llama 4 在编程任务中得分垫底,显著落后于 GPT-4o、DeepSeek V3 等竞品。
LiveCodeBench 测评:官方宣称的高分在第三方测试中 “反转”,模型在复杂代码生成任务中错误率高达 40%。
数学与科学推理:在 STEM 基准测试中,Llama 4 Maverick 得分 49,仅为 DeepSeek V3 的 74%,且在多步逻辑推理中频繁 “断片”。
二、测评数据遭质疑:“刷票” 还是过拟合?
Meta 在大模型竞技场(LM Arena)的亮眼成绩引发外界怀疑。数据显示,Llama 4 Maverick 以 1417 分位列总榜第二,但研究人员发现:
版本差异:竞技场中运行的是 “针对对话优化” 的特殊版本,与公开下载的模型存在显著行为差异(如大量使用表情符号、回答冗长)。
数据过拟合:模型在官方测评(如 LiveCodeBench)中表现优异,但在未见过的第三方测试中 “现原形”,被指 “为刷榜定制训练数据”。
行业争议:科技媒体 TechCrunch 发文批评 Meta “误导性测试”,指出模型优化可能损害开发者对实际性能的判断。
三、内部动荡与数据隐忧
这场风波背后,Meta AI 正面临多重挑战:
核心团队流失:Llama 4 发布前夕,Meta AI 研究主管 Joelle Pineau 宣布离职,其主导的 PyTorch 与 Llama 系列研发出现断层。
匿名爆料发酵:海外平台 “一亩三分地” 用户自称 Meta 员工,控诉模型训练 “混入测试集数据”,并要求从技术报告中除名。尽管未获证实,但 Meta GenAI 负责人 Ahmad Al-Dahle 的帖子暗示竞技场版本存在 “特殊优化”。
数据泄露风险:Meta 前员工贴出 2024 年研究,指出 Llama 系列从初代起便存在数据泄露问题,可能影响模型安全性。
版权诉讼后遗症:作家群体抗议 AI 训练侵权后,Meta 删除大量网络和书籍数据,转而使用合成数据。这一调整被指导致 Llama 4 在长文本写作中 “内容重复、公式化”,在 EQBench 测评中垫底。
四、竞品冲击与行业反思
Llama 4 的争议正值 AI 开源模型竞争白热化。DeepSeek V3 的横空出世更让 Meta 陷入被动:
性能碾压:DeepSeek V3 在代码生成、数学竞赛等任务中全面领先,训练成本仅为 Llama 4 的十分之一。
成本困局:匿名爆料称,Meta 中层管理年薪竟高于 DeepSeek V3 的训练成本,内部陷入 “恐慌模式”。
开源信任危机:Llama 4 的表现引发对开源模型可靠性的质疑,有开发者转向闭源方案,称 “开源模型的承诺正在褪色”。
【省心锐评】
面对质疑,Meta 尚未作出正式回应。但技术路线的调整已显端倪:
架构试水:Llama 4 首次采用 MoE 架构,虽提升效率,但专家路由机制在复杂任务中表现不稳定。
多模态押注:模型原生支持图文输入,但实测显示图像理解能力仍落后于 GPT-4o。
生态挑战:新许可协议限制月活超 7 亿的企业使用,可能削弱开源社区支持。
这场争议不仅关乎 Llama 4 的成败,更揭示了大模型行业的深层矛盾:当 “跑分” 成为竞赛核心,模型的真实能力与用户体验是否被忽视? 随着 DeepSeek 等竞品的崛起,Meta 能否在开源与商业间找到平衡,将决定其在 AI 赛道的未来地位。
评论