一、大模型 “高考” 成绩揭晓:文理状元花落谁家

(一)总分排名:豆包、Gemini 领跑第一梯队

在字节跳动 Seed 团队发布的评测中,按照传统文理分科计分方式,豆包以文科 683 分、理科 648 分的成绩,分别斩获文科第一和理科第二;Gemini 则以理科 655 分位列理科第一,文科成绩稍逊于豆包,排名第二。其他选手如 DeepSeek、Claude 等也表现不俗,达到优秀学生水准,但 OpenAI 的 O3 因语文写作跑题,仅得 95 分,拉低了整体分数。

(二)赋分优势:豆包有望冲击 690+,剑指清北

此次测试采用山东省试卷,3 门自选科目的赋分相比原始分会有一定提高,尤其是化学、物理等难度较大科目。除化学成绩相对稍低外,豆包其余科目组合的赋分成绩最高能超过 690 分。参照过往经验,这样的成绩有望冲刺清华、北大等顶尖学府。

二、高考评测标准大起底:公平公正如何实现

(一)试卷选择:全国一卷与山东卷结合,满分 750 分

考虑到网络上高考真题的非官方性,山东是少数传出全套考卷的高考大省,因此主科(语文、数学、英语)采用今年的全国一卷,副科采用山东卷,满分共计 750 分,全面考察大模型的综合能力。

(二)评分方式:机评人工双保障,拒绝 “提示词优化”

评测通过 API 测试,不联网查询,纯靠模型自身泛化能力。选择题、填空题采用机评加人工质检,开放题实行双评制,由两位有联考阅卷经验的重点高中教师匿名评阅,设置多轮质检环节。且整个过程未用任何提示词优化技巧,确保公平公正。

三、各科表现深度解析:优势与短板并存

(一)理科:推理能力提升显著,图像识别仍需突破

深度思考技术让大模型在数学等强推理科目上进步明显,多数能达 140 分。但在全国一卷第 6 题,因题目包含复杂图像,大模型们全军覆没,正解为 A,而豆包、Gemini 等均答错。压轴大题上,也常因漏写证明过程、推导不严谨被扣分,细节处理待加强。理综带图题目仍是难点,不过豆包和 Gemini 的图像理解能力相对较强。

(二)文科:语英尽显 “学霸” 本色,作文短板突出

语文选择题和阅读题,大模型得分率超高,堪称 “学霸本霸”,但作文存在刻板、文字冰冷、字数不达标、立意不对等问题,还常用小标题。英语整体接近完美,仅写作上用词不够精准、句式稍显单调。文综方面,国外大模型对中国知识点不 “感冒”,地理题中分析统计图和地形图是难点。

四、国际考试显身手:JEE Advanced 展多模态实力

大模型们还参加了印度理工学院的 JEE Advanced 考试,该考试每年数百万人参与,前 25 万晋级第二阶段,题目以图片形式呈现,考察多模态处理与推理泛化能力。与全印度人类考生对比,第一名 332 分,第十名 317 分,豆包与 Gemini 具备进入前 10 的实力,Gemini 在物理和化学突出,豆包数学 5 次采样全对。

五、豆包 “学霸” 养成记:三招解锁高分密码

(一)多模态融合 + 长上下文:筑牢基础

豆包大模型 1.6 系列通过三阶段预训练,第一阶段纯文本预训练,提升数据质量与知识密度;第二阶段多模态混合训练,强化文本,引入视觉数据;第三阶段长上下文训练,将最大支持长度从 32K 提升至 256K,为长文本理解和复杂题目作答奠定基础。

(二)深度思考能力:攻克推理难题

采用多阶段 RFT 与 RL 迭代优化,拓展算力和数据规模,提升复杂问题思考长度,融合 VLM 能力,赋予清晰视觉理解,引入 parallel decoding 技术,在高难度测试集成绩提升,能快速定位关键参数,推导解题路径,减少单一模态误判。

(三)AutoCoT 动态调节:拒绝 “过度思考”

针对 Long CoT 易导致的 “过度思考”,提出 “动态思考能力”,提供全思考、不思考、自适应思考三种模式,通过 RL 训练引入新奖励函数,惩罚过度思考,奖励恰当思考,实现 CoT 长度动态压缩,在不同难度任务中合理触发,保留推理优势。

【省心锐评】

尽管大模型在高考中表现亮眼,但仍有提升空间,如图像识别、作文情感表达等。你对这些大模型的 “高考” 成绩有何看法?