【摘要】大语言模型自信地生成错误信息的“幻觉”现象,并非无解的技术缺陷,而是其内在训练目标与当前评估机制共同作用的结果。文章深度剖析了“下一个词预测”的统计局限性,以及“唯准确率至上”的评测体系如何系统性地奖励模型的“战略性猜测”行为。未来,行业正从参数规模竞赛转向能力深化,解决之道在于系统性改革评估范式,并结合检索增强生成等技术,最终构建更诚实、更可靠的AI系统。

引言

人工智能的浪潮正以前所未有的速度席卷全球。大语言模型(LLM)作为这股浪潮的弄潮儿,其强大的能力令人惊叹。然而,就在行业为模型参数突破千亿、万亿而欢呼时,一个冷静而深刻的声音开始回响。OpenAI的联合创始人兼CEO Sam Altman在麻省理工的活动上明确指出,单纯扩大模型规模的道路,可能正在接近它的物理与经济极限。未来的竞争焦点,将不再是参数的堆砌,而是模型真实能力与效用的提升。

这番话语的背后,直指的是一个长期困扰着所有AI从业者和用户的顽疾——“幻觉”(Hallucination)。这个听起来有些玄学的词,描述的是一种极为普遍的现象,那就是模型会一本正经地“胡说八道”。它们能自信地编造事实、杜撰引文、给出看似合理却完全错误的答案。

最近,OpenAI的一份研究报告,如同一把锋利的手术刀,精准地剖开了“幻觉”这个黑箱。报告的结论直截了当,幻觉并非某种神秘的、随机出现的故障,而是我们训练和评估模型的方式,从一开始就埋下的必然结果。整个体系,实际上在系统性地鼓励模型去猜测,而不是在不确定时,坦诚地承认“我不知道”。

这篇文章,将融合Sam Altman的前瞻判断与OpenAI的深度研究,尝试彻底讲清楚“幻觉”这个幽灵究竟从何而来。我们不仅会探寻其在统计学习和数据层面的“原罪”,更会揭示当前主流评测体系是如何一步步将模型训练成一个精于“应试”却疏于“诚实”的“学生”。最终,我们将探讨,当规模竞赛落幕,行业又该如何通过系统性的改革与技术实践,真正教会AI说出那句至关重要的“我不知道”,从而迈向一个更值得信赖的未来。

一、🌀 “幻觉”的幽灵,为何挥之不去?

在深入探讨原因之前,我们必须先对这个名为“幻觉”的幽灵有一个清晰的画像。它不是简单的错误,而是一种伴随着高度自信的错误输出

1.1 什么是大语言模型“幻觉”

“幻觉”这个词,在机器学习领域特指模型生成了与源数据不符、与客观事实相悖,或者完全是凭空捏造的信息,但其输出的语气、格式却显得十分流畅和肯定。它就像一个知识渊博但偶尔会信口开河的专家,让你真假难辨。

这种现象的破坏力远超一般性的错误。一个程序bug可能会导致系统崩溃,但结果是明确的。而模型的幻觉,则以一种潜移默化的方式污染信息,侵蚀用户信任。想象一下,在医疗、法律或金融等高风险领域,一个自信的错误建议可能带来灾难性的后果。

为了让这个概念更具体,我们来看一个OpenAI报告中提到的真实案例。研究人员向一个主流聊天机器人询问其同事Adam Tauman Kalai的博士论文题目。模型没有说“我不知道相关信息”,而是自信地给出了三个不同的、听起来都颇为学术的标题,但遗憾的是,没有一个是正确的。当继续追问其生日时,模型再次上演了同样的戏码,给出了三个不同的错误日期。

这就是幻觉的典型表现,它在知识的边界处,选择用“创作”来填补空白,而不是用“诚实”来面对未知。

1.2 幻觉的普遍性与危害性

不要以为幻觉只发生在处理冷僻问题时。即便是看似简单、事实明确的问题,模型也可能“犯迷糊”。这种不确定性使得用户在使用AI工具时,始终需要保持一份警惕,需要花费额外的精力去交叉验证其提供的信息。

幻觉的危害主要体现在以下几个层面:

  • 侵蚀信任:当用户反复发现AI提供的信息不可靠时,他们对整个技术的信任度会大幅下降。

  • 传播错误信息:借助AI强大的内容生成能力,虚假信息可以被大规模、快速地制造和传播,对社会认知造成负面影响。

  • 产生安全风险:在自动驾驶、医疗诊断、法律咨询等关键应用中,基于幻觉信息的决策可能导致严重的财产损失甚至生命危险。

  • 阻碍应用深化:如果无法有效控制幻觉,大语言模型将很难从一个“有趣的玩具”或“高效的助手”,真正转变为能够独立承担关键任务的“可靠的代理”(Agent)。

正是因为幻觉如此普遍且危害巨大,理解其产生的根源,才显得尤为迫切。它不是一个可以被“打补丁”修复的小bug,而是一个需要从系统层面进行审视和重构的根本性问题。

二、🧬 探寻根源,幻觉从何而来?

OpenAI的研究为我们指明了两个核心方向。幻觉的产生,一端源于模型训练的底层逻辑,即“统计原罪”;另一端则被当前行业主流的评估与激励机制不断放大和固化。这两者如同一个闭环,共同塑造了今天我们看到的这个宁愿“胡说八道”,也不愿坦陈其短的AI。

2.1 预训练的“原罪”,统计模型的宿命

大语言模型的训练基础,是一种看似简单却威力无穷的任务——“下一个词预测”(Next Token Prediction)。模型通过阅读海量的互联网文本,学习在给定一段上文的情况下,预测下一个最可能出现的词(或字符)是什么。它的所有能力,无论是写诗、编程还是对话,本质上都是这个底层任务的延伸。

这个机制,决定了LLM是一个概率大师,而非一个事实考证官。它对世界的理解,是基于语言数据中的统计规律,而不是基于一个内在的、可核查的知识图谱。这就带来了几个难以回避的根本性问题。

2.1.1 “下一个词预测”的内在局限

模型的训练目标是最大化生成文本序列的联合概率,简单来说,就是让它说出的话“听起来”最通顺、最常见、最符合它所“阅读”过的语料。

这个目标本身不包含任何关于“真实性”的直接约束。模型不知道什么是对的,什么是错的,它只知道在某个语境下,接上哪个词的概率最高。如果训练数据中充斥着“地球是平的”这种论调,那么模型在回答相关问题时,生成“地球是平的”这句话的概率就会很高。它只是在复现它学到的模式。

2.1.2 规律性知识与长尾事实的鸿沟

模型通过统计学习,能够很好地掌握那些在数据中反复出现、具有强规律性的信息。比如语法规则、编程范式、世界各国首都等常识。因为这些信息在海量文本中以固定搭配高频出现,模型能够形成稳固的“记忆”。

但是,世界上的知识绝大多数是**“长尾事实”(Long-tail Facts)**。这些事实出现频率低、无固定模式,比如某个具体人物的生日、某本冷门书籍的出版年份、某次小型会议的具体议程。对于这类信息,数据中可能只有寥寥数语的记载,甚至相互矛盾。

当模型被问及这类问题时,它无法从强统计规律中找到答案。此时,它的“下一个词预测”机制就会倾向于“创作”。它会根据问题中的关键词(如人名、“生日”),从它学到的无数文本片段中,拼凑出一个语法通顺、格式正确,但内容完全虚构的答案。因为它判断,生成一个“月/日”格式的日期,比生成“我不知道”的概率要高,也更符合对话的“模式”。

下面这个表格清晰地对比了模型处理两类知识时的不同表现。

特性比较

规律性知识 (Head Knowledge)

长尾事实 (Tail Knowledge)

典型例子

语法规则、π的值、法国的首都是巴黎

张三的生日、某篇具体论文的引用数

数据特征

在训练数据中高频、一致地出现

在训练数据中低频、稀疏、甚至矛盾

模型处理方式

通过强大的统计关联进行“记忆”和“复现”

缺乏足够统计支撑,倾向于“模式匹配”和“生成创作”

输出可靠性

,是幻觉的主要来源

解决方法

增加数据量和模型规模有一定帮助

单纯增加数据和规模效果有限,容易过拟合或产生更多幻觉

2.1.3 训练数据的“泥潭”

“Garbage in, garbage out.”(垃圾进,垃圾出)这句古老的计算机谚语在LLM时代依然适用。模型的训练数据源自广阔的互联网,这是一个充满了智慧但也混杂着大量错误、偏见、过时信息和虚假内容的“泥潭”。

模型在预训练阶段,无法分辨信息的真伪。它会无差别地学习所有内容。一篇构思精巧的科幻小说、一个充满阴谋论的论坛帖子、一篇严谨的科学论文,在模型眼中都只是需要学习其语言模式的文本序列。这就导致模型可能会学到并复现那些本就是错误的信息,并以一种令人信服的方式呈现出来。

2.2 评估机制的“指挥棒”,一场错误的激励游戏

如果说预训练阶段的统计特性是幻觉产生的“内因”,那么当前行业主流的模型评估机制,就是不断强化这种行为的“外因”。

目前,衡量一个模型好坏的主要方式,是通过各种基准测试(Benchmark)和排行榜(Leaderboard)。模型开发者为了证明自己的模型更优越,会竭尽全力在这些公开的榜单上取得高分。问题在于,这些榜单的计分规则,存在严重的设计缺陷。

2.2.1 “应试教育”的陷阱

大多数基准测试,尤其是在问答任务上,采用的是一种简单的二元评分机制。对于一个问题,模型的回答被分为两类。

  • 回答正确,得1分。

  • 回答错误或放弃回答(例如,说“我不知道”),都得0分。

这个规则看起来很直观,但却带来了灾难性的激励后果。它相当于在告诉模型,“你尽管猜,猜对了就得分,猜错了也没损失,但如果你不回答,就永远得不到分。”

OpenAI的研究人员用了一个非常贴切的比喻,这就像一场不设错答惩罚的选择题考试。作为一个考生,当你遇到一道不确定的题目时,最优策略是什么?显然是随便蒙一个答案。因为空着不答是铁定的零分,而猜测则有一定概率蒙对。

经过成千上万个问题的迭代训练和优化,模型自然而然地学会了这种“应试技巧”——在不确定时进行“战略性猜测”(Strategic Guessing)。模型的优化目标函数会驱使它去选择那个最有可能得分的路径,即使那条路径通往的是“胡说八道”。

2.2.2 准确率排行榜的“囚徒困境”

这种“唯准确率论”的评估方式,让整个AI研发领域陷入了一种“囚徒困境”。每个开发者都清楚,一个诚实、谨慎的模型对用户更有价值。但是在排行榜的竞争压力下,如果你的竞争对手通过优化模型的猜测能力,在准确率上提升了几个百分点,而你坚持让模型在不确定时说“我不知道”,那么在榜单上,你的模型看起来就会更“差”。

为了生存和竞争,开发者不得不参与这场游戏,将模型调教得更愿意冒险,而不是更诚实。长此以往,整个行业都在朝着打造“优秀的应试者”而非“可靠的知识伙伴”的方向前进。

OpenAI在其报告中提供了一个发人深省的数据对比,该对比来自一个名为SimpleQA的评估集。

模型版本

准确率 (Accuracy)

放弃回答率 (Abstention Rate)

幻觉率 (Hallucination Rate)

旧版 o4-mini 模型

24%

1%

75%

新版模型 (更倾向拒答)

22%

52%

26%

这个表格揭示了一个惊人的事实。旧模型的准确率略高(24% vs 22%),在只看准确率的排行榜上,它会胜出。但是,请看它的幻觉率,高达75%!这意味着它为了获得那一点点准确率的提升,付出了产生海量错误信息的代价。

相比之下,新模型虽然准确率稍低,但它通过在不确定时选择放弃回答,将幻觉率大幅降低到了26%。对于一个真实的用户来说,哪个模型更可靠、更值得信赖?答案不言而喻。然而,在当前的评估体系下,那个更“危险”的模型却可能得到更高的评价。

2.2.3 “战略性猜测”的沉重代价

在简单的基准测试中,问题通常有明确的唯一答案,模型通过猜测或许能侥幸达到接近100%的准确率。但在更复杂的、开放式的真实世界应用中,很多问题由于信息不足、问题模糊或模型能力所限,根本不存在一个可以100%确定的答案。

在这种情况下,错误回答的危害,远大于放弃回答。一个诚实的“我不知道”,至少给了用户一个明确的信号,让他们去寻求其他信息来源。而一个自信的错误答案,则可能误导用户的决策,造成无法挽回的损失。

当前的评估体系,恰恰颠倒了这种危害性的排序,它将“错误”和“放弃”等同视之,从而系统性地鼓励了前者。这就是为什么,即便模型越来越强大,参数越来越多,它们依然会像一个改不掉坏习惯的孩子,频繁地、自信地犯错。因为整个环境都在告诉它,沉默是零分,而猜测或许能带来一线生机。

三、🧭 告别“堆料”,大模型的未来航向

当行业逐渐意识到,单纯通过扩大规模和数据量(即“堆料”)无法根治幻觉,反而可能在某些方面加剧问题时,一场深刻的范式转移正在悄然发生。以Sam Altman为代表的行业领袖的思考,正引领着大模型的发展,从外在的规模竞赛,转向内在的能力深化。

3.1 从参数竞赛到能力深化

过去几年,我们见证了一场围绕模型参数量的“军备竞赛”。百亿、千亿、万亿,数字不断刷新,仿佛更大的模型就等同于更强的智能。这场竞赛在初期确实带来了显著的能力飞跃,让模型学会了流畅的语言、基础的推理和广泛的知识。

但是,正如芯片产业早已走出“兆赫兹竞赛”的迷思一样,用户最终关心的不是抽象的参数数字,而是模型在实际任务中表现出的能力、可靠性和效用。当模型规模大到一定程度后,其边际效益开始递减,而训练和推理的成本却呈指数级增长。更重要的是,超大规模并不能自动解决像幻觉这样的根本性问题。

未来的发展重点,将转向以下几个核心能力的深化:

  • 推理能力:提升模型进行复杂逻辑推理、多步规划和因果分析的能力,而不只是模式匹配。

  • 可靠性与可控性:显著降低幻觉,让模型的输出更加事实准确、行为更加符合人类预期。

  • 效率:在保持或提升能力的同时,优化模型结构和算法,降低计算资源消耗。

3.2 迈向更可靠的智能体

大模型的终极愿景之一,是成为能够主动执行复杂任务的智能体(Agent)。它不再是一个被动的问答机器,而是一个可以理解目标、制定计划、使用工具、并与环境互动的长期个人助理。

要实现这个愿景,可靠性是绝对的基石。一个会频繁产生幻觉的智能体是不可想象的。你无法委托一个可能会凭空捏造联系人信息、错误预订航班、或者在分析财报时杜撰数据的助理来处理重要事务。

因此,解决幻觉问题,已经不仅仅是提升用户体验的技术优化,而是关系到大模型能否实现其最终应用价值的战略性课题。教会AI诚实,是赋予其更大自主权和责任的前提。

3.3 行业共识的形成

越来越清晰的行业共识是,幻觉不是一个需要用更多数据去“淹没”的偶然缺陷,它是现有训练目标与评测激励共同塑造的系统性产物

这意味着,解决方案不能仅仅停留在模型层面,比如调整解码策略或进行微调。这些方法或许能在一定程度上缓解症状,但无法根治病因。真正的变革,必须深入到塑造模型行为的最上游——我们如何评估它,以及我们据此给予它什么样的激励。

我们需要重新定义,什么才是一个“好”的模型。一个好的模型,不应该只是在标准答案上得分高,它还必须懂得自己知识的边界,并在触及边界时,能够保持谦逊与诚实。将“诚实度”和“稳健性”纳入核心评价指标,正成为越来越多顶尖研究团队的共同呼声。

四、🛠️ 破局之道,系统性改革与技术实践

既然我们已经定位了问题的根源,那么解决幻觉的路径也随之清晰起来。这需要一场自上而下的系统性改革,辅以一系列精巧的技术实践。其核心思想,就是停止奖励“战略性猜测”,开始激励“诚实的自我认知”

4.1 核心驱动,重塑评估与激励机制

这是釜底抽薪的一招。只有改变评估的“指挥棒”,才能从根本上扭转模型的行为模式。

4.1.1 引入“倒扣分”与置信度校准

解决方案出奇地直接,那就是借鉴那些设计精良的标准化考试,引入负分机制。新的评分范式应该如下设计:

  • 回答正确:获得正分(例如,+1分)。

  • 放弃回答/承认不确定:不扣分,甚至可以给予少量“辛苦分”(例如,0分或+0.1分),以奖励其诚实。

  • 自信地回答错误:给予严厉的惩罚,即倒扣分(例如,-2分)。

我们可以通过一个表格来直观对比新旧两种评分体系对模型行为的激励导向。

行为

旧的二元评分体系

新的负分/校准评分体系

模型的最优策略

确定知道答案

+1 分

+1 分

回答

不确定答案

0 分

0 分 或 +0.1 分

承认“不知道”

猜测答案

猜对 +1, 猜错 0

猜对 +1, 猜错 -2

放弃猜测

在这种新的激励机制下,模型进行“战略性猜测”的期望收益将变为负数。理性的模型会发现,在不确定时,最安全的策略是保持沉默或请求澄清,而不是冒险“胡说八道”。

此外,还可以在评测指令中明确提出置信度要求,例如,“只有当你对答案的把握超过75%时才进行回答,否则请明确表示你不确定”。这引导模型从单纯追求答案正确,转向对其自身输出的置信度进行校准。

4.1.2 改造主流基准测试

仅仅设计一两个新的、考虑不确定性的测试集是不够的。真正能撬动整个行业的是,将这种新的评分范式系统性地融入到那些被广泛使用的主流基准测试中,例如MMLU、SWE-bench等。

当所有顶级模型都在同一个、奖励诚实的赛场上竞技时,排行榜的文化才会真正改变。开发者将有充分的动力去优化模型的校准能力和不确定性建模,而不是仅仅堆砌知识和猜测技巧。这将开启一个正向的研发循环。

4.1.3 行为校准优先于概率校准

这里有一个更精妙的观点。我们不一定需要模型输出一个精确的、符合数学定义的概率值(例如,“我有83.7%的把握”),这本身就很难。更实用的是行为校准,即模型能够根据给定的置信度阈值,采取最优的行动(回答、谨慎表述或拒绝回答)。这更贴近真实世界中对可靠性的需求。

4.2 技术“组合拳”,多维度抑制幻觉

在改革评估体系的同时,一系列技术手段可以作为强大的辅助,在日常研发和应用中有效地抑制幻觉。

4.2.1 检索增强生成 (RAG),为事实“引经据典”

检索增强生成(Retrieval-Augmented Generation, RAG)是目前对抗幻觉最有效的技术之一。它的核心思想很简单,不让模型单纯依赖其内部记忆来回答问题,尤其是在涉及事实性知识时。

其工作流程可以用下面的Mermaid图来表示:

简单来说,当收到一个问题时,系统首先会去一个可信的、最新的外部知识库(如企业内部文档、维基百科、专业数据库)中检索相关信息。然后,将原始问题和检索到的这些“证据”材料一并交给LLM,要求它基于这些提供的材料来生成答案

RAG的优势在于:

  • 事实接地:模型的回答被锚定在具体的、可验证的外部知识上,极大地压缩了凭空捏造的空间。

  • 知识更新:无需重新训练庞大的模型,只需更新外部知识库,就能让系统掌握最新的信息。

  • 可解释性:系统可以同时提供答案和其所依据的原文出处,方便用户核查。

在处理传记类信息、产品说明、财报分析等事实密集型任务时,RAG已经被证明可以显著降低幻觉率。

4.2.2 自动化事实核查,模型的“自我审视”

另一条路径是让模型学会“自我反思”。这催生了一系列自动化事实核查技术。

  • FActScore、SAFE等方法:这些框架通过让LLM分解长篇生成文本,针对其中的每一个原子事实,生成检索查询,并与搜索引擎或知识库的结果进行比对,从而系统性地评估和量化文本的事实性错误。

  • SelfCheck类方法:对于黑盒模型,可以通过多次、用不同方式提问或让模型进行多次采样生成,然后检查不同输出之间的一致性。如果模型对同一个事实性问题给出了多个相互矛盾的答案,那么这些答案很可能都是幻觉。

这些技术相当于为模型配备了一个自动化的“事实核查员”,在内容输出前进行质量把关。

4.2.3 精妙的提示工程,用户的“第一道防线”

作为用户和开发者,我们也可以通过精心设计的**提示词(Prompt)**来主动引导模型变得更诚实。

  • 明确允许“不知道”:在提示词中直接加入指令,如“如果你不确定答案,或者在提供的资料中找不到依据,请直接回答‘我不知道’或‘信息不足’”。

  • 要求逐步推理(Chain-of-Thought):指令模型在给出最终答案前,先分步骤展示其思考过程。这使得我们可以审视其逻辑链条,更容易发现其中的跳跃和臆断。

  • 强制要求引用来源:对于需要事实依据的任务,强制模型“必须为你提出的每一个观点提供来源,并注明出处”。对于RAG系统,可以设置“如果检索不到相关信息,则必须拒绝回答”的规则。

  • 区分已知与推测:要求模型在回答时,明确区分哪些是基于所提供材料的直接信息,哪些是基于这些信息的合理推测。

特别是在医疗、法律、金融等高风险领域,这些提示词策略应作为强制性的安全规范,确保模型在无法提供可验证来源时,绝对不能给出结论性的意见。

4.3 固本培元,优化数据与训练过程

最后,回归到模型训练的本源,数据和算法的优化也是不可或缺的一环。

  • 高质量、多样化的数据:在训练数据中,不仅要包含正确的知识,还应引入精心构造的负面示例(例如,常见的事实错误、逻辑谬误),训练模型识别和拒绝这些错误信息的能力。

  • 优化训练目标:探索在预训练或微调阶段,除了“下一个词预测”之外,引入新的、与事实性或一致性相关的辅助训练目标。

  • 强化学习:利用来自人类反馈的强化学习(RLHF)或AI反馈的强化学习(RLAIF),对模型的“诚实”行为(如承认不确定性)给予高奖励,对“幻觉”行为给予强惩罚,从而直接在策略层面塑造模型的行为。

总结

大语言模型那看似随机、难以捉摸的“幻觉”,究其本质,并非是AI走向通用智能途中的神秘插曲,而是其设计哲学与评价体系共同作用下的一个逻辑必然。它根植于“下一个词预测”这一统计学习的DNA,又被“唯准确率至上”的行业竞赛文化不断浇灌、放大。模型宁愿自信地犯错,也不愿谦逊地承认未知,因为它所处的环境,一直在奖励前者而惩罚后者。

Sam Altman关于行业告别规模竞赛的判断,为我们指明了前路。未来已来,焦点正从“更大”转向“更好”,从追求参数的广度,转向挖掘能力的深度,而可靠性正是这一切的核心

破局之路清晰而坚定。它要求我们发起一场深刻的变革,核心是重塑评估体系,用“倒扣分”和置信度校准的机制,让诚实不再是一种选择,而是一种最优策略。同时,辅以检索增强生成(RAG)、自动化事实核查、精妙的提示工程等强大的技术“组合拳”,在实践中为模型的输出戴上“事实的镣铐”。

这场与“幻觉”的博弈,关乎的不仅是技术本身的完善,更关乎我们希望与一个怎样的AI共存。我们需要的,不是一个无所不知却时而谎话连篇的“天才”,而是一个了解自身局限、在知识边界前保持敬畏与审慎的“可靠伙伴”。这条路,道阻且长,但行则将至。

📢💻 【省心锐评】

模型不说谎,得先让排行榜别再奖励说谎者。AI的诚实,始于对评估体系的诚实。