GPT-5 的争议：抑制幻觉是否让 AI 失去了创造力？

【摘要】新一代大模型因抑制幻觉而引发“变蠢”的争议，揭示了AI在可靠性与创造力之间的核心权衡。探讨幻觉的本质、技术应对路径与行业心态演变，指出与幻觉共存，是通往通用智能的必经之路，而非技术缺陷。

引言

OpenAI的新一代大模型发布后，科技圈并未迎来预想中的一边倒喝彩。相反，一股“变蠢了”的论调在用户社区中迅速弥漫开来。“缺乏创造力”、“回答干瘪”、“像个只会复读的机器人”，类似的评价此起彼伏。

用户们普遍感觉到，新模型虽然在回答事实性问题时更加严谨，犯错的概率显著降低，但代价是失去了往日的灵动与惊喜。它变得异常被动，仿佛一个需要精确指令才能启动的精密仪器。只有当用户提供极为详尽、结构化的提示词时，它才能展现出应有的强大能力。

这一现象并非孤例，它尖锐地揭示了当前AI发展路径上的一个核心困境。我们对“幻觉”的围追堵截，似乎正在以牺牲模型的创造力与灵活性为代价。当一个AI变得绝对“正确”时，它是否也同时变得“无用”了？这场由“变蠢”引发的争议，迫使整个行业重新审视那个我们一直试图消灭的敌人——AI幻觉。

🌀 一、解码“幻觉”：它不只是一种错误

在深入探讨这场争议之前，我们必须先弄清楚，当我们在谈论“幻觉”时，我们究竟在谈论什么。简单地将其等同于“错误答案”，会让我们错失问题的本质。

1.1 幻觉的万花筒

AI的“幻觉”是一个复杂的集合体，它指的是模型生成了与客观事实不符、在训练数据中无据可循，或是逻辑上无法自洽的内容。根据专家们的归纳，我们可以将其大致分为以下几种典型类型。

语言生成幻觉
这是最常见的一种。模型在生成文本，尤其是代码或专业文章时，可能会“发明”出不存在的函数库、API接口、参考文献或学术概念。它为了让整个生成过程看起来流畅完整，不惜捏造一些关键部件。
推理与逻辑错误
模型在处理多步推理任务时，常常会“走神”。它可能在中间环节出现逻辑跳跃，或者错误地引用了不相关的上下文，最终得出一个看似合理但过程完全错误的结论。这种思维链条上的断裂，是导致复杂任务失败的主要原因。
过度简化与常识错误
AI虽然博学，但缺乏人类在真实世界中积累的深厚常识。当面对一些需要生活经验和复杂社会背景知识的问题时，它可能会给出过度简化的、甚至是危险的答案。比如建议“为了快速减肥，可以不吃任何食物”，这种回答显然违背了基本的生理常识。
数据错误或无依据推理
模型的知识来源于其训练数据。如果训练数据本身存在错误、偏见，或者掺杂了其他模型生成的幻觉内容，那么模型就会将这些“毒素”内化，并信誓旦旦地将其作为事实输出。在医疗诊断等场景，基于不完全或错误数据的推理，后果不堪设想。
时效性错误
模型的知识被冻结在训练数据截止的那个时间点。对于日新月异的世界，它就是一个“古代人”。它不知道最新的新闻、技术迭代或法规变更，这使得它在处理具有时效性需求的问题时，必然会产生与现实脱节的“幻觉”。

1.2 成本与收益的相对论

理解了幻觉的多样性，我们才能更公允地评估它的影响。幻觉的“成本”并非一个固定值，它完全取决于使用者、使用场景和最终目标。

设想一个行政人员，他需要制作一个简单的信息收集工具。他使用AI编程助手，即便过程中AI错误频出，生成效率低下，但这个过程的总耗时，仍然可能远小于他走完“找产品提需求、找研发排期、找测试验证、找运维部署”这一整套传统流程。在这种场景下，AI的幻觉是可以容忍的“小瑕疵”，因为最终的效率收益是正向的。

但如果换一个场景，使用者是一位资深研发工程师。AI助手频繁地生成错误代码，调试这些错误所花费的时间，显著超过了他自己动手查文档、写代码的时间。那么，对于这位工程师来说，AI的幻觉就成了无法忍受的“成本损耗”，他大概率会抛弃这个工具。

所以，幻觉的影响可以分为两类。

影响生产效率
当幻觉产生的“错误”易于被使用者识别和修正时，它主要拖累的是工作效率。
影响应用效果
当幻觉产生的“错误”难以被使用者识别时（比如发生在使用者不熟悉的领域），它将直接损害最终结果的质量和可靠性。

因此，对幻觉的评判，不能脱离具体的应用场景。在高风险、高精度的领域，如医疗诊断、金融风控、法律判决，幻觉是必须被严格控制的“魔鬼”。而在内容创作、广告推荐、头脑风暴等高容错、鼓励创新的场景，幻觉有时甚至能带来意想不到的“灵感火花”。

🧬 二、幻觉的宿命与创新的悖论

当我们尝试用技术手段根除幻觉时，很快就会撞上一堵理论上的高墙。幻觉并非简单的程序Bug，它是当前大模型技术架构中与生俱来的特性。

2.1 无法根除的结构性“基因”

已有大量研究从理论层面证实，基于现有Transformer架构的大语言模型，不可能彻底消除幻觉。

一些研究从计算理论的角度出发，将其与哥德尔不完备性定理和停机问题相类比，指出任何形式化的系统都存在其固有的、无法自我证明或解决的命题。LLM作为一个复杂的计算系统，同样无法学习和表达所有的可计算函数，因此，生成超出其理解范围的“幻觉”内容，是一种结构性的必然。

换个更通俗的视角，Transformer架构的本质，是通过海量数据学习词与词之间的概率关系。它并不具备真正的逻辑推理能力或对物理世界的感知。它的“思考”过程，更像是一种基于统计的“线性子图匹配”，而非系统性的推理。当任务复杂度提升，需要多步、高组合深度的推理时，这种模式就很容易失效，表现为我们所见的各种逻辑幻觉。

所以，幻觉是LLM的结构性产物，是它与生俱来的“基因”。无论我们如何增大模型参数、优化训练数据，都只能无限趋近于零，而无法真正抵达。

22.2 概率枷锁下的创造力

既然幻觉无法根除，那么我们能否通过技术手段将其无限压制呢？答案是可以，但这会触发一个更深层次的悖论——抑制幻觉的同时，我们也在扼杀创新。

大模型的生成过程，本质上是一个概率游戏。在每个时间步，模型都会预测下一个最可能出现的词（Token）。

创造力 来源于一个相对宽松、平坦的概率分布。这意味着模型在选择下一个词时，有更多的可能性，不总是选择那个概率最高的“标准答案”。它可能会选择一个概率稍低但更具新意的词，从而组合出意想不到的句子和观点。这就是“灵感”的来源。
准确性 则要求一个收紧、尖锐的概率分布。模型被严格限制，只能选择概率最高的那个词，以确保生成的内容最符合训练数据中的模式，从而最大限度地减少幻觉。

这两者之间存在着天然的、不可调和的矛盾。追求极致的准确性，就必须为模型戴上“概率的枷锁”，而这副枷锁，也同时锁住了它的想象力。

GPT-5的争议，正是这个悖论最生动的体现。

在代码生成、Agent构建等任务中，严谨性至关重要。用户需要的是精确、可靠、可执行的代码。此时，“概率枷锁”是一种优势，它确保了模型不会随意“发挥”，从而提升了任务成功率。
但在创意写作、情感表达、开放式对话等场景，用户期待的是新颖、有趣、富有洞察力的内容。此时，“概率枷锁”就成了一种束缚，让模型的输出变得平淡、可预测，充满了“正确的废话”。

这场争论的核心，其实是我们希望AI扮演什么样的角色。是一个一丝不苟的执行者，还是一个充满奇思妙想的合作者？目前看来，我们还无法让它同时完美地扮演好这两个角色。

🛠️ 三、技术围猎场：在幻觉与现实间走钢丝

尽管幻觉无法根除，但工程师们从未停止过对其进行“围猎”的努力。在实践中，业界已经发展出一套组合拳，试图在不同场景下，找到幻觉与现实之间的最佳平衡点。

3.1 模型微调（Fine-tuning）：锋利但危险的手术刀

模型微调，顾名思义，就是用特定领域的、高质量的标注数据，对通用的基础大模型进行“二次训练”。这就像是把一个全科医生，培养成某个领域的专科医生。

它的初衷很美好，希望通过“开小灶”的方式，让模型深度学习特定领域的知识和范式，从而在该领域内表现得更专业、更准确，减少幻觉。

但在实践中，微调是一把非常难驾驭的手术刀。

成本高昂
微调的工程周期极长。有经验的工程师指出，微调工作中90%的精力都花在了“提升数据质量”上。 数据的收集、清洗、标注是一个极其耗时耗力的过程。此外，训练本身也需要强大的基础设施和数周甚至数月的时间。
风险巨大
微调最大的风险，在于**“灾难性遗忘”（Catastrophic Forgetting）**。当模型学习新领域的知识时，它的权重参数会被更新。这个更新过程很可能会“覆盖”掉它原有的通用知识。
比如，一个针对医疗诊断微调的模型，可能会在微调后“忘记”如何进行基础的数学计算，或者丧失流畅的通用写作能力。由于大模型权重的高度复杂性和不可解释性，这种负面影响很难在事前评估，只能在事后通过大量测试来检验，这使得微调的风险变得难以控制。
时效性差
基础大模型可能每隔几个月就会迎来一次版本迭代，性能大幅提升。这意味着，团队花费半年甚至一年时间精心微调出来的模型，其性能可能很快就被新一代的基础模型所超越。这使得长期投入微调的性价比大打折扣。

3.2 RAG（检索增强生成）：灵活高效的外部大脑

鉴于微调的种种弊端，一种更轻量、更灵活的方案——RAG，开始受到业界的青睐。

RAG的核心思想很简单，它不试图去改变模型内部的知识，而是给模型外挂一个“外部大脑”——一个实时更新的知识库。当用户提出问题时，系统会经历两个阶段。

检索（Retrieve）
系统首先将用户的问题，在知识库中进行语义检索，找出与问题最相关的几段信息或文档。
生成（Generate）
然后，系统将用户原始的问题和检索到的相关信息，一同打包作为上下文（Context），喂给大模型，让模型基于这些新鲜、准确的信息来生成最终答案。

这种“先查再答”的模式，带来了显而易见的优势。

知识实时更新
幻觉的一大来源是知识过时。RAG通过外挂知识库，完美地解决了这个问题。只要知识库保持更新，模型就能随时获取最新的信息，从而生成与时俱进的答案。
部署快速灵活
相比微调动辄数月的工程周期，部署一个RAG系统通常只需要几天甚至几小时。知识库的变更也极为方便，只需重新嵌入文档即可，完全无需重新训练模型。
可追溯性强
由于答案是基于检索到的特定文档生成的，RAG系统可以明确地告诉用户，它的回答来源于哪些具体出处。这大大增强了答案的可信度和可追溯性，在法律、金融等需要严谨溯源的领域尤为重要。

正因如此，RAG成为了当前企业级应用中缓解事实性幻觉最主流、性价比最高的技术路径。

3.3 In-Context Learning（ICL）：潜力巨大的实时引导术

如果说RAG是给模型一个外部大脑，那么ICL就是一种“耳提面命”的实时引导术。它通过在用户提问的Prompt中，直接提供高质量的示例（Examples），来“教会”模型如何完成当前任务。

这种方法几乎没有工程周期，效果立竿见影，被认为是潜力最大的幻觉缓解手段之一。然而，它的“魔法”效果背后，也隐藏着诸多挑战。

示例依赖性极强
ICL的效果高度依赖于所选示例的质量、数量、顺序乃至格式。什么样的示例最具代表性？示例之间应该如何排序？用什么样的分割符？这些细节都会显著影响最终的生成结果。找到“最优格式”往往需要大量的实验和丰富的经验。
上下文长度限制
尽管现在模型的上下文窗口越来越大，但面对需要融合多领域知识的复杂任务时，有限的窗口仍然难以容纳所有必要的示例和信息。
模型的“捷径”行为
研究发现，大模型在处理ICL时，有时并不会真正“理解”示例背后的逻辑，而是倾向于学习一些表面的模式或标签关联，走“捷径”来模仿输出。这种行为使得Prompt的构造变得更加敏感和脆弱。

尽管挑战重重，ICL在处理具有连续性任务的场景中表现出色。当用户需要完成一系列相关操作时，前一步的结果可以自然地成为后一步的示例和上下文，从而有效降低ICL的应用门槛。

3.4 思维链与多智能体：从单打独斗到协同作战

为了应对更复杂的推理幻觉，业界开始探索让模型“慢下来思考”以及“团队协作”的模式。

思维链（Chain of Thought, CoT）技术，就是通过在Prompt中引导模型“一步一步地思考”，将一个复杂的大问题，拆解成一系列更小的、更易于处理的子问题。这种序列化的思考方式，能够显著提升模型在数学、逻辑推理等任务上的准确率。它强迫模型展示其“思考过程”，使得我们更容易发现其推理链条中的错误环节。

而多智能体（Multi-Agent）协同则更进一步。它不再依赖单个模型，而是构建一个由多个专门化AI智能体组成的系统。

任务拆分
一个“规划者”智能体负责将用户的宏大指令，拆解成具体的、可执行的子任务。
专业分工
这些子任务被分发给具有不同专长的“执行者”智能体。比如，有的擅长编码，有的擅长数据分析，有的擅长命令行操作。
结果评审
甚至可以引入一个“评审者”智能体，对其他智能体的输出结果进行检查和打分，形成一个反馈闭环。

这种模式模仿了人类的团队协作，通过分工和制衡来降低单一模型产生幻觉并“一条道走到黑”的风险。目前，将多智能体机制集成到模型内部，或者通过更小的、专业化的开源模型进行并发推理，已经成为一个明显的技术趋势。

下面是一个简化的技术路径对比表格，以帮助理解它们之间的差异。

技术路径	核心思想	优点	缺点	适用场景
模型微调	用领域数据二次训练模型	领域内精度高，知识内化	成本高，周期长，有灾难性遗忘风险	领域知识固定，数据充足的专业场景
RAG	外挂知识库，先检索再生成	知识实时更新，可追溯性强，部署快	依赖检索质量，无法内化推理能力	事实问答，报告生成，客服机器人
ICL	在Prompt中提供示例引导	零训练成本，灵活，实时见效	依赖示例质量，受上下文长度限制	任务范式清晰，连续性任务
思维链/多智能体	任务拆解，协同推理	提升复杂推理准确性，过程可解释	系统设计复杂，Token消耗高	复杂编程，科研助理，自动化流程

这些技术路径并非相互排斥，在复杂的实际应用中，它们往往被组合使用，形成一个混合架构，以期在成本、效率和可靠性之间找到那个微妙的平衡点。

🎭 四、行业心态的嬗变与未来航向

随着大模型从实验室走向千行百业，整个行业乃至公众对幻觉的态度，也经历了一场深刻的嬗变。这场心态的演进，大致可以分为三个阶段。

4.1 从恐慌到理性

在大模型应用初期，媒体上充斥着各种关于AI幻觉的负面报道，比如AI律师引用虚假案例、AI客服胡言乱语等。这在当时引发了一定程度的“技术恐慌”，许多企业对引入大模型持谨慎甚至抵触的态度。大家普遍将幻觉视为一个必须被彻底消灭的“Bug”，否则AI就难登大雅之堂。

但随着越来越多的人亲身下场，将大模型集成到自己的工作流中，情况发生了变化。实践是最好的老师。当开发者和用户不再是隔岸观火的看客，而是每天都在与AI的“不完美”打交道的参与者时，一种更理性的心态开始形成。大家逐渐认识到，幻觉是当前技术阶段的常态，关键不在于如何消灭它，而在于如何管理它。 这种转变，是从追求一个完美的“理论模型”，到接纳一个有用的“现实工具”的成熟过程。

4.2 乐观情绪的分野

进入理性阶段后，乐观的情绪开始蔓延，但这种乐观在不同领域呈现出明显的分野。

内容创作领域的“拥抱派”
在写作、绘画、音乐等创作领域，幻觉的负面影响被大大削弱。有时，模型一次“一本正经的胡说八道”，反而能激发创作者的灵感，成为一个意想不到的创意起点。在这里，幻觉的容忍度极高，甚至被视为一种另类的“创造力”。
严肃领域的“谨慎派”
在科研、工业制造、医疗等领域，态度则截然相反。这里的从业者依然对幻觉保持着高度警惕。他们强调AI应用的可控性、可解释性和可追溯性。一个微小的幻觉，可能导致实验失败、产线停摆甚至安全事故。因此，在这些领域，AI更多地被用作辅助工具，最终的决策权依然牢牢掌握在人类专家手中。
AI编程领域的“矛盾派”
AI编程是当前最火热，也是心态最矛盾的领域。一方面，AI编程助手带来的效率提升是革命性的，无数开发者为此感到兴奋，甚至催生了所谓的“Vibe Coding”（氛围编程）。但另一方面，幻觉带来的问题也日益凸显。
一位开发者曾分享过一个案例。他让一个AI编程模型生成一个用于监控网络端口的Rust程序。模型花了数小时，在不断地编译、报错、修正的循环中，终于生成了可编译的代码。但运行时依然出错，因为它选择了一个不兼容开发者电脑ARM架构的库。模型又花了数小时进行修改，才最终成功。而这个对于人类程序员来说可能很快就能发现和解决的兼容性问题，AI却通过“大力出奇迹”的方式，消耗了海量的Token和时间。
这种现象背后，是幻觉的累积效应。在复杂的软件项目中，一个微小的幻觉错误，可能会被层层掩盖，最终演变成难以追溯和修复的“技术债务”。这种对“幻觉债务”的担忧，让许多资深开发者在享受效率红利的同时，也保持着一份清醒和审慎。

4.3 重新定义幻觉：今天的错误，未来的先声？

在对幻觉的讨论日益深入后，一些更具前瞻性的观点开始出现。我们是否应该换一个角度来审视幻觉？

“有时我们认为AI生成的结果是错的，只是因为我们不了解、不知道或没见过这样解决问题的方式，但它实际上是对的，这是AI创造性的体现。”

这个观点发人深省。它提醒我们，人类的认知本身是有限的。AI通过学习远超个人经验范畴的海量数据，可能会发现一些我们尚未察觉的模式和关联。它提出的某些看似“幻觉”的观点，或许并非错误，而是超越了我们当前认知框架的“前瞻性洞见”。

这就像历史上的许多科幻小说，它们在当时被认为是天马行空的幻想，但其中的许多构想，如移动电话、视频会议、虚拟现实，在几十年后都成为了现实。那么，我们今天判定为“幻觉”的AI输出，有多少会在未来被证明是正确的预测？

因此，在对待幻觉时，我们或许需要多一份耐心和开放的心态。不能太武断地将所有不符合我们现有知识体系的内容，都简单粗暴地标记为“错误”。

4.4 终极航向：走向“世界模型”

那么，从根本上缓解幻觉问题的技术航向在哪里？许多专家将目光投向了“世界模型”（World Models）。

当前的大模型，本质上仍然是“语言模型”。它们通过学习语言的统计规律来模仿智能，但它们并不真正“理解”语言所描述的那个物理世界。它们知道“苹果”这个词后面很可能跟“是红色的”，但它们不知道苹果为什么会从树上掉下来。

而“世界模型”的目标，是让AI在内部构建一个关于世界如何运作的、动态的、具有因果关系的模拟。它不仅仅是学习表象，更是要理解表象背后的物理规律、社会规则和因果链条。

这更像是训练一个真正的人类小孩。不是简单地给他灌输海量书本知识，而是让他通过观察、互动和实践，逐步构建起自己对世界的认知体系。一个拥有了世界模型的AI，在做决策时，将不再仅仅依赖于统计概率，而是会基于它对世界运行规律的“理解”来进行推理和预测。

这被认为是通往通用人工智能（AGI）的关键一步，也有望从根本上突破当前大模型“机械模仿”的局限，让幻觉问题得到质的缓解。

结论

GPT-5引发的“变蠢”争议，如同一面棱镜，折射出当前AI发展阶段最核心的矛盾——可靠性与创新性之间的艰难权衡。这场争论的本质，并非对某一个模型版本的褒贬，而是对整个行业技术路线的一次集体反思。

我们必须承认，幻觉是当前技术范式下的固有产物，它既是AI的“阿喀琉斯之踵”，有时也是其迸发创造力的“催化剂”。追求一个绝对“零幻觉”的AI，不仅在理论上不可能，在实践中也可能扼杀其最宝贵的价值。

未来的道路已经逐渐清晰。它不再是单一地追求更高的跑分或更低的幻觉率，而是转向一种更成熟、更务实的系统性工程。这要求我们将人类的先验经验和领域知识，通过规则、流程和混合架构，有效地集成到AI的应用链路中，为其戴上“缰绳”，进行有效约束。

最终，AI的发展将不再仅仅依赖于底层算法的突破，更依赖于我们如何智慧地与其“共存”。与幻觉共舞，理解它、管理它、甚至在可控的范围内利用它，这不仅是技术演进的必经之路，也是我们迈向通用智能时代，所必须学会的关键一课。

📢💻 【省心锐评】

别再执着于消灭幻觉了。真正的挑战，是如何构建一个能与幻觉共舞、并从中汲取力量的智能系统。这考验的不是算力，是智慧。

引言