LLM 的幻觉问题：成因、检测与缓解策略

什么是幻觉？分类与定义

大语言模型的幻觉（Hallucination）指模型生成了与事实不符、无据可查或与输入上下文矛盾的内容。学术界通常从两个维度进行分类：从来源看，分为内在幻觉（输出内容与输入上下文矛盾，如同一个段落在生成过程中前后不一致）和外在幻觉（输出内容无法被给定的参考知识验证，模型凭空编造了不存在的信息）；从性质看，分为事实性幻觉（事实错误，比如把某个历史事件的日期搞错）和忠实性幻觉（偏离用户意图或上下文约束，比如要求用中文回答却输出英文）。

幻觉产生的深层原因

幻觉的形成并非单一原因所致，而是多重因素叠加的结果。训练数据中的噪声与偏差是最根本的来源——互联网语料中充斥着不准确、过时、甚至相互矛盾的信息，模型在预训练阶段无差别地吸收了这些噪声。概率生成机制的本质缺陷在于模型只学会了统计共现的模式，并没有建立对世界事实的真正理解——当一个序列在训练分布中有较高的概率，模型就会倾向于生成它，而不在乎它是否真实。**曝光偏差（Exposure Bias）**加剧了问题：训练时模型看到的是正确的上文（Teacher Forcing），推理时模型却只能看到自己生成的上文，一旦早期步骤出现偏差，错误就会如滚雪球般累积。知识截止日期使得模型对其训练截止日期之后发生的事件一无所知，强行追问时便只能虚构答案。输入歧义导致模型在不确定用户意图时自行脑补，生成看似合理但完全偏离预期的内容。

幻觉的常见表现形式

了解幻觉的具体表现形式有助于在实际应用中快速定位问题。事实性错误最为典型，如模型将牛顿的出生年份错报为 1643 年（真实年份是 1643 年没错，但可能会报错爱因斯坦的出生年份为 1878 而非 1879）。实体混淆指模型将两个同名或相似实体弄混，比如将某位作者的著作张冠李戴。时间错乱表现为将不同时间点的事件混为一谈，比如声称 Windows XP 发布于 2005 年（实际为 2001 年）。自相矛盾指模型在同一段回答中做出了前后不一致的陈述。虚构参考文献是学术界使用 LLM 时最头疼的问题——模型会生成格式完美、看似权威但完全不存在的论文标题和 DOI。

幻觉检测方法

检测幻觉本身也是一个技术难题，目前主要有三条技术路线。**自检方法（Self-Consistency）**让模型对同一问题生成多个回答，然后比较各个回答之间的事实一致性，若多个采样结果之间出现显著差异，则可能存在幻觉。基于自然语言推理（NLI）的方法使用专门的 NLI 模型或让 LLM 自身判断一个陈述是否可以从给定的参考文本中推出，常见框架包括 SelfCheckGPT。基于检索的验证是最可靠的一类方法——将模型输出的关键事实陈述逐一发送到搜索引擎或可信知识库中做对照验证，通过计算证据支持度来标记可疑内容。Google DeepMind 的 FACTS 指标即是这一思路的典型代表。

缓解幻觉的策略体系

缓解幻觉需要多层防御架构而不是单一技巧。第一层是 RAG（检索增强生成）基座化：在生成前先从外部知识库检索相关文档，将检索到的证据作为生成的上文约束，这是目前最有效也最广泛采用的幻觉抑制手段。第二层是约束解码（Constrained Decoding）：在推理阶段施加规则限制，例如强制要求输出必须包含特定的实体或必须遵循预定义的 JSON Schema，从而限制模型的”编造空间”。第三层是提示工程：通过在提示词中明确要求模型引用来历、标记不确定信息、使用”据我所知”等限定语，可以有效降低幻觉的自信度表达。第四层是基于验证数据的微调：收集一批已被人工验证的高质量事实数据对模型进行微调，让模型建立更精确的事实映射。这种方法成本较高但效果持久。

理解模型的不确定性

要想治理幻觉，先要测量不确定性。Token 概率校准是将模型对每个输出 Token 的概率作为置信度的代理指标，理想情况下高置信度应对应高准确率，但实际 LLM 普遍存在过度自信问题，校准效果不佳。**语言化置信度（Verbalized Confidence）**让模型用自然语言表达自己对答案的把握程度（如”我十分确定”、”这个信息需要核实”），更符合人类的认知习惯，但需要专门训练才能达到可靠水平。一个好的实践是结合两种方式：用 Token 概率做程序化判断，用语言化置信度做面向用户的风险提示。

系统级护栏设计

生产环境中的 LLM 应用应当配备完整的幻觉防御管线。输出验证层对所有生成内容做自动化的关键事实提取和来源追溯。事实核查流水线将重要输出（如医疗建议、法律条款、财务数据）送入专门的验证流程，经过检索、比对、评分后才允许返回给用户。用户反馈闭环收集终端用户对输出准确性的评价（如点赞/点踩、纠错提交），持续标注和迭代改进。置信度阈值路由对低于置信度阈值的查询，降级处理——要么返回”我无法确定”的保守回答，要么转人工处理。

幻觉评估基准

评价一个幻觉缓解方案的效果离不开标准化的基准测试。TruthfulQA 包含 817 个涵盖 38 个类别的问题，专门考察模型在面对常见误解和虚假信息时能否给出真实回答。HaluEval 是一个大规模幻觉评估数据集，包含了 35000 个样本，覆盖了多轮对话、摘要生成和问答三个场景，同时标注了幻觉出现的具体位置。FactualityPrompt 则通过提示工程的方式评估模型在长文本生成中的事实一致性。这三个基准从不同维度评估幻觉问题，建议在选型时组合使用。

一个哲学追问

还有一个无法回避的问题：幻觉真的能被彻底消除吗？从原理上讲，只要模型本质上仍是一种基于概率分布的下文预测器，并且训练数据永远不可能覆盖所有事实与知识，那么幻觉的存在就是一种必然。更务实的目标不是消除幻觉，而是将幻觉控制在一个可接受的范围内，并建立足够的检测和兜底机制——就像在桥梁工程中，我们不是追求让桥永远不坏，而是确保它在设计寿命内安全可靠，并在出现问题时及时发现和修复。