Page 1 of 1

谷歌研究人员利用“充分上下文”信号改进 RAG

Posted: Mon Mar 24, 2025 5:21 am
by mdhasan550
谷歌研究人员介绍了一种改进人工智能搜索和助手的方法,即增强检索增强生成 (RAG) 模型识别检索到的信息是否缺乏足够的背景信息来回答查询的能力。如果实施,这些发现可以帮助人工智能生成的响应避免依赖不完整的信息并提高答案的可靠性。这种转变还可能鼓励发布者创建具有足够背景信息的内容,使他们的页面更​​适合人工智能生成的答案。

他们的研究发现,Gemini 和 GPT 等模型经常在检索到的数据包含的背景信息不足时尝试回答问题,从而导致幻觉而不是放弃回答。为了解决这个问题,他们开发了一个系统,通过帮助 LLM 确定检索到的内容何时包含足够的信息来支持答案来减少幻觉。

检索增强生成 (RAG)系统使用外部背景来增强 LLM,以提高问 阿尔巴尼亚 电话号码数据 答准确性,但幻觉仍然会出现。目前尚不清楚这些幻觉是源于 LLM 误解还是检索到的背景不足。该研究论文介绍了充分背景的概念,并描述了一种确定何时有足够信息来回答问题的方法。

他们的分析发现,Gemini、GPT 和 Claude 等专有模型在提供足够的背景信息时往往会提供正确答案。然而,当背景信息不足时,它们有时会产生幻觉而不是弃权,但它们也有 35-65% 的时间能正确回答。最后一项发现又带来了另一项挑战:知道何时进行干预以迫使弃权(不回答)以及何时相信模型能够正确回答。


定义充分上下文
研究人员将充分背景定义为检索到的信息(来自 RAG)包含得出正确答案所需的所有细节。将某事物归类为包含充分背景并不要求它是经过验证的答案。它只是评估是否可以从提供的内容中合理地得出答案。

这意味着分类不是在验证正确性,而是评估检索到的信息是否为回答查询提供了合理的基础。

背景不足意味着检索到的信息不完整、具有误导性或缺少构建答案所需的关键细节。

另请参阅: 微软研究院:生成检索排名答案

充分上下文自动评分器
充分上下文自动评分器是一个基于 LLM 的系统,它将查询上下文对分类为具有充分或不充分上下文。表现最佳的自动评分器模型是 Gemini 1.5 Pro (1-shot),准确率达到 93%,优于其他模型和方法。

通过选择性生成减少幻觉
研究人员发现,当检索到的数据缺乏背景信息时,基于 RAG 的 LLM 响应能够以 35-62% 的正确率回答问题。这意味着充足的背景信息并不总是提高准确率的必要条件,因为模型在没有背景信息的情况下也能以 35-62% 的正确率返回正确答案。

他们利用对这种行为的发现,创建了一种选择性生成方法,该方法使用置信度分数(自我评估的答案可能正确的概率)和足够的上下文信号来决定何时生成答案以及何时弃权(以避免做出不正确的陈述和产生幻觉)。这实现了在允许 LLM 在非常确定问题正确时回答问题与在有足够或不足的上下文来回答问题时弃权之间的平衡。

研究人员描述了它的工作原理:

“……我们利用这些信号训练一个简单的线性模型来预测幻觉,然后用它来设置覆盖率-准确度权衡阈值。
这种机制在两个关键方面不同于其他改善戒断的策略。首先,由于它独立于生成而运行,因此可以减轻意外的下游影响……其次,它提供了一种可控的机制来调整戒断,允许在不同应用中使用不同的操作设置,例如在医疗领域严格遵守准确度或在创意生成任务上实现最大覆盖率。”