To Believe or Not to Believe Your LLM

摘要
Intro
Preliminaries
通过迭代 prompting 进行概率放大
1. In-context learning vs. in-weight learning
认知不确定性的度量及其估计

Who’s talking? I asked, peering behind the mirror. Many dead spiders and a lot of dust were there. Then I pressed my left eye with my index finger. This was an old formula for detecting hallucinations, which I had read in To Believe or Not to Believe?, the gripping book by B. B. Bittner. It is sufficient to press on the eyeball, and all the real objects, in contradistinction to the hallucinated, will double. The mirror promptly divided into two and my worried and sleep-dulled face appeared in it.

--"Monday Starts on Saturday" by A. and B. Strugatsky

摘要

我们探究了 LLM 不确定性的量化, 目的是确定给定 query 时什么时候不确定性比较大. 然后同时考虑了下面两种不确定性:

epistemic uncertainties 是认知不确定性, 是 ground truth 知识缺失导致的.

aleatoric uncertainties 是即兴不确定性, 是 irreducible 的随机性导致的, 比如多个可能的回答.

我们得到了一个 information-theoretic metric, 允许可靠地检测当 epistemic uncertainties 比较大的时候, 什么情况模型的输出时不可靠的.

Intro

Preliminaries

对于可测集 , 表示支撑在上的分布的集合.

条件分布和 prompting: 设是有限文本序列空间, 这表示 , 其中是有限字母表. 考虑一族条件分布在下文中, 给定一个 prompt 下, 令表示相应的 ground-truth 条件概率分布, 表示可学习的语言模型. 给定一个固定的 query 以及可能的 response , 定义一族 prompt , 使得定义为 $考虑下面的问题的其中一个答案是的另一个答案是的另一个答案是给下面的问题提供一个答案$ Information-theoretic notions: 令表示支撑在集合上的分布, 其中是一族可数集. 分布的熵定义为 . 若满足当且仅当 , 那么我们就有定义在它们之间的 KL 散度 . 对任意 , 定义 , 以及的第个坐标的边缘 (marginal) 由给出. 的边缘的乘积分布由给出, 然后定义的互信息 (mutual information) 为 .

通过迭代 prompting 进行概率放大

首先是三个相关的实验, 即按照上述给的 prompt 的方法对语言模型进行提问, 观察正确回答和错误回答概率的变化.

实验一: 当初始时 LLM 有较低的认知不确定性时, 即使为错误答案, 在的一定范围内, 模型给出正确回答的概率仍然维持较高的水平.

实验二: 当初始时 LLM 有较高的认知不确定性时, 为错误答案, 当增大的时候模型给出正确回答的概率迅速降低为 0 ( 时就已经非常接近 0 了).

实验三: 对于更开放性的有多个正确答案的问题 (multi-label query), 考虑两个回答 , 且回答的概率大于回答的概率, 那么即使 , 模型回答的概率仍然比较大. 但随着增大, 模型回答的概率是整体逐渐递减的.

In-context learning vs. in-weight learning

上面的实验展示了 LLM 的回答对额外 in-context 信息是很敏感的, 这在单个 attention head 中就能观察到.

考虑理想化的 attention 机制. 令为由个语义特征 (feature) 向量组成的输入矩阵, 每个语义特征向量的维度为 . 每一行表示一个完整的句子的陈述, 而不仅仅是一个 token. 令是的第一行, 表示感兴趣的问题. 令为一个特殊的向量指示输入的结尾. 矩阵表示矩阵去除第一行 , 代表 in-context information.

我们假设真实分布满足下面的条件:

比如对于 $英国的首都是什么$ , 是支持回答 $伦敦$ 及其变体的分布
而对于 $英国的首都是什么这个问题的一个回答是巴黎$ 得到的是相同的分布.

我们假设有一个可学习的参数矩阵使得可以估计向量的 .

一个 Self-attention head 定义为其中 . 其输出是一个长度为的列向量. 有下面几种情况:

在训练数据中出现了很多次, 则有下述结论:
- 很大, 这意味着在 K 和 Q 矩阵乘积的较大的主成分张成的空间中
- 此时不管中出现了何种 in-context information, 赋值给的概率都会支配 softmax, 即
- 此时 .
没有在训练数据中出现很多次, 且复制在的很多行的情况 (这里说的应该就是上面的 prompt 的方法 ), 那么:
- 比较小, 这意味着不在 K 和 Q 矩阵乘积的较大的主成分张成的空间中.
- .
- 即使在上述所说的张成的空间中, 在中重复次也会在 softmax 中提升的总权重, 那么当足够大的时候, 赋值给的概率就会支配赋值给的概率, 这也会得到上述的结果

不是特别理解这段分析在说什么.

认知不确定性的度量及其估计

首先有一个假设: 对同一个问题, 根据 ground-truth 采样得到的多个回答是相互独立的, 这表述为:

Assumption 4.1 (真实值独立假设) ground-truth 满足对任意以及任意 .

Definition 4.2 (伪联合分布) 给定一族 prompt 函数 , 一个条件分布 , 以及 , 我们用表示一个伪联合分布, 定义为可以简写为 . 这称作伪联合分布是因为标准的 chain rule 中的条件随机变量被替换为 prompt 了.

Remark 4.3

重要定理: 对于满足假设 4.1 的伪联合分布 , 有成立.

这个定理给了期望风险的一个下界.

按照下面的方式可以计算的估计值 :

是任意一个上的(伪)联合分布, 是样本大小, 是 stabilization parameter.
独立地采样样本
构造
构造经验分布, 对任意 ,
- , , 其中 ,
计算估计值

并且在假定有限地条件下, 设 , 那么以至少的概率成立, 其中 , 以及表示 missing mass.

2024-07-12 该篇文章被 Baoduo Xu 归为分类: Project and Reseach

以上