Learning Theory 基础

Preliminaries
ERM Rule
1. Finite
A Formal Learning Model: PAC Leaning
1. Agnostic PAC Learning
Learning via Uniform Convergence
VC Dimension
1. The Fundamental Theorem of PAC Learning
No-Free-Lunch
传统统计模型
1. 广义线性模型
2. 鞅
REF

Preliminaries

Domaim set : 一个任意的想进行 label 的集合
Label set . 后续为了方便一般都会用二分类来讨论一些内容.
Training Data: 有限集 , 或者记作 .
一个 learner 的目标是要得到一个 predictor/hypothesis/prediction rule/classifier . 用表示算法在数据集上训练得到的 predictor, , 其中是参数空间.
数据的生成: 我们总是假定上有一个 unknown distribution ,目前我们认为存在一个绝对正确的使得对中每一对 sample 都有 , 称之为 concept, 于是数据的生成是 i.i.d 地从上采样并以标注.
用 error/risk 来衡量 learner 是否很好地完成了学习的任务, 这称为 generalized error/ true error, 定义为: predictor 的 error 从中随机采样且的概率. 更正式地, 给定和概率分布 , 符号表示观察到某个满足的可能性大小, 因此在很多情况下我们会认为是事件, 并定义且 , 因此

原书中许多地方的证明过程都是用来表示概率的, 为了与概率论相契合, 我们只用来表示概率.
learner 关于是一无所知的, 它只能从训练集中获取信息.
一个好的 learner 需要有足够小的 generalized error, 但是由于对和一无所知, 只能计算所谓的 empicical error/risk, 定义为任务替换为最小化 empicical risk , 称为 ERM Rule (经验风险最小化). 我们的终极目标是训练一个具有较小 test loss 或者 population loss 的一个模型.

总结下来就是:

有关符号的说明:

或者都表示在训练集上学习到的模型

都表示 training loss

都表示 test loss

为了方便, 当上下文不出现损失函数的时候或者我们不关心损失函数时, 也可以不用手写体表示上述 loss, 直接用 , 有时候可能也会用 , 但是会尽量保证符号统一.

有 hat 符号一般都是和训练集相关的内容.

假设空间 有时候也会写成函数空间 , 两者是等价的.

一般会代指训练集的大小, 一般会指数据的维度.

是 distribution, 为了方便, 有时或者大部分时候也不用手写体, 而是使用 .

ERM Rule

ERM rule 会出现过拟合即小而大的情况. 我们自然想知道在什么条件下 ERM 不会出现过拟合, 即 ERM predictor 不仅在训练集上表写好, 在 underlying data distribution 上也能表现好的条件.

一个解决过拟合的方法是限制来限制 predictor 可选的范围. 给定 , 一个 learner 使用 ERM rule 以上最小可能的误差来选择一个 , 即 , 这里也说明了 . 当限制了时, 我们对某些特定的 predictor 产生了偏好 (bias), 这样的限制经常称为 inductive bias.

Learning Theory 中的一个基本的问题是在什么样的下不会出现过拟合.

在措辞上, 更严格的说法是 “ 一个 learner 是否会出现过拟合”, 为了方便表述, 后文会略去 learner. 符号可以认为是的一个元素或者一个子集, 也可以认为是返回或输出一个的算法, 这个/些元素满足最小.

Finite

有限集是最直接的一种限制, 后文将会证明, 当是有限集时, 在充分大的训练集 (大小和相关) 的条件下不会出现过拟合.

我们需要先做一些假设.

The Realizability Assumption 存在 s.t. .

这个假设表示对于随机的 ( 采样自以标注), w.p. .

由于是随机采样得到的, 我们无法保证通过一定能学到一个好的 predictor, 因为总是有可能采样到的数据恰好不能很好地表征 . 我们把采样到“不好的 (不够具有代表性的)” 的概率记作 , 称为我们预测的置信度 (confidence parameter).

由于我们无法保证做到完美的预测, 因此有必要引入 accuracy parameter , 并且认为时 predictor 是 “失败的”, 而时 predictor 被认为是近似正确的.

记表示训练集 ( 表示样本用字母表示, 后文会略去, 并默认由表示) , 现在想给一个训练集预测失败的概率一个上界.

下面简述求解思路.

考虑中一些不好的假设即 , 将它们的集合记作 . 然后一定存在一些 , 使得虽然是不好的, 但是能够完美地拟合 , 即 , 将这些的集合记作 . 显然在上能通过 ERM Rule 学习出的满足的 , 一定是中的元素, 且 realizability assumption 表明 , 那么这就意味着事件发生的充分条件是 .

A Formal Learning Model: PAC Leaning

PAC Learning 的全称是 probably approximately correct learning.

PAC learning 实际上是在研究 sample complexity 的问题, 就是在的置信度下, 以的 acc 需要多少样本, 并且什么样的 (在 PAC Learning 的框架下) 是可以学习的. 严格的定义如下:

定义 1 (PAC Learnability) 假设空间是 PAC learnable 的, 如果存在使得存在满足下面性质的算法 :

对任意 , 对任意上的分布 , 对任意 , 若 realizable assumption关于成立, 那么在个 i.i.d. 的且以标注的样本所构成的训练集上运行算法时, 算法会以至少的概率返回一个满足的条件的 .

PAC Learning 的定义中包括两个 approximation parameter, 其中决定了输出的分类器距离最优的分类器有多"远" (approximately correct), 它允许赦免分类器的少量错误; 表明了分类器有多大的可能满足准确率的要求 (probably) .

决定了学习所需要的 sample complexity, 即需要多少样本可以保证一个 PAC 的解. 当时, 是 PAC Learnable 的, 且样本复杂度满足

Agnostic PAC Learning

realizability assumption 是很强的假设, 中不一定存在一个完美的使得 . 同时 label 不一定完全由已知的特征决定.

在接下来, 被定义为上的联合分布, 接着定义上的边缘分布和上的条件分布 . 然后上述的定义依据联合分布进行修正.

The Bayes Optimal Predictor 给定上的 , 则是一个最优的的 predictor. 即对所有分类器都有 .

如果对数据生成的分布不做任何先验的假设, 则不存在任何算法可以得出一个和 Bayes predictor 一样好的 predictor.

定义 2 (Agnostic PAC Learnability) 是 Agnostic PAC Learnable 的, 如果存在以及一个满足下述条件的算法 :

对任意 , 每一个上的分布 , 当在个 i.i.d. 的样本上运行时, 返回一个满足以至少的概率成立.

的条件其实是非常强的, 当放松这个条件后, 可以得到 Agnostic PAC Learnability 的定义, 与 PAC Learnability 基本完全一致, 除了不需要 realizable 假设以及算法需要返回的是满足的以及分布是的联合分布而不是上的分布.

agnostic 的意思是 “不可知的”.

loss function 的严格定义是 . 对于预测问题, , 并且认为是一个随机变量, 这要求它可测, 此时 , 以及 , 其中 . 然后就很容易得到 Agnostic PAC Learnability 在这种一般定义下的 loss function 的定义.

Learning via Uniform Convergence

任意有限的都是 PAC Learnable 的, 这里引入一个新的更 general 的工具 uniform convergence, 用来展示任意有限的在 agnostic PAC model 的框架下以及损失函数时一般的损失函数也是可学习的, 只要 range loss function 有界.

存在一个很好的训练集 , 使得中的每个元素都具有很好的泛化误差

VC Dimension

有限的 hypothesis class 是可学习的, 而由所有函数构成的类是不可学习的, 那自然就想问决定一个类是否可学习的条件是什么. 我们先探究一些 infinite hypothesis class.

举一个简单的例子, 设 , 其中是一个阈值函数. 则在 REM Rule 下是 PAC learnabel 的, 且样本复杂度满足 . 我们证明这一事实.

Proof. 我们考虑 realizable assumption 成立的情况, 即存在 , 使得 . 设是在上的边缘分布, 这里 , 于是原问题是一个二分类问题. 首先对当满足一定条件时:

当且时, 一定存在满足使得

当时, 令
当时, 令

确定之后, 考虑一个数据集 . 令 , 倘若不存在标签为的样本, 令 ; 令 , 倘若不存在标签为的样本, 则令 . 设是在上通过 ERM rule 学到的阈值, 相应的 hypothesis 记作 , 由 ERM Rule 我们知道 , 于是必然有 , 以确保所有的正样本落在中, 所有的负样本落在中, 来保证经验误差为 0. 我们现在来计算的泛化误差: 这里的含义是介于和之间. 我们想让泛化误差 , 只需要让落入中即可, 而我们又知道 , 于是的充分条件是且 , 因此第二个不等号用到了 Union Bound, 即对于一系列事件 , 有并且略去了下方的 . 我们知道中的样本是独立同分布的, 要使 , 只需要让所有样本都不落入中即可, 令 , 这里用到了不等式 . 当时, 显然有 , 于是有 . 同理有 , 因此在的条件下, 这也就意味着在这样的样本复杂度的条件下, 成立的概率至少是 , 这就是 PAC learnable 的定义, 也就完成了证明.

这个例子中的是无限的, 但它却是可学习的, 说明 finite hypothesis class 只是可学习的充分非必要条件. 为了知道什么样的是可学习的, 我们可以考虑给一个衡量的复杂程度的 measurement, 这是因为从直观上来看越复杂的越 "不易学习". 接下来我们用 "打散(shatter)" 这个概念来给的复杂程度一个衡量标准.

定义 1 (打散, shatter, informal) 对于的任意一个有限的子集 , 也就是一个(目前没有标签的)数据集, 考虑二分类问题, 即样本的标签为 , 如果我们不限制标签, 那么根据标签的不同总共有种, 或者说, 可以用所有的元素来作为给打标签的 ground truth. 如果对任意 , 给打上标签后, 都存在能够完美拟合 , 即 , 那么就称能够打散 (shatter) .

定义 2. (VC dimension) 的 VC Dimension, 记作 , 定义为 , 即中能被打散的有限子集的最大基数.

为什么定义打散并通过打散来定义的 VC dimension 呢? 可以借助线性函数与多项式函数对一系列点的拟合来理解 (也就是一个回归问题). 设在坐标系上有个(不共线的)点, 无论怎么挑选线性函数, 都不可能找到一条直线同时经过这个点, 但是对于的多项式函数而言, 很容易就能找到一个这样的多项式函数, 同时经过这个点. 这正印证了所有线性函数构成的集合的在拟合能力这一点上, 是不如多项式函数的, 也就是线性函数类的"复杂程度"不如多项式函数类. 能够打散 , 说明了不管中样本的标签怎么变化, 中都存在一个假设能够拟合 , 说明本身足够复杂, 越大则越说明更复杂. 所以我们才使用中能被打散的有限子集的最大基数来定义 VC dimension, 作为衡量 hypothesis class 的复杂程度的一个 measurement.

如果可以打散任意大的集合, 就称 .

我们在这里联合没有免费的午餐定理 (No free lunch theorem) 给出一个推论. No free lunch theorem 的严格表述如下:

定理 1. (No Free Lunch) 设表示任意一个学习算法, 它接收一个样本集合返回一个 hypothesis. 对于上的二分类问题 (标签为 ), 对任意一个满足的样本数, 存在一个上的分布 , 使得:

存在使得 , 即存在一个泛化误差为 0 的 ground truth;
在样本集合上, 以至少的概率成立.

No Free Lunch theorem 是在说不存在一个通用的学习器 (或者说学习算法) 可以在所有的学习任务上都表现的很好. 上面的定理就是说存在一个分布使得任意一个学习器学习出的的泛化误差都有不小的概率有一个下界, 这是学习器失败的表现, 但是同样存在另一个学习器可以成功学习这个分布, 或者说任务. 我们现在给出一个推论:

推论 1. 设 , 是训练集的大小, 假设存在一个大小为的集合能被打散, 则对任意学习算法 , 都存在一个分布和使得但是以至少的概率成立, 其中 .

这个推论是在说如果能够打散大小为的集合, 则没有算法能通过大小为的集合来学习 . 这是个很自然的推论, 因为当足够复杂的时候, 比如神经网络, 样本数量太少将造成欠拟合. 还有另一种解释方法, 如果对于某个能被打散的 , 我们只能得到中一般的样本, 那么这一半的样本对于我们预测中另一半的样本的标签没有任何帮助, 因为对于另一半样本, 不管是哪一种标签组合, 里都能找到一个与之对应的 hypothesis. 从哲学上讲, 如果有人可以解释所有现象, 那么他的解释本身就是毫无意义的.

时是一定 PAC learnable 的, 其实甚至可以不用学习的方法直接穷举即可. 那时就一定不可学习吗? 事实上时也是 PAC Learnable 的.现在我们可以通过 VC dimension 给出一定不可学习的 hypothesis class 了.

定理 2. 若满足 , 则不是 PAC learnable 的.

下面我们给出一些常见的 hypothesis class 的 VC dimension:

阈值函数 (即文章最开始的例子中提到的) 类的: .
区间函数 () 类:
平行于坐标轴的矩形函数类: .
有限 hypothesis class: .

The Fundamental Theorem of PAC Learning

现在不加证明地给出统计学习的基本定理.

定理 3. (统计学习基本定理) 设 , 是 0-1 loss, 则下述命题等价:

具有一致收敛性
是 PAC learnable 的
是 Agnostic PAC learnable 的
.

这可以同时由 VC dimension 给出定量形式, 设 , 则样本复杂度在满足

1: 时, 具有一致收敛性.

2: 时, 是 Agnostic PAC learnable 的.

3: 时, 是 PAC learnable 的, 其中是两个常数.

那为了确保不出现过拟合, 我们需要 bound .

generalization gap 定义为 , 于是最小化的目标转化为最小化 generalization gap 和 training loss (optimization error).

No-Free-Lunch

no free lunch 是在说, 不存在一个算法 , 存在一个对抗分布 , 使得即使存在一个好的 predictor, 也会很大概率找不到这个 predictor.

传统统计模型

主要回顾线性模型和广义线性模型.

参数模型 (parameter model) 的定义是: 一个可学习的可以被有限维参数给 index 住的模型.

线性模型是 , 其中是 ground true. 可以学习一个 linear classifier , 这是有限维的, 所以该线性模型被给 index 住, 它是参数模型.

学习一个模型实际上是给参数一个估计, 我们希望这个参数满足 consistency, 即时需要有 .

对于线性模型而言, 当考虑最小二乘法时, , , , 可以证明它是 unbiased 且满足 consistency, 证明 consistency 时除了求以外, 也可以求 . 现在对进行研究: 其中第一项就是 bias, 第二项是 variance. 如果采取作为估计量的话, 有可能会碰到的某一个特征值非常小的情况, 这就会导致是 unbiased 但是有很大的 variance, 这就导致整体的误差偏大. 所以可以考虑找一个 biased 但是具有较小的 variance 的量, 使得整体不太大, 这就是岭回归的 intuition, 即 . 此时但具有更小的 variance term, 事实上存在 , 在某些很松的假设下, .

岭回归还有其他的 intuition, 比如:

在 loss 上增加惩罚项
保证求逆时数值稳定

广义线性模型

当假设时, , 这样不够灵活, 如果有先验或者这样假设就不是很好的选择.

指数分布族是具有形如的 PDF 的分布, 其中是变量, 是参数. 当有广义线性模型时, 假设可以写作 , 其中 .

对于线性模型,
对于二分类 / Bernoulli 分布, ,
对于 Poisson 分布, , 假设是 .

鞅

定义 1 称随机变量序列是关于的一个鞅, 如果是的函数, 且 , 且 .

REF

[1] Shalev-Shwartz, S., & Ben-David, S. (2014). Understanding machine learning: From theory to algorithms. Cambridge university press.

[2] Roman Vershynin (2018). High-Dimensional Probability: An Introduction with Applications in Data Science. HDP-book.pdf (uci.edu)

%%设 PIB 前后的 token 分别为和 , 并且认为 token 的每个维度都是独立的, 设 token 估计的概率为 , 那么 , 且由于计算的时候是个之间的数相乘, 的值可能会很小, 因此也要对进行 softmax. 对也是同理. 那么 %%分布 , 那么借助极大似然估计就有无偏估计然后计算当时熵: 那么熵的估计量为然后得到熵的序列 . 当然这里算的时候还是要判断是否可逆. torch 算应该已经封装了谱分解或奇异值分解了, 就没必要在这里再提一嘴了.

定理: 任意维度随机变量 , , 则 .

也就是说, 正态分布的熵是最大的.

还有一种熵的计算方式. 且 .

这两种计算方式有什么差别呢?

当采样出个答案时, 熵的估计就是能算 embedding 的熵吗?

近来，多模态大模型在多种视觉-文本任务上已经取得了不错的效果，但是幻觉仍然阻碍着多模态大模型的发展。既有的多模态大模型大多通过projector实现视觉信息与文本信息的对齐，即将图像tokens映射到文本空间，进行图像与文本信息的交互。我们的研究表明，图像信息在模态对齐和大语言模型处理过程中存在被缺失或被遗忘的情况，这加剧了幻觉的产生。基于此，我们提出了Post Interaction Block（PIB），该模块用于LLM backbone和lm head中间，实现了图像信息与文本信息的二次交互。此外，我们还考察了大模型内部状态的动态变化，通过输出token和输入token的关系矩阵变化佐证图像信息的缺失，以及句子embedding分布的熵及熵的变化和 PIB 前后输入的 embedding 的相似度设置拒绝回答的阈值，以规避幻觉内容的输出。 -->

现在想证明的是这样一件事情. 对任意 , 取值非负的随机变量序列满足存在 , 其中是一个增函数, 使得当时, 有成立.

现在有当时, , 其中 .

2024-05-06 该篇文章被 Baoduo Xu 归为分类: AI

以上