概率论(六):数理统计基础
什么是数理统计
当我们用观测或者试验的方式去研究一个问题的时候, 我们可以得到一些数据.
自然地, 我们要用这些数据对原问题进行分析,
借助某种方法对这个问题做出一些尽可能正确的推断.
数理统计就是这样一门学科, 它使用概率论和数学的方法, 研究怎样收集带有随机误差的数据, 并在设定的模型之下对这种数据进行分析,
从而对所研究的问题进行推断.
基础概念
总体: 与所研究的问题有关的对象/个体的全体所构成的集合.
有时候我们只关注对象的某个数据, 比如学生的学习成绩等,
那么可以仅仅把所有对象的相关数据作为总体而略去对象的其他无关特征.
给总体中的数赋予一个分布, 比如学习成绩可以假定为正态分布,
那么这总体就称为统计总体. 总体就是一个概率分布.
总体分为参数总体和非参数总体, 参数总体的分布可以借若干未知参数表达出来,
非参数总体则不能.
样本: 按一定规定从总体中抽出的一部分个体. 在具体问题中,
样本是具体的数据; 而在理论研究中, 样本则视作一个多维随机变量 且每个
都应与总体具有相同的分布,
因为我们希望 "管中窥豹", 借助样本分析总体的性质,
就应该让样本具有代表性.
有放回抽取的样本是相互独立同分布的;
无放回抽取在总体数视作无限多个时也可以看作是相互独立同分布的,
而对于数量有限的总体, 有放回抽取对后续的抽取有影响, 它们并不是同分布的,
但是若总体数量充分大, 这些分布之间的差异可以忽略不计,
也可以近似认为样本是相互独立同分布的.
我们只关注相互独立同分布的情况.
样本容量: 样本中个体的个数.
样本观测值: 样本是随机变量, 实施抽样后会得到一些具体数值
这称作样本观测值.
统计量
获取样本后通常要对得到的信息进行加工和整理, 便于描述总体的分布特征.
加工整理的结果通常为样本的函数, 称为统计量.
也就是说统计量是
的函数且不含其他未知的参数. 比较重要的统计量包括:
样本均值:
用于描述样本分布的中心.
样本方差:
用于描述样本的散布程度.
阶原点矩:
阶中心矩:
REMARK: 样本矩与理论矩.
随机变量中矩的定义为: 设
为随机变量, 若 则称 为 的 阶原点矩, 为 的 阶绝对原点矩. 若又有
则称 为
的 阶中心矩,
为 的 阶绝对中心矩. 可以发现
矩是随机变量更一般的数字特征.
样本矩可以看作经验分布的矩.
数理统计三大分布
分布
称 服从自由度为 的 分布.
若 则
定理1
分布构造定理 设
相互独立且都服从标准正态分布, 则 即 服从自由度为
的 分布.
注意到 时是参数为 的指数分布.
性质1
PROOF 首先
根据
分布构造定理直接取期望便得 而 于是
性质2 较大时,
其中 满足
PROOF 采用中心极限定理即可, 较大时 近似服从
再根据上侧分位数的定义计算即可.
1676126544398
1676126558360
性质3
分布具有可加性: 若
相互独立且
则
分布
若 则 的概率密度为 定理3
分布构造定理 设随机变量 相互独立, 则 服从自由度为 的 分布.
1676126901987
时可近似认为
分布
定理4
分布构造定理 设随机变量 相互独立, 则
服从自由度为 的
分布(第一自由度和第二自由度).
性质:
抽样分布定理
定理5 (抽样分布定理) 设 是正态总体 的样本, 和 分别是样本均值和样本方差, 则
1: 与 相互独立;
2:
3:
4:
PROOF
1, 3 的证明有空再学.
2借助正态分布的可加性. 4借助结论1,2,3以及 分布构造定理可以直接导出.
根据抽样分布定理可以导出下面的结果:
定理6 设正态总体 相互独立, 样本为 样本均值和方差 样本为 样本均值与方差为
则
1:
2: 当 时,
其中
证明比较简单, 根据正态分布,
分布的可加性和抽样分布定理就可.
概率论(七):参数估计
参数估计是在做这样一件事: 已知从总体中抽出的样本 它们的概率密度函数为
其中
为参数,
某些值是未知的, 即已经知道其分布类型但不知其具体分布,
现在想通过这些样本对这些参数中的未知量进行估计(直接求出来当然是不可能的),
这就是参数估计.
点估计
矩估计法
矩估计法用到了一类重要的统计量: 样本矩.
它与随机变量的矩
的定义很相似. 设
为样本, 则 称为
阶样本原点矩.
实际上就是样本均值, 它是最重要的样本原点矩. 称为
阶样本中心矩. 注意到
有的教材会用小写字母
矩估计法做法如下: 设总体
的分布为
为参数, 根据总体原点矩的定义: 即总体 阶原点矩为 的函数.
然后用样本 阶原点矩 去近似 可以得到方程组: 需要计算 个矩, 保证有
个方程, 能解出每个参数. 由于
是 的函数, 于是解上述方程后得到的
的每一维都是 的函数:
举个例子: 设总体
的参数为期望和方差
(未知), 用矩估计法估计参数.
SOL 这里均用原点矩来估计. 首先 得 上面根据最初的方程组解出参数的步骤也可以放在最后一步.
用样本矩进行估计可得:
且注意到 这里
因此
很容易发现矩估计法得到的方差的估计并不等于样本方差, 而是差了一个倍数.
但我们一般使用样本方差
来估计总体方差, 即在中心矩的基础上做了一点修正,
这修正的原因在后面会解释.
再举一个例子引出另一个问题: 设总体 的分布是泊松分布, 参数 未知, 用矩估计法估计
SOL 这里需要注意的问题是,
总体的期望和方差分别是
这样我们实际上有两种方式估计 即 或者
那么这两种哪种估计的效果会好一些呢?
这就需要后面的点估计的优良性准则来决定.
REMARK: 矩估计法中,
常用的是一阶原点矩和二阶中心矩, 更高阶的矩用的比较少.
均匀分布参数的估计结论:
极大似然估计(MLE)
设总体 的概率密度函数为 设
为从总体抽出的一组样本, 样本的概率密度函数为 记作
现在想利用 确定
设样本 的相应的样本观测值为 那么
实际上表示抽取样本
后样本观测值为 的概率,
这是一个确定的事件的概率, 它被称为"似然函数".
对于两组确定的参数
倘若
那么我们可以认为参数估计值取 时, 抽取样本
得到观测值 的概率要大于参数估计值取
时相应的概率, 因此也就有理由认为 比 作为参数
的估计量更为恰当, 据此思想, 概率取得最大值时的
最适合作为参数的估计量, 于是 应该满足: 其中 是样本
的观测值,
在这里认为是已知的量. 这样计算得到的 是 的函数
称为极大似然估计值, 将 替换为 即可得到
称为极大似然估计量. 上述过程总结成一句话就是:
当从总体中抽出一组样本后且已知其观测值 时 ,
参数的最佳估计应该使观察到样本观测值的概率最大.
这里实际上很像 Bayes 公式的推理,
即根据已经发生的结果推测导致该结果发生的最可能的原因. 在这里,
参数可看作是导致事件 发生的原因,
上述过程就是执果溯因的做法.
由于
是若干个概率密度的乘积, 求导较为麻烦, 可考虑对数, 置 解出驻点 后,
借助黑塞矩阵验证是否为极大值, 再判断是否为最大值. 如果 不可导,
则可以考虑直接用定义找到极值点,
平常碰到的题求出来的都是最大值吧(
举两个机器学习中极大似然估计的例子.
点估计的优良性准则
由于我们是在对参数做估计, 估计的好坏是我们必须要关注的;
同时一种参数往往有不止一种看来都合理的估计方法(比如上文的泊松分布的
), 自然就要比较其优劣.
无偏性
对于不同的样本观测值
求出的参数估计值
不尽相同, 最理想的情况是
但这是不可能的, 因为抽取样本时数据总是带有随机性的误差.
因此我们放宽一点条件, 对于估计量
倘若
就可以认为: 对于不同的样本观测值
均匀地分布在
的周围, 不同点的或大或小的误差在求和之后抵消了, 因此称这样的 为
的无偏估计.
无偏估计的意义
- 没有系统上的误差.
- 结合大数定律来看, 若估计量具有无偏性, 则在大量次数使用取平均时,
能以接近
的把握无限逼近被估计的量. 从生活角度来看, 比如用秤称东西,
如果这个称没有系统误差(秤上显示的数据是真是重量的无偏估计),
即使每次称东西都带有随机误差, 可能会让某一方赚便宜而另一方吃亏,
但长期平均来看, 无偏性保证了双方都不会吃亏.
一些例子
样本的 阶原点矩是总体 阶原点矩的无偏估计.
下面证明样本的均值
和方差 都是无偏估计, 但用 去估计方差不是无偏估计, 且用 去估计标准差也不是无偏估计. 因此
不是方差的无偏估计.
有效性
如果一个参数有不只一种估计量, 比如有
和
对于 的一个邻域
如果
就意味着对于相同的样本观测值, 前者比后者更有可能取得离参数的准确值 更近的估计值,
那么就有理由认为估计量
要优于
即
更有效.
这实际上是希望
更集中地分布在离 比较近的地方,
那么就需要一个描述分布集中程度的量, 显然是方差.
因此给出有效性的概念:
已知
与
是 的无偏估计,
若
则称
比
更有效.
显然是存在最小方差无偏估计(MVU估计)的, 在介绍求 MVU
估计之前, 先举一个简单的例子.
设
是总体均值的估计量, 且
证明 是无偏估计, 且
是 MVU 估计.
PROOF 首先 则它为无偏估计. 注意到 要求 考虑
Cauchy-Schwartz 不等式: 取等条件为
而
这就是要证的.
这个例子用语言表述就是, 若估计量为样本的线性函数,
那么样本均值是 MVU 估计.
MVU 估计的求解
借助克拉美-劳不等式.
有时间再补充.
相合性
设
是未知参数 的估计量, 若
则称 为 的相合估计量.
比如 是 的相合估计量(借助大数定律验证), 和 都是
的相合估计量(借助辛钦大数定律验证).
证明某估计量为相合估计量时, 有三种做法:
对于较为简单的分布如均匀分布第三种方法比较好用.
REMARK: 相合性是在极限意义下定义的,
只有当样本容量充分大时相合估计量才会有优势,
但在实际情况下往往难以增大样本容量,
同时验证统计量的相合性并不是一件简单的事情,
因此更经常使用无偏性和有效性.
无偏性需要计算期望, 有效性需要计算方差,
相合性需要计算概率极限.
区间估计
点估计的缺陷:
- 估计值只是真实值的近似值, 它与真实值的误差范围没有指明;
- 估计值的可靠性没有指明
区间估计是一种生活中很常见的估计方式, 比如若总体为大学生的年龄,
可以估计大学生的平均年龄在 岁之间, 当然这是一个很粗略的估计, 精度非常低,
但是这个估计是足够可靠的, 可以认为平均年龄落入 的概率为 或非常接近
因此描述区间估计的好坏就有两个标准:
- 可靠度: 区间包含待估参数的概率
- 精度: 区间的长度
显然可靠度和精度是两个互相矛盾的要求, 要想提高可靠度必须要增大区间,
要想提高精度必须要缩短区间, 需要在两者之间找到一个平衡.
奈曼提出的处理原则是: 优先考虑可靠程度, 在这基础上再提高精度.
下面是区间估计的定义, 假设仅有一个待估参数.
设总体的未知参数为
由样本 确定两个统计量
对于给定的较小的实数 满足
则称随机区间 是 的置信度为 的置信区间.
"置信度" 表述了可靠程度, 即参数落在估计区间中的概率,
"参数位置在这个区间中的可信程度".
置信度中的
常常取这几个数值: 以 最为常用.
一般步骤: 设 为待估参数,
根据样本
构造一个包含待估参数的统计量
(这统计量被称为枢轴变量) 并尽量使
的分布是已知的(比如标准正态,
分布, 分布等等),
同时要能反解出 即用 表示 , 再找满足
的区间 ,
这通常要借助上侧分位数; 最后由不等式 整理出
这就是要找的置信区间.
事实上, 设
的密度函数为 满足
即 的区间 有无穷多个, 要选择哪一个区间呢?
根据区间估计的原则, 我们已经确保了可靠性(置信度保证了可靠性),
那么自然要选择最短的区间, 对于标准正态而言, 显然满足 的最短区间为 因此选择
分布与标准正态的密度函数形状相似(均关于 轴对称), 因此区间的处理是类似的; 而对于
分布或 分布而言, 它们的密度函数的图像无对称性,
最短区间的形式并不容易确定(确定后的形式也不简洁), 为了方便,
采用与正态分布和
分布类似的处理方式, 即令 此时就有
分布同理.
对标准正态的最短置信区间做简单论述: 任取 记 考虑满足 的
区间
由于正态分布密度函数的对称性和在 的单调递减的性质, 显然有 这就意味着若要使
显然要有 因此
这对任意 都是成立的,
这就意味着 是满足 的最短区间.
画出图像会更直观.
单侧置信区间:
有时候进行区间估计时上界和下界并不是都需要的,
这样的区间估计得到的是单侧置信区间, 满足 或
求单侧置信区间的步骤和上面大同小异, 需要注意的是是选择 还是
这取决于最后需要上界还是下界, 同时要注意反解
时不等号方向是否发生了改变(显然下面四种情况反解的时候不等号的方向都发生了变化).
正态总体的区间估计
主要考虑统计量的选取, 需要借助数理统计三大分布和相关的定理来构造,
记结论更重要.
的置信区间
若 是来自正态总体
的样本, 则:
已知时: 选择统计量
于是
因此 的置信度为 的置信区间为
如果用统计量 来求
的置信区间会出现什么问题?
这统计量服从 分布,
设其密度函数为 由于在 附近有 则
显然使用
分布的精度不如使用标准正态.
这告诉我们已知信息一定要用.
未知: 选择统计量 于是
因此 的置信度为 的置信区间为 若求单侧置信区间, 需要单侧置信上限时统计量限制下界,
需要单侧置信下限时统计量限制上界, 后文中 的区间估计同理.
1676635044819
的置信区间
求 的置信度为 的置信区间.
已知时: 选择统计量
于是
整理即得置信区间为 未知时: 选择统计量
整理得置信区间为
1676635091438
两个正态总体
主要是 和 的区间估计,
这需要借助抽样分布定理的推论得到的两个分布.
这里暂时不再赘述两个正态总体的置信区间.
1676635120033
1676635142335
概率论(八):假设检验
假设检验, 顾名思义就是对假设进行检验, 判断假设是否合理可靠,
而这"假设"通常是根据样本观测值对总体的某些特征做出的猜测.
对于一个分布未知的总体以及它的样本,
我们总能根据样本的数字特征等对总体的分布等做一些假设, 这些假设
(hypothesis) 称为统计假设或简称假设.
这假设要么成立, 要么不成立, 所以一般而言有两个假设, 原假设 与对立假设
在原假设不成立的情况下认为对立假设成立.
假设又分为参数假设和非参数假设两种:
仅涉及总体分布的未知参数的统计假设称为参数假设,
不涉及参数而与总体分布或其他特征有关的假设称为非参数假设,
一般而言更关注参数假设.
对于参数
我们能做的假设无外乎三种: 相应的对立假设一般而言取原假设对应的补集,
也可以是补集的一个子集甚至是一个元素. 比如 的对立假设可以为 也可以为
检验假设是否成立很像"概率意义上的反证法",
即在假设成立的基础上(比如假设 ), 选择一个分布确定的统计量 且 需要为参数 的一个良好估计量,
计算给定样本的 对应的观测值
如果假设真的可靠, 那
就有很大概率落在 的附近, 即 或者是
应该要有一个界, 假设不可靠的话, 就会有偏离
的趋势. 于是当
超过一定界限时就拒绝 而接受 这界限该如何确定呢?
这主要依据小概率事件原理:
如果在原假设成立的基础上发生了一件概率非常小的事件(
是一比较小的正数),
那就意味着在假设成立的基础上小概率事件在一次试验中发生了,
这几乎是不可能的, 也就有理由认为原假设不成立而对立假设成立了,
这也是"备择假设"名称的由来. 对比一般意义的反证法: 假设命题 成立, 若在 成立的条件下推出了矛盾, 则 不成立, 在这, "假设 成立"就对应了"命题 成立", "小概率事件
发生"对应"推出矛盾". 检验一个假设时所使用的统计量 称为检验统计量.
称为显著性水平, 通常可以取 等. 拒绝原假设时 落入的区间 称为拒绝域(使原假设得到接收的样本集合),
接受原假设时
落入的区间称为接受域. 为了方便, 就像区间估计那样, 往往令
此时已知
的分布后便于用上侧分位数来表示 ,
比如对于标准正态为 对于 分布为
等等. 这样取值在分布为对称分布是会更有优越性,
具体原因和区间估计中的分析类似,
在这里应该是犯第二类错误的概率会更小.
检验的严格与否取决于
的不同取值, 当 比较小时,
拒绝原假设的样本集合会更小, 也就是有更多的机会接受原假设,
此时检验较为宽松; 比较大时,
接收原假设的样本集合会更小, 检验更加严格.
两类错误
由于样本总是带有这样或那样的随机误差, 可能会出现下面两种错误:
- 原假设成立但是拒绝了原假设, 称为第一类错误(Type I Error)
- 原假设不成立但是接受了原假设, 称为第二类错误(Type II Error)
对于特定的例子可以计算出这两类错误的概率:
对于正态总体
假设 对立假设 样本为
第一类错误: 犯第一类错误简称为弃真.
第二类错误: 在 不成立的情况下,
不再服从标准正态, 但是只需稍作变形便得: 因此 这是以
为自变量的一个函数.
犯第二类错误简称为纳伪.
弃真与纳伪的概率可用下图表示:
1671871464853
在样本容量确定的情况下, 就像区间估计不能同时提高可靠性和精度那样,
犯两类错误的概率也不能同时减小, 如上图, 要使犯第一类错误的概率减小,
需向左移动或/且 向右移动,
这操作必然会使绿色部分的面积增大; 反之亦然.
一般认为第一类错误的危害大于第二类错误的危害(实际上并不绝对),
所以原则 (Neyman-Pearson 原则)
上先确保第一类错误发生的概率在某个水平以下,
再尽可能使第二类错误发生的概率小.
与区间估计的关系
以正态均值的估计为例回忆一下区间估计的流程: 求 的置信度为 的置信区间时, 希望
用统计量 来作为 的估计,
选择
则整理出置信区间为 在做假设检验时, 假设 也可以看作是一种对 的估计, 那么若假设可靠, 就应该落入置信区间中, 否则 就不是 的一个良好估计, 假设 自然也就不可靠了; 而若 则有 且 是在 成立的条件下的检验统计量,
可以发现上面得到的就是接受域,
因此区间估计的置信度与假设检验的显著性水平的 是可以看作是同一个
假设检验的基本步骤
1: 提出原假设 .
2: 建立检验统计量.
3: 确定拒绝域.
4: 对 进行判断.
单个正态总体的假设检验
已知正态总体
显著性水平水平为
均值
假设 对立假设
检验法
若总体方差已知为
则在 成立的条件下, 检验统计量选择
拒绝域为
检验法
若总体方差未知, 在
成立的条件下, 检验统计量选择 于是拒绝域为
方差
假设 对立假设
检验法
如果总体均值 则在
成立的条件下, 根据 分布构造定理有 于是拒绝域为 如果总体均值未知, 则在
成立的条件下 于是拒绝域为
1676634817452
单侧检验
这里仅以单个正态方差已知的均值检验为例, 包括:
等号的位置也可能在对立假设那里,
但是上面这两种情况是我们处理得最多的情况, 所以对于
可以将原假设与对立假设进行调换, 再做检验.(真的可以吗?)
要解决单侧检验问题, 首先给出下面的命题:
假设检验 与假设检验 具有相同的拒绝域.
两个正态总体的假设检验
涉及到两个正态总体的假设检验,
原假设一般是两个正态总体的方差或均值是否相等. 设两个正态总体为
样本分别为
均值
原假设 对立假设
双样本
检验法
当两个正态总体的方差均已知时, 在 成立的情况下选择检验统计量 于是拒绝域为 .
双样本
检验法
当两个正态总体的方差均未知但是方差相等时,
选择检验统计量 其中
拒绝域为
对于方差未知且不相等的情况, 并没有好的办法. 幸运的是, 只要 与 相差不大, 经验表明使用 检验法的结果是较为令人满意的.
方差
原假设
对立假设
检验法
均值均已知
选择检验统计量 于是拒绝域为
均值均未知
选择检验统计量 于是拒绝域为
1676634921866
原假设
对立假设
均值未知采用 检验法, 在
成立的条件以及显著性水平 下 样本标准差观测值为
于是 拒绝域为 检验统计量的观测值的范围包含了拒绝域,
在这种情况下如何进行假设检验呢?
分布比较集中的地方, 比如正态分布的 内的区间, 然而, 若事实是 落在了概率很小的区间上,
比如正态分布的 上,
概率论(九):回归分析
回归分析主要研究变量之间的关系, 这些变量中必须要有随机变量,
否则的话关系就是确定的了. 回归分析着重寻找变量之间的函数关系,
于是自然就有因变量和自变量, 有时会称为预报变量和预报因子. 需要注意的是,
可以是随机变量也可以不是随机变量,
在分析的时候, 我们往往不认为
是随机变量而仅仅是参数(但是这参数和后文我们要估计的参数不同), 但是 也同样拥有"观测值", 并且可以在试验中和
的观测值一同被观测到.
比如农作物的亩产量 与施肥量
的关系(当然 也可以是向量, 即 在后文默认 ),
亩产量是随机变量而施肥量是人为因素, 根据生活常识 与 显然有关系, 但是 又不仅仅严格取决于 浇水量, 天气, 土壤条件等都可以影响
但是现在只关注 对 的影响, 因此把除了 以外的影响都并入随机误差项中, 记作
同时要求 于是 的值可以看作由两部分构成, 一部分是
的影响所致, 这可表述为 的函数
另一部分是众多未考虑的因素以及随机因素 因此就有模型 函数 称为 对 的回归函数; 方程 称为 对 的回归方程.
如果
直接来自于模型或者说是模型的一部分, 称其为理论回归函数;
对于给定的数据也可以通过某种手段求出 的一个估计 这称为经验回归函数.
理论回归函数一般而言是未知的, 或者说形式已知而参数未知, 比如 可能是线性函数, 二次函数,
对数形函数或指数形函数(其中线性函数是后续主要讨论的一种情况),
回归分析的任务就是要根据数据去估计
以及做进一步的统计分析(如区间估计和假设检验).
随机误差项的假定: 一般认为随机误差项 且方差以小为上, 因为
越小用 逼近 的误差就越小, 回归方程也就更有用.
方差的大小主要取决于两点: 影响
的重要因素是否被考虑在内以及回归函数的形式是否合理. 如果没有 的假定,
只能根据中心极限定理采取大样本方法使随机误差近似服从正态分布.
一般而言无关的因素总是足够多且往往是互相独立的, 因此认为 服从正态分布是合理的.
由于 且 因此就有
在这里采用了类似于条件概率的记号
可以认为这是在参数 已知的条件下 的期望, 这样的记法并不意味着 是随机变量,
只是一种形式上的记法.
应用: 大致有四种用途. 定性描述 和 之间的关系; 定量描述 和 之间的关系; 预测; 调整 使 达到期望的水平.
一元线性回归
这里
一元线性回归的回归模型为
其中 被称为回归常数, 被称为回归系数. 现在对该模型进行 次独立观察, 可得到一组样本: 这通过方程组
来描述,
其中
表示每次观察时随机误差的取值, 是没办法确定具体的值的, 假定其服从正态分布
且由独立观察, 独立同分布. 因此
且相互独立.
既然已经有了样本, 想做的事自然是要对 做估计. 假设用 与 估计 那么在 处就可以用 得到 的估计(或者说预测) 这显然有个偏离 称为残差.
注意区分误差 和残差 前者是一个随机变量, 值是未知的,
且不能被观察到;
后者则是根据样本得出的经验模型计算出的预测值与实际值的误差.
显然估计的偏差越小越好, 最简单最直接的方式就是使 取得最小,
这实际上是 的函数, 记作 , 然而取绝对值得到的函数往往不可微,
因此最常见的方式还是残差平方和, 即
这种寻求估计值的方式称为最小二乘法, 是对 的点估计. 下面求出估计值
于是 因此就有 注意到 于是
又注意到 故 也可以写成
随机项误差方差 的估计:
最小二乘法的概率解释
事实上, 从MLE出发可以得到与最小二乘法相同的结论.
由于 且 则 对于给定的样本
确定参数 就相当于参数估计问题,
矩法和 MLE 都是可以选择的, 这里选择 MLE, 因为 MLE 本身是用概率解释的,
即参数 应当使得: 当对 进行观测得到样本 时(这些样本对应的自变量为
), 样本观测值为
(这些样本观测值对应的自变量取值为 )的概率是最大的,
而观测值为
的概率(似然函数)为 取对数得 令
可以得到与最小二乘法相同的估计值 同时也不难发现
当只关注 时 可视作常数, 因此由这一等式就能得到
这也就意味着在对线性回归的参数做估计时, MLE 和最小二乘法是等价的.
MLE 当然也能对
进行估计: 为残差.
很遗憾, 这并不是
的无偏估计, 在上面已经给出了 的无偏估计.
一元线性回归的假设检验
如果只有样本而不知道回归模型的形式,
要''求出回归函数就需要先假定回归函数的形式, 就是假设检验了. 于是对于
要进行如下的假设检验:
原假设 存在线性相关关系;
对立假设
不存在线性相关关系.
那么要选的检验统计量要能反映出 的(线性)相关性, 容易想到相关系数
这是随机变量
线性相关程度的数字特征, 对于样本有类似的样本相关系数 它是 的相关系数的矩估计.
做假设检验 显然
越大对原假设越不利.
对于显著性水平 当 时拒绝原假设, 认为
之间线性关系显著,
反之接受原假设.
其他的检验方法
可以对 进行检验, 如果 那么 表明 仅仅依赖于随机项,
之间便不存在线性相关性(事实上也没有其他的相关性), 时可以认为 和 有线性相关性. 因此提出假设检验: 在 成立的条件下,
于是选择检验统计量为
残差平方和
多元线性回归
多元线性回归的回归模型为
为了表示方便, 令
于是回归模型可以写为
同样使用最小二乘法求出
的点估计, 样本为
于是 令
那么上述和式可以写成 于是 于是令 有 若 列满秩, 则 可逆, 则
上面采用矩阵的写法简化运算过程, 常数项 的估计 的计算可以单独拉出来, 即令
可以得到
此时若令
则
一元线性回归得到的参数估计值满足的性质在这里仍然成立:
- 是
的无偏估计.
- 即
与每个 都不相关.
- 令
那么
若记残差为 则方差 的无偏估计为,