一维随机变量及其分布
概念
很多试验的样本空间的样本点不是数字, 不好处理,
我们可以通过某种映射规则将其映射到 上, 得到变量,
便可以借助一些数学工具来解决随机问题.
随机变量是试验结果(即样本点)的函数. 在试验之前我们不能预知它的值,
在实验之后它的值就确定了.
定义1 设
是随机事件 的样本空间, 若对每一个
内的样本点 都有唯一的 与之对应,
且对任意实数 都有确定的概率
与之对应, 则称
为随机变量, 简记为
我们在后面可以看到概率 的意义.
REMARK : 随机变量实际上是映射
有时候在样本点为实数时, 我们会取
为恒等映射. 随机变量不同于普通意义下的变量, 它有两个特点:
由随机试验的结果所决定,
以及随机变量各值得可能性大小有确定的统计规律性.
随机变量的反面是确定性变量
即取值严格遵循某种严格规律的变量.
随机事件是从静态的观点来研究随机现象,而随机变量则是一种动态的观点,
一如数学分析中的常量与变量的区分那样,
变量概念是高等数学有别于初等数学的基础概念.
关于随机变量的研究是概率论的中心内容.
随机变量可分为离散型随机变量和连续型随机变量. 实际上,
"连续性变量"这个概念只是一个数学上的抽象, 任何量都有一定单位,
都只能在该单位下量到一定的精度, 故必然为离散的.
但是当单位极小时, 其可能值在一范围内会很密集,
视作连续量在数学上更为容易处理.
离散型随机变量
定义2 设
为离散型随机变量, 其全部可能值为 则 称为
的概率函数/分布律/概率质量函数.
显然 第二个式子可由概率的加法定理得出.
式
反映了全部概率在其取值之间是如何分配的, 又称为"概率分布/分布".
我们可以用列表表示分布律:
定义3 (分布) 我们称所有 构成的集合称作随机变量
的分布.
分布是概率构成的集合, 知道了
的分布, 就知道了
落在实数轴上任意一个子区间的概率, 从而知道了随机变量 取任何值的概率. 需要注意的是事件 与事件
是等价描述.
分布的定义中,
的任意子集 的种类太多,
不便于我们描述, 我们采用一些特例, 包括上述的分布律,
下面要介绍的分布函数以及后文中的概率密度函数.
定义4 (分布函数) 设 为一随机变量, 则函数 称为 的分布函数.
定义4看似简单, 只定义了一个点左侧的概率,
但实际上我们能借此表示出任一区间的概率.
定义4并不独属于离散型随机变量, 它对于任意随机变量都有定义.
这是个很了不起的定义,
虽然它表面上只给出了随机变量落入任意一个点的左侧的概率,
但我们能通过此求出随机变量落入任意一个区间 的概率, 同时对区间
上的概率取极限我们可以得到随机变量取任意值的概率, 它为
若离散型随机变量
的所有可能取值为
那么分布函数可以改写为: 不难发现
即
为数列 的差分(不过要定义
), 于是 或者按照分布函数的写法: 从这也能看出分布函数实际上是一个累加概率. 对于连续性随机变量,
我们可以根据数列的差分与函数求导、数列的求和与函数的积分之间的类比定义密度函数,
这在后文中会有提到.
性质1 对于任意的随机变量 它的分布函数 有下面的一般的性质:
单调不减.
是右连续函数, 即
PROOF 性质1.1是很容易证明的, 因为对于
于是借助概率的性质有 对于性质1.2, 当 时 接近于必然事件, 时 接近于不可能事件.
性质1.3: 这性质与定义中的
关系密切.
上述的三条性质实际上是充要条件,
我们可以用这三个条件来验证一个函数是否是一个分布函数.
对于离散型随机变量, 有一些重要的分布.
Bernoulli试验与二项分布
定义5 若一个试验的样本空间只有两个样本点,
即只有两个可能的对立结果, 和
则称该试验为Bernoulli试验.
令 以及 发生不发生 则 的概率分布为 称
所遵从的该概率分布为两点分布. 在以后, 当 符合某种分布 时, 我们用 来表达这一点.
定义6 (独立重复实验) 将一个试验在相同条件下重复进行
次,
如果在每次试验中任一事件出现的概率与其他各次试验结果无关, 则称这 次试验是 次独立重复实验.
定义独立重复实验后, 我们思考这样一个问题: 独立重复地进行Bernoulli试验
次, 为事件 在这 次试验中发生的次数, 计算 的概率分布.
显然 的所有可能取值为 于是 称
所遵从的概率分布为二项分布, 记作 .
之所以称为二项分布, 是因为 是 的展开式的第 项, 即 于是两点分布实际上是二项分布的一个特例, 即
二项分布的实例之一是有放回的抽样, 即在次品率为 的 个产品中有放回的抽出 个产品, 这 个产品所含次品的个数 便服从二项分布. 显然不放回抽样时 不服从二项分布, 但是若 我们可以近似认为不放回对 无影响, 这时候可以近似认为 服从二项分布.
二项分布的极限: Poisson分布
我们通过一个实例来引出Poisson分布.
设随机变量
表示一定时间内发生的事件个数. 为了方便, 设观察的这段时间为 并将其 等分:
我们做一些假定: 设事件
在某个时间段发生的概率正比于这个时间段的长度(也即 在任意时刻发生的概率相等), 于是当 充分大的时候,
我们有理由认为事件
不可能在每个区间(这些区间的时间很短)内发生两次或两次以上;
同时假定 在任意时刻发生是独立的,
并设 在每个区间发生的概率为 基于以上假定, 我们可以近似认为
于是 由于 很大, 我们取极限,
有: 以及: 于是 称满足遵从上述分布的随机变量 服从Poisson分布, 记作
上述推导就表明了Poisson分布是二项分布的极限.
既然Poisson分布是二项分布的极限,
那么我们便可以在某些条件下用Poisson分布来近似二项分布(这样做是因为Poisson分布的计算要更容易).
一般来说, 对于 满足
很大 很小且 不太大时,
便可以用Poisson分布来近似二项分布.
由于 时 因此在实际计算时,
我们可以忽略某个较大的 后面的项,
即考虑有限项, 这能减少不少运算量.
超几何分布
在第一节的古典概型例题部分,
有这样一个抽样问题:
从有 个废品的 个产品中随机抽出 个产品,求里面恰好有 个废品的概率。
记 为抽出的废品数, 则 称遵从上述分布的随机变量 服从超几何分布, 记作
由于超几何分布的模型是一个不放回的取物品的模型, 当 比较小或 时, 放回与不放回之间的差距不大,
可以忽略,
此时超几何分布可以用二项分布来近似(取物品放回的模型为二项分布), 即
负二项分布
某种产品的次品率为
现一个一个地从若干该产品中抽取, 设抽取到第 件次品时已经检出 件合格品, 则 称符合上式的随机变量
符合负二项分布, 记作 ,
被称作负二项分布是因为数列
的生成函数为
即负指数二项展开式.
借助系数组合的背景可以有下面的做法:
几何分布
是负二项分布的 时的特例.
它是公比为
的等比数列, 故称为几何分布.
几何分布的一个实例是: 在某试验
中事件 发生的概率为 独立重复地进行试验
为
第一次发生时进行的试验的总次数,
服从几何分布.
连续型随机变量
我们先不给出连续型随机变量的严谨定义, 而是提供一个感性的定义,
连续型随机变量
的全部可能取值是全体实数.
于是我们不能像定义2那样描述连续型随机变量(因为实数集取值不可列). 事实上,
如果我们指定一个数 我们可以求出
这是因为
当然上式依赖于 的连续性,
这在后面会有证明. 所以我们需要用其他方法来描述连续型随机变量的分布.
在定义分布函数后, 我们发现对于离散型随机变量, 概率数列 实际上是数列的 的差分,
那么我们可以用分布函数类比此用导数来定义"概率密度函数"用以刻画连续型随机变量的概率分布:
定义7 设连续型随机变量 有概率分布函数 定义 为 的概率密度函数,
简称密度函数.
定义7是一个感性的定义, 它未考虑 不可导点的情况,
后面会给出解决的方法. 下面给出连续型随机变量的定义.
定义8 (连续型随机变量) 设随机变量 的分布函数为 若存在非负可积函数 , 使得对任意实数 都有 则称随机变量
是连续型随机变量.
REMARK (1) 连续性随随机变量 的分布函数是连续函数,
借助可积函数的积分上限函数连续即可证.
但是其逆不真, 即不可能事件也有可能发生.
由于 分子即为事件 的概率, 除以
后可以理解为在区间
内单位长度所占有的概率, 取极限即得概率在 处的"密集程度",
这是"密度函数"名字的由来; 另一种理解的方式是, 考虑 的一个充分小的邻域 于是
它表明了区间 事件发生的概率, 于是
可以看作是单位长度所占有的概率.
于是对于质量为 的杆而言,
可以将分布函数看作它的质量分布, 由分布函数可以求出任意一段杆的质量;
可以将概率密度函数看作是杆的密度分布函数, 虽然杆上的任意一点的质量为
但是杆的密度函数可以反映出杆上哪一块质量分布比较集中.
性质2 连续型随机变量 的密度函数 都具有一下三条性质:
1:
2:(规范性)
3: 对任意 都有
值得注意的是由于连续型随机变量任取一个点的概率都为 所以性质2.3对于 以及 而言都是一样的.
若函数 满足性质2.1,
2.2, 则它必定是某个随机变量的概率密度. 这两个条件是充要的.
对于不可导点的处理
概率密度函数的定义为 但是 不总是可导的, 因为只有当 连续的时候
才可导. 对于不可导点, 实际上它并不重要, 因为黎曼可积还告诉我们,
改变可积函数的有限个点的值并不影响其积分的值. 于是在不可导点处,
概率密度函数的值可以随便取, 通常为了方便我们把它放到左边或者右边,
或者根据实际问题而定.
对于连续型随机变量也有一些重要的分布.
正态分布
定义9 若一个随机变量的概率密度函数为 则称
服从正态分布(normal distribution)/Gauss分布, 并记为
特别地, 若
则称
服从标准正态分布. 标准正态分布的分布函数常用 或 表示.
一般的正态分布很容易转化为标准正态分布来计算. 因为 验证
是一个概率密度函数是十分简单的, 只需要验证反常积分
即可.
REMARK: 若 则 计算的时候查表再利用对称性灵活应用就好了.
上侧分位数
已知随机变量
若存在 使得
则称
为标准正态分布对应于
的上侧分位数.
上面的定义即在说 举个例子, 已知
则
指数分布
用一个例子来引出指数分布.
设一元件的寿命为
该元件的失效率(在单位长度的时间内失效的概率或者说在某一时刻失效的概率)保持不变.
假设该元件在 内正常工作而在
内的某个时间点失效,
则其失效率可以表示为 (这需要条件概率是因为元件在 内正常工作是已经发生的事情), 取极限
可得瞬时失效率, 于是 解该微分方程可得
显然
因为元件的寿命不可能为负, 于是
的分布函数为 借助此我们可以求出其概率密度函数:
定义10 若随机变量 的概率密度函数为 则称 服从参数为 的指数分布, 记作
性质3 (无后效性/无记忆性) 设 服从参数为 的指数分布, 则对任意 有
性质3也叫"永远年轻的分布", 它的意义是, 现在有一个元件已经使用了 时间, 那么它能再使用至少 时间的概率,
与一个未使用过的元件能使用至少
时间的概率相等, 那么在概率的意义下,
我们完全可以把它当成新的元件来用.
指数分布描述了无老化时的寿命分布, 然后在现实生活中, 往往是 的增函数, 即随着时间的推移,
元件老化的概率会变大.
均匀分布
定义11 若随机变量 的概率密度函数为 则称 服从 上的均匀分布, 记作 或
REMARK: (1) 随机变量落在 的子区间的概率与位置无关,
仅与测度成正比, 对于一维的连续型随机变量测度为长度;
大量实验服从均匀分布;
当在某个区间若我们无法断定某个子区间事件发生的概率比其他子区间事件发生的概率大,
那么就有理由认为这是均匀分布. 均匀分布的典型字眼: 在区间
上任取一点.
分布函数为
混合型随机变量
混合型随机变量既不是离散型随机变量, 也不是连续型随机变量.
下面举个例子: 已知一个圆, 圆周的一半均匀分布着区间 上的数字, 另一半则全部分布着 现在圆周上随机取一点, 记取到的点为
显然 不是离散型随机变量, 因为 上数不可列; 又由于 的分布函数为 显然 在 处不连续,
这与连续性随机变量的定义有悖, 于是它也不是连续性随机变量.
多维随机变量(随机向量)
基本概念
设随机试验 的样本空间为 且 的每一维都是定义在 上的随机变量, 则称 为一个 维随机向量/变量.
我们主要关注二维随机变量.
二维随机变量
可以看到二维随机变量的这些定义与一维随机变量的定义极为相似.
联合分布函数
若记 那么就称 为随机变量
的联合分布函数.
联合分布函数在概率的计算中应用的并不是很多,
因为它只能计算出矩形区域的面积, 若区域不是矩形, 即使是非常规则的圆,
计算概率也十分费劲. 后面介绍的密度函数更适用于计算某一区域的概率
边缘分布函数
多维随机变量的每一维都是一维随机变量,
于是每一维的分布函数称为边缘分布函数, 即
对于离散型随机变量有联合分布律.
联合分布律
若二维随机变量
每一维的取值都是可列的, 则称其为离散型随机变量, 概率可用下面的式子表示:
称为联合分布律. 可用表格表示.
性质:
1: 随机变量
的分布律(边缘分布率): 2:
3:
4:
对于连续性随机变量有联合概率密度.
联合概率密度
定义 设二维随机变量 有联合分布函数 若存在非负可积函数 使得对任意序偶 有 则称
是二维连续型随机变量, 称为
的联合概率密度.
反映了概率在 上分布的集中程度, 就像密度 ()
函数反映了一个平面的质量分布一样. 一个平面任意一点或一条曲线的质量为零,
概率同样也为零. 类比边缘分布函数有边缘概率密度: 和 满足 下面是一些性质:
性质 1:
2:
3: 在 的连续点处有
4: 若 则
性质4提供了计算任意区域上概率的更方便的方法(相比用联合分布函数),
这也是联合概率密度用得比联合分布函数多的原因. 这个性质的一维版本是 可以直接表示为
某些值相加减, 因此一维随机变量很多情况下用分布函数计算更为方便.
5: 于是 同理
二维均匀分布
设 若二维随机变量
的联合概率密度为 则称 在 上服从均匀分布, 其中 为区域 的面积.
若已知 那么就有
这是度量为面积的几何概型.
二维正态分布
定义 若二维随机变量 的联合概率密度为
其中 则称 服从二维正态分布, 记作
有的版本会记作
常用的仍然是标准正态分布
的情况更常见, 此时 性质 1: 二维正态分布的边缘分布也是正态分布,
即若 则
且
证明只需要略微繁琐的积分计算.
从这个性质可以看出二维正态分布的联合概率密度和 有关而边缘概率密度和 无关. 实际上描述了 的关系. 上面 的情况也正说明了 无关/相互独立.
2: 二维正态分布的条件分布也是正态分布.
条件分布在后面会讲到, 这里补充一个可以导出条件分布的过程:
用平面 或平面 去截
所得到的曲线很像一维的正态分布曲线,
然而遗憾的是该曲线对应的函数不是概率密度函数, 因为(以 和标准正态分布为例为例) 由于 不一定等于
于是做归一化处理有 于是可以把
作为一个密度函数, 在后面会定义这个为条件密度函数, 记作
独立性
二维随机变量的独立性
和事件的独立性一样, 在二维随机变量中, 若 的取值对 的分布没有影响, 即事件 的发生与否不影响事件 的发生, 则可以认为 相互独立, 这就有下面的定义:
定义 设
是二维随机变量, 若对任意实数
都有 成立, 则称 相互独立.
由该基本定义可以衍生出一些其他的判定二维随机变量的两个变量是否独立的方法:
1: 可以直接导出
2: 对于离散型随机变量有
3: 对于连续性随机变量也可导出
不过该式子仅在平面上除去面积为 的集合外成立.
上面这三个条件与命题 "
相互独立" 是等价条件.
多维随机变量的独立性
条件分布
首先是离散型随机变量的条件分布.
实际上是在某一维取某个值的条件下另一维取某个值的概率.
定义 设
的联合分布律为
且 则称
为在
的条件下二维随机变量的条件分布律.
显然有
这是分布律的性质之一.
和第一章探讨过的内容一样, 可以利用条件分布定义独立性,
即在某个条件下的概率与没有这个条件的概率相同:
这是新的两个判断二维离散型随机变量 是否独立的方法.
然后是二维连续型随机变量的条件分布.
在最初提到条件概率时, 明确限制了一点是 中 但在连续型随机变量中, 或 取某个值的概率不总是大于零,
甚至在多数情况下(即边缘密度函数可微时)为 这意味着我们不能像 那样定义
于是考虑采用极限的方法定义.
定义 给定 且任意 若
且对任意实数 极限 存在, 则称此极限为在 的条件下二维随机变量的条件分布函数,
并记作
值得注意的是,
的含义是
下面来利用条件概率的公式对上式做一下变形: 于是 同样可以定义条件概率密度:
随机变量的函数及其分布
为什么要研究随机变量的函数的分布而不研究随机变量本身的分布?
因为有些变量的不易直接测量(比如气体分子动能的分布);
直接测量得到的分布可能不是常见的分布.
离散
设随机变量 的分布律为 随机变量 满足 则 的取值集合是函数 的值域, 取某个 的概率是满足 的那些 对应的 的和, 这表述为下面的公式: 对于二维随机变量可做类似推广.
定理(二项分布具有可加性): 设随机变量 则
证明时直接用定义即可, 不过需要用到下面的组合恒等式:
证明可考虑展开
并对应相等或者考虑式子本身的组合意义.
但是从概率的角度这个性质便不证自明, 用一个简单的例子来说明这一点:
先抛掷 次硬币, 为正面朝上的次数, 再抛掷 次硬币, 为正面朝上的次数, 那么显然 是这 次抛掷硬币正面朝上的次数. 定理
可做推广, 即对
个随机变量都是成立的.
同时具有可加性的分布:
注意 " " 的情形.
验证正态分布的可加性是一件挺繁琐的事:
读作
在后面的章节中会碰到
分布, 它的定义如下:
连续
一个问题是, 函数不总是连续的, 比如
定理 设随机变量 具有概率密度 设 在 上处处可微且严格单调, 的值域为 那么 是连续型随机变量, 且其概率密度为
PROOF 严格递增时, 因此 递减时可得到 合并即得结论.
借助定理 可以推知正态分布的一个性质:
若 则
因此就有
特殊的函数分布
已知随机变量 .
max和min
设
则
相互独立同分布是指两个两个独立变量的分布律/分布函数/概率密度相同.
和的概率密度
求 的概率密度函数. 由于要求导求概率密度, 但是上式得到的是一个含参变量积分,
且对含参变量积分求导要求被积函数一致连续. 为了避免对被积函数求导,
做线性变换 使内部积分的积分限不含 (此时也恰好能使积分区域变为矩形,
这是常用的一种手段)因为
于是此时Jacobi行列式 因此 (下面为了方便不使用 而仍使用 ) 于是 如果 相互独立,
那么就有 这实际上是卷积的一种形式.
实际上也可以在将二重积分写成累次积分后换元, 这时相当于一元积分换元,
无需考虑Jacobi行列式.
还有另一种代换方式是 可以得到一个类似的结果是 当
相互独立也可以写成卷积的形式:
商的概率密度
有与和的概率密度相似的换元. 做代换 可得Jacobi行列式为 于是 因此
随机变量的数字特征
数学期望
期望(expectation)这个词来源于赌博, 可以指"期望得到的钱数",
相比于期望, 均值显然是个更好的名字, 这在下面会有所阐述.
离散型随机变量: 当级数
绝对收敛时, 定义离散型随机变量
的期望为
Q: 为什么要求绝对收敛?
A: 绝对收敛的级数有一个很好的性质是重排它不会改变它的值.
若级数仅仅条件收敛, 那么重排级数后可以使这级数不收敛或收敛至任意值,
这就意味着以此定义的数学期望与 相加的顺序有关,
但作为一个客观的刻画
的某种特性的数值, 不应该与
相加的顺序有关.
连续型随机变量: 设 的密度函数为 当反常积分 绝对收敛时, 定义 REMARK: 数学期望其实就是均值.
对于离散型随机变量, 可将 看作以 为权的 的加权平均. 除此之外,
还可以类比质心来理解数学期望, 可以发现由于 以及
期望的定义公式与一维坐标系上质心的定义公式是一样的,
而质心也可以看作是一种"均值"; 对于连续型随机变量,
考虑定积分定义(虽然这里是反常积分, 但并不妨碍我们直观理解),
考虑某个长度为 的小区间
且
于是由概率密度的含义可近似认为
取得 的概率为
因此上面的积分也可以写作和式 这仍可看做是加权平均,
因此连续型随机变量的期望可看作是离散型随机变量的期望的连续版本.
期望不存在的情况: 在现实生活中,
对于随机变量我们好像总是能找到它的均值, 好像不存在"期望不存在"的情况,
这是因为现实生活中的问题总是离散且有限的.
期望不存在的连续型随机变量比较常见, 比如Cauchy分布的密度函数为 可以验证遵循Cauchy分布的随机变量 的均值不存在. 在做题的时候,
一般不考虑期望不存在的情况, 除非题目刻意考察.
期望的性质
1: 若某个随机变量的取值有界, 则其期望一定存在.
设 显然
收敛是显然的.
2:
是一个线性算子.
即
这实际上依赖于 和 的线性性.
3: 若 相互独立,
则有
仅证明离散且 的情形:
设
由于 相互独立, 则 故 则 感觉怪怪的.
4:
PROOF
于是
常见分布的期望
1: 0-1分布
2: 泊松分布 则
因此泊松分布的参数的意义是期望/
的随机取值.
3: 正态分布 则
往标准正态分布上靠, 直觉上也显然, 因为取值关于 对称.
4: 二项分布 则
直接采用定义计算要用组合数公式: 这个组合数公式在后面的很多证明中都能用得到.
下面给出另一种计算方式:
借助二项分布的可加性, 考虑将二项分布看成 个0-1分布的和, 即记
5: 指数分布 则
分部积分即证.
6: 均匀分布 则
显然.
7: 超几何分布 则
SOL1 显然蓝色部分是 的所有的 的求和, 和为 因此
SOL2
考虑借助期望算子的线性性.
超几何分布是无放回抽取, 不妨设这 次抽取是逐步进行的, 同时设 表示第 次抽到的红球的个数, 显然 服从0-1分布, 就有 且 第次抽到红球 显然,
借助抽签的公平性, 每一次抽到红球的概率都为 因此 因此
把
分解成简单的分布有时候会使问题简化不少,
求解二项分布的期望也可以这样做.
8:负二项分布 则
SOL1 设 表示第 次成功时总的试验次数 于是 于是 对于蓝色部分, 它是 的所有 的求和, 显然为
于是
SOL2 仍然把负二项分布分解,
不过这里应该把其分解为几何分布. 设 表示第 次命中到第 次命中之间的射击次数(左开右闭区间), 则
不难发现 而几何分布的期望较容易求:
因此
随机变量函数的期望
"不自觉/无意识的统计学家法则"
已知随机变量 且 连续.
1: 若 为离散型随机变量,
且其分布律为 若 绝对收敛, 则
2: 若 是连续性随机变量,
且其概率密度为 若
收敛, 则
PROOF 离散型的证明: $$
$$
推广到二维有()
例题
例1 设 且相互独立, 求
正态分布的可加性是一个很有用的结论.
SOL 显然
例2
方差
若随机变量 满足 存在, 称 为 的方差, 记作 或者
利用例二的结论就有: 0-1分布
时方差最大.
定义随机变量 的标准差为 在实际应用中标准差更常用,
是因为标准差与其对应的随机变量有相同的量纲.
方差的简单性质
1:
常数不会影响随机变量的分布.
2: 相互独立时,
证明在协方差部分.
常见分布的方差
1: 0-1分布:
2: 泊松分布:
则
泊松分布的参数既是方差也是期望. 直观上也很容易理解, 因为 决定了 的分布, 越大数据越分散,
方差自然也就大了.
3: 二项分布: 则
$$
$$
于是
另一种做法是借助0-1分布的方差 当 相互独立时有 于是
4: 负二项分布
5: 超几何分布
可以得到 其中 为
于是
有关超几何分布的 的顺序,
不同地方有不同的版本, 但是对应字母的含义大抵都相同,
以最常见的抽样问题来描述就是:
表示样品总数,
表示具有某种性质的样品数(如次品/合格品), 表述抽取的样品数, 注意 要表示抽取的样品中次品/合格品的数目, 与
所表示的性质相对应.
6: 正态分布
7: 指数分布
协方差与相关系数
现在考虑任意两个随机变量
考虑他们和的方差 可以得到
对于后面那一项我们在前面已经求出来它可以写成 的形式, 也即当 相互独立时这一项为 当 不相互独立时该项不为 于是我们可以认为这一项衡量了 的相关程度,
因此定义协方差: 于是就有 推广可有
维随机变量的协方差一般记作矩阵的形式:
显然它是个对称阵, 对角元为每一维的方差.
对于任意的随机变量
其乘积的方差
并没有一个比较通用的公式, 在此就不对其做讨论了.
性质: 1:
2: 协方差可以看作是一种内积, 它满足:
计算协方差的难点是
方法有两种, 要么求出
的密度函数, 要么借助随机变量函数的期望, 一般后者简单一些.
单位的影响
协方差表明了两个随机变量的相关程度, 然而协方差与随机变量 有相同的单位,
作为衡量任意两个变量的相关程度的一个量, 它不应该有单位(或者说单位应该为
), 于是想办法消除单位, 可以除以
的标准差的乘积,
于是就有相关系数的定义: 标准化随机变量:
的标准化随机变量是 它满足 可以得到
REMARK: 设 的相关系数存在, 则满足
1:
注意到 是内积的定义, 借助Cauchy-Schwartz不等式就自然有
整理即得结论.
也可以借助 以及方差的非负性:
即
2: 时称 正相关, 时称 负相关, 时称 不相关.
3: 存在实数 使得
充分性: 要想办法构造出这样的
4:
Chebyshev不等式 对任意 PROOF
矩
维正态分布
性质: 1:
维正态分布随机变量的任一
维子向量服从 维正态分布.
2: 若
则二次型
仅含二次项, 这意味着联合概率密度可以写成边缘概率密度的乘积, 即 相互独立.
从另一个角度理解, 当
为对角阵时, 非对角元均为零而非对角元是 维随机变量每一维两两的协方差,
它们都为零意味着这些变量两两独立.
3: (可加性)
4: 维正态分布
服从正态分布的充要条件是每一维的任意非零线性组合服从正态分布.
5: 设线性变换 则对 做线性变换 后得到的
仍然服从正态分布,
一些题目
1: 已知 求
设 即求
注意到 以及 得到递推公式及其首项.
最后可得通项为 其中
(这个式子类比杨辉三角好推一些)
或者用 会更好一些? 的高阶导的公式比较简单, 虽然 没什么实际意义.
的时候
其中
2: 求
3: 有 个编号为 的球随机排列成一条直线,
每次随机选择一个球(选到编号为
的球的概率为 ),
并将该球放到最左边, 经过无穷多次操作后, 求编号为 的球的位置的期望.
不失一般性, 可假设最初球是按编号顺序排列的, 因为是无穷多次操作,
初始编号为
的球位置对最终结果并无影响.
4: 设 相互独立,
且
为 的算术平均. 则
波动程度随着
的增大会逐渐变小.
5: 随机变量 服从顶点为
的三角形上的均匀分布, 求
SOL
6: 设
且 求 的密度函数.
SOL 由性质 服从二维正态分布, 于是 于是
借助协方差算子的性质就有 于是
7: 设连续型随机变量仅在
处取值, 证明
PROOF 题目等价于: 已知 且 证明
大数定律与中心极限定理
大数定律和中心极限定律都是在对一系列随机变量的和的性质的研究中得到的结论.
对于
或者比较少的随机变量的和, 我们尚可计算出它的分布,
进而求出它的一些数字特征或者是概率, 然而对于一般 比较大的 计算它的分布绝非易事,
这时近似就是一个很好的选择.
非常大时, 有时候取极限会对简化运算带来不少帮助,
大数定律和中心极限定理就是概率论中的两类重要极限定理. 大数定律描述了
的平均值的期望的性质,
它给现实生活中"使用均值作为精确值的估计"提供了理论支撑,
并且给"频率估计概率"做了一个很好的解释; 而中心极限定理则给
的分布提供了近似以便于计算, 事实上这个近似就是正态分布,
它的存在又进一步增加了正态分布的重要性.
随机变量的收敛性
两种随机变量序列收敛性的定义.
定义1 (依概率收敛) 设 是随机变量序列,
是一个随机变量或常数,
若对任意小的正数 都有
或者 则称 依概率收敛至
记作
REMARK
注意依概率收敛不同于微积分中序列的收敛. 从依概率收敛的定义可以看出, 当
充分大时, 的取值与 的取值非常接近的概率就几乎为 但是 的取值仍然有可能与 的值有较大偏差,
只不过这种情况概率比较小, 几乎为"不可能事件", 因此 充分大的时候我们就有足够的把握断言
与
的取值几乎相等.
比如若
服从分布: 由于 则 但是无论 多大, 仍然可能取到 只不过概率比较小, 几乎不可能.
定义2 (依分布收敛) 设 是随机变量序列,
是一个随机变量或常数, 的分布函数为 的分布函数为 若在 的连续点处均有 则称 依分布收敛至
记作
REMARK 若 依分布收敛至 则在 充分大的时候, 可以用 的分布函数 来代替 的分布函数来进行计算.
大数定律
马尔可夫不等式 设
为只取非负值的随机变量, 则对任意
都有
PROOF 仅证连续型随机变量的情形.
设密度函数为
由于
仅取非负值, 故
因此 $$
$$
将 替换为 即可得到 Chebyshev
不等式 .
Chebyshev不等式仅能给概率估计一个很粗糙的上界或者下界, 一般不用于计算,
在理论推导中比较常用.
记
定义3 (大数定律) 设随机变量序列 满足 都存在, 且对任意 都有 则称
服从大数定律.
这定义实际上是在说 依概率收敛至
定理1 (切比雪夫大数定律)
设相互独立的随机变量序列
满足每一项的期望存在而方差一致有界, 即存在 使得
则随机变量序列 服从大数定律.
PROOF 借助 Chebyshev 不等式给概率
估计一个极限为 的下界,
同时借助上界
即可用夹逼准则证得结论.
定理2 (独立同分布大数定律)
设相互独立同分布的随机变量序列 满足 则 服从大数定律,
即对任意 都有
定理3 (辛钦大数定律)
设相互独立同分布的随机变量序列 满足 则 服从大数定律.
REMARK
辛钦大数定律要比独立同分布大数定律更强, 适应范围更广.
定理4 (伯努利大数定律) 设 是 次独立重复实验中事件 发生的次数, 且每次试验中事件 发生的概率为 则对任意 都有
PROOF 记 表示第 次试验中 是否发生, 则 于是 而
因此由独立同分布大数定律可得对任意 都有 这就是要证的.
REMARK 伯努利大数定律是 "频率估计概率"
的理论支撑, 这里频率为 .
同时我们能得到小概率事件原理: 概率很小的事件 ( 比较接近 ) 在一次实验中几乎是不可能发生的(即在
次试验中频率几乎为 ) .
中心极限定理
记 为 的标准化随机变量, 即 定义4 (中心极限定理)
已知相互独立的随机变量序列 若 依分布收敛于 其中 标准正态分布的分布函数,
则称随机变量序列 服从中心极限定理.
倘若
遵循中心极限定理, 则根据标准化随机变量和一般随机变量之间的互化, 可以得到
这意味着当 充分大时,
我们可以用正态分布来近似
这让计算变得更加方便.
定理5
(独立同分布中心极限定理/列维-林德伯格中心极限定理)
设相互独立同分布的随机变量序列 满足 则对任意实数
都有
定理6 棣莫弗-拉普拉斯中心极限定理 设随机变量 则对任意实数 都有
REMARK 定理6是定理5的推论. 有了定理6,
就可以用正态分布近似二项分布. 在前面我们曾经用泊松分布来近似二项分布,
用泊松分布来近似二项分布的条件是
比较大且 比较小且 不太大;
而用正态分布近似二项分布的条件是
很大且 也很大.
用正态分布近似二项分布时, 建议适用的范围是
中心极限定理常用来解决
很大时与
的分布相关的计算问题(求概率或求 ),
同时也是数理统计中大样本推断的理论基础.
一些例题
SOL 本题直接将检查产品数视作随机变量不好求,
考虑其等价说法, 即检查产品数为
时所花费时间不超过 的概率.
设 表示第 件产品的检查次数, 则
因此要求 需要注意的是, 自带一个下界 在用正态分布近似时不能忽略该下界.
记 则
SOL
查表反解 即可.
蒙特卡洛模拟
蒙特卡洛模拟实际上就是参数的点估计.
以计算不规则区域的面积为例: 设
为待求面积的区域, 且
已知.
蒙特卡洛模拟是这样做的, 向
中随机投点 ,
即点的坐标遵循均匀分布, 则显然有 投
个点后, 每个点是否落入
中可以用01分布来描述, 设有
个点落入 中, 则频率为 因此由伯努利大数定律知 充分大时 可作为 的点估计, 则 得到
现在想知道当精度提高一个数量级时, 要提高多少数量级. 给定精度 以及置信度 则应该使 因为
且由棣莫弗-拉普拉斯中心极限定理知
充分大时 近似服从 于是 因此 于是 因此精度每提高一个数量级, 就要扩大为原来的 倍.