"> "> 概率论-基本概念 | Yufei Luo's Blog

概率论-基本概念

随机事件与概率

随机事件及其运算

随机现象

在一定的条件下,并不总是出现相同结果的现象被称为随机现象,例如投掷一枚骰子出现的点数。随机现象的结果不止一个,且人们事先无法知道哪一个结果出现。对相同条件下可以重复的随机现象的观察、记录、实验称为随机试验。

样本空间

随机现象的一切可能基本结果组成的集合称为样本空间,记为\(\Omega=\{\omega\}\),其中\(\omega\)表示基本结果,又被称为样本点。

样本空间具有以下特点:

  1. 样本空间中的元素可以是数也可以不是数。例如抛一枚硬币的样本空间为\(\Omega=\{\omega_1,\omega_2\}\),其中\(\omega_1,\omega_2\)分别代表正面朝上和反面朝上。
  2. 随机现象的样本空间至少有两个样本点。
  3. 从样本空间含有样本点的个数来区分,样本空间可以分为有限和无限两类。有限个或者可列的样本空间通常称为离散样本空间,而样本点的个数为不可列无限个的情况称为连续样本空间。

随机事件

随机现象的某些样本点组成的集合称为随机事件,简称事件(这里需要特别注意随机事件是一个集合!),常用大写字母\(A,B,C,\dots\)来表示。对于随机事件的定义,要注意以下几点:

  1. 任意事件\(A\)是相应样本空间的一个子集
  2. 当子集\(A\)中某个样本点出现,就代表事件\(A\)发生,或者说事件\(A\)发生当且仅当\(A\)中的某个样本点出现
  3. 事件可以用集合表示,或者用明白无误的语言描述
  4. 由样本空间\(\Omega\)中的单个元素组成的子集称为基本事件。样本空间\(\Omega\)的最大子集(即它本身)称为必然事件,最小子集(即空集\(\phi\))称为不可能事件。

随机变量

用来表示随机现象结果的变量被称为随机变量,常用大写字母\(X,Y,Z\)等表示。很多事件都可以用随机变量来表示,此时应该明确表示出随机变量的含义。例如设\(X\)表示投掷一颗骰子出现的点数,那么事件“出现的点数超过3点”就可以用\(X>3\)来表示。

事件之间的关系

  1. 包含关系:如果属于\(A\)的样本点必属于\(B\),则称\(A\)被包含在\(B\)中,或者称\(B\)包含\(A\),记为\(A\sub B\)或者\(B\supset A\)。这相当于事件\(A\)发生必然会导致事件\(B\)发生。
  2. 相等关系:如果事件\(A\)和事件\(B\)满足,属于\(A\)的样本点必然属于\(B\),而且属于\(B\)的样本点必然属于\(A\),即\(A\sub B\)\(B\sub A\),则称事件\(A\)\(B\)相等,记为\(A=B\)。这相当于是二者其实描述的是同一个事件。
  3. 互不相容:如果\(A\)\(B\)没有相同的样本点,则称事件\(A\)与事件\(B\)互不相容。也就是说,事件\(A\)\(B\)不可能同时发生。

事件之间的运算

  1. 并:记为\(A\cup B\),代表事件\(A\)\(B\)中至少有一个发生
  2. 交:记为\(A\cap B\)或者\(AB\),代表事件\(A\)\(B\)同时发生
  3. 差:记为\(A-B\),代表事件\(A\)发生而事件\(B\)不发生
  4. 对立:记为\(\bar{A}\)\(\bar{A}=\Omega-A\),代表事件\(A\)不发生

事件之间的运算满足如下性质:

  1. 交换律:\(A\cup B=B\cup A\)\(AB=BA\)
  2. 结合律:\((A\cup B)\cup C=A\cup (B\cup C)\)\((AB)C=A(BC)\)
  3. 分配律:\((A\cup B)\cap C=AC\cup BC\)\((A\cap B)\cup C=(A\cup C)\cap (B\cup C)\)
  4. 对偶律:\(\overline{A\cup B}=\bar{A}\cap \bar{B}\)\(\overline{A\cap B}=\bar{A}\cup \bar{B}\)

事件域

事件域指的是一个样本空间中的某些子集及其运算(并、交、差等)结果而组成的集合类,将其记为\(\mathscr{F}\)。事件域要求对集合的运算都有封闭性,也就是说通过集合运算得到的仍然是事件。基于并和对立两种最基本的运算,可给出事件域的定义。设\(\Omega\)为一个样本空间,\(\mathscr{F}\)\(\Omega\)的某些子集所组成的集合类,如果\(\mathscr{F}\)满足:

  1. \(\Omega\in \mathscr{F}\)
  2. 如果\(A\in \mathscr{F}\),则对立事件\(\bar{A}\in \mathscr{F}\)
  3. 如果\(A_n\in \mathscr{F}\)\(n=1,2,\dots\),则可列并\(\cup_{n=1}^{\infty} A_n\in \mathscr{F}\)

则称\(\mathscr{F}\)为一个事件域,又称为\(\sigma\)域或者\(\sigma\)代数。在概率论中,通常称\((\Omega,\mathscr{F})\)为可测空间,在可测空间上才可以定义概率。此时\(\mathscr{F}\)中都是有概率可言的事件。

例1. 如果样本空间由可列个样本点\(\Omega=\{\omega_1,\omega_2,\dots,\omega_n,\dots\}\)组成,则其事件域\(\mathscr{F}\)是由空集\(\phi\),可列个单元素集,可列个双元素集,……,可列个\(n\)元素集,……,和\(\Omega\)组成的集合类。此时,\(\mathscr{F}\)由可列个的可列个(仍然为可列个)元素(事件)组成。

例2. 样本空间含有全体实数\(\Omega=(-\infty,\infty)=R\),这时事件域\(\mathscr{F}\)中的元素无法一一列出,而是通过基本集合类逐步扩展而成。具体操作如下:

  • 取基本集合类\(\mathscr{P}=\)“全体半直线组成的类”,即\(\mathscr{P}=\{(-\infty,x)|-\infty<x<\infty\}\)
  • 利用事件域的要求,把有限的左闭右开区间扩展进来:\([a,b)=(-\infty,b)-(-\infty,a)\),其中\(a,b\)为任意实数
  • 再将闭区间、单点集、左开右闭区间、开区间扩展进来:\([a,b]=\cap_{n=1}^{\infty}[a,b+\frac{1}{n})\)\(\{b\}=[a,b]-[a,b)\)\((a,b]=[a,b]-\{a\}\)\((a,b)=[a,b)-\{a\}\)
  • 最后用有限个或者可列个并运算和交运算将实数集中一切有限集、可列集、开集、闭集都扩展进来。

经过以上操作,所得到集合的全体所组成的事件域\(\mathscr{F}\)又被称为博雷尔事件域,域中的每个元素(集合)又称为博雷尔集,或者称为可测集。

对于样本空间\(\Omega\),如果有\(n\)个事件\(D_1,D_2,\dots,D_n\)满足各个\(D_i\)互不相容,且\(\cup_{i=1}^n D_i=\Omega\),则称\(D_1,D_2,\dots,D_n\)为样本空间\(\Omega\)的一组分割。分割也可以由可列个互不相容的事件\(D_1,D_2,\dots,D_n,\dots\)组成。

概率

公理化定义

\(\Omega\)为一个样本空间,\(\mathscr{F}\)\(\Omega\)的某些子集所组成的事件域。如果对于任意事件\(A\in \mathscr{F}\),定义在\(\mathscr{F}\)上的一个实值函数\(P(A)\)满足:

  1. 非负性公理:如果\(A\in \mathscr{F}\),则\(P(A)\ge 0\)
  2. 正则性公理:\(P(\Omega)=1\)
  3. 可列可加性公理:如果\(A_1,A_2,\dots,A_n,\dots\)互不相容,则\(P(\cup_{i=1}^\infty A_i)=\sum_{i=1}^{n}P(A_i)\)

则称\(P(A)\)为事件\(A\)的概率,称三元素\((\Omega,\mathscr{F},P)\)为概率空间。

概率的公理化定义刻画了概率的本质,概率是集合(事件)的函数,如果在事件域\(\mathscr{F}\)上给出一个函数,当这个函数可以满足上述三条公理,则被称为概率;而不能满足上述公理中的任意一条,都不能被称为概率。

结合上述公理,很容易可以得到\(P(\phi)=0\)

概率的确定

  • 频率方法:在大量重复试验中,用频率的稳定性去获得概率的一种办法
  • 古典方法:如果所涉及的随机现象只有有限个样本点,而且每一个样本点发生的可能性相等,则由此可以根据事件\(A\)所包含的样本点计算其概率
  • 几何方法:如果一个随机现象的样本空间\(\Omega\)充满某个区域,其度量大小可以用\(S_{\Omega}\)来表示,并假设任意一点落在度量相同的子区域内等可能,如果事件\(A\)对应于\(\Omega\)中的某个子区域,且其度量大小可以用\(S_A\)来表示,则可以通过几何面积之比来计算概率。

概率的性质

  1. 有限可加性

    如果有限个事件\(A_1,A_2,\dots,A_n\)互不相容,则有:\(P(\cup_{i=1}^\infty A_i)=\sum_{i=1}^{n}P(A_i)\)

    根据正则性和有些可加性,可以得到推论,对于任一事件\(A\),有:\(P(\bar{A})=1-P(A)\)

  2. 单调性

    如果\(A\supset B\),则\(P(A-B)=P(A)-P(B)\),同样也有\(P(A)\ge P(B)\)。同时也有\(P(A-B)=P(A)-P(AB)\)

  3. 加法公式

    对于任意两个事件\(A,B\),有\(P(A\cup B)=P(A)+P(B)-P(AB)\)。由此也可得半可加性:\(P(A\cup B)\le P(A)+P(B)\)

  4. 连续性

    \(\mathscr{F}\)中任一单调不减的事件序列\(F_1\subset F_2\subset \cdots \subset F_n \subset \cdots\),称可列并\(\cup_{n=1}^\infty F_n\)\(\{F_n\}\)的极限事件,记为\(\lim_{n\rightarrow \infty} F_n=\cup_{n=1}^{\infty} F_n\)

    \(\mathscr{F}\)中任一单调不增的事件序列\(E_1\supset E_2\supset \cdots \supset E_n\supset \cdots\),称可列交\(\cap_{n=1}^\infty E_n\)\(\{E_n\}\)的极限事件,记为\(\lim_{n\rightarrow \infty} E_n=\cap_{n=1}^{\infty} E_n\)

    对于\(\mathscr{F}\)上的一个概率\(P\),如果它对\(\mathscr{F}\)中任一单调不减的事件序列\(\{F_n\}\)均有\(\lim_{n\rightarrow \infty}P(F_n)=P(\lim_{n\rightarrow \infty}F_n)\),则称它为下连续的。如果它对\(\mathscr{F}\)中任一单调不增的事件序列\(\{E_n\}\)均有\(\lim_{n\rightarrow \infty}P(E_n)=P(\lim_{n\rightarrow \infty}E_n)\),则称它为上连续的。

    如果\(P\)为事件域\(\mathscr{F}\)上的概率,则\(P\)既为下连续的,也为上连续的。

条件概率

\(A,B\)是样本空间\(\Omega\)中的两事件,如果\(P(B)>0\),则称 \[ P(A|B)=\frac{P(AB)}{P(B)} \] 为在\(B\)发生下\(A\)的条件概率,简称条件概率。

条件概率也是一种概率,如果设\(P(B)>0\),则:

  1. \(P(A|B)\ge 0,A\in \mathscr{F}\)
  2. \(P(\Omega|B)=1\)
  3. 如果\(\mathscr{F}\)中的\(A_1,A_2,\dots,A_n,\dots\)互不相容,则\(P(\cup_{n=1}^\infty A_n|B)=\sum_{n=1}^\infty P(A_n|B)\)

对于条件概率,常用以下三个公式来方便计算:

  1. 乘法公式:如果\(P(A_1A_2\cdots A_{n-1})>0\),则\(P(A_1A_2\cdots A_{n})=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1A_2\cdots A_{n-1})\)。这可以通过将条件概率的公式变换形式而得。

  2. 全概率公式:设\(B_1,B_2,\dots,B_n\)为样本空间\(\Omega\)的一个分割(即它们互不相容,且\(\cup_{i=1}^n B_i=\Omega\)),如果\(P(B_i)>0\),则对于任意事件\(A\),都有

    \[ P(A)=\sum_{i=1}^n P(B_i)P(A|B_i) \]

    这是因为\(A\)可以写为\(A=A\Omega=\cup_{i=1}^n AB_i\)的形式。

    其中\(B_1,B_2,\dots,B_n\)为样本空间分割这一条件可以弱化,只要满足\(B_1,B_2,\dots,B_n\)互不相容,且\(\cup_{i=1}^n B_i\supset A\)即可。

  3. 贝叶斯公式:设\(B_1,B_2,\dots,B_n\)为样本空间\(\Omega\)的一个分割(即它们互不相容,且\(\cup_{i=1}^n B_i=\Omega\)),如果\(P(A)>0\)\(P(B_i)>0\)\(i=1,2,\dots,n\),则有:

    \[ P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^n P(B_j)P(A|B_j)} \]

    这一公式的推导可以从条件概率公式\(P(B_i|A)=\frac{P(AB_i)}{P(A)}\)开始,将分子用乘法公式进行替换,然后分母用全概率公式替换即可。

    在贝叶斯公式中,\(P(B_i)\)被称为\(B_i\)的先验概率,而\(P(B_i|A)\)被称为\(B_i\)的后验概率,贝叶斯公式也就是根据\(A\)发生这个信息对\(B_i\)的概率进行修正。

独立性

两个事件之间的独立性指的是,一个事件的发生不影响另一个事件的发生。从概率角度看,如果\(P(AB)=P(A)P(B)\)成立,则称事件\(A\)\(B\)相互独立。

根据概率的性质,如果事件\(A\)\(B\)相互独立,则可以进一步得知\(A\)\(\bar{B}\)独立,\(\bar{A}\)\(B\)独立,\(\bar{A}\)\(\bar{B}\)独立。

而对于多个事件之间的独立性则较为复杂。设有\(n\)个事件\(A_1,A_2,\dots,A_n\),对于任意的\(1\le i<j<k<\cdots\le n\),如果下面的等式均成立

\[ \begin{cases} P(A_i A_j)=P(A_i)P(A_j) \\ P(A_i A_j A_k)=P(A_i)P(A_j)P(A_k) \\ \cdots \\ P(A_1 A_2 \cdots A_n)=P(A_1)P(A_2)\cdots P(A_n) \end{cases} \]

则称\(n\)个事件\(A_1,A_2,\dots,A_n\)相互独立。

一维随机变量及其分布

随机变量

定义

定义在样本空间\(\Omega\)上的实值函数\(X=X(\omega)\)称为随机变量,常用大写字母\(X,Y,Z\)等表示随机变量,其取值用小写字母\(x,y,z\)等表示。假如一个随机变量仅可以取有限个值或是可列个值,则称其为离散随机变量;俩如一个随机变量的可能取值充满数轴上的一个区间\((a,b)\),则称其为连续随机变量。

分布函数

\(X\)是一个随机变量,对任意实数\(x\),称\(F(x)=P(X\le x)\)为随机变量的分布函数(注意不要和离散随机变量的分布列搞混),且称\(X\)服从\(F(x)\),记为\(X\sim F(x)\)

由分布函数的定义可知,任意一个随机变量\(X\)(离散或是连续)都有一个分布函数。任意一个分布函数都具有如下性质:

  1. 单调性:\(F(x)\)是定义在整个实数轴\((-\infty,\infty)\)上的单调非减函数,即对于任意的\(x_1<x_2\),都有\(F(x_1)\le F(x_2)\)
  2. 有界性:对于任意的\(x\),有\(0\le F(x)\le 1\),且\(\lim_{x\rightarrow -\infty}=0\)\(\lim_{x\rightarrow \infty}=1\)
  3. 右连续性:\(F(x)\)\(x\)的右连续函数,即对于任意的\(x_0\),都有\(\lim_{x\rightarrow x_0+0}F(x)=F(x_0)\)成立

这三条性质是判别某个函数是否能成为分布函数的充要条件。

概率分布列

\(X\)是一个离散随机变量,如果\(X\)的所有可能取值为\(x_1,x_2,\dots,x_n,\dots\),那么称\(X\)\(x_i\)的概率 \[ p_i=p(x_i)=P(X=x_i),~~i=1,2,\dots,n\dots \]\(X\)的概率分布列,或者简称为分布列。

分布列具有下面的基本性质:

  1. 非负性:\(p(x_i)\ge 0\)
  2. 正则性:\(\sum_{i=1}^\infty p(x_i)=1\)

根据离散随机变量\(X\)的分布列,可以很容易地写出\(X\)的分布函数: \[ F(x)=\sum_{x_i\le x}p(x_i) \] 它的图像是有限级(或者可列无穷级)的阶梯函数。

概率密度函数

设随机变量\(X\)的分布函数为\(F(x)\),如果存在实数轴上的一个非负可积函数\(p(x)\),使得对于任意实数\(x\),都有 \[ F(x)=\int_{-\infty}^x p(t)dt \] 则称\(p(x)\)\(X\)的概率密度函数,简称为密度函数或者密度。同时称\(X\)为连续随机变量,称\(F(x)\)为连续分布函数。从中也可以很容易得到概率密度函数与分布函数之间的关系:\(p(x)=F'(x)\)

密度函数具有如下性质:

  1. 非负性:\(p(x)\ge 0\)
  2. 正则性:\(\int_{-\infty}^{\infty} p(x)dx=1\)

对于离散随机变量来说,它在可能取值的点上的概率不为0;而对于连续随机变量而言,它在任意点上的概率恒为0。这也就是说,对于连续随机变量而言,在事件中剔除某个特殊点并不影响这个事件的概率,因而连续分布的密度函数也不唯一。

随机变量函数的分布

离散随机变量

\(X\)为离散随机变量,那么\(Y=g(X)\)也同样是一个离散随机变量。因此可以根据\(X\)的分布列直接计算得到\(Y\)的分布列,如果\(g(x_i)\)中的某些值相等,则将相等的值合并,对应概率相加即可。

连续随机变量

连续随机变量\(X\)的函数\(Y=g(X)\)不一定为连续随机变量,下面分不同情况讨论其分布。

  1. \(Y\)为离散随机变量

    在这种情况下,只需要将\(Y\)的可能取值一一列出,再将\(Y\)取各种可能值的概率求出即可。

  2. \(g(X)\)为严格单调函数

    如果\(y=g(x)\)严格单调,其反函数\(h(x)\)有连续导函数,则\(Y=g(X)\)的密度函数为:

    \[ p_Y(y)= \begin{cases} p_X[h(y)]|h'(y)|, ~~\min\{g(-\infty),g(\infty)\}<y<\max \{g(-\infty),g(\infty)\} \\ 0, ~~\text{else} \end{cases} \]

    这可以通过对\(F_Y(y)\)求导而得。或者是用积分换元法,来推导出\(Y\)的概率密度表达式。

    例:对数正态分布密度函数的推导

    设随机变量\(X\sim N(\mu,\sigma^2)\),则\(Y=e^X\)服从对数正态分布。

    \(Y\le 0\)时,\(F_Y(y)=0\);而当\(Y>0\)时,

    \[ F_Y(y)=\int_{-\infty}^{\ln y} \frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(x-\mu)^2}{2\sigma^2}\right\} dx \]

    \(F_Y(y)\)求导,可得:

    \[ p_Y(y)=\frac{1}{\sqrt{2\pi}\sigma y}\exp\left\{-\frac{(\ln y-\mu)^2}{2\sigma^2}\right\} \]

  3. \(g(X)\)为其它形式

    此时可以从\(Y\)的分布函数\(F_Y(y)\)出发,按照函数\(g(x)\)的特点特殊处理。

    例:设随机变量\(X\)服从标准正态分布\(N(0,1)\),求\(Y=X^2\)的分布

    根据概率的正则性公理,有:

    \[ \int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}}\exp\left\{-\frac{x^2}{2} \right\}dx=1 \]

    \(y=x^2\),则\(dy=2xdx\)。考虑到原被积函数关于原点对称,因此上式可以通过换元改写为:

    \[ \int_0^\infty 2\frac{1}{\sqrt{2\pi}} \frac{1}{2y^{1/2}}e^{-y/2}dy=1 \]

    因此\(Y\)的密度函数为:

    \[ P_Y(y)= \begin{cases} \frac{1}{\sqrt{2\pi}} \frac{1}{y^{1/2}}e^{-y/2},~~y\ge 0\\ 0,~~y<0 \end{cases} \]

    也就是说\(Y\sim \chi^2(1)\)

数学期望

设离散随机变量\(X\)的分布列为\(p(x_i)=P(X=x_i)\),如果\(\sum_{i=1}^\infty |x_i|p(x_i)<\infty\),则称\(E(X)=\sum_{i=1}^\infty x_i p(x_i)\)为随机变量\(X\)的数学期望。而如果级数\(\sum_{i=1}^\infty |x_i|p(x_i)\)不收敛,则称\(X\)的数学期望不存在,要求级数绝对收敛的目的是使得数学期望唯一,否则其求和结果可能会受到计算顺序的影响。

对于连续随机变量\(X\)而言,设其密度函数为\(p(x)\),如果\(\int_{-\infty}^\infty |x|p(x)dx<\infty\),则称\(E(X)=\int_{-\infty}^{\infty}xp(x)dx\)\(X\)的数学期望。而如果\(\int_{-\infty}^\infty |x|p(x)dx\)的值不收敛,则称\(X\)的数学期望不存在。

数学期望具有下面的性质:

  1. 关于随机变量\(X\)的某一个函数\(g(X)\)的数学期望为:

    \[ E[g(X)]= \begin{cases} \sum_{i} g(x_i)p(x_i)~~~~~\text{在离散场合} \\ \int_{-\infty}^{\infty} g(x)p(x)dx~~\text{在连续场合} \end{cases} \]

  2. 如果\(c\)是常数,则\(E(c)=c\)

  3. 对于任意常数\(a\),有\(E(aX)=aE(X)\)

  4. 对于任意的两个函数\(g_1(x)\)\(g_2(x)\),有\(E[g_1(X)\pm g_2(X)]=E[g_1(X)]\pm E[g_2(X)]\)

方差与标准差

如果随机变量\(X^2\)的数学期望\(E[X^2]\)存在,则称偏差平方\((X-E(X))^2\)的数学期望\(E(X-E(X))^2\)为随机变量\(X\)的方差,记为: \[ \text{Var}(X)=E(X-E(X))^2= \begin{cases} \sum_{i} (x_i-E(X))^2 p(x_i),~~~~~\text{在离散场合}\\ \int_{-\infty}^\infty (x-E(X))^2p(x)dx,~~\text{在连续场合} \end{cases} \] 方差具有如下性质:

  1. \(\text{Var}(X)=E(X^2)-[E(X)]^2\)
  2. 常数的方差为0,即\(\text{Var}(c)=0\)
  3. 如果\(a,b\)为常数,则\(\text{Var}(aX+b)=a^2\text{Var}(X)\)

切比雪夫不等式:设随机变量\(X\)的数学期望和方差都存在,则对于任意常数\(\epsilon>0\),有: \[ P(|X-E(X)|\ge \epsilon)\le \frac{\text{Var}(X)}{\epsilon^2} \] 证明:设\(X\)为连续随机变量,\(E(X)=a\),则 \[ P(|X-E(X)|\ge \epsilon)=\int_{x:|x-a|\ge \epsilon}p(x)dx\le \int_{x:|x-a|\ge \epsilon}\frac{(x-a)^2}{\epsilon^2}p(x)dx\le \int_{-\infty}^\infty \frac{(x-a)^2}{\epsilon^2}p(x)dx=\frac{\text{Var}(X)}{\epsilon^2} \] 在概率论中,事件\(\{|X-E(X)|\ge \epsilon\}\)被称为大偏差,切比雪夫不等式给出了大偏差发生概率的上界,方差越大则上界也越大。

根据切比雪夫不等式也可知,如果随机变量的方差存在,那么\(\text{Var}(X)=0\)的充要条件是\(X\)几乎处处为某个常数,即\(P(X=a)=1\)

其它特征数

\(k\)阶矩

\(X\)为随机变量,\(k\)为正整数,如果下面的数学期望都存在,那么 \[ \mu_k=E(X^k) \] 称为\(X\)\(k\)阶原点矩,而 \[ \nu_k=E(X-E(X))^k \] 称为\(X\)\(k\)阶中心矩。

显然,一阶原点矩就是数学期望,而二阶中心矩就是方差。

变异系数

设随机变量\(X\)的二阶矩存在,那么变异系数的定义为: \[ C_v(X)=\frac{\sqrt{\text{Var}(X)}}{E(X)} \] 变异系数用于比较两个随机变量的波动大小。

分位数与中位数

设连续随机变量\(X\)的分布函数为\(F(x)\),密度函数为\(p(x)\),则对于任意的\(p\in (0,1)\),称满足条件 \[ F(x_p)=\int_{-\infty}^{x_p} p(x)dx=p \]\(x_p\)为此分布的\(p\)分位数或者下侧\(p\)分位数。

同理,称满足条件 \[ 1-F(x_p')=\int_{x_p'}^{\infty} p(x)dx=p \]\(x_p'\)为此分布的上侧\(p\)分位数。

而称\(p=0.5\)时的\(p\)分位数\(x_{0.5}\)为分布的中位数。

偏度系数

定义比值 \[ \beta_s=\frac{E(X-E(X))^3}{[\text{Var}(X)]^{3/2}} \]\(X\)的偏度系数,简称偏度,它是描述分布偏离对称性程度的一个特征数。\(\beta_s>0\)时称为正偏或者右偏,此时概率分布的重尾在右侧;反之则被称为负偏或者左偏,概率分布的重尾在左侧。

例如,正态分布的偏度为0,\(Be(2,8)\)为右偏,而\(Be(8,2)\)则是左偏。

峰度系数

定义 \[ \beta_k=\frac{E(X-E(X))^4}{[\text{Var}(X)]^{2}}-3 \]\(X\)的峰度系数,简称峰度,它是描述分布尖峭程度或尾部粗细的一个特征数。

公式中的\(3\)来自于标准正态分布,它的\(\nu_2=\sigma^2\)\(\nu_4=3\sigma^4\),因此峰度是相对于正态分布而言的超出量。峰度大于0,则代表标准化之后的分布比起正态分布更加尖峭和(或)尾部更粗,例如拉普拉斯分布;而反之则比标准正态分布更加平坦和(或)尾部更细,例如均匀分布。

多维随机变量及其分布

多维随机变量

定义

如果\(X_1(\omega),X_2(\omega),\dots,X_n(\omega)\)是定义在同一个样本空间\(\Omega=\{\omega\}\)上的\(n\)个随机变量,则称 \[ \boldsymbol{X}(\omega)=(X_1(\omega),X_2(\omega),\dots,X_n(\omega)) \]\(n\)维随机变量或随机向量。

联合分布函数

对任意的\(n\)个实数\(x_1,x_2,\dots,x_n\)\(n\)个事件\(\{X_1\le x_1\},\{X_2\le x_2\},\dots,\{X_n\le x_n\}\)同时发生的概率 \[ F(x_1,x_2,\dots,x_n)=P(X_1\le x_1,X_2\le x_2,\dots,X_n\le x_n) \] 称为\(n\)维随机变量\((X_1,X_2,\dots,X_n)\)的分布函数。

以二维联合分布函数\(F(x,y)\)为例(更高维度时的情况类似),它在\((x,y)\)处的函数值相当于是随机点\((X,Y)\)落在以\((x,y)\)为顶点的左下角无穷直角区域的概率。它必具有如下的四条性质:

  1. 单调性:

    \(F(x,y)\)分别对\(x\)\(y\)是单调非减的,即:

    \(x_1<x_2\)时,有\(F(x_1,y)\le F(x_2,y)\)

    \(y_1<y_2\)时,有\(F(x,y_1)\le F(x,y_2)\)

  2. 有界性:对于任意的\(x,y\),都有\(0\le F(x,y)\le 1\),且

    \[ F(-\infty,y)=\lim_{x\rightarrow -\infty} F(x,y)=0\\ F(x,-\infty)=\lim_{y\rightarrow -\infty} F(x,y)=0 \\ F(\infty,\infty)=\lim_{x,y\rightarrow \infty}F(x,y)=1 \]

  3. 右连续性

    对每个变量都是右连续的,即

    \[ F(x+0,y)=F(x,y)\\ F(x,y+0)=F(x,y) \]

  4. 非负性

    对于任意的\(a<b,c<d\),有

    \[ P(a<X\le b,c<Y\le d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)\ge 0 \]

联合分布列

如果二维随机变量\((X,Y)\)只取有限个或者可列个数对\((x_i,y_i)\),则称\((X,Y)\)为二维离散随机变量,称 \[ p_{ij}=P(X=x_i,Y=y_j) \]\((X,Y)\)的联合分布列,它也可以用表格形式来记录。

联合分布列具有如下两条基本性质:

  1. 非负性:\(p_{ij}\ge 0\)
  2. 正则性:\(\sum_{i=1}^\infty\sum_{j=1}^\infty p_{ij}=1\)

联合密度函数

如果存在二元非负函数\(p(x,y)\),使得二维随机变量\((X,Y)\)的分布函数可以表示为 \[ F(x,y)=\int_{-\infty}^x \int_{-\infty}^y p(u,v)dudv \]\(F(x,y)\)偏导数存在的点上有: \[ p(x,y)=\frac{\partial^2}{\partial x\partial y} F(x,y) \] 联合密度函数满足如下两条性质:

  1. 非负性:\(p(x,y)\ge 0\)
  2. 正则性:\(\int_{-\infty}^\infty\int_{-\infty}^\infty p(x,y)dxdy=1\)

给出联合密度函数\(p(x,y)\),就可以计算有关事件的概率。如果\(G\)为平面上的一个区域,则事件\(\{(X,Y)\in G\}\)的概率可以表示为在\(G\)上对\(p(x,y)\)的二重积分: \[ P((X,Y)\in G)=\iint_G p(x,y)dxdy \]

例:设\((X,Y)\)的联合密度函数为 \[ p(x,y)= \begin{cases} 6e^{-2x-3y},~~x>0,y>0 \\ 0,~~\text{else} \end{cases} \]\(P(X>Y)\) \[ \begin{aligned} P(X>Y)=&\int_{0}^{\infty}\int_{0}^{x} 6e^{-2x-3y}dydx \\ =& \int_{0}^{\infty} 2e^{-2x}-2e^{-5x}dx \\ =& 1-\frac{2}{5} \\ =& \frac{3}{5} \end{aligned} \]

边际分布

边际分布函数

如果在二维随机变量\((X,Y)\)的联合分布函数\(F(x,y)\)中令\(y\rightarrow \infty\),由于\(\{Y<\infty\}\)为必然事件,故可得: \[ \lim_{y\rightarrow \infty} F(x,y)=P(X\le x,Y<\infty)=P(X\le x) \] 上式被称为\(X\)的边际分布,记为\(F_X(x)=F(x,\infty)\)

类似地,在\(F(x,y)\)中令\(x\rightarrow \infty\),可以得到\(Y\)的边际分布\(F_Y(y)=F(\infty,y)\)

边际分布列

在二维离散随机变量\((X,Y)\)的联合分布列\(\{P(X=x_i,Y=y_j)\}\)中,对\(j\)求和所得到的分布列 \[ \sum_{j=1}^\infty P(X=x_i,Y=y_j)=P(X=x_i) \] 被称为\(X\)的边际分布列。类似地,对\(i\)求和所得到的分布列 \[ \sum_{i=1}^\infty P(X=x_i,Y=y_j)=P(Y=y_j) \] 被称为\(y\)的边际分布列。

边际密度函数

如果二维连续随机变量\((X,Y)\)的联合密度函数为\(p(x,y)\),因为 \[ F_X(x)=F(x,\infty)=\int_{-\infty}^x\left(\int_{-\infty}^\infty p(u,v)dv\right)du=\int_{-\infty}^x p_X(u)du \\ F_Y(y)=F(\infty,y)=\int_{-\infty}^y\left(\int_{-\infty}^\infty p(u,v)du\right)dv=\int_{-\infty}^y p_Y(v)dv \\ \] 其中\(p_X(x)\)\(p_Y(y)\)分别为: \[ p_X(x)=\int_{-\infty}^\infty p(x,y)dy \\ p_Y(y)=\int_{-\infty}^\infty p(x,y)dx \] 它们恰好处于密度函数位置,因此称上式给出的\(p_X(x)\)\(p_Y(y)\)分别为\(X\)\(Y\)的边际密度函数。

例:设二维随机变量\((X,Y)\)的联合密度函数为 \[ p(x,y)= \begin{cases} 1,~~0<x<1,|y|<x\\ 0,~~\text{else} \end{cases} \] 求边际密度函数\(p_X(x)\)\(p_Y(y)\)

\(x\le 0\)\(x\ge 1\)时,\(p_X(x)=0\)。当\(0<x<1\)时,有: \[ \begin{aligned} p_X(x)=&\int_{-\infty}^\infty p(x,y)dy=\int_{-x}^x dy=2x \end{aligned} \] 因此\(X\)的边际密度函数为: \[ p_X(x)= \begin{cases} 2x,~~0<x<1\\ 0,~~~~\text{else} \end{cases} \] 对于\(y\)来说,当\(y\le -1\)\(y\ge 1\)时,\(p_Y(y)=0\)。当\(-1<y<0\)时,有: \[ p_Y(y)=\int_{-\infty}^{\infty} p(x,y)dx=\int_{-y}^1 dx=1+y \] 而当\(0<y<1\)时,有: \[ p_Y(y)=\int_{-\infty}^{\infty} p(x,y)dx=\int_{y}^1 dx=1-y \] 因此\(Y\)的边际密度函数为: \[ p_Y(y)= \begin{cases} 1+y, ~~-1<y<0 \\ 1-y, ~~0<y<1 \\ 0,~~~~~~~~~\text{else} \end{cases} \]

随机变量之间的独立性

\(n\)维随机变量\((X_1,X_2,\dots,X_n)\)的联合分布函数为\(F(x_1,x_2,\dots,x_n)\)\(F(x_i)\)\(X_i\)的边际分布函数,如果对任意\(n\)个实数,有 \[ F(x_1,x_2,\dots,x_n)=\prod_{i=1}^{n}F_i(x_i) \] 则称\(X_1,X_2,\dots,X_n\)相互独立。

在离散随机变量场合,如果对其任意\(n\)个取值\(x_1,x_2,\dots,x_n\),如果\(X_1,X_2,\dots,X_n\)相互独立则有: \[ P(X_1=x_1,X_2=x_2,\dots,X_n=x_n)=\prod_{i=1}^n P(X_i=x_i) \] 而在连续随机变量场合,相互独立的条件可以表示为: \[ P(x_1,x_2,\dots,x_n)=\prod_{i=1}^n p_i(x_i) \] 也就是说,如果随机变量之间相互独立,则根据它们边际分布的乘积就可以算出联合分布。

多维随机变量函数的分布

离散随机变量

\((X_1,X_2,\dots,X_n)\)\(n\)维离散随机变量,则某一函数\(Y=g(X_1,X_2,\dots,X_n)\)是一维离散随机变量。当\((X_1,X_2,\dots,X_n)\)的所有可能取值较少时,可以将\(Y\)的取值一一列出,然后再合并整理得到结果。

例:设随机变量\(X\sim b(n,p),Y\sim b(m,p)\),且\(X\)\(Y\)独立,证明\(Z=X+Y\sim b(n+m,p)\)

事件\(Z=k\)的概率可以表示为: \[ P(Z=k)=\sum_{i=0}^{k}P(X=i)P(Y=k-i) \] 上式中,只需要考虑\(i\le n,k-i\ge m\)的情况,即\(i\le n,i\ge k-m\)

\(a=\max\{0,k-m\}\)\(b=\min\{n,k\}\),则 \[ \begin{aligned} P(Z=k)=&\sum_{i=a}^{b}P(X=i)P(Y=k-i) \\ =&\sum_{i=a}^{b}\binom{n}{i}p^i(1-p)^{n-i}\binom{m}{k-i}p^{k-i}(1-p)^{m-k+i} \\ =&p^{k}(1-p)^{n+m-k}\sum_{i=a}^{b}\binom{n}{i}\binom{m}{k-i} \end{aligned} \] 根据超几何分布,有: \[ \sum_{i=a}^{b}\frac{\binom{n}{i}\binom{m}{k-i}}{\binom{n+m}{k}}=1 \] 因此有: \[ P(Z=k)=p^{k}(1-p)^{n+m-k}\binom{n+m}{k} \]\(Z\sim b(n+m,p)\)

连续随机变量

变量变换法

设二维随机变量\((X,Y)\)的联合密度函数为\(p(x,y)\),如果函数 \[ \begin{cases} u=g_1(x,y) \\ v=g_2(x,y) \end{cases} \] 有连续偏导数,且存在唯一的反函数 \[ \begin{cases} x=x(u,v)\\ y=y(u,v) \end{cases} \] 其变换的雅克比行列式 \[ \begin{aligned} J=&\frac{\partial(x,y)}{\partial(u,v)}=\begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{vmatrix} \\ =& (\frac{\partial(u,v)}{\partial(x,y)})^{-1}=\begin{vmatrix} \frac{\partial u}{\partial x} & \frac{\partial u}{\partial y}\\ \frac{\partial v}{\partial x} & \frac{\partial v}{\partial y}\end{vmatrix}^{-1} \end{aligned} \]\[ \begin{cases} U=g_1(X,Y) \\ V=g_2(X,Y) \end{cases} \]\((U,V)\)的联合密度函数为: \[ p(u,v)=p(x(u,v),y(u,v))|J| \] 上式其实就是二重积分的变量变换法。需要注意的是,上式并未要求\(X\)\(Y\)互相独立。

例:设随机变量\(X\)\(Y\)独立同分布,都服从正态分布\(N(\mu,\sigma^2)\),令 \[ \begin{cases} U=X+Y \\ V=X-Y \end{cases} \]\((U,V)\)的联合密度函数。

由上式可以求出\(X,Y\)的反函数: \[ \begin{cases} X=\frac{U+V}{2}\\ Y=\frac{U-V}{2} \end{cases} \]\[ J=\begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v}\end{vmatrix}=\begin{vmatrix} \frac{1}{2} & \frac{1}{2}\\ \frac{1}{2} & -\frac{1}{2} \end{vmatrix}=-\frac{1}{2} \] 因此\((U,V)\)的联合密度函数为: \[ \begin{aligned} p(u,v)=& p(x(u,v),y(u,v))|J| \\ =& p_X(\frac{u+v}{2})p_Y(\frac{u+v}{2})\frac{1}{2} \\ =& \frac{1}{4\pi\sigma^2}\exp\left\{-\frac{[(u+v)/2-\mu]^2}{2\sigma^2}\right\}\exp\left\{-\frac{[(u-v)/2-\mu]^2}{2\sigma^2}\right\} \\ =& \frac{1}{4\pi\sigma^2}\exp\left\{-\frac{(u-2\mu)^2+v^2}{4\sigma^2}\right\} \end{aligned} \] 从中可看出,\((U,V)\sim N(2\mu,0,2\sigma^2,2\sigma^2,0)\),且\(U\sim N(2\mu,2\sigma^2)\)\(V\sim N(0,2\sigma^2)\),这说明二者相互独立。这也就是说,二元正态变量经过线性变换之后仍然为正态变量,这一结论也可以推广到多元的情形。

增补变量法

增补变量法其实是变量变换法的一种应用。为了求出二维连续随机变量\((X,Y)\)的函数\(U=g(X,Y)\)的密度函数,增补一个新的随机变量\(V=h(X,Y)\),一般取\(V=X\)\(V=Y\)。先用变量变换法求出\((U,V)\)的联合密度函数\(p(u,v)\),再对\(p(u,v)\)关于\(v\)积分,从而得到关于\(u\)的边际密度函数。

例:设随机变量\(X\)\(Y\)相互独立,其密度函数分别为\(p_X(x)\)\(p_Y(y)\),计算:

  1. \(U=X+Y\)的密度函数
  2. \(U=XY\)的密度函数
  3. \(U=X/Y\)的密度函数

求解过程如下:

  1. \(V=X\),则

    \[ \begin{cases} U=X+Y \\ V=X \end{cases} \] 的反函数为

    \[ \begin{cases} X=V \\ Y=U-V \end{cases} \]

    雅可比行列式为

    \[ J=\begin{vmatrix} 0 & 1 \\ 1 & -1 \end{vmatrix}=-1 \]

    由此可得\((U,V)\)的联合密度函数为:

    \[ p(u,v)=p_X(v)p_Y(u-v) \]

    上式关于\(v\)积分,即可得到\(u\)的密度函数,即

    \[ p(u)=\int_{-\infty}^{\infty}p_X(v)p_Y(u-v) dv \]

    这个公式也被叫做卷积公式。

    在上述推导过程中,如果令\(U=Y\),那么可得

    \[ p(u)=\int_{-\infty}^{\infty}p_X(u-v)p_Y(v) dv \]

  2. \(V=X\),则

    \[ \begin{cases} U=XY\\ V=X \end{cases} \] 的反函数为

    \[ \begin{cases} X=V \\ Y=U/V \end{cases} \]

    雅可比行列式为

    \[ J=\begin{vmatrix} 0 & 1 \\ 1/v & -u/v^2 \end{vmatrix}=-1/v \]

    由此可得\((U,V)\)的联合密度函数为:

    \[ p(u,v)=p_X(v)p_Y(\frac{u}{v})\frac{1}{|v|} \]

    上式关于\(v\)积分,即可得到\(u\)的密度函数,即

    \[ p(u)=\int_{-\infty}^{\infty}p_X(v)p_Y(\frac{u}{v})\frac{1}{|v|} dv \]

    上述推导中如果令\(V=Y\),则最终结果为:

    \[ p(u)=\int_{-\infty}^{\infty}p_X(\frac{u}{v})p_Y(v)\frac{1}{|v|} dv \]

  3. \(V=X\),则

    \[ \begin{cases} U=X/Y\\ V=X \end{cases} \]

    的反函数为

    \[ \begin{cases} X=V \\ Y=V/U \end{cases} \]

    雅可比行列式为

    \[ J=\begin{vmatrix} 0 & 1 \\ -v/u^2 & 1/v \end{vmatrix}=v/u^2 \]

    由此可得\((U,V)\)的联合密度函数为:

    \[ p(u,v)=p_X(v)p_Y(v/u)\frac{v}{u^2} \]

    上式关于\(v\)积分,即可得到\(u\)的密度函数,即

    \[ p(u)=\int_{-\infty}^{\infty}p_X(v)p_Y(v/u)\left|\frac{v}{u^2}\right| dv \]

​ 如果令\(V=Y\),那么\(u\)的密度函数为: \[ p(u)=\int_{-\infty}^\infty p_X(uv)p_Y(v)|v| dv \] 上述推导中,如果\(X\)\(Y\)不相互独立,只需要将边际分布函数的乘积改为联合分布函数即可。

例:设随机变量\(X\sim N(\mu_1,\sigma^2_1)\)\(Y\sim N(\mu_2,\sigma^2_2)\),且\(X\)\(Y\)独立,证明\(Z=X+Y\sim N(\mu_1+\mu_2,\sigma^2_1+\sigma_2^2)\)

根据卷积公式,可得: \[ \begin{aligned} p_Z(z)=&\int_{-\infty}^\infty \frac{1}{\sqrt{2\pi}\sigma_1}\frac{1}{\sqrt{2\pi}\sigma_2}\exp\left\{-\frac{(x-\mu_1)^2}{2\sigma_1^2}\right\}\exp\left\{-\frac{(z-x-\mu_2)^2}{2\sigma_2^2}\right\}dx \\ =&\int_{-\infty}^\infty \frac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\frac{1}{2}\left[\frac{x^2}{\sigma_1^2}+\frac{x^2}{\sigma_2^2}-\frac{2x\mu_1}{\sigma_1^2}-\frac{2xz}{\sigma_2^2}+\frac{2x\mu_2}{\sigma_2^2}\right]\right\}\exp\left\{ -\frac{1}{2}\left[\frac{\mu_1^2}{\sigma_1^2}+\frac{(z-\mu_2)^2}{\sigma_2^2} \right]\right\}dx \\ =&\int_{-\infty}^\infty \frac{1}{2\pi\sigma_1\sigma_2}\exp\left\{-\frac{1}{2}(\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2})(x-\frac{\mu_1\sigma_2^2+(z-\mu_2)\sigma_1^2}{\sigma_1^2+\sigma_2^2})^2\right\}\cdot Adx \\ =& \frac{A}{2\pi\sigma_1\sigma_2}\int_{-\infty}^\infty \exp\left\{-\frac{1}{2}(\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2})(x-\frac{\mu_1\sigma_2^2+(z-\mu_2)\sigma_1^2}{\sigma_1^2+\sigma_2^2})^2\right\}dx \\ =& \frac{A}{2\pi\sigma_1\sigma_2}\cdot \frac{1}{\sqrt{\frac{1}{2}(\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2})}}\cdot \sqrt{\pi} \\ =& \frac{A}{\sqrt{2\pi}\sqrt{\sigma_1^2+\sigma_2^2}} \end{aligned} \] 其中, \[ \begin{aligned} A=&\exp\left\{ -\frac{1}{2}\left[\frac{\mu_1^2}{\sigma_1^2}+\frac{(z-\mu_2)^2}{\sigma_2^2}-(\frac{1}{\sigma_1^2}+\frac{1}{\sigma_2^2})(\frac{\mu_1\sigma_2^2+(z-\mu_2)\sigma_1^2}{\sigma_1^2+\sigma_2^2})^2)\right]\right\} \\ =& \exp\left\{ -\frac{1}{2}\left[\frac{\mu_1^2}{\sigma_1^2}+\frac{(z-\mu_2)^2}{\sigma_2^2}-\frac{\mu_1^2\sigma_2^2}{\sigma_1^2(\sigma_1^2+\sigma_2^2)}-\frac{2\mu_1(z-\mu_2)}{(\sigma_1^2+\sigma_2^2)}-\frac{(z-\mu_2)^2\sigma_1^2}{\sigma_2^2(\sigma_1^2+\sigma_2^2)}\right]\right\} \\ =& \exp\left\{ -\frac{1}{2}\left[\frac{(z-\mu_2)^2+\mu_1^2-2\mu_1(z-\mu_2)}{\sigma_1^2+\sigma_2^2}\right]\right\} \\ =& \exp\left\{-\frac{(z-\mu_1-\mu_2)^2}{2(\sigma_1^2+\sigma_2^2)}\right\} \end{aligned} \] 由此便证明了正态分布的可加性。

多维随机变量的特征数

数学期望与方差

下面为简单起见,用二维随机变量介绍数学期望和方差的计算。多维随机变量的计算方法类似。

如果二维随机变量\((X,Y)\)的分布用联合分布列\(P(X=x_i,Y=y_j)\)表示,那么\(Z=g(X,Y)\)的数学期望为: \[ E(Z)=\sum_i\sum_j g(x_i,y_j)P(X=x_i,Y=y_j) \] 在连续场合,设密度函数为\(p(x,y)\),则数学期望为: \[ E(Z)=\int_{-\infty}^\infty \int_{-\infty}^\infty g(x,y)p(x,y)dxdy \] 以连续场合为例,如果令\(g(X,Y)=X\),可得\(X\)的数学期望为: \[ E(X)=\int_{-\infty}^\infty \int_{-\infty}^\infty xp(x,y)dxdy=\int_{-\infty}^\infty xp_X(x)dx \]\(g(X,Y)=(X-E(X))^2\),可得\(X\)的方差为: \[ \text{Var}(X)=\int_{-\infty}^\infty \int_{-\infty}^\infty (x-E(X))^2p(x,y)dxdy=\int_{-\infty}^\infty (x-E(X))^2p_X(x)dx \] 用类似的办法可以推出\(Y\)的数学期望和方差。

此处虽然可以省略计算\(Z=g(X,Y)\)的分布,但是在某些复杂场合,可能涉及的求和或者求积难以计算,只能通过先计算\(Z\)的概率分布,然后再由\(Z\)的概率分布计算\(E(Z)\)

关于数学期望和方差,有如下一些运算性质:

  1. \(E(X+Y)=E(X)+E(Y)\),这一性质还可以推广到\(N\)维的随机变量场合
  2. 如果随机变量\(X\)\(Y\)相互独立,则有\(E(XY)=E(X)E(Y)\),这一性质也可以推广到\(N\)维随机变量场合
  3. 如果随机变量\(X\)\(Y\)相互独立,则有\(\text{Var}(X\pm Y)=\text{Var}(X)+\text{Var}(Y)\)。这一性质可以推广到\(N\)维随机变量场合。也就是说,对于独立随机变量来说,它们之间无论是相加或者相减,其方差总是会逐个累计,只会增加不会减少。

协方差

\((X,Y)\)是一个二维随机变量,如果\(E[(X-E(X))(Y-E(Y))]\)存在,则称此数学期望为\(X\)\(Y\)的协方差,或称为\(X\)\(Y\)的相关中心矩,记为 \[ \text{Cov}(X,Y)=E[(X-E(X))(Y-E(Y))] \] 协方差可正可负,也可为0,取不同值的意义如下:

  1. \(\text{Cov}(X,Y)>0\)时,称\(X\)\(Y\)正相关, 此时两个偏差\(X-E(X)\)\(Y-E(Y)\)有同时增加或者同时减小的倾向。
  2. \(\text{Cov}(X,Y)<0\)时,称\(X\)\(Y\)负相关, 此时有\(X\)增加而\(Y\)减小的倾向。
  3. \(\text{Cov}(X,Y)=0\)时,称\(X\)\(Y\)不相关。此时可能是\(X\)\(Y\)的取值确实毫无关联,也或者是二者之间存在某种非线性关系。

关于协方差有如下一些性质:

  1. \(\text{Cov}(X,Y)=E(XY)-E(X)E(Y)\)。由此可知如果随机变量\(X\)\(Y\)相互独立,则\(\text{Cov}(X,Y)=0\),而反之则不然。也就是说独立是比不相关更强的概念。如果独立必然不相关,而由不相关无法推出独立。
  2. 对于任意的二维随机变量\((X,Y)\),有:\(\text{Var}(X\pm Y)=\text{Var}(X)+\text{Var}(Y)\pm 2\text{Cov}(X,Y)\)。这一性质也可以推广到更多个随机变量的场合,也就是说对于\(n\)个随机变量\(X_1,X_2,\dots,X_n\),有:\(\text{Var}(\sum_{i=1}^n X_i)=\sum_{i=1}^{n}\text{Var}(X_i)+ 2\sum_{i=1}^n\sum_{j=1}^{i-1}\text{Cov}(X_i,X_j)\)
  3. 协方差的计算与次序无关,即\(\text{Cov}(X,Y)=\text{Cov}(Y,X)\)
  4. 任意随机变量与常数\(a\)的协方差为0,即\(\text{Cov}(X,a)=0\)
  5. 对于任意常数\(a,b\),有\(\text{Cov}(aX,bY)=ab\text{Cov}(X,Y)\)
  6. \(X,Y,Z\)为任意三个随机变量,则\(\text{Cov}(X+Y,Z)=\text{Cov}(X,Z)+\text{Cov}(Y,Z)\)

在有了协方差的概念之后,便可以用矩阵形式表示\(n\)维随机变量的数学期望和方差。记\(n\)维随机向量\(\boldsymbol{X}=(X_1,X_2,\dots,X_n)'\),如果其每个分量的数学期望都存在,则称 \[ E(\boldsymbol{X})=(E(X_1),E(X_2),\dots,E(X_n))' \]\(n\)为随机向量\(\boldsymbol{X}\)的数学期望向量。而称 \[ E[(\boldsymbol{X}-E(\boldsymbol{X}))(\boldsymbol{X}-E(\boldsymbol{X}))']= \begin{pmatrix} \text{Var}(X_1) & \text{Cov}(X_1,X_2) & \cdots & \text{Cov}(X_1,X_n) \\ \text{Cov}(X_2,X_1) & \text{Var}(X_2) & \cdots & \text{Cov}(X_2,X_n) \\ \vdots & \vdots & & \vdots \\ \text{Cov}(X_n,X_1) & \text{Cov}(X_n,X_2) & \cdots & \text{Var}(X_n) \end{pmatrix} \] 为该随机向量的方差-协方差矩阵,简称协方差阵,记为\(\text{Cov}(\boldsymbol{X})\),它是一个对称的非负定矩阵。

相关系数

协方差是一个有量纲的量,为了消除量纲的影响,可以定义如下的相关系数: \[ \text{Corr}(X,Y)=\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)}\sqrt{\text{Var}(Y)}} \] 它也可以被理解为\(X\)\(Y\)的相应标准化变量的协方差。

对于任意的二维随机变量\((X,Y)\),如果\(X\)\(Y\)的方差都存在,记\(\sigma_X^2=\text{Var}(X)\)\(\sigma_Y^2=\text{Var}(Y)\),那么有如下的施瓦茨不等式成立: \[ [\text{Cov}(X,Y)]^2\le \sigma_X^2\sigma_Y^2 \] 据此可得相关系数的如下性质:

  1. \(|\text{Corr}(X,Y)|\le 1\)。也就是说相关系数的值介于\(-1\)\(1\)之间
  2. \(\text{Corr}(X,Y)=\pm 1\)的充要条件是,\(X\)\(Y\)间几乎处处有线性关系,也就是存在\(a,b\),使得\(Y=aX+b\)。也就是说,相关系数刻画了\(X\)\(Y\)之间的线性关系强弱。当\(\text{Corr}(X,Y)=0\)时,称\(X\)\(Y\)不相关,此处指的是二者之间不存在线性关系,但是可能存在其他的函数关系;当\(\text{Corr}(X,Y)=\pm 1\)时,称\(X\)\(Y\)完全正相关或者完全负相关;如果\(0<|\text{Corr}(X,Y)|<1\),则称\(X\)\(Y\)有一定程度的线性关系。

条件分布与条件期望

条件分布

设二维离散随机变量\((X,Y)\)的联合分布列为\(p_{ij}=P(X=x_i,Y=y_j)\)。对于一切使得\(P(Y=y_j)=p_{\cdot j}=\sum_{i=1}^{\infty}p_{ij}>0\)\(y_j\),称 \[ p_{i|j}=P(X=x_i|Y=y_j)=\frac{P(X=x_i,Y=y_j)}{P(Y=y_j)}=\frac{p_{ij}}{p_{\cdot j}} \] 为给定\(Y=y_j\)条件下\(X\)的条件分布列。

同理,对于一切使得\(P(X=x_i)=p_{i\cdot }=\sum_{j=1}^{\infty}p_{ij}>0\)\(x_i\),称 \[ p_{j|i}=P(Y=y_j|X=x_i)=\frac{P(X=x_i,Y=y_j)}{P(X=x_i)}=\frac{p_{ij}}{p_{i\cdot}} \] 为给定\(X=x_i\)条件下\(X\)的条件分布列。

有了条件分布列,就可以给出离散随机变量的条件分布函数。给定\(Y=y_j\)条件下\(X\)的条件分布函数为: \[ F(x|y_j)=\sum_{x_i\le x}P(X=x_i|Y=y_j)=\sum_{x_i\le x}p_{i|j} \] 类似地,给定\(X=x_i\)条件下\(Y\)的条件分布函数为 \[ F(y|x_i)=\sum_{y_j\le y}P(Y=y_j|X=x_i)=\sum_{y_j\le y}p_{j|i} \]

例:设在一段时间内,进入某一商店的顾客人数\(X\)服从泊松分布\(P(\lambda)\),每个顾客购买某种物品的概率为\(p\),并且每个顾客是否购买某种物品相互独立。求进入商店的顾客购买这种物品人数\(Y\)的分布列。

由题意可知, \[ P(X=m)=\frac{\lambda^m}{m!}e^{-\lambda} \] 在进入商店的人数\(X=m\)确定的情况下,购买某种物品的人数\(Y\)的条件分布为二项分布\(b(m,p)\),即 \[ P(Y=k|X=m)=\binom{m}{k}p^k(1-p)^{m-k} \] 因此,由全概率公式,可得: \[ \begin{aligned} P(Y=k)=&\sum_{m=k}^{\infty} P(X=m)P(Y=k|X=m) \\ =& \sum_{m=k}^{\infty} \frac{\lambda^m}{m!}e^{-\lambda}\binom{m}{k}p^k(1-p)^{m-k} \\ =& e^{-\lambda}\sum_{m=k}^{\infty}\frac{\lambda^m p^k(1-p)^{m-k}}{k!(m-k)!} \\ =& e^{-\lambda}\frac{\lambda^k p^k}{k!}\sum_{m=k}^{\infty} \frac{\lambda^{m-k}(1-p)^{m-k}}{(m-k)!} \\ =& e^{-\lambda}\frac{\lambda^k p^k}{k!} e^{\lambda(1-p)} \\ =& e^{-p\lambda}\frac{(p\lambda)^k}{k!} \end{aligned} \]\(Y\sim P(p\lambda)\)

从这个例子可知,如果直接计算概率分布较为困难的话,可以借助条件分布来计算。

如果随机变量\((X,Y)\)为二维连续随机变量,它们的联合密度函数为\(p(x,y)\),边际密度函数为\(p_X(x)\)\(p_Y(y)\)。对于一切使得\(p_Y(y)>0\)\(y\),给定\(Y=y\)条件下\(X\)的条件分布函数和条件密度函数为: \[ F(x|y)=\int_{-\infty}^x \frac{p(u,y)}{p_Y(y)}du \\ p(x|y)=\frac{p(x,y)}{p_Y(y)} \] 同理,对于一切使得\(p_X(x)>0\)\(x\),给定\(X=x\)条件下\(Y\)的条件分布函数和条件密度函数为: \[ F(y|x)=\int_{-\infty}^y \frac{p(x,v)}{p(x)}dv \\ p(y|x)=\frac{p(x,y)}{p_X(x)} \] 需要注意的是,条件分布和条件密度函数表示一簇函数,取不同的条件所得到的函数表达式也不同。也就是说,它仍然是一个二元函数。

全概率公式和贝叶斯公式

全概率公式和贝叶斯公式如下: \[ P(X)=\sum_{i=1}^{n}P(Y_i)P(X|Y_i)\\ P(Y_i|X)=\frac{P(Y_i)P(X|Y_i)}{\sum_{i=1}^{n}P(Y_i)P(X|Y_i)} \] 定义了条件分布密度函数,便可以给出连续场合下全概率公式的密度函数形式: \[ p_X(x)=\int_{-\infty}^\infty p_Y(y)p(x|y)dy \\ p_Y(y)=\int_{-\infty}^\infty p_X(x)p(y|x)dx \] 以及贝叶斯公式的密度函数形式: \[ p(x|y)=\frac{p_X(x)p(y|x)}{\int_{-\infty}^\infty p_X(x)p(y|x)dx} \\ p(y|x)=\frac{p_Y(y)p(x|y)}{\int_{-\infty}^\infty p_Y(y)p(x|y)dy} \]

条件数学期望

如果条件分布的数学期望存在,则被称为条件期望。如果\((X,Y)\)为二维离散随机变量,则定义为: \[ E(X|Y=y)=\sum_{i} x_iP(X=x_i|Y=y) \\ E(Y|X=x)=\sum_{j} y_jP(Y=y_j|X=x) \] 而在连续场合下,定义为: \[ E(X|Y=y)=\int_{-\infty}^{\infty} xp(x|y)dx \\ E(Y|X=x)=\int_{-\infty}^{\infty} yp(y|x)dy \] 此处需要注意的是,条件期望\(x\)\(y\)的函数。条件期望具有数学期望的一切性质。

对于条件期望,有如下的重期望公式成立: \[ E(X)=E(E(X|Y)) \]

例:口袋中有编号为\(1,2,\dots,n\)\(n\)个球,从中任意取出1球,如果取到1号球则记一分并停止,如果取到其它球则记上相应的分数并将球放回重新摸球。如此下去计算得到的平均总分数。

\(X\)为得到的总分,\(Y\)代表第一次取到球的号码,则有如下关系式成立: \[ P(Y=k)=\frac{1}{n},~~k=1,2,\dots,n \\ \] 此外,\(E(X|Y=1)=1\)\(E(X)=E(X|Y=i)-i,~i\ge 2\),故由此可推得: \[ E(X)=\frac{1}{n}+\sum_{i=2}^{n}\frac{1}{n}(E(X)+i) \]\(E(X)=n(n+1)/2\)

大数定律与中心极限定理

随机变量序列的收敛性

几乎处处收敛

\(\{X_n\}\)为一个随机变量序列,\(X\)为一个随机变量,如果对任意的\(\epsilon>0\),有 \[ P(\lim_{n\rightarrow \infty}|X_n-X|\ge \epsilon)=0 \] 则称序列\(\{X_n\}\)几乎处处(almost surely)收敛于\(X\),记作\(X_n\stackrel{a.s.}\longrightarrow X\)。这里是先求极限,再计算概率,也就是说要先用确定性的思路考虑\(X_n\)的收敛性,然后再计算概率。它的含义相当于是,当\(n\rightarrow \infty\)时,随机变量序列\(\{X_n\}\)收敛于\(X\)这一事件的概率为1。由于\(X_n\)为随机变量,因此概率为0代表允许出现一些反例,但是反例对应的概率测度应该为0。

对于几乎处处收敛,有如下推论:如果对于任意的\(\epsilon>0\),如果 \[ \sum_{n=1}^\infty P(|X_n-X|\ge \epsilon)<\infty \] 则序列\(\{X_n\}\)几乎处处收敛于\(X\)

例:几乎处处收敛的例子

设样本空间\(S\)\([0,1]\),在其上的概率分布为均匀分布。定义随机变量\(X_n(s)=s+s^n\),以及\(X(s)=s\)。对于\(s\in [0,1)\),当\(n\rightarrow \infty\)时有\(s^n\rightarrow 0\),因此有\(X_n(s)\rightarrow X(s)\)。但是\(X_n(1)=2\),而\(X(1)=1\),因此,这一点并不收敛。

综上,对于任意的\(\epsilon>0\)\[ P(\lim_{n\rightarrow \infty}|X_n-X|\ge \epsilon)=1-P(s\in[0,1))=0 \] 由此便可得到\(X_n\)几乎处处收敛的结论。

依概率收敛

\(\{X_n\}\)为一个随机变量序列,\(X\)为一个随机变量,如果对任意的\(\epsilon>0\),有 \[ \lim_{n\rightarrow \infty} P(|X_n-X|\ge \epsilon)= 0 \] 则称序列\(\{X_n\}\)依概率收敛于\(X\),记作\(X_n\stackrel{P}\longrightarrow X\)

与几乎处处收敛不同的是,依概率收敛的定义中先计算概率,然后求概率的极限。它的含义是,\(X_n\)\(X\)的绝对偏差不小于任意一个给定量\(\epsilon\)这一事件的概率将随着\(n\)的增大而趋近于0。或者说,绝对偏差\(|X_n-X|\)小于任一给定量的可能性将随着\(n\)的增大而越来越接近于1。由几乎处处是收敛必然可以得到依概率收敛,但是反之则不然。

\(\{X_n\},\{Y_n\}\)为两个随机变量序列,\(a,b\)为两个常数,如果\(X_n\stackrel{P}\longrightarrow a,Y_n\stackrel{P}\longrightarrow b\),则有:

  1. \(X_n\pm Y_n\stackrel{P}\longrightarrow a\pm b\)
  2. \(X_n\times Y_n\stackrel{P}\longrightarrow a\times b\)
  3. \(X_n/Y_n \stackrel{P}\longrightarrow a/b(b\ne 0)\)
  4. 如果函数\(g(\cdot)\)在点\(a\)处连续,那么\(g(X_n)\stackrel{P}\longrightarrow g(a)\)

例:依概率收敛但是不几乎处处收敛的反例

设样本空间\(S\)为闭区间\([0,1]\),且该区间上的概率分布为均匀分布。定义如下的随机变量序列: \[ \begin{aligned} &X_1(s)=s+I_{[0,1]}(s) \\ &X_2(s)=s+I_{[0,1/2]}(s) \\ &X_3(s)=s+I_{[1/2,1]}(s) \\ &X_4(s)=s+I_{[0,1/3]}(s) \\ &X_5(s)=s+I_{[1/3,2/3]}(s) \\ &X_6(s)=s+I_{[2/3,1]}(s) \\ &\dots \end{aligned} \]\(X(s)=s\),由于当\(n\rightarrow \infty\)时,\(P(|X_n-X|\ge \epsilon)\)等于\(s\)的某个长度趋于0的区间的概率,因此\(X_n\)依概率收敛于\(X\)

但是\(X_n\)并不是几乎处处收敛于\(X\)。因为对于任意的\(s\)\(X_n(s)\)的值只能交替地取\(s\)或者\(s+1\),在\(n\)次事件中\(X_n(s)=s+1\)出现的次数可大致估算为\(\sqrt{2n}\),因此它并不能满足\(\lim_{n\rightarrow \infty}|X_n-X|\ge \epsilon\)的收敛条件。

按分布收敛

设随机变量\(X,X_1,X_2,\dots\)的分布函数分别为\(F(x),F_1(x),F_2(x),\dots\),如果对\(F(x)\)的任意连续点\(x\),都有 \[ \lim_{n\rightarrow \infty} F_n(x)=F(x) \] 则称\(\{F_n(x)\}\)弱收敛于\(F(x)\),记作\(F_n(x)\stackrel{W}\longrightarrow F(x)\)。也称相应的随机变量序列\(\{X_n\}\)按分布收敛于\(X\),记作\(X_n\stackrel{L}\longrightarrow X\)

依概率收敛是一种比按分布收敛更强的收敛性,也就是说,\(X_n \stackrel{P}\longrightarrow X\Rightarrow X_n \stackrel{L}\longrightarrow X\)。但是当极限随机变量为常数时,按分布收敛与依概率收敛等价。

\(\{X_n\},\{Y_n\}\)为两个随机变量序列,\(a,b\)为两个常数,如果\(X_n\stackrel{L}\longrightarrow a,Y_n\stackrel{P}\longrightarrow b\),则有:

  1. \(X_n\pm Y_n\stackrel{L}\longrightarrow a\pm b\)
  2. \(X_n\times Y_n\stackrel{L}\longrightarrow a\times b\)
  3. \(X_n/Y_n \stackrel{L}\longrightarrow a/b(b\ne 0)\)

\(\{a_n\}\)是一个趋近\(\infty\)的数列,\(b\)为常数,并且对随机变量序列\(\{Z_n\}\)\[ a_n(Z_n-b)\stackrel{L}\longrightarrow Z \] 又设\(g(\cdot)\)为可微函数,且\(g'\)在点\(b\)处连续,则有 \[ a_n[g(Z_n)-g(b)]\stackrel{L}\longrightarrow g'(b)Z \]

例:按分布收敛但是不依概率收敛的例子

例如随机序列\(\{X_n\}\)取0和1的概率分别为0.5,而随机变量\(x\)取0和1的概率也分别为0.5,那么它们具有同样的分布函数,因此满足按分布收敛。

但是,\(P(|X_n-X|\ge \epsilon)= 1/2\)对于任意的\(n\)值均成立,因此\(\{X_n\}\)不符合依概率收敛的条件。

特征函数

\(X\)为一个随机变量,称 \[ \varphi(t)=E(e^{itX}), ~-\infty<t<\infty \]\(X\)的特征函数。由于\(|e^{itX}|=1\),因此任意随机变量的特征函数总是存在的。

当离散随机变量\(X\)的分布列为\(p_k=P(X=x_k),k=1,2,\dots\),则\(X\)的特征函数为: \[ \varphi(t)=\sum_{k=1}^\infty e^{itx_k}p_k \] 而当连续随机变量\(X\)的密度函数为\(p(x)\),则\(X\)的特征函数为 \[ \varphi(t)=\int_{-\infty}^{\infty} e^{itx}p(x)dx \]

例:标准正态分布的特征函数

标准正态分布的密度函数为 \[ p(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} \] 因此其特征函数为: \[ \begin{aligned} \varphi(t)=& \int_{-\infty}^\infty e^{itx}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} dx\\ =& \frac{1}{\sqrt{2\pi}} \int_{-\infty}^\infty \sum_{k=0}^{\infty} \frac{(itx)^k}{k!}e^{-\frac{x^2}{2}} dx \\ =& \sum_{k=0}^{\infty}\frac{(it)^k}{k!} \int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}x^k e^{-\frac{x^2}{2}} dx \end{aligned} \] 积分号下面的部分其实就是标准正态分布的\(n\)阶矩\(E(X^n)\)。当\(n\)为奇数时,\(E(X^n)=0\)\(n\)为偶数时,记\(n=2m\),则有\(E(X^n)=E(X^{2m})=(2m-1)!!=\frac{(2m)!}{2^m\cdot m!}\)

代回上式,可得: \[ \begin{aligned} \varphi(t)=& \sum_{m=0}^{\infty}\frac{(it)^{2m}}{2m!} \frac{(2m)!}{2^m\cdot m!} \\ =& \sum_{m=0}^{\infty}\frac{(-t^2/2)^m}{m!} \\ =& e^{-\frac{t^2}{2}} \end{aligned} \]

特征函数具有如下一些性质:

  1. \(|\varphi(t)|\le \varphi(0)=1\)
  2. \(\varphi(-t)=\overline{\varphi(t)}\),其中\(\overline{\varphi(t)}\)代表\(\varphi(t)\)的共轭
  3. 如果\(Y=aX+b\),其中\(a,b\)为常数,则\(\varphi_Y(t)=e^{ibt}\varphi_X(at)\)
  4. 独立随机变量和的特征函数等于每个随机变量的特征函数的积,即\(\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t)\)
  5. 如果\(E(X^l)\)存在,则\(X\)的特征函数\(\varphi(t)\)可以\(l\)次求导,且\(\varphi^{(k)}(0)=i^k E(X^k)\)
  6. 随机变量\(X\)的特征函数\(\varphi(t)\)\((-\infty,\infty)\)上一致连续
  7. 随机变量\(X\)的特征函数\(\varphi(t)\)非负定

对于特征函数有如下的逆转公式:设\(F(x)\)\(\varphi(t)\)分别为随机变量\(X\)的分布函数和特征函数,则对\(F(x)\)的任意两个连续点\(x_1<x_2\),有 \[ F(x_2)-F(x_1)=\lim_{T\rightarrow \infty} \frac{1}{2\pi}\int_{-T}^{T} \frac{e^{-itx_1}-e^{-itx_2}}{it} \varphi(t) dt \] 特别地,如果\(X\)为连续随机变量,其密度函数为\(p(x)\),特征函数为\(\varphi(t)\),如果\(\int_{-\infty}^\infty |\varphi(t)|dt<\infty\),则 \[ p(x)=\frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-itx}\varphi(t)dt \] 根据特征函数的定义可知,随机变量的分布唯一地确定了它的特征函数,也就是说两个分布函数相等当且仅当它们所对应的特征函数相等。因此,分布函数序列弱收敛的充要条件是特征函数序列也收敛于特征函数。

大数定律

设有一个随机变量序列\(\{X_n\}\),如果它具有形如下式的性质: \[ \lim_{n\rightarrow \infty} P\left( \left|\frac{1}{n}\sum_{i=1}^{n}X_i-\frac{1}{n}\sum_{i=1}^{n}E(X_i) \right|\ge \epsilon\right)=0 \] 则称其服从弱大数定律。在实际中,通常会用到如下几种大数定律:

  1. 切比雪夫大数定律

    \(\{X_n\}\)为一列两两不相关的随机变量序列,如果每个\(X_i\)的方差存在,且有共同的上界,即\(\text{Var}(X_i)\le c\),则\(\{X_n\}\)服从大数定律。切比雪夫大数定律只要求\(\{X_n\}\)互不相关,并不要求它们同分布。它可以由切比雪夫不等式证得。

  2. 马尔科夫大数定律

    对于随机变量序列\(\{X_n\}\),如果\(\frac{1}{n^2}\text{Var}(\sum_{i=1}^n X_i)\rightarrow 0\)成立,则\(\{X_n\}\)服从大数定律。此时对\(\{X_n\}\)没有任何同分布、独立性、不相关的假定。它同样可以通过切比雪夫不等式证明而得。

  3. 辛钦大数定律

    \(\{X_n\}\)为一独立同分布的随机变量序列,如果\(X_i\)数学期望存在,则\(\{X_n\}\)服从大数定律。它可以由\(Y=\frac{1}{n}\sum_{k=1}^n X_k\)的特征函数证明而得。

在实际使用中,需要注意上述几个大数定律的条件要求。

设随机变量序列\(\{X_n\}\)满足 \[ P\left(\lim_{n\rightarrow \infty}\left|\frac{1}{n}\sum_{i=1}^n X_i-\frac{1}{n}\sum_{i=1}^nEX_i\right|=0 \right)=1 \] 则称其满足强大数定律

弱大数定律和强大数定律的公式上相当于是交换了极限和概率的位置,但是这样的交换导致了本质上的区别。弱大数定律只要求样本均值依概率收敛于期望,也就是相当于偏离期望的次数越来越少,但是不能完全保证。而强大数定律则要求样本均值几乎处处(以概率1)收敛于期望,也就是它代表一定会趋近于期望。

根据柯尔莫格罗夫定理,如果随机变量序列\(\{X_n\}\)同分布,且数学期望存在,那么上述的强大数定律满足。

中心极限定理

独立同分布

\(\{X_n\}\)为独立同分布的随机变量序列,且\(E(X_i)=\mu\)\(\text{Var}(X_i)=\sigma^2>0\)存在。记 \[ Y_n^*=\frac{X_1+X_2+\cdots+X_n-n\mu}{\sigma\sqrt{n}} \] 则对任意实数\(y\),有: \[ \lim_{n\rightarrow \infty} P(Y_n^*\le y)=\Phi(y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{y}e^{-\frac{t^2}{2}}dt \] 或者说\(Y_n^*\sim N(0,1)\)。这便是林德伯格-莱维中心极限定理。

\(n\)重伯努利实验中,如果\(n\)的数值较大,可以使用中心极限定理,用正态分布来作为二项分布的近似。需要注意的是,在近似计算中做一些修正可以提高精度。如果\(k_1<k_2\)均为整数,一般先作如下修正再用正态分布近似: \[ P(k_1\le S_n\le k_2)=P(k_1-0.5<S_n<k_2+0.5) \]

独立不同分布

\(\{X_n\}\)为独立的随机变量序列,具有有限的数学期望\(E(X_i)=\mu_i\)和方差\(\text{Var}(X_i)=\sigma_i^2\)。记 \[ B_n=\sqrt{\sigma_1^2+\sigma_2^2+\cdots+\sigma_n^2} \] 如果下面的林德伯格条件满足,即对于任意的\(\tau>0\),有 \[ \lim_{n\rightarrow \infty}\frac{1}{\tau^2 B_n^2}\sum_{i=1}^{n}\int_{|x-\mu_i|>\tau B_n} (x-\mu_i)^2p_i(x)dx=0 \] 则对于任意的\(x\),有: \[ \lim_{n\rightarrow \infty} P(\frac{1}{B_n}\sum_{i=1}^{n}(X_i-\mu_i)\le x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt \] 林德伯格条件比较一般,但是这一条件比较难验证,因此常使用下面的李亚普诺夫中心极限定理。

\(\{X_n\}\)为独立的随机变量序列,如果存在\(\delta>0\),满足 \[ \lim_{n\rightarrow\infty}\frac{1}{B_n^{2+\delta}}\sum_{i=1}^{n}E(|X_i-\mu_i|^{2+\delta})=0 \] 则对任意的\(x\),有 \[ \lim_{n\rightarrow \infty} P(\frac{1}{B_n}\sum_{i=1}^{n}(X_i-\mu_i)\le x)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^{x}e^{-\frac{t^2}{2}}dt \]