"> "> 概率论-常见的概率分布 | Yufei Luo's Blog

概率论-常见的概率分布

常用离散分布

二点分布

二点分布又称0-1分布,或者伯努利分布,其分布列为: \[ P(X=x)=p^x(1-p)^{1-x}~~x=0,1 \] 它用于描述一次伯努利实验中成功的次数。

二项分布

\(X\)\(n\)重伯努利实验中成功的次数,\(p\)为每次伯努利实验中成功的概率,则\(X\)服从二项分布,记作\(X\sim b(n,p)\)。它的分布列为: \[ P(X=k)=\binom{n}{k}p^k(1-p)^{n-k}~~k=0,1\dots,n \] 二项分布的期望和方差分别为: \[ \begin{aligned} &E(X)=np \\ &\text{Var}(X)=np(1-p) \end{aligned} \]

二项分布具有可加性,设随机变量\(X\sim b(n,p),Y\sim b(m,p)\),且\(X,Y\)相互独立,则\(X+Y\sim b(m+n,p)\)。这也就是说,服从二项分布的随机变量可以分解为\(n\)个相互独立的0-1分布的随机变量之和。

泊松分布

泊松分布的概率分布列为: \[ P(X=k)=\frac{\lambda^k}{k!}\cdot e^{-\lambda}~~k=0,1,2,\dots \] 其中参数\(\lambda>0\),记为\(X\sim P(\lambda)\)

泊松分布的期望和方差满足\(E(X)=\text{Var}(X)=\lambda\)

当二项分布的\(n\)较大时,可以按照如下的泊松定理将其近似为泊松分布来计算:

\(n\)重伯努利试验中,记事件\(A\)在一次试验中发生的概率为\(p_n\)(与试验次数有关),如果当\(n\rightarrow \infty\)时有\(np_n\rightarrow \lambda\),则 \[ \lim_{n\rightarrow \infty}\binom{n}{k}p_n^k(1-p_n)^{n-k}=\frac{\lambda^k}{k!}\cdot e^{-\lambda} \] 在二项分布\(b(n,p)\)中,当\(n\)较大时需要很大的计算量,此时如果\(p\)较小,而\(\lambda=np\)的大小适中时,可以使用泊松分布来近似计算。

泊松分布具有可加性,如果随机变量\(X\sim P(\lambda_1),Y\sim P(\lambda_2)\),且\(X,Y\)互相独立,则\(X+Y\sim P(\lambda_1+\lambda_2)\)

超几何分布

设有\(N\)件产品,其中\(M\)件不合格品,如果从中不放回地随机抽取\(n\)件,那么其中含有不合格品的件数\(X\)就服从超几何分布,记为\(X\sim h(n,N,M)\),它的概率分布列为: \[ P(X=k)=\frac{\binom{M}{k}\binom{N-M}{n-k}}{\binom{N}{n}}~~k=0,1,\dots,\min\{M,n\} \] 如果\(X\sim h(n,N,M)\),它的数学期望和方差分别为: \[ \begin{aligned} &E(X)=n\frac{M}{N}\\ &\text{Var}(X)=\frac{nM(N-M)(N-n)}{N^2(N-1)} \end{aligned} \]\(n<<N\)时,即抽取个数远小于产品总数\(N\)时,此时可以近似认为是放回抽样,即可以用二项分布来近似表示超几何分布。

几何分布

在伯努利试验序列中,记每次试验中事件\(A\)发生的概率为\(p\),如果\(X\)代表事件\(A\)首次出现时的试验次数,则\(X\)服从几何分布,记为\(X\sim Ge(p)\),其分布列为: \[ P(X=k)=(1-p)^{k-1}p~~k=1,2,\dots \] 如果随机变量\(X\sim Ge(p)\),它的期望和方差分别为: \[ \begin{aligned} &E(X)=\frac{1}{p} \\ &\text{Var}(X)=\frac{1-p}{p^2} \end{aligned} \] 几何分布具有无记忆性的特点,设随机变量\(X\sim Ge(p)\),则对于任意正整数\(m,n\),有如下关系式成立: \[ P(X>m+n|X>m)=P(X>n) \]

负二项分布

在伯努利试验序列中,记每次试验中事件\(A\)发生的概率为\(p\),如果\(X\)代表事件\(A\)\(r\)次出现时的试验次数,则\(X\)可能的取值为\(r,r+1,r+2,\dots\),称\(X\)服从负二项分布或者帕斯卡分布,它的分布列为: \[ P(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r}~~~~k=r,r+1,r+2,\dots \] 记为\(X\sim Nb(r,p)\)。如果将第一个\(A\)出现的试验次数记为\(X_1\),从第一个\(A\)之后算起第二个\(A\)出现的试验次数记为\(X_2\),以此类推,那么每个\(X_i\)都是一个独立的几何分布。也就是说,负二项分布可以分解为\(r\)个独立同分布的几何分布随机变量之和。

由此也容易得到负二项分布的期望和方差分别为: \[ \begin{aligned} &E(X)=\frac{r}{p} \\ &\text{Var}(X)=\frac{r(1-p)}{p^2} \end{aligned} \]

多项分布

进行\(n\)次独立重复试验,如果每次试验有\(r\)个互不相容的结果\(A_1,A_2,\dots,A_r\)之一发生,且每次试验中\(A_i\)发生的概率为\(p_i=P(A_i)\)。记\(X_i\)代表\(n\)次独立重复试验中\(A_i\)出现的次数,则\((X_1,X_2,\dots,X_r)\)取值为\((n_1,n_2,\dots,n_r)\)的概率为: \[ P(X_1=n_1,X_2=n_2,\dots,X_r=n_r)=\frac{n!}{n_1!n_2!\cdots n_r!}p_1^{n_1}p_2^{n_2}\cdots p_r^{n_r} \] 这个联合分布列称为\(r\)项分布或者多项分布,记为\(M(n,p_1,p_2,\dots,p_r)\)。由于约束条件\(p_1+p_2+\cdots+p_r=1\),因此\(r\)项分布是\(r-1\)维随机变量的分布。

多维超几何分布

设袋子中有\(N\)个球,其中有\(N_i\)\(i\)号球,且\(N=N_1+N_2+\cdots+N_r\)。从中任意取出\(n\)个,如果记\(X_i\)代表取出的\(n\)个球中\(i\)号球的个数,则有 \[ P(X_1=n_1,X_2=n_2,\dots,X_r=n_r)=\frac{\binom{N_1}{n_1}\binom{N_2}{n_2}\cdots \binom{N_r}{n_r}}{\binom{N}{n}} \] 其中\(n_1+n_2+\cdots+n_r=n\),因此它是\(r-1\)维的分布。

常用连续分布

正态分布

随机变量\(X\)的密度函数为 \[ p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}~~-\infty<x<\infty \] 则称\(X\)服从正态分布,记作\(X\sim N(\mu,\sigma^2)\),它的密度函数图像是一条钟型曲线。其中\(\mu\)被称为位置参数,代表正态分布的中心,且\(x\)在中心附近取值的概率较大,在两侧取值的概率小。而\(\sigma\)被称为尺度参数,如果数值越小则曲线变得高瘦,分布越集中,反正则曲线变得矮胖,分布变得分散。正态分布的期望\(E(X)=\mu\),方差\(\text{Var}(X)=\sigma^2\)

\(\mu=0\)\(\sigma=1\)时的正态分布\(N(0,1)\)为标准正态分布,通常记标准正态变量为\(U\),标准正态分布的密度函数为\(\varphi(u)\),分布函数为\(\Phi(u)\),即: \[ \varphi(u)=\frac{1}{\sqrt{2\pi}}e^{-\frac{u^2}{2}} \\ \Phi(u)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^u e^{-\frac{t^2}{2}}dt \] 标准正态分布的分布函数满足如下性质: \[ \begin{aligned} & \Phi(-u)=1-\Phi(u) \\ & P(U>u)=1-\Phi(u) \\ & P(a<U<b)=\Phi(b)-\Phi(a) \\ & P(|U|<c)=2\Phi(c)-1 \end{aligned} \] 如果随机变量\(X\sim N(\mu,\sigma^2)\),则\(U=(X-\mu)/\sigma\sim N(0,1)\),也就是说任意的正态分布都可以通过线性变换将其变为标准正态分布。由此可得一些计算公式: \[ \begin{aligned} & P(X\le c)=\Phi(\frac{c-\mu}{\sigma}) \\ & P(a<X\le b)=\Phi(\frac{b-\mu}{\sigma})-\Phi(\frac{a-\mu}{\sigma}) \end{aligned} \]

正态分布具有可加性,设随机变量\(X\sim N(\mu_1,\sigma^2_1),Y\sim N(\mu_2,\sigma_2^2)\),且\(X\)\(Y\)独立,则\(X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)\)

对数正态分布

如果一个随机变量\(X\sim N(\mu,\sigma^2)\),则\(Y=e^X\)服从对数正态分布,它的分布函数为: \[ p(y)= \begin{cases} \frac{1}{y\sqrt{2\pi}\sigma}\exp\{-\frac{1}{2\sigma^2}(\ln y-\mu)^2\},~y>0\\ 0, y\le 0 \end{cases} \] 通常记作\(Y\sim LN(\mu,\sigma^2)\)

对数正态分布的期望和方差分别为: \[ \begin{aligned} &E(X)=\exp\{\mu+\frac{1}{2}\sigma^2\} \\ &\text{Var}(X)=[\exp(\sigma^2)-1]\cdot \exp\{2\mu+\sigma^2\} \end{aligned} \]

均匀分布

如果随机变量\(X\)的密度函数为: \[ p(x)= \begin{cases} \frac{1}{b-a}, ~~a<x<b \\ 0,~~\text{else} \end{cases} \] 则称\(X\)服从区间\((a,b)\)上的均匀分布,记作\(X\sim U(a,b)\)

其分布函数为: \[ F(x)= \begin{cases} 0,~~x<a\\ \frac{x-a}{b-a},~~a\le x < b\\ 1,~~x\ge b \end{cases} \] 均匀分布的数学期望和方差分别为: \[ \begin{aligned} &E(X)=\frac{a+b}{2} \\ &\text{Var}(X)=\frac{(b-a)^2}{12} \end{aligned} \]

指数分布

如果随机变量\(X\)的密度函数为: \[ p(x)= \begin{cases} \lambda e^{-\lambda x},~x\ge 0 \\ 0,~x<0 \end{cases} \] 则称\(X\)服从指数分布,记作\(X\sim Exp(\lambda)\)

指数分布的期望和方差分别为: \[ \begin{aligned} & E(X)=\frac{1}{\lambda} \\ & \text{Var}(X)=\frac{1}{\lambda^2} \end{aligned} \] 指数分布具有无记忆性的特点,即: \[ P(X>s+t|X>s)=P(X>t) \]

Gamma分布

函数\(\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx\)被称为Gamma函数,其中参数\(\alpha>0\)。Gamma函数具有如下性质:

  1. \(\Gamma(1)=1,~\Gamma{\frac{1}{2}}=\sqrt{\pi}\)
  2. \(\Gamma(\alpha+1)=\alpha\Gamma(\alpha)\),当\(\alpha\)为自然数\(n\)时,有:\(\Gamma(n+1)=n\Gamma(n)=n!\)

如果随机变量\(X\)的密度函数为 \[ p(x)= \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},~x\ge 0\\ 0,~x<0 \end{cases} \] 则称\(X\)服从Gamma分布,记作\(X\sim Ga(\alpha,\lambda)\)

Gamma分布的数学期望和方差分别为: \[ \begin{aligned} & E(X)=\frac{\alpha}{\lambda} \\ & \text{Var}(X)=\frac{\alpha}{\lambda^2} \end{aligned} \] Gamma分布具有两个特例:

  1. \(\alpha=1\)时的Gamma分布就是指数分布,即\(Ga(1,\lambda)=Exp(\lambda)\)
  2. \(\alpha=n/2,\lambda=1/2\)时的Gamma分布为自由度为\(n\)的卡方分布,记为\(\chi^2(n)\),即\(Ga(\frac{n}{2},\frac{1}{2})=\chi^2(n)\),可以很容易地得到\(\chi^2\)分布的期望和方差分别为\(E(X)=n,\text{Var}(X)=2n\)

Gamma分布具有可加性,设两个相互独立的随机变量\(X\sim Ga(\alpha_1,\lambda),Y\sim Ga(\alpha_2,\lambda)\),则\(X+Y\sim Ga(\alpha_1+\alpha_2,\lambda)\)。这同时也意味着指数分布和\(\chi^2\)分布的可加性。

Beta分布

称函数 \[ B(a,b)=\int_0^1 x^{a-1}(1-x)^{b-1}dx \] 为Beta函数,其中参数\(a>0,b>0\)。它具有如下性质:

  1. \(B(a,b)=B(b,a)\)
  2. Beta函数与Gamma函数之间有如下关系:\(B(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}\)

如果随机变量\(X\)的密度函数为: \[ p(x)= \begin{cases} \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}x^{a-1}(1-x)^{b-1},~~0<x<1\\ 0,~~\text{else} \end{cases} \] 则称\(X\)服从Beta分布,记作\(X\sim Be(a,b)\)

根据Beta函数的性质,可以计算得到Beta分布的期望和方差分别为: \[ \begin{aligned} & E(X)=\frac{a}{a+b} \\ & \text{Var}(X)=\frac{ab}{(a+b)^2(a+b+1)} \end{aligned} \]

多维均匀分布

\(D\)\(R^n\)中的一个有界区域,其度量(面积、体积等)为\(S_D\)。如果多维随机变量\((X_1,X_2,\dots,X_n)\)的联合密度函数为 \[ p(x_1,x_2,\dots,x_n)= \begin{cases} \frac{1}{S_D},~~(x_1,x_2,\dots,x_n)\in D\\ 0,~~\text{else} \end{cases} \] 则称\((X_1,X_2,\dots,X_n)\)服从\(D\)上的多维均匀分布。

多元正态分布

首先讨论最简单的二元正态分布的情形。如果二维随机变量\((X,Y)\)的联合密度函数为 \[ p(x,y)=\frac{1}{2\pi \sigma_1 \sigma_2\sqrt{1-\rho^2}}\exp\left\{-\frac{1}{2(1-\rho^2)}\left[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2} \right]\right\},~ -\infty<x,y<\infty \] 则称\((X,Y)\)服从二元正态分布,记为\((X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)。其中五个参数的取值范围分别是 \[ -\infty<\mu_1,\mu_2<\infty,~~\sigma_1,\sigma_2>0,~~-1\le \rho\le 1 \] \(\mu_1,\mu_2\)分别为\(X,Y\)的均值,\(\sigma_1^2,\sigma_2^2\)分别是\(X,Y\)的方差,\(\rho\)代表\(X,Y\)之间的相关系数。

对于二元正态分布\((X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)\)来说,其边际分布即为一维正态分布,即\(X\sim N(\mu_1,\sigma_1^2)\)\(Y\sim N(\mu_2,\sigma_2^2)\),条件分布\(p(x|y),p(y|x)\)也为一维正态分布。

\(n\)元正态分布的定义如下。设\(n\)维随机变量\(\boldsymbol{X}=(X_1,X_2,\dots,X_n)'\)的协方差矩阵\(\boldsymbol{\Sigma}=\text{Cov}(\boldsymbol{X})\)是正定矩阵,数学期望向量为\(\boldsymbol{\mu}=(\mu_1,\mu_2,\dots,\mu_n)'\),则由密度函数 \[ p(\boldsymbol{x})=\frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu}) \right\} \] 定义的分布为\(n\)元正态分布,记为\(\boldsymbol{X}\sim N(\boldsymbol{\mu},\boldsymbol{\Sigma})\)

如果记\(\boldsymbol{\Sigma}^{-1}\)中的元素为\(\sigma_{ij}\),则上式也可以记为 \[ p(\boldsymbol{x})=\frac{1}{(2\pi)^{\frac{n}{2}}|\boldsymbol{\Sigma}|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}\sum_{i,j=1}^n \sigma_{ij}(x_i-\mu_i)(x_j-\mu_j) \right\} \]