统计结构
设\((\mathscr{X},\mathscr{B})\)为可测空间,\(\mathscr{P}\)为其上的一个概率分布族,则称三元组\((\mathscr{X},\mathscr{B},\mathscr{P})\)为统计结构,或称为统计模型。假如分布族\(\mathscr{P}\)仅依赖于某个参数(或者参数向量)\(\theta\),即\(\mathscr{P}=\{P_\theta:\theta\in \Theta\}\),其中\(\Theta\)为参数空间,则称此结构为参数(统计)结构,或成为参数模型;否则被称为非参数模型。
由简单统计结构可以派生出乘积结构。设\((\mathscr{X},\mathscr{B},\mathscr{P})\)和\((\mathscr{X}',\mathscr{B}',\mathscr{P}')\)为两个统计结构,则称\((\mathscr{X}\times \mathscr{X}',\mathscr{B}\otimes \mathscr{B}',\mathscr{P}\otimes \mathscr{P}')\)为二者的乘积结构,并记为\((\mathscr{X},\mathscr{B},\mathscr{P})\otimes (\mathscr{X}',\mathscr{B}',\mathscr{P}')\),其中 \[ \mathscr{P}\otimes \mathscr{P}'=\{P\otimes P':P\in \mathscr{P},P'\in \mathscr{P}'\} \] 特别地,\(n\)个相同统计结构乘积结构被称为重复抽样结构,记为\((\mathscr{X},\mathscr{B},\mathscr{P})^n\)。
统计量
概念
设\((\mathscr{X},\mathscr{B},\mathscr{P})\)为统计结构,\(T=T(x)\)是从可测空间\((\mathscr{X},\mathscr{B})\)到\((\mathscr{T},\mathscr{C})\)的一个可测映照,如果这个映照\(T\)不依赖于分布族\(\mathscr{P}\),则称\(T\)为此结构上的统计量。这里不依赖于分布族指的是,得知样本的观察值之后可以立刻计算出统计量的值,而不受总体分布未知的影响。例如样本均值、样本方差为重复抽样结构上的常用统计量(其结果只与样本有关),而\(\sum_{i=1}^n(X_i-E(X))^2\)因为总体均值\(E(X)\)未知故不是统计量。
对于分布族\(\mathscr{P}\)中的每一个分布\(P\),都可以确定统计量\(T\)的一个分布,因而根据统计量\(T\)可以得到一个诱导结构\((\mathscr{T},\mathscr{C},\mathscr{P}^T)\)。例如\(\mathscr{P}\)为欧氏空间和分布族\(\mathscr{P}\)被Lebesgue测度所控的情况下,对于任意\(C\in \mathscr{C}\) \[ P(T(x)\in C)=\int_{\{x:T(C)\}} p(x)dx \] 即为统计量\(T(x)\)的分布。一般情况下,上式只有在很少的情况下可以被进一步简化。
来自正态总体的抽样分布
\(\chi^2\)分布(卡方分布)
设\(X_1,X_2,\dots,X_n\)独立同分布于标准正态分布\(N(0,1)\),则\(\chi^2=X_1^2+X_2^2+\cdots+X_n^2\)的分布称为自由度为\(n\)的\(\chi^2\)分布,记为\(\chi^2\sim \chi^2(n)\)。由于卡方分布是Gamma分布的特例,因此可得其密度函数为: \[ p(x)=\frac{(1/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-x/2},~x>0 \] 如果\(x_1,x_2,\dots,x_n\)是来自于正态总体\(N(\mu,\sigma^2)\)的样本,其样本均值和样本方差分别为: \[ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i,~s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 \] 则有:
- \(\bar{x}\)与\(s^2\)相互独立
- \(\bar{x}\sim N(\mu,\sigma^2/n)\)
- \(\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)\)
证明过程的简单描述:
构造正交矩阵 \[ A= \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2}& 0 & \cdots & 0 \\ 1/\sqrt{2\times 3} & 1/\sqrt{2\times3}& -2/\sqrt{2\times3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \cdots & \vdots \\ 1/\sqrt{n(n-1)} & 1/\sqrt{n(n-1)} & 1/\sqrt{n(n-1)} & \cdots & -(n-1)/\sqrt{n(n-1)} \\ 1/\sqrt{n} & 1/\sqrt{n} & 1/\sqrt{n} & \cdots & 1/\sqrt{n} \end{bmatrix} \] 并做线性变换 \[ \boldsymbol{Z}=\boldsymbol{AX} \] 从\(\boldsymbol{Z}\)的概率分布函数中可知,\(Z_1,Z_2,\dots,Z_{n-1},Z_n-\sqrt{n}\mu\)相互独立,且都服从\(N(0,\sigma^2)\)。
此外,通过正交变换也可以计算得到\(\boldsymbol{Z}'\boldsymbol{Z}=\boldsymbol{X}'\boldsymbol{X}\),且\(Z_n=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}X_i\),从而可以进一步完成证明。
当随机变量\(\chi^2\sim \chi^2(n)\)时,对于给定的\(\alpha(0<\alpha<1)\),称满足概率等式\(P(\chi^2\le \chi^2_{1-\alpha}(n))=1-\alpha\)的\(\chi^2_{1-\alpha}(n)\)代表自由度为\(n\)的\(\chi^2\)分布的\(1-\alpha\)分位数,通常可从表中查到。
F分布
设随机变量\(X_1\sim \chi^2(m),X_2\sim\chi^2(n)\),\(X_1,X_2\)互相独立,则称\(F=\frac{X_1/m}{X_2/n}\)的分布是自由度为\(m\)和\(n\)的\(F\)分布,记为\(F\sim F(m,n)\)。
当随机变量\(F\sim F(m,n)\)是,对给定的\(\alpha(0<\alpha<1)\),称满足概率等式\(P(F\le F_{1-\alpha}(m,n))=1-\alpha\)的\(F_{1-\alpha}(m,n)\)代表自由度为\(m\)和\(n\)的\(F\)分布的\(1-\alpha\)分位数。
由\(F\)分布的构造易得,如果\(F\sim F(m,n)\),则有\(1/F\sim F(n,m)\)。因此对给定的\(\alpha(0<\alpha<1)\),有关系式\(F_\alpha(n,m)=1/F_\alpha(m,n)\)成立。
由来自正态总体样本的性质可推得,如果\(x_1,x_2,\dots,x_m\)是来自于正态总体\(N(\mu_1,\sigma_1^2)\)的样本,\(y_1,y_2,\dots,y_n\)是来自于正态总体\(N(\mu_2,\sigma_2^2)\)的样本,且这两个样本互相独立,记 \[ s_x^2=\frac{1}{m-1}\sum_{i=1}^m (x_i-\bar{x})^2,~~s_y^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\bar{y})^2 \] 则有: \[ F=\frac{s_x^2/\sigma_1^2}{s_y^2/\sigma_2^2}\sim F(m-1,n-1) \] 上述结论可以根据\(s_x^2,s_y^2\)与\(\chi^2\)分布的关系,以及\(F\)分布的定义推导而得。
\(t\)分布
设随机变量\(X_1\)与\(X_2\)独立,且\(X_1\sim N(0,1)\),\(X_2\sim\chi^2(n)\),则称\(t=\frac{X_1}{\sqrt{X_2/n}}\)的分布为自由度为\(n\)的\(t\)分布,记为\(t\sim t(n)\)。由此也可得\(t\)分布与\(F\)分布之间的关系为:\(t^2\sim F(1,n)\)。
\(t\)分布是一个关于纵轴对称的分布,与标准正态分布的函数图像类似,但是峰值低于标准正态分布,尾部的概率比标准正态分布大一些。当自由度较大(\(n\ge 30\))时,\(t\)分布可以用标准正态分布近似。
来自正态分布的样本与\(t\)分布之间有如下的关系:
设\(x_1,x_2,\dots,x_n\)是来自于正态总体\(N(\mu,\sigma^2)\)的样本,其样本均值和样本方差分别为: \[ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i,~s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 \] 则有: \[ \frac{\sqrt{n}(\bar{x}-\mu)}{s}\sim t(n-1) \] 在上式中,如果对分子和分母同除\(\sigma\),则有\(\sqrt{n}(\bar{x}-\mu)/\sigma\sim N(0,1)\),\(s^2/\sigma^2\sim \chi^2(n-1)\),从而可得。
如果\(x_1,x_2,\dots,x_m\)是来自于正态总体\(N(\mu_1,\sigma_1^2)\)的样本,\(y_1,y_2,\dots,y_n\)是来自于正态总体\(N(\mu_2,\sigma_2^2)\)的样本,\(\sigma_1^2=\sigma_2^2=\sigma_2\),且这两个样本互相独立,记 \[ s_w^2=\frac{\sum_{i=1}^m (x_i-\bar{x})^2+\sum_{i=1}^n(y_i-\bar{y})^2}{m+n-2} \] 则有: \[ \frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{s_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2) \] 在上式中,根据正态分布的可加性,可得\(\frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim N(0,1)\),而\((m+n-2)s_w^2/\sigma^2\sim \chi^2(m+n-2)\),故根据\(t\)分布的定义可得。
更一般地,有: \[ \frac{c(\bar{x}-\mu_1)+d(\bar{y}-\mu_2)}{s_w\sqrt{\frac{c^2}{m}+\frac{d^2}{n}}}\sim t(m+n-2) \] 当随机变量\(t\sim t(n)\)时,对给定的\(\alpha(0<\alpha<1)\),称满足概率公式\(P(t\le t_{1-\alpha}(n))=1-\alpha\)的\(t_{1-\alpha}(n)\)是自由度为\(n\)的\(t\)分布的\(1-\alpha\)分位数。由于\(t\)分布的密度函数关于0对称,因此其分位数之间满足关系\(t_{1-\alpha}(n)=-t_{\alpha}(n)\)。
次序统计量及其分布
设\(X_1,\dots,X_n\)是来自某个总体的一个样本,该样本的第\(i\)个次序统计量记为\(X_{(i)}\)。它代表如下的样本函数,每当该样本得到一组观测值\(x_1,\dots,x_n\)时,将它们从小到大排列为: \[ x_{(1)}\le x_{(2)}\le \cdots \le x_{(n)} \] 其中第\(i\)个值\(x_{(i)}\)就是\(X_{(i)}\)的观测值。称\((X_{(1)},\dots,X_{(n)})\)为该样本的次序统计量。其中\(X_{(1)}\)被称作最小统计量,而\(X_{(n)}\)被称为最大统计量。
记\(X_{(k)}\)的值为\(x_{(k)}\),总体的分布函数为\(F(x)\),密度函数为\(p(x)\),则\(X_{(k)}\)的密度函数为: \[ p(x_{(k)})=\frac{n!}{(k-1)!(n-k)!}[F(x_{(k)})]^{k-1}[1-F(x_{(k)})]^{n-k}p(x_{(k)}) \] 上式可以用概率元的办法推导而得,其含义相当于,\(X_{(k)}\)的值为\(x_{(k)}\),且有\(k-1\)个观察值落在\(x_{(k)}\)的左侧,\(n-k\)个观察值落在\(x_{(k)}\)的右侧,这三个事件同时发生的概率。
如果要计算\(x_{(k)}\)和\(x_{(j)}\),\(1\le k<j\le n\)的联合密度函数\(p(x_{(k)},x_{(j)})\),仍然可以使用概率元的方法,得到其联合密度函数为: \[ p(x_{(k)},x_{(j)})=\frac{n!}{(k-1)!(j-1-k)!(n-j)!}[F(x_{(k)})]^{k-1}[F(x_{(j)})-F(x_{(k)})]^{j-1-k}[1-F(x_{(j)})]^{n-j}p(x_{(k)})p(x_{(j)}) \]
## 统计量的近似分布
在一些场合下,抽样分布可能不容易导出或者表达式较为复杂,因此有时候会根据中心极限定理寻求近似分布。设\(X_1,\dots,X_n\)是来自某个总体的一个样本,设该总体的均值为\(\mu\),方差为\(\sigma^2\),根据中心极限定理可知 \[ P(\frac{\sum_{i=1}^n X_i-n\mu}{\sqrt{n\sigma^2}}\le x)\rightarrow \Phi(x),~~n\rightarrow \infty \] 这也就是说,当样本容量较大时,即使总体不为正态分布,样本均值\(\bar{X}\)的分布函数也可以用正态分布\(N(\mu,\sigma^2/n)\)的分布函数来近似。
据此可以得到样本分位数的渐进分布。设\(X_1,\dots,X_n\)是来自密度函数为\(p(x)\)的总体的一个样本,对于给定的\(p\in(0,1)\),\(p(x)\)在总体的\(p\)分位数\(\xi_p\)处连续且\(p(\xi_p)>0\)。定义\(k\)满足\(k=np+\omicron(\sqrt{n})\),则对于样本的第\(k\)个次序统计量\(X_{(k)}\),有 \[ \frac{\sqrt{n}(X_{(k)}-\xi_p)}{\sqrt{p(1-p)}/p(\xi_p)}\stackrel{L}\longrightarrow N(0,1) \]
充分统计量
设\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)是一个统计结构,又设\(T=T(X)\)是\((\mathscr{X},\mathscr{B})\)到\((\mathscr{T},\mathscr{C})\)的一个统计量,\(P^T_\theta\)是\(T\)的诱导分布,假如在\(P^T_\theta\)的零测集之外,\(T\)取任意一个值\(t\)时,样本\(X=(X_1,\dots,X_n)\)的条件分布都不依赖于\(\theta\),即对任意的\(\theta\in \Theta\)和\(B\in \mathscr{B}\),有\(P_{\theta}(B|t)=P(B|t),~a.s. P_\theta^T\),则称\(T\)为该分布族(或参数\(\theta\))的充分统计量。也就是说,此时条件分布\(P_{\theta}(B|t)\)的表达式中不含有\(\theta\),此时充分统计量\(T\)的值\(t\)在压缩数据的同时,关于参数\(\theta\)的信息也没有损失。
例:设\(X_1,\dots,X_n\)是来自于Poisson分布\(P(\lambda)\)的一个样本,则统计量\(T=\sum_{i=1}^{n}X_i\)是参数\(\lambda\)的充分统计量。根据Poisson分布的可加性,\(T\sim P(n\lambda)\),即\(P(T=t)=\frac{(n\lambda)^t}{t!}e^{-n\lambda}\)。当\(T=t\)时,样本的条件分布为: \[ \begin{aligned} &P_\lambda (X_1=x_1,\dots,X_n=x_n|T=t) \\ =&\frac{P(X_1=x_1)\cdots P(X_{n-1}=x_{n-1}P(X_n=t-\sum_{i=1}^{n-1}x_i)}{P(T=t)} \\ =&\left[\prod_{i=1}^{n-1}\frac{\lambda^{x_i}}{x_i!}e^{-\lambda} \right]\frac{\lambda^{t-\sum_{i=1}^{n-1}x_i}}{(t-\sum_{i=1}^{n-1}x_i)!}e^{-\lambda}/\left(\frac{(n\lambda)^t}{t!}e^{-n\lambda}\right) \\ =&\frac{t!}{x_1!\cdots x_{n-1}!(t-\sum_{i=1}^{n-1}x_i)!}\cdot \frac{1}{n^t} \end{aligned} \] 这个条件分布是多项分布,在\(t\)给定之后就完全确定,与参数\(\lambda\)无关。因此根据充分统计量的定义,统计量\(T\)是充分统计量。
关于充分统计量,常用的一些性质如下:
次序统计量\((X_{(1)},\dots,X_{(n)})\)是分布族的充分统计量。
充分统计量的一对一变换仍然是充分统计量。(一对一变换没有损失信息)
因子分解定理:
统计量\(T\)是充分统计量的充要条件是存在可测函数\(h(x)\)和\(g_{\theta}(t)\),使得对于任意的\(\theta\in \Theta\)有\(p_{\theta}(x)=g_{\theta}(T(x))h(x)\)几乎处处成立。也就是说,在充分统计量存在的场合,样本的密度函数\(p_{\theta}(x)\)可以分解为两个因子的乘积,其中一个因子\(h(x)\)与\(\theta\)无关,仅仅是样本的函数,而另一个因子\(g_{\theta}(t)\)与样本和\(\theta\)都有关,但是与样本的关系可以通过充分统计量\(T(X)\)表现出来。而反之,如果样本的密度函数可以写成上述格式,则\(T(X)\)一定是这一概率分布的充分统计量。
例:对于来自正态分布\(N(\mu,\sigma^2)\)的样本\(X_1,\dots,X_n\),样本的联合密度函数为: \[ p(x_1,\dots,x_n)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp \left\{ -\frac{1}{2\sigma^2}\left(\sum_{i=1}^{n}x_i^2-2\mu\sum_{i=1}^{n}x_i+n\mu^2 \right) \right\} \] 根据因子分解定理,\((\sum_{i=1}^{n}X_i,\sum_{i=1}^{n}X_i^2)\)是\((\mu,\sigma^2)\)的充分统计量。
完备性
对于满足完备性的分布族,积分变换\(E(\phi(x))=\int \phi(x)dP_{\theta}\)是一个在几乎处处意义下一对一的变换(积分变换的唯一性),满足: \[ \phi_1(x)=\phi_2(x)~a.s. P_{\theta}\Leftrightarrow E_{\theta}\phi_1(x)= E_{\theta}\phi_2(x) \] 如果\(E_{\theta}\phi_1(x)= E_{\theta}\phi_2(x)\)成立,则必有\(\int [\phi_1(x)-\phi_2(x)]dP_{\theta}=0\)。但是只有分布族满足条件\(E_\theta(\phi(x))=0\Rightarrow \phi(x)=0\)时才能得到\(\phi_1(x)=\phi_2(x)\)的结论。满足这一条件的分布族具有完备性,它的正式定义如下:
设\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)是一个参数统计结构,假如对于\(\mathscr{B}\)可测函数\(\phi(x)\),由\(E(\phi(x))=\int \phi(x)dP_{\theta}=0,~\forall \theta\in \Theta\)总可以推出\(\phi(x)=0,~a.s.P_{\theta}\),则称这一统计结构是完备的,或者称分布族\(\mathscr{P}\)是完备的。
对于由统计量\(T\)诱导出的统计结构,如果这一统计结构是完备结构,那么则称\(T\)为完备统计量。
例:正态分布族\(\{N(\mu,1),\mu\in R\}\)是完备的(可看作是\(\phi(x)\)的双边拉普拉斯变换),而正态分布族\(\{N(0,\sigma^2),\sigma\in R^+\}\)不是完备的(因为这一概率分布是偶函数,只需要满足\(\phi(x)\)是奇函数则\(E(\phi(x))\)为0)。
从泛函的角度理解,如果将积分变换看成是内积计算,完备统计量则意味着统计量\(T\)的分布函数族所张成的空间具有完备性。从统计学意义上来说,完备统计量则意味着统计量中不包含无用于推断\(\theta\)的随机信息,这也是为什么用完备充分统计量可以计算得到唯一的UMVUE。
指数分布族
定义
如果一个概率密度函数可以写成 \[ p_\theta(x)=c(\theta)\exp\left\{\sum_{j=1}^kc_j(\theta)T_j(x)\right\}h(x) \] 且它的支撑\(\{x:p_\theta(x)>0\}\)不依赖于\(\theta\),则称此结构为指数型的统计结构,简称指数结构,其中的分布族成为指数族。
如果通过重新设置一组新参数\(w_1,\dots,w_k\),使得\(w_j=c_j(\theta)\),假如能够从中唯一地解出\(\theta=\theta(w_1,\dots,w_k)\)。再令\(c(\theta(\boldsymbol w))=c^*(\boldsymbol w)\),将其代回上式,则可以得到密度函数的另一种表达形式: \[ p_w(x)=c^*(\boldsymbol w)\exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) \] 这种形式也被称为指数族的标准形式。
参数\(\boldsymbol w\)使得积分 \[ 0 < \int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu(x) \le \infty \] 成立的空间称为自然参数空间,记为\(\Omega\)。
常见的分布例如高斯分布、二项分布、泊松分布、Beta分布、Gamma分布都属于指数分布族。
性质
自然参数空间\(\Omega\)为凸集
令\(\boldsymbol w=\alpha \boldsymbol w'+(1-\alpha)\boldsymbol w''\),有: \[ \begin{aligned} &\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu(x) \\ =& \int_{\mathscr{X}} \left[ \exp\left\{\sum_{j=1}^k w_j' T_j(x)\right\} \right]^\alpha \left[ \exp\left\{\sum_{j=1}^k w_j'' T_j(x)\right\} \right]^{1-\alpha} h(x) d\mu(x) \\ \le & \left[\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j' T_j(x)\right\} h(x) d\mu(x)\right]^\alpha \left[\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j'' T_j(x)\right\} h(x) d\mu(x)\right]^{1-\alpha} \\ <& \infty \end{aligned} \] 故有\(\boldsymbol w\in \Omega\),从而\(\Omega\)为凸集。
这也就是说,如果\(\Omega\)有内点,那么全部内点构成\(R^k\)上的一个凸区域,特别在\(k=1\)场合为一区间。
设\(X=(x_1,\dots,x_n)\)是来自于指数型分布标准形式的一个样本,从而有:
统计量 \[ \{T_1(X),\dots,T_k(X)\}=\left( \sum_{i=1}^n T_1(x_i),\dots, \sum_{i=1}^n T_k(x_i)\right) \] 是指数型分布族的充分统计量。这可以通过写出样本\(X\)的联合密度函数,然后根据因子分解定理得到。
充分统计量的期望和协方差分别为: \[ E_w(T_j(X))=-\frac{\partial \ln c(\boldsymbol w)}{\partial w_j} \\ \text{Cov}(T_i(X),T_j(X))=-\frac{\partial^2 \ln c(\boldsymbol w)}{\partial w_i \partial w_j} \] 其中\(c(\boldsymbol w)=[c^*(\boldsymbol w)]^n\)。
由于样本\(X\)的联合密度函数对控制测度\(d\mu\)在\(\mathscr{X}\)上的积分为1,即 \[ c(\boldsymbol w)\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu=1 \] 对上式两端求导可得: \[ \frac{\partial c(\boldsymbol w)}{\partial w_i} \int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(X)\right\}h(X) d\mu+c(\boldsymbol w)\int_{\mathscr{X}} T_i(X)\exp\left\{\sum_{j=1}^k w_j T_j(X)\right\}h(X) d\mu=0 \] 即 \[ \frac{\partial c(\boldsymbol w)}{\partial w_i} \cdot \frac{1}{c(\boldsymbol w)}+E[T_i(X)]=0 \] 上式两边再求导,可得: \[ \begin{aligned} &\frac{\partial}{\partial w_j}\left(\frac{\partial \ln c(\boldsymbol w)}{\partial w_i}\right)=\frac{\partial}{\partial w_j}(-E[T_i(X)]) \\ = & -\frac{\partial c(\boldsymbol w)}{\partial w_j}\cdot \frac{E[T_i(X)]}{c(\boldsymbol w)}-E[T_i(X)T_j(X)] \\ =& E[T_i(X)]\cdot E[T_j(X)]- E[T_i(X)T_j(X)]\\ \end{aligned} \] 从而上述两结论得证。
如果\(\Omega\)有内点,那么统计量\(\{T_1(X),\dots,T_k(X)\}\)也是完备统计量。
Fisher信息量
设统计结构\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)可控,\(\Theta\)是\(R^k\)的子集合,假如定义在\((\mathscr{X},\mathscr{B})\)上取值于\((R^k,\mathscr{B}_{R^k})\)的随机向量\(S_\theta(X)=(\frac{\partial \ln p_\theta(x)}{\partial \theta_1},\dots,\frac{\partial \ln p_\theta(x)}{\partial \theta_k})'\)满足:1. \(S_\theta(x)\)对一切\(\theta\in \Theta\)有定义;2. \(E_\theta S_\theta(X)=0,\forall \theta\in \Theta\);3. \(S_\theta(X)\)的模平方可积,即\(E_\theta ||S_\theta(X)||^2 < \infty\)。则\(S_\theta(X)\)的协方差矩阵 \[ I(\theta)=\text{Var}_\theta(S_\theta(X))=E_\theta[S_\theta(X)S'_\theta(X)] \] 称为该统计结构的Fisher信息矩阵,\(k=1\)时\(I(\theta)\)常被称为Fisher信息量。
C-R正则族的Fisher信息存在。一般来说,指数族为C-R正则族。此时,无偏估计具有C-R下界。
Fisher信息矩阵的第\((i,j)\)个元素也可以通过以下公式计算:\(I_{ij}=-E_{\theta}[\frac{\partial^2 \ln p_\theta(x)}{\partial \theta_i \partial \theta_j}]\)
例:计算正态分布族\(\{N(\mu,\sigma^2)\}\)的Fisher信息。
记\(\theta=(\mu,\sigma^2)\),则有 \[ \boldsymbol{S}_\theta(x)=(\frac{x-\mu}{\sigma^2},\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2}) \\ \boldsymbol{I}(\theta)=\text{Var}_{\theta}(\boldsymbol{S}_\theta(x))=E_{\theta}[\boldsymbol{S}'_\theta(x)\boldsymbol{S}_\theta(x)] \] 其中, \[ I_{11}=\text{Var}(\frac{x-\mu}{\sigma^2})=1/\sigma^2 \\ I_{12}=E[(\frac{x-\mu}{\sigma^2})(\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2})]=0 \\ I_{22}=\text{Var}(\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2})=1/2\sigma^4 \] (需要注意的是,这里在计算\(\boldsymbol{S}_\theta(x)\)的时候,要计算\(\sigma^2\)的偏导数而不是\(\sigma\)的偏导数)
或 \[ I_{11}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \mu^2}\}=\frac{1}{\sigma^2} \\ I_{12}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \mu\partial\sigma^2}\}=0 \\ I_{22}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \sigma^4}\}=\frac{1}{2\sigma^4} \]
如果是独立变量组成的随机向量,则它的Fisher信息等于各个元素的Fisher信息之和(其概率分布为各个独立变量的概率分布函数之积,在计算Fisher信息量的时候需要计算概率分布的对数值,此时变为相加),利用这一点可以简化计算。
而对于统计量,我们可以用其诱导统计结构的Fisher信息定义该统计量的Fisher信息。设\(T(X)\)为统计结构\((\mathscr{X},\mathscr{B},\{P_{\theta},\theta \in \Theta\})\)上的统计量,\((\mathscr{T},\mathscr{L},\{P_{\theta}^T,\theta\in \Theta\})\)是\(T(X)\)的诱导统计结构,如果统计结构\((\mathscr{T},\mathscr{L},\{P_{\theta}^T,\theta\in \Theta\})\)上的Fisher信息存在,则称其为统计量\(T(X)\)的Fisher信息,记为\(\boldsymbol{I}_T(\theta)\)。
设\(\{P_{\theta},\theta\in \Theta\}\)为C-R正则族,它的Fisher信息为\(\boldsymbol{I}(\theta)\),则有如下关系式成立: \[ \boldsymbol{I}_T(\theta) \le \boldsymbol{I}(\theta) \] 如果\(T(X)\)为充分统计量,此时有\(\boldsymbol{I}_T(\theta) =\boldsymbol{I}(\theta)\)。