统计结构

设\((\mathscr{X},\mathscr{B})\)为可测空间，\(\mathscr{P}\)为其上的一个概率分布族，则称三元组\((\mathscr{X},\mathscr{B},\mathscr{P})\)为统计结构，或称为统计模型。假如分布族\(\mathscr{P}\)仅依赖于某个参数（或者参数向量）\(\theta\)，即\(\mathscr{P}=\{P_\theta:\theta\in \Theta\}\)，其中\(\Theta\)为参数空间，则称此结构为参数（统计）结构，或成为参数模型；否则被称为非参数模型。

由简单统计结构可以派生出乘积结构。设\((\mathscr{X},\mathscr{B},\mathscr{P})\)和\((\mathscr{X}',\mathscr{B}',\mathscr{P}')\)为两个统计结构，则称\((\mathscr{X}\times \mathscr{X}',\mathscr{B}\otimes \mathscr{B}',\mathscr{P}\otimes \mathscr{P}')\)为二者的乘积结构，并记为\((\mathscr{X},\mathscr{B},\mathscr{P})\otimes (\mathscr{X}',\mathscr{B}',\mathscr{P}')\)，其中 \[ \mathscr{P}\otimes \mathscr{P}'=\{P\otimes P':P\in \mathscr{P},P'\in \mathscr{P}'\} \] 特别地，\(n\)个相同统计结构乘积结构被称为重复抽样结构，记为\((\mathscr{X},\mathscr{B},\mathscr{P})^n\)。

统计量

概念

设\((\mathscr{X},\mathscr{B},\mathscr{P})\)为统计结构，\(T=T(x)\)是从可测空间\((\mathscr{X},\mathscr{B})\)到\((\mathscr{T},\mathscr{C})\)的一个可测映照，如果这个映照\(T\)不依赖于分布族\(\mathscr{P}\)，则称\(T\)为此结构上的统计量。这里不依赖于分布族指的是，得知样本的观察值之后可以立刻计算出统计量的值，而不受总体分布未知的影响。例如样本均值、样本方差为重复抽样结构上的常用统计量（其结果只与样本有关），而\(\sum_{i=1}^n(X_i-E(X))^2\)因为总体均值\(E(X)\)未知故不是统计量。

对于分布族\(\mathscr{P}\)中的每一个分布\(P\)，都可以确定统计量\(T\)的一个分布，因而根据统计量\(T\)可以得到一个诱导结构\((\mathscr{T},\mathscr{C},\mathscr{P}^T)\)。例如\(\mathscr{P}\)为欧氏空间和分布族\(\mathscr{P}\)被Lebesgue测度所控的情况下，对于任意\(C\in \mathscr{C}\) \[ P(T(x)\in C)=\int_{\{x:T(C)\}} p(x)dx \] 即为统计量\(T(x)\)的分布。一般情况下，上式只有在很少的情况下可以被进一步简化。

来自正态总体的抽样分布

\(\chi^2\)分布（卡方分布）

设\(X_1,X_2,\dots,X_n\)独立同分布于标准正态分布\(N(0,1)\)，则\(\chi^2=X_1^2+X_2^2+\cdots+X_n^2\)的分布称为自由度为\(n\)的\(\chi^2\)分布，记为\(\chi^2\sim \chi^2(n)\)。由于卡方分布是Gamma分布的特例，因此可得其密度函数为： \[ p(x)=\frac{(1/2)^{n/2}}{\Gamma(n/2)}x^{n/2-1}e^{-x/2},~x>0 \] 如果\(x_1,x_2,\dots,x_n\)是来自于正态总体\(N(\mu,\sigma^2)\)的样本，其样本均值和样本方差分别为： \[ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i,~s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 \] 则有：

\(\bar{x}\)与\(s^2\)相互独立
\(\bar{x}\sim N(\mu,\sigma^2/n)\)
\(\frac{(n-1)s^2}{\sigma^2}\sim\chi^2(n-1)\)

证明过程的简单描述：

构造正交矩阵 \[ A= \begin{bmatrix} 1/\sqrt{2} & -1/\sqrt{2}& 0 & \cdots & 0 \\ 1/\sqrt{2\times 3} & 1/\sqrt{2\times3}& -2/\sqrt{2\times3} & \cdots & 0 \\ \vdots & \vdots & \vdots & \cdots & \vdots \\ 1/\sqrt{n(n-1)} & 1/\sqrt{n(n-1)} & 1/\sqrt{n(n-1)} & \cdots & -(n-1)/\sqrt{n(n-1)} \\ 1/\sqrt{n} & 1/\sqrt{n} & 1/\sqrt{n} & \cdots & 1/\sqrt{n} \end{bmatrix} \] 并做线性变换 \[ \boldsymbol{Z}=\boldsymbol{AX} \] 从\(\boldsymbol{Z}\)的概率分布函数中可知，\(Z_1,Z_2,\dots,Z_{n-1},Z_n-\sqrt{n}\mu\)相互独立，且都服从\(N(0,\sigma^2)\)。

此外，通过正交变换也可以计算得到\(\boldsymbol{Z}'\boldsymbol{Z}=\boldsymbol{X}'\boldsymbol{X}\)，且\(Z_n=\frac{1}{\sqrt{n}}\sum_{i=1}^{n}X_i\)，从而可以进一步完成证明。

当随机变量\(\chi^2\sim \chi^2(n)\)时，对于给定的\(\alpha(0<\alpha<1)\)，称满足概率等式\(P(\chi^2\le \chi^2_{1-\alpha}(n))=1-\alpha\)的\(\chi^2_{1-\alpha}(n)\)代表自由度为\(n\)的\(\chi^2\)分布的\(1-\alpha\)分位数，通常可从表中查到。

F分布

设随机变量\(X_1\sim \chi^2(m),X_2\sim\chi^2(n)\)，\(X_1,X_2\)互相独立，则称\(F=\frac{X_1/m}{X_2/n}\)的分布是自由度为\(m\)和\(n\)的\(F\)分布，记为\(F\sim F(m,n)\)。

当随机变量\(F\sim F(m,n)\)是，对给定的\(\alpha(0<\alpha<1)\)，称满足概率等式\(P(F\le F_{1-\alpha}(m,n))=1-\alpha\)的\(F_{1-\alpha}(m,n)\)代表自由度为\(m\)和\(n\)的\(F\)分布的\(1-\alpha\)分位数。

由\(F\)分布的构造易得，如果\(F\sim F(m,n)\)，则有\(1/F\sim F(n,m)\)。因此对给定的\(\alpha(0<\alpha<1)\)，有关系式\(F_\alpha(n,m)=1/F_\alpha(m,n)\)成立。

由来自正态总体样本的性质可推得，如果\(x_1,x_2,\dots,x_m\)是来自于正态总体\(N(\mu_1,\sigma_1^2)\)的样本，\(y_1,y_2,\dots,y_n\)是来自于正态总体\(N(\mu_2,\sigma_2^2)\)的样本，且这两个样本互相独立，记 \[ s_x^2=\frac{1}{m-1}\sum_{i=1}^m (x_i-\bar{x})^2,~~s_y^2=\frac{1}{n-1}\sum_{i=1}^n(y_i-\bar{y})^2 \] 则有： \[ F=\frac{s_x^2/\sigma_1^2}{s_y^2/\sigma_2^2}\sim F(m-1,n-1) \] 上述结论可以根据\(s_x^2,s_y^2\)与\(\chi^2\)分布的关系，以及\(F\)分布的定义推导而得。

\(t\)分布

设随机变量\(X_1\)与\(X_2\)独立，且\(X_1\sim N(0,1)\)，\(X_2\sim\chi^2(n)\)，则称\(t=\frac{X_1}{\sqrt{X_2/n}}\)的分布为自由度为\(n\)的\(t\)分布，记为\(t\sim t(n)\)。由此也可得\(t\)分布与\(F\)分布之间的关系为：\(t^2\sim F(1,n)\)。

\(t\)分布是一个关于纵轴对称的分布，与标准正态分布的函数图像类似，但是峰值低于标准正态分布，尾部的概率比标准正态分布大一些。当自由度较大（\(n\ge 30\)）时，\(t\)分布可以用标准正态分布近似。

来自正态分布的样本与\(t\)分布之间有如下的关系：

设\(x_1,x_2,\dots,x_n\)是来自于正态总体\(N(\mu,\sigma^2)\)的样本，其样本均值和样本方差分别为： \[ \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i,~s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar{x})^2 \] 则有： \[ \frac{\sqrt{n}(\bar{x}-\mu)}{s}\sim t(n-1) \] 在上式中，如果对分子和分母同除\(\sigma\)，则有\(\sqrt{n}(\bar{x}-\mu)/\sigma\sim N(0,1)\)，\(s^2/\sigma^2\sim \chi^2(n-1)\)，从而可得。

如果\(x_1,x_2,\dots,x_m\)是来自于正态总体\(N(\mu_1,\sigma_1^2)\)的样本，\(y_1,y_2,\dots,y_n\)是来自于正态总体\(N(\mu_2,\sigma_2^2)\)的样本，\(\sigma_1^2=\sigma_2^2=\sigma_2\)，且这两个样本互相独立，记 \[ s_w^2=\frac{\sum_{i=1}^m (x_i-\bar{x})^2+\sum_{i=1}^n(y_i-\bar{y})^2}{m+n-2} \] 则有： \[ \frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{s_w\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim t(m+n-2) \] 在上式中，根据正态分布的可加性，可得\(\frac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{\sigma\sqrt{\frac{1}{m}+\frac{1}{n}}}\sim N(0,1)\)，而\((m+n-2)s_w^2/\sigma^2\sim \chi^2(m+n-2)\)，故根据\(t\)分布的定义可得。

更一般地，有： \[ \frac{c(\bar{x}-\mu_1)+d(\bar{y}-\mu_2)}{s_w\sqrt{\frac{c^2}{m}+\frac{d^2}{n}}}\sim t(m+n-2) \] 当随机变量\(t\sim t(n)\)时，对给定的\(\alpha(0<\alpha<1)\)，称满足概率公式\(P(t\le t_{1-\alpha}(n))=1-\alpha\)的\(t_{1-\alpha}(n)\)是自由度为\(n\)的\(t\)分布的\(1-\alpha\)分位数。由于\(t\)分布的密度函数关于0对称，因此其分位数之间满足关系\(t_{1-\alpha}(n)=-t_{\alpha}(n)\)。

次序统计量及其分布

设\(X_1,\dots,X_n\)是来自某个总体的一个样本，该样本的第\(i\)个次序统计量记为\(X_{(i)}\)。它代表如下的样本函数，每当该样本得到一组观测值\(x_1,\dots,x_n\)时，将它们从小到大排列为： \[ x_{(1)}\le x_{(2)}\le \cdots \le x_{(n)} \] 其中第\(i\)个值\(x_{(i)}\)就是\(X_{(i)}\)的观测值。称\((X_{(1)},\dots,X_{(n)})\)为该样本的次序统计量。其中\(X_{(1)}\)被称作最小统计量，而\(X_{(n)}\)被称为最大统计量。

记\(X_{(k)}\)的值为\(x_{(k)}\)，总体的分布函数为\(F(x)\)，密度函数为\(p(x)\)，则\(X_{(k)}\)的密度函数为： \[ p(x_{(k)})=\frac{n!}{(k-1)!(n-k)!}[F(x_{(k)})]^{k-1}[1-F(x_{(k)})]^{n-k}p(x_{(k)}) \] 上式可以用概率元的办法推导而得，其含义相当于，\(X_{(k)}\)的值为\(x_{(k)}\)，且有\(k-1\)个观察值落在\(x_{(k)}\)的左侧，\(n-k\)个观察值落在\(x_{(k)}\)的右侧，这三个事件同时发生的概率。

如果要计算\(x_{(k)}\)和\(x_{(j)}\)，\(1\le k<j\le n\)的联合密度函数\(p(x_{(k)},x_{(j)})\)，仍然可以使用概率元的方法，得到其联合密度函数为： \[ p(x_{(k)},x_{(j)})=\frac{n!}{(k-1)!(j-1-k)!(n-j)!}[F(x_{(k)})]^{k-1}[F(x_{(j)})-F(x_{(k)})]^{j-1-k}[1-F(x_{(j)})]^{n-j}p(x_{(k)})p(x_{(j)}) \]

## 统计量的近似分布

在一些场合下，抽样分布可能不容易导出或者表达式较为复杂，因此有时候会根据中心极限定理寻求近似分布。设\(X_1,\dots,X_n\)是来自某个总体的一个样本，设该总体的均值为\(\mu\)，方差为\(\sigma^2\)，根据中心极限定理可知 \[ P(\frac{\sum_{i=1}^n X_i-n\mu}{\sqrt{n\sigma^2}}\le x)\rightarrow \Phi(x),~~n\rightarrow \infty \] 这也就是说，当样本容量较大时，即使总体不为正态分布，样本均值\(\bar{X}\)的分布函数也可以用正态分布\(N(\mu,\sigma^2/n)\)的分布函数来近似。

据此可以得到样本分位数的渐进分布。设\(X_1,\dots,X_n\)是来自密度函数为\(p(x)\)的总体的一个样本，对于给定的\(p\in(0,1)\)，\(p(x)\)在总体的\(p\)分位数\(\xi_p\)处连续且\(p(\xi_p)>0\)。定义\(k\)满足\(k=np+\omicron(\sqrt{n})\)，则对于样本的第\(k\)个次序统计量\(X_{(k)}\)，有 \[ \frac{\sqrt{n}(X_{(k)}-\xi_p)}{\sqrt{p(1-p)}/p(\xi_p)}\stackrel{L}\longrightarrow N(0,1) \]

充分统计量

设\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)是一个统计结构，又设\(T=T(X)\)是\((\mathscr{X},\mathscr{B})\)到\((\mathscr{T},\mathscr{C})\)的一个统计量，\(P^T_\theta\)是\(T\)的诱导分布，假如在\(P^T_\theta\)的零测集之外，\(T\)取任意一个值\(t\)时，样本\(X=(X_1,\dots,X_n)\)的条件分布都不依赖于\(\theta\)，即对任意的\(\theta\in \Theta\)和\(B\in \mathscr{B}\)，有\(P_{\theta}(B|t)=P(B|t),~a.s. P_\theta^T\)，则称\(T\)为该分布族（或参数\(\theta\)）的充分统计量。也就是说，此时条件分布\(P_{\theta}(B|t)\)的表达式中不含有\(\theta\)，此时充分统计量\(T\)的值\(t\)在压缩数据的同时，关于参数\(\theta\)的信息也没有损失。

例：设\(X_1,\dots,X_n\)是来自于Poisson分布\(P(\lambda)\)的一个样本，则统计量\(T=\sum_{i=1}^{n}X_i\)是参数\(\lambda\)的充分统计量。根据Poisson分布的可加性，\(T\sim P(n\lambda)\)，即\(P(T=t)=\frac{(n\lambda)^t}{t!}e^{-n\lambda}\)。当\(T=t\)时，样本的条件分布为： \[ \begin{aligned} &P_\lambda (X_1=x_1,\dots,X_n=x_n|T=t) \\ =&\frac{P(X_1=x_1)\cdots P(X_{n-1}=x_{n-1}P(X_n=t-\sum_{i=1}^{n-1}x_i)}{P(T=t)} \\ =&\left[\prod_{i=1}^{n-1}\frac{\lambda^{x_i}}{x_i!}e^{-\lambda} \right]\frac{\lambda^{t-\sum_{i=1}^{n-1}x_i}}{(t-\sum_{i=1}^{n-1}x_i)!}e^{-\lambda}/\left(\frac{(n\lambda)^t}{t!}e^{-n\lambda}\right) \\ =&\frac{t!}{x_1!\cdots x_{n-1}!(t-\sum_{i=1}^{n-1}x_i)!}\cdot \frac{1}{n^t} \end{aligned} \] 这个条件分布是多项分布，在\(t\)给定之后就完全确定，与参数\(\lambda\)无关。因此根据充分统计量的定义，统计量\(T\)是充分统计量。

关于充分统计量，常用的一些性质如下：

次序统计量\((X_{(1)},\dots,X_{(n)})\)是分布族的充分统计量。
充分统计量的一对一变换仍然是充分统计量。（一对一变换没有损失信息）
因子分解定理：

统计量\(T\)是充分统计量的充要条件是存在可测函数\(h(x)\)和\(g_{\theta}(t)\)，使得对于任意的\(\theta\in \Theta\)有\(p_{\theta}(x)=g_{\theta}(T(x))h(x)\)几乎处处成立。也就是说，在充分统计量存在的场合，样本的密度函数\(p_{\theta}(x)\)可以分解为两个因子的乘积，其中一个因子\(h(x)\)与\(\theta\)无关，仅仅是样本的函数，而另一个因子\(g_{\theta}(t)\)与样本和\(\theta\)都有关，但是与样本的关系可以通过充分统计量\(T(X)\)表现出来。而反之，如果样本的密度函数可以写成上述格式，则\(T(X)\)一定是这一概率分布的充分统计量。

例：对于来自正态分布\(N(\mu,\sigma^2)\)的样本\(X_1,\dots,X_n\)，样本的联合密度函数为： \[ p(x_1,\dots,x_n)=(2\pi\sigma^2)^{-\frac{n}{2}}\exp \left\{ -\frac{1}{2\sigma^2}\left(\sum_{i=1}^{n}x_i^2-2\mu\sum_{i=1}^{n}x_i+n\mu^2 \right) \right\} \] 根据因子分解定理，\((\sum_{i=1}^{n}X_i,\sum_{i=1}^{n}X_i^2)\)是\((\mu,\sigma^2)\)的充分统计量。

完备性

对于满足完备性的分布族，积分变换\(E(\phi(x))=\int \phi(x)dP_{\theta}\)是一个在几乎处处意义下一对一的变换（积分变换的唯一性），满足： \[ \phi_1(x)=\phi_2(x)~a.s. P_{\theta}\Leftrightarrow E_{\theta}\phi_1(x)= E_{\theta}\phi_2(x) \] 如果\(E_{\theta}\phi_1(x)= E_{\theta}\phi_2(x)\)成立，则必有\(\int [\phi_1(x)-\phi_2(x)]dP_{\theta}=0\)。但是只有分布族满足条件\(E_\theta(\phi(x))=0\Rightarrow \phi(x)=0\)时才能得到\(\phi_1(x)=\phi_2(x)\)的结论。满足这一条件的分布族具有完备性，它的正式定义如下：

设\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)是一个参数统计结构，假如对于\(\mathscr{B}\)可测函数\(\phi(x)\)，由\(E(\phi(x))=\int \phi(x)dP_{\theta}=0,~\forall \theta\in \Theta\)总可以推出\(\phi(x)=0,~a.s.P_{\theta}\)，则称这一统计结构是完备的，或者称分布族\(\mathscr{P}\)是完备的。

对于由统计量\(T\)诱导出的统计结构，如果这一统计结构是完备结构，那么则称\(T\)为完备统计量。

例：正态分布族\(\{N(\mu,1),\mu\in R\}\)是完备的（可看作是\(\phi(x)\)的双边拉普拉斯变换），而正态分布族\(\{N(0,\sigma^2),\sigma\in R^+\}\)不是完备的（因为这一概率分布是偶函数，只需要满足\(\phi(x)\)是奇函数则\(E(\phi(x))\)为0）。

从泛函的角度理解，如果将积分变换看成是内积计算，完备统计量则意味着统计量\(T\)的分布函数族所张成的空间具有完备性。从统计学意义上来说，完备统计量则意味着统计量中不包含无用于推断\(\theta\)的随机信息，这也是为什么用完备充分统计量可以计算得到唯一的UMVUE。

指数分布族

定义

如果一个概率密度函数可以写成 \[ p_\theta(x)=c(\theta)\exp\left\{\sum_{j=1}^kc_j(\theta)T_j(x)\right\}h(x) \] 且它的支撑\(\{x:p_\theta(x)>0\}\)不依赖于\(\theta\)，则称此结构为指数型的统计结构，简称指数结构，其中的分布族成为指数族。

如果通过重新设置一组新参数\(w_1,\dots,w_k\)，使得\(w_j=c_j(\theta)\)，假如能够从中唯一地解出\(\theta=\theta(w_1,\dots,w_k)\)。再令\(c(\theta(\boldsymbol w))=c^*(\boldsymbol w)\)，将其代回上式，则可以得到密度函数的另一种表达形式： \[ p_w(x)=c^*(\boldsymbol w)\exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) \] 这种形式也被称为指数族的标准形式。

参数\(\boldsymbol w\)使得积分 \[ 0 < \int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu(x) \le \infty \] 成立的空间称为自然参数空间，记为\(\Omega\)。

常见的分布例如高斯分布、二项分布、泊松分布、Beta分布、Gamma分布都属于指数分布族。

性质

自然参数空间\(\Omega\)为凸集

令\(\boldsymbol w=\alpha \boldsymbol w'+(1-\alpha)\boldsymbol w''\)，有： \[ \begin{aligned} &\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu(x) \\ =& \int_{\mathscr{X}} \left[ \exp\left\{\sum_{j=1}^k w_j' T_j(x)\right\} \right]^\alpha \left[ \exp\left\{\sum_{j=1}^k w_j'' T_j(x)\right\} \right]^{1-\alpha} h(x) d\mu(x) \\ \le & \left[\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j' T_j(x)\right\} h(x) d\mu(x)\right]^\alpha \left[\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j'' T_j(x)\right\} h(x) d\mu(x)\right]^{1-\alpha} \\ <& \infty \end{aligned} \] 故有\(\boldsymbol w\in \Omega\)，从而\(\Omega\)为凸集。

这也就是说，如果\(\Omega\)有内点，那么全部内点构成\(R^k\)上的一个凸区域，特别在\(k=1\)场合为一区间。
设\(X=(x_1,\dots,x_n)\)是来自于指数型分布标准形式的一个样本，从而有：
1. 统计量 \[ \{T_1(X),\dots,T_k(X)\}=\left( \sum_{i=1}^n T_1(x_i),\dots, \sum_{i=1}^n T_k(x_i)\right) \] 是指数型分布族的充分统计量。这可以通过写出样本\(X\)的联合密度函数，然后根据因子分解定理得到。
2. 充分统计量的期望和协方差分别为： \[ E_w(T_j(X))=-\frac{\partial \ln c(\boldsymbol w)}{\partial w_j} \\ \text{Cov}(T_i(X),T_j(X))=-\frac{\partial^2 \ln c(\boldsymbol w)}{\partial w_i \partial w_j} \] 其中\(c(\boldsymbol w)=[c^*(\boldsymbol w)]^n\)。
  
  由于样本\(X\)的联合密度函数对控制测度\(d\mu\)在\(\mathscr{X}\)上的积分为1，即 \[ c(\boldsymbol w)\int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(x)\right\}h(x) d\mu=1 \] 对上式两端求导可得： \[ \frac{\partial c(\boldsymbol w)}{\partial w_i} \int_{\mathscr{X}} \exp\left\{\sum_{j=1}^k w_j T_j(X)\right\}h(X) d\mu+c(\boldsymbol w)\int_{\mathscr{X}} T_i(X)\exp\left\{\sum_{j=1}^k w_j T_j(X)\right\}h(X) d\mu=0 \] 即 \[ \frac{\partial c(\boldsymbol w)}{\partial w_i} \cdot \frac{1}{c(\boldsymbol w)}+E[T_i(X)]=0 \] 上式两边再求导，可得： \[ \begin{aligned} &\frac{\partial}{\partial w_j}\left(\frac{\partial \ln c(\boldsymbol w)}{\partial w_i}\right)=\frac{\partial}{\partial w_j}(-E[T_i(X)]) \\ = & -\frac{\partial c(\boldsymbol w)}{\partial w_j}\cdot \frac{E[T_i(X)]}{c(\boldsymbol w)}-E[T_i(X)T_j(X)] \\ =& E[T_i(X)]\cdot E[T_j(X)]- E[T_i(X)T_j(X)]\\ \end{aligned} \] 从而上述两结论得证。
3. 如果\(\Omega\)有内点，那么统计量\(\{T_1(X),\dots,T_k(X)\}\)也是完备统计量。

Fisher信息量

设统计结构\((\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})\)可控，\(\Theta\)是\(R^k\)的子集合，假如定义在\((\mathscr{X},\mathscr{B})\)上取值于\((R^k,\mathscr{B}_{R^k})\)的随机向量\(S_\theta(X)=(\frac{\partial \ln p_\theta(x)}{\partial \theta_1},\dots,\frac{\partial \ln p_\theta(x)}{\partial \theta_k})'\)满足：1. \(S_\theta(x)\)对一切\(\theta\in \Theta\)有定义；2. \(E_\theta S_\theta(X)=0,\forall \theta\in \Theta\)；3. \(S_\theta(X)\)的模平方可积，即\(E_\theta ||S_\theta(X)||^2 < \infty\)。则\(S_\theta(X)\)的协方差矩阵 \[ I(\theta)=\text{Var}_\theta(S_\theta(X))=E_\theta[S_\theta(X)S'_\theta(X)] \] 称为该统计结构的Fisher信息矩阵，\(k=1\)时\(I(\theta)\)常被称为Fisher信息量。

C-R正则族的Fisher信息存在。一般来说，指数族为C-R正则族。此时，无偏估计具有C-R下界。

Fisher信息矩阵的第\((i,j)\)个元素也可以通过以下公式计算：\(I_{ij}=-E_{\theta}[\frac{\partial^2 \ln p_\theta(x)}{\partial \theta_i \partial \theta_j}]\)

例：计算正态分布族\(\{N(\mu,\sigma^2)\}\)的Fisher信息。

记\(\theta=(\mu,\sigma^2)\)，则有 \[ \boldsymbol{S}_\theta(x)=(\frac{x-\mu}{\sigma^2},\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2}) \\ \boldsymbol{I}(\theta)=\text{Var}_{\theta}(\boldsymbol{S}_\theta(x))=E_{\theta}[\boldsymbol{S}'_\theta(x)\boldsymbol{S}_\theta(x)] \] 其中， \[ I_{11}=\text{Var}(\frac{x-\mu}{\sigma^2})=1/\sigma^2 \\ I_{12}=E[(\frac{x-\mu}{\sigma^2})(\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2})]=0 \\ I_{22}=\text{Var}(\frac{(x-\mu)^2}{2\sigma^4}-\frac{1}{2\sigma^2})=1/2\sigma^4 \] （需要注意的是，这里在计算\(\boldsymbol{S}_\theta(x)\)的时候，要计算\(\sigma^2\)的偏导数而不是\(\sigma\)的偏导数）

或 \[ I_{11}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \mu^2}\}=\frac{1}{\sigma^2} \\ I_{12}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \mu\partial\sigma^2}\}=0 \\ I_{22}=-E_{\theta}\{\frac{\partial^2 \ln p_{\theta}(x)}{\partial \sigma^4}\}=\frac{1}{2\sigma^4} \]

如果是独立变量组成的随机向量，则它的Fisher信息等于各个元素的Fisher信息之和（其概率分布为各个独立变量的概率分布函数之积，在计算Fisher信息量的时候需要计算概率分布的对数值，此时变为相加），利用这一点可以简化计算。

而对于统计量，我们可以用其诱导统计结构的Fisher信息定义该统计量的Fisher信息。设\(T(X)\)为统计结构\((\mathscr{X},\mathscr{B},\{P_{\theta},\theta \in \Theta\})\)上的统计量，\((\mathscr{T},\mathscr{L},\{P_{\theta}^T,\theta\in \Theta\})\)是\(T(X)\)的诱导统计结构，如果统计结构\((\mathscr{T},\mathscr{L},\{P_{\theta}^T,\theta\in \Theta\})\)上的Fisher信息存在，则称其为统计量\(T(X)\)的Fisher信息，记为\(\boldsymbol{I}_T(\theta)\)。

设\(\{P_{\theta},\theta\in \Theta\}\)为C-R正则族，它的Fisher信息为\(\boldsymbol{I}(\theta)\)，则有如下关系式成立： \[ \boldsymbol{I}_T(\theta) \le \boldsymbol{I}(\theta) \] 如果\(T(X)\)为充分统计量，此时有\(\boldsymbol{I}_T(\theta) =\boldsymbol{I}(\theta)\)。

Yufei Luo's Blog

数理统计-基础概念