定义

定义在统计结构分布族$\mathscr{P}=\{P_{\theta},\theta\in\Theta\}$上的一个实值泛函$g(P)$称为参数，而统计结构$(\mathscr{X},\mathscr{B},\mathscr{P})$上的用来估计$g(P)$的实值统计量称为$g(P)$的点估计量，简称估计。为简单起见，常用$\theta$表示参数，以$\hat{\theta}=\hat{\theta}(X)$表示其点估计。

一般来说，任何定义在$\Theta$上的实值函数都可以称为参数，例如均值、方差等特征数。

估计的优良性

均方误差

为了排除样本随机性的影响，最常用的评价估计的标准是均方误差： \[ \text{MSE}=E(\hat{\theta}(X)-\theta)^2 \] 自然我们希望MSE越小越好，但是使得均方误差一致达到最小的最优估计是不存在的（可以用反证法证明，假设存在，那么对于任意的$\theta_0\in \Theta$应取$\hat{\theta}(X)=\theta_0$。但是由于$\theta_0$具有任意性，因此无法找到这样的最优估计）。因此通常先对估计提出一些合理要求，然后在满足合理要求的范围内选取好的估计。

无偏性

由于 \[ \begin{aligned} \text{MSE}=&E(\hat{\theta}(X)-\theta)^2 \\ =&E(\hat{\theta}(X)^2-2\hat{\theta}(X)\theta+\theta^2) \\ =&E(\hat{\theta}(X)^2)-2E(\hat{\theta}(X))E(\theta)+E(\theta^2) \\ =&E(\hat{\theta}(X)^2)-E(\hat{\theta}(X))^2+E(\hat{\theta}(X))^2-2E(\hat{\theta}(X))\theta+\theta^2\\ =&\text{Var}(\hat{\theta}(X))+(E(\hat{\theta}(X))-\theta)^2 \end{aligned} \] 也就是说MSE可以分解为$\hat{\theta}(X)$的偏差和方差之和。如果偏差$E(\hat{\theta}(X))-\theta$等于0，就是所谓的无偏估计。

无偏估计的正式定义如下：

设$(\mathscr{X},\mathscr{B},\mathscr{P}=\{P_{\theta},\theta\in\Theta\})$为可控参数统计结构，$g(\theta)$是未知数，$X=(X_1,\dots,X_n)$为来自该统计结构的一个样本，如果用$\hat{g}(X)$估计$g(\theta)$，且$E_{\theta}(\hat{g}(X))=g(\theta)$，则称$\hat{g}(X)$为$g(\theta)$的无偏估计。

无偏估计体现了一种频率思想，只有在大量重复使用时，无偏性才有意义。例如某一工厂每天对其生产的样品进行抽检，如果假定其生产过程相对稳定，则估计的无偏性要求便是合理的。

例：设$X_1,\dots,X_n$是来自于$N(\mu,\sigma^2)$的一个样本，$\mu$和$\sigma$都是未知参数。其常用的估计分别是样本均值$\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$和样本方差$s^2_n=\frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2$。由于$E(\bar{X})=\mu$，而$ns^2_n/\sigma\sim\chi_{n-1}^2$，$E(s_n^2)=\frac{n-1}{n}\sigma^2$，因此$\bar{X}$为$\mu$的无偏估计，而$s_2^n$不是$\sigma^2$的无偏估计。但是如果将$s_n^2$修正为$s^2=\frac{n}{n-1}s_n^2$，则可以得到$\sigma^2$的无偏估计。

当样本容量较大时，$s_n^2$和$s^2$将会很接近，此时称$s_n^2$为$\sigma^2$的渐进无偏估计。

设$\hat{g}_n=\hat{g}_n(X_1,\dots,X_n)$是$g(\theta)$的估计量，如果 \[ \lim_{n\rightarrow \infty}E_\theta(\hat{g}_n)=g(\theta),~~\forall\theta\in\Theta \] 则称$\hat{g}_n$为$g(\theta)$的渐进无偏估计。

相合性

估计量是与样本容量有关的，假设用$\hat{\theta}_n=\hat{\theta}_n(X_1,\dots,X_n)$估计$\theta$，不可能做到对某一个$n$，$\text{MSE}(\hat{\theta_n})$对所有的$\theta\in \Theta$任意小，但是当$n\rightarrow \infty$时往往可以做到这一点，这对应于相合性的概念。需要注意的是，相合性只是指出了当$n\rightarrow\infty$时估计量的性质，但是对于任意有限的$n$，相合性是没有意义的。而且相合估计可以不止一个。

设$\hat{\theta}_n=\hat{\theta}_n(X_1,\dots,X_n)$是$\theta$的估计量，如果当$n\rightarrow\infty$时有$\hat{\theta}_n\stackrel{P}\longrightarrow \theta$，则称$\hat{\theta}_n$是$\theta$的弱相合估计。进一步，如果$\hat{\theta}_n\longrightarrow \theta,a.s.$，则称$\hat{\theta}_n$是$\theta$的强相合估计。在统计研究中，一般弱相合性就已经足够。

相合性被认为是对估计的一个最基本要求，如果无论有多少观测值都无法把要估计的参数估计到任意指定的精度，那么这个估计是很值得怀疑的。

要证明相合性，需要使用描述极限的$\epsilon$语言，通常使用大数定律或者是依概率分布的定义来构造。

例：设$X_1,\dots,X_n$是来自于$U(0,\theta)$的一个样本，最大次序统计量$X_{(n)}$是$\theta$的常用估计。由于$X_{(n)}$的密度函数为$p(t,\theta)=nt^{n-1}\theta^{-n},0<t<\theta$，可求得$E(X_{(n)})=n\theta/(n+1)$。因此$X_{(n)}$只是$\theta$的渐进无偏估计而不是无偏估计。此外，对于任意的$\epsilon>0$， \[ \begin{aligned} P_{\theta}(|X_{(n)}-\theta|\ge \epsilon)=&P_{\theta}(X_{(n)}\le \theta-\epsilon) \\ =&\int_{0}^{\theta-\epsilon} nt^{n-1}\theta^{-n} dt \\ =&\left(\frac{\theta-\epsilon}{\theta}\right)^n \rightarrow 0 (n\rightarrow \infty) \end{aligned} \] 因此$X_{(n)}$是$\theta$的相合估计。

对于相合估计有如下性质，可以方便计算：

设$T_{jn}=T_{jn}(X_1,\dots,X_n)$是$g_j(\theta)$的相合估计，$j=1,\dots,k$。函数$h(\cdot)$在$(g_1(\theta),\dots,g_k(\theta))$处连续，则$h(T_{1n},\dots,T_{kn})$是$h(g_1(\theta),\dots,g_k(\theta))$的相合估计。

例：设$X_1,\dots,X_n$是来自于密度函数为 \[ p(x;\theta)=\theta(\theta+1)x^{\theta-1}(1-x),0<x<1,\theta>0 \] 的一个样本，由于$E(X_1)=\theta/(\theta+2)$，为了方便将其记为$\eta$。

由强大数定律，有：$\bar{X}\rightarrow \eta,~a.s.$，而$\theta=2\eta/(1-\eta)$是$\eta$的连续函数，因此根据上述定理可直接计算得到$2\bar{X}/(1-\bar{X})$是$\theta$的相合估计。

渐进正态性

设$\hat{\theta}_n=\hat{\theta}_n(X_1,\dots,X_n)$是$\theta$的估计量，如果存在$\sigma_n^2(n)$满足 \[ (\hat{\theta}_n-\theta)/\sigma_n(\theta)\stackrel{L}\longrightarrow N(0,1) \] 则称$\hat{\theta}_n$是$\theta$的渐进正态估计，$\sigma_n^2(n)$称为$\hat{\theta}_n$的渐进方差，记作$\hat{\theta}_n\sim AN(\theta,\sigma_n^2(n))$。根据中心极限定律，一般$\sigma_n^2(n)$可以取为$\hat{\theta_n}$的方差。

渐进正态性只是反映了当$n\rightarrow \infty$时估计的性质，无法说明达到所需要的精度所需的样本容量。

此外，$g(\theta)$的渐进正态估计可以有很多，它们之间的优劣可以使用相对渐进效来对比，即两个不同估计$\sigma_n^2(n)$的比值。

有效性

信息不等式：设$\{P_{\theta},\theta\in\Theta\}$是C-R正则族，$\Theta\in R^k$，其Fisher信息$I(\theta)$为非奇矩阵。并设$\boldsymbol{g}(\theta)=(g_1(\theta),\dots,g_s(\theta))',s\le k$，且$\partial g_i(\theta)/\partial\theta_j$都存在。假设$\boldsymbol{T}(X)$是$\boldsymbol{g}(\theta)$的模平方可积的无偏估计，记$\Delta=E(TS'_\theta)=\frac{d}{d\theta}g(\theta)$，则有： \[ \text{Var}_\theta(\boldsymbol{T}(X))\ge \Delta I^{-1}(\theta)\Delta' \] 其中$\Delta I^{-1}(\theta)\Delta'$称为$g(\theta)$的无偏估计协差阵的下界，或者称为$\boldsymbol{g}(\theta)$的无偏估计的C-R下界。在一维的情况下，不等式简化为：$\text{Var}_{\theta}(T(X))\ge (g'(\theta))^2 I^{-1}(\theta)$。

如果某个无偏估计的方差可以达到这个下界，那么它也自然就是UMVUE。

估计的效：设$\{P_{\theta},\theta\in\Theta\}$是C-R正则族，$g(\theta)$是可估参数，$T(X)$是$g(\theta)$的一个无偏估计，则称 \[ (g'(\theta))^2 I^{-1}(\theta)/\text{Var}_{\theta}(T(X)) \] 为估计$T(X)$的效，如果效等于1，则称$T(X)$是$g(\theta)$的有效无偏估计。

无偏估计

无偏性是统计问题中应用很广的一个准则，对于无偏估计，需要注意以下三点：

无偏估计不一定存在。在统计中，一般将存在无偏估计的参数函数称为可估参数。
对于可估参数，无偏估计一般不唯一。
无偏估计不一定是好估计

一致最小方差无偏估计

设$g(\theta)$为可估参数，如果$T(X)$是$g(\theta)$的无偏估计，且对于所有无偏估计中的任意一个估计$\varphi(X)$，都有 \[ \text{Var}_{\theta}(T(X)) \le \text{Var}_{\theta}(\varphi(X)),~~\forall\theta\in \Theta \] 成立，则称$T(X)$为$g(\theta)$的一致最小方差无偏估计（Uniformly Minimum Variance Unbiased Estimate，UMVUE）。

根据如下引理，在构造UMVUE时，通常需要使用到充分统计量，它可以降低无偏估计的方差：

设$S(X)$是分布族$\{p_{\theta},\theta\in \Theta\}$的充分统计量，$\varphi(X)$是$g(\theta)$的无偏估计，令$T(X)=E(\varphi(X)|S(X))$，则$T(X)$也是$g(\theta)$的无偏估计，且$\text{Var}(T(X)) \le \text{Var}(\varphi(X))$。

这一引理的证明如下：

因为$S(X)$为充分统计量，故$T(X)$与$\theta$无关，它也是统计量。

根据重期望公式，$E(T(X))=E[E(\varphi(X)|S(X))]=E(\varphi(X))=g(\theta)$。

而$\text{Var}(\varphi(X))=E(\varphi(X)-g(\theta))^2=E(\varphi(X)-T(X))^2+E(T(X)-g(\theta))^2\ge \text{Var}(T(X))$

上式中的交叉乘积项 \[ \begin{aligned} &E[(\varphi(X)-T(X))(T(X)-g(\theta))] \\ =&E\{E[(\varphi(X)-T(X))(T(X)-g(\theta))|S(X)]\} \\ =&E\{[T(X)-g(\theta)]E[(\varphi(X)-T(X))|S(X)]\} \text{（因T(X))是$S(X)$的函数，故在条件期望的情况下可以做常数处理）}\\ =&0 \text{（$E[(\varphi(X)-T(X))|S(X)]=0$）} \end{aligned} \]

由上述引理，可以得到如下的定理：设$S(X)$为分布族$\{p_{\theta},\theta\in \Theta\}$的完备充分统计量，$g(\theta)$是可估参数，则$g(\theta)$的UMVUE存在，它是$S(X)$的函数而且在几乎处处意义下是唯一的。证明过程如下：

在所有的无偏估计中任取一个$\varphi(X)$，令$T(X)=E(\varphi(X)|S(X))$，根据上述引理，$T(X)$是$S(X)$的函数，且是UMVUE。

在无偏估计中可以在另外任取一个$\hat{g}(X)$，令$T^*(X)=E(\hat{g}(X)|S(X))$，它也是$S(X)$的函数，并且有$E(T(X)-T^*(X))=0$成立。即$\int_{-\infty}^{\infty} (T(X)-T^*(X))p(s)ds=0$。

根据$S(X)$的完备性，可得$T^*(X)=T(X)$。这也就是说，从任意无偏估计出发，均可以得到一个相同的$T(X)$，它是完备充分统计量$S(X)$的函数，是$g(\theta)$几乎处处唯一的UMVUE。

因此，UMVUE的求法有两种：

寻找完备充分统计量的函数使之称为$g(\theta)$的无偏估计。通常可以通过计算完备充分统计量的期望、方差等的含有参数$\theta$的表达式，来反推出$g(\theta)$。

例：设$X_1,\dots,X_n$是来自$b(1,\theta),0<\theta<1$的一个样本，由指数型分布族的性质可知，$S(X)=\sum X_i$是完备充分统计量。

对于$\theta$，由于$E(S(X))=n\theta$，因此$\bar{X}=\frac{1}{n}S(X)$是$\theta$的UMVUE。
任取$g(\theta)$的一个无偏估计，然后对完备充分统计量求条件期望。由于无偏估计可以任取，因此简便起见，通常是将无偏估计构造成指示函数的形式。
例：接上面的例子，对于$g(\theta)=\theta^k+(1-\theta)^{n-k}$，如果要直接找一个$S(X)$的函数$h(S(X))$使之成为$g(\theta)$的无偏估计是很困难的。因此考虑先使用指示函数构造一个无偏估计，令： \[ \begin{aligned} &\varphi_1(X)=\begin{cases} 1, ~~\sum_{i=1}^{k}X_i=k \\ 0, ~~~\text{else} \end{cases} \\ &\varphi_2(X)=\begin{cases} 1,~~\sum_{i=k+1}^{n}X_i=0 \\ 0,~~~\text{else} \end{cases} \end{aligned} \] 令$\varphi(X)=\varphi_1(X)+\varphi_2(X)$，则$\varphi(X)$是$g(\theta)$的无偏估计。因此，可以通过计算$E(\varphi(X)|S(X))$来得到UMVUE。记$S(X)=s$，此时要分三种情况讨论：
1. $s<k$，此时$\varphi_1(X)=0$一定成立，因此有： \[ \begin{aligned} E(\varphi(X)|S(X)=s)=&E(\varphi_2(X)|S(X)=s)\\ =&P(\varphi_2(X)=1|S(X)=s) \\ =&\frac{P(\sum_{i=k+1}^{n}X_i=0,S(X)=s)}{P(S(X)=s)} \\ =&\frac{(1-\theta)^{n-k}\binom{k}{s}\theta^s (1-\theta)^{k-s}}{\binom{n}{s}\theta^s (1-\theta)^{n-s}} \\ =&\frac{(1-\theta)^{n-k}\binom{k}{s}\theta^s (1-\theta)^{k-s}}{\binom{n}{s}\theta^s (1-\theta)^{n-s}} \\ =&\frac{\binom{k}{s}}{\binom{n}{s}} \end{aligned} \]
2. $s>k$，此时$\varphi_2(X)=0$一定成立，此时有： \[ \begin{aligned} E(\varphi(X)|S(X)=s)=&E(\varphi_1(X)|S(X)=s)\\ =&P(\varphi_1(X)=1|S(X)=s) \\ =&\frac{P(\sum_{i=0}^{k}X_i=1,S(X)=s)}{P(S(X)=s)} \\ =&\frac{(\theta)^{k}\binom{n-k}{s-k}\theta^{s-k} (1-\theta)^{n-s}}{\binom{n}{s}\theta^s (1-\theta)^{n-s}} \\ =&\frac{\binom{n-k}{s-k}}{\binom{n}{s}} \end{aligned} \]
3. $s=k$，此时有： \[ \begin{aligned} E(\varphi(X)|S(X)=s) =&P(\varphi_1(X)=1|S(X)=s)+P(\varphi_2(X)=1|S(X)=s) \\ =&\frac{P(\sum_{i=0}^{k}X_i=1,S(X)=s)}{P(S(X)=s)}+\frac{P(\sum_{i=k+1}^{n}X_i=0,S(X)=s)}{P(S(X)=s)} \\ =&\frac{(\theta)^{s}(1-\theta)^{n-s}}{\binom{n}{s}\theta^s (1-\theta)^{n-s}}+\frac{(\theta)^{s}(1-\theta)^{n-s}}{\binom{n}{s}\theta^s (1-\theta)^{n-s}} \\ =&\frac{2}{\binom{n}{s}} \end{aligned} \]
综上，记$T(X)$为$\varphi(X)$的UMVUE，可得： \[ T(X)=\begin{cases} \frac{\binom{k}{s}}{\binom{n}{s}}, ~s<k\\ \frac{2}{\binom{n}{s}},~k=s\\ \frac{\binom{n-k}{s-k}}{\binom{n}{s}},~s>k\\ \end{cases} \]
例2：某厂生产的产品其废品率为$\theta$，现将该产品包装成盒，每盒抽$n$个产品进行检验（设盒中产品数远大于$n$），得到废品数$X$，可以认为$X\sim b(n,\theta)$。当$X\le2$时接收该盒产品，其它情况拒收。通过概率 \[ g(\theta)=(1-\theta)^n+n(1-\theta)^{n-1}\theta+\frac{n(n-1)}{2}(1-\theta)^{n-2}\theta^2 \] 厂方自然很关心$g(\theta)$的估计。

假设抽了$r$盒产品进行检验，第$i$盒的废品数记为$X_i$，$X_i\sim b(n,\theta)$。则$S(X)=\sum_{i=1}^r X_r$为完备充分统计量，且$S(X)\sim b(rn,\theta)$。

令 \[ \varphi(X)=\begin{cases} 1,~X_1\le 2(\text{第一盒被接收}) \\ 0,~\text{其它} \end{cases} \] 则$E(\varphi(X))=g(\theta)$为$g(\theta)$的无偏估计量。下面计算$E(\varphi(X)|S(X))$的值。为了叙述方便，记$B_0$，$B_1$，$B_2$分别对应于事件第1盒样品中的废品数为0，1，2，这三个事件不相容，因此有： \[ \begin{aligned} E(\varphi(X)|S(X)=s)=&P(B_0|S(X)=s)+P(B_1|S(X)=s)+P(B_2|S(X)=s) \\ =&\frac{P(B_0,S(X)=s)+P(B_1,S(X)=s)+P(B_2,S(X)=s)}{P(S(X)=s)} \\ =&\frac{\binom{rn-n}{s}+n\binom{rn-n}{s-1}+(n-1)n/2\binom{rn-n}{s-2}}{\binom{rn}{s}} \end{aligned} \] 上式即为$g(\theta)$的UMVUE。

估计方法

矩估计

定义

矩估计指的是用样本矩及其相应的函数估计相应的总体矩及其函数。具体表述如下：

设$X_1,\dots,X_n$是来自于某总体的一个样本，以$\mu_r$表示总体的$r$阶原点矩，$m_r$表示从样本$X_1,\dots,X_n$得到的$r$阶样本原点矩，即$\mu_r=EX_1^r$，$m_r=\frac{1}{n}\sum X_i^r$。如果某个参数$\theta$可以表示为总体前$k$阶矩的函数，即$\theta=g(\mu_1,\dots,\mu_k)$，则我们可以用$\hat{\theta}(X)=g(m_1,\dots,m_k)$去估计$\theta$，$\hat{\theta}(X)$即称为$\theta$的矩估计。

需要注意的是，矩估计不唯一。例如来自泊松分布$P(\lambda)$的样本$X_1,\dots,X_n$，由于$EX_1=\lambda$，$\text{Var}(X_1)=\lambda$，因此样本均值和样本方差都可以作为$\lambda$的矩估计。在矩估计不唯一时，通常根据如下两个原则来选择矩估计：1. 涉及到矩的阶数尽可能小，常用的矩估计通常只涉及一二阶矩；2. 所用的估计最好是充分统计量的函数。

特点与性质

矩估计的特点为：

矩估计基于经验分布函数，而经验分布函数逼近真实分布函数的前提条件是样本容量较大。因此矩估计是以大样本为应用对象的。
矩估计没有使用到总体分布的任何信息，本质上讲它是一种非参数方法。

对于矩估计，有如下两个大样本性质：

相合性：设$X_1,\dots,X_n$为独立同分布变量序列，$E|X_1|^k<\infty$，$\boldsymbol{\theta}=\boldsymbol{g}(\mu_1,\dots,\mu_k)$，并且设$\boldsymbol{g}$是连续的，则矩估计$\hat{\boldsymbol{\theta}}=\boldsymbol{g}(m_1,\dots,m_k)$是$\boldsymbol{\theta}$的相合估计。

渐近正态性：设$X_1,\dots,X_n$为独立同分布变量序列，$E|X_1|^{2k}<\infty$，记$\boldsymbol{\theta}=(\theta_1,\dots,\theta_s)'$，其中$\theta_i=g_i(\mu_1,\dots,\mu_k)$，并且设$\theta_i$对$\mu_j$有连续偏导数。记$\boldsymbol{G}=(\partial g_i/\partial \mu_j)_{s\times k}$，则对$\boldsymbol{\theta}$的矩估计$\hat{\boldsymbol{\theta}}=(g_1(m_1,\dots,m_k),\dots,g_s(m_1,\dots,m_k))$，有： \[ \sqrt{n}(\hat{\boldsymbol{\theta}}-\boldsymbol{\theta})\stackrel{L}\longrightarrow N_s(0,\boldsymbol{G}\boldsymbol{\Sigma}\boldsymbol{G}') \] 其中$\boldsymbol{\Sigma}$是$k\times k$阶矩阵，其$(i,j)$元素为$\mu_{i+j}-\mu_i \mu_j$。

极大似然估计

定义

设$p(x;\theta)$，$\theta \in \Theta$是$(R^n,\mathscr{B}_{R^n})$上的一族联合概率密度函数，对于给定的$x$，称$L(\theta;x)=p(x;\theta)$为$\theta$的似然函数。进一步，如果存在$(R^n,\mathscr{B}_{R^n})$到$(\Theta,\mathscr{B}_{\Theta})$的统计量$\hat{\theta}(x)$使得 \[ L(\hat{\theta}(x);x)=\sup_{\theta} L(\theta;x) \] 则$\hat{\theta}(x)$称为$\theta$的一个极大似然估计（Maximum Likelihood Estimate，MLE）。

由于概率密度大多具有指数函数形式，因此通常使用似然函数的对数。由于对数变换严格单调增，因此求极大值时等价。寻找MLE的常用办法是求导数。

性质

不变性：如果$\hat{\theta}$是$\theta$的MLE，$g(\cdot)$是可测函数，则$\hat{g}(\theta)$也是$g(\theta)$的MLE。

相合性：如果$\ln p(x;\theta)$在$\Theta$上可微，并设$p(x;\theta)$是可识别的（$\forall \theta \ne \theta'$，$\{x:p(x;\theta)\ne p(x;\theta')\}$不是零测集），则似然方程在$n\rightarrow \infty$时以概率1有解，且此解关于$\theta$是相合的。

渐近正态性：假设$\Theta$为开区间，概率密度函数$p(x;\theta),\theta\in \Theta$满足：1. 在参数真值$\theta_0$的邻域内，$\partial \ln p/\partial \theta$，$\partial^2 \ln p/\partial \theta^2$，$\partial^3 \ln p/\partial \theta^3$对所有的$x$都存在；2.在参数真值$\theta_0$的邻域内， $|\partial^3 \ln p/\partial \theta^3|\le H(x)$，且$E(H(x))<\infty$；3. 在参数真值$\theta_0$处，$E_{\theta_0}[\frac{p'(X,\theta_0)}{p(X,\theta_0)}]=0$，$E_{\theta_0}[\frac{p''(X,\theta_0)}{p(X,\theta_0)}]=0$，$I(\theta_0)=E_{\theta_0}[\frac{p'(X,\theta_0)}{p(X,\theta_0)}]^2>0\text{(Fisher信息量)}$。记$\hat{\theta}_n$为$n\rightarrow \infty$时似然方程的相合解，则有： \[ \sqrt{n}(\hat{\theta}_n-\theta_0)\stackrel{L}\longrightarrow N(0,I^{-1}(\theta_0)) \] 在C-R正则族场合，定理条件一般是满足的，因此MLE是渐近正态的。

渐近有效性：在一定的正则条件下，MLE的渐近方差为$[nI(\theta)]^{-1}$，它正是由容量为$n$的样本得到的$\theta$的无偏估计的方差下界。因此它具有渐近有效性。

最小二乘估计

定义

最小二乘法是一种常用的估计方法，最常见于线性模型。考虑Gauss-Markov模型：$E\boldsymbol{Y}=\boldsymbol{X\beta}$，$\text{Var}(\boldsymbol{Y})=\sigma^2 \boldsymbol{I}_n$，其中$\boldsymbol{Y}$是$n\times 1$维观测向量，$\boldsymbol{X}$为已知的$n\times p$维矩阵，$\boldsymbol{\beta}$为$p\times 1$维未知参数，$\sigma^2$未知。这一模型也被称为独立线性观测模型，通常记为$(\boldsymbol{Y},\boldsymbol{X\beta},\sigma^2\boldsymbol{I}_n)$。如果 \[ (\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\hat{\beta}})'(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\hat{\beta}})=\min_{\boldsymbol{\beta}} (\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\beta})'(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\beta}) \] 则称$\boldsymbol{\hat{\beta}}$为$\boldsymbol{\beta}$的最小二乘估计（Least Squares Estimate，LSE）。其中， \[ \boldsymbol{\hat{\beta}}=(\boldsymbol{X}'\boldsymbol{X})^{-1}\boldsymbol{X}'\boldsymbol{Y} \]

性质

$\boldsymbol{\hat{\beta}}$是$\boldsymbol{\beta}$的无偏估计，它的协方差矩阵为$\sigma^2(\boldsymbol{X}'\boldsymbol{X})^{-1}$。
如果$\boldsymbol{X}$是列满秩矩阵，那么$\boldsymbol{\hat{\beta}}$是$\boldsymbol{\beta}$唯一的最好线性无偏估计（Best Linear Unbiased Estimate，BLUE），也是UMVUE。
如果$\boldsymbol{X}$是列满秩矩阵，那么$\hat{\sigma}^2=(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\hat{\beta}})'(\boldsymbol{Y}-\boldsymbol{X}\boldsymbol{\hat{\beta}})/(n-p)$是$\sigma^2$的UMVUE。

Yufei Luo's Blog

数理统计-点估计

定义