"> "> 数理统计-非参数假设检验 | Yufei Luo's Blog

数理统计-非参数假设检验

非参数统计结构的检验

\(U\)统计量检验

\(U\)统计量

设有样本\(X=(X_1,\dots,X_n)\),并设\(\phi\)\(X_1,\dots,X_m(m\le n)\)的对称函数,令: \[ U=U(X_1,\dots,X_n)=\binom{n}{m}^{-1}\cdot \sum \phi(X_{i_1},\dots,X_{i_m}) \] 其中\(1\le i_1<\dots<i_m\le n\)\(\sum\)代表对所有的组合\((i_1,\dots,i_m)\)求和。则\(U\)是以\(\phi(X_1,\dots,X_m)\)为核的\(U\)统计量。

如果令\(\theta=E[\phi(X_1,\dots,X_m)]\),则\(U\)统计量的数学期望\(E[U]=\theta\)。记\(\phi_1(X_1,\dots,X_m)=E[\phi(X_1,\dots,X_m)|X_1=x_1]\)\(\text{Var}[\phi_1(X_1,\dots,X_m)]^2=\sigma^2_1\),则方差可以表示为\(\text{Var}(U)=\frac{m^2}{n}\cdot \sigma_1^2+\Omicron(n^{-2})\)

\(U\)统计量在\(n\rightarrow\infty\)时满足渐近正态性: \[ \sqrt{n}\cdot(U-\theta)\stackrel{L}\longrightarrow N(0,m^2\sigma_1^2) \]

例:令\(X\)表示某种电子元器件的寿命,如果对任意的\(s>0,t>0\),都有\(P(X>s+t|X>t)<P(X>s)\),则称该元件老化;而如果\(P(X>s+t|X>t)=P(X>s)\),则该元件无老化。

\(X\)为取非负值的连续随机变量,它的分布函数为\(F(x)\),因此有: \[ \begin{aligned} &P(X>s+t|X>t)<P(X>s)\Leftrightarrow \bar{F}(s+t)<\bar{F}(s)\cdot \bar{F}(t) \\ &P(X>s+t|X>t)=P(X>s)\Leftrightarrow \bar{F}(s+t)=\bar{F}(s)\cdot \bar{F}(t) \end{aligned} \] 其中\(\bar{F}(x)=1-F(x)\)

\[ w=\int_{0}^{\infty}\int_{0}^{\infty}[\bar{F}(s)\cdot \bar{F}(t)-\bar{F}(s+t)]dF(s)dF(t) \] 则检验问题可以简化为关于参数\(w\)的检验问题:原假设\(H_0:w=0\)对备择假设\(H_1:w>0\)

由于 \[ \begin{aligned} &\int_{0}^{\infty}\int_{0}^{\infty}\bar{F}(s)\cdot \bar{F}(t)dF(s)dF(t)=\int_{0}^{1}\int_{0}^{1}(1-u)\cdot (1-v)dudv=\frac{1}{4} \\ &\int_{0}^{\infty}\int_{0}^{\infty}\bar{F}(s+t)dF(s)dF(t)=\int_{0}^{\infty}\int_{0}^{\infty}P(X_1>x_2+x_3)dF(x_2)dF(x_3)=P(X_1>X_2+X_3) \end{aligned} \] 因此\(w=\frac{1}{4}-P(X_1>X_2+X_3)\),其中\(X_1,X_2,X_3\)是该元器件寿命试验的任意三次记录。

\(\theta=P(X_1>X_2+X_3)\),则上述检验问题进一步简化为:原假设\(H_0:\theta=\frac{1}{4}\)对备择假设\(H_1:\theta<\frac{1}{4}\).

这一问题属于非参数估计问题,设\(X=(X_1,\dots,X_n)\)是该元器件寿命试验的\(n\)次记录,构造\(\theta\)的无偏估计 \[ \psi(X_1,X_2,X_3)= \begin{cases} 1,~X_1>X_2+X_3 \\ 0,~X_1\le X_2+X_3 \end{cases} \] 考虑到样本中各个分量的地位相同,因此定义对称函数 \[ \phi(X_1,X_2,X_3)=\frac{\sum \psi(X_{i_1},X_{i_2},X_{i_3})}{3!} \] 进一步令 \[ U(X_1,\dots,X_n)=\frac{\sum \phi(X_{i_1},X_{i_2},X_{i_3})}{\binom{n}{3}} \] 容易求得\(E(U)=\frac{1}{4}\),下面计算\(\text{Var}(U)\)。根据样本的独立同分布性可得: \[ \begin{aligned} \phi_1(x_1)=&E[\phi(X_1,X_2,X_3)|X_1=x_1] \\ =&\frac{1}{3}\cdot P(x_1>X_2+X_3)+\frac{2}{3}\cdot P(X_2>X_3+x_1) \\ =&\frac{1}{3}\cdot \int_{0}^{x_1}F(x_1-x_3)dF(x_3)+\frac{2}{3}\cdot \int_{0}^{\infty}\bar{F}(x_1+x_3)dF(x_3) \end{aligned} \] 当原假设成立时,由于对任意的\(s,t\)都有\(P(X>s+t|X>t)=P(X>s)\Leftrightarrow \bar{F}(s+t)=\bar{F}(s)\cdot \bar{F}(t)\),故有: \[ F(x_1-x_3)=1-\frac{\bar{F}(x_1)}{\bar{F}(x_3)},\bar{F}(x_1+x_3)=\bar{F}(x_1)\cdot \bar{F}(x_3) \] 从而有: \[ \begin{aligned} \phi_1(x_1)=&\frac{1}{3}\cdot \int_{0}^{x_1}[1-\frac{\bar{F}(x_1)}{\bar{F}(x_3)}]dF(x_3)+\frac{2}{3}\cdot \int_{0}^{\infty}\bar{F}(x_1)\cdot \bar{F}(x_3)dF(x_3) \\ =&\frac{1}{3}\cdot [F(x_1)+\bar{F}(x_1)\cdot \ln \bar{F}(x_1)]+\frac{1}{3}\cdot \bar{F}(x_1) \\ =&\frac{1}{3}\cdot [1+\bar{F}(x_1)\cdot \ln \bar{F}(x_1)] \end{aligned} \] 当原假设成立时,有: \[ \begin{aligned} E[\phi_1(X_1)]=& \frac{1}{4}\\ E[\phi_1(X_1)]^2=&\frac{1}{9}\cdot \int_{0}^{\infty} [1+\bar{F}(x_1)\cdot \ln \bar{F}(x_1)]^2dF(x_1) \\ =&\frac{1}{9}\cdot \int_{0}^{1} [1+(1-u)\cdot \ln(1-u)]^2du \\ =&\frac{31}{486} \end{aligned} \] 因此\(\sigma_1^2=\frac{31}{486}-\frac{1}{16}=\frac{5}{3888}\),由此可以计算出\(\text{Var}[U]=\frac{3^2}{n}\frac{5}{3888}+\omicron(n^{-2})=\frac{5}{432n}+\omicron(n^{-2})\)

故在大样本场合下,上述检验问题的拒绝域为: \[ U\le \frac{1}{4}+\sqrt{\frac{5}{432n}}\cdot U_{\alpha} \] 其中\(U_\alpha\)代表标准正态分布的\(\alpha\)分位数。

两样本\(U\)统计量

样本\(X_1,\dots,X_{n_1}\)\(Y_1,\dots,Y_{n_2}\)分别来自相互独立的总体\(X\)\(Y\),设在\(X_1,\dots,X_{m_1}\)给定时,\(\phi(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2})\)\(Y_1,\dots,Y_{m_2}\)的对称函数,而在\(Y_1,\dots,Y_{m_2}\)给定时,\(\phi(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2})\)\(X_1,\dots,X_{m_1}\)的对称函数。令 \[ \begin{aligned} U=&U(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2}) \\ =&\binom{n_1}{m_1}^{-1}\cdot \binom{n_2}{m_2}^{-1} \cdot \sum \phi(X_{i_1},\dots,X_{i_{m_1}},Y_{j_1},\dots,Y_{j_{m_2}}) \end{aligned} \] 其中\(1\le i_1<\dots<i_{m_1}\le n_1\)\(1\le j_1<\dots<j_{m_1}\le n_2\)\(\sum\)代表对所有的组合\((i_1,\dots,i_{m_1})\)\((j_1,\dots,j_{m_2})\)求和。称\(U\)是以\(\phi(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2})\)为核的两样本\(U\)统计量。

\(E[\phi(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2})]=\theta\),则\(U\)统计量的期望\(E[U]=\theta\)

\(\phi_{c_1c_2}(x_1,\dots,x_{c_1},y_1,\dots,y_{c_2})=E[\phi(X_1,\dots,X_{m_1},Y_1,\dots,Y_{m_2})|X_1=x_1,\cdots,X_{c_1}=x_{c_1};Y_1=y_1,\cdots,Y_{c_2}=y_{c_2}]\)。其中,\(c_1=0,\dots,m_1\)\(c_2=0,\dots,m_2\),如果取0则代表条件期望中不包含该参数。记\(\sigma_{c_1c_2}^2=\text{Var}[\phi_{c_1c_2}]\),则\(U\)统计量的方差为\(\text{Var}(U)=\frac{m_1^2}{n_1}\cdot \sigma_{10}^2+\frac{m_2^2}{n_2}\cdot \sigma_{01}^2+\Omicron(n_1^{-2}+n_2^{-2})\)

\(n_1\rightarrow \infty,n_2\rightarrow \infty\)时,上述\(U\)统计量满足渐近正态性: \[ \frac{U-\theta}{\sqrt{\frac{m_1^2}{n_1}\cdot \sigma_{10}^2+\frac{m_2^2}{n_2}\cdot \sigma_{01}^2}}\stackrel{L}\longrightarrow N(0,1) \]

例:位置参数的Mann-Whitney检验

样本\(X_1,\dots,X_{n_1}\)\(Y_1,\dots,Y_{n_2}\)分别来自相互独立的连续随机变量总体\(X\)\(Y\)。设\(X\)\(Y\)的分布函数分别为\(F\)\(G\)。考虑检验问题:原假设\(H_0:\)对于任意的\(x\)都有\(F(x)=G(x)\),备择假设\(H_1:\)对于任意的\(x\)都有\(F(x)>G(x)\)

\(G(x)=F(x-a)\)时,这就是关于位置参数\(a\)的检验问题,此时原假设为\(H_0:a=0\)对备择假设\(H_1:a>0\)。这个检验问题常称为位置参数的检验问题。

当原假设成立时,即对于任意的\(x\),都有\(F(x)=G(x)\)时,有如下关系成立: \[ P(X<Y)=\int_{-\infty}^{\infty} F(y)dG(y)=0.5 \] 而在备择假设成立时,有如下关系式成立: \[ P(X<Y)=\int_{-\infty}^{\infty} F(y)dG(y)>\int_{-\infty}^{\infty} G(y)dG(y)=0.5 \]\(P(X<Y)>0.5\)时,此时我们称\(X\)随机地比\(Y\)小。令\(w=P(X<Y)\),则检验问题又可变为关于参数\(w\)的检测问题,原假设\(H_0:w=0.5\)对备择假设\(H_1:w>0.5\)。构造对称函数: \[ \phi(X_1,Y_1)= \begin{cases} 1,~X_1<Y_1 \\ 0,~X_1\ge Y_1 \end{cases} \] 以此为核构造\(U\)统计量: \[ U=U(X_1,\dots,X_{n_1};Y_1,\dots,Y_{n_2})=\frac{1}{n_1\cdot n_2}\cdot\sum \phi(X_i;Y_j) \] 就是\(w\)的无偏估计。这一统计量被称为Mann-Whitney统计量。由于在备择假设为真时\(w\)的值较大,因此在\(U\ge c\)时拒绝原假设,认为对于任意的\(x\)都有\(F(x)>G(x)\)成立。

在原假设成立时,\(w=0.5\),故\(E(U)=0.5\),同时还有: \[ \phi_{10}(x_1)=\bar{F}(x_1),~~\phi_{01}(y_1)={F}(y_1)~~\text{备注:经查阅其它资料,这里认为高等数理统计书上的有误} \] 因此可以计算得:\(\sigma_{01}^2=\sigma_{10}^2=\frac{1}{12}\),由此可得: \[ \begin{aligned} \text{Var}(U)=&\frac{1}{n_1}\cdot \sigma^2_{10}+\frac{1}{n_2}\cdot \sigma^2_{01}+\Omicron(n_1^{-2}+n_2^{-2}) \\ =& \frac{n_1+n_2}{12n_1n_2}+\Omicron(n_1^{-2}+n_2^{-2})~~~~(\text{精确值为}\frac{n_1+n_2+1}{12n_1n_2}) \\ \end{aligned} \] 根据渐近正态性,在大样本场合下的拒绝域可以写为: \[ U\ge \frac{1}{2}+\sqrt{\frac{n_1+n_2}{12n_1n_2}}\cdot U_{1-\alpha} \]

秩检验

基本思想

设有独立同分布的样本\(x_1,\dots,x_n\),假设总体\(X\)为连续随机变量,从而以概率1保证\(x_1,\dots,x_n\)互不相等。将样本从小到大排列为\(x_{(1)}<x_{(2)}<\cdots<x_{(n)}\)。如果\(x_i=x_{(R_i)}\),则称\(x_i\)在样本\(x_1,\dots,x_n\)中的秩为\(R_i\),简称\(x_i\)的秩为\(R_i\)\(R=(R_1,\dots,R_n)\)以及\(R\)任意的可测函数称为秩统计量。

\(R\)服从离散分布,可以取\(n!\)个值。由于样本\(x_1,\dots,x_n\)独立同分布,因此\(R\)取任意一组值的概率都相等,也就是说\(R\)服从均匀分布。由此可知,秩统计量的分布与总体服从什么样的分布无关。

由于\(R\)服从均匀分布,因此单个的秩\(R_i\)也服从均匀分布: \[ P(R_i=r)=\frac{1}{n} \] 从而可得: \[ E(R_i)=\frac{(n+1)}{2} \\ \text{Var}(R_i)=\frac{(n^2-1)}{12} \] >证明: >\[ >\begin{aligned} >E(R_i)=&\sum_{r=1}^{n} r\cdot P(R_i=r) \\ >=& \frac{1}{n}\cdot \frac{n(n+1)}{2} \\ >=& \frac{n+1}{2} \\ >\text{Var}(R_i)=&\sum_{r=1}^{n} r^2\cdot P(R_i=r)-E(R_i)^2 \\ >=& \frac{1}{n}\cdot \frac{n(n+1)(2n+1)}{6}-\frac{(n+1)^2}{4} \\ >=& \frac{n^2-1}{12} >\end{aligned} >\]

对于任意的\(i\ne j\)\(R_i\)\(R_j\)的联合分布也是均匀分布: \[ P(R_i=r_1,R_j=r_2)=\frac{1}{n(n-1)} \] 从而可得: \[ \text{Cov}(R_i,R_j)=-\frac{n+1}{12} \] >证明: >\[ >\begin{aligned} >\text{Cov}(R_i,R_j)=&E[(R_i-E(R_i))(R_j-E(R_j))] \\ >=& E[R_iR_j]-E(R_i)E(R_j) \\ >=& \frac{1}{n(n-1)}\sum_{i\ne j} ij-\frac{(n+1)^2}{2} \\ >=& \frac{1}{n(n-1)}(\sum_{i=1}^n\sum_{j=1}^n ij-\sum_{i=1}^n i^2)-\frac{(n+1)^2}{2}\\ >=& \frac{1}{n(n-1)}(\frac{n^2(n+1)^2}{4}-\frac{n(n+1)(2n+1)}{6})-\frac{(n+1)^2}{2} \\ >=& -\frac{n+1}{12} >\end{aligned} >\]

秩检验的基本思想是,用\(x_i\)的秩\(R_i\)代替\(x_i\)来做统计推断,\(R_i\)可以理解为\(x_i\)的得分。一般来说,可以定义一个计分函数\(a(r)\),在\(x_i\)的秩为\(R_i\)时,将\(x_i\)的得分定义为\(a(R_i)\)

类似地,有下面的结论: \[ E(a(R_i))=\frac{1}{n}\sum_{i=1}^n a(i)=\bar{a} \\ \text{Var}(a(R_i))=\frac{1}{n}\sum_{i=1}^{n}(a(i)-\bar{a})^2 \\ \text{Cov}(a(R_i),a(R_j))=-\frac{1}{n(n-1)}\sum_{i=1}^{n}(a(i)-\bar{a})^2 \]

证明: \[ \begin{aligned} E(a(R_i))=&\sum_{i=1}^{n} a(i)\cdot P(i) \\ =& \frac{1}{n} \sum_{i=1}^{n} a(i) \end{aligned} \]

\[ \begin{aligned} \text{Var}(a(R_i))=&\sum_{i=1}^{n} [a(i)-E(a(R_i))]^2\cdot P(i) \\ =& \frac{1}{n} \sum_{i=1}^{n} (a(i)-\bar{a})^2 \end{aligned} \]

\[ \begin{aligned} \text{Cov}(a(R_i),a(R_j))=&E[(a(R_i)-E(a(R_i)))(a(R_j)-E(a(R_j)))]\\ =& E[a(R_i)a(R_j)]-E(a(R_i))E(a(R_j)) \\ =& \frac{1}{n(n-1)}[\sum_{i=1}^{n}\sum_{j=1}^{n}a(i)a(j)-\sum_{i=1}^{n}a(i)^2]-2\bar{a}^2 \\ =& \frac{1}{n(n-1)}[n^2\bar{a}^2-\sum_{i=1}^{n}a(i)^2-n(n-1)\bar{a}^2] \\ =& \frac{1}{n(n-1)}[n\bar{a}^2-\sum_{i=1}^{n}a(i)^2] \\ =& -\frac{1}{n(n-1)}\sum_{i=1}^{n}(a(i)-\bar{a})^2 \end{aligned} \]

符号秩和检验

假设\(x_1,\cdots,x_n\)独立同分布,其分布关于\(\theta\)对称,同时假设这个对称分布是连续分布,由此可知,以概率1不仅可以保证\(x_1,\cdots,x_n\)两两互不相等,而且任何一个\(x_i\)都不等于\(\theta\)。考虑对称中心\(\theta\)的检测问题: \[ H_{0}:\theta=0 ~\text{对}~ H_1:\theta<0 \]\[ u_i=\begin{cases} 1,~~x_i>0\\ 0,~~\text{otherwise} \end{cases} \\ s^+=\sum_{u_i}=\#\{x_i>0,i=1,\dots,n\} \] 其中记号\(\#\)表示计数,上述方法被称为符号检验。这种检验方法只使用了样本是正数还是负数的信息,而没有使用样本数据值大小的信息,它不能有效地解决对称中心是否等于0的检验问题。

符号秩和检验方法是对符号检验的改进,还用到了样本数据值大小的信息。首先将每个样本都取绝对值\(|x_1|,\dots,|x_n|\),由于总体服从连续分布,同样能够以概率1保证这些样本的绝对值两两互不相等。设\(|x_i|\)\(|x_1|,\dots,|x_n|\)中的秩为\(R_i\)。符号秩和检验的检验统计量为: \[ W^+=\sum_{i=1}^n u_iR_i \] 显然\(W^+\)不仅有样本数据是正数还是负数的信息,而且还有样本数据值大小的信息。与符号检验类似,在\(W^+\)比较小的时候拒绝原假设。

下面说明当原假设\(H_0:\theta=0\)成立,即总体的分布关于原点0对称时,符号秩和检验统计量\(W^+\)的分布的性质。

如果随机变量\(X\)的分布关于原点0对称,定义 \[ u=\begin{cases} 1,~~X>0\\ 0,~~\text{otherwise} \end{cases} \] 那么\(|X|\)\(u\)相互独立。

证明:

\(u\)的分布律为\(P(u=0)=P(u=1)=\frac{1}{2}\)。要证明\(|X|\)\(u\)相互独立,也就是证明如下两个等式对于任意的\(a>0\)都成立: \[ P(|X|\le a,u=1)=P(|X|\le a)\cdot P(u=1) \\ P(|X|\le a,u=0)=P(|X|\le a)\cdot P(u=0) \\ \] 下面证明第一个等式,第二个等式的证明方法类似。首先我们有: \[ P(|X|\le a,u=1)=P(-a\le X\le a,u=1)=P(0\le X\le a) \] 此外,由于\(X\)的分布关于原点对称,因此 \[ P(|X|\le a)=P(-a\le X\le a)=2P(0\le X\le a) \] 从而得证。

由此可知,当样本\(x_1,\cdots,x_n\)独立同分布,其分布是关于原点0对称的连续分布时,\(|x_1|,u_1,\dots,|x_n|,u_n\)相互独立,且此时\(u_1,\dots,u_n\)\((R_1,\dots,R_n)\)相互独立。从而可知,无论\(R_1,\dots,R_n\)是否给定,\(u_1,\dots,u_n\)总是独立同分布的,而且\(u_1\)的分布总是\(P(u_1=0)=P(u_1=1)=0.5\)

\(W^+\)服从离散分布,它可以取\(0,1,\dots,\frac{n(n+1)}{2}\)各个值。令\(t_{n,d}\)表示从\(1,2,\dots,n\)\(n\)个数中任取若干个数(包括一个都不取),其和恰好为\(d(d=0,1,\dots,\frac{n(n+1)}{2})\)的取法总数(例如\(t_{n,0}=1,t_{n,3}=2\))。因此,在总体的分布是关于原点0对称的连续分布时,\(R_1,\dots,R_n\)给定之后\(W^+=d\)的条件概率为: \[ P(W^+=d|R_1,\dots,R_n)=\frac{t_{n,d}}{2^n}=P(W^+=d) \]\(1,2,\dots,n\)\(n\)个数中任取若干个数(包括一个都不取)其和恰好为\(d\),那么没有取出来的数的和为\(\frac{n(n+1)}{2}-d\),所以由此可得: \[ P(W^+=d)=P(W^+=\frac{n(n+1)}{2}-d) \] 也就是说,当总体的分布是关于原点0对称的连续分布时,\(W^+\)服从对称分布,对称中心为\(\frac{n(n+1)}{4}\),数学期望\(E[W^+]=\frac{n(n+1)}{4}\),方差\(\text{Var}(W^+)=\frac{n(n+1)(2n+1)}{24}\)

证明:

\(S=\sum_{i=1}^{n}iu_i\),则\(S\)\(W^+\)有相同的概率分布。

由于 \[ E(S)=\sum_{i=1}^{n} E(u_i)E(i) =\frac{1}{2}\sum_{i=1}^{n}i=\frac{n(n+1)}{4} \]

\[ \begin{aligned} \text{Var}(S)=\sum_{i=1}^ni^2 \text{Var}(u_i)=\frac{1}{4}\sum_{i=1}^ni^2=\frac{n(n+1)(2n+1)}{24} \end{aligned} \]

故由\(S\)\(W^+\)具有相同的概率分布,可得\(W^+\)的数学期望和方差。

此外,当样本容量\(n\)趋于无穷大时,\(W^+\)有渐进正态性: \[ \frac{W^+-E[W^+]}{\sqrt{\text{Var}(W^+)}}\stackrel{L}\longrightarrow N(0,1) \] >证明: > >根据李雅普诺夫中心极限定理,如果当\(n\rightarrow \infty\)时, >\[ >\frac{\sum_{i=1}^n E|x_i-E(x_i)|^3}{B_n^3}\rightarrow 0 >\] >成立,则有 >\[ >\sum_{i=1}^{n}\frac{x_i-E(x_i)}{B_n}\rightarrow N(0,1) >\] >其中,\(B_n=\sqrt{\sum_{i=1}^{n}\text{Var}(x_i)}\)。 > >同样考虑随机变量\(S=\sum_{i=1}^{n}x_i=\sum_{i=1}^{n}iu_i\),有: >\[ >E|x_i-E(x_i)|^3=i^3 E|u_i-\frac{1}{2}|^3=i^3/8 >\] > >故有 >\[ >\sum_{i=1}^nE|x_i-E(x_i)|^3=\frac{1}{8}\sum_{i=1}^{n}i^3=\frac{n^2(n+1)^2}{32}\sim \Omicron(n^4) \\ >B_n^3=(\frac{n(n+1)(2n+1)}{24})^{3/2} \sim \Omicron(n^{9/2}) >\] >从而\(S\)满足李雅普诺夫中心极限定理的条件,由此可以进一步得到\(W^+\)的渐近正态性。

这一检验方法也可以进行推广。定义计分函数\(a(r)\),从而可将符号秩和检验统计量\(W^+=\sum_{i=1}^n u_iR_i\)推广为\(\sum_{i=1}^n u_ia(R_i)\)。计分函数\(a(r)=r\)这一特例便为符号秩和检验统计量。此外,还有以下一些特例:

  1. \(a(r)=1\),此时便为符号检验
  2. 记标准正态分布\(N(0,1)\)分布函数\(\Phi(x)\)的反函数为\(\Phi^{-1}(x)\),取\(a(r)=\Phi^{-1}[\frac{1}{2}+\frac{r}{2(n+1)}]\),这个计分函数被称为正态分位计分。

位置参数秩和检验

位置参数的检验问题也可以用秩方法来解决,这种方法被称为Wilcoxon秩和检验。样本\(X_1,\dots,X_{m}\)\(Y_1,\dots,Y_{n}\)分别来自相互独立的连续随机变量总体\(X\)\(Y\)。设\(X\)\(Y\)的分布函数分别为\(F\)\(G\),且\(G(x)=F(x-a)\)。当\(a>0\)时,相当于是将分布函数\(F(x)\)向右平移\(a\)个单位才得到\(G(x)\),此时如果将合样本\((X_1,\dots,X_{m};Y_1,\dots,Y_{n})\)从小到大排列,则\(Y_1,\dots,Y_{n}\)倾向于排在右边。从而样本\(Y_1,\dots,Y_{n}\)的秩和\(W_y=\sum_{j=1}^{n}R_j\)也倾向于取较大的值。与之相反,当\(a<0\)时,秩和\(W_y\)倾向于取较小的值。

下面讨论秩和\(W_y\)的分布的性质。\(W_y\)服从离散分布,它依次取\(n(n+1)/2,n(n+1)/2+1,\dots,n(n+1)/2+mn\)各个值。令\(t_{m,n}(d)\)表示从\(1,2,\dots,N=m+n\)\(N\)个数中任意取\(n\)个数字,其和恰好为\(d\)的方法总数。由此可将\(W_y\)的概率分布写为: \[ P(W_y=d)=\frac{t_{m,n}(d)}{\binom{N}{n}} \] 由于从\(N\)个数中任意取出\(n\)个数字,其和为\(d\)与其和为\(n(N+1)-d\)的方法数相等(\(n(n+1)/2+n(n+1)/2+mn=n(N+1)\)),因此\(W_y\)服从对称分布,对称中心为\(\frac{n(N+1)}{2}\)

\(W_y\)的期望和方差分别为: \[ E[W_y]=n(N+1)/2\\ \text{Var}[W_y]=mn(N+1)/12 \] >证明: > >根据之前的推导,可得: >\[ >E(\sum_{i=1}^{n}a(R_i))=nE(a(R_1))=n\bar{a},~\bar{a}=\frac{1}{N}\sum_{i=1}^N a(r) >\] > >\[ >\begin{aligned} >\text{Var}(\sum_{i=1}^{n}a(R_i))=&n\text{Var}(a(R_i))+n(n-1)\text{Cov}(a(R_1),a(R_2)) \\ >=& \frac{n}{N}\sum_{i=1}^N (a(r)-\bar{a})^2-\frac{n(n-1)}{N(N-1)}\sum_{i=1}^N (a(r)-\bar{a})^2 \\ >=& \frac{mn}{N(N-1)}\sum_{i=1}^N (a(r)-\bar{a})^2 >\end{aligned} >\] > >在上述的位置参数秩和检验问题中,\(a(r)=r\),故有 >\[ >\begin{aligned} >\bar{a}=&\frac{N+1}{2} \\ >\sum_{i=1}^N (a(r)-\bar{a})^2=&\sum_{i=1}^N a^2(r)-N\bar{a}^2 \\ >=&\frac{N(N+1)(2N+1)}{6}-\frac{N(N+1)^2}{4} \\ >=& \frac{N(N+1)(N-1)}{12} >\end{aligned} >\] >将其代入上式,可得 >\[ >E(W_y)=n(N+1)/2 \\ >\text{Var}(W_y)=mn(N+1)/12 >\]

在样本容量\(m\)\(n\)都趋于无穷大时,\(W_y\)有渐进正态性: \[ \frac{W_y-E[W_y]}{\sqrt{\text{Var}(W_y)}}\stackrel{L}\longrightarrow N(0,1) \]

尺度参数的秩检验

设样本\(X_1,\dots,X_{m}\)\(Y_1,\dots,Y_{n}\)分别来自相互独立的连续随机变量总体\(X\)\(Y\),二者的取值范围相同,都是以原点0为对称中心的一个区间。设\(X\)\(Y\)的分布函数分别为\(F\)\(G\),且\(G(x)=F(x/\sigma)\),其中\(\sigma>0\)被称为尺度参数。如果将合样本\((X_1,\dots,X_{m};Y_1,\dots,Y_{n})\)从小到大排列,当\(\sigma>1\)时,由于正数会变得更大,而负数会变得更小,因此\(Y_1,\dots,Y_{n}\)倾向于排在左右两侧。如果记\(Y_j\)在合样本中的秩为\(R_j\),那么在\(\sigma>1\)\(R_j\)会倾向于比较大或者比较小。当\(\sigma<1\)时情况相反。

对于尺度参数的秩检验问题,计分函数\(a(r)\)必须单峰或者单谷,随着\(r\)的增加\(a(r)\)先上升后下降或者先下降后上升。计分函数通常有以下5种选法:

  1. Mood检验:\(a(r)=(r-(N+1)/2)^2\)

  2. Ansari-Bradley检验: \[ N=2k,a(r)=\begin{cases} r,r=1,2,\dots,k \\ N-r+1,r=k+1,k+2,\dots,N \\ \end{cases}\\ N=2k+1,a(r)=\begin{cases} r,r=1,2,\dots,k+1 \\ N-r+1,r=k+2,k+3,\dots,N \\ \end{cases}\\ \]

  3. Copan检验:假设\(\xi_1,\dots,\xi_N\)为来自标准正态分布的容量为\(N\)的样本,将其由小到大排列为\(\xi_{(1)},\dots,\xi_{(N)}\),取\(a(r)=E(\xi_{(r)}^2)\)

  4. Klotz检验:记标准正态分布的分布函数为\(\Phi(x)\),其反函数记为\(\Phi^{-1}(x)\),取\(a(r)=[\Phi^{-1}(r/(N+1))]^2\)

  5. Siegel-Turkey检验:取\(a(1)=N\)\(a(N)=N-1\)\(a(N-1)=N-2\)\(a(2)=N-3\)\(a(3)=N-4\)\(a(N-2)=N-5\),……

线性秩统计量

假设\(x_1,x_2,\dots,x_N\)同为连续分布,记\(x_i\)\(x_1,x_2,\dots,x_N\)中的秩为\(R_i\),则称\(L=\sum_{i=1}^N c(i)a(R_i)\)为线性秩统计量。其中,\(c(i)\)是定义在\(\{1,2,\dots,N\}\)上的某个特定的函数,又称为回归系数,\(a(r)\)为计分函数。例如上述的位置和尺度参数的秩检验就是线性秩统计量。

对于线性秩统计量,其均值和方差分别为: \[ E[L]=N\bar{a}\bar{c} \\ \text{Var}[L]=\frac{1}{N-1}\sum_{r=1}^N(a(r)-\bar{a})^2\sum_{i=1}^{N}(c(i)-\bar{c})^2 \\ \] 其中,\(\bar{a}=\frac{1}{N}\sum_{r=1}^{N}a(r)\)\(\bar{c}=\frac{1}{N}\sum_{i=1}^{N}c(i)\)

线性秩统计量渐进正态性的证明比较复杂,可以按照如下三个步骤:

  1. 计算\(c(i)\)是否满足条件\(N\),即: \[ \frac{\max_{1\le i\le n}(c(i)-\bar{c})^2}{\sum_{i=1}^N (c(i)-\bar{c})^2}\rightarrow 0,~~~N\rightarrow \infty \]

  2. 尝试将计分函数\(a(r)\)改写为 \[ a(r)=b(N)\varphi(\frac{r}{N+1}) \] 形式,其中\(b(N)\)仅与\(N\)有关,函数\(\varphi(t)\)\((0,1)\)上两个非降平方可积函数之差,且不等于某一常数。如果可以将计分函数写成此形式,则称\(a(r)\)为平方可积计分函数。通常可以通过从\(a(r)\)的表达式中提取\(N+1\)这一公因式来改写,例如秩和检验统计量\(W_y\)的计分函数\(a(i)=i\),可以改写为\(a(i)=(N+1)\varphi(i/(N+1))\),其中\(\varphi(t)=t\)。通常使用的计分函数往往都是平方可积计分函数。

  3. 如果前两项都满足,则根据Hajek定理,这一线性秩统计量满足渐进正态性: \[ \frac{L-E(L)}{\sqrt{\text{Var}(L)}}\stackrel{L}\longrightarrow N(0,1) \]