Xiu's Blog

AP统计中几个知识点的解释

January 25, 2018

去年在学习AP TI-84/NSPIRE艺术统计时,总有一些骚操作让人一头雾水。而每当询问Mr. Z时,他也只是会说“This is an AP level course. You only need to know how to press the calculator”。本篇文章讨论了几个AP统计中涵盖的公式及知识点背后的原理。

Sample Variance Formula

在学习sample variance的时候,我对于其计算公式

sx2=1n1(xixˉ)2s_x^2=\frac{1}{n-1}\sum{(x_i-\bar{x})^2}

中的n1n-1(而不是nn)非常不解,而在课本The Basic Practice of Statistics for AP 431页单纯通过举例子计算的解释显然是一点帮助也没有。。。不过其提到的一个词biased estimator却的确是问题的关键:

当我们有一个参数为实数θ\theta的概率模型,构造关系uu,若对任意观测数据XX,都有

E[u(X1,X2,,Xn)]=θE[u(X_1,X_2,\ldots,X_n)]=\theta

则我们称 u(X1,X2,,Xn)u(X_1,X_2,\ldots,X_n) 是一个对 θ\thetaunbiased estimator。否则,u(X1,X2,,Xn)u(X_1,X_2,\ldots,X_n) 是一个对 θ\thetabiased estimator

对于任意一个服从分布FF的随机变量XX,已知XX的期望为μ\mu,则随机变量XX或分布FF的真实方差为

Var(X)=σ2=E[(Xμ)2]Var(X) = \sigma^2=E[(X-\mu)^2]

由此可得

Var(X)=σ2=E[1ni=1n(Xiμ)2]\displaystyle Var(X)=\sigma^2=E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \mu)^2]

这一个E[1ni=1n(Xiμ)2]E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \mu)^2]就是对真实方差的一个unbiased estimator。而在计算sample variance中,当直接以nn作为分母时,所得出的sample variance却是对Var(X)Var(X)的一个biased estimator,并不是我们真正想要的方差。这是因为我们在计算时并不知道XX的期望μ\mu,只能用样本均值Xˉ\bar{X}代替(本质原因是样本均值Xˉ\bar{X}是期望μ\muordinary least squares,本篇文章不对此进行深入展开)。若以nn为分母计算sample variance sx2s_x^{'2},则会有

E[sx2]=E[1ni=1n(XiXˉ)2]=E[1ni=1n(Xiμ+μXˉ)2]=E[1ni=1n(Xiμ(Xˉμ))2]=E[1ni=1n((Xiμ)22(Xiμ)(Xˉμ)+(Xˉμ)2))]=E[1n(i=1n(Xiμ)22n(Xˉμ)(Xˉμ)+n(Xˉμ)2)]=E[1ni=1n(Xiμ)2]E[1nn(Xˉμ)2]=1nE[i=1n(Xiμ)2]1nnE[(Xˉμ)2]=1n(nVar(X)nVar(Xˉ))=Var(X)Var(Xˉ)\begin{aligned} E[s_x^{'2}] &= E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2]\\\\ &= E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \mu + \mu - \bar{X})^2]\\\\ &= E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \mu - (\bar{X} - \mu))^2]\\\\ &= E[\frac{1}{n}\sum_{i=1}^{n}((X_i - \mu)^2 - 2(X_i - \mu)(\bar{X}-\mu) + (\bar{X}-\mu)^2))]\\\\ &= E[\frac{1}{n}(\sum_{i=1}^{n}(X_i - \mu)^2 - 2n(\bar{X} - \mu)(\bar{X}-\mu) + n(\bar{X}-\mu)^2)]\\\\ &= E[\frac{1}{n}\sum_{i=1}^{n}(X_i - \mu)^2] - E[\frac{1}{n}*n(\bar{X}-\mu)^2]\\\\ &= \frac{1}{n}E[\sum_{i=1}^{n}(X_i - \mu)^2] - \frac{1}{n}*nE[(\bar{X}-\mu)^2]\\\\ &= \frac{1}{n}(nVar(X) - nVar(\bar{X}))\\\\ &= Var(X) - Var(\bar{X}) \end{aligned}

而sample mean的方差为σM2=σ2n\sigma_M^2=\frac{\sigma^2}{n}(这个公式也可以从课本中的standard deviation of Xˉ\bar{X}中推出)。因此,我们有

E[sx2]=σ2σ2n=(n1)σ2nE[s_x^{'2}]=\sigma^2-\frac{\sigma^2}{n}=\frac{(n-1)\sigma^2}{n}

由此可得,当分母为nn时,计算出的sample variance是真实方差的biased estimator,而将分母变回n1n-1时,sx2s_x^2的期望则是

E[sx2]=1n1(nVar(X)nVar(Xˉ))=nn1(n1)σ2n=σ2E[s_x^2]=\frac{1}{n-1}(nVar(X) - nVar(\bar{X}))=\frac{n}{n-1}\frac{(n-1)\sigma^2}{n}=\sigma^2

所以sx2=1n1(xixˉ)2s_x^2=\frac{1}{n-1}\sum{(x_i-\bar{x})^2}是对sample variance的unbiased estimator。将原来的biased​E[sx2]E[s_x^{'2}]变为unbiased​E[sx2]E[s_x^2]所乘的系数nn1\frac{n}{n-1}被称为Bessel’s correction

Control of Type II Error

做过AP统计significance test这一章选择题的各位都知道,如果想要减小假设检验发生Type II error (when it fails to reject a null hypothesis H0H_0 that really is false)的概率,可以使用增大样本容量(increase sample size)的方法。但书上和统计老师都并未对这样做的原理进行解释。本节将会提供两个对在z test中通过增大样本容量降低Type II error发生概率的解释。

Explanation I

第一个解释比较直观。举一个简单例子,现在要估算HFI学生在上一次统计考试中的平均成绩,我们的null hypothesis (H0H_0)是平均成绩为μ1\mu_1,即上次考试中学生成绩符合正态分布(Normal distribution)N(μ1,σ2)N(\mu_1, \sigma^2)。而我们的alternative hypothesis (H1H_1)是平均成绩为大于μ1\mu_1的某个值,设该值为μ2\mu_2,也就是说学生成绩符合正态分布N(μ2,σ2)N(\mu_2, \sigma^2)

当我们随机选取nn个学生计算他们的平均成绩Xˉ\bar{X},再通过z=Xˉμ1σ/nz = \frac{\bar{X}-\mu_1}{\sigma/\sqrt{n}}计算出z score与对应的P-value,即可根据P-value推断学生的平均成绩是μ1\mu_1还是μ2\mu_2(即接受或拒绝H0H_0)。而由z score的计算公式可以得知,Xˉ\bar{X}的位置决定抽样学生成绩属于正态分布N(μ1,σ2n)N(\mu_1, \frac{\sigma^2}{n})还是N(μ2,σ2n)N(\mu_2, \frac{\sigma^2}{n})

因此,若在下图中x轴上α\alpha (significance level)对应的z score处有一点kk,则当Xˉ<k\bar{X}< k时接受H0H_0,当Xˉ>k\bar{X}>k时拒绝H0H_0(若相等则增大样本容量重新计算)。

mean

这个时候可得Type II error的概率就是P(N(μ2,σ2n)<k)P(N(\mu_2,\frac{\sigma^2}{n})<k),即落在k左边的N(μ2,σ2n)N(\mu_2, \frac{\sigma^2}{n})部分的面积。当样本容量(nn)增大的时候,σ2n\frac{\sigma^2}{n}减小,因此μ1\mu_1μ2\mu_2所在分布的range都会减小,也就是说两个分布的图像都会分别以μ1\mu_1μ2\mu_2为中心“变窄”。此时对于同样的z score代表的kkP(N(μ2,σ2n)<k)P(N(\mu_2,\frac{\sigma^2}{n})<k) 会减小(因为面积减小),即Type II error减小。

这就是一个对于增大本容量降低Type II error发生概率的解释。不过,用观察图像来解释原理实在是不够让人信服,连一个严谨的数学证明都没有。

kd

对于这一样本容量与Type II error发生概率的关系,是否可以通过数学公式证明呢?

gl

既然如此,下面就来看看第二个更为严谨的解释。

Explanation II

若要通过数学证明来解释样本容量与Type II error发生概率的关系,我们需引入施行特征函数:

CC是参数θ\theta的某检验问题的一个检验法,

β(θ)=Pθ(接受H0)\beta(\theta)=P_\theta(接受H_0)

称为检验法CC的施行特征函数或OC函数

因此,当θH1\theta \in H_1时,β(θ)\beta(\theta)就是发生Type II error的概率。在这个时候1β(θ)1 - \beta(\theta)就是做出正确判断(拒绝H0H_0)的概率。函数1β(θ)1 - \beta(\theta)被称为检验法CCpower function,在这里不深入探究。本文主要介绍通过OC函数来证明增大本容量可以降低Type II error的发生概率。

我们假设有H0:μ<μ0H_0: \mu < \mu_0H1:μ>μ0H_1:\mu>\mu_0,即对H0H_0H1H_1进行一个one-sided z test。对此,我们有OC函数

β(μ)=Pμ(接受H0)=Pμ(Xˉμ0σ/n<zα)=Pμ(Xˉμσ/n<zαμμ0σ/n)\beta(\mu) = P_\mu(接受H_0)=P_\mu(\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} < z_\alpha)=P_\mu(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < z_\alpha-\frac{\mu-\mu_0}{\sigma/\sqrt{n}})

此处zαz_\alpha即为α\alpha (significance level)对应的z score,而由于Xˉμσ/n\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}正好是任意样本均值Xˉ\bar{X}于正态分布N(μ,σ2n)N(\mu,\frac{\sigma^2}{n})z score,可以得到

β(μ)=ϕ(zαλ)\beta(\mu)=\phi(z_\alpha - \lambda)

λ\lambdaμμ0σ/n\frac{\mu-\mu_0}{\sigma/\sqrt{n}},而ϕ\phi则代表正态分布N(μ,σ2n)N(\mu,\frac{\sigma^2}{n})分布函数(Cumulative Distribution Function, CDF),即正态分布概率密度函数(Probability Density Function, PDF)的变上限积分。因此,我们有

β(μ)=ϕ(zαλ)=12πzαλex2/2dx\beta(\mu) =\phi(z_\alpha - \lambda)=\frac{1} {\sqrt{2\pi}}\int_{-\infty}^{z_\alpha - \lambda}e^{-x ^{2}/2}dx

β(μ)\beta(\mu)代表发生Type II error的概率时,此时正确的应是H1H_1,也就是μ>μ0\mu>\mu_0,所以μμ0>0\mu-\mu_0>0,增大样本容量nn会令μμ0σ/n\frac{\mu-\mu_0}{\sigma/\sqrt{n}},也即λ\lambda增大。因此λ\lambdann单调递增。而当λ\lambda增大时,积分上界zαλz_\alpha - \lambda随之减小,所以β(μ)\beta(\mu)对于λ\lambda单调递减。由此可证one-sided z test增大样本容量可以减小Type II error发生的概率。

类似的,对于一个two-sided z test,若有H0:μ=μ0H_0: \mu = \mu_0H1:μμ0H_1:\mu\neq\mu_0,我们可以求得OC函数

β(μ)=Pμ(接受H0)=Pμ(zα/2<Xˉμ0σ/n<zα/2)=Pμ(λzα/2<Xˉμσ/n<λ+zα/2)=ϕ(zα/2λ)ϕ(zα/2λ)\begin{aligned} \beta(\mu) &= P_\mu(接受H_0)\\\\ &= P_\mu(-z_{\alpha/2} < \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}} < z_{\alpha/2})\\\\ &=P_\mu(-\lambda-z_{\alpha/2} < \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} < -\lambda+z_{\alpha/2})\\\\ &=\phi(z_{\alpha/2}-\lambda)-\phi(-z_{\alpha/2}-\lambda) \end{aligned}

由正态分布图像的对称性可知ϕ(x)=1ϕ(x)\phi(-x)=1-\phi(x),所以有

β(μ)=ϕ(zα/2λ)+ϕ(zα/2+λ)1\beta(\mu)=\phi(z_{\alpha/2}-\lambda)+\phi(z_{\alpha/2}+\lambda)-1

因为此时应该选择接受H1H_1,所以μμ0\mu\neq\mu_0。而zα/2z_{\alpha/2}是一个正值,由正态分布的图像及λ=μμ0σ/n\lambda=\frac{\mu-\mu_0}{\sigma/\sqrt{n}}可得当λ\lambda增大时,ϕ(zα/2λ)\phi(z_{\alpha/2}-\lambda)的减小的数量会大于ϕ(zα/2+λ)\phi(z_{\alpha/2}+\lambda)增加的数量。因此,我们可以知道β(μ)\beta(\mu)相对于λ|\lambda|单调递减。而λ|\lambda|nn单调递增,由此可证two-sided z test增大样本容量可以减小Type II error发生的概率。

此外,对于t test同样可以用相似的方法证明样本容量与Type II error发生概率的关系,不过推导过程更加复杂,本篇文章不作深入探讨。

Mean and Median in a Skewed Distribution

最后这个问题并不是我自己发现的。今年学统计的H同(ju)学(lao)曾问过我统计书上所写的当一个分布skewed to the left时,均值小于中位数,反之则均值大于中位数的原因,而我当时并无法回答。原来一直以为理所当然,从来没有深究过背后的原理。但直觉总归是不可靠的,我便去做了一些research。

搞笑的是,“skewness”在历史上正是通过均值与中位数的大小关系定义的。。。

kd

不过现代的“skewness”已经改用三阶中心矩来定义了。

如果想更多了解这一点,可以去看看这一个知乎回答

Conclusion

以上就是对于AP统计中我认为的几个主要的比较有意思的问题背后的原理。

其实在学习HFI数理方面课程的时候,总是给人一种“不求甚解”的感觉,本来应该讲究数学推导,却学成了依靠背诵知识点过关的科目。下到统计,上到AC,无一例外。这对理解这一门学科所学的内容与将来的理科学习是相当不利的。尽管出于自身水平的限制,不能一一钻研自己感兴趣的所有学过而又不理解的知识点,但我始终觉得应当在学习的过程中有一种多问“为什么”的精神:起码这也能让自己学到这门科目的一点皮毛,对得起这真tm贵的学费和AP考试费,而不是在学完之后发现自己仅仅只是学会怎么操作一个工具而已。

希望本文能给广大挣扎在AP统计中的出国党一点帮助,也激励自己和大家对于自己真正喜欢的学科不要仅仅满足于课程考试 虽然不感兴趣的学科我经常这么干(大雾),永远保持一种“好求甚解”的习惯。

References

[1]盛骤, 谢式千, 潘承毅. 概率论与数理统计, 第四版[M]. 高等教育出版社, 2008.