精华几例

Item: 统计与真理
Rating: 5
Author: 蓬山远

2013-01-20 10:17:53

第四章讲的是有偏数据的加权分布，是理论味道最重的一章，但确实很有意思，希望我能用简单的话简要介绍一下。

假设我们想收集这样的数据：找一个男学生，问问他家里有几个男孩，有几个女孩，记录下来。这个数据显然是有偏的，因为这些家庭都至少有一个男孩。
记家庭孩子总数N，男孩总数B(Brother)，女孩总数S(Sister)。显然B+S=N，而且B>0。
让我们考虑固定N。比方说就固定N=6吧。
如果数据无偏，也就是我们随意调查有6个孩子的家庭，看看男孩子数B的分布是什么样的呢？
自然，这个分布是(1,6,15,20,15,6,1)/64 二项分布嘛。
可是数据有偏，也就是没有B=0的可能性了，怎么办的？
办法一：把B=0的这一项删掉，分布变成了(6,15,20,15,6,1)/63，这种分布称为“截断分布”。
办法二：把这一个男孩子扔掉不管，考虑别的孩子完全与这一个男孩无关，那么分布就应该是(1,5,10,10,5,1)/32，这种分布称为“加权分布”——也就是这一章的标题。

调查发现，实际数据更符合加权分布，而不是截断分布。
这是个简短的比较浅显的概括，书中针对加权分布还有更详细一些的介绍，还举了别的例子。这部分理论就是作者Rao自己的工作。

------------------------------------------------------------------------

个人认为，精华集中在三四五这三章。另外的内容就有些太通俗了。可能跟作者当时做讲座的历史情况有关，也许那时统计的思想方法还没有深入到群众当中。
第三章说了一些历史上科学界数据造假的故事，譬如著名的孟德尔豌豆遗传实验。了解的人自然已经了解了，还不知道的人看了可能会比较有乐趣。

------------------------------------------------------------------------

第五章提出了很多很有意思的统计学应用，包括联邦党人文集作者的判定，地层年代划分，语言的谱系等等，说几个见得比较少的吧。
1. 1947年印度刚刚独立，德里附近发生暴乱，某少数民族团体避难至受保护区域。承包商负责向政府索要生活必需用品，提供给难民。由于敌对关系难以实地调查，如何估计难民人口数量？
2. 二战期间招募士兵，由于某种罕见疾病需要进行血检。患病率很低，需要尽量减少检验工作量，怎么办？

第五章最后还提了一个很令人惊讶的结果，子女SAT成绩与孩子数量负相关，同时出生的顺序也与孩子成绩负相关（越靠后分数越低）。
------------------------------------------------------------------------

在最后，稍微数落一下译者吧。
汉译本出版于2004年，我对译者在人文方面的知识掌握感到非常的钦佩。
比如，94页出现的著名人物”朱莉阿斯·西撒“，96页柏拉图”爱的盛宴“（Pheadrus），88页写了”联邦主义论文集“的”马德森“，等等。

有关键情节透露