精华几例
![](https://img9.doubanio.com/icon/u26941615-6.jpg)
第四章讲的是有偏数据的加权分布,是理论味道最重的一章,但确实很有意思,希望我能用简单的话简要介绍一下。
假设我们想收集这样的数据:找一个男学生,问问他家里有几个男孩,有几个女孩,记录下来。这个数据显然是有偏的,因为这些家庭都至少有一个男孩。
记家庭孩子总数N,男孩总数B(Brother),女孩总数S(Sister)。显然B+S=N,而且B>0。
让我们考虑固定N。比方说就固定N=6吧。
如果数据无偏,也就是我们随意调查有6个孩子的家庭,看看男孩子数B的分布是什么样的呢?
自然,这个分布是(1,6,15,20,15,6,1)/64 二项分布嘛。
可是数据有偏,也就是没有B=0的可能性了,怎么办的?
办法一:把B=0的这一项删掉,分布变成了(6,15,20,15,6,1)/63,这种分布称为“截断分布”。
办法二:把这一个男孩子扔掉不管,考虑别的孩子完全与这一个男孩无关,那么分布就应该是(1,5,10,10,5,1)/32,这种分布称为“加权分布”——也就是这一章的标题。
调查发现,实际数据更符合加权分布,而不是截断分布。
这是个简短的比较浅显的概括,书中针对加权分布还有更详细一些的介绍,还举了别的例子。这部分理论就是作者Rao自己的工作。
------------------------------------------------------------------------
个人认为,精华集中在三四五这三章。另外的内容就有些太通俗了。可能跟作者当时做讲座的历史情况有关,也许那时统计的思想方法还没有深入到群众当中。
第三章说了一些历史上科学界数据造假的故事,譬如著名的孟德尔豌豆遗传实验。了解的人自然已经了解了,还不知道的人看了可能会比较有乐趣。
------------------------------------------------------------------------
第五章提出了很多很有意思的统计学应用,包括联邦党人文集作者的判定,地层年代划分,语言的谱系等等,说几个见得比较少的吧。
1. 1947年印度刚刚独立,德里附近发生暴乱,某少数民族团体避难至受保护区域。承包商负责向政府索要生活必需用品,提供给难民。由于敌对关系难以实地调查,如何估计难民人口数量?
2. 二战期间招募士兵,由于某种罕见疾病需要进行血检。患病率很低,需要尽量减少检验工作量,怎么办?
第五章最后还提了一个很令人惊讶的结果,子女SAT成绩与孩子数量负相关,同时出生的顺序也与孩子成绩负相关(越靠后分数越低)。
------------------------------------------------------------------------
在最后,稍微数落一下译者吧。
汉译本出版于2004年,我对译者在人文方面的知识掌握感到非常的钦佩。
比如,94页出现的著名人物”朱莉阿斯·西撒“,96页柏拉图”爱的盛宴“(Pheadrus),88页写了”联邦主义论文集“的”马德森“,等等。
假设我们想收集这样的数据:找一个男学生,问问他家里有几个男孩,有几个女孩,记录下来。这个数据显然是有偏的,因为这些家庭都至少有一个男孩。
记家庭孩子总数N,男孩总数B(Brother),女孩总数S(Sister)。显然B+S=N,而且B>0。
让我们考虑固定N。比方说就固定N=6吧。
如果数据无偏,也就是我们随意调查有6个孩子的家庭,看看男孩子数B的分布是什么样的呢?
自然,这个分布是(1,6,15,20,15,6,1)/64 二项分布嘛。
可是数据有偏,也就是没有B=0的可能性了,怎么办的?
办法一:把B=0的这一项删掉,分布变成了(6,15,20,15,6,1)/63,这种分布称为“截断分布”。
办法二:把这一个男孩子扔掉不管,考虑别的孩子完全与这一个男孩无关,那么分布就应该是(1,5,10,10,5,1)/32,这种分布称为“加权分布”——也就是这一章的标题。
调查发现,实际数据更符合加权分布,而不是截断分布。
这是个简短的比较浅显的概括,书中针对加权分布还有更详细一些的介绍,还举了别的例子。这部分理论就是作者Rao自己的工作。
------------------------------------------------------------------------
个人认为,精华集中在三四五这三章。另外的内容就有些太通俗了。可能跟作者当时做讲座的历史情况有关,也许那时统计的思想方法还没有深入到群众当中。
第三章说了一些历史上科学界数据造假的故事,譬如著名的孟德尔豌豆遗传实验。了解的人自然已经了解了,还不知道的人看了可能会比较有乐趣。
------------------------------------------------------------------------
第五章提出了很多很有意思的统计学应用,包括联邦党人文集作者的判定,地层年代划分,语言的谱系等等,说几个见得比较少的吧。
1. 1947年印度刚刚独立,德里附近发生暴乱,某少数民族团体避难至受保护区域。承包商负责向政府索要生活必需用品,提供给难民。由于敌对关系难以实地调查,如何估计难民人口数量?
2. 二战期间招募士兵,由于某种罕见疾病需要进行血检。患病率很低,需要尽量减少检验工作量,怎么办?
第五章最后还提了一个很令人惊讶的结果,子女SAT成绩与孩子数量负相关,同时出生的顺序也与孩子成绩负相关(越靠后分数越低)。
------------------------------------------------------------------------
在最后,稍微数落一下译者吧。
汉译本出版于2004年,我对译者在人文方面的知识掌握感到非常的钦佩。
比如,94页出现的著名人物”朱莉阿斯·西撒“,96页柏拉图”爱的盛宴“(Pheadrus),88页写了”联邦主义论文集“的”马德森“,等等。
有关键情节透露