第6章 “百年一遇的洪水”
知道极值分布有什么好处呢?如果我们知道极值分布与普通值分布的联系,我们就可以通过记录每年的洪水峰值来预测“百年一遇的洪水”最有可能达到的峰值。我们之所以能够这么做,是因为每年的洪水观测值足以用来估计蒂皮特的分布参数。因此,美国陆军工程部队可以计算出河堤的合适高度;环境保护署可以设置排放标准,以控制工厂烟囱排烟量的瞬时极值;棉纺织工业也可以确定影响最弱纤维强度分布参数的棉线制造因素。 1958年,哥伦比亚大学工程学教授埃米尔·J。耿贝尔(Emil J。Gumbel)出版了一本关于该主题的权威著作,题为《极值统计学》。耿贝尔的作品覆盖了一个统计学家关于这个主题需要知道的全部内容。这本书不仅包括蒂皮特最初 引自 第6章 “百年一遇的洪水” 皮尔逊将测量值的分布看作真实存在的事物。在他的方法中,在给定情形里,存在一个巨大但有限的测量值集合。理想情况下,科学家可以收集所有这些测量值,确定分布参数。 如果无法收集所有测量值,那么你可以收集一个具有代表性的巨大子集。根据这个具有代表性的巨大子集计算出的参数与整个集合的参数是一样的。此外,用于计算整个集合参数值的数学方法也可以用于计算具有代表性子集的参数,不会带来严重的误差。 引自 第6章 “百年一遇的洪水” 对费希尔来说,这组测量值是从所有可能的测量值集合 中随机选择的。因此,根据这种随机选择得到的任何参数格计值都是随机的,具有某种概率分布。为区别实际参数,费希尔将这种估计值叫作“统计量”,现代的说法通常叫“估计量”。假设我们有两种方法获得估计给定参数的统计量。例如, 老师希望确定学生掌握的知识(参数),进行了一组测试(测量值),得到了平均值(统计量)。他应该将中值作为统计量,还是将这组测试中的最高分和最低分的平均分作为统计量,抑或是去掉最高分和最低分、将其余测试的平均值作为统计量呢? 由于统计量是随机的,因此谈论统计量的某个值多么准确是没有意义的。这和谈论一次测量的准确度没有意义是一样的道理。我们需要的是统计量的概率分布标准,正如皮尔逊认为需要评估的是一组测量值的概率分布而不是个体观测值。费希尔提出了良好统计量的几个标准: 一致性:你得到的数据越多,你计算出的统计量越 有可能接近参数真值。 无偏性:如果你对不同数据集多次使用某个统计量, 这个统计量的平均值应接近参数真值。 有效性:统计量的值不会与参数真值完全相等,但在估计一个参数的众多统计量当中,大多数统计量与真值的差异不会很大。 这些描述有些模糊,因为我已将精确的数学公式翻译成了简单的文字。在实践中,人们可以用适当的公式评估费希尔的标准。 在费希尔之后,统计学家又提出了其他标准。费希尔本人在之后的工作中也提出了一些辅助标准。在这些复杂的标准中,最重要的一点在于考虑到统计量的随机性,良好的统计量具有良好的概率特性。我们永远无法知道一组数据的统计量的值是否正确,只能说使用某种程序得到了满足这些标准的统计量。 在费希尔提出的三个基本标准中,无偏标准吸引了公众的注意力。这很可能是因为“偏差”这个词具有某种令人无法接受的暗示。似乎没有人希望获得拥有偏差的统计量。美国食品药品监督管理局的官方指导告诫人们使用“无偏”方法。一种叫作“意向性治疗”的非常奇怪的分析方法(第二十七章会详细讨论)开始主导许多医学试验,因为这种方 引自 第6章 “百年一遇的洪水” 法可以保证结果的无偏性,尽管这种方法在效率上的表现可能并不好。 实际上,有偏统计量常常具有很高的有效性。在费希尔的努力下,用于确定市政水源净化用氯气浓度的标准方法依据的就是一个有偏(同时也是一致而有效的)估计量。这完全可以看作社会学的某种教训一它们显示了人们为清晰定义某一概念而使用某一词语时如何无意中将无关的情绪带到科学上,从而影响人们的行为。 引自 第6章 “百年一遇的洪水”
31人阅读
麒麟对本书的所有笔记 · · · · · ·
-
第2章 偏斜分布
戈塞特1904年发表的第一篇论文讨论的就是这种问题。当人们准备发酵用的麦芽浆时,需要使用经...
-
第4章 堆积如山的记事本
此时,洛桑农业实验站主任约翰·拉塞尔爵士(SrJohn Russell))也向费希尔抛出了橄榄枝。洛...
-
第6章 “百年一遇的洪水”
-
第6章 “百年一遇的洪水”
时的数学家已经开始发展代数学,不过大多数人仍零不擅长计算。银行蒙使用一种叫作“试位送规...
-
第8章 致死剂量
根据费希尔的思想,布利斯很快开始设计实验,将昆虫分成不同小组,放在玻璃瓶中,设置不同的...
> 查看全部12篇
说明 · · · · · ·
表示其中内容是对原文的摘抄