《统计数字会撒谎》试读:内在有偏的样本

有一个装着红、白两色豆子的桶,如果你想要准确知道这个桶中两种豆子的数量,你惟一能做的只有一颗一颗地数豆子。 用一种更简单的方法也可以揣测红豆的数量:抓一把豆子,假定手中红豆的比例与桶中红豆的比例相同,只要数一数手中的豆子即可。如果你的样本足够大,并且选择方法正确,在大多数情况下它能够很好地代表整体。但是,如果以上两个条件不满足,这样的样本比一个臆想好不到哪儿去,除了能够营造科学精确的假象之外,其他则根本不值一提。不幸的是,我们所看到的,或者我们自以为了解的许多事物,往往都是根据类似样本所得出的结论,这种样本可能变得有偏,由于选择方式的不合理或者容量过小,抑或两种情况同时存在。 通过一个极端的例子可以马上看到如何形成有偏的样本。假设你向同胞发放问卷,问卷中包含这样一个问题:"你乐意回答调查问卷吗?"整理所有的答案,你很有可能得到下面的结论:"一个选自总体、典型的横截面"中,压倒多数的人选择了"乐意"。为了具有说服力,你还可以详细列出这个比例,直至最后一位小数。事实上,大多数持否定意见的人,已经随手将你的问卷丢进最近的纸篓中,从样本中自动除名了。哪怕最初的样本中,10个里面有9个会当这种"投手",在宣布你的结果时,你仍然会遵从惯例,忽略他们。 现实生活中,样本会按照上述方式变得有偏吗?相信我,一定会。 不久前,报纸和新闻杂志上报道:近10年来美国大约有400万名天主教徒变成了基督教徒。资料来源于由丹尼尔·A. 波林(Daniel A. Poling)牧师主导的调查,丹尼尔·A·波林是教派组织《基督教先驱报》(Christian Herald)的编辑。《时代》(Time)杂志描述了整个故事的梗概: "通过对全美基督教牧师的横截面展开调查,《先驱报》得到了调查结果。调查共发出25000份问卷,其中2219名牧师反馈回了问卷,回收的问卷显示:在过去10年里共有51361名原罗马天主教徒变成了基督教徒。根据样本推算,波林得到了全国范围的估计:近10年来全美共有4144366名天主教徒改变信仰,变成了基督教徒。主教威尔·奥斯勒(Will Oursler)写道:'即便考虑到误差,全美范围内这一数据也不可能少于200万或者300万,而且很有可能接近500万。'" 虽然《时代》没能指出真相的关键之处,但是它却使我们了解到被调查的牧师中超过90%的人没有回答,这已经值得我们向它鞠躬表示敬意了。为了彻底破坏调查结果的可信度,我们只需要指出:这个"500万"是不可靠的,因为调查中有高达90%的牧师没有发表看法,或许他们中大多数都早已将调查问卷投进了纸篓。 根据以上判断,我们利用管辖范围内所有牧师人数,即181000人--该数据就是波林博士计算时所采用的数据--进行自己的推算。由于从181000名牧师中抽取了25000人接受调查,得到了改变信仰的教徒为51361人,如果调查全部牧师,转变信仰的总人数应该约为370000人。 我们这种粗糙的方法产生了一个十分可疑的数据,但是它至少与那个在全国范围发布的数据一样"可靠",而后者却是前者的11倍,是的,300万看上去更加令人欢欣鼓舞些。 至于奥斯勒先生充满自信的那句话"考虑到误差",好吧,如果他发现了一种方法足以弥补未知量所带来的误差,那么整个统计界都将会为之感激涕零。 在上述背景下,让我们来研究一则以前的新闻报道:"1924级的耶鲁毕业生平均年收入为25111美元",要知道几年前的钱是更值钱的。 好家伙,他们干得真不赖! 可是,等一等,这个令人印象深刻的数字到底意味着什么?是否像表面看到的那样,足以证明如果你把你的男孩送进耶鲁大学,或者牛津大学,那么在年老时,你就不需要辛苦地上班,甚至他将来年老时也不用上班? 在充满怀疑的惊鸿一瞥后,关于该数字的两个疑点凸现出来:它惊人的精确;它大得令人难以置信。 对一群相隔千山万水的人,了解他们的平均收入,而且竟然精确到以元为单位,这几乎不太可能。就算是自己去年的收入,除非全部来自薪水,否则也很难知道得如此准确。但是对于年收入25000美元的阶层来说,投资渠道更广,因此他们的收入不可能完全来自于薪水。 而且毫无疑问,这个可爱的平均数出自耶鲁人之口。即使1924年他们在纽海文译者注:纽海文是美国东北部康涅狄格州的一个城市,耶鲁大学就坐落在这个城市。接受过优良的教育,也很难保证四分之一个世纪后,他们还能坚持说真话。当问及收入时,有些人出于虚荣或者天生乐观而夸大数据;有些人却故意缩小数字,特别当涉及征所得税问题时,往往会犹豫不决,生怕与其他文件填报的数据不符,谁知道税务员又看到了什么?这两种趋势--夸大与缩小,也许将相互抵消,但这种可能性很小。一般而言,一种趋势总会强于另一种,但我们很难猜测哪种趋势将胜出。 我们试着来解释这个数字,单凭常识就知道这个数字与现实出入很大。现在,让我们找找最大误差的可能来源。是什么使那些实际上收入也许只有25111美元一半的人们最终会拥有如此丰厚的平均收入?让我们来揭开这神秘的面纱。 可以肯定的是:耶鲁毕业生的报道基于对某个样本的分析,因为常识告诉我们,没有人能够掌握所有仍在世的1924级学生的情况,25年后,他们中的许多人已经消失在茫茫人海中。 并且,在那些能够取得联系的人中,许多人根本不会回答问卷,特别是一个涉及隐私的问卷。一般情况下,邮寄问卷的回收率达到5%~10%就已经相当可观了。也许这个调查的回收率会高些,但也不可能达到100%。 因此,这个收入数据建立在一个样本之上:由能够取得联系并愿意回答问卷的耶鲁学生组成。那么,这个样本的代表性强吗?也就是说,能否假设样本与未被样本包括的那些人--无法联系的人或者不愿意回答的人--具有同等的收入水平? 那些在耶鲁大学毕业生通讯录上被注明"地址不详"的迷路小羊羔是谁呢?他们是高收入阶层吗?华尔街的金融家、公司领导层,亦或是制造企业或公用事业的总裁?不,要找到富人的地址根本不难。这个班级最显赫的人,即使忽略了与校友办公室联系,他们的地址也可以通过查《美国名人录》(Whos Who in America)或其他参考资料找到。因此,我们可以较合理地推测,那些被遗漏的人在获取耶鲁文学学士以后的25年间,他们没能实现自己光辉梦想,他们是小职员、技工、流浪汉、失业的酒鬼、仅仅得以糊口的作家或艺术家……将六七个甚至更多这种人的收入相加才可能达到25111美元。他们不会在班级的联谊会上注册,仅仅是因为他们支付不起路费。 又是谁会将调查问卷丢进最近的废纸篓?我们不太肯定,但是猜想他们中大部分人并没有赚到足以炫耀的数目。他们的心态有些类似于第一次拿到工资的小职员,当他发现工资支票上粘着一张小纸条,建议保密工资并不要将工资作为与同事的谈资时,"别担心,"他对老板说,"我与你一样,对这么低的工资感到羞愧。" 很明显,样本遗漏了可能降低平均收入的两类人。让我们见识一下25111美元的庐山真面目:如果它是一个真实的数据,它也仅仅代表了1924级耶鲁学生中能够联系上的,并愿意站出来说出收入的一个特殊群体。当然,它的真实性还需要满足这个假定:这些绅士们说的都是真话。 我们能否过于轻率地做出这样的假定呢?来自抽样理论的一个分支,即市场研究的经验告诉我们,人们会说真话的假定往往是不可靠的。以前曾经做过一项了解杂志读者阅读量的上门调查,其中的一个主要问题是:"你和你的家人阅读什么杂志?"当将调查结果制表并分析后发现:喜欢《哈泼斯》(Harper's)杂志的人相当多,这本杂志如果不能说是曲高和寡,但至少也是品位不俗;而喜欢《真实故事》(True Story)--一本定位大众化杂志的人就不多了。但是几乎同时期的、由出版商提供的数据很明显地显示出相反的结果:《哈泼斯》杂志的发行量只有几十万份,而《真实故事》杂志的发行量却多出了百万份。正如这项调查的设计者所疑惑的,也许他们问错了对象,但这又并不可能,因为上门调查走访了美国范围内各式各样的居民区。惟一合理的解释是许多被调查者,即那些调查中回答问题的人没有说实话,几乎所有的调查都无法阻止人们往自己脸上贴金的做法。 最后你将发现,当你想知道到底什么人在读某本杂志时,询问是无济于事的。直接上门去告诉他们你想收购旧杂志好了,看看他们能提供什么,这样你才能掌握更多的信息。你只需要清点一下《耶鲁评论》(Yale Reviews)和《爱情罗曼史》(Love Romances)各自的份数就够了。当然,即便采用这种方法也只能说明人们曾经买了什么,而不能确定人们读过些什么。 同样,当你下次看到普通美国人(最近,这个词频繁出现,但大多数情况下却是不现实的)每天刷牙1.02次时,虽然这个数据是我瞎编的,但它与别人的数据一样好用。请问自己一个问题:不管是谁,他怎样才能发现这个事实呢?在看了铺天盖地的、宣传不刷牙是对社会冒犯的广告之后,一名妇女还会向陌生人承认自己不经常刷牙吗?这个统计资料只能对那些希望了解人们如何看待刷牙的人才有价值,却根本不能反映牙刷接触牙齿的频率。 我们知道,除非在某处安装了泵站,否则一条河流永远不可能高于它的源头。同样的,根据样本得到的结论不会比样本更精确。当数据经过层层统计处理,最后简化为一个带小数点的平均数时,结论似乎闪耀着精确的光芒,但只要再仔细留心整个抽样过程,这个光芒就会消逝。 为了确保结论有价值,根据抽样得出的结论一定要采用具有代表性的样本,这种样本才能排除各种误差。这就是耶鲁的收入数据失真的原因,它也是你在报纸和杂志中读到的许多资料根本不值一提的原因。 一位心理医生曾经写道:实际上每个人都有点神经质。暂且不去管这种提法是否破坏了"神经质"一词的含义,我们来看看这个医生的样本,也就是说,他观察了哪些人才得到了上述结论?事实上,他是在对他的病人进行研究后才得到了这个发人深省的结论,这和代表全体人的样本可差的是十万八千里。想想看,如果一个人心理健全,他是永远都不会接受心理医生的治疗的。 对你所读到的东西多思考一下,你将避免接受许多似是而非的结论。 记住下面这点是有益的:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。事实上误差总是存在,如果你仍旧半信半疑,想想1948年和1952年的美国总统大选,它们已足够证明这一点。(1948年美国选举时,所有民调都显示民主党的杜威会获胜,结果却是杜威败给了共和党人杜鲁门,这是美国历史上至今最大的"选举惊奇"。1952年美国大选,新闻传媒普遍看好民主党竞选人史蒂文森,最终共和党候选人艾森豪威尔以绝对优势赢得这场选举。) 更远的例子可以追溯到著名的《文学文摘》(Literary Digest)的惨败,这件事发生在1936年。曾经准确预测了1932年美国大选的1000万个电话用户和《文学文摘》订户,他们又对1936年的大选结果进行了预测,他们向那个倒霉的杂志编辑信誓旦旦地保证:兰登(Landon)将在竞选中脱颖而出,并且与罗斯福(Roosevelt)的所得票数之比为370∶161。这样一个久经考验的调查群体怎么可能产生误差呢?但的确有误差,正如后来许多大学论文和其他史学分析人员所发现的,1936年就有能力购买电话和订阅杂志的人并不能代表所有的选民,至少在经济上,他们是一个极特殊的群体,是有偏的,后来证实他们中的许多人是共和党的选民。该样本选择了兰登,而全国选民却心系罗斯福。 最基本的样本是随机样本,它是指完全遵循随机原则从总体中选出的样本。总体即形成样本的母体。把索引卡片文件夹中每隔10个的名字抽出来,从许多纸张中任意抽出50张,在皮卡迪利大街译者注:皮卡迪利大街是英国伦敦市一条繁华的街道。每遇见的第20个人作为访问对象。(但需要注意的是,在最后一个例子中,总体并不是全世界的人,也不是全体英国人或者所有旧金山人,而只是当时在皮卡迪利大街上的人。一个进行民意调查的访问员宣称,她选择在火车站进行调查的原因是"在那里能遇到所有类型的人。"不过,不得不向她指出的是,某些人比如婴儿母亲的代表性并不足。) 随机样本的检验方法是:总体中的每个名字或每个事物是否具有相同的几率被选进样本?纯随机样本是惟一有足够把握经受统计理论审查的样本。但它也有不足之处,在很多情况下,获得这种样本的难度很大并且十分昂贵,以至于单纯考虑成本就会排除它。分层随机抽样是一个更经济的替代品,目前在民意调查和市场研究等领域中得到了广泛的应用。 为了获得分层抽样下的随机样本,你需要将总体按照事先已知的优势比例划分出不同的组。这时你就可能遇上麻烦:关于分组比例的信息可能并不正确。你对访问员进行指导,以确保他们调查到一定数量的黑人,按照这样或那样的比例调查属于不同收入阶层的人,调查一定数量的农民,等等。同时,每一组人中40岁以下和40岁以上的人数相同。 这听上去很不错,但实际上会怎样呢?在黑人还是白人的问题上,大部分时候访问员能够准确判断。但在收入分组时,他会出很多错。至于农民,你如何划分一个在城镇上班又有部分时间种地的人?即便是岁数的问题也会引起差错,为了确保准确性,访问员会挑选那些看上去明显小于40岁或明显大于40岁的人进行调查。在这种情况下,由于缺少40岁左右的人而导致样本有偏。你不可能获得可靠的结果! 除此之外,你如何在各层内部获得随机样本呢?最有效的办法是准备好每一层内部所有单位的名单,并调查那些被随机抽中的单位。当然,这耗资不菲。于是你转而进行街头调查,但由于遗漏了那些窝在家里的人而变得有偏;你在白天挨家挨户地上门调查,又把大部分上班族给弄丢了;转而改成晚上访问,又忽略了那些看电影和去夜总会的人。 民意调查最终将演变为一场与误差的持久战。所有信誉良好的调查公司始终战斗在第一线。调查报告的读者应谨记这点:这场战斗永远不可能取得胜利。在看到"67%的英国人反对"某事或其他类似的字眼时,应保留这样一个问题:67%的哪部分英国人? 阿尔弗雷德·C·金西(Alfred C. Kinsey)博士近期出版的《男性卷》和《女性卷》也存在这个问题。书中的人虽然已经证实了是不折不扣的新潮人物,但是由于抽样过程与随机抽样实在差得太远,调查结果仍然受到了质疑。抽样名单包含了太多接受过大学教育的人(女性中该比例达到75%)和服刑人员,这已经够糟糕的了,但是更严重的缺陷是样本极有可能严重偏向于有自我宣传性行为倾向的人,而且人们很难察觉到这个缺陷。当谈论的主题与性有关时,那些沉默寡言的、对着满怀希望的访员说不,并对于那些将自己从样本中淘汰出局的人,他们与主动站出来说出全部的家伙在性行为上存在很大的差异。 布鲁克林学院(Brooklyn College)的A·H·马斯洛夫(A. H. Maslow)所作的一项研究表明:上述推断不仅仅是猜测。他的研究样本中包括了许多女学生,后来她们都主动参加了金西博士的访谈。马斯洛夫发现:一般而言,这些女孩子在关于性的问题上观念更开放而且有更多的经历。 当我们阅读金西的书,或者阅读任意一个近期关于性行为的研究成果时,关键的问题在于如何理解它,才能避免学习到一些根本就不是那么回事的东西。在任意一个基于抽样的研究中,这个问题都十分严重,当你将你的"大部头"或者主要的研究报告采用通俗的手法进行概括时,这个问题会更加严重。 首先,在与金西相类似的工作中,至少包含了3次抽样。正如以前所指出的,从总体中抽出的样本(第一次抽样)远不能称为随机抽样,因此可能对所有的总体都不具备显著的代表性。同样重要的是,我们还需要了解到:任何一个调查问卷都只不过是所有相关问题的样本(第二次抽样)。而绅士或者女士们所给的答案也只不过是他(或她)关于每个问题的态度或者经历的样本(第三次抽样)。正如在其他调查中发现的那样:由哪些人组成调查人员会对结果产生有趣的影响,金西的调查也可能如此。二战期间,美国民意调查中心(The National Opinion Research Center)派出了两组调查人员对某南方城市的500名黑人进行提问,问题只有3个。一组调查人员由白人组成,另一组是黑人。 其中一个问题是:"如果日本占领美国,你认为黑人的境况会得到改善还是变得更糟?"黑人组成的调查组,9%的被调查者回答"变好",而白人调查组该比例只有2%。回答"变坏"的比例也不相同,黑人调查组只有25%,而白人调查组则达到45%。 用"纳粹分子"替代"日本",两组的结果大体相同。 第三个问题试图探测被访者的真实态度,这种态度以前两个问题所表现出来的感受为基础。"你认为目前致力于打败轴心国(the Axis)比在国内进一步推进民主更重要吗?" 在黑人组成的调查组中,选择"打败轴心国"的比例是39%,而白人组成的调查组则是62%。 这是由莫名因素造成的误差,恐怕其中最重要的因素是被调查者迎合对方说好话的倾向,当我们在阅读调查结果时必须考虑到这一点。在战争时期回答一个暗含是否忠诚的问题时,一个南方黑人对白人说了一些听起来不错但并不代表他真实想法的话,这不是很正常吗?当然,区别的起因也可能在于不同的调查人员选择了不同的对象进行交谈。 在上述例子中,结果如此明显有偏而导致毫无价值。你可以试着自己分析还有多少民意调查的结论,虽然并无有效的方法揭露它们,但却同样有偏,同样无价值。 一般而言,民意调查都带有一定方向的误差。就像前文所举《文学文摘》例子的偏差一样,如果对此表示怀疑,你还可以找到许多恰当的例子来证明。在《文学文摘》的例子中,与希望代表的全体选民相比,由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定习惯等特点的群体,而产生了误差。 为什么会这样呢?下面的例子将有助于你理解这一点。假设你是一个被分配到街道某个角落进行调查的人员,有两个看上去符合调查要求的人--年龄大于40岁的黑人农民--向你走来,一个人穿着干净制服,上面打着整齐的补丁,感觉整洁清爽,而另一个人看上去肮脏、态度粗暴。为了完成工作,毫无疑问你会向更加符合要求的人走过去,而遍布城市其他角落的你的同事也会做出同样的抉择。 一些反对民意调查的最强烈的情绪来自于自由主义者或是左翼集团,他们普遍认为这些调查都是人为操纵的。这种观点背后的事实是:民意调查结果经常与那些思想开放人士的观点和意愿不相符合。他们指出,民意调查的结果选择了共和党人,但不久之后选票者却做出了相反的选择。 但实际上,正如我们前面所看到的,民意调查并不一定是被操纵了,也就是说,并不一定要为了制造假象而恶意扭曲结果。样本有偏的趋势本身就可以自动地操纵结果,使其变得扭曲。

>统计数字会撒谎

统计数字会撒谎
作者: [美] 达莱尔·哈夫
原作名: How to Lie with Statistics
isbn: 750742085X
书名: 统计数字会撒谎
页数: 154
译者: 廖颖林
定价: 28.00
出版社: 中国城市出版社
装帧: 精装
出版年: 2009-3