《统计数据的真相》试读:第1章 准确度的假象

    缺乏数学修养不仅是因为对数学的一无所知,而且也是因为出于对数字计算的过度依赖。     —卡尔·弗里德里希·高斯     不久以前,我的纳税申报单摆在了我的面前。这种情形对于大家来说早已经是司空见惯。当初为了购买各种各样的东西而发生了这样和那样的大量开支,可时至今日,发票哪去了呢·可能已经丢失了或者不知道被自己搁到了什么地方。如果人们仅仅是因此而必须多缴税费的话,那一定是非常糟糕的事情。     但是,且慢!财政局不也是接受了那些虽未附上发票但已经发生了的费用吗·按照联邦税务法院的判决标准,可能会出现下面的情形:如果“小概率事件”一定要求证明其真实性,那么产生这种真实性的可能性从根本上来说也会通过其他方式制造出来,即使是通过最简单的方式—收据来证明其存在。问题仅此而已。     事实上,我一般这样做:不写“60马克”,因为这样写会让人感觉不可信,事情应该是这样的:“大约是60马克,但准确的数字我已经记不清楚了”,于是,我写下“办公用品支出:58.24马克”。一般来说,专业人员可能更接受这种表达方式,而不是“大约60马克”之类的说法;如果专业人员想进一步了解证明文件(如收据)的真实性,那么这种风险(编造数据的风险)在此也不会太大。换言之,我是在编造数据而已。     1909年4月6日,美国人罗伯特·埃迪温·皮尔里(Robert E. Peary)到达地球的北极,从而成为世界上第一个到达北极的人。至少皮尔里本人是相信这一点的。说得确切一些,他希望全世界的人都相信他所取得的这个结果,所以,他确定了他到达北极的位置是北纬89度57分11秒,距离北极点大约5公里—这些数据对于皮尔里的实际目标来说已经是一个巨大的成功了,并且准确地说,这种效果也是他精心策划出来的。     实际上,皮尔里根本不可能把他自己的位置精确到30米的距离(因为11秒不会发生任何事情)。即使在今天,借助于卫星定位这种现代化的辅助手段,也不可能取得如此微小的、精确的结果。所以,这件事情在那个时候根本就是不可能的。就连皮尔里的朋友也承认,在最理想的情况下,皮尔里通过其有限的工具也只能准确地标注到6分(纬度)或10公里,其他指标干脆就是他自己杜撰的。     我曾经在某个媒体读到下面的信息:世界上有8 523 012人(请注意,这里的人数精确到12人!)把匈牙利语作为母语。从常识上看,这个统计结果肯定是错误的,除非是上帝这个全能的造物主创造了这么多的人!大概是一个嗜好数字的“恶人”发明了全部的指标,但不包括像皮尔里一类的第一批到达北极的人。     尽管如此,我们还是相信他们所给出的各种指标。当我们在陌生的地方问一个人:“从这里到最近的邮局有多远·”其中一人回答:“嗯,向前走3公里左右的样子,然后左拐。”而另一个人则回答:“直行2.4公里,然后右拐。”那么,我们到底相信谁·在需要抉择的十字路口,我们是向左走还是向右走·     我相信,绝大多数人会向右走。我们之所以向右走是出于一个相同的原因,这就是为什么我们相信一个探险北极的研究者,他能够知道自己的精确位置,直到秒的程度。或者我们相信一个语言学者,他告诉我们每一个人,世界上哪些人在说这种或者那种语言。常言道“人靠衣装,佛靠金装”,同样也可以说数字妆扮指标。如果指标拥有的数字越多,那么我们就越相信这些指标。     1.1 玛士撒拉有多大岁数     与一个整数相比,非整数更容易得到人们的肯定。通过这种非逻辑的思考方式,一个虚假的非整数字便得到了人们先入为主的信任。而这一切产生自日常人们所说的“整数(约数)通常都是错的”,或是我们对现实的不正确反映(并非是真实的映像),也就是说,一个准确无误的数字总是不真实的。例如,在我已往的生活中,电话账单还从未出现过精确到100马克的现象。我不能准确地回忆起与自己的妻子或朋友吃饭时花了多少钱,究竟是否恰好200马克或300马克,类似这些整齐的数字在实际生活中从未出现过。当然也有一些例外现象。     因此,我们就会本能地得出一个相反的结论,即每一个非真实的数字必须是无可指摘的(即经过加工处理过了的,从形式上看没有问题,也指真实的数字都不是整数)。当然这种认识是错误的。超级市场中商品的价格就属于非整数,其价格几乎都是非整数(在德国等发达国家几乎无一例外)。例如,超级市场在销售果酱时,不是标价3马克,而是标价2.97马克。这种情形与下面的事情是一个道理,载重汽车方面的专家在法庭上提供证据,指出某辆汽车的制动距离是63.59米。或者就像一个钓鱼者,他向我们描述最近一次钓鱼的成绩。他从来不会吹嘘自己钓了两打金枪鱼,他会说23条,并且还会提及有一条金枪鱼从自己的鱼钩上逃脱。     这种在数字上所使用的花招就像数字本身一样古老。《圣经》是这样描述的:亚当活了930岁,他的儿子塞特活了912岁,而有名的玛士撒拉甚至活了969岁。天才的作者说不定会这样认为:所有这些男人都是非同寻常的长寿。然而,这个作者已经完全清楚地看到,一个认真严肃的专业书籍作者是不应该这样写的,原因是人们能够完全相信专业作者所做出的结论,即使这个结论是没有经过深思熟虑的研究而草率做出的判断。与此相反,969岁的玛士撒拉这一表述,对于每一位读者来说已经清楚地表明:该书作者对细节部分的资料也是运用自如。     因此,歌利亚(Goliath,被戴维杀死的巨人)也不是“非常大”或者“巨大”,而是精确到六肘零一虎口(肘的算法有几种,最短的一种是0.5米为1肘,6肘便等于3米。六肘零一虎口,即3米多)。还有那顶神圣的帐篷,以色列人在他们行军过程中就是携带着这顶帐篷通过沙漠的,它不仅具有令人吃惊的长度和宽度,而且在尺寸上还精确到长度是820肘,宽度是18肘。另外,《圣经》中所描述的那个着名的约柜,长2.5肘,宽1.5肘,高1.5肘,为了制造它所花费的黄金是29塔兰特(古希腊、古罗马等国的重量或货币单位)和730舍客勒(Schekel,以色列的货币),所花费的白银是100塔兰特和1775舍客勒,“对于普通人来说,挣半个舍客勒就需要20年的时间,这样就可以得到一个确定的数字,做这个柜子需要603 550个男人”。     16世纪德意志宗教改革家菲利普·梅兰希通(Philipp Melanchthon)把创造地球的时间精确到公元前3963年,而英国神学家约翰·莱特福特(John Lightfoot)甚至还要精确得多:“天和地,还有全部的东西,都是由三位一体的上帝创造的,并且是在同一时间创造的,这个时间就是公元前4004年10月21日,星期日,上午9点钟。”到了这时,任何一个怀疑都被清除干净了。     联邦德国统计局公布,某年(X年)年末,联邦德国居民总计61 140 461人(其中失业者2 228 788人,具有外国国籍者4 240 500人),同时在农民的牧场里还有24 502 300头猪、1 779 000只羊和15 806 300头牛;某年(Y年)拥有无限缴纳财产税义务的公民总计667 259人,其全部财产是47 943 700万马克;某年(Z年),12 828名公民死于肺炎;能源行业员工的平均工资水平是59 826马克;矿工一年只挣44 744马克;在德国的宿营地上共有435 474名来自丹麦的客人过夜;325 519起交通事故有人员伤亡;联邦德国公民每年消费11.2千克禽肉。     通过加法而得到的精确度:只有上帝一个人才知道牺牲者的真实数量。     资料来源:Fighting with Figures,伦敦 1995年,这是一本英国人编的书,专门用来统计第二次世界大战时的各种资料。     人们究竟从哪里得到这些精确数据·联邦德国的居民也只能在人口统计资料公布后大概知道,德国现在有多少人。如果是在两次人口统计之间,那么人们就更加不清楚有多少人。总共有8个指标反映居民数量,在最好的情况下,可以依赖的是最前面的两个指标,但通常这两个指标也都不可靠。更糟糕的是对不同类型居民的衡量标准,比如外国人或者失业者,关于这方面的问题我们将在后面专门用一章来讨论,通过对定义进行最小程度的变动,我们可以把这些数字毫不费力地移植到各个方面。关于家禽的数量问题,由于各种不同的原因,大家公认这个数字是不准确的。由于其他方面的原因,财产税统计从根本上来说是不可信的,还有死因方面的统计也是非常不准确的。(在根据病理学事后调查的条件下,一般来说,1/3官方公开的死因是错误的。)在非独立就业者(如工人、职员等)的收入方面,有哪些收入从根本上来说并不属于他们的收入,同样也是不清楚的。(例如,工人的食堂饭菜或职员的服务用车是不是也属于这类收入·)只有上帝知道,有多少丹麦人没有登记就在德国的宿营地过夜,因为官方的统计数字不包括没有登记的丹麦人。每个联邦德国公民消费11.2千克的禽肉,这种说法同样不准确,因为这其中有多少被扔掉了,有多少被狗或者被猫吃掉了,等等,这完全是悬而未决的问题。     尽管如此,这些数字的出现依然具有权威性。我们应该清楚,数字本身只是一种标志,如果轻轻地划一下隐藏在背后的数字的外表面,那么全部的大骗局(即真相)将大白于天下。     如果我们在《自然》(Nature)杂志中读到这样的信息:在英格兰有30 946名性交易者,每年总共进行4 641 900次性交易。那么,我们就不应该仅从字面来理解这个事实。根据体育杂志《踢球者》(Kicker)的说法,1992年巴塞罗纳奥林匹克运动会所花费的全部资金是2 409 196 600马克,也就是说,在20亿~40亿马克之间的任何一个数字都应该是正确的。这种表示方法对于所有的现代精确度指标来说都适用。据报道,一家生产饼干的企业宣称,其产品每个月在美国的消费量是59 080 165包。根据美国中央情报局(CLA)出版的《世界概况》(World-Factbook),1995年3月21日,中国总共有1 127 519 327人。根据德国《图片报》(Bild-Zeitung)报道,标准的家庭妇女每天要为她的丈夫工作1小时50分钟13秒(其中熨烫衬衫4分钟,整理床铺2分30秒,清理下水道口的头发1分钟,合上厕所中的镜子15秒等)。1992年9月,根据德国联邦统计局的数据,德国总共从波兰进口了3384把落地遮阳伞,与此相应的是,从德国出口到英国934架二手钢琴。法兰克福股票交易所中的股票和收益总值在1994年10月27日达到17 903 906 077马克89芬尼。根据1996年1月1日《守望台》(Wachtturm)杂志的报道, 1995年共有244 591名阿根廷人参加了教区的圣餐(德国是287 321人,利比亚21人,马其顿2262人)。对于所有的参战国来说,第一次世界大战的全部费用达到186 333 637 097美元。1992年,在德国共发生了523 253起自行车被盗案件(这是由德国全德汽车俱乐部(ADAC)公布的数据)以及其他方面的事情—所有这些数字实际上只是粗糙的、凭借着想象力指数来进行修饰的一种估计而已。     美国人每个月吃掉如此多的饼干。     1.2 分而治之     这些大骗局并不总是出自恶意。例如在德国的威斯巴登市[Wiesbaden,黑森州(Hessen)州府所在地],按照法律规定,官方统计者不能把数据收集起来后,不做任何处理就直接公布这些数据。就算不允许他们对数据进行修饰,例如把小数取成整数等,他们也会非常容易地操作这件事。     另外,非真实数字可能首先是由相加或相除这样一些数学运算造成的。例如,向非常教条的学生问:世界历史有多久远·他们对这个问题的回答是:“四千年零一个星期”。     “你从何处知道这么详细的数字·”     “嗯,上个星期我们已经学习了这方面的知识,当时世界已经有4000年的历史了。”     如果我们计算自己的财产,例如     房屋:60 000 000马克     现金:393 458马克     总共:60 393 458马克     那么,这个精确的最终结果只能是似乎准确的。因为房屋的价值仅仅标明到±50 000马克,更精确的最终结果是不可能计算出来的。     对数据做相除运算也会产生相同的表象精确度问题,即事实上是不准确的。例如,我在德国《商报》(Handelsblatt)上读过这样的消息:联邦德国物理学硕士平均最低年薪是66 667马克。为了说明数据的真实性,这里所使用的数据也太精确了。在这种情形下,数据也在告诉人们,它是从哪里产生的。如果这个数据不是除以200 000而是除以3得到的,那么,我想我就要灵活地去对待这个数据了。可能有3个公司同时决定雇用这个物理学者,而这个将被雇用的人只是大概回忆起,其起薪工资水平约在70 000(2次)马克和60 000马克之间。     当我们在收音机广播中听到下面的消息:一位在孟加拉国种植水稻的农民每年可以挣98马克13芬尼,这个数字完全不是有意暗示这个调查研究会精确到一分一毫,因为事实上人们从来没有这样计算过。研究者只是做了一个猜测,即9100万居民平分20亿塔卡的国民收入,然后再按照当时的塔卡与马克的汇率换算成马克,从而得出上面的结论:98马克13芬尼。在这些附加的资料中,只有一项是精确无误的,即当时的货币汇率。国内生产总值和居民数量都是粗略的估计。如果把所有资料都集中到一起,那就会重新产生出一个(被误认为是)精确的数字。     对于生活必需品的消费状况而言,统计学所给出的精确数据也是如此。如果人们相信威斯巴登的数据收集者所做的统计工作,那么,一个由两人组成的退休家庭大约每月消费8.3升牛奶、8540克土豆、1286克牛肉、2098克猪肉。粗略的总体数字在这里也仅仅是通过除以家庭数量而“精确出来的”。     我还读到:在全世界居民中,卢森堡人以每人每天消耗3713卡路里排名世界第一。即便假设全部信息都是精确的,那么这些数据也是不准确的,因为联邦德国都排到30名之后了,这明显与事实不符。所以这个结果肯定说明数据存在问题。     在卢森堡这样的国家,错误可能是由旅游者的消费导致的,原因在于统计学者经常把销售等同于消费。从卢森堡每人每天消耗3713卡路里这个数据来看,肯定有数以百计的卡路里被旅游者消耗掉了。当时卢森堡招致了吸烟者国际联盟的不满,这主要不是因为卢森堡人是非同寻常的尼古丁依赖者,而是因为价廉物美的香烟大量出售给外国人。因此我们能够得出结论,一个生活在黑森州地区的家庭,平均拥有20个布谷鸟钟(基于同样的原因,其中一些布谷鸟钟被旅游者买走了)。     专业的数据收集者自然能够完全准确地知道这种误差。也就是类似下面的表述:在下个星期日的选举中,某个政党X将会得到38%(±1%)的选票。换句话说,选票比例将在37%~38%之间。我们必须注意到,这个结果还是不确定的,因为它仅仅是指具有某种可能性而已,尽管这种可能性是巨大的。由于我们不太喜欢阅读小号字体印刷品,所以我们经常“粗鲁地”剥掉数据表面所有的包装,原因在于这些隐藏在不必要的指标后面的数据,当它们初次表现出来时通常远远是不精确的。

>统计数据的真相

统计数据的真相
作者: 瓦尔特.克莱默
isbn: 7111255119
书名: 统计数据的真相
页数: 185
译者: 隋学礼
定价: 32.00元
出版年: 2008-12