《统计数字会撒谎》试读:精心挑选的平均数

我相信你不是一个势利小人,而我也并不做房地产生意。但请让我们作这样的假定,并且假设,此刻你正在一条我熟知的街上看房子。对你的情况进行了初步判断后,我巧舌如簧、费尽心思地让你相信附近居民的平均年收入大约有10000英镑。也许这坚定了你要在此居住的信心,不管怎样,买卖最终成交了,那美妙的数字也被牢记在你的脑海。而且,既然你已经买下了房子--你有那么一点势利,当与朋友聊天时,你就会不经意地流露出你居住的地点:我住在一个相当棒的高收入小区。 一年左右过后,我们又见面了。作为某纳税者委员会的成员,我正在四处奔走,为降低税率、降低财产估价,或降低公共交通费用而呼吁。我的理由很简单,我们支付不起各种上涨的费用,毕竟,附近居民的平均年收入只有2000英镑。也许你会加入到我们委员会的工作中来--你不仅势利,而且还挺吝啬。但是,当听到那可怜的2000英镑时,你也禁不住大吃一惊。到底是我现在撒谎了呢?还是一年前撒了谎? 其实这两次你都无法怪罪于我,利用统计撒谎的妙处被展现得淋漓尽致。无论是10000英镑,还是2000英镑,它们都是正规的平均数,计算方法也完全正确。两个数字都基于相同的数据,来自相同的居民,根据相同的收入。所有都是相同的,但显然其中有一个数据令人误解,足以与弥天大谎相媲美。 我的花招就是两次分别使用了不同的平均数,"平均数"这个词宽泛的涵义帮了大忙。当一个家伙希望用数据影响公众观点,或者向其他人推销广告版面,平均数便是一个经常被使用的伎俩,虽然偶尔是出于无心,但更多的时候是明知故犯。所以,当你被告知某个数是平均数时,除非能说出它的具体种类--均值,中位数,还是众数,否则你对它的具体涵义仍知之甚少。 在希望数值较大时,我使用的10000英镑是均值,也就是附近居民收入的算术平均数。你只要将所有家庭的收入加起来并除以家庭总户数便可得到这种算术平均数。数值相对较小的是中位数,它告诉我们一半家庭的年收入超过2000英镑,另一半家庭的年收入不及2000英镑。我还可以利用众数--所有家庭收入序列中出现次数最多的那个收入。例如,附近的居民中年收入为3000英镑的家庭数是最多的,那么收入的众数就是一年3000英镑。 在这个例子中,不合适的"平均数"实际上是毫无意义的,只要碰到关于收入的数据,这种情况就经常出现。还有一个因素会让我们困惑不已--某种条件下,各种类型平均数的数值十分接近,如果出于一般的目的,根本没有必要区分它们。 比方说,当你看到某个原始部落男性的平均身高为5英尺时,你对这些人的外形条件就能有很好的了解,根本不需要进一步询问这个平均数是均值、中位数或者众数,因为此时各种平均数的数值大致相等。(当然,如果你正在为非洲人赶制一批制服,那么就需要比平均数更多的信息,你要用到全距和标准差,这些我们将在下一章进行介绍。) 在处理诸如人类特征的数据时,各种平均数的数值十分接近。这些数据具有我们常说的正态分布的形态特点,在你用曲线绘制正态分布时,将看到一根钟形的曲线,均值、中位数和众数都落在相同的点上。 在描述人类身高时,用哪种平均数无关紧要,但在描述他们的钱袋时,却并不是那么回事儿了。如果把某个城市所有家庭的年收入都列出来,你会发现,这些数从很小的值变动到很大的数,也许有20000英镑左右,甚至还能看到少数巨额收入。年收入低于5000英镑所占的比例超过了95%,在收入曲线上朝左边拖出了一条长长的尾巴。这种分布不再像钟形一样对称,而是有偏的,它的形状类似于孩子玩的滑梯,梯子一侧是陡斜地升到顶部,而滑道一侧则缓慢向下倾斜。均值与中位数相差甚远,这样一来,比较去年的"平均数"(均值)与今年的"平均数"(中位数),这种比较的有效性就不言而喻了。 在我卖给你房子所在的居民区里,两个平均数的差距如此之大,因为收入是显著偏斜的。你的邻居中大多数都是小农、在附近村庄上班的工薪阶层或是靠养老金为生的退休老人,但有3户邻居是百万富翁,他们仅仅是来此度周末。就是这3户邻居的收入提高了总收入,相应地抬高了算术平均数。这样一来,均值达到了绝大多数家庭遥不可及的水平,几乎每个人都低于平均数。虽然这听起来像是笑话或者文学修辞,但的确是不争的事实。 当你听到公司执行总裁或企业所有者宣称,在他的企业中员工的平均收入是多少时,你应该好好思考一下其中的原因。如果这个数是中位数,你可以获得一些显而易见的信息:一半员工赚得比它多,一半比它少。但如果是均值(请相信我,没有确切指出它的种类时,多半是均值),它仅仅是所有者25000英镑的高收入与全体工人低水平收入的平均数,根本没有什么意义。"平均年收入为3800英镑"既隐瞒了1400英镑的低收入,又隐瞒了所有者以巨额薪金形式抽取的高额利润。 这类似于双人拉锯--现实情况越糟,看上去却越好。在一些公司的声明中也会采用这种方法。让我们试着举个简单的例子来说明。假设你是某个小型制造企业的3个合伙人之一。这是丰收的一年,到了年底,你给企业的90个职工共发了99000英镑,他们的工作是生产、运输椅子,或者你所经营的任何东西。你和其他合伙人每人各获得5500英镑的工资;最后还余下21000英镑,作为利润可供你们3个合伙人平分。你将如何说明这种情况呢?为了便于理解,你打算采用平均数的形式。既然所有的职工从事相同的工作,获得同样的收入,对于他们来说用均值还是中位数没有区别。说明如下: 职工的平均工资…… 1100英镑 所有者的平均工资及利润…… 12500英镑 看上去太不公平了,不是吗?让我们来试试另一种形式:从利润中拿出15000英镑以奖金的形式平分给3位合伙人。这一次将包括了所有者和职工的工资进行平均,不要忘记还是采用均值,结果变成: 所有人员的平均工资或薪金…… 1403英镑 所有者平均利润…… 2000英镑 哈,看上去好多了吧。虽然还能进一步改善,但这已经有了长足的进步,总额中只有低于6%的部分形成了利润。如果乐意,你还可以继续如法炮制。但不管怎样,现在的结果已经足以作为公布的内容张贴在公告栏中,或者作为与职工谈判的依据。 因为简化,这个例子是十分粗糙的。但和以会计的名义所做的手脚相比,它简直就是小儿科。从薪水微薄的打字员到领取80万美元奖金的总裁,在这样一个等级森严的复杂公司中,所有事情都可用类似的方法进行掩盖。 因此,当你看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?美国钢铁公司(the United States Steel Corporation)曾经指出:10年间,该公司职工的平均周收入攀升了107%。确实如此,但是当你注意到早期的数据包括了兼职员工时,奇妙的增长率会大打折扣。也就是说,如果你某年只工作了半年,而第二年全年都在工作,你的收入毫无疑问会翻番,但这并不意味着工资率发生了变动。 你也许曾在报纸上看到过,某年美国的家庭平均收入是6940美元。别太在意这个数字,除非你知道这个数字包括了哪些家庭,以及使用了哪种平均数。(甚至这是谁说的,他是如何获得该信息的以及这个数的准确性你都要知道。) 上述数据来自于普查局(the Bureau of the Census)。如果手头有普查局的整篇报告,你将不费吹灰之力地弄清楚所需要的其他信息。首先,这是个中位数;其次,"家庭"是指两个或更多具有亲属关系的人住在一起所形成的"家庭"。如果再回过头读一下表中的数据,你还将发现这个数据建立在抽样基础之上,该调查以19/20的概率保证真实的数值会落在估计值加减71美元的范围之内。 类似的概率和误差范围构成了一个很好的估计。普查工作者掌握了足够的统计知识和足够的财力,如果没有特殊的企图,他们能够将抽样研究结果控制在较好的精度范围之内。但并不是所有的数据都出自这种严谨的环境,也不是所有的数据会附上关于数据精确度的任何说明。在下一章,我们还将展开详细的分析。 同样,对《时代》杂志"编者的话"栏目中的某些项目,你会表示怀疑。该杂志这样描述他们的新订户:"他们年龄的中位数是34岁,家庭平均年收入为7270美元。"早期关于"旧时代"读者的调查发现,"年龄的中位数是41岁……平均年收入为9535美元……"一目了然的是,为什么两次谈到年龄时都指出采用了中位数,而关于收入却不明确平均数的类型。也许收入使用的是数值较大的均值,以达到利用高收入读者群吸引广告商的目的。 对第一章开头所提到的1924级耶鲁学生的平均收入,你同样可以提这样一个问题:这里用的是哪种平均数?

>统计数字会撒谎

统计数字会撒谎
作者: [美] 达莱尔·哈夫
原作名: How to Lie with Statistics
isbn: 750742085X
书名: 统计数字会撒谎
页数: 154
译者: 廖颖林
定价: 28.00
出版社: 中国城市出版社
装帧: 精装
出版年: 2009-3