𝙰𝚣𝚎𝚛𝚒𝚕对《统计陷阱》的笔记(1)

𝙰𝚣𝚎𝚛𝚒𝚕
𝙰𝚣𝚎𝚛𝚒𝚕 (明朝即長路 惜取此時心)

读过 统计陷阱

统计陷阱
  • 书名: 统计陷阱
  • 作者: [美] 达莱尔·哈夫
  • 页数: 137
  • 出版社: 上海财经大学出版社
  • 出版年: 2002-6
  • 全书概要
    Az.:數據遍佈 圖表橫行的當下 如何以更為開放的態度來獲取資料 以更為謹慎的方式來辨別統計數據及相關信息的準確與否 都是不可或缺的技能。書很簡要 核心概念卻很是重要 值得一知 也不妨嘗試一用。
    内在有偏差的样本
    一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本 最基本的样本是随机样本,它是指完全遵循随机的原则从总体中选出样本。总体即形成样本的母体。 随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本? 纯随机抽样是唯一一种能有足够把握利用统计理论进行检验的抽样方法。但它同样存在着缺陷。在许多情况下,获得这种样本难度很大,并且十分昂贵,以至于单纯的经济考虑就会剔除这种方法。一个更经济的替代品是分层抽样,它在市场研究和民意调查等领域中得到了广泛的应用。 由谁组成调查人员也会对调查结果产生微妙的影响。人们在接受调查时有迎合对方说好话的明显倾向。
    精心挑选的平均数
    “平均数”这个词有很广泛的涵义。当一个家伙希望影响公共观念时,或者是向其他人推销广告版面时,平均数便是一个经常被使用的诡计,有时出于无心,但更多的时候是明知故犯。当被告知某个数是平均数时,除非你能很明确地说出它具体的种类——均值、中位数还是众数,否则对它你仍知之甚少。 一个没有加以限定的“平均数”,就像这个例子里的收入数据,最终是无意义的。一个可能加深混乱的因素是,有些资料的平均数落在十分接近的范围内,出于一般的目的没有必要区分它们。 数据的分布接近正态分布。如果用曲线来描绘正态分布,你将获得一条类似于一口钟的曲线,它的均值、中位数以及众数都落在同一点上。
    没有披露的数据
    使用小样本的重要性在于:在大样本的使用中,任何由于机遇产生的差异都是微不足道的,不足以作为广告标题。例如,蛀牙仅减少2%将不会对销量有多大的提升作用。 在足够少的样本容量下,一个没有作用的结果是如何利用机遇产生的呢?——不需多少成本,你自己也可来试试。比如抛一枚硬币,多少次是头像朝上的呢?当然是一半的次数。这谁都知道 仅仅在进行了大量的实验后,平均数定律才是一种有用的描述并可用来预测。 多少才算足够呢?这又是个棘手的问题。它取决于抽样时你所研究的总体,其容量有多大,以及变动范围有多大。值得一提的是,有时样本中单位的数量看上去已足够多,但实际却并非如此。 检测数据以多打的可能性代表实际结论而不代表那些由于机遇产生的其它结论的方法: 如果某条信息提供了显著性程度,你将对它有更深的了解。显著程度通常用概率表示,就像普查局以19/20的概率保证他们的结果是正确的。在通常情况下,5%的显著水平是最低要求,有时需要更精确的1%的显著水平,这就意味着以99%的概率保证该结果是真实的,任何类似的事情“实践上是几乎确定”的。 还有另一类没有透露的数据,它的遗漏也同样具有破坏性。这是表明事物整体范围的全距和与平均数偏离水平的数据。在通常情况下,平均数——不管是否指明均值或中位数,都由于过于简单而导致无用。对实际情况一无所知通常比获取错误信息好得多,但有时知之甚少也十分危险。 对艾尔弗雷德·金赛博士的著名报告(几乎没有人认真读过)所做的许多愚蠢批评正是将正常误解为好的、对的、应该如此的等价物。金赛博士被指责有教唆年轻人的嫌疑,因为他向他们灌输某些观念,特别是将许多普遍存在却未经认可的性行为称为正常。实际上,金赛博士只是指出他发现这种行为很普遍,而这便是正常所指,他并没有为这些行为贴上许可的标记,这些行为是否道德也并不属于他的研究范围。只是他恰巧涉及了一个使许多人头疼的话题——涉及这样一个高度敏感的话题却不迅速表明你支持或反对的态度看来是十分危险的。 这些没有透露的数据其欺骗性在于人们经常忽略了它们的不存在,这当然也是使用这些数据的人获取成功的奥秘。
    毫无意义的工作
    你的样本以多大的精度代表总体是可以用数据来衡量的,那就是:可能误差和标准误差。 结论是,对待智力测验以及其他抽样结果应注意它的范围。正常的智商不应该只是100这样一个数值,而应是一个范围,例如90~110。将处于这个范围的孩子与低于或高于此范围的孩子进行智商比较时会得出一些有用的结论。但比较相差不大的两个数据则毫无意义。你必须记住这个加减号,即使(特别是)它没有明确指出。 忽视抽样所隐含的误差将导致一些愚蠢的举动。那些把读者调查奉若神明的杂志编辑,是因为他们不理解调查。对于一篇有40%的男性读者喜爱的文章与另一篇只有35%的男性读者喜爱的文章,他们会刊载更多类似于前者的作品。 对于杂志而言,40%与35%读者量的差别是很重要的,但抽样调查形成的差别并不一定是真实的。出于成本的考虑,实际的样本容量,特别是已经扣除了那些从来不读该杂志的人后,也许只有几百人。 人们有时会为了一个数学上可论证却小得没有意义的差别费尽力气。这种行为是对这句古训的藐视:只有当差别有意义时才能称之为差别。
    惊人的统计曲线
    图表比例的变化所放大的数据实际差异
    平面图形
    夸大数据对人们的印象,在快速的浏览中,让粗心的受众更容易产生错误的结论。
    不相匹配的资料
    如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。在统计资料与人类思维冲撞所引起的耀眼光芒中,几乎没有人会发现它们的区别。不相匹配的数据是保证你处在有利位置上的武器,而且通常如此。 在运用交通意外事故的数据时,如果不牢记它们是极其不匹配的数据,那么,无论哪种交通手段的事故记录都会将你吓个半死。 “去年飞机失事造成的人员死亡比1910年多”,这是否意味着现在乘飞机要比过去危险?认为更危险的说法是不合理的,因为选择飞机作为交通工具的人已经是以前的几百倍了。 搜集这样的资料,却把它说成是另一回事,这种挂羊头卖狗肉的行为在生活中还有许多其他的形式。最普遍的做法是将看上去极像,而完全不同的两件事混淆在一起。 ……这是一个有趣的事实,在考虑某种疾病的发病情况时,使用死亡率或者死亡人数比发病人数更合理——这是因为死亡报道和死亡记录的质量更高。在此例中,明显不相匹配的数据比表面上完全匹配的数据还要好。
    相关关系与因果关系
    一个古老的谬误,然而它仍频繁地出现在统计资料中,并被大量让人印象深刻的数据所伪装。这个谬误是:如果B紧跟着A出现,那么A一定导致B。更大的可能性是两个因素并不互为因果,而同为第三个因素的产物。 为了避免再次陷入到相关的谬误中,并且不再相信许多似是而非的事物,你需要对任何事物关联性的描述进行仔细的研究。所谓的“相关”,往往是通过相关系数这个精确的数据来证明两件事物具有关联关系,它可以有多种不同的类型。 一种相关是由于机缘巧合而产生的。由于机会的存在,你或许可以通过一组数据来证明一些根本不存在的结论。但换一组数据也许又无法证明。就像自称能防止蛀牙的牙膏生产厂商,你只需将对自己不利的资料扔到一边而公开你需要的结论就能达到目的。利用小样本,任意两个你能想到的事件或两组特性之间都能建立显著的相关。 联合变动的一种普通形式是存在着真实的关系,但却无法确定何为因,何为果。有时,因果可以不断地交换地位,或者可以同为因果。收入与拥有的股票之间便是这种相关。你拥有越多的钱,便能买更多的股票;同时,你手头的股票越多,又可以为你带来更多的收入。在这种情况下,简单地认为一个因素引起另一个因素是不全面的。 最具有戏剧性的相关是所有变量相互间没有任何影响,却存在着显著的相关。许多卑劣的工作都可以归为这一类。抽烟者与不好的成绩是这种例子,许多被反复引用的医学资料也是这种例子,它们只是证明了变量之间存在着相关关系,但是否存在因果关系仍旧是个未知数。 另一个需要留意的是,超过了推断相关关系的数据范围而得出的结论。从常理来说,雨下得越多,谷物则长得越高,收成越多。雨是农民的福音。但一季暴雨则可能破坏甚至毁灭庄稼。正相关到了一定的程度后便急剧地转化为负相关。超过了一定的降雨量,雨越多,收成越少。 相关显示了一种趋势,而这种趋势通常并不是那种理想的一对一关系。负相关可以简单地描述为当一个变量增大时另一个变量有减小的趋势,物理学中,这被称为成反比关系。即使某种相关关系是真实的,并有真实的因果关系,仍旧不能凭此做出行为决策。 当你发现某些人—他们往往是当事人,在胡乱使用相关性时,请注意分辨相关是否是事件变迁的产物或时代趋势的产物。在我们这个时代的任何一对数据,例如大学生的人数、心理研究机构同房间的病人数、香烟的消费量、心脏病的发病率、X光的使用次数、假牙的生产量、加利福尼亚学校老师的薪水、内华达州赌博的利润等,都很容易显示出正相关关系。把上面的一个事物说成是另一个事物的成果是十分可笑的。但每天都有类似的事情发生。 那些能迷惑因果关系的统计处理和具有催眠作用的数字或者小数点,比迷信好不到哪儿上,反而更具有误导性。
    如何进行统计操纵
    利用统计资料传递错误的信息而误导他人可称得上是一种操纵行为。用一个词来概括(虽然不一定很准确),那就是统计操纵。 许多统计资料的歪曲和被控制并不是资深统计学家所为,出自统计学家之手的完善资料也许最终会被销售人员、关系专家、记者或者广告撰稿人扭曲、夸张、简化或是刻意地进行了挑选。 为了使最声名狼藉的统计资料看上去更有分量、更精确,你应该考虑使用小数。……百分数也给误解提供了肥沃的土壤。和小数一样,它也能为不确切的事物蒙上精确的面纱。……任何建立在小样本容量上的百分数都可能产生误导,直接给出具体数值的大小将更有价值。如果再将百分数表示成小数点后几位的小数形式,你可能正将天平从愚蠢的一端移向欺诈。
    对统计资料提出的五个问题
    怎样凭双眼就能识破虚假的统计资料并揭穿它;同样重要的是,如何在具有前述欺骗性的数据海洋中找出可靠有用的资料。 首先要寻找的是偏差——出于学说、名誉或收入的考虑而需要证明某些结论的实验室,希望获得一篇好报道的报界,工资已岌岌可危的工人和管理部门都有可能制造偏差。 然后,再仔细寻找无意识偏差——通常,它更危险。当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅与权威人士沾边。 应该问一句:“谁说的?” 还应追加第二个问题:他是如何知道的? 注意样本的有偏.是由于选择不当,还是像这个例子一样,由刻意挑选有利的样本造成的。 样本是否足够大到能够保证结论值得信赖?对于相关系数也可以提同样的问题:数值是否足够大从而能说明问题?案例是否足够多?是否具有一定的显著性? 你也许不会运用显著性检验或根据样本的多少判断结论的准确性。但对于许多报告中的内容,你至少可以进行仔细的观察,或许是一个长时间的观察,从而发现由于缺乏足够多的案例,报告的内容不足以说服任何人。 当均值与中位数相差甚远时,注意那些没有标明类型的平均数。 很多数据因为缺乏比较而变得没有意义。有时仅给出百分数却缺少原始数据也能造成欺骗。当看到一个指数时,你或许会觉得遗漏了什么。巧妙之处在于基期,一个经过挑选的基期将会扭曲事实。有时文章中遗漏了引起变化的原因,这容易让读者认为其他的因素才应对变化负责。 是否有人偷换了概念? 分析统计资料时,请留心从搜集原始资料到形成结论的整个过程中,是否存在着概念的偷换。 在现实生活中.将甲说成乙的案例实在是太多了。 就像以前曾指出的一样,疾病案例的增多不能等同于发病率的提高。民意测验中的获胜也并不等同于竞选时的获胜。读者对于全球时事文章的偏爱也并不能说明如果杂志刊登此类文章会提高杂志的销售量。 这个资料有意义吗? 当所接触到的资料是建立在未经证实的假设基础之上时,你可以发问,“这个资料有意义吗?”这个问题通常能将一个伪装得很好的统计资料打同原形。 许多统计资料一眼就可以看出是有误的,这是因为奇妙的数据与平常的感觉不符。
    2017-04-25 04:34:16 4人喜欢 1回应

𝙰𝚣𝚎𝚛𝚒𝚕的其他笔记  · · · · · ·  ( 全部307条 )

從0到1
1
三少爷的剑
1
极简主义
1
生命最后的读书会
1
火并萧十一郎
1
趣味生活简史
1
你要如何衡量你的人生
1
箭术与禅心
1
“偷”师学艺
1
银河英雄传说
1
星之海洋
1
罗马人的故事13
1
罗马人的故事 14
1
罗马人的故事 15
1
奇石
1
他们来到巴格达
1
斯泰尔斯庄园奇案
1
悬崖山庄奇案
1
大脑也有这么多烦恼
1
小王子心灵之旅
1
人类简史
1
盲眼钟表匠
1
最好的告别
1
必然
1
禅与摩托车维修艺术
1
阅读的故事
1
知日·料理之魂
1
植物的记忆与藏书乐
1
寻找家园
1
我的阿勒泰
1
惜别
1
云中命案
1
知日·家宅
1
知日·妖怪
1
饮膳随缘
1
坟场之书
1
江城
1
悲观主义的花朵
1
甲骨文
2
孤筏重洋
1
深夜加油站遇见苏格拉底
1
我读2
1
活着活着就老了
1
坛经释义
1
最后的耍猴人
1
常识与通识
1
神们自己
1
知日·太喜欢漫画了
1
在建筑中发现梦想
1
逝去的武林
1
往事并不如烟
1
人格裂变的姑娘
1
访问
1
雨天的书
1
世界上所有的夜晚
1
增广贤文
1
味道·味觉现象
1
陶庵夢憶 西湖夢尋
2
国境以南 太阳以西
1
且听风吟
1
味道·人民公社
1
知日·铁道
1
厨房里的人类学家
1
中国好人
1
设计,无处不在
1
共产党宣言
1
幸福旅行箱
1
幻夜
1
走夜路请放声歌唱
1
白夜行
1
迎面撞上禅1
1
劝学篇
1
走神
1
我爱问连岳Ⅱ
1
自然英语学习法
1
罗辑思维
1
小心轻放的光阴
1
鱼和它的自行车
1
眼睛
1
超级时间整理术
1
不安的生活
1
目送
1
噪音太多
1
时间之书
1
写给大家看的设计书(第3版)
1
那个姐姐教我们的事
1
时间,会用才能身价倍增
1
NLP速讀術
1
拖拉一点也无妨
1
想念你的陌生人
1
你早该这么玩Excel
1
黑暗的左手
1
厨房里的哲学家
1
湖上闲思录
1
我承认我不曾历经沧桑
1
满满的书页
1
改变我生命的那本书
1
点石成金
1
我想遇见你的人生
1
人生需要揭穿
1
在漫长的旅途中
1
穷查理宝典
1
云中人
1
厨房
1
卢布林的魔术师
1
哲学家们都干了些什么?
1
我读
1
禅的行囊
1
1分钟能做什么
1
How to Live on 24 Hours a Day
1
永远和三秒半
1
香港有个荷里活
1
大山里的人生
1
台湾念真情
1
东京塔
1
空谷幽兰
1
阿勒泰的角落
1
九篇雪
1
让男孩听进去,让女孩说出来
1
一个一个人
1
礼物
1
天平之甍
1
远远的村庄
1
不必读书目
1
伪自由书
1
海伯利安的陨落
1
英雄无泪
1
世说新语译注
1
曾文正公嘉言钞
1
智慧书
1
私人藏书
1
写在人生边上
1
失败之书
1
河岸
1
冷记忆2
1
敬重与惜别
1
飛刀.又見飛刀
1
致D
1
舞!舞!舞!
1
有一天啊,宝宝……
1
神鞭
1
独立,从一个人旅行开始
1
我们仨
1
ABC谋杀案
1
牛棚杂忆
1
真怕你是个乖孩子
1
小国王
1
生命的奮進
1
夹边沟记事
1
城门开
1
上课记2
1
第56号教室的奇迹
1
莱茵河的囚徒
1
此生未完成
1
早晨从中午开始
1
少年迈尔斯的海
1
Charlie and the Chocolate Factory
1
一半是海水一半是火焰
1
The Diving Bell and the Butterfly
1
Private Peaceful
1
Winnie the Pooh
1
伤心咖啡店之歌
1
风铃中的刀声
1
边城浪子(上下)
1
你一定爱读的极简欧洲史
1
绝版魏晋
1
旁观者
1
夜航船
4
惶然录
1
论语别裁(上下)
1
中国古典诗词感发
1
音乐课
1
富兰克林自传
1
青灯
1
永不止步
1
新千年文学备忘录
1
论证是一门学问
1
夜航
1
眠
1
你不孤单
1
骆驼祥子
1
给青年诗人的信
1
呐喊
1
谁来跟我干杯
1
幽梦影
1
The Alchemist
1
再见,老房子
1
此生
1
小李飞刀1:多情剑客无情剑(上中下)
3
上课记
1
爱情是个冷笑话
1
万里无云
1
Charlotte's Web
1
最大的一场大火
1
迷恋记
1
圣诞忆旧集
1
Flipped
1
绿光往事
1
漫步遐想录
1
The Painted Veil
1
Demian
1
为什么中国人勤劳而不富有
1
心学大师王阳明大传
1
少年巴比伦
1
追随她的旅程
1
上学记
1
爸爸爱喜禾
1
过于喧嚣的孤独
1
时与光
1
七日谈
1
哈姆莱特 罗密欧与朱丽叶
2
一路两个人
1
时间简史(普及版)
1
人生不设限
1
机场里的小旅行
1
I, Steve
1
The Lover's Dictionary
1
史记(全三册)
1
孟子译注
2
政府论
1
局外人
1
我不是完美小孩
1
荣格的精神
2
近思录(中华思想经典)
1
颜氏家训
1
那些年,我们一起追的女孩
1
大唐新语
1
这些人,那些事
1
世界尽头的目标先生
1
爱的地下教育
1
你在天堂里遇见的五个人
1
三体Ⅲ
1
星星都已经到齐了
1
儿子与情人
1
温柔的叹息
1
生活十讲
2
妞妞
1
東坡志林
1
都柏林人
1
我爱问连岳
2
蚁族
1
积极思考的力量
1
小规模荡气回肠
2
圣诞欢歌
1
高效学习
1
裸阳
1
机器人与帝国(上下)
1
谈幸福
1
爱上浪漫
1
伤离别
1
零时
1
太阳马戏团的魔力
1
小王子
1
第八日的蝉
1
我在雨中等你
1
踮脚张望的时光
1
孩子你慢慢来
1
杀人不难
1
窗灯
2
决定要幸福
3
三体Ⅱ
1
三体
1
姐姐的守护者
1
小猫杜威
1
记得
1
杀死一只反舌鸟
1
等待野蛮人
1
毒舌钩
1
世界尽头与冷酷仙境
1
殡葬人手记
1
嫌疑人X的献身
1
月亮和六便士
1
陆上行舟
1
艺术地生活
1
亲历死亡
1
退步集续编
1
微物之神
1
雨啊,请你到非洲
1
抉择
1
世界在你不知道的地方运转
1
我执
1
岁月的泡沫
1
不许联想
2
现在,只想爱你
1
冰屋
1
比悲伤更悲伤
1
风之影
1