《赤裸裸的统计学》读书笔记
一、概述
二、描述统计学
【描述性数据】将【原始数据】通过某种形式浓缩成一个有意义的统计量。但是任何一种简化都会面临被滥用的危险。
【平均数】容易受到远离中心区域的异常值干扰而失真(论收入,我们都容易被马云平均)
【中位数】对异常值不敏感,能够更准确地反映问题的实质(还有四分位数,十分位数)比如考试成绩只具有相对意义,此时分位数能够提供的信息更多。
假如一组数中没有特别离谱的异常值,那么中位数和平均数相差不大。
【方差】各个数值距离他们平均值的远近(计算时所有绝对值都被平方,因此异常值会被放大)
【标准差】方差开根号,因为方差对异常值敏感,所以标准差也标准了数据相对于平均值的分散程度,表示数字距离平均数的离散、聚合程度。(马拉松运动员的体重标准差一定比一车随机乘客的体重标准差小)(看体检报告给出的参考区间是平均值±标准差得出的一个范围,这意味着很大一部分人的体质差异在这个范围内浮动(±一个标准差 68.2% ±两个标准差 95.4%))
【正态分布】(钟形曲线)
【百分差】(上升了几个百分点)\【百分率】后一个百分比 比 前一个百分比 上升了/减少了百分之几——使用哪个,全看使用者的动机。
三、统计数字会撒谎
【精确】和【正确】是不同的概念,精确似乎更多是关乎保留到小数点后多少位数,完全可以既精确又不正确,精确但不正确的数据非常唬人。正确则保证了数据与客观事实在大方向上相符,精不精确另说。(华尔街风险管理模型都非常精确,有运算复杂又晦涩的数学模型加持,令人无法怀疑其真实性,直到黑天鹅降临)。
关于“美国的制造业有多健康”这个命题,是从产出还是从就业人数,选择不同的角度会得出截然不同的乐观或悲观结果;“教育水平是变好还是变差”,从学校作单位或是从学生人数做单位都可能得出不同结果,权看使用者的动机,新闻联播报喜不报忧的数据很需要这种独特的精筛技术。
想让数据显得大一些就用平均数,想让数据看上去小一些就用中位数。比如在平均工资计算上,我们恐怕都不喜欢被超级大佬们所平均,中位数可能是一个更为准确的描述性数据,而在癌症病人生存曲线里,长尾中的异常数字是病人尤为关心的期待,决定了他的治疗方案,因为死亡分布是“右偏”的。平均数和中位数如何取舍,关键在于异常值对事实的真相起的是扭曲作用还是真相的重要组成部分。
百分数不会说谎,但是会夸大其词,取决于基数大小。
对于公共教育系统的评估并没看上去那么直观,因为很难剥离一些竞争性因素。
只看考试分数的弊端在于,不同学校的学生背景能力不同,教育程度和收入会对孩子成绩产生不可忽略的影响(即所谓的生源优势),想要评估公共教育系统教学质量需要知道学业表现有多少比例归功于学校教师?(回归分析)为什么选择性招生的学校常年成绩稳居榜首,因为他们的选择性招生筛选了一批成绩好的,求上进的,家长也特别重视教育的学生。本来就是拔尖取的样本,其中多少比例又归功于学校呢?(但是择校营造的人工选择环境也并非没有裨益,近朱者赤的校园环境从一定比例上也对学生表现带来了正反馈,所以怎么港,个人觉得择校、学区房,还是有必要的吧)
那些事与愿违的统计学“优化”:想要以毕业率为指标考核校长业绩,却导致了学校热心于劝退差生根本不让他们参与毕业考;为了让公众在选择心脏科医生时有个参考,州政府推出了对接受心脏搭桥手术的病人死亡率进行统计的积分卡制度,导致外科医生趋于保守,拒绝为那些病况严重的病人动手术。
四、相关性与相关系数
豆瓣电影阅读推荐的算法,总的来说是基于相关性。
【相关性】体现的是两个现象之间相互关联的程度,将两个变量的关联精炼成一个描述性数据:相关系数。相关系数不受变量单位的限制,可以将大量芜杂无序,单位不统一的复杂数据加工成一个简洁优雅的描述性数据。
相关不代表因果,学生SAT成绩和家里电视机数成正比可能是因为家长的受教育程度决定了学生的学习能力,而家境殷实(电视机数量多)的家庭的家长普遍受教育程度更高并且对孩子教育更重视。(竞争性因素)
五、概率与期望值
啤酒盲品营销的胜算在哪里:市面上在卖的啤酒口感没有太大的差别,只需要生产出口感平平的啤酒,再掌握一些扎实的统计学知识,就能确保计谋得逞,当然关键是,必须邀请竞争对手的拥趸来参加盲品,让尴尬的概率发生在对手品牌身上。
【二项分布】(伯努利试验)每次试验都有两个概率相等的可能结果,所有试验都各自独立。
【概率学】是一门研究不确定事件和结果的学问。概率不会确凿地告诉我们将会发生什么,但我们通过概率计算能够知道很有可能发生什么,不太可能发生什么。当涉及风险时,恐惧会让我们忽视数字背后的真相,比如飞机失事的小概率事件却因为其鲜活的恐惧感让人特别惧怕,却忽视了自驾的死亡率比飞机高得多(《对伪心理学说不》)。
犯罪侦破的DNA比对也只是个概率问题,因为研究人员只能获得一小部分DNA样本,基因数量也很有限。基因数量越多,自然遗传变异也就越多,取证准确率才越高。
两个独立事件同时发生的概率取决于这两个事件各自的概率乘积,但是生活中我们经常把相互关联的概率(先验概率)当做独立事件,比如今天下雨的概率和昨天是否下雨不是孤立的,下雨作为天气现象具有连续性。
【期望值】帮你认清哪些事情值得冒险。
【概率密度函数】独立实验的次数越多,曲线越往期望值上集中,两端的极端结果出现的概率急速下降。
【大数定理】赌场稳赚不赔,盲品一定至少不会输。谨记为那些你无法轻松承受的意外上保险以防黑天鹅,而其他情况就不要浪费钱了。
VC的逻辑:对于风险投资,应该尽可能多地发掘结果不确定但预期回报很丰厚的投资机会,数量越多越好,大数定理告诉他们,平均来看一定会赚大钱。但是对于个人来说,还是不要碰了。
大数定理的数字太大时,准确率为99.9999%的艾滋病检测也会出现91%的假阳性率,所以不要对健康人群加强疾病筛查,只对有所怀疑的人群实施。
【预测执法】预测分析学,揪出作弊者,追踪大坏蛋,也有可能把无辜者送进监狱。
六、蒙提霍尔悖论
游戏竞猜三选一,你选中了一个后,主持人为你揭晓了剩下两个选项中没有奖品的那个,你应不应该修改原初的选择?
答案是反直觉的,改选一下,概率能够从1/3变为2/3
当你选了一扇门,大奖出现在剩下两扇门的概率是2/3,而主持人还为你排出了一个错误答案,那所有2/3的中奖概率就都集中在没有揭晓的那扇门后面了。
七、黑天鹅事件
风险价值(VaR)模型呈现的伪精准给投资者带来了虚幻的安全感。模型构建的概率基础参照的是过去的市场行为,但前者的未来不一定是历史的重复。(罗素的火鸡);即便VaR能够准确预测未来风险,99%的保证依然存在失效的危险,1%尾部风险依然有发生的可能。最大的风险隐藏在那些看上去似乎永远不在正常概率范围内、远远超出你的想象、你认为一辈子都不可能发生的风险。
概率学本身不会犯错,犯错的是使用它的人。
那些被误认为是独立事件的关联事件:两个飞机引擎发生故障并不是独立事件;麦都定律的逻辑错误:一个家庭中先后猝死的婴儿之间存在基因联系,而非家长下毒手。
那些被误认为相互关联的统计独立事件:赌徒谬误(小数定律)热手效应
成群病例的发生有可能只是基数庞大所致并非某种阴谋论。
生活中的一些日常迷信(这次考试没考好,下次肯定能考好)可能是统计上的均值回归。(均值回归跟赌徒谬误看似矛盾,因为均值回归基于大数理论,赌徒谬误基于小数定理)
统计性歧视:男性的车险费用要高一些,女性需多缴纳养老保险,保险公司不关心个例,只关心统计学意义上的现实,只要把平均值弄对,公司就能赚钱。
八、数据与偏见
靠谱的统计学是建立在“好数据”之上的,这章讲如何选择“好数据”。
获取一个随机的不带偏见的样本是一件很难的事情,一个存在偏见的大容量样本甚至比一个存在偏见的小容量样本更具有误导性,因为人们会因为前者包含的样本数量多而盲目崇拜其结论。
【抽样调查】
【纵向研究】慢性病
【横向研究】流行病
【选择性偏见】一般是因为选择的抽样调查方式不当,导致整个人口中每个人被选入样本的概率不均等造成的。当样本中有人是主动提出要加入时,比如主动要求加入治疗组的病人,主动申请白人学校的黑人,由于他们有着异于常人的兴趣和动机,选择了这些主动投怀送抱的不随机样本就会为统计带来选择性偏见。
【发表性偏见】肯定性的研究相比否定性的研究发现来说,更有可能被发表,从而影响我们对事实真相的判断。论文都是单调乏味的,读者寥寥;而一旦被科普化,大众化,甚至夸大扭曲后,却传播甚广——偏见的来源不是研究本身,而是那些能够接触到大众读者的信息载体,经过他们中转的信息,仅仅为了使结论“有趣”,“易传播”,就变成带有偏见的信息了。
【记忆性偏见】记忆会出现系统脆弱的尴尬,因为人类的大脑倾向于为一切事物横加因果,进行合理化粉饰。
【幸存者偏见】当样本中有一些数据缺失,导致样本组成发生了变化,从而影响分析的结果。照理来说基金经理的命中率跟猩猩随机投飞镖差不多,但人类之所以聪明在于他们会利用概率。先广撒网遍捞鱼,同时开放许多只共同基金(基数20只),命中率50%(标准普尔500指数的概率),那么连续3年打败标准普尔的原始基金只剩下硕果仅存的2-3只,这时候悄悄关闭那些失败的基金产品,相当于在自然选择中筛选出了硕果仅存的幸存者,再拿他们做广告,真是个机灵鬼。
【健康用户偏见】定期服用维生素的人更有可能少受疾病困扰,不是因为维生素,而是因为他们是定期服用维生素的人;给刚出生的孩子穿紫色睡衣,孩子更有可能在人生中获得成功,不是因为紫色睡衣,而是因为他们的家长是连睡衣颜色这种犄角旮旯的细节都回去践行的人;申请进入白人学校的黑人普遍成绩较好,也并非因为学校有何不同,而是他们是会去申请白人学校的黑人。
九、中心极限定理
【中心极限定理】一个大型样本的正确抽样与其所代表的群体存在相似关系。每个样本之间都有差异,但任一样本与整体之间存在巨大差异的概率是很低的。如果我们掌握了某个群体的具体信息,就能推理出从这个群体中正确抽样的随机样本的情况。同样的,如果我们掌握了某个正确抽取的样本的具体信息(平均数和标准差),就能对其代表的群体做出令人惊讶的准确推理。如果已知两个样本的基本特性,就能推理出这两个样本是否取自同一个群体。
正确抽样的【样本平均值】会在【群体平均值】周围呈现一个【正态分布】(钟形曲线),68%的数据位于±一个标准误差的范围内,95%的数值在平均值两个标准误差范围内。99.7%在平均值三个标准误差之内。(群体本身的分布形态并不重要,比如家庭收入分布曲线并不是正态分布,但样本平均值的分布曲线确实正态分布的。并且,取样次数越多,结果就越接近正态分布。)
【标准差】群体中个体的离散性。(一个样本)
【标准误差】样本平均值的离散性。标准误差就是所有样本平均值的标准差。(二阶概念 样本集合)
十、统计推断与假设检验
如何判断两个事物之间存不存在“统计学意义”上的相关性
【假设检验】由零假设开始,如果能够证明某个【零假设】(不相关)不成立,那么其对立假设【备择假设】(相关)肯定为真。零假设和对立假设逻辑互补。“如果零假设成立,那么完全出于巧合的概率有多少?”决定了零假设到底有多不合情理才能被我们推翻,需要用到【门槛】,门槛即“统计学意义上的”“显著水平”。假如门槛为0.05,则零假设要想占住阵地,其支撑数据必须至少达到0.05这个水平。要是连0.05的可能性都保不住,备择假设就取而代之。(0.05在2个标准差误差之外了)此时你推翻零假设,有95%的概率是正确的,5%的概率失策。
【假定值】零假设成立的前提下,出现所观察样本结果的概率。低于【门槛】则推翻它。
【门槛】越细微精确,比如0.01,零假设在宝座上的根基越稳,要推翻它的难度就越大。
当能够在某个合理的显著性水平上推翻一个零假设时,其结果可以被认为是具有统计学意义的。
【置信区间】平均值±2个标准差 有95%把握的论点
【I型错误】错误推翻一个零假设(假阳性),对零假设的举证责任(门槛)要求越宽松,假阳性可能就越大
【II型错误】假阴性,举证责任过于苛刻
日常应用中通过对门槛的设置实现宽松和严格之间的权衡。“改邮件不是垃圾邮件”的零假设要谨慎推翻,少犯I型错误,宁可保守一点。“没有患上癌症”的零假设要严苛一点,最好不要有漏网之鱼,可以左一点,激进一点,站在I型错误这边。
十一、民意测验与误差幅度
“民意测验结果有95%的概率在实际情况±3%范围内”
2个标准误差是3%,即误差幅度。95%即置信区间。
民意调查的样本数据是百分比而不是平均数。
一个错的离谱的民调结果通常不是因为数学不好而是因为样本有偏见或问题设计不合理。
做民调要反复问自己这几个问题:
样本选择能反应目标群体真实观点么?
问题设置能得出靠谱结论么?
受访者会说实话么?
十二、回归分析与线性关系
缺乏控制力的工作任务带来的压力容易造成猝死,而为了得出这一结论,需要用回归分析排除掉其他竞争性因素的干扰。
【回归分析】在控制其他因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。如果处理得当,回归分析能够排除其它因素的影响,辅助我们找到最相关的因素。
打壁球习惯通常是上流人士保持的,富有的人接触到医疗资源也更丰富,因此打壁球有益健康的结论无法草率得出,正如打马球的过程中真正对人的健康起作用的是财富,而真正得到锻炼的是马。这些是典型的因果倒置。
心血管健康有多少比例源于他们低级别的工作,多少比例因为吸烟,看似是彼此缠绕密不可分的因素,回归分析寻找的就是两个变量之间的最佳拟合线性关系。
回归分析最常用的是最小二乘法【OLS】,OLS直线可以让所有数据的残差平方和为最小,这个直线方程即回归方程y【因变量】=a+b【回归系数】x【解释变量,自变量,控制变量】
【回归系数】我们只需关心它的正负(正相关、负相关),大小(影响的强弱)和意义(是一个基于糟糕数据样本的错误,还是能够反映整个群体普遍镇乡的相关关系)
一旦得到了回归系数和标准误差,便能对“自变量和因变量之间没有相关关系”的零假设进行检验了。
比如对于身高体重线性方程,得出b=4.5
验证每英寸身高对应4.5磅体重的概率有多少,回归运算得出标准误差为0.13
也就是95%的情况下回归系数会落在4.24-4.76之间
当标准误差(0.13)相比起回归系数(4.5)很小,或者回归系数至少是标准误差2倍或以上时,该系数就极有可能具有统计学意义。
【多元回归分析】将多个变量都纳入回归方程式时,接下来的分析可能让我们计算出因变量与每个解释变量之间的线性关系。
十三、致命的回归错误
那些专业领域的基于权威数据和专业统计软件得出的观点是如何发生荒唐错误的(误人性命的雌激素补充疗法)
回归分析为复杂的问题提供了精确但不一定准确的答案。
常见错误有
用回归方程式来分析非线性关系
用因果关系来解释相关关系(回归分析只得出具有统计学意义的相关性,至于解释还隐藏于冰山之后,擅加因果只能得出伪因果关系)
因果倒置(不一定是A导致B,完全可能是B导致A,即那些受结果影响的自变量,互相反馈,因和果纠缠不休,比如在解释经济增长的自变量中引入失业率,这明显是一个受经济关联的不自由因素)
变量遗漏偏差(就好像考核学校业绩时遗漏了生源家庭受教育程度因素,又或者研究打高尔夫球与心血管疾病的关系时遗漏了年龄因素)
高度相关的解释变量(多元共线性)(无法分离单吸海洛因或可卡因的人员,也无法独立研究父母单方面的受教育程度,因为这两者是密切相关的)
推理数据进行推断(结论中永远不要忘了这个词——“该结论与仅适用于XX范围”)
数据矿(变量过多)无关变量过多时,回归分析结果会被稀释,并且容易错误推翻零假设,出现【伪发现】,即不可重复实验的学术垃圾,由于发表性偏见,研究人员和医学杂志大量关注肯定性发现而忽略了针对它的否定性发现。
十四、项目评估与“反现实”
因果关系是根难啃的骨头,连再明显不过的原因和结果有时都没法一口咬定。为了解释某种“介入手段”或治疗真的有效,需要看到“反事实”(事实的背面)。对照组实验就是呈现反事实用的。
【随机控制实验】创造一个实验组一个对照组。人作为实验对象时有个问题,即人与人之间的差异比小白鼠之间的差异大多了,通过随机分配的方法可以抵消个体之间的差异,样本数量越大,随机分配作用就越显著。
医学临床试验使用的就是随机控制的双盲实验。文中介绍了一个很有意思的例子:祈祷有助于病人康复么?但是这个对照组设计有个致命缺陷:不能隔离来自其他渠道的祈祷(毕竟祈祷是个“超距”发生作用的事件,假如真的有效的话,实验室对它的控制力不足。)
但是由于很多伦理原因,不可能什么实验都能设置对照组,对照组实验有很多是不能在人身上做的,不现实也不道德,那么“事实的背面”对否就不可能被发现了呢?还有一些别的法子。
【自然实验】当某个事件自然而然发生,恰好营造了一个接近于随机对照的实验环境。例子是关于受教育程度高低与寿命长短之间的正相关性。这个显然不可能设计对照组实验,但历史上美国不同的州在不同时期恰好对各自的最低受教育年限进行过调整。(但是即便某个州在历史的不同时期调整了最低受教育年限,整个时间线上还存在一个干扰结果的“背景年龄增长”,随着科技发展科学进步,人类的寿命本身就是递增的,这个时候就需要用到后面要介绍的【差分类差分实验】找相邻的两个州,他们共享一样的“背景年龄增长”一个修改了最低受教育年限7年,另一个没有修改保持6年,这就形成了一个自然形成的差分类差分实验)
【非对等对照实验】当想要获得随机分配的条件十分苛刻无法实现时,非随机分配也可以勉强一用,但是任何非随机分配都会产生偏见,实验组和对照组之间存在一些难以察觉的差异,影响了小组成员的分配组成,从而产生跟现实有偏差的结论,需要适时地纠偏。就是说,非对等对照试验是个退而求其次的不完美方案。比如在研究名牌大学教育价值的时候,究竟是大学使毕业生优秀,还是这些被录取的学生本来就很优秀?设计随机实验显然不可能,但是每年在录取的学生中,总有一些被录取(有实力上名牌大学)但却因为某些原因放弃(比如家庭经济状况)的学生,跟踪对比这两组学生的毕业前景就行了。
但是对照组的学生跟实验组的毕竟有所不同,造成了人生道路的分叉,需要把这些差异考虑在内。
【差分类差分实验】仅凭两个事件发生的前后顺序不能确定因果关系,差分类差分法通过2个步骤明确某个介入因素的效果。1,对实验组本身在介入因素前后进行数据比较;2,将数据与另一个没有介入因素影响的对照组同期数据进行比较。
【不连续分析实验】将那些中间地带的刚好符合介入或治疗条件的对象,与那些毫厘之差被划分到实验组的对象进行比较(适用于有明确分界点,非随机分配的实验)例子是补习班到底有没有效果,取60分(刚好及格不需要补习)与59分(刚好不及格,需要补习)的数据进行比较;或者关于监禁是否有助于少年犯改过自新这个问题,对严重程度刚好够得上收监的少年和刚好可以释放的少年进行对比。
结论:好好使用数据。