一些基本的统计学常识,门外汉略记一二。(个人小结)
1.准确度的假象
非整数比整数给人更真实可信的感觉。其实大范围的统计数据越是精确,编造的可能性越大。这些数据有可能是通过几个估计出来的数值重新产生的,或者只是在原有估计数字上多添加一些修饰的小数点。
2.错觉的误导
不同的计量单位和参照系/比较基础,会使事物呈现不同的面貌。
3.小心曲线
剪裁坐标轴,拉伸、缩短纵坐标和横坐标全部或部分的比例,让数据变成你想要的样子。
(1)剪裁坐标,数字飙更快。
(2)拉伸坐标比例,变化更平缓
(3)拉伸横坐标的部分比例,直线也可以玩猫腻。
4.自夸的百分数
没有分子分母真相的百分数都是耍流氓。今天赚一块,明天赚一块五也是增长了百分之五十。
5.受操纵的平均值
平均值通常模糊了事实上所存在的巨大差异,盖因他掩盖了平均值的离散度。中位数较客观。或者使用加权平均值。
6.骗人的虚假趋势
用短期条件下得到的增长趋势数据来预测长远的未来,并不靠谱。影响未来的不确定因素很多,而且趋势也有deadline,周而复始,不可能一直无限发展。
7.人工合成的最高级
人工合成的最高级,其评价标准或比较基础(挑选实力较弱的竞争对手)大多是量身打造的。
如何判断:扩展比较的基础。真正的最高级无论怎样比较都是最高级的。
8.先入为主的抽样检验
从系统角度出发,总体的某个部分被过分赋予了代表性(经过精挑细选),其他相关的因素却被忽略,容易扭曲抽样检验的现实。用过去的数据来验证当下正在发展的情况,自然也不靠谱。
9.美化后的图标
数字图形和不匹配,会在视觉上夸大倍差,扭曲比较的信息。
数字本身是面积,应用二维的图形,本身是体积的应用三维的图形。
10.投之以木瓜,报之以琼琚
问题本身具有诱导性,得出的结论是有倾向性滴。
(可以在祈祷的时候吸烟吗;可以在吸烟的时候祈祷吗)
在“是-不是”问题上,人们更喜欢说“是”。
回答书面问题时,如果问题对于受访者不重要,大多数人会选择不作答。
面对面的访问,访问者的举止、性别、种族、随身物品等也会影响受访者的作答。
受访者具有一种适应时代的精神,或者顺着采访者意思作答,或者因个人利益没有真实作答。
11.统计失业抑或实际失业
失业概念标准不一的结果。
14.相关关系PK因果关系
忽略背景变量,会产生大量无意义的相关关系。
15.飞机噪音产生艾滋病
小概率事件出现时,人们并不信服偶然性作为唯一解答。
16.国民生产总值神话
国民生产总值包括一货币为支付手段进行交换的物品和服务。无需支出货币的私人劳动和黑工却被摒除在外。
国家生产出来的产品和服务,因都通过税收和社会费用扣除的形式间接支出,无法用实际市场价格衡量,会存在国家越浪费,GDP越高的反效果。
17.还有哪些数字可以相信
伪造数据实际上很容易被识破,而且必须伪造更多的其他数据,这让伪造数据变得越来越难。
(收起)