精读《为什么》(1):统计无关因果
这篇书评可能有关键情节透露
《为什么——关于因果关系的新科学》出版已经有三年了,这次出差终于有时间通读。书足够好,作者足够牛,内容也足够诘屈聱牙,我尝试着领会精神。
1、大脑迷恋因果
书中的原话是:“人类直觉以因果关系而非统计关系为核心”。后者建立在数据之上,数字一变,统计结果也会跟着变。而因果关系的结构稳健,大脑处理起来更节能,性价比碾压。
2、有果未必有因
人类对因果关系的迷恋直到19世纪末才被打破。高尔顿发现“富不过三代”这种普遍存在的“均值回归”现象,并不需要因果解释,或者说原因就是纯粹的运气。
比如你玩色子,上把扔了个六点,那这一把很可能不如上一把。这并没有什么原因——你不会一直那么好运。
这个简单的道理,天才如高尔顿也花了十余载才想通。可见人脑对因果的渴求有多顽固。如果幼崽上次考满分,这次九十八,不用骨肉相煎、抱团反思,均值回归而已。
3、“相关性”用于预测
在研究均值回归的过程中,高尔顿发展出了“相关性”这一工具。这是本书出现的第一个学术概念。简单来说,相关性反映两个变量之间相互可预测的程度。
如果我们调查孩子的鞋码和数学水平之间的关系,下图中每个点代表一个孩子,横坐标为鞋码大小,纵坐标为数学水平高低。然后我们把数据拟合成一条直线(图中橙线),画线的原则是整体而言让所有的点最靠近橙线。
有了这条直线,就可以进行数学水平和鞋码大小这两个变量之间的相互预测(图中红点及红线)。

如果所有数据点全落在直线上,则相关系数=1(如果是向下的直线,则相关系数=-1)。总之,如下图所示:散点图越接近直线,相关系数的绝对值就越接近1,说明这两个变量之间的相关性越高,也就越能够相互预测。

4、超纲:不相关和独立
上图最后一排奇形怪状们的相关系数都为0——实在太不像直线了。而第二排正中虽然是条标准的水平直线,但它的相关系数无法计算——代入公式会出现分母为0。
相关系数的计算公式比较复杂,我们还是按照常识来理解:水平直线意味着不管横坐标的变量A如何变化,纵坐标的变量B都保持不变。这样的B似乎是可以预测的,同时B似乎又和A不相关。这种情况更像是概率学中“相互独立”的概念。
在前面的例子里,如果把鞋码分成3档,数学水平分为5档。那么任意一个小孩:
穿大码鞋的概率:P(A=大码)=7/50,因为图中一共有50个点,其中7个落在大码区;
成绩为优的概率:P(B=优)=6/50;
在穿大码鞋的情况下,成绩为优的概率:P(B=优|A=大码)=5/7,因为图中7个大码里有5个优;
既穿大码又得优的概率:P(A=大码,B=优)=5/50;

对于两个随机变量A和B,如果P(A=a,B=b)=P(A=a)×P(B=b),则称A和B相互独立。上式也等价于:P(B=b)=P(B=b|A=a)。我们把前面的数据代入验证:
5/50 ≠7/50× 6/50,6/50≠ 5/7,所以鞋码大小和数学水平这两个变量之间并不独立。
以上的描述并不完全严谨(比如没有区分离散型和连续型随机变量),我们还是尽量淡化数学,领会精神。重点要理解这个等式:P(B)=P(B|A)——A和B相互独立意味着“A是否发生不会影响B发生的概率”。
连扔两个色子,第一个扔出六点,不会改变第二个色子出六点的概率。实际上不管第一个色子是几点,第二个色子扔出任意点数的概率都还是1/6。所以两个色子相互独立。
不难看出,相互独立比不相关更严苛。不相关(准确的说是不线性相关)只说明两个变量之间的关系不能用简单的直线表示,但这并不意味着没有关系。比如正方形的边长和面积这两个变量,虽然不呈直线,但完全可以相互预测。而相互独立则意味着知道再多A的信息,也不能帮助预测B。
写到这里,虽然我小心选择,刻意回避,但还是不可避免地用到了诸如“影响”和“改变”这样的词汇。它们都从语文的角度暗示着因果关系,那么从数学的角度相关性、独立性等统计关系和因果关系之间是什么关系呢?
5、统计无关因果
答案是并没有半毛钱的关系。统计关系有明确的数学定义和计算方法,是纯客观的钉是钉铆是铆。而因果关系完全是主观的。
比如我把你推倒,显然我推是因,你倒是果。但我也可以说,是上帝看到了我推,然后发功让你倒的,所以上帝才是因。纯粹的主观没法证伪,不可证伪的不是科学,这样的抬杠没啥价值,那么追求因果关系也就没有意义吗?这正是高尔顿之后学界的主流思想。
高尔顿的学生皮尔逊认为:数据就是科学的全部。因果关系仅仅是一种重复,在确定性的意义上永不可证。
比如前面的例子表明鞋码和数学水平之间存在明显的相关性。但显然穿大鞋并不是数学好的原因,孩子也不会因为成绩好就偏爱穿大码鞋。不过这些都不重要,只要我们能够根据这两个变量相互预测就够了。
总之皮尔逊们只关心统计结果,而统计结果不涉及因果关系。前面边长与面积的例子说明了不相关≠无因果,下面这个例子则说明互相独立≠无因果。
假设有两个开关共同控制一个灯。控制电路设计为只有当两个开关的状态不一致的时候,灯才会亮。
现在抛两个硬币,根据它们的正反来分别决定两个开关的状态。
不难理解:P(灯=亮)=0.5,P(开关1=开)=P(开关1=关)=P(开关2=开)=P(开关2=关)=0.5,P(灯=亮|开关1=开)=0.5。
那么根据定义有P(灯=亮)=P(灯=亮|开关1=开),所以灯的状态和开关1的状态(同理也和开关2的状态)相互独立。但是你能说开关和灯之间没有因果关系么?
通过以上若干例子,你应该可以get到皮尔逊的point:统计无关因果也不需要关心因果,只要能帮助预测就够了。而这正是本书作者朱迪亚·珀尔大力批判的观点。
6、因果之魂——反事实问题
珀尔指出,统计关系能预测的都是似曾相识的情形,只有因果关系才能回答反事实的问题。
统计关系能预测穿大鞋的孩子数学很可能更好。但是不能回答“故意加大孩子的鞋码,能够提高他的数学成绩吗?”你可能觉得这个问题也太白痴了。那么下面这些问题呢?
吸烟会导致肺癌吗?某个药能治疗某种病吗?加大药量能提升疗效吗?降价能促销吗?……我当初要是没选这条路,现在会更幸福吗?
这些都是不同程度的反事实提问,并没有足够的数据支撑统计计算,要回答这类问题,只能挖掘因果关系。
珀尔相信因果关系的学习者需要掌握三种不同层次的能力:观察能力,用于发现事物之间的关联,这是统计能够胜任的。行动能力,用于预测人为的干预会产生怎样的结果,统计已经渐渐力不从心了。而最高层级是想象力,用于回答反事实问题,至此统计彻底歇菜。
那么我们要如何才能站到智力的最高层级去驾驭因果关系呢?当然是……且听下回分解。
剩下的内容会有动画讲解,敬请关注公众号:周工讲理