在生活当中,当两组数据的变动高度相关(一组数据上升,另外一组数据也上升,反之亦然),我们往往会认为这两组数据有因果关系。本文展示了这样的逻辑在有些时候会引起多么荒谬的结论。

最近看到了一篇何明科写的生活中的数据犀利哥之五:找错因果关系,在文章的最后提到了国外有一个很有趣的网站:15 Insane Things That Correlate With Each Other,专门列出来看似逻辑相关但是其实因果关系错乱的例子。我特地去看了一下,发现这个网站里面不止有15个例子,而是有接近3万个例子。本文翻译了首页的几个典型例子。更多的例子可以去该网站浏览。

1. 每年泳池溺水的人数 vs 尼古拉斯凯奇每年拍的电影数

nicholas

相关性指标:
Correlation(相关系数):0.666004

相关系数的取值范围是-1到1。 0代表完全无关。越接近1,代表越正相关。越接近-1,代表越负相关。

正相关的意思就是说:当A、B两个数据正相关,那么只要A上升,B一定上升,并且上升的幅度也相同。反之亦然。
负相关的意思就是说:当A、B两个数据负相关,那么只要A上升,B一定下降,并且下降的幅度也相同。反之亦然。

(更详细的Correlation解释点这里

从数据上看出,每年泳池溺水的人数和尼古拉斯凯奇每年拍的电影数正相关。但是,我们显然不能认为,尼古拉斯每拍一部电影,都会有一个神秘的力量把无辜的群众推向泳池的深渊。

所以,我们时时刻刻要记住:相关性≠因果性

上面的例子中,0.66的相关系数不算特别正相关。接下来我们来看一个特别相关的例子:

2. 美国用于科学、航空的经费 vs 每年上吊、窒息自杀的人数

science

Correlation(相关系数):0.992082

这个从数字上来说就高度相关了。从因果性上来说,自杀和个人的心理状态有关,也许把用来投入科研的经费投入群众心理治疗中,可以改善自杀人数,但肯定这个影响因素也不至于能到几乎完全正相关的地步。如果你是美国政府的政策决策人员,你会认为你投入科研经费越多,自杀的人就越多吗?

下一个例子,我们看一个负相关的。

3. 产蜜蜂群数量 vs 因持有大麻而被捕的青少年

juvenile

Correlation(相关系数): -0.933389

上文说过,越接近-1,代表越负相关。这张图表示,产蜜的蜂群越多,因持有大麻而被捕的青少年越少。这两个东西明显在因果性上毫无关联。

接下来,再列出几个比较典型的例子:

4. 人均奶酪消费量 vs 被自己被单缠死的人数

bedsheet

han

5. 缅因州离婚率 vs 黄油人均消费量

margarine

这个我知道为什么,把Maine拆开来,强行塞进rgar,变成Margarine,所以就离婚了。恩,一定是这样的。

6. 美国小姐当选年龄 vs 被蒸汽杀死的人

steam

这里可以看到,在2009年,数据开始不同步了。
假设我们现在正在2008年,这个时候我们没有2009年的数据。我们发现了美国小姐当选年龄和被蒸汽杀死的人在数据上有高度相关性。如果我们完全不去考虑因果性,我们可能会预测2009年美国小姐当选年龄和被蒸汽杀死的人在数据上还是会有相关性,结果会惨被打脸。

7. 街机年收入 vs 每年新增计算机博士学位

doctorates

8. 全球非商业太空发射 vs 每年新增社会学博士学位

space

9. 马苏里拉奶酪人均消费 vs 每年新增土木工程博士学问

mozzarella

10. 从渔船上掉下去淹死的人 vs 肯塔基州结婚率

kentury

11. 美国从挪威进口的原油数量 vs 和火车相撞死亡的司机数量

oil

12. 鸡肉人均消费 vs 美国原油进口总数

chicken

13. 日产轿车在美国的销量 vs 机动车撞车自杀的人数

japanese

14. 全美拼字比赛大奖单词字母个数 vs 被毒蜘蛛毒死的人数

scripps