疯狂的阳光什么意思(疯狂的阳光什么意思啊)

2022-09-21 20:43:17

我们总说，用数据说话，仿佛有了数据就有了真相，但数据就一定是靠谱的吗？

大数据时代赋予了我们可以对海量数据进行挖掘和分析的能力，强大的计算机可以通过分析数据发现重要的规律和结论。

但有时候我们会发现，有一些通过数据和计算发现的规律或结论却显得非常怪异：

--凌乱的房间会强化人们的种族主义倾向
--如果每天喝两杯咖啡，患上胰腺癌的风险将极度放大
--生活在输电线附近的儿童有更大的患癌风险
--人类有能力将死亡延迟到重大仪式过后
.........

以上说法，听起来很荒谬，但很多这样反常识的结论却充斥在网络上，而且还煞有介事地宣称有数据的支撑，让你一度怀疑自己的三观可能要崩塌了。

数据本身不会说谎，但是使用数据的人往往会故意误导我们。科斯曾经嘲讽道：“如果你对数据拷打足够长的时间，它一定会招供”。

这本书考察了总结了一些常见的数据谎言，能帮助我们识别他们的数字谎言，来看看你有没有中过招吧~

选择性偏差

选择性偏差，指的是选择了不恰当的样本来代替总体，导致结论偏离的现象。

例如在1936年，罗斯福和兰登的大选中，美国民调机构通过电话登记给民众邮寄了民调意愿调查表，其中有230万民众回复，数据统计显示兰登将大获全胜。

但是结果啪啪打脸，罗斯福以压倒性票数获胜。

这是一次典型的自选择偏差，因为在当时的美国拥有电话的人大多是富人。

富人大多都支持兰登，而罗斯福的拥护者是更广大的底层群众，他们没有电话，天然被民调机构排斥在外，然而底层民众的数量远超富人。

所以，不仅要关注结论数据，还要关注这个结论的统计数据是从哪来的？样本的选取是否能代替总体。

幸存者偏差

幸存者偏差，顾名思义，我们只能看到幸存者，对于背后的失败者，我们从来都不会关注。

举一个经典的案例，二战期间，英国和德国的空战异常激烈，为了最大程度减少损失，英国发起了一项研究课题：在飞机的哪些部分加厚装甲，才能最大程度的保护飞机，减少飞机和飞行员的损失？

英国的科学家一看，这不是很简单嘛，统计一下从战场上返回的战机上子弹孔的分布，然后在弹孔密集的部分加厚装甲，不就行了吗？

统计学家Abraham Wald一看这结论，上去就是耳光8连击！

他连续写了8篇报告指出：你们都忽略了那些在战场上被击毁的倒霉蛋们，这些幸存者能回来，恰恰说明他们身上的弹孔是不致命，应该研究那些被击毁的飞机！

幸存者偏差由此得来。幸存者偏差在生活中其实非常常见。

比如，鼓吹读书无用论的人，常举的例子就是比尔盖茨，扎克伯格没读完大学就能创建庞大的商业帝国，或者你身边的某某读完高中就下海了，现在混的也风生水起。

人们总是习惯把目光聚焦于这些成功的幸存者们，但是对于背后的失败者却知之甚少，甚至知道了也不愿意相信，因为我们还有一个劣根性：侥幸心理。

很多成功学、培训机构的割韭菜手段，他们只会告诉你谁谁谁学了这个课升职加薪了，创业成功了，月入10万了，但却闭口不提那些失败的倒霉蛋。

选择性谎言

选择性谎言，我们只会把对自己有利的信息选择性展示给别人看。

选择性谎言是骗子的常用手段，大到国家层面的摸黑，例如西方媒体对我国的大肆片面报道，让西方民众误以为中国人民生活在水深火热之中。

中到公司企业层面，例如，很多公司的财报为了好看，只会选择性的发布对自己有利的部分，所以对于公司的财报等新闻，去第三方无利益纠纷的机构看，会更加真实。

小到生活的方方面面，跟老板汇报坏消息，我们不会说：老板，我们的销售额下降了2成；而只会说：老板，我们的销售额在外部环境差的情况下仍然保持了8成！

跟父母我们也只会报喜不报忧，当然这是善意的谎言了。

所以，对于得到的信息，我们要学会甄别，这些信息是否全面？发布信息的人是否存在利益关系？

小样本谎言

网上有一个热门的段子：谎言的最高境界就是每句话都是真的，但是连起来就是一个巨大的谎言：

在世界杯的历史上，仅有三支国家队战胜过中国国家队，分别是巴西、土耳其和哥斯达黎加。没有任何一支足球强国能够逼平中国队。就算是巴西这样的足球霸主也只战胜过中国一次，从来没有一支球队能击败中国队两次！

听起来是不是很牛逼的感觉，但实际上，中国队进入识别的次数只有3次.....

小样本偏差，指的是使用真实的少部分数据来试图描述整体的状况，听起来很有道理，但是却经不起仔细的推敲。

小样本谎言在生活中有很多，我们经常使用身边的例子来验证一些事实，常见话术：

“你看那谁，吃了这个药病就好了，这个真的是神药啊！”——但还有很多不认识的人吃了没效果

“我们公司的业绩增长了3倍！”——但事实是从1000增长到了4000

“某某学员学了这个课程，进了大厂，年薪50万！”——但还有很多其他学员连工作都找不到

在工作生活中，大家可以感受一下这些“断言”。

辛普森悖论

辛普森悖论，不是某人的悖论，它指的是：整体的结论和局部分结论正好相反。

举个例子：某互联网公司在探索如何增加广告收入，他们有两个方案：

方案1：一次点击，将广告放在首页，用户点击后获取收入
方案2：二次点击，首页只有关键词，用户点击关键词后，将相关的广告展示给用户，用户点击获取收入

两个方案看上去各有优劣，方案一展示量大，但是可能由于不精准，点击量会少，而方案2恰好相反，展示量不大，但是由于是根据关键词推送，用户可能更感兴趣。

A/B测试一段时间后，收集数据的如下：

一次点击

二次点击

收入

用户数

RPM

收入

用户数

RPM

2.9

250

11.6

1.7

140

12.14

其中，RPM指的是每1000用户的收入。

咋一看数据，结论显然是二次点击更好，那是不是就使用二次点击的方案呢？

如果你真这么做，有可能就是给自己挖坑。我们再来看另外一张表：

一次点击

二次点击

收入

用户数

RPM

收入

用户数

RPM

国内用户

1.8

25.71

1.2

国外用户

1.1

180

6.11

0.5

5.56

总计

2.9

250

11.6

1.7

140

12.14

大家一看这数据，都懵了。为什么细分到国内和国外用户后，不管是国内还是国外，一次点击的RPM值都大于二次点击，而综合起来确实二次点击优于一次点击呢？

这就是著名的辛普森悖论，总体的结论和局部结论正好相反。出现辛普森悖论的原因是，没有考虑到容易让人忽略的混杂因素。

在这个例子中，用户类型是一个混杂因素，RPM不仅受到点击类型的影响，也与用户类型有关。

国内用户有更高的RPM，而且相对于国外用户，更喜欢二次点击，因此推高了总体对于二次点击的RPM值。

要想注意到可能存在的辛普森悖论，就需要注意是否存在让人忽略的混杂因素。

回归均值

优秀的人往往没有那么优秀，而平庸的人也往往没有那么平庸。

人们几乎每天都会在生活中遇到它。其次，几乎没有人理解这种现象。这两个原因的叠加使均值回归成了人类决策最基本的错误来源之一。

什么是均值回归？举个简单的例子：

假设班里有30名学生，每个人的能力值是他们经过大量考试的平均值，学生张三的能力值是80分（表示他考试的平均成绩是80分），李四的能力值是60分。

但这并不意味着张三每次考试都是80分，有可能有一次考试正好是张三做过的题，于是他考了95分，而下一次考试的题张三没有接触过，他可能只考了75分，显得张三变平庸了。

实际上，每一次考试都是对张三成绩的不完美测量，而这些不完美的测量，都会回归到张三的能力值。

这种“得分远离均值的人在第二次测试中倾向于获得更加接近均值的得分”的现象是均值回归的一个例子。

投资成功是对投资者才能的一种不完美考量。因此，我们也会看到回归现象：平均来看，在任何一年做出最佳股票选择的投资咨询师都会在第二年变得更加平庸。

我们可以看一下这张家族智商的均值回归图，不止是智商，身高、颜值等都是一样，所以青出于蓝而胜于蓝，可能不一定成立。

通过均值回归，我们可以理解这样一个道理：

由于我们倾向于在其他人表现出色时奖励他们，在其他人表现糟糕时惩罚他们，又由于均值回归现象。

因此从统计上看，我们将由于奖励别人而受到惩罚，由于惩罚别人而受到奖励，这是人类社会的一个组成部分。

所以，如果你表现优秀，请不要沾沾自喜，表现平庸也不要自暴自弃，这些都可能只是均值回归现象而已。

那么怎样才能让自己发挥得更好？答案，显而易见，提高自己的平均水准。

平均数陷阱

这可能是大家最熟悉的陷阱了。

看着对于某些行业的平均薪资，我们总是无奈地自嘲：看，我们又被“平均”了

平均数是统计学中最基本的概念，能在一定程度上反应数据的分布情况，但是当数据中存在异常值的时候，平均数就失真了。

举个例子，看下列一组数：3,5,6,100,2,4,8,9,10，这组数的平均数 = 14.7，很明显偏离了这组数据的大多数情况。此时，平均数就不能反应数据的真实情况了。

怎么规避这些异常值呢？最常见的做法是，在比赛中通常会去掉一个最高分，去掉一个最低分，然后再去平均值，这个方法就能在一定程度上去掉过高或过低的异常值。

还有一些方法是，使用中位数或者众数。中位数是将一组数据按大小顺序（从大到小或从小到大都可以）进行排列，然后找到中间位置的数据，如果是偶数个则去中间的两个然后取平均值。

例如上个例子的中位数是2,3,4,5,6,8,9,10,100，而6相比于平均值14来说，更能反映这组数据的真实情况。

视觉偏差

眼见不一定为实，我们先来看两个对比图

左右两幅图都是同一家公司的年度收入数据。

从左图来看，这家公司的收入数据波动并不大，发展很平稳。

但是看到右图，董事会的人坐不住了，厉声质问CEO：你是干什么吃的？为什么我们的利润下降这么多？！

一样的数据，为什么差距这么大呢？你仔细观察一下就会发现，原来是左侧的图纵坐标是带0的，而右侧的图是从1000000开始的。

右侧图使了个障眼法，通过缩小纵轴的刻度，将数据之间微小的差距放大了，人为地制造了恐慌。

所以，当我们看到这样剧烈的波动时，先别慌，看清楚纵轴的刻度是不是从0开始的。

而反过来看，我们也可以利用这样的技巧。比如我们做年终总结要突出自己的成绩时，比如我们给投资人展示公司的数据时......

疯狂的阳光 什么意思(疯狂的阳光 什么意思啊)

疯狂的阳光什么意思(疯狂的阳光什么意思啊)