极客时间已完结课程限时免费阅读

01 | 平均值:不要被骗了,它不能代表整体水平

01 | 平均值:不要被骗了,它不能代表整体水平-极客时间

01 | 平均值:不要被骗了,它不能代表整体水平

讲述:郭炜

时长17:28大小15.96M

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
我们在日常生活中经常会遇到这种情况,看到某些统计报告里面说,“某市的人均住房面积是 120 平米”“计算机行业人均年收入超过 50 万元”。你看完这个数据之后,倒吸一口凉气,然后去微博感叹:“对不起,我又给大家拖后腿了”“对不起,我又被幸福了”。
你不必为此焦虑,我只能奉劝你,以后看到这么不专业的统计报告就别看了。来,我带你看看准确客观的平均值统计应该是怎样的。首先,你得知道平均值究竟是什么。
从概念上看,平均值有很多种。单从数学上来说,就有算术平均值、几何平均值、平方平均值、调和平均值、加权平均值等等。所以当有人和你说平均值的时候,你要留个心眼问问他,你这说的是哪个平均值呀?
当然,我们日常生活中提到的平均值都默认是“算术平均值”,也就是“一组数据中所有数据之和再除以数据的个数”。这个概念不难理解,你在小学的时候就开始学了。不过看到这里,你可以先结合我们上面的例子想想,算术平均值有什么短板吗?
我先给一道极其简单的数学题,你可以先想想。我们有 3 个数,他们分别是 0,1,20,这三个数的平均值不难算,是 (0+1+20)/3=7,那 7 这个平均值和之前的三个数是不是差距挺大呢?是不是有些不客观呢?
所以,有的时候,平均值并不能代表整体水平。

平均值在什么情况下才有价值?

那平均值到底在什么情况下才有价值呢?回答这个问题之前,我再给你讲个故事。
昨天下楼的时候,我听到小区两个大妈在讨论,“这次期末考试,班里语文的平均分是 71 分,我孙子考了 85 分,厉不厉害!”在工作中,我偶尔也会听到同事说,“我们客户的平均客单价是 1000 元钱,竞争对手的只有 500 元,我们的客户比对方的高端多了。”这些说法都对吗?还真不一定。
为了更好地解释这个问题,我先拿孩子的平均分给你举个例子。假设班级里 20 名学生的考试成绩如下图一样呈现两极分化的情况,一半孩子都在 95 分以上,还有近一半的孩子只有三四十分,我们很容易计算出这 20 名学生的成绩平均值是 71.05(图中的红色直线)。
看上去孩子的 85 分比平均分 71.05 分高了很多,但你再仔细看,这个分数在好学生里其实是最差的那个,整体上看也只是班级中游水平。
同理,看上去这个企业的平均客单价很高——平均 1000 元,但如果你的数据是由 1 个 1 万元客户和 10 个 100 元的客户构成的(总收入 11000 元 /11 人 =1000 元 / 人),对方都是 11 个客单价 500 元的客户构成的,那么其实竞争对手才是真正的高客单价企业。
你可能会觉得我在抬杠,这些例子的数据集都太极端了吧?其实我是想说明一个问题:平均值是用所有样本数据计算的,容易受到极端值的影响。在不少情况下,平均值是没有价值的,它无法客观准确地反映数据整体情况。
更进一步来说,整体平均值是在数据呈均匀分布或者正态分布的情况下才会有意义,如果忽略整个数据的分布情况,只提平均值,其实是没有意义的。这也就是为什么你会在读一些统计分析报告时觉得自己不是“被加薪了”,就是“被幸福了”。
现在你明白了吗?在一些复杂情况下,我们是很难确定人群分布情况的,此时若直接使用平均数值,是很难反映整体真实情况的。

分组结论和整体平均值不是一回事

那怎么才能反映真实情况呢?
就拿平均薪水这个例子来说,你肯定有疑问:什么人啊?咋拿到那么多钱的?你肯定想看更详细的数据,诸如具体的岗位属性、工作年限、城市等等。有了这些信息,你才能知道你和人家的薪水差距到底差在哪了。
比如一个在一线城市工作 3 年的 Java 程序员的月平均工资是 2 万元,而我的月工资是 1 万元,那我确实是低一些,这个判断比起之前那个一刀切就准确太多了。
不知道你有没有注意到,在思考这个问题的过程中,你已经在不知不觉中引入了分组的逻辑。你应该也发现了,分组中的平均数和从整体中得到的平均数,是完全不一样的,分组中得到的平均数更具参考价值。
上面这个例子很好理解,我现在要顺着它抛出一个结论:整体平均值不能代表各分组情况,分组结论和整体平均值结论可能会大相径庭。
明白了吗?别急,我再讲一个例子反面论证一下这句话。话说 NBA 有两个球员,球员 A 和球员 B,他们的投球的表现如下面这个图所示。
这里我简单描述下,先说 2 分球的情况:A 球员,2 分球总共投了 250 个,投中了 200 个,命中率 80%;B 球员,投了 100 个,投中了 90 个,命中率 90%。也就是说,以 2 分球的命中率来看,B 更牛一些。
投 3 分球的时候,A 球员一共投了 50 个,投中 5 个,命中率 10%;B 球员,一共投了 150 个,投中 50 个,命中率 33.33%。看来,无论 2 分球还是 3 分球,B都比A的投中率要高。看上去也是 B 比 A 厉害,对吧?
那问题就来了,可是从整体命中率来看好像不是这样啊。你看,如果我们算下两位球员的整体平均值(也就是整体投中率)。
A 的总投球数是 300 个(250 个 2 分球,50 个 3 分球),共投中 205 个(200 个 2 分球,5 个 3 分球),投中率是 68.33%;B呢,投了 250 个球,投中的两分和三分加到一起 140 个,那么他的投中率是 56%,这么看来 B 比A的投中率 68.33% 要低呀。
看到这个结果,你是不是很诧异,不信你再仔细看看这个图表,我的确没有在数据上做手脚。
两分球和三分球投中率都比较高的这个球员 B,整体的命中率反而下降了,是不是让人有点大跌眼镜?如果你是篮球爱好者,你应该会发现问题,NBA 里没算过整体命中率,一般都是把二分球和三分球的命中率分开说的。

辛普森悖论的启示

为什么 NBA 不计算整体命中率呢?就是因为这样算不准确。这里我们可以引入一个著名的悖论——辛普森悖论,它讲的就是这个问题。辛普森悖论是 1951 年由 E.H. 辛普森提出的,简单来讲就是在分组比较中都占优势的一方,有的时候在总评中反而是失势的一方。
我用前面 NBA 球员命中率的例子跟你分析下产生辛普森悖论的原因。首先,两分球和三分球的投球能力根本不是一回事,这两个投球数本身就不应该相加;另外,B 球员虽然厉害,但是他 60% 的球都是命中率比较低的三分球,而绝对数量上命中率较高的两分球投得就少了,而三分球的投中率是明显低于两分球的,这样就拉低了他的整体的投中率,造成了整体的劣势。
是不是还是有点绕?用一句话来讲,就是“质”(命中率)与“量”(投球数)是两个维度的数据,如果全部合并成“质”(命中率)这个维度的数据,那就会出错了。
再举一个例子,某游戏公司做了款游戏,有 Android 和 iOS 版本,而每个系统都有手机版本和 Pad 版本。一个数据分析师看完用户的付费数据后,发现整体上 Android 付费率比较高。他就直接告诉老板说,“你看我们 Android 的用户付费率要高于 iOS 的用户付费率,我们应该大力发展 Android 客户端!”这个数字是真实的,但是结论很可能是错误的。
因为我们再细分下去你会发现,这个数据分析师也是错误地把“质”(付费率)和“量”(用户数)简单合并,是一种想当然的行为。
因为还有可能出现这样一种情况:Android 无论是平板还是手机的付费率分别都比 iOS 低,但是整体上因为安卓手机(注意,只是手机用户)的用户比较多,所以把 Android 付费率整体拉高了。但其实细分下去 iOS、Pad 和手机的付费率都比 Android 高,只是整体付费率低而已。你要是还有疑虑,可以对照上面 NBA 的例子,自己再推演一下。
所以,我再来总结下,看到一个平均值的时候,你一定要留个心眼,看看它的数据构成情况,而不是简单地用平均值去代表所有的整体。生活是具体的,如果你想看到更为准确的数据,你应该分组拆开来看。因为辛普森悖论告诉我们,有的时候,在分组比较中占优势的一方,在总评中反而可能是失势的一方。但你要注意,只是“有的时候”。
就像最近我看到一些文章,说税率改革之后我们的整体工资的税率反而是变高了,而不是变低了。这也是同一个道理,我们用整体的平均值去掩盖个体每一个不同区间段的税率变化,是不对的。我们应该更细分的数据去评定实际的好坏。
除此之外,辛普森悖论也给我们一个启示,就是:每次小范围内的输赢,其实和你在整体上的输赢没有太大直接的关系。这也是为什么在打麻将或者打德扑真正赢的那些人,不是那些小牌把把赢的人,而往往是赢一把大的人。
这也是这个辛普森悖论衍生出来的一个推论,将来你要用数据分析做决策的时候,小到打牌、大到做投资,不要过于计较局部的得失,而是要在关键时刻对大概率有把握的事情放手一搏。

小结

好了,今天这篇文章就到这里。我在最后再来给你串讲下这节课的知识点。
首先,当别人给你说平均值的时候,你要和他确认下说的是哪个平均值。当然,生活中,我们提到的平均值基本都是在说算术平均值。其次,算术平均值特别敏感,它很容易受到极端数据的影响,所以在很多选秀节目里,你经常会听到最后计算分数时要去掉一个最高分和一个最低分,这是一个道理。
你也一定要意识到,整体平均值是在数据均匀分布或者正态分布下才会有意义,如果忽略整个数据的分布情况,只提平均值是没有价值的。
最后,我和你聊了辛普森悖论。工作生活中,我们经常会遇到这样的悖论,甚至我见过很多传销人员就在用这个悖论在忽悠人,如果你遇到这样的案例,别忘了那句话:分组结论和整体平均值结论可能会大相径庭
在我们的生活里,我们总提“质量”这个词,但是拆开来看,“质”与“量”是不等价的。所以当你不被大部分人所理解时,有可能是因为你选的路是一条少数人走的路。平均值和辛普森悖论告诉我们要抓大放小,不要因为某一个单项优势就洋洋得意,也不要因为局部失败就一蹶不振。生活,要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高。
数据给你一双看透本质的双眼,让我们持续学习,持续提高。

课后思考

最后我给你留一个课后思考题:你在你的生活里,你还遇到过哪些平均值和辛普森悖论的例子吗?欢迎你分享出来,我们一块讨论。
欢迎在留言区与我分享你的想法,也欢迎你在留言区记录你的思考过程,如果你能有其他案例,那就更好了。感谢阅读,如果你觉得这篇文章对你有帮助的话,也欢迎把它分享给更多的朋友。
分享给需要的人,Ta购买本课程,你将得18
生成海报并分享

赞 116

提建议

上一篇
导读 | 万物背后的规律都是数据
下一篇
02 | 大数定律与小数陷阱:生活是随机还是有定数的?
unpreview
 写留言

精选留言(55)

  • Troy@InfoQ_0a1dfd51...
    置顶
    2021-07-31
    单从投球命中率会不会也不够,假如A跟B上场时间差不多,A的总得分是415而B是330,这样看A是更有得分能力

    作者回复: 你说的对!数据分析是最后是用结果说话的,进球时间效率以及其它队友进球和防守配合情况要通盘考虑,而且要看整体球队,而不是某个明星球员,要看整个赛季而不是某场比赛,这就是辛普森悖论教给我们的。

    共 2 条评论
    19
  • 夜路破晓
    2021-07-31
    之前只是从量的角度理解辛普森悖论,比如生活当中存在一类聪明人,在整体水平较低的模块占据优势,因此获得重视,但对基础模块的提升只是浅尝辄止,那么有很可能导致个人整体水平不高或者存在上限,因而走不远。 看完这篇文章对辛普森悖论的本质有了更进一步的了解。人们在认识世界方面,由于客观条件的限制必然存在着多种视角,沟通交流就是对建立在对多种角度融合的基础上。那么,据此我们是不是可以一个结论,即由于辛普森悖论的存在,某些沟通交流必然是徒劳的。也就说正如文章中提及的只有对符合均匀分布和正态分布的整体使用均值才有意义,沟通交流只有基于共识才能有效,否则人们要么在寻求达成共识的路上,要么话不投机半句多。
    展开

    作者回复: 赞同!后面讲聚类和关联算法背后的哲学逻辑也会提到,断舍离,人的一生非常短暂,在值得投入的人和事情上面深度投入,不值得的事情一分钟都嫌多。

    共 2 条评论
    34
  • 南辞
    2021-10-07
    之前看其他的专栏,有位同学给我很好的启发,就是用提问的方式来复习内容,我也讲内容总结如下几个问题来复习。 1、什么是平均值? 2、平均值都有哪些?生活中说的平均数一般是那个? 3、使用平均值需要注意什么?什么情况下平均值才有意义? 4、辛普森悖论是什么? 5、中位数能不能代表不是正态分布的总体情况? 总结给大家学习自查。
    展开
    28
  • 大林 Kralite
    2021-08-30
    问题出在球员的出手数上,也就是命中率的分母。 1. A球员的出手数,两分球:三分球=5:1;B球员的分母上,两分球 : 三分球=2 : 3。 2. A球员的两分球命中率每提升1%,相当于三分球提升5%,相当于整体命中率的提升0.83%;但B球员的两分球命中率每提升1%,相当于三分球提升0.67%,相当于整体命中率提升0.4%。 3. 同样是两分球命中率,A的两分球命中率的“质”是要更高的,每1%都是更“值钱”的。 再看A和B的整体命中率: 1. 整体命中率,可以看做是命中率较高的部分(两分球)去弥补命中率较低的部分(三分球),最终达到一个平衡点。 2. 对A来说,他用两分球命中率去弥补三分球命中率的过程中,因为他两分球命中率的“质”更高,只需少量弥补就能达到平衡点;但对B来说,他的两分球命中率因为不那么“值钱”,吭哧吭哧弥补了三分球命中率很多,才能达到平衡点。 4. A的平衡点,最终反而高于了B的平衡点。 直接比较命中率其实暗含了一个前提:将A的1%和B的1%放到一个天平上,它们是等价的。 但问题在于,A的1%是要比B的1%更“重”的,天平并不平衡!
    展开

    作者回复: 是的!

    共 4 条评论
    26
  • 万折必东
    2021-09-07
    辛普森悖论推演 ①买彩票能中小奖,和买彩票能中大奖是两回事。 经常中小奖的人,因为坚信中奖多了总能碰上大奖,所以买得越多亏的越狠 ②和女朋友吵架输了不丢人,你稳住了感情这盘大局。 大男子主义每次都赢了女人,在讲三从四德的古代可以自在逍遥,男女平等的现代基本被爱判处终身孤寂 ③招聘广告上的薪资最好调低10%-20%去看,如果招聘公司放出来的是员工平均薪资,极有可能是被少数高薪员工拉高了的薪资
    展开

    作者回复: 哈哈哈,例子举得不错!👍

    18
  • mapping
    2021-07-29
    懂了,这就去梭哈😄
    18
  • 80分
    2021-09-12
    辛普森悖论让我重新思考整体与个体的关系。整体的平均值不一定能代表整体,还要考虑个体是否符合均匀分布或正态分布。用平均值来评价缺乏起伏的一生无可厚非,对于大起大落的人生则有失公允。 但我们还远未到盖棺定论的时候。依据辛普森悖论的提示,找到隐藏在整体平均值下的分组平均值,也就找到了自己的优势和劣势。你可以选择填补自己的短板,也可以根据比较优势理论,将资源投入到你更擅长的事情上,猛投2分球。哪种选择更好?这是另一个价值观上的取舍,但至少要先认识到自己有选择。
    展开

    作者回复: 是的!思考很深刻

    共 2 条评论
    13
  • mtfelix
    2021-08-01
    大侠的课,对活法也极有启发呀。赢一堆鸡毛蒜皮,不如一把大的。

    作者回复: 数据思维,其实思维启发更是一大部分,知识是死的,思维是活的,要听我亲自录的音更有感觉,哈哈

    11
  • 第一装甲集群司令克莱...
    2021-07-30
    先胖不算胖,后胖压倒炕。 打麻将开局顺风顺水,一堆屁胡。 然后人家几把大胡,是最后赢家!

    作者回复: 哈哈,先胖趋势不能代表整体水平。

    7
  • 2021-08-28
    老师,请教两个问题, 1.辛普森悖论是否可以理解为:整体平均值与分组平均值不一致时,分组平均值更具代表性? 2.原因是否是因为:分母不同,不能直接合并分组平均值为整体平均值,因为分母较大的分组会稀释分母较小的分组在整体中的占比。

    作者回复: 1. 代表性是一个业务定义,不好说 整体和局部的谁更有代表性。辛普森悖论是说局部与整体分布不同,如何抉择还是需要我们来选择,一不能一叶障目不见泰山,也不能局部胜利全局失利。人类的经验和智慧也体现在这里。 2. 是的,分析的对

    6
  • 公号-技术夜未眠
    2021-07-30
    赢得了每一场战役,却最终输掉了整个战争。

    作者回复: 是的,要有格局

    共 2 条评论
    5
  • Juha
    2021-07-29
    哈哈,重新读一下,很real
    共 2 条评论
    5
  • 小Mae
    2022-04-14
    重仓股跌2% 轻仓股涨停 结果整体还是亏损😁
    3
  • 201201904
    2021-09-06
    NBA球员那个例子,我想起了之前看NBA的时候,投篮命中率最高的球员经常是乔丹,就是那个德安德鲁乔丹……因为他不会投篮,只会扣篮,都是内线得分,命中率百分之八九十。
    3
  • 2021-08-28
    昨天跟朋友下围棋,正好映射了今天课程要讲的道理:布局全盘,不要只着眼于一子的得失。人生又何尝不是这样,确定好大目标大方向,不要在乎一城一池的得失、鸡毛蒜皮的小事。前提是要确定好大目标大方向,并按照这个方向去努力

    作者回复: 棋若人生

    3
  • Lemon、
    2021-08-07
    就像打游戏,分三路推掉了六个塔,最后还是输了,因为对手只在中路推了4个塔就打到家门口了

    作者回复: 哈哈,王者高手啊。

    4
  • 月下虎
    2022-06-01
    从经济学观点来看,这个问题就是有限资源的利用与配置问题。经济学本质上就是一门决策的学问。 首先分别看AB两球员二、三分球的期望得分。 二分球 三分球 A 2*0.8=1.6 3*0.1=0.3 B 2*0.9=1.8 3*1/3 =1 无论是二分球还是三分球,B的期望得分都高于A,显然B的投篮能力强于A。那我们能说B球员比A球员强吗?并不能。 用得分数/球数得到每球的平均得分,A为1.38,B为1.32。 可见A的得分能力强于B。 由以上我们可知,局部最优不一定会整体最优,整体最优也不意味着局部最优。 那么局部与整体之间如何选择,如何分配资源呢?那要看衡量指标。球赛的最终目标就是使总分尽量高,也就是整体最优,从这个指标来看问题,A是强于B的。假如A或B有100次投篮的机会,应尽量选择投二分球。三分球应当尽量不选择,或者是在把握很大时再选择投三分球。 但实际问题在中,衡量指标远远没有这么简单。 就拿经济发展来说,最先想到的指标必然是GDP或者经济增长率之类的指标。如果仅仅是为了经济增长,发展边远地区费力难见效,为什么还要扶持边远地区?有的山上就几户人家,为什么一定要通上电,邮政为啥一定要送到? 因为要考虑的指标太多了,除了GDP还要考虑人民幸福感、地区发展不均衡等的问题。中国虽然GDP全世界第二但我们依然不是发达国家。 整体重要还是局部重要,具体问题具体分析。 辛普森悖论的本质就是用部分来衡量整体,或者是用整体来衡量部分。 关于作者所说的“质”与“量”问题也挺有意思的。“质”可以理解为能力、效率、或者是产出能力,“量”就是投入的资源,比如时间、精力与金钱。“质”和“量”相乘就是结果或者产出了。举个例子,“质”就是速度,“量”就是运动的时间,二者相乘就是路程。速度快却不一定跑得远。 投入相同的时间,你可能数学只能涨10分,而政治能涨15分,那就多把时间给政治吗?也不对。刚才说A与B球员都尽量多投二分,那我多把时间给政治,总分却不能一直涨。 原因有主要两个。一是存在边界。二是存在边际效应递减。 我们再跳出考试这个圈子,考试数学最多也就150。如果努力学数学,成为一代大家,其他方面很一般也影响不大,这就从局部最优实现了总结果最优。他虽然在很多方面可能比不上一般人,我们依然可以说他的成就超过了大多数人。数据分析,要带着指标来分析。 最近专业课老师刚刚讲了聚类算法,从我短浅的认知来看,数据分析里面的聚类与分类算法,或许能在一定程度上避免辛普森谬论。
    展开
    2
  • 毛小孩
    2021-08-10
    看了全文,啥都忘记了,只记得这句话:生活,要有一颗平常心,我们的目标是让我们这一生的“人生平均值”逐步提高。

    作者回复: 这就足够啦,每天多百分之一,就可以

    2
  • !null
    2021-08-16
    篮球的那个是不是计算方法有问题?比如将A球员3分球的命中率是10%,所以让他投150个球(扩大到和B一样的头球数)命中15个。B球员2分球命中率是90%,那250个球投中225。这样再计算整体命中率P(A) = (200+15)/400 = 215/400 P(B)=(225+50)/400 = 275/400 这样就能够得到B球员命中率高的结论了。所以,在分组比较中都占优势的一方,在总评中也是占优势的一方。

    作者回复: 逻辑假设是对的,但是我们要以事实来做数据分析的标准啊,不能去用假设推导结论,不尊重事实。实际上,A球员在比赛里几乎没有那么多机会投3分球的。数据思维是要尊重事实而不是去主导事实。

    共 3 条评论
    1
  • 一杯牛奶竞自由
    2021-08-13
    平均值的陷阱。分组中的平均值,通过加权的计算方式,对于定价应该有用的。
    1