13 | 趋势分析与回归:父母高,孩子一定高么?
下载APP
关闭
渠道合作
推荐作者
13 | 趋势分析与回归:父母高,孩子一定高么?
2021-08-27 郭炜 来自北京
《数据分析思维课》
课程介绍
讲述:郭炜
时长13:11大小12.03M
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
回归(Regression)是由英国生物学家弗朗西斯·高尔顿(FrancisGalton)提出来的。简单来讲,回归就是研究一个变量和另外一个变量的变化关系。其中一个变量我们叫做因变量,另外一个叫做自变量。多元的回归,就是研究一个因变量和多个自变量之间的关系。
一般来说,当我们知道了某一种情况或现象,想要去了解这个结果和前面哪些因素发生了怎样的关系(例如体重和年龄的关系),或者想验证某一些数据其实和结果没关系,这个时候我们就可以用回归验证。当我们知道了过去的一些数据情况,我们想根据以前的经验值,预测将来可能出现的结果,这个时候我们也可以用回归分析和相关的算法。
回归的算法种类与使用
根据回归使用的场景不同,我们可以把它分成线性回归、逻辑回归、多项式回归、逐步回归、岭回归、套索回归等等。这些回归的整体逻辑比较类似,今天我给你重点介绍最常用的三种回归算法。
第一类是线性回归。线性回归里最简单的一种就是一元线性回归,它有两个变量,一个叫做因变量(Y),一个叫做自变量(X)。我们可以用 Y=a+bX 这个公式来拟合一元线性回归方程。
例如我们要计算体重和年龄之间的回归关系,这里的年龄就是自变量 X,体重就是因变量 Y。
这里需要注意的是,判断两个变量是不是线性关系这是从业务上面去判断的。如果我们从业务上看是多元回归的话,我们的目标是要最少的自变量,也就是找到影响结果最核心的几个因素来生成这个公式,抓到影响一个事物的关键点。
同时线性回归对异常值影响非常敏感,往往一个异常值就把一个预测带歪了。所以我们在做分析的时候,经常会先通过聚类或者后续其他算法剔除这些异常点。当然,很多时候你并不确定这些点到底是异常值还是实际数据的规律,所以你需要非常有经验的数据分析师和算法专家来参与。
学到后面你就会发现,数据挖掘难的不是算法,而是准确去掉异常点、找到影响因子这些算法之前的数据准备工作。
第二类是逻辑回归。逻辑回归被广泛用于做分类问题,也就是把“成功 / 失败”“哪一种颜色”这类问题变成线性回归的样子。基本逻辑就是把离散的因变量 Y 变成了一个连续值,然后再做回归。
怎么把离散的 Y 值变成连续的 Y 值呢?这里我们把事件发生的概率比上事件不发生的概率,取 Log 值,这样做就把一个非连续的数据变成连续数据了,具体公式如下。
Logit(Y)=Log (Odds Y)=Log((Probability of Y event)/(Probability of no Y event))
这个变化我们也叫做 Logit 变化,然后再通过各种各样的线性回归或者分类算法,我们可以找到对应关系,就像下图这样。
第三类是多项式回归。顾名思义,它可能出现多个指数的数据,这种回归最佳拟合的线也不是直线,很可能是一个曲线。比如我们预测人类身高增长速度和年龄的关系,最终回归出来的曲线方程可能由多次项组成,就像下图这样是一条抛物线(我们在婴儿时成长最快,岁数越大增长速度越慢)。
在使用这种多项式回归的时候,最常见出现的问题就是过拟合和欠拟合。这在将来做任何预测算法的时候都会遇到,这里先给你着重讲一下。
这两个概念是什么意思呢?假设我们找到一些数据画在了散点图上,我们实际背后蕴含的数据画出来之后它就像个对勾(如下图所示),是实际背后数据规律的正确答案(我们也把这个公式叫做算法模型)。
而欠拟合是画这个线(也就是推算这个公式)的时候,我们把很多细节给忽略掉了,直接画成了一根直线的线性回归,有很多趋势都没有很好地反馈出来。因为细节丢得实在是太多了,所以我们把它叫做欠拟合,这个名字意味着需要更复杂的多项式回归,才可以更准确地描述这个规律。
而过拟合是指我们太纠结于其中的细节,以至于这个数据模型计算出来的曲线变成了一条特别曲折的线(本来应该是一个相对光滑的对钩)。这样的数据模型适配性很差,换句话讲,它的查全率不高,用它做预测很可能就会指鹿不为鹿了。这就是过拟合的结果。
权衡是过拟合还是欠拟合的情况需要根据实际业务情况来做选择,不是光看数据就可以解决的。
有了这个回归公式以后,是不是就代表着因变量就是因为自变量的变化而导致的呢?换句话讲,自变量和因变量是不是存在因果关系?前面因果倒置那节课你学过,其实我们还不能下这样的定论。
计算出这个数据模型,我们只能够推断出一个变量对另一个变量有依赖关系,但并不代表他们之间就会有因果关系,因果关系的确立必须是来自统计之外的一些业务依据。因果这个话题你要是记不清了,可以去11 讲里再复习一下。记住,两个变量之间有回归逻辑,不代表着两个变量之间有因果逻辑。
均值回归
我们通过各种计算得到了回归模型之后,就可以在工作和生活当中利用这个公式很好地预测出未来的结果吗?答案是否定的,现实生活不一定有我们在算法当中预测得那么好。这就是我们接下来要讲的话题:均值回归。
谈到回归,我拿我们非常熟悉的身高来给你举个例子。根据达尔文进化论,子代会越来越基于父代进行进化。也就是说理论上父母越高,孩子也会越来越高。而一般高个子的女孩子只会找比自己身高更高的男生结婚,生的孩子也应该更高。
以此类推,理论上经过千百年的进化,人类应该分成巨人族和矮人族才对。但我们都知道现实情况其实不是这样的,人类并没有分成巨人族和矮人族,高尔顿在实验中也发现了这一点。
高尔顿找到了 100 组家庭测量了他们父母和孩子的身高,通过一元线性回归分析建立了一个公式来预测孩子和父母身高的关系,如下图。
你可以通过这个图很明显地看到,通过公式计算出来的值和实际孩子最后成长的结果是不太一样的,最终孩子的身高其实趋向于平均身高。身材高大的双亲,子女不一定高;身材矮小的双亲,孩子也不一定矮。
高尔顿把这个现象叫做回归平凡,后来的统计学家把它叫做“均值回归”,意思就是实际发生的数据比我们理论上的预测更加接近平均值,整体趋势上会慢慢向一个平均值发展。比如最近比较火的一个例子,就是北大的教育学院的丁延庆教授的吐槽。
丁教授自己 6 岁时就能背一下整本新华字典,本科在北大,后来在哥伦比亚获得了教育学博士学位,他的妻子也是北大毕业的。丁教授与妻子都非常学霸,按理来说孩子也会走一条学霸的道路。但是丁教授的女儿却几乎完美规避了父母所有的学霸基因,在学渣的道路上越走越远。以至于丁教授在视频里面吐槽女儿“不辅导作业父慈女孝,一辅导作业鸡飞狗跳”。其实这就是均值回归的一个典型例子。
还有一个著名的例子就是美国《体育画报》的“封面诅咒”。《体育画报》是美国非常著名的一个体育杂志,但是每次杂志封面登了哪个队伍胜利之后,后面一定会有一场大败在等着这个队伍。
比如当年在俄克拉何马队连续赢得 47 场大学橄榄球比赛之后,《体育画报》刊登了《俄克拉何马为何战无不胜》的封面故事。紧接着在下一场比赛中,俄克拉何马队就以 21∶28 输给了圣母大学队,这样的事情还发生了好几次。
其实这也是一种均值回归的情况,对于任何优秀的人和团队来说,很多时候其实是运气、能力、时机多种因素来造就成功的。好的没你想得那么好,差的也没有你想得那么差,最终还是会回到平均水平。就像我接触了很多大佬,我发现我们和最优秀的人之间,也没有那么大的智商和情商的距离,但是人家一直在坚持努力,同时再加上天时地利人和,所以他成功了。我们如果三天打鱼两天晒网,那就很难成功。
实际上,我们每天都会遇到均值回归的情况。我们不要过分夸大优秀者的能力,也不要因为某几次失败就一蹶不振,过度小看自己。只要你不懈努力,就算你现在在谷底,也最终会到达平均值水平,甚至超过平均值。
小结
小结一下今天的内容。今天我们主要讲了回归分析,回归就是研究一个变量和另一个变量的变化关系。现在有非常多的回归算法,我着重给你讲了线性回归、逻辑回归和多项式回归这三个比较常见的算法。
紧接着,给你分享了过拟合和欠拟合这两个在数据挖掘和人工智能里常用到的概念。我们既不能过于纠结细节陷入到过拟合里,也不能神经大条错过太多的细节最后导致欠拟合。最后我还讲了均值回归的概念,万物最终都要回归自然平均。
在生活和工作里,我们可以通过回归分析找到很多简单的规律,它们能够帮助我们去预测一些常见的数据问题。但是在真正使用的时候,我们也不能盲目相信算法模型推导出来的结果,因为现实其实要比我们预测出来更加的贴近于平庸:好的没有我们预测当中的那么好,差的也没预测当中的那么差。
所以对我们自己的工作和生活来讲,用一颗平常心不断去提高自己的平均线水平才是正确选择。人和人之间的差异没有那么大,不存在着优生学,也不存在着“龙生龙凤生凤,老鼠的儿子会打洞”这样的说法。
数据给你一双看透本质的眼睛,最终所有的成果,都会回归到我们每分每秒的努力当中,我们一起努力。
课后思考
你在工作和生活当中遇到过“均值回归”的情况么?你从中学到了些什么呢?分享出来,我们一起共同提高。
分享给需要的人,Ta购买本课程,你将得18元
生成海报并分享
赞 28
提建议
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
上一篇
12 | 精确率与置信区间:两种预测,你究竟应该相信哪一个?
下一篇
14 | 初识聚类算法:物以类聚,让复杂事物简单化
精选留言(22)
- 进化菌2021-08-27人和人之间的差异没有那么大,不存在着优生学,所以该努力还是得努力,不要找太多借口。但是,确实生长在富裕家庭里能得到更多的资源,而这却是我们无法改变的事实,也不必拿这做借口了。10
- 江小飞2021-08-27经济周期,太极转化,祸福轮转,都是一种均值回归。
作者回复: 是的,祸兮福所倚,福兮祸所伏
9 - Len2021-08-30我能说我打王者荣耀经常遇到均值回归,几场连胜后必遇几场连败,反之亦然。。。
作者回复: 哈哈,其实是背后的匹配算法有讲究,不断给你挑战,又不让你觉得失望不玩了,这样才有成就感
共 2 条评论8 - 范2021-09-13均值回归的结论似乎又回到“大数定律和小数陷阱”,对于足够多的样本来说,是均值回归,但是对于独立的个体样本来说,又不一定。7
- Jove2021-08-27这次多了思维导图,赞5
- 那时刻2021-08-27均值回归可以对应慎始敬终中敬终。 另外,请问老师,如何判断数据需要均值回归而不是线性回归呢?
作者回复: 这个是两个不同的概念,均值回归是说现实中永远不像我们预测的那么好或者那么差。而,线性回归是一个预测的算法,只是在理想状态下才会出现
3 - geigei2021-10-27天下大势分久必合合久必分,哈哈 这个应该也是均值回归吧2
- SVV2021-09-13看见橄榄球的案例,突然感觉“均值回归”“赌徒谬误”“墨菲定律”都可以用来解释它诶~2
- chqlb2022-04-04郭老师的课很正能量啊1
- 不再是入门水平pytho...2021-11-25我刚毕业工作能力很差,换了很多工作,但是一直保持努力精进自己,终于跳槽到一家不错的公司,老板和团队都不错,这就是均值回归吧,保持努力,加上运气等等,不可能一直低谷
作者回复: 加油,珍惜每次机会,人生里机会并不多的
1 - 莹子2021-09-24郭老师又来鸡汤了 但是这个回归均值的概念却常常被忽略 公司有个红人,老板很欣赏,各种资源支持都给到他,好像他的一切想法都是好的,成功了自然是好,失败了就是走在创新的道路上....... 而其他人中有个爱说大实话但好听的同事,却常常被老板忽视,甚至某些行为偏与之建议相悖 如果老板能够真正理解均值回归,知道用人之长,一视同仁,形成健康的企业氛围就好了展开
作者回复: 哈哈哈,是的,所以这个课老板最应该听
共 2 条评论1 - 80分2021-09-20均值回归的结果是正态分布。至于为什么会发生均值回归,是因为变量满足这些条件: 1. 相互独立 2. 方差有限 3. 任何一小部分随机变量都不会贡献大部分方差 既然均值回归是必然发生的,那么能否调整回归算法,使其考虑到均值回归的影响?但是均值还有何时回归和回归何处的难点。展开
作者回复: 是的,预测不能没有数据支持的情况下乱调整呀,预测结果永远不会那么好,心里有数就好啦
1 - 毛佳伟🐳2023-01-26 来自上海伤仲永就是一个均值回归的例子
- Geek_cerulean2022-12-27 来自浙江这门课应该当作大家态度类书籍目录反复不同时间学习,作为底层基础分析逻辑
- 贝贝2022-12-27 来自北京回归算法,自变量都是只有一个吗?如果有多个自变量怎么拟合呢?
- 数据分析星球2022-09-14 来自安徽很多结果的影响因子是很多很复杂的,定性地研究相关性本身就已经比较复杂了,如果再进一步做回归做定量就更加困难了,这个是不是也是均值回归的一个解释,我们的回归模型可能还不足以囊括所有的因素,比如天时地利人和,所以预测出来的结果会和实际偏差较大
- 112022-06-20以前有这种感觉,得意的时候,基本上就要发生一件倒霉事。所以总提醒自己不要太得意。原来是均值回归。不过现在少有这种感觉…是因为均值已经在低谷了是吧…
- Geek_f7e6db2022-06-06均值回归的本质,其实是一个排列组合的关系。而这个排列组合的大致模型,可能是一个类似于,过犹不及的组合。比如,当A匹配A的时候,可能得出了A+。当A+匹配A+的时候,可能会得到B。为什么会这样了,比如人的大脑,兴奋与启动自我保护需要相匹配,才能最大的发挥出才智。而当兴奋与自我保护都过载,可能会疯掉,因为身体机能不能承载,这可能解释了A+与A+为什么会均值回归到B。猜测。
- 愉快2022-05-20所以可以不焦虑了,选中方向,努力就对了
- Jeff2022-04-21一个人的境遇会随着时间跌宕起伏,可能在这个10年你经历的都是低估,很可能在下个10年你就否极泰来了,所以从整个人生长度来看,其实大多数人的一生都是在均值附近的。这背后是时运、社会条件等多种因素的影响,但关键是个人的努力。