02 | 贝叶斯视角下的机器学习
02 | 贝叶斯视角下的机器学习
讲述:王天一
时长17:04大小8.29M
赞 12
提建议
精选留言(34)
- 风的轨迹2018-06-12王老师,综合贝叶斯主义以及频率主义这两节课,我理解总结为以下4点,不知道是否正确: 1. 在统计问题上,频率学派认为,参数是一个固定值(因为分布固定了嘛),数据是随机的,之后根据最大似然估计来求得参数值。但是这里有一个暗含的假设,就是如果参数固定那么分布也是固定的,也就是说我在讨论问题之前把模型固定好了,那么问题来了,模型是怎么确定的,你凭什么认为这个模型是最符合当下讨论问题的模型呢?于是就可以借此引出贝叶斯派的观点,贝叶斯学派认为,频率学派在选定模型的时候其实已然使用了先验的知识作为依据,相当于频率学派把问题人为简化成他们最优的一种情况。但是其实真实情况哪有那么简单,产生同一组数据的凭什么只能是一种模型,也有可能是多种模型,应该把所有可能产生样本数据的模型都纳入到考虑的范围之内,那么参数就变成了一个随机变量(因为分布不固定),而样本数据则是固定的,利用最大后验概率方法(所有可能产生这组数据的模型中,哪个模型生成这组数据的概率最大就选哪个模型)确定最优分布,进而得到参数。 2. 贝叶斯公式虽然简单,但是却揭示了一个深刻的道理,就是我们原有的知识以及现有的数据是如何影响我们对于某件事情的信念的。而且这个过程应该还是一个动态变化的过程。举一个粗浅的例子,一开始我不信中医,我对它的先验概率是20%,结果有一次生病,误打误撞被中医治好了,假设被中医治好是有一个概率的(而且我也知道),而且居然发生了,那么我就可以通过这两个概率得到一个新的后验概率,也就是我对中医的信任程度增加到40%,这个就作为下一次我再生病的时候的先验概率。这个更接近于现实。 3. 贝叶斯因为特别重视先验概率,而有的时候先验概率的获得极为困难,而且不一定客观,所以被频率主义诟病。 4. 贝叶斯计算的复杂度往往要比频率主义大得多,所以现实中退而求其次利用频率分布的方法来解决问题多一些。展开
作者回复: 总结得非常好!但要说明的一点是一般来说,模型的形式是预先固定的(线性回归或者高斯混合或者其他)。在给定模型形式的前提下,贝叶斯可以通过后验来控制模型的参数和复杂度。
50 - Shine2019-01-21初出茅庐的小伙子,实践经验少,使用频率主义容易犯错。 多读书有利于在大脑中能形成准确的先验考虑。 每个人的头脑中的先验概率受父母,个人成长经历,读过的书,看过的影视剧等等因素所影响,因而对事物的判断不一样。 我们内心中的那份固执源于以往成功的经验或失败的教训
作者回复: 没错,其实贝叶斯才是更符合真实世界的那个方法论。
17 - 彭擦擦සුභ නව ...2018-08-21频率派和贝叶斯派在理论层面势不两立(我是坚定的站贝叶斯) 而一旦到了应用层,就是谁好用就用谁:频率派偏向于收敛,就去解决已知问题的修改(置信区间、威尔逊算法);贝叶斯偏向于迭代,则去解决未知问题的预测(贝叶斯网络)
作者回复: 贝叶斯虽然思想很棒,但运算太复杂,很多时候不接地气。要是效果差不多的话,频率方法一般是首选。
9 - 风的轨迹2018-06-12另外关于Alice和Bob的赌局,我也较一个真啊,虽说从频率学派来看,Alice赢的概率是一个确定值,但是就用8次观察的结果作为估计值也有点误差太大了吧,频率学派估计要喊冤
作者回复: 你说的对,这个例子不是用来说明频率主义是错误的,而是说它在非观察变量的处理上的确存在问题。如果说投球的次数增加,最大似然的估计肯定会越来越接近真实值。但在多次重复实验难以实现时,频率主义的劣势就会凸显。
10 - 林彦2018-06-08频率学派把一种未观测到的球落在哪个位置的概率当成了唯一的概率,参数也唯一。其他位置的概率根据已观测的数据虽然小一些,但完全都用同一概率代替会造成误差。我的理解观测的次数增加会降低这种误差(这过程中球落哪的概率不变)。
作者回复: 观测次数增加,最大似然估计的结果会越来越接近真实值。
4 - never_giveup2018-06-10老师,有个疑问,对于那个赌博问题,为什么只将p换成了条件概率下的p,1-p中的p不用换吗?
作者回复: (1-p)^3表示的是bob连胜3局这个事件发生的概率,在p取不同值时结果也不同,所以要积分。后面条件概率的含义是前面的p是真实值的可能性,或者说在5:3的数据给出的关于p的可信度。 你可以把p看成一个随机变量,后面的条件概率是随机变量的概率分布,(1-p)^3是随机变量的函数。
3 - 李奇科2018-06-07我认为Bayes的最大缺点在于计算量(计算时间),而不是您讲的积分复杂程度和先验问题。实际研究中会发现Bayes的公式虽然看着复杂,但不难推导。这一点恰恰是Bayes的优势。这个优势也使得Bayes模型可以很flexible。而往往frequentist的问题的数学推导会十分复杂,(ingenious)。另外先验开率提供了incorporate更多信息的device。也不好简单的说是缺点。
作者回复: 贝叶斯和频率就是两种不同的思路,两者在概率、统计和机器学习里都有应用。我向大家介绍两者,并没有对哪个的偏爱,也不存在对它们优劣的评判。 频率的思路是由因及果,贝叶斯在此基础上进一步由果溯因,这是我所说“逆向概率”的含义,因为在频率学派里是没有先验后验的概念的。 贝叶斯的计算量就是来源于对积分的计算,原则上说,贝叶斯推理应该把所有的非观测变量积分掉,也就是marginalization,这是贝叶斯统计的核心。正是因为太多太复杂的积分求不出解析解,才要用复杂的计算去近似的。 贝叶斯更灵活是一点儿毛病也没有的,毕竟自带正则化特效。
3 - Geek_213cc42021-06-04老师我想问一下,这个是怎么分析出来的,稍作分析就不难发现,只要 p(brainwash∣lie)>0.5,谎言的后验概率就会大于先验概率2
- 杨家荣2020-01-27极客时间 21天打卡行动 40/21 <<机器学习40讲/02>>贝叶斯视角下的机器学习 今日所学: 1,概率表示的是客观上事件的可信程度(degree of belief),也可以说成是主观上主体对事件的信任程度,它是建立在对事件的已有知识基础上的。 2,贝叶斯定理用来解决“逆向概率问题; 3,先验概率是指根据以往经验和分析得到的概率; 4,贝叶斯定理的意义正是在于将先验概率和后验概率关联起来,刻画了数据对于知识和信念的影响。 5,贝叶斯统计则恰恰相反:它将待估计的参数视为随机变量,用来估计的数据反过来是确定的常数,讨论观测数据的概率分布才是没有意义的; 6,相对于频率主义的最大似然估计,贝叶斯主义在参数估计中倾向于使后验概率最大化,使用最大后验概率估计(maximum a posteriori estimation)。 7,后验概率正比于先验概率和似然概率的乘积,这意味着后验概率实质上就是用先验概率对似然概率做了个加权处理; 8,当已有的知识实在不足以形成先验信息时,贝叶斯主义的处理方式是引入无信息先验; 9,在平坦先验之下,最大后验估计和最大似然估计是等效的; 10,在贝叶斯主义看来,所谓不同的模型其实就是不同概率分布的参数化表示,使用的参数也有它们自己的先验分布,但所有模型的共同点是它们都能生成训练数据集,而模型选择的任务就是从这些概率分布中挑出一个最好的。 11,可信度实际上就是归一化的似然函数 p(D | M),表示的是模型 M 生成数据 D 的条件概率。 12,贝叶斯方法的缺点了:一是对未知变量的积分运算会导致极高的计算复杂度;二是对先验分布的设定(prior specification)包含一定的主观性,因而一直不招老派的统计学家待见。正是这两个原因限制了贝叶斯方法的广泛应用。 重点: 1,贝叶斯学派认为概率是事件的可信程度或主体对事件的信任程度; 2, 贝叶斯学派执行参数估计时,视参数为随机变量,视数据为确定取值; 3,贝叶斯学派主要使用最大后验概率法,让参数在先验信息和给定数据下的后验概率最大化; 4,贝叶斯学派对应机器学习中的概率图模型,可以在模型预测和选择中提供更加完整的信息。展开1
- 不吐槽会死的喵星人2018-06-07基础差,听得迷迷糊糊的,也不确定自己听懂没。不过作业还是要交的。我觉得频率学派这次的失败主要是因为重复的实验次数太少了吧,假如次数足够多,求出概率的极限值,那得出的结婚也差不多了。这个我觉得反而是贝叶斯学派的优势,样品比较少时计算会更加精确。 我想起一个事,抛硬币,以前我以为抛硬币的正反两面概率都为0.5。后来忘记哪里看到,抛硬币其实还有第三个情况,就是竖起来,虽然概率真的很小,但依旧有这个概率。另外硬币正反两面的概率其实不一样,虽然差别很小,但真的不一样,因为硬币两面图案不一样,重量也就不一样,与空气摩擦力也不一样,之类的,造成硬币正反面之间的概率差。 总结下我自己的观点,贝叶斯在采样数少时更具优势,频率派在采样数多时更精确。 另外,自己有个疑问,使用贝叶斯的算法,能否察觉出正反两面硬币之间的概率差?如果出现的竖起来的硬币,两派又是如何处理这个问题的。极小但存在的概率,当你不知道有这样的事情发生时,压根没想过会发生这样的事?展开
作者回复: 虽然扔了很多次球,但从计算胜率的角度看,这场比赛其实只是一次独立的试验,根本不能依此对估计的精度做出推断。所以计算的错误并不能说明频率思想存在问题,只是对例子中的非观测变量处理不当。 你说的有道理,频率需要大量重复实验来保证精确度,但贝叶斯可以将所有不确定因素的影响都体现在结果中,这是通过数学原理保证的,与数据量无关。 正反面各0.5的概率是用来进行数学分析的理想的假设,在实际当中扔硬币其实根本不是随机事件,当所有的参数——出手角度、空气阻力等等全都已知时,硬币的正反面就是可以计算的确定结果。所以硬币这个问题要当成理想的数学模型来看,无需纠结概率差和站起来的问题。
1 - 林彦2018-06-07有具体的例子,公式推导,例子来自于难度适当的文献并给出完整的文献信息,概述理论并给出框架信息,对相关问题的与读者互动。王老师的专栏比较适合我这种入门级水平的读者更好地理解。从做老师的角度看您为学生考虑了不少。谢谢!最近我除了工作任务更多外,还在上一门有编程任务的数据分析类课程,努力挤出时间来跟上您专栏的进度。
作者回复: 给足压力才能让潜力完全释放,加油!
1 - 李奇科2018-06-07您讲的Joe看病的例子难道不仅仅是一个条件概率的问题吗,我认为以此无法区分Bayes 和 frequentist的优劣吧。frequentist也是承认条件概率的啊。我自己虽然也是Bayesian,但是对王老师青睐Bayes的原因无法认同1
- 李奇科2018-06-07对王老师的逆向概率不是很赞同。Bayes研究中不少是用generative model的1
- Lucid dreams2022-08-11 来自江苏老师您好!我想问一下,频率主义和贝叶斯有一个很好的选择吗?就是比如数据量到什么范围选贝叶斯到什么范围选频率。
- 井中月2022-03-09想请教一下,在投球的那个例子中,如果使用平坦先验,最大后验估计就相当于最大似然,估计出来的p应该同样也是5/8 但是您在计算Bob 获胜的概率时使用了积分,相当于是把p当作一个随机变量,从贝叶斯的角度来说是这样的,但是这样相当于并没有进行参数估计,似乎和上面提到的平坦先验下最大后验等价于最大似然并不能关联到一起共 1 条评论
- 罗进2021-12-30频率派:冲动的惩罚 贝叶斯派:相见恨晚
- 黑山老妖2021-07-281. 统计问题: 频率学派认为,参数是一个固定值(因为分布固定),数据是随机的,之后根据最大似然估计来求得参数值。这里有一个暗含的假设,就是如果参数固定那么分布也是固定的,也就是说我在讨论问题之前把模型固定好了。问题来了,模型是怎么确定的,凭什么认为这个模型是最符合当下讨论问题的模型呢?于是就可以借此引出贝叶斯派的观点,贝叶斯学派认为,频率学派在选定模型的时候其实已然使用了先验的知识作为依据,相当于频率学派把问题人为简化成他们最优的一种情况。但是其实真实情况哪有那么简单,产生同一组数据的凭什么只能是一种模型,也有可能是多种模型,应该把所有可能产生样本数据的模型都纳入到考虑的范围之内,那么参数就变成了一个随机变量(因为分布不固定),而样本数据则是固定的,利用最大后验概率方法(所有可能产生这组数据的模型中,哪个模型生成这组数据的概率最大就选哪个模型)确定最优分布,进而得到参数。 2. 贝叶斯公式虽然简单,但是却揭示了一个深刻的道理,就是我们原有的知识以及现有的数据是如何影响我们对于某件事情的信念的。而且这个过程应该还是一个动态变化的过程。举一个粗浅的例子,一开始我不信中医,我对它的先验概率是20%,结果有一次生病,误打误撞被中医治好了,假设被中医治好是有一个概率的(而且我也知道),而且居然发生了,那么我就可以通过这两个概率得到一个新的后验概率,也就是我对中医的信任程度增加到40%,这个就作为下一次我再生病的时候的先验概率。这个更接近于现实。 3. 贝叶斯因为特别重视先验概率,而有的时候先验概率的获得极为困难,而且不一定客观,所以被频率主义诟病。 4. 贝叶斯计算的复杂度往往要比频率主义大得多,所以现实中退而求其次利用频率分布的方法来解决问题多一些。展开
- 黄俊萌2021-03-22王老师讲得真好,特意没加速看,我也尽量用自己的话做了下总结: 从贝叶斯统计角度看,事件只发生少数次,数据确定,而参数不确定,因此需要描述参数的分布。物理意义上,事件发生时,事件本身有客观可信度P(先验 or 假设),同时,人们有对事件信任度(似然 or 事件 | 参数),在此基础上,人们获取了事件的当前的印象,即更新后的客观可信度(后验概率,后验概率变先验概率)。贝叶斯机器学习模型收敛的解决方式是最大化后验概率,物理意义上就是最大化了客观上事件的可信程度。 另外,我也有几个不是很确定对小点: 1. 在贝叶斯学派观点下,数据的物理意义是事件,通过事件对原先对客观参数进行修正,所以机器学习成了无限接近客观真理的过程? 2. 贝叶斯学派潜在的一个假设是客观参数分布P(参数)和事件发生P(数据)相互独立,这是因为P(数据)==1吗?同样,这也意味着十病九死第十生不成立。展开
- 建强2020-10-11思考题: 我个人的理解:频率学派的统计是需要建立在大量随机独立实验之上的,根据伯努力大数定理,只有通过大量的重复独立试验,才能使某个事件发生的概率接近于事件发生的频率。 在Alice和Bob赌局的例子中,一共进行了8局比赛,即重复独立试验做了8次,而仅凭8次试验来确定Alice或Bob的获胜概率是远远不够的,所以频率主义的最大似然才会做出错误的估计,通俗的理解就是,频率学派犯了以偏概全的错误。 这样的理解是否正确,请老师指正。展开
- Geek_3f33662020-09-05王老师,我有两个问题想请教一下: 1. 贝叶斯派把参数当随机变量,数据当常量,是否意味着当参数确定为某一个数时,由它生成的数据是唯一的,不会生成其他不同数据呢? 2. 既然数据是常量没有概率分布,那么似然分布是什么呢?它是数据的分布吗?还是可以怎么理解?