05 数学基础 | 万物皆数,信息亦然:信息论
05 数学基础 | 万物皆数,信息亦然:信息论
讲述:王天一
时长11:51大小5.43M
赞 12
提建议
精选留言(23)
- 姑射仙人2019-01-21可以参考数学之美第二版,第六章 - 信息的度量和作用共 2 条评论10
- Mr.Button2018-08-13为什么log以2为底的函数这么常见...这里为什么取2
作者回复: 以2为底计算出的单位就是二进制的比特。
共 2 条评论10 - 井中月2018-03-03王老师,感谢您的回复。但是我还有点疑惑,X表示的是训练集的某个特征,Y相当于是训练集中需要被分类的变量,那么这样的话H(Y)就是一个定值,用它做分母和直接使用信息增益进行特征选择不就是一样的吗?
作者回复: 感谢你指出,这里的符号写的不够清晰,H(Y)其实应该写成H_X(Y)。H(Y)是直接用数据的分类结果计算出来的信息熵,H_X(Y)的下标X表示的是以特征X的取值为变量对数据集计算出的信息熵。所以当关注的特征X不同时,H_X(Y)也是不一样的。 信息增益比主要用在决策树当中,作用是消除多个取值的特征导致的偏差,因为多值特征的信息增益很大,但泛化性能却很差。比如,使用姓名作为特征可以得到较大的信息增益,因为它基本可以把每个人区分开来,但这种区分对于分类显然没什么帮助。这时就可以用信息增益比来一定程度上消除对多值属性的偏向性,但也不能完全消除。
6 - 秦龙君2017-12-29学习了。这篇很难,后半部分暂时还看不懂。6
- 听天由己2018-01-04看完之后,我努力应用如下: 消息是今天我学会了专栏的信息论部分,因为可能性较低,因而信息量较大,信息熵也就越大。 机器学习中的分类问题,可能还是缺乏较好的类比方法,初入门道就有些迷糊了。 看了些其他资料,这句话写得很妙,“学习就是一个熵减的过程”,学习的过程也就是使信息的不确定度下降的过程,这似乎就是机器学习的方向,然后再把《信息论、推理与学习算法》下载了,继续学习中。展开5
- 夜星辰2018-03-05有一点理解上的困惑希望王老师帮忙解答下 1. 熵表示的是信息量大小,从公式中知道随着概率增大,熵会变小。而机器学习中常用交叉熵作为目标函数,学习的过程是不断求取最小熵,也就是求取概率最大的参数,等价于极大似然估计法进行参数估计。 2. 但是我无法上述理解1和最大熵原理联系起来,请老师佐证下问题展开
作者回复: 最大熵表示的是对未知的部分不做任何多余的假设,所以要选择符合已有知识但不确定性最大,也就是熵最大的分布,通俗说就是不要不懂装懂。对交叉熵的最小化意味着数据训练的模型要尽可能地接近真实模型,而真实模型又是建立在最大熵的前提下的。所以在优化时,要不断地调整训练的模型,以期更接近真实情况。
4 - wolfog2018-01-16这个推荐大家可以看看吴军老师的数学之美其中就有关于最大熵和互信息等的介绍,讲的更加详细和通俗一些4
- 水木竹水2018-07-06首先感谢老师讲的非常好。有个疑惑问下老师,信息增益是H(Y)-H(Y|X),后者是已知X情况下Y的不确定性,信息增益就是X对Y的确定性消除。H(Y|X)越小,说明X对Y的分类效果越好,为何决策树不直接用H(Y|X)选取主要特征,而用信息增益,H(Y)是变化的吗?
作者回复: 数据集确定了,总体的信息熵H(Y)就是常量,所以两个其实是等效的。之所以选信息增益一方面在于它和信息论一脉相承,意义清晰;另一方面,在取值上信息增益是越大越好,如果选一个越小越好的指标,有些反直觉。
3 - 星运里的错2018-05-19信息增益表示的就是特征 X带来的对训练集 Y 分类不确定性的减少程度,也就是特征 X 对训练集 YY的区分度。 这句话意思是 总体熵-某个特征下的熵 =去除某个特征影响的熵 老师。这个公式对么? 我的理解是 熵对应着信息量的多少。熵大,意味着信息量大,信息混杂,也就是不确定性大。 当用到决策树中时,要保证分支所考虑的不确定性最小,也就是可用信息量纯净(少),所以我们要用使 某个特征影响的熵 最小的那个特征进行分支,也就是信息增益越大。 我感觉。。。我理解的好乱。求老师解惑下展开
作者回复: 总体熵 - 特征分类之后每个类别的熵的总和 = 特征的信息增益 这里的信息增益表示的是分类之后残留的不确定度。如何一个特征能够将两个类别完全正确地分开,那它的信息增益是最大的,就等于数据集的熵。
3 - Simon2020-03-20Kullback-Leibler 散度,也叫库尔贝勒交叉熵2
- Naraka,2019-03-25老师,不知道现在提问还会不会回答, “从这个角度看,最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。” 这一段没有看懂,为什么得到最不确定的结果,预测风险会最小?最不确定的,可能性很多,预测的结果不也更吗?
作者回复: 最大熵考虑的是最随机的情况,不做任何多余假设,所以可以认为它最符合实际。虽然得到的结果有最大的不确定性,但这种不确定性和真实情况是匹配的,真实世界就是这么不确定,我们不能人为地去增加信息。就像拿到一个骰子,我们会默认每个面出现的概率都是1/6,这就是最大熵思想。
2 - 追风筝的人2021-04-01信息是为了消除不确定性,量化信息的单位是比特1
- Simon2020-03-20互信息是一个随机变量包含另一个随机变量信息量的度量。1
- 上善若水2019-10-30局部信息增益1
- 上善若水2019-10-30概率只能在条件确定性的环境使用啊1
- Snail@AI_ML2019-01-10非常棒,深入浅出,对照了培训课程之后,有一个更清晰的思路,虽然理解程度可能不够深,但觉得目前够用了,安利一波😄1
- Geek_4b73dd2018-12-25老师你好,虽然留言里面提到了,但有一个问题还是不太明白,关于最大熵模型和交叉熵的。在网上看max最大熵模型的解时发现,其实max最大熵模型,就是max模型的最大似然估计,也就是说如果以logistic regression为例的化,max最大熵模型和max logistic regression的最大似然估计是一样的,而max logistic regression的最大似然估计其实就是minimize对应的cross entropy,所以其实最大熵模型和最小化cross entropy是不是其实是一回事?还是我理解的有些不对?谢谢老师啦!展开1
- 井中月2018-03-01王老师,您好,我有个疑问,信息增益比里面的分母是不是应该是H(X)?
作者回复: 分母是训练数据集的信息熵,因为这里把训练集定为Y,所以分母就是H(Y)。
1 - 卡斯瓦德2018-02-01看完这篇,突然觉得所谓的奇迹,其实就是信息熵不对等的结果,从某个面如何环境,物质看概率为百万分之一,从另一个面如自主意念等,概率可能就是十分之一,那么事件成就的结果其实就是KL后,不同的结果,饿可能总结有点问题,但是有那么个方向的感觉
作者回复: 奇迹其实就是小概率事件的发生
1 - wolfog2018-01-16之前看过吴军老师的《数学之美》,这一张还听得有点眉目,加油。共 1 条评论1