26 | 信息熵:如何通过几个问题,测出你对应的武侠人物?
26 | 信息熵:如何通过几个问题,测出你对应的武侠人物?
讲述:黄申
时长14:40大小13.40M
什么是信息熵?
什么是信息增益?
总结
思考题
赞 10
提建议
精选留言(37)
- 蒋宏伟2019-02-20信息熵是衡量信息简单、纯净或复杂、混乱的标尺。人类必须将事务抽象为信息才能进行理解。事物的信息熵越小越容易理解,越大越难理解。 写好代码的本质,就是降低程序信息熵 。作用域、模块、组件、微服务、文档、注释是在不同的纬度,降低信息熵的工具。
作者回复: 这是个很新颖的角度来理解信息熵
共 5 条评论26 - qinggeouye2019-03-061、事件发生的概率 P(x) 越小,包含的信息量 H(x) 越大; 2、两个不相关的事件 x 、y,同时发生的信息量 H(x,y) 等于这两个事件分别发生时的信息量 H(x) 、H(y) 之和; 3、信息熵 Entropy(x) 是信息量 H(x) 的加权平均,即信息量的期望; 4、信息增益等于集合元素划分前的信息熵减去划分后的信息熵;划分后的信息熵等于各个分组的信息熵的加权平均; 思考题:64*(-1)*(1/64)*log(1/64) = 6 , (对数底数取 2)。展开
作者回复: 理解正确
共 3 条评论23 - 刘杰2019-02-20这个是我读过最好的信息论概念的解释!
作者回复: 感谢支持,后面我会继续努力深入浅出
12 - 哈2019-08-17事情发生的概率越大,产生的信息量越小;事情发生的概率越小,产生的信息量越大。 这个应该怎么理解呢
作者回复: 举个形象的例子,比如说最近本地区天天下雨,如果明天仍然有很高的概率会下雨,我告诉你“明天下雨”,你就觉得这个信息量不大,因为即使我不说,你也知道明天会下雨,也会带雨伞出门。如果本地区几十年以来从未下过雪,我告诉你“明天要下雪”,那么这个对你来说,这是个极低概率的事件,你没有想到它会发生,这句话包含了很大的信息量,它可能会改变你明天出门的行为,比如买一双防滑靴以备出门之用。
共 2 条评论11 - 拉欧2019-02-132的6次方是64,所以是6
作者回复: 正确
7 - 罗耀龙@坐忘2020-04-18茶艺师学编程 思考题:计算一个包含了 64 个元素,而每个元素的分类都互不相同的集合的信息熵。仔细观察一下结果,和二进制有没有什么联系? 假设这个集合就有64种分类,那么它的信息熵就是64*[-1/64*log(1/64,2)]=6 假设这个集合就有63种分类,那么它的信息熵就是63*[-1/63*log(1/63,2)]≈5.977 假设这个集合就有62种分类,那么它的信息熵就是62*[-1/62*log(1/62,2)]≈5.954 假设这个集合就有61种分类,那么它的信息熵就是61*[-1/61*log(1/61,2)]≈5.931 假设这个集合就有60种分类,那么它的信息熵就是60*[-1/60*log(1/60,2)]≈5.907 ······ 假设这个集合就有4种分类,那么它的信息熵就是4*[-1/4*log(1/4,2)]=2 假设这个集合就有3种分类,那么它的信息熵就是3*[-1/3*log(1/3,2)]≈1.585 假设这个集合就有2种分类,那么它的信息熵就是2*[-1/2*log(1/2,2)]=1 假设这个集合就有1种分类,那么它的信息熵就是1*[-1/1*log(1/1,2)]=0 因为这里用到的log2,而在信息论中,描述“有0和1两种状态,出现的可能性都是50%,那么是0还是1?”这就是二进制,这样的信息量就是1比特。换句话说在二进制(信息论)的视角里,一个有64个元素的集合分类的信息熵,最多就是6比特的事情。展开共 2 条评论6
- 建强2020-06-14思考题: 包含64个元素的集合信息熵 Entroy(P) = 64 * (-1 * 1/64 * log(2, 1/64)) = 2^6 * (-1) * (2^(-6)) * (-6) = 6 = log(2,64) 我个人理解:信息熵其实就是用二进制来表达某个数时所需要的二进制位数
作者回复: 是的
共 3 条评论3 - F大圣2020-01-06黄老师,您好!您讲的真的好,虽然之前接触过这些概念,但理解的不透彻,从之前的贝叶斯到今天的信息熵,我现在完全搞明白了,相见恨晚啊。(希望您能开个ML和DL的专栏,将来想从事这方面的研究,谢谢)
作者回复: 感谢支持,如果有好的机会会考虑🙂
4 - 张九州2019-09-07总信息量减少 为什么叫做增益呢?不太理解
作者回复: 虽然信息量减少了,但是对分类这个应用而言,增加了分组内的纯净度,算是“增益”(英文Gain,也可以理解为获益)了
4 - zhengfan2020-05-02黄老师: 请问对一个几个不断地做划分,信息熵是否是个单调递减过程? 我试着推导了一下可以得出,对于一个完全无分类集合,所有有效划分(不会导致空子集产生的划分)都必然带来大于0的信息增益,也就是信息熵必然减小。 对于已经存在分类的集合,我直觉上认为是成立的,思考了几个例子也支持。请问能严格证明吗?展开
作者回复: 对,如果每次划分都有新的切分,就会如此,这样也是为什么过多的决策树分支会导致过拟合。所以人们提出了适度的剪枝,具体你可以参考后面一节
2 - Geek_80dbb52020-04-08其实,古人的“钻木取火”,就是一种能量转换,即机械能向热能转换;并且在这个转换过程中,“熵”便产生了。
作者回复: 是的,熵最初来自物理学
2 - zhengnachuan2019-03-23如果只是为了增加增益,其实可以细分到最小,但是实际上应该是要考虑其他维度的吧,例如分组的次数,即在固定次数下的最大增益。 另外,有点疑惑,假设为了获得最大增益,n个元素分为n组,是不是表示就需要有n个条件能一次进行区分。以开始的人物区分为例,这个条件应该怎么给呢,是不是要重新设计独有的特征。
作者回复: 如果决策树是用于分类的,没有必要细分到每一个样本,我们只需要确保划分后,每一组里所有的样本都属于同一个分类,那么就很完美了。如果细分到每个样本,就是过拟合了。
2 - 良知犹存2020-06-16信息熵用来表示每个分组在整体中的混乱情况。熵增意味着更加混乱,熵减意味着分组的独立 思考题: 由于各自独立,所以最终分为64组,所以每组的出现的概率为1/64 整体的熵计算为:64*(-1*1/64 *log (1/64,2 ))= 6
作者回复: 是的👍
1 - 骑行的掌柜J2020-06-08之前在学过一点信息熵的知识 但是理解不是很透彻 这里重学了一遍 瞬间把之前的迷糊点弄懂了 谢谢黄老师 PS 看评论也可以学到很多😁
作者回复: 没错,众人拾柴火焰高🔥😆
1 - Paul Shan2019-09-09熵是事件概率负对数的加权和。如果把负对数看作搜索一个元素的难度,也就是二分查找树对应叶子节点的高度,熵就是这些叶子节点高度的加权和。 熵可以看作负信息,熵的减少就是信息的增加。信息增益就是熵减少的一种。 信息增益就是对集合进行划分,计算划分后子集的熵,然后再对子集的熵做加权平均,这个时候的熵会小于原来集合,减少的熵就是对应的信息增益。展开1
- 大秦岭2019-06-19经过各学者多年的探究和各种语言的统计,得出一个结果,汉语是世界上信息熵最大的语言。那么这个信息熵是 什么?信息熵指的就是可能发生的所有事情中包含的信息期望值,比如鸟不能生活在水中,违背自然常理,那么信息熵为0.
作者回复: 这可能也是为什么汉语这么难学的原因吧😆
1 - LiuHDme2022-02-14这一讲非常不错👍
- 2012019042021-07-11事情发生的概率越大,产生的信息量越小;事情发生的概率越小,产生的信息量越大。 怎么理解?
作者回复: 举个通俗的例子,假设一家上市公司的业绩非常好,股价上涨的概率很大,我告诉你买它家的股票,其实没啥信息量,因为即使我不告诉你,你也会买。但是假设另一种情况,这家公司虽然业绩非常好,但是确出人意料的股价大幅下跌了,那么一定是什么不为人知的事情发生了,这个时候有内部的消息传出,原来是公司做假账,那么如果你提前获知这个信息,它的信息量就很大了。
- Geek_b636f62021-02-21看来老师对学生的学习情况进行区分,通过考试问卷给学生打分,是一个信息增益的过程。老师的劳动创造了信息。
作者回复: 这么说也很有道理啊👍 可是,通过学生的努力,每次都可以往更高分数的那一组进发😆
- Geek_b636f62021-02-21熵增一般被认为是混乱度增加,信息熵增是指系统的不确定性增加,都是人不喜欢的。人的本性是追求秩序的,追求确定性的,所以生命和文明都是熵减过程。 老师,请问个体层面有意识的熵减活动过程,是否从宏观层面看还是是熵增,比如“大众创业,万众创新”?
作者回复: 能否具体一些,从你的理解“大众创业,万众创新”和熵减、熵增有何关系?