06|特征工程:数据点石成金,给你的系统赋予灵魂
06|特征工程:数据点石成金,给你的系统赋予灵魂
讲述:Tyler
时长10:12大小9.32M
从特征到特征
从低维到高维
从空间到世界
小结
思考题
特征工程是AI系统中至关重要的一环,通过对数据进行微观和宏观投影,为模型提供更准确的信息。文章以生动的比喻和实例,深入浅出地介绍了特征工程的核心工作和方法。从不同角度刻画特征,如对年龄进行离散化处理,能够帮助模型更好地理解样本信息;而对数值型特征进行变换,如幂函数、指数函数,有助于处理非线性特征。此外,文章还介绍了特征交叉组合的策略以及从低维到高维的观察方法。特别强调了独热编码在特征工程中的重要性,能够将数据投射到高维空间,并保证各个特征之间的正交关系。总体而言,特征工程的核心在于为模型提供更准确、更丰富的特征信息,从而提高模型的准确性和泛化能力。通过本文的介绍,读者能够快速了解特征工程的重要性和基本方法,为进一步深入学习打下基础。文章还介绍了预训练模型的关键技术,以及如何获取各个实体在真实世界中的空间关系。通过对比学习的方法,刻画了高维空间中的特征距离,让模型“抄近道”理解特征在现实世界中的关系。
赞 14
提建议
全部留言(13)
- 最新
- 精选
- Paul Shan2023-08-23 来自澳大利亚独热编码是如何处理分类特征的? 独热编码是把每个类型分配一个维度,这样不同的维度可以做到独立和正交 为什么需要进行正交的空间投影? 正交投影是确保了维度不缩小,并且不同的维度不相关,在这个基础上可以压缩维度和寻找关系,如果不正交的话,必然预设了不同维度之间的关系,这些预设值很可能和现实不符,会增加了模型走弯路的可能,如果丢失了维度,再让模型回到原来的维度就不可能了,高维映射到低维是可能的,反之就不可能了。 解释一下在高维空间刻画特征距离的意义和作用。 特征在高维空间中的距离反应了事物的相似程度,可以用来聚类和分类展开
作者回复: 你好,Paul Shan!回答得非常好,在接下来的课程中,也期待你的反馈。
共 2 条评论21 - 张金磊2024-02-19 来自江苏老师,明明都是数字的向量,为什么在NLP这里就叫嵌入(虽然是中文的翻译,但英文原文也不是 vector),非常想知道这个答案,有什么历史“渊源”吗?或者去哪里查资料可以知道这个问题的答案,谢谢老师
作者回复: 你好,张金磊!我们选择使用“嵌入”而非“向量”,因为它更准确地反映了我们表征学习任务的本质。在这类任务(如Word2Vec)中,训练标签不是表征信息,而是与输入实体(如:源单词)在真实世界中存在某些关系(如:共生关系)的输出实体(如:周围单词)。因此,我们只保留了模型的局部嵌入层特征表示(隐层参数),来间接获得表征映射(隐空间坐标)。所以,“嵌入”这个术语涵盖了向量来自模型隐层的含义,更准确地反映了它的来源。 当然,现在嵌入这个术语已经成为了我们的惯用词,即使在一些新的表征学习方法中表征信息不一定来自隐层,我们也会习惯称这个表征向量为嵌入。
共 3 条评论3 - piboye2023-10-04 来自江西老师, 现在词的embedding 还是用 cbow, skip-gram 来训练的吗?
作者回复: 你好,piboye!很好的问题,后面现在的 embedding 使用了更新的技术,不过基本模式和 cbow,skip-gram 大同小异。后面的课程中介绍了新的方法,在此先不剧透。
2 - GAC·DU2023-08-23 来自北京独热编码将每个分类值转换为一个二进制向量,其中只有一个元素为1,其余元素为0。优点是独立,缺点是可能会引入大量维度,导致维度灾难。 进行正交空间投影是为了数据降维,减少数据的维度,解决独热编码的缺点。 高维空间中刻画特征距离的意义在于帮助理解数据的结构、相似性和关联性,从而支持各种数据分析和机器学习任务。选择适当的距离度量方法,在特征工程中,通过分析特征距离,可以帮助选择最具信息量的特征,从而提高模型的性能和效率。展开
作者回复: 你好,GAC·DU!独热编码的部分回答得很好,这里补充一下,独热编码还有一个好处,就是可以完成正交空间投影,这样可以确保在高维空间中各个特征是独立的。至于“数据降维”则是高维空间中刻画部分的特点,这部分是容易混淆的点,一定要做好辨析。在接下来的课程中,依然期待你的反馈。
2 - 默默且听风2023-11-20 来自北京从空间到世界:这部分基本上能懂 从低维到高维:这部分结合one-hot encoding和代码能get到 从特征到特征:这个还有什么例子吗?脑子里基本没有想象空间啊,我现在的大脑就像那个三菱的光一样什么一没存住
作者回复: 你好,听风!看来你真的很认真地二刷,非常好!实际上,本节课的第一个例子就是从特征到特征的案例。这里再给你一个更具体的场景,如果我们要通过接收到的地震波来判断是否发生了地震(注意不是预测),会受到各种噪音的干扰。在这种情况下,我们可以使用各种滤波器(比如本节课提到的各种函数)对原始波形数据进行滤波,然后通过各个滤波器生成的新波形来综合判断是否发生了地震。在这里,经过滤波后生成的新数据就是原始波形的特征,也就是特征的特征。
- l_j_dota_11112023-09-21 来自天津三个类型可以相互正交,但是超过三个如何相互正交呢,还有就是为何要保证每个类型相互正交
作者回复: 同学你好!很好的问题。为了保证它们之间彼此正交,需要让特征的维度和类型的数量保持一致,这是独热编码的定义,也是它的目的。
- `¿`2023-09-02 来自北京为啥听了之后,后面的问题还是不太能回答。是需要补充更多概念知识嘛
作者回复: 同学你好,这三个问题的难度是递增的,具体是哪个问题回答不上呢。
- peter2023-08-24 来自北京第5讲中的PID是自动控制中的PID吗?
作者回复: 你好,peter!第5讲提到PID算法,就是控制算法中的PID控制器。在即将上线的第7节课中会有具体算法和应用场景的讲解。
- iLeGeND2023-08-23 来自北京怎么感觉特征是离散的呢,怎么组成语言句子呢
作者回复: 你好,iLeGeND!单词在编码投影后确实是离散的特征,至于将一组单词的表征组成句子的表征的方法有很多,在下一章大语言模型相关的知识中会详细讲解,在这里也提前预告一下。
- 周晓英2023-10-02 来自美国独热编码 (One-Hot Encoding): 想象一下你有一盒彩色的蜡笔,有红色、蓝色和绿色。我们想把这些颜色告诉计算机,但计算机只能理解数字。独热编码就是一种解决办法。我们为每种颜色分配一个特殊的数字序列。例如,红色可以是[1, 0, 0],蓝色是[0, 1, 0],绿色是[0, 0, 1]。这样,每种颜色都有一个独一无二的数字序列,计算机就能区分它们了。 正交空间投影 (Orthogonal Projection): 正交空间投影有点像是影子。想象一下,当阳光直射到你身上时,你的影子会掉到地上。在这个过程中,三维空间(你的身体)被简化为二维空间(影子)。正交投影是一种特殊的投影,它保留了一些重要的信息,使得原始的数据(你的身体)和投影后的数据(影子)之间的关系更清晰。 高维空间中的特征距离 (Feature Distance in High-Dimensional Space): 在高维空间中,我们可以通过测量点之间的距离来了解它们的相似度。比如说,如果我们在一个大商店里,每个商品都放在不同的位置,我们可以通过测量两个商品之间的距离来了解它们是否相似或相关。在高维空间里,每个维度代表了一个特征,比如颜色、大小或品牌。通过测量这些特征的距离,我们可以更好地理解和比较不同的商品。 高维空间的特征距离对于机器学习和数据分析非常重要,它帮助我们理解数据的结构,找到相似的点,甚至可以帮助我们预测新数据点可能属于哪个类别。展开共 3 条评论6