极客时间已完结课程限时免费阅读

01丨数据分析全景图及修炼指南

01丨数据分析全景图及修炼指南-极客时间

01丨数据分析全景图及修炼指南

讲述:陈旸

时长09:21大小8.55M

今天我们的学习正式开始,我想先给你一张数据分析的全景图,让你对后面的学习做到心中有数。
现在,你已经知道了数据分析在现代社会中的重要地位。掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。

当我们谈论数据分析的时候,都在讲些什么呢?

这里我可以把数据分析分成三个重要的组成部分。
数据采集。它是我们的原材料,也是最“接地气”的部分,因为任何分析都要有数据源。
数据挖掘。它可以说是最“高大上”的部分,也是整个商业价值所在。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI
数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果。
下面我来一一为你讲解一下这三个重要的部分。

数据采集

在数据采集部分中,你通常会和数据源打交道,然后使用工具进行采集。
在专栏里,我会告诉你都有哪些常用的数据源,以及如何获取它们。另外在工具使用中,你也将掌握“八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源。当然我也会教你如何编写 Python 爬虫。掌握 Python 爬虫的乐趣是无穷的。它不仅能让你获取微博上的热点评论,自动下载例如“王祖贤”的海报,还能自动给微博加粉丝,让你掌握自动化的快感。

数据挖掘

第二个部分是数据挖掘,它可以说是知识型的工程,相当于整个专栏中的“算法”部分。首先你要知道它的基本流程、十大算法、以及背后的数学基础。
这一部分我们会接触到一些概念,比如关联分析,Adaboost 算法等等,你可能对这些概念还是一知半解,没有关系,我会详细为你介绍这些“朋友”。
每讲完一个算法原理,我都会带你做一个项目的实战,我精选了一些典型的、有趣的项目,比如对泰坦尼克号乘客进行生存预测、对文档进行自动分类、以及导演是如何选择演员的等等。
掌握了数据挖掘,就好比手握水晶球一样,它会通过历史数据,告诉你未来会发生什么。当然它也会告诉你这件事发生的置信度是怎样的,置信度这个词你先记住就可以了,后面我们来学习它具体代表什么。

数据可视化

第三个就是数据可视化,这是一个非常重要的步骤,也是我们特别感兴趣的一个步骤。数据往往是隐性的,尤其是当数据量大的时候很难感知,可视化可以帮我们很好地理解这些数据的结构,以及分析结果的呈现。
如何进行数据可视化呢?有两种方法。
第一种就是使用 Python。在 Python 对数据进行清洗、挖掘的过程中,我们可以使用 Matplotlib、Seaborn 等第三方库进行呈现。
第二种就是使用第三方工具。如果你已经生成了 csv 格式文件,想要采用所见即所得的方式进行呈现,可以采用微图、DataV、Data GIF Maker 等第三方工具,它们可以很方便地对数据进行处理,还可以帮你制作呈现的效果。
数据采集和数据可视化的原理简单,容易理解。这两个部分注重的是工具的掌握,所以我会把重点放在讲解工具以及应用实战上。
虽然这些理论我会给你一一讲解,但纸上得来终觉浅,绝知此事要躬行。手拿地图,我们知道要去哪里,但是怎么去呢?我认为学习数据分析最好的方法是:在工具中灵活运用,在项目中加深理解

修炼指南

刚才我们讲了数据分析全景图,包括数据采集、数据挖掘、数据可视化这三个部分。你可能觉得东西很多,无从下手,或者感觉数据挖掘涉及好多算法,有点“高深莫测”,掌握起来是不是会吃力。其实这些都是不必要的烦恼。
开篇词里我给你介绍了 MAS 学习法,有了这个方法,学习数据分析就是从“思维”到“工具”再到“实践”的一个过程。今天我会从更多的角度来和你分享我的学习经验,我们可以把今天的内容叫作“修炼指南”。
借用傅盛的话来说,人与人最大的差别在于“认知”,所谓成长就是认知的升级。
很多人存在对“认知“的误解,认为认知不就是概念么?那么你有没有想过,针对同一个概念,为什么不同的人掌握的程度是不一样的呢?
我们只有把知识转化为自己的语言,它才真正变成了我们自己的东西。这个转换的过程,就是认知的过程。
那么如何提升自己的学习吸收能力呢?简单地说,就是要“知行合一”。
如果说认知是大脑,那么工具就好比我们的双手,数据工程师和算法科学家每天打交道最多的就是工具。
如果你开始做数据分析的项目,你脑海中已经思考好了数据挖掘的算法模型,请牢记下面这两点原则。
1. 不重复造轮子
举个数据采集的例子,我见过很多公司,都有数据采集的需求,他们认为某些工具不能满足他们个性化的需求,因此决定招人专门做这项工作。而结果怎样呢?做了 1 年多的实践,工资投入几十万,结果发现 Bug 一大堆,最后还是选择了第三方工具。耗时耗力,还没什么成效。
一个模型是否有相关的类库可以使用——这几乎是每个程序员入行被告知的第一条准则。我也会对新人反复灌输这个概念。大部分情况下你都能找到类库来完成你的想法。
2. 工具决定效率
“不要重复造轮子”意味着首先需要找到一个可以用的轮子,也就是工具。我们该如何选择呢?
这取决于你要做的工作,工具没有好坏之分,只有适合与否。除去研究型的工作,大部分情况下,工程师会选择使用者最多的工具。因为:Bug 少、文档全、案例多。
比如 Python 在处理数据挖掘上就有很多第三方库,这些库都有大量的用户和帮助文档可以帮助你来上手。
在后面的课程里,我会给你介绍最常用的工具,这些工具会让你的数据挖掘事半功倍。
选择好工具之后,你要做的就是积累 “资产”了。我们很难记住大段的知识点,也背不下来工具的指令,但是我们通常能记住故事、做过的项目、做过的题目。这些题目和项目是你最先行的“资产”。
如何快速积累这些“资产”呢?这里我送你三个字:熟练度
把题目完成只是第一步,关键在于训练我们工具使用的“熟练度”。
高中的时候,有一次我做“八皇后”的问题,第一次解答花了一个小时的时间。当时老师明确告诉我必须在 20 分钟内完成,我不敢相信,从解题、思考、动手,最后完成,1 个小时不算慢。但是后来我调整了思考的结构。最后我 6 分钟就可以完成那道题。
当熟练度增加的时候,你的思考认知模型也在逐渐提升。所以专栏中,我给你做了一个 “专属题库”,在专属题库中你可以进行自我评测,当然我也会对这些练习题进行讲解。在工作篇中,我也会和你一起分享面试技巧、探讨职场上的晋升之路。

总结

认知三步曲,从认知到工具,再到实战,是我最想给你分享的学习建议。我看到过很多同学上课的模式,以及很多人工作中的思考模式,我特别认同“人与人最大的区别是在认知”这个观点。
他们很听老师的理论,但是这些理论最后又都还给了老师。所以我希望你在后面的 15 周学习里可以做到以下几点。
记录下你每天的认知。尤其是每次课程后,对知识点的自我理解。
这些认知对应工具的哪些操作。用工具来表达你对知识点的掌握,并用自己的语言记录下这些操作笔记。
做更多练习来巩固你的认知。我们学习的内容对于大部分外人来说,就像“开车”一样,很酷。我们学习的内容,对于要掌握的人来说,也像“开车”一样,其实并不难,而且很多人已经上路了。你需要的就是更多的练习。
不知道这一讲中你有没有不清楚的地方,如果有,一定要提问,而且问题越具体越好,我会在留言区和你讨论。如果你理解了我们讲的内容,也一定要分享给我,让我和你一起体验这种认知升级的喜悦。
最后我想问你个问题,就当做个小调查吧,你平时是怎么学习的呢?会做学习笔记吗?期待在留言区看到你的答案。也欢迎你把今天的内容分享给身边的朋友,和他一起学习。
分享给需要的人,Ta购买本课程,你将得18
生成海报并分享

赞 174

提建议

上一篇
开篇词 | 你为什么需要数据分析能力?
下一篇
02丨学习数据挖掘的最佳路径是什么?
unpreview
 写留言

精选留言(334)

  • Alexander
    置顶
    2018-12-18
    推荐幕布,可以直接生成思维导图哈,数据分析也可以用导图,分享也挺方便,多叉树穷举各种可能的业务情况😉:https://mubu.com/doc/85OdlVv3W0

    作者回复: 很不错的分享!大家做笔记的时候 也可以试试

    共 5 条评论
    93
  • LeoBing
    置顶
    2018-12-31
    好奇问下,文章种的图,作图老师是用的什么工具

    编辑回复: 画图软件SketchBook

    共 2 条评论
    44
  • 超宇宙骇客
    2018-12-18
    我学习的途径主要有两点:一是看书籍自学(也包括专栏等类型);二是看付费教学视频(例如培训班之类)。 我做笔记的3大方式:一是准备1本笔记本,遇到重要知识点就记录下来(弊端是代码很难记录),因此我记录的内容大多是能够帮助我迅速回忆起知识点的关键点;二是通过云笔记,它刚好弥补了手写笔记的弊端,我能够把所写的代码整块复制下来,并做注释,所以,我一般用它来作为详细记录;三是写思维导图,它的作用就是帮助我统领整个知识面,让我能够自下而上地把整个金字塔体系连起来。 还有一点是我打算以后做的:写博客,因为我觉得只有我把知识分享给别人,真正通过我的手写出来或者嘴巴说出来,这些知识才真正的为我所理解。 以上,希望老师点评一下我这种学习方式,给些其他建议就更好了,谢谢!
    展开

    作者回复: 大家都可以看看这位同学的笔记方式!我觉得很赞! 1、做笔记是个非常好的方法,而且你对于知识点,代码,系统总结都有自己的笔记方式,很好! 2、分享是更高级的维度,不仅是因为这样能让知识更系统,而且还能在交流中互相成长。 另外,如果你是在工作,定期给大家做个分享,不仅能让你受到重视,而且还能让工作更加主动&快乐!

    140
  • Kevin.zhang🌏
    2018-12-18
    对待学习,我平时都是准备了两类本子,一类本子记录当天的日常零散学习或者工作心得(草稿笔记),每月会对当月草稿笔记做整理,并转化电子档保存;另一类就是当天系统学习某项技能的笔记(专项笔记),便于日后的查看和整理(一般也是按月整理!)

    作者回复: 都是很好的习惯!

    112
  • 柳橙
    2018-12-18
    用github+hexo做了个静态博客,用markdown写,把学习笔记整理在上面,看git的更新频率就知道自己最近有没有在努力学习啦。

    作者回复: 不错的方法👍

    共 2 条评论
    53
  • 草莓味冰糕
    2018-12-18
    我主要的学习方式是依靠学习圈子,网易云课堂视频,还有各种专栏。平时也会做一些笔记,印象笔记软件也用了有一年多了,主要靠markdown语法做详细记录,xmind做导图整理框架,看了这一讲,感觉自己的学习方向大概还是对的,我最开始是学的Python基础,Python爬虫,《利用Python进行数据分析》。现在的状态是狂补统计学等数学基础,下一步准备进行商业思维训练相关学习,并准备打下机器学习基础。但是我的问题存在于两方面,第一是分享这一块我做的很差,为了弥补,最近也在学着开自己的知乎专栏和公众号,目的是为了把我这一年以来学的杂七杂八的东西串联整理起来。第二就是实战经验,我总想着学习完工具和思维再进行实战,但是这个月突然意识到实战是串联、应用与复习知识点的最佳途径。同时我也觉得这门可能对整理我所学有很大帮助。期望自己能在下一个半年成为一个合格的初级数据分析师。
    展开

    作者回复: 总结的很好,你没问题的! 知行合一,并不是个先后的顺序过程,就像你刚才说的:实战其实就是很好的学习,能让你理解工具使用和知识点。刚才有个同学分享了:自己写Demo是个非常好的体验,一起共勉💪

    共 3 条评论
    29
  • 小熊猫
    2018-12-18
    数据分析三个重要组成部分: 1. 数据采集:获取数据源 2. 数据挖掘:核心是挖掘数据的商业价值 3. 数据可视化:使用python或者第三方工具 学习数据分析最好的方法是:在工具中灵活运用,在项目中加深理解 两条准则: 1. 不重复造轮子。能够很快的知道一个模型有哪些类库可以使用。 2. 工具决定效率。选择使用者最多的工具。 以后的每周做到以下几点: 1. 记录下每天的认知。 2. 这些认知对应工具的哪些操作。 3. 做更多练习来巩固认知。
    展开

    作者回复: 整理的很好 希望你有所收获

    27
  • 何田田
    2018-12-20
    平时对于自己喜欢的文章还是会记笔记的 记笔记我用到3个工具,Evernote(笔记)、Xmind(导图)、Anki(卡片), ——印象笔记是用来费曼喜欢的文章,方便搜索和迭代。费曼过程会有两个产出:文章结构和细碎知识点。文章结构用思维导图来呈现,细碎知识点用Q&A笔记法整理成经过拆分、提炼的一问一答形式。 ——思维导图是整理树干,Q&A笔记是整理树叶 ——Anki卡片是克服遗忘,把肢解的导图和一条条的Q&A,放到(黏贴复制)Anki的正反面。因为只有把知识点记住,内化到脑子里了,才能给碎片知识建立连接的可能。 --以上对应的方法论是 收集→加工、整理→内化、迭代
    展开
    23
  • 🙄汤铭丰🙄
    2018-12-25
    老师你这边分析说的是三个方面:数据采集(在我看来应该是包括了采集,清洗,提数等)数据挖掘(这里我的疑问是,为什么就直接跳到了挖掘了呢。在日常的工作中或许监控型的数据报表,或者分析类的报告的会比较多,而且现在的分析师多是利用sql去从不同维度切)数据可视化(按照目的输出令人更好理解的数据展现形式) 我的疑问主要在第二点哈
    20
  • 跳跳
    2018-12-18
    私以为学习这件事,70%靠实践,20%靠与人交流,10%靠学习理论。与老师讲得相似。打算从这几个角度深入学习数据分析相关知识,大家一起加油💪

    作者回复: 对的,非常赞同!

    共 2 条评论
    19
  • Adamhuan
    2019-01-03
    我平常学习会有着几个习惯: 做笔记,但不仅仅是做笔记 1. 文字笔记,边听课边记录,我的OneNote笔记每天大概会增长20MB 2. 思维导图,听完课后,梳理零散的实时笔记;以及看书的时候,会开始整理思维导图 3. 博客,每一次做过一次实验(技术方面的练习)都会整理成一篇可行的技术文档放在自己的个人博客上 听课程,因为极客时间是手机端的APP,所以通常一篇文章的语音我会反复听3遍到5遍。 参考信息: 讲师提到的一些额外的信息与引论,会去网上查到原文以及出处,便于更细粒度的思考。
    展开

    作者回复: 真是爱学习,赞一个!Adam可以把总结的笔记贴在每次课程的讨论区中,这样大家一起学习交流

    共 2 条评论
    13
  • JingZ
    2018-12-18
    学习对于我来说,有两种,一个考证考试学习,一个是有具体问题需求的碎片化学习~ (1)思想方面:前者,多半是参加系统课程、网课、实战班等集训营的;后者则google/知乎 (2)工具方面:前者喜欢用xmind写好,导成图片,经常复习检索下,也会写成微信公众号文章方便日后查看;后者则专业网站和向大佬求教 (3)实战方面:无论学啥,关键把握问题本质,多实际动手做案例,融会贯通,实践出真知

    作者回复: 这个学习方法蛮好!其他人也可以看看

    9
  • Montage
    2018-12-18
    老师讲的很赞 要是有视频就更好了 感觉后期实战讲解 视频的形式会更容易让人接受和学习

    作者回复: 多谢建议,有些操作的部分,我会用视频录制后,做成GIF放到专栏里。另外编辑告诉我说,下周会安排直播

    8
  • 夏悠悠
    2018-12-18
    李笑来说过,道理这东西说太多也没用,践行才是改变的根本。这也就说明知道归知道,之所以认知的层次不同,就是因为实践的程度不同,非常同意作者说的,要多练习,做过的题目,经历过的项目,才是最令人印象深刻的,才是成长的最快路径。 平时很喜欢用A4纸做笔记,电子版的用印象笔记,可以随时收藏,读完之后进行标注和总结。 期待和作者一起学习数据分析,作为一名银行数据分析人员,有很多的困惑。
    展开

    作者回复: 加油 💪总结的不错。你可以把困惑以提问的方式 提出来,其实是个很好的思考维度

    6
  • 浅倩的哆唻咪
    2020-05-04
    学习方法:看书&听课 看书后,会在公众号晒读书笔记以督促自己,并整理导图,尽量会要求自己写一点读后感/一些自留作业让自己去思考并应用,但是坚持力欠佳,老是断断续续,希望这次的课程能成功坚持。 做笔记的两个主要工具:幕布和石墨文档,幕布一键生成导图十分方便,适合内容较少的,石墨很适合大段式摘抄,排版也很简便可以专注内容。
    展开

    作者回复: 感谢同学的分享

    5
  • S
    2018-12-19
    学习时很少做笔记,决定每节课后都做笔记,自己从没有形成知识体系,有可能就是您说的那句“听完还给了老师”,没过脑子。

    作者回复: 坚持做笔记,你会有收获的,别忘了把笔记分享出来,发在留言区里

    4
  • 牛牛肥
    2018-12-18
    看了留言的互动,感觉课程的真正意义在于如何学习到高手的学习方法,希望能获取“渔”的能力,期待未来的15周学习。

    作者回复: 对,网上的知识永远是别人的,关键是如何转化成自己的。这也是这个专栏希望带给你的价值

    共 2 条评论
    5
  • kyle
    2018-12-18
    评论区的学习方法也很受用,立马用上!

    作者回复: 是的 我也收获很大 谢谢你们的分享

    5
  • jiemoon
    2018-12-18
    我们现在的工作是不是也是在做作业,只是更复杂多变

    作者回复: 对!你的观点很不错。作业相当于平时的训练集,工作就是正式版的测试集😄

    4
  • 一个射手座的程序猿
    2021-02-21
    幕布和石墨,俩款不错的程序笔记平台软件,它可以给你详细的重点,以做出思维导图,或者批注😁也可以导出Word,PDF,更多WPS,推荐引用

    作者回复: 不错的分享!找到适合自己并可快速查询的笔记方式,对学习可以起到事半功倍的效果!

    3