开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路
开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路
讲述:巴莫
时长09:06大小8.33M
为什么写大规模数据处理?
赞 37
提建议
精选留言(117)
- 风之伤置顶2019-04-15学习这专栏需要什么基础知识
作者回复: 很好的问题。设计时并没有对读者基础作任何假设,所以碰到任何技术概念,都会举例解释一下。可能需要些编程基础会学的快一点,专栏里一些示例代码是Python。如果有哪里觉得不清楚的后面可以再提出来,我们可以再调整。谢谢提问!
共 2 条评论32 - 暮光之城置顶2019-04-16老师你好,你上文提到的AI落地的基础是大规模的数据和高质量的标注,目前能满足的这个条件是否只有一些超大规模的一线互联网公司。那是否意味着大数据处理也只有在这些公司中才能发挥真正的价值,那对于在小型互联网公司工作的程序员,学习大数据处理的意义在哪里呢?
作者回复: 我觉得这个问题很好啊。我一部分同意大规模的互联网公司天生数据量大一点。另一方面,1. 对于公司来讲小型互联网公司甚至是传统企业,并不是不需要数据处理技能,而是他们还没有从数据中挖掘business insight的意识,没有数据驱动决策的意识,甚至没有收集数据的意识。举个我工作中见到的例子,比如有奶牛的农户几十年来根本不知道什么是数据,但是当我们帮他们细致的搜集牛的每天的数据,比如饮食,运动,作息,产奶,他们能从中找到最经济最优的饲料投放。2. 对于个人来讲一定要看长期的职业发展,公司会从小变大,职位会从低变高,当你能更多影响决策当你数据量变多,当你跳槽之后,数据的处理能力都是至关重要的。我们可以继续就这个问题探讨!
24 - 钱置顶2019-04-16这个技术解决了哪些痛点? 别的技术为什么不能解决? 这个技术用怎样的方法解决问题? 采用这个技术真的是最好的方法吗? 如果不用这个技术,你会怎样独立解决这类问题? 做了太多的CRUD,越来越觉得自己没什么核心竞争力,好的问题解决思路都具有通用性,希望跟着牛人走上一程,随便聊聊涨涨见识也好。 大数据多大算大? 处理量大的思路,感觉主要就是分治的思想? 需要多台机器来扛,如果单台机器没有容量和性能局限是不是就不需要各种大数据的处理思想了? 我不是从事大数据工作的,只是好奇,之前面试时也遇到过类似处理大量数据存储的问题,存起来容易,一台机器容量不够,就两台,两台不行就继续加,不过怎么查询?怎么统计分析就费劲了? 希望,听到不一样的声音喝令人惊叹的文婷姐姐思路。展开
作者回复: 首先感谢你对这门课程的支持!你所提出的问题都非常好! 大数据多大算大,其实我觉得对数据量并没有一个硬性的上限或者下限的要求。一个有几Pb的数据集是大数据,那一个只有几条数据的数据集算吗?其实也算。我们看大数据背后的本质其实是希望我们不要纠结于数据量的多少,抽象出来看的话其实大数据平台希望能有处理无限大或者无限小数据集的能力的。 第二个问题你已经看到问题的本质了。没错,你所说的分治的思想其实就是MapReduce里面Map方法的一个抽象。 第三个问题我们可以这样看,在单台机器下,所有的数据处理操作其实都是由CPU完成的。而站在更高的角度上看,一个计算机的集群我们也可以把这个集群看作是“一台计算机”,而底下每台计算机都是是一个“CPU”。只不过在计算机集群这种分布式的环境下我们还要保证其它例如数据一致性这种单机环境下不需要特别考虑的东西。 你所说的一台不够就多加机器来处理这种操作是有专业名词的,叫作Horizontal Scaling。我会在第二章里面有实例讲解。 希望在后面的课程里还能看到你的提问留言,让我们一起学习进步!
15 - 珅剑置顶2019-04-17我是一个蹉跎了多年的三流程序员,目前放弃了一切在脱产学习大数据,过程很辛苦,但我渴望成长,很幸运遇到了蔡老师,希望能跟随您的轨迹,通过这段时间的学习达到自己新的高度,to get my life back!
作者回复: 你好啊珅剑同学!我觉得不要给自己定下一个标签,每个人都是慢慢学习成长起来的,包括我自己。我也希望你能通过我的课程,学习到数据处理上,架构设计上的思想精髓。大数据在技术平台上虽然日新月异,但其实很多背后的设计思想都是融会贯通的,当你掌握了本质,很多东西学习起来就得心应手了。希望这也对你日后的学习有所帮助,我们一起加油!
8 - hua168置顶2019-04-15老师,学习这个需要什么知识为提前?
作者回复: 很好的问题,另一个同学也提到了类似问题。我们在内容设计时并没有对读者对知识背景作任何假设,所以即使一些基础的技术概念都会举例解释一下(如果你会了可能会觉得啰嗦)。有一些任何语言的编程经验会看起来快一点,因为有一些示例代码是Python的。但是设计类型的案例,我不觉得有特别的技术要求。希望你后面继续跟踪一下吧,如果有哪些讲的不清楚,或者解释的过多,后面可以调整内容。谢谢提问!
6 - 大王叫我来巡山2019-04-16很多时候公司淘汰一个人的原因不是因为他年龄大了,而是他的技术没有随着年龄增长
作者回复: 很多时候是因为那个公司傻逼,没有意识到程序员的价值在于经验,下次解决相似的问题知道哪些路可以哪些路不行。年轻干的动只是一小部分。
46 - Sapph2019-04-15高效的数据处理和高质量的标注是数据分析的前提,在AI战场厮杀的不仅仅是复杂的算法,还要依托于背后的大数据处理能力。看了目录,内容很干货。 话说,这又是一个亲身上阵自己录音频的老师,作者本人读出来的文章是有灵魂的~
作者回复: 谢谢鼓励
21 - coder2019-04-15请问老师Google T6是什么概念?
作者回复: 相当于阿里P9吧
共 2 条评论17 - 硅谷居士2019-04-19补充关于 Google T6 的说明。“如今的谷歌工程师们身处从 1 级开始的庞大存在链当中。最底层的 1 级代表 IT 技术支持人员,2 级为大学新生,3 级则通常是拥有硕士学位的员工。达到 4 级往往需要数年实践周期,或者拥有博士学位。大多数员工的职业晋升都停留在第 5 级。6 级为工程师,代表谷歌公司前 10% 的卓越人才,他们的技术能力直接决定着项目的成败。7 级则代表着拥有长期实践经验的 6 级工程师。8 级为首席工程师,他们的工作与各主要产品及基础设施紧密关联。9 级为杰出工程师,在很大程度上已经成为一种尊称。而 10 级代表谷歌院士,这是一种终身性的荣誉头衔。谷歌院士是全球所在领域内毋庸置疑的佼佼者,Jeff 与 Sanjay 则是谷歌高级院士——该公司最初也是唯二的 11 级员工。”展开16
- 听水的湖2019-04-15又是一个Google大佬,大佬是南方人吧。带着耳机听的,专栏用作者本人的声音真是很良心了,更有代入感。不过感觉有点难度,希望文章内容有深度的同事能兼顾一下宽度……学渣倒地不起……
作者回复: 哈哈,确实是南方口音。是会兼顾各方面同学的需求,不过难度和宽度并不冲突。比如在第二篇里面,我们分析一个案例,会看数据量100的时候怎么解决,1亿又是怎么解决。我希望展现一个问题解决的立体全景。
12 - paradox2019-04-15灵魂追问需要通过阅读文档和源码,并加上自己实践和思考才能够回答。
作者回复: 的确是互为补充,专栏讲解的案例是有限的,但我希望在有限的案例里把思考方式讲清楚。另外相比文档,这里设计的案例会更实际一点。也欢迎你把自己专栏外的学习收获在这里分享。
11 - 而立斋2019-04-15听起来老师很安静,喜欢您的分享。鼓励自己多留言
作者回复: 是的海明同学,希望多看到你的留言
7 - 3SKarl2019-04-18元楠老师,您好!请问在阅读开源框架(如hadoop,hive...)的源码方面有没有什么经验可以说说呢?我有以下疑惑: 1. 当我打开一个类开头就是二三十个变量的时候就不知该怎么读下去 2. 有些方法看着有几百行代码,当我从头到尾都弄明白每一段的逻辑之后感觉并没有学到什么,阅读源码的意义究竟是为了什么呢 3. 想请教正确的阅读源码的方式是怎样的展开
作者回复: 我和你有同感,纯粹从头读很容易睡着。我发觉比较有效的方式是带着问题去看,比如我今天帮hadoop修一个bug,我去看究竟怎么回事;比如我今天想搞懂hadoop的fingerprint究竟怎么工作的,怎么配置嵌入的。其实这种阅读代码能力在工作中也很重要,比如在工作中,每个组的代码量级都和hadoop之类差不多,漫无目的去读很难找到方向。 希望对你有帮助,如果有收获欢迎分享给朋友。
6 - 渡码2019-04-16您觉得研究Mapreduce或者hdfs框架有必要吗
作者回复: Mapreduce和hdfs都解决了很多问题。但是后面一篇会提到mapreduce本身的局限性。我看一个技术不会拘泥于“现在还有必要学吗”。任何技术产生都是有原因的,肯定能解决一些问题,肯定也有被更好技术取代的一天,但更重要的是明白技术怎么产生怎么设计的。
6 - 李2019-04-15深度拷问灵魂中技术的本质,做一个有技术远见的工程师
作者回复: 是,李同学,你理解的很对
6 - buptfb2019-04-16很认同作者的观点,没有高效的数据处理,哪来的算法的快速迭代?
作者回复: 谢谢!希望后面的课程能继续看到你的留言!
5 - kylin2019-04-16目前在一家外包公司写hive,做批处理。很想了解一下大数据处理的全部过程。目前国内对于技术名词的操作让我迷失了方向,像elasticsearch做即席查询,flink一统流处理和批处理,而且很多写hive的工程师写习惯了sql,也不想用编程语言写框架提供的各种算子。请问老师,做大数据处理,应该更关注哪些方面,目前写了1个多月的hive,感觉都是按照业务分层处理,我这边是DWD层,无法了解到很全面的业务流程,有些迷茫。感谢老师
作者回复: 首先感谢你的提问!大规模数据处理其实涉及了很多方面,例如从原始数据集到结果数据集的转换涉及了数据处理Workflow的设计,处理架构上的设计,甚至到数据库Schema的设计优化,数据服务API的设计都会影响大数据处理的性能好坏。像hive的话更加多是属于data analysis了,因为已经是在结果数据集上做分析,自己需要做的数据转换不会需要特别多。 我在第二章会结合硅谷这边的实际业务场景介绍大规模数据处理上的设计架构思想,希望能看到你的留言与提问,让我们一起进步!
5 - 阿童木2019-04-16大神,有机会可以写一篇您是如何从毕业生一步步走到google T6的,谢谢!5
- jiji2019-04-16作为数据行业从业者表示深深同意开篇词,非常实用的提纲挈领。现在的人工智能如果还是只关注算法那说明应用者太浮躁了,喜欢这份专栏
作者回复: 谢谢你的肯定!让我们一起成长
5 - SpanningWings2019-04-16我觉得老师的五个问题问得好:这个技术解决哪些痛点,为什么别的技术不能解决,它是如何解决的,是最好的方法吗 ,不用它我如何来独立解决。回答类似问题在我司别名叫讲清楚,实在很不容易。谢谢。
作者回复: 很高兴看到你也是类似追问
5