02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?
02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?
讲述:巴莫
时长12:24大小11.34M
我们需要一种技术抽象让多步骤数据处理变得易于维护
我们不想要复杂的配置,需要能自动进行性能优化
我们要能把数据处理的描述语言,与背后的运行引擎解耦合开来
我们要统一批处理和流处理的编程模型
我们要在架构层面提供异常处理和数据监控的能力
小结
思考题
赞 8
提建议
精选留言(55)
- mjl置顶2019-04-19Unify platform和批流统一已经是主要趋势了,而我个人目前只对spark、flink有一定的了解。对于spark来说,无疑是很优秀的一个引擎,包括它的all in one的组件栈,structured streaming出来后的批流api的统一,目前在做的continues Mode。而flink,的确因为阿里的运营,在国内火了。但也展现了它的独有优势,更加贴近dataflow model的思想。同时,基于社区以及阿里、华为小伙伴的努力,flink的table/sql 的api也得到的很大的增强,提供了流批统一的api。虽然底层然后需要分化为dataset和datastream以及runtime层的batchTask和StreamTask,但是现在也在rethink the stack,这个point在2019 SF 的大会也几乎吸引了所有人。但就现状而言,flink的确有着理念上的优势(流是批的超集),同时也有迅猛上升的趋势。展开
作者回复: 谢谢你的留言!感觉活捉了一只技术大牛呢。 是的,Spark的话虽然原生Spark Streaming Model和Dataflow Model不一样,但是Cloudera Labs也有根据Dataflow Model的原理实现了Spark Dataflow使得Beam可以跑Spark runner。 而对于Flink来说的话,在0.10版本以后它的DataStream API就已经是根据Dataflow Model的思想来重写了。现在Flink也支持两套API,分别是DataStream版本的和Beam版本的。其实data Artisans一直都有和Google保持交流,希望未来两套Beam和Flink的API能达到统一。 最后赞一点批处理是流处理的子集,这个观点我在第一讲留言也提到过。 如果觉得有收获,欢迎分享给朋友!同时也欢迎你继续留言交流,一起学习进步!
共 2 条评论58 - aof2019-04-191. DAG是将一系列的转换函数连接起来,最后调用真正的计算函数 2. 番茄炒鸡蛋,炒牛腩这个例子,说明不要进行重复计算,要复用之前的计算。而且在计算之前过滤掉不必要的数据,最大限度的减少计算量。 现在使用的数据处理技术遇到的问题就是在两个大表进行关联的时候,没有太多的优化手段,自己能想到的就是增加计算资源(但是条件不允许),然后过滤掉两个表中不必要的数据,但其实优化之后还是会很慢。 希望老师能分享一下大表和大表join的优化手段!展开18
- 段斌2019-04-19Q:你现在在使用的数据处理技术有什么问题,你有怎样的改进设计? A:简单介绍下我自己的背景,以前有RDBMS时期的数据仓库经验,后来没有跟上Hadoop发展的节奏,逐渐转向了前台业务部门。现在在一家sdk行为数据采集与分析厂商做解决方案,但是公司有很多技术栈:storm+es,flink,spark,还有最新的kudu+carbandata,学习起来非常吃力。 基于本期的课程,我有几个问题: 1. storm+es实时大数据平台的出现是解决什么问题?优势是什么,未来是否会被其他技术栈取代? 2. 我们客户在用这个技术栈的产品,反馈查错成本很高,不知道在sdk采集时候数据没有收上来,还是在collector,或者是后面丢失。我想问数据监控是大数据普遍问题吗?业内是怎么解决的? 3. 咱们是否会介绍Apache Carbondata,这个技术栈的优势是什么?你怎么看待它的发展?展开10
- 孙稚昊2019-04-19Flink在国内也是刚刚兴起火热起来,而Apache Beam也就是Google内部FlumeJava的开源版本早早就被设计出来。国内现在讲实时数据处理,批流统一还是比较推崇Flink和阿里的自主设计的Blink系统,接受Beam可能还需要几年的时间7
- fy2019-04-20虽然看的不是很懂,毕竟没搞过这方面的,但是每篇文章的知识点逻辑很清楚,学习中,这里尊称一句蔡老师,被老师的回复学者的留言给感动了。期待老师后面精彩的专栏
作者回复: 谢谢肯定。期待你后面的留言。 也欢迎推荐给朋友!
6 - Milittle2019-04-20讲真,这个思路太清晰了。讲到有向图那里,还没看到tf那段,我脑子里第一蹦出来的就是深度学习里面的符号式计算图,可以在图编译的时候进行优化。然后在计算时可以加速运算,还有就是,这里的计算图用拓扑排序结合优先级队列来执行计算。 我还是个学生,有不对的地方请指教,没在真实场景中体验过,但是感觉这些都是通用的,学会了,处处可以用到。期待后续课程给更多的启发,谢谢(*°∀°)=3
作者回复: 你理解的很多!期待你后面的分享
6 - 大王叫我来巡山2019-04-19经历了mapreduce到spark, 从最具欺骗性的wordcount开始到发现很多业务本身并不适合mapreduce编程模型,一直做日志处理,现在在政府某部门同时处理批处理任务和流处理任务,老师的课太及时了,感觉对我们的业务模型革新会产生很大的影响,前两篇没有涉及技术,已经感觉醍醐灌顶了。
作者回复: 你说的对,WordCount就像helloworld,真实业务场景肯定会复杂很多。
6 - 文洲2019-04-19老师讲的很明白,有个疑问,现在都说flink是下一代实时流处理系统,这里按老师的对比来看,它还比不上spark,可否理解为flink主要还是专注实时流处理而spark有兼具批处理和流处理的优势
作者回复: 并没有说flink比不上spark。。。这篇没有展开比较。只是带了一句话flink的流处理批处理api不一样。
5 - wmg2019-04-19现在使用较多的是hive和sparkSql,这两种技术多使用的都是类似关系数据库的数据模型,对于一些复杂的对象必须要通过建立多张表来存储,查询时可能需要多张表进行join,由于担心join的性能损耗,一般又会设计成大宽表,但这样又会浪费存储空间,数据一致性也得不到约束。想问一下老师,有没有支持类似mongodb这样的文档型数据模型的大数据处理技术?
作者回复: 数据的索引查询和这里的数据处理是两个话题。关于怎么提高数据系统的查询效率,我在考虑要不要开一个存储系统高性能索引专栏。 我不知道你的查询有多复杂,简单处理的话,可以先试试建一些常见查询路径的索引表。写的时候往两张表写或者再做一些专门的建索引的数据处理系统。
4 - monkeyking2019-04-20老师,啥叫dataflow?从字面上来看好像和dag差不多,不知道我理解的是否正确,还请老师指正
作者回复: 谢谢你的提问!在留言区里的Dataflow指的是Google在2015发表的Dataflow Model数据处理模型。
3 - 来碗绿豆汤2019-04-20蔡老师好,看到您那么认真的回复读者问题,果断决定买了,跟着您一起学习。我们最近在打算重构一个项目,想听听您的建议。系统的输入是将近1TB的数据文件(好多个文件,不是一个大文件),内容就是一条条记录,描述了某个实体的某个属性。我们要做的就是把属于同一个实体的属性整合到一起,然后将数据按实体id排序输出,没100万个实体写一个文件。我现在的思路就是:第一步,把文件重新按照实体id切块,然后排序写成小文件,这一步可以是一个程序;第二步,对id属于某个范围内的(如1-100w)文件,归并排序,这一步一个程序;第三步,对排好序的文件按指定格式输出。因为以前没接触过大数据相关技术,所以现在是用java实现的demo版本,就像你课程里面所示,担心将来各个进程,线程之间,交互通信,异常处理,log处理,等一系列问题都需要自己维护会比较麻烦,想听听您的建议。展开
作者回复: 这个是很典型的问题。后面学到了一些框架之后可以很方便用groupBy进行处理。
3 - Codelife2019-04-19我们是做车联网业务的,目前实时处理采用的storm,批处理采用的是MR,和您的文章中描述的一样,业务场景和算法中经常出现实时和批处理共存的情况,为了保证实时性,通常是定时执行MR任务计算出中间结果,再由storm任务调用,这样的坏处是MR任务并不及时,而且维护起来很麻烦,效果并不理想。希望能够从apache beam中学到东西
作者回复: 谢谢你的留言!我在第十讲中所讲解到的Lambda Architecture应该会对你们的架构设计有所帮助。希望能在那时继续看到你的留言。
共 2 条评论3 - 小辉辉2019-04-21看完前三讲,让我对大数据又有一个更新的认识
作者回复: 谢谢你的肯定!同时也欢迎你把专栏分享给朋友。
2 - 电光火石2019-04-20我们做风控的,现在每天收的数据比较多,现在都是先通过spark streaming落地hive,然后每天批量跑任务做模型训练和分析,因为现在模型训练还是集中在离线训练,在线训练约束比较大,所以使用场景还比较小,训练处理的模型在通过导出到pmml在线预测,整个作为一个闭环。不知道google在这方面试怎么处理的?谢谢! 另外,老师有个理念很新颖(从处理的数据范围来看批处理和实时计算,批处理的数据是有界的,实时计算的数据是无界的),我一直从处理的间隔来看批处理和实时计算,觉得实时计算是批处理的一种,就是不断的把离线任务处理频率做个极限,就变成了实时计算。展开
作者回复: 专栏里提到了这种应用在google有1000个,所以很难概括说这类应用google怎么处理的。你的方法既然能解决问题就好了。 关于流处理批处理后面的章节还会深入讨论。
2 - 明翼2019-04-20老师我补充下我的三个问题: 1.这种两个流都是大数据量的一般业界用什么样计算模型去做匹配,目前我们是用spark写的匹配? 2.由于一个流(假设名字为A流)的数据时间跨度比较大,比如几天前的数据,这就要求另外一个流(假设为B流)必须有缓存,而从缓存中抽取B流数据时候,会根据时间和Ip的hash原一批数据和A流匹配,那这个缓存用什么比较好那?我们原来用Hbase后发现数据量大scan比较慢,改hdfs直接存储了,勉强可以用。 3.我们最终结果数据一天也有几百亿条,目前存Es里面的,业务要求查询性能分钟级别就可以接受,我们查询性能够了,但是索引数据存储空间占用大,入索引性能一般,我们想换个高压缩性能分钟级的存储系统,目前考虑用列式存储➕ SQL引擎来做,这种没经验是否合适? 谢谢老师耐心看完,有空指点下谢谢展开
作者回复: 似乎和本篇内容并不相关。general的技术咨询我看看能不能让平台拉群讨论
共 3 条评论2 - 王二2019-04-19老师您好: 1.如您所说flink在批流处理上的不统一,目前社区各个厂商也在努力的实现这种基于SQL或其他引擎的一些统一,这块在您看来有什么好的建议。 2.后面文章使用spark举例,这里是用他的struct streaming还是spark streaming呢. 3.感同身受,流系统难的不在开发,在于监控,如何处理背压,如何根据负载动态调整资源,除过开源框架自带的一些监控外,后续在任务流监控这块是否有什么好的建议推荐。展开
作者回复: 都是很好的问题 1 SQL 就是一个统一的用户界面,后面的引擎可以是hive也可以是自己实现的别的 2 看到spark部分就知道了 :) 3 的确,监控部分我可以看看是否在后面的部分增加章节
2 - dylan2019-04-19有没有这么一个问题,mapreduce在大规模数据处理时,由于每个计算阶段都会落盘,所以计算比较慢,但是数据完整,不会丢失;spark基于内存计算,会有数据丢失的风险?
作者回复: 容错性是很重要的问题,两个的容错性设计方案是不同的。
2 - 高景洋2021-09-15问题: 1、数据处理流程太长 2、处理过程中采用分布式、高并发的方式 3、环节太多,需要把每个环节的产生的日志数据,都推kafka 4、用 elk 的方式,进行数据查询及问题查找 ------痛点------- 5、在数据处理过程中,会产生大量的大文本内容,比如网页的html,内容大且多,即使使用消息压缩后推kafka的方式,也会将kafka的生产流量打爆 6、为了应对5的情况,我们不得不,有选择性的开一些任务的kafka推送。 而未开kafka推送的那部分任务,数据产生异常时,又很难及时的对异常现场的数据内容作分析 ------处理方式----- 7、为了降低kafka的生产压力,我们将消息大的数据,做了只有在数据处理过程中标记失败的数据才推kafka,这样既降低了kafka生产压力,又可以保证有异常时可以及时查看到异常内容 ------其他------ 8、数据处理流程中,产生的环节日志数据,是否有其他更高效的收集及展示方式?展开2
- 退而结网2019-04-20在极客时间订阅了几个专栏了,有些专栏留言的问题很少得到专栏老师的回复,看了下蔡老师的留言回复,基本上都是有问必答。这两节专栏的内容真的很多干货,同学们的留言也给了我很多启发。作为大数据处理的半入门汉,希望能在这门课程中得到更多的收获,祝愿和大家共同进步!
作者回复: 谢谢,欢迎把专栏分享给朋友
1 - :)2019-04-20期待更新!1