极客时间已完结课程限时免费阅读

075 | IBM的大数据路之起早贪黑赶了晚集

075 | IBM的大数据路之起早贪黑赶了晚集-极客时间

075 | IBM的大数据路之起早贪黑赶了晚集

讲述:秭明

时长05:49大小3.16M

IBM 是一家曾经有过无比辉煌历史的计算机公司,如今却时过境迁,对计算机发展的影响力所剩无几。
进入大数据时代后,IBM 的路走得格外辛苦。IBM 踏上大数据道路的早期我正好在 IBM 实习,也因此接触到了很多外人不知道的内容。
那是 2008 年,Hadoop 刚刚开始兴起,雅虎正投入大量人力物力进行 Hadoop 核心模块的开发。我实习的部门是 IBM Almaden 研究院,这个研究院以研究数据库相关技术出名,历史上第一个关系数据库的原型系统 System R 就诞生于此。
当时我们组需要在 Hadoop 上开发两个外围项目。其一是做一种高级查询语言 JAQL(JSON Analytical Query Language),它以 JSON 作为数据模型,语法上更像是一个数据流语言。另外一个项目则是基于 JSON 做一个搜索引擎。
2008 年旧金山湾区有 Hadoop 聚会的时候,演讲内容一般针对的是 Pig、Hive、JAQL,由此可见 JAQL 在当时也是颇有建树的。可以说,IBM 很早就进入了 Hadoop 生态圈,而且有一个类似 Pig 或者 Hive 的查询语言的项目。从数据模型来看,JSON 也是非常有特色,那为什么好好的一盘棋下着下着就输了呢?
在我看来,IBM 的官僚作风是一个很重要的原因。 虽说下面有团队在做这件事,但是领导层的重视程度并不够。当时这个团队只有一个领导、两个兵,而且其他资源也是远远拼不过其他公司的。
第二个原因,是 IBM 对待开源自己项目的保守态度。 Hadoop 本身是个开源项目,但是想要 IBM 开源 JAQL 项目是一件非常不容易的事情。当时的团队负责人尤金 · 谢基塔(Eugene Shekita)为此付出了很多努力,但仍是进展缓慢。
后来 IBM 终于把 JAQL 开源了,但并没有同意把它捐献给 Apache 软件基金会,JAQL 也就没能成为 Apache 的顶级项目。这样一来,其他非 IBM 的人想要参与进来就很困难了。JAQL 的用户数量也因此受到了影响,难免显现出一些衰败的迹象,最终直接影响了团队士气,团队成员纷纷跳槽,只留下了老板尤金孤掌难鸣。后来尤金跳槽去了谷歌,这个和大数据、和 Hadoop 相关的技术研发也就嘎然而止了。
此后,IBM 决定不再开源 JAQL,而是把它整合到自己的产品中,并且不再允许其他公司使用,这种做法是以开源为主体的 Hadoop 体系完全无法接受的。慢慢地,JAQL 系统就淡出了 Hadoop 的圈子,最终变得无足轻重了。
在大数据领域,IBM 研究院另外一个重要项目是机器学习平台 System ML,这个项目始于 2010 年,也是比较早的。 但是,这个项目同样也不是开源的,所以虽然大家从论文里面知道了这个项目,但是却不知道它是怎么做出来的,自然也就无法在这个项目上进行开发了。
在大数据的道路上,IBM 因为自产自销的原因越走越窄,后来不得不做出一项重大决策:采用哪种平台继续前进。这次 IBM 的决定是全面倒向 Spark。
Spark 是加州伯克利大学 AMP 实验室研发的产品,后来又经过 Databricks 公司不断地产业化,在数据分析和处理引擎领域已经有一统天下的倾向。
IBM 决定全面倒向 Spark 以后,内部的各种分析工具也都要从原先的平台迁移到 Spark 上。
从某种程度上来说,IBM 早早地就开始了 Hadoop 相关技术的研究,但最终却决定放弃自己对底层开发的积累,使用一个别人开发的、比它还要晚的平台。对于“百年老店”IBM 来说,或许这个选择在商业上可以理解,但不管怎样看,这都不是一个好兆头。
倒向 Spark 后,整个 System ML 项目要基于 Spark 重新开发。作为支持 Spark 生态系统的一部分,在 2015 年的 Spark Summit 上,IBM 宣布将 System ML 开源。这个决定自 System ML 项目开始已经过去 5 年了,而就外界所知道的 System ML 也已经经历了两大版本的变迁。
经过一年多的孵化,System ML 终于在 2017 年夏天成为了 Apache 的顶级项目,这也算是 IBM 主导的第一个 Apache 顶级开源项目。但在机器学习和深度学习大行其道的今天,System ML 到底还能产生多大的影响,要打一个大大的问号。
作为一个老牌的计算机公司,IBM 眼光向来都不错。 在 Hadoop 刚兴起时,就进行了相关的研究。而且,行动力一点也不比其他互联网企业和社交媒体来得差。
但是,虽然 IBM 早早地就进场了,项目做得也不差,人员素质更是不低,一切却都架不住官僚体系的腐朽和不开源的偏见。IBM 内部官僚主义太重,虽然有团队在做 Hadoop 的相关技术研发,但上层的重视程度不够。更重要的是,凡是涉及了开源的问题,IBM 都毫不犹豫地选择了拒绝,这更让 IBM 失去了很多机会。
可以说,那个曾经为计算机发展做出过卓越贡献、始终走在历史发展前列的计算机公司,“蓝色巨人”已经死了。在 Hadoop 市场和大数据领域的错失,究其原因还是这个企业早就是垂垂朽已了。对此,除了一声叹气,我又能说些什么呢。
分享给需要的人,Ta购买本课程,你将得20
生成海报并分享

赞 4

提建议

上一篇
074 | 雅虎:大数据领域的“活雷锋”
下一篇
076 | 社交公司们的大数据贡献
unpreview
 写留言

精选留言(5)

  • 大王叫我来巡山
    2019-01-08
    当年不管在云计算还是大数据,IBM都是领导者,我是通过IBM的蓝色加油站了解到云计算的,包括后来从事相关工作,都离不开IBM的指引,曾经在IBM公司见识了很多牛逼的技术,但都因为受众太小死掉了,感觉现在不是过去商业软件的时代,占领不了标准,根本没有人跟你玩,东西再好没有人用也是很可怕的。
    6
  • 小侠
    2019-11-24
    上一篇积极开源的雅虎死了
    3
  • @李上网来⚡
    2020-05-06
    雅虎和IBM算是两个极端吗?都没能走出来
  • 德育处主任
    2019-09-24
    官僚主义在科技公司里几乎不是什么好东西😂
  • 拉欧
    2019-05-31
    当一个企业走下坡路的时候,基本上是一步错,步步错