089 | Powerset：HBase的老东家

Apr 27, 2018
089 | Powerset：HBase的老东家-极客时间

下载APP


关闭
讲堂部落提薪训练营云原生训练营架构实战营企业版极客商城兑换中心 App下载浏览器插件
渠道合作
推荐作者
089 | Powerset：HBase的老东家

2018-04-27 徐飞来自北京
《技术与商业案例解读》
课程介绍

讲述：秭明

时长08:04大小4.89M

谷歌的“三驾马车”，即谷歌文件系统、MapReduce、BigTable，被誉为计算机科学进入大数据时代的标志。
作为开源大数据的标杆：Hadoop，它的开发者道格·卡丁（Doug Cutting），最初在实现自己的爬虫 Nutch 的时候，只实现了 Hadoop 文件系统和 Hadoop MapReduce，并未实现 BigTable。所以在很长一段时间里，BigTable 在 Hadoop 的生态圈里是缺失的。
对于这种缺失，我们也可以理解为：无论是在爬虫还是当时 Hadoop 的几大生态圈里，大家对 BigTable 的需求并没有另外“两驾马车”那样强烈。
真正在 Hadoop 的生态圈里实现 BigTable 的开源版的，是一家叫做 Powerset 的公司推出的 HBase 项目。HBase 代码量大，架构复杂，但是很多代码都写得非常优雅。与 Hadoop 文件系统和 Hadoop  MapReduce 的快、糙、猛相比，HBase 的出现无疑让人眼前一亮。
曾经的 Powerset 也是十分著名的创业公司，它创业的领域是下一代搜索引擎：自然语言搜索引擎。在今天，它却没有了当初的名气，为什么这么说呢，接下来我就会说到。
那么，这个曾经开发了 HBase 的创业公司，现在又是怎样的情况呢？今天我们就一起来了解一下。
2004 年，谷歌成功上市，它是 2000 年的互联网泡沫后，第一家上市的超大型互联网公司。作为搜索巨人的谷歌，已经渐渐取代门户网站，成为互联网新的入口。与此同时，它的股票增值速度也像坐上了火箭，一路攀升。
那个时候移动互联网尚在萌芽，社交网络也没有占据主流地位；“搜索引擎”因为谷歌的成功，成为了创业者和投资人的关注热点。
在这样的大背景下，一个以投资者和创业者的信息为主的网站 VentureBeat 发出了不同的声音，它的主编马特·马绍尔（Matt Marshall）发表了一篇文章，标题是这样的：“不可忽视的创业公司 Powerset，即将筹集 1000 万美元去打败谷歌。”（Bold start-up,Powerset,about to raise $10M to take on Google）
这篇文章画出了三个重点：有一个新的高科技创业公司 Powerset，它的创始人是人工智能和自然语言处理技术专家巴尼·佩尔（Barney Pell），这家公司将会以新的技术打败谷歌。
在这篇文章发表之后，Powerset 的创始人，号称“人工智能和自然语言处理专家”的巴尼，也亲自撰写了一篇文章，告诉大家自己正在创办一家搜索公司。
巴尼还举了一个例子，如果搜索 “Book by children”，谷歌会自动忽略掉“by”，导致搜索引擎不能明白这句话到底是什么意思。但是，自己创立的公司 Powerset 则不会有这个问题。因为后者可以理解自然语言，而前者只是做关键词匹配，所以高频介词“by”被忽略掉了，造成了语义不正确。
即使到了今天，谷歌的搜索引擎在很大程度上还是对单词进行匹配，于是基于语义的搜索，对 2006 年的谷歌而言，毋庸置疑是个问题，而 Powerset 是基于自然语言的，想来技术上应该相当厉害。
但事实上是，Powerset 在公司还没有任何产品的时候，就开始大肆炒作。这靠不靠谱就不好说了。后来公布出来的信息让人大跌眼镜，Powerset 所使用的自然语言分析技术，是从施乐公司的帕洛阿尔托研究中心（Palo Alto Research Center）授权得来的。
一个自然语言搜索的公司，它的核心技术不是由自己开发的，而是授权过来的。这就更让人怀疑 Powerset 到底靠不靠谱了。所以 Powerset 一边在聚光灯下备受瞩目，一边又被大家不断质疑。
众人盼星星盼月亮地等待 Powerset 发布跨时代的产品，然而这一等就是两年。到了 2008 年 5 月的时候，Powerset 终于发布了它们的第一个基于自然语言的搜索引擎，但是这个引擎只能搜索维基百科上面的一部分文章，并不能处理维基百科以外的任何互联网内容搜索问题。
不过，在 Powerset 的搜索结果页面上，确实包括了一些和谷歌不一样的东西，它们主要是下面的内容。
资料（Factz）  ：当用户输入一个搜索主题，Powerset 会从维基百科（Wikipedia）中总结出一些相关资料。
主题档案（Dossiers）  ：Powerset 会对主题做一个总结。
答案集（Answers）  ：对很多问题，Powerset 会自动生成一个答案表。
语意高亮（Semantic Highlighting）  ：与用户问题语意相关的搜索结果，会高亮显示。
微浏览器（MiniBrowser）  ： 搜索结果会以大纲形式显示。
专题条（Article Outline）  ：一个导航工具条，会随时漂浮在搜索结果旁边，来帮助用户快速进入文章的某个章节。
资料概要（Summary of Factz）  ： 会自动生成文章的内容总结。
相关资料（Explore Factz）  ： 可以生成相关主题文章的链接。
这些东西和谷歌比起来，自然是有令人耳目一新的成分；但是这样的搜索引擎是不是比谷歌的更强大好用，那就见仁见智了。
有人问 Powerset，为什么不提供整个互联网的索引？Powerset 的回答是：它们作为一个创业公司，没有足够的机器存储整个互联网的内容，但它们的技术对整个互联网都是适用的；只要有足够多的财力、物力，Powerset 分分钟就可以把自己变成一个能够搜索整个互联网的搜索引擎。
这个回答，当然不会让所有人十分满意。有些人相信 Powerset 有这样的能力，还有人觉得 Powerset 是在吹牛。
毕竟维基百科有相对工整的数据，工整的数据在语义上就会相对简单，建立知识库也不是那么复杂；而对于整个互联网来说，数据不仅仅没有这样工整，很可能也是不正确的，面对这样的数据，Powerset 的表现很可能是一塌糊涂。
之后发生的事情就十分有趣了。谷歌有钱以后就开始挑衅微软，开始了在西雅图建办公室、挖微软的墙角、推出 Google Docs 进军微软的办公软件市场等一系列行径。
这导致当时微软的 CEO 史蒂夫·鲍尔默（Steve Ballmer），决定大举进军搜索市场，做“必应搜索引擎”和谷歌正面对抗。
于是，在 Powerset 公布它们基于维基百科的新一代搜索引擎以后没多久，也就是 2008 年 7 月，Powerset 就被微软收购了，收购价是 1 亿美金，实际上，收购价其实算不得很高。
而收购了 Powerset 的微软，既没有终止 HBase 的开发，也没有把 HBase 当作自己重要的资产对待。一直到萨提亚（Satya）上台以后，微软开始向“云”转移，HBase 的重要性才体现了出来。
但是在那个时候，在微软收购 Powerset 时加入的那批 HBase 开发人员，却早已经纷纷跳槽离开了。
所以，微软曾经有一次绝佳的机会，可以对 Hadoop 生态圈形成巨大的影响，但自己却轻易地放过去了。这或许是微软一时之失，或许是它当时过于自以为是，但历史就是历史，我们也不好过多评判。
我们无从验证 Powerset 是否真的那么牛，但是起码有一点，微软的必应搜索引擎自从收购了 Powerset 的技术以后，再也没有呈现出超越谷歌的趋势。
不过不可否认，Powerset 也是做出了一定的贡献。它在开发语义搜索系统的过程中，需要用到类似于谷歌 BigTable 的系统，但是当时开源的 Hadoop 生态圈却没有，所以 Powerset 自己开发了 HBase。
单纯从这一点来讲，Powerset 就有点让我刮目相看了。HBase 并非是一个简单的系统，最初 Powerset 投进去的人虽然只是个位数，但是它的质量在开源社区里是非常不错的。
所以，如果我们中肯地去评论 Powerset，它做出了 HBase，并且对 Hadoop 生态圈和大数据开源的贡献依然是极为巨大的。所以，无论如何，我们都还是要感谢 Powerset，毕竟，它还是给我们留下了 HBase，这个优质的开源产品。
分享给需要的人，Ta购买本课程，你将得20元
生成海报并分享
赞 4
提建议
088 | Confluent：在Kafka上飞驰的数据交换者
090 | Cassandra和DataStax的故事
 写留言
精选留言(1)

白杨
2019-05-12
powerset hbase
