|
中国IDC圈3月7日报道:在开拓人员开拓Hadoop以降服大数据带来的挑战之后的10年间,这些技能的生态系统在不绝成长壮大。Apache软件基金会下面有浩瀚的开源大数据技能项目。本文先容一些重要项目,并顺便相识几个新兴项目。 打点和阐明大数据已经酿成了重大挑战,数量急剧增加的信息从社交媒体、毗连到物联网中“物件”的传感器、布局化数据、非布局化数据以及可以收集的其他一切数据收集而来。为了应对这项任务,开拓人员已开拓了一系列新的开源技能。 旗舰软件Apache Hadoop是Apache软件基金会的一个项目,它在上个月迎来了十周年。这十年已产生了很大的变革。如今,别的很多技能也是大数据和Hadoop生态系统的一员,它们大大都都归属Apache软件基金会。 开拓人员和企业组织在利用诸多项目,开拓大数据技能,并将它们捐募给开源社区,以便进一步成长和回收,个中就包罗Spark、Hive、HBase和Storm。 在网飞和领英等一些企业,个中一些技能已用于出产情况。它们让企业组织可以或许及时处理惩罚海量数据,并转换那些数据,为最终客户改进处事。 这些大数据技能经常脱胎于试图改进大数据技能的事情方法、加速处理惩罚速度的企业组织。它们代表了生态系统的演变之路和下一波开源技能,这证显着智的参加者构成的社区取得的成长胜过专有企业情况内里的成长。 当前的开源和大数据时代完全始于Hadoop,它经常被誉为是一种面向漫衍式存储的开源框架,用于在普通化硬件上处理惩罚复杂数据集。 Hadoop刊行版公司Hortonworks的企业计谋副总裁Shaun Connolly在接管采访时汇报《信息周刊》杂志:“作为一种新兴的数据架构,Hadoop成为备受瞩目标中心。Hadoop周围呈现了这个生态系统,备受存眷的项目环绕它壮大起来。” 而成长并未止步。新的项目一直被Apache软件基金会纳入到大数据生态系统。最近,Apache Arrow就成了一个顶级项目。其他项目大概会作为Apache软件基金会的孵化器打算(Incubator)的一员而进入生态系统。去年年底,IBM面向Spark的SystemML呆板进修引擎就获得了接管,成为一个孵化器项目。 有很多项目是Apache软件基金会的大数据生态系统的一员。本文先容了一些重要项目,还先容了几个新兴项目。接待留言交换! Hadoop Hadoop其实是开源大数据规模的旗舰技能。它是由雅虎的一个编外项目成长起来的,其时开拓人员需要一种要领来存储和处理惩罚他们利用新的搜索引擎收集而来的海量数据。这项技能最终捐募给了Apache软件基金会。如今有来自商用公司的三大刊行版:Cloudera、Hortonworks和MapR。Hadoop的开拓者之一Doug Cutting最近接管了《信息周刊》杂志的采访,泛论了Hadoop的成长。 Hive Apache Hive最初由Facebook开拓,厥后捐募给了Apache软件基金会。这项技能是一种成立在Hadoop基本上的数据客栈基本设施,提供了数据汇总、查询和阐明。 利用Hive的公司包罗CNET和eHarmony。 HBase Apache HBase脱胎于一家名为Powerset的公司所搞的一个项目,2008年该公司被微软收购。其目标是,处理惩罚海量数据,便于自然语言搜索。这项技能是一种非干系型的开源漫衍式数据库,模拟了谷歌的BigTable,用Java编写而成。2010年,HBase成为Apache软件基金会的一个项目。 如今利用HBase的公司包罗Adobe、Facebook、Meetup和趋势科技。 Spark Apache Spark俨然就是大数据生态系统冉冉升起的明星。这项技能最初由加州大学伯克利分校的AMP尝试室开拓。它可以代替Hadoop的MapReduce,不外速度更快,因为Spark改而利用内存中处理惩罚技能,其机能最多跨越100倍,这取决于详细应用。 Spark的开拓人员此刻供职于Databricks,该公司是支持Apache软件基金会内部这个项目标主力军,它还提供商用的Spark即处事( Spark-as-a-Service)。停止2015年年底,Spark是所有大数据项目中最活泼的开源项目,之前12个月有600多个代码捐募者。 如今很多公司利用Spark,包罗亚马逊、Autodesk、电子港湾、Groupon、OpenTable和TripAdvisor。 Kafka Apache Kafka起初只是领英公司内部的一个项目,作为一种动静通报系统,用于署理布置该公司面向消费者的职业网站及平台生成和处理惩罚的海量及时数据。 2011年,Kafka捐募给了开源社区,2012年从Apache孵化器打算出来。当初开拓Kafka的领英开拓人员成了从领英拆分出来的Confluent这家新公司的成员。 利用Kafka的公司包罗领英、推特、网飞、Pinterest、高盛和Coursera。 Storm Apache Storm在其项目页面上的描写是,这是一种漫衍式及时计较系统,让用户很容易靠得住地处理惩罚无限制的数据流,正如Hadoop用于批量处理惩罚,Storm用于及时处理惩罚。 |














