|
我们对Facebook、Amazon、Airbnb、Pinterest和Netflix数据团队所做的事感情触惊奇。他们为软件和企业从数据中获取信息而拟定了新尺度。由于他们的产物用户量极大,所以这些团队必需不绝地界说局限阐明的要领。他们已经在数据架构中投入了数百万美元,而且在大大都公司中,数据团队的局限高出了整个工程部分的局限。 我们成立了Keen IO,是为了以让大大都软件工程团队无需从新架设所有内容,就可以操作最新的大型事件数据技能。可是,假如您对如何成为巨头公司感想好奇,那么请从最好的公司中收集一些架构。 Netflix Netflix拥有9300万用户,没有交互缺陷。正如他们的工程团队在Netflix数据管道的演变中描写的那样,他们天天约莫捕捉5000亿个事件,天天约莫有1.3PB的数据传输。在岑岭时段,他们每秒将记录800万次事件。他们招聘了100多个数据工程师或阐明师。 以下是上述文章中数据架构的简化视图,个中显示:开源系统ApacheKafka,搜索处事器ElasticSearch,亚马逊云存储处事AWSS3,举办大数据处理惩罚的ApacheSpark,运行框架ApacheHadoop和大数据阐明处事EMR作为主要组件。 拥有高出10亿的活泼用户,Facebook有世界上最大的数据客栈之一,存储高出300PB。该数据被用于遍及的应用:从传统的批处理惩罚到图形阐明,呆板进修和及时交互式阐明。为了举办大局限的交互式查询,Facebook的工程师发现了Presto,一种针对点对点阐明举办优化的定制漫衍式的SQL查询引擎。天天有1000多名Facebook员工利用Presto,通过Hive、HBase和Scribe的可插拔后端数据存储,天天执行查询次数高出30000次。 体系布局 后端数据存储 Airbnb Airbnb支持高出1亿用户欣赏200多万的衡宇列表。他们智能地向这些用户提供新的观光发起的本领,这对他们的生长有很大影响。Airbnb的数据科学司理Elena Grewal在去年的集会会议“成立一个世界级的阐明团队”上提到,他们已经将Airbnb的数据团队扩展到拥有30多名工程师的局限。这是每人每年500万的投资。 AirbnbEng修建师James Mayfield、Krishna Puttaswamy、Swaroop Jagadish和Kevin Longdescribe描写了构建数据布局的根基要素以及如作甚要害任务数据提供更高的靠得住性。他们严重依赖Hive和Apache Spark,并利用了Facebook的Presto。 AIRBNB的数据基本布局 Pinterest每月有高出1亿的用户欣赏高出100亿的网页欣赏量。停止2015年,他们将数据团队扩展到拥有250多名工程师的局限。他们的基本设施依赖于开源系统ApacheKafka,数据处理惩罚框架Storm,系统基本架构Hadoop,开源数据库HBase和GPU渲染器Redshift。 数据管道布局图 Pinterest团队不只需要追踪大量客户相关的数据。像其他社交平台一样,他们还需要向告白商提供具体的阐明。黄彤波在《Behindthe Pins:Building Analytics at Pinterest》一文中写道:为了满意这一需求,他们改造了本身的阐明仓库。以下是Pinterest团队如何利用Apache Kafka,AWSS3和HBase的示意图: Pinterest贸易数据阐明布局图 Twitter/Crashlytics 天天及时处理惩罚50亿次集会会议。EdSolovey先容了Crashlytics Answers团队构建的一些架构,用于处理惩罚数十亿的日常移动设备事件。 信息流吸收 存储 批处理惩罚计较 加快计较 总览 正如我之前提到的,我们构建了Keen数据接口(API),以便任何开拓人员都可以利用世界一流的数据架构,而无需拥有一个复杂的团队构建一大堆基本架构。成千上万的工程团队利用Keen的API来捕捉、阐明、流式传输和嵌入事件数据,包罗及时和批处理惩罚应用措施。固然利用Keen的开拓人员在发送事件或运行查询时不需要知道幕后产生的环境,但下面是处理惩罚其请求的体系布局: Keen IO信息处理惩罚布局图 |














