|
文 | Justin Ellingwood ,译者 大愚若智 简介 大数据是收集、整理、处理惩罚大容量数据集,并从中得到看法所需的非传统计谋和技能的总称。固然处理惩罚数据所需的计较本领或存储容量早已高出一台计较机的上限,但这种计较范例的普遍性、局限,以及代价在最近几年才经验了大局限扩展。 在之前的文章中,我们曾经先容过有关大数据系统的通例观念、处理惩罚进程,以及各类专门术语,本文将先容大数据系统一个最根基的组件:处理惩罚框架。处理惩罚框架认真对系统中的数据举办计较,譬喻处理惩罚从非易失存储中读取的数据,或处理惩罚方才摄入到系统中的数据。数据的计较则是指从大量单一数据点中提取信息和看法的进程。
下文将先容这些框架: 仅批处理惩罚框架: Apache Hadoop 仅流处理惩罚框架: Apache Storm Apache Samza 殽杂框架: Apache Spark Apache Flink 大数据处理惩罚框架是什么? 处理惩罚框架和处理惩罚引擎认真对数据系统中的数据举办计较。固然“引擎”和“框架”之间的区别没有什么权威的界说,但大部门时候可以将前者界说为实际认真处理惩罚数据操纵的组件,后者则可界说为包袱雷同浸染的一系列组件。 譬喻Apache Hadoop可以看作一种以MapReduce作为默认处理惩罚引擎的处理惩罚框架。引擎和框架凡是可以彼此替换或同时利用。譬喻另一个框架Apache Spark可以纳入Hadoop并代替MapReduce。组件之间的这种互操纵性是大数据系统机动性如此之高的原因之一。 固然认真处理惩罚生命周期内这一阶段数据的系统凡是都很巨大,但从广义层面来看它们的方针长短常一致的:通过对数据执行操纵提高领略本领,展现出数据蕴含的模式,并针对巨大互动得到看法。 为了简化这些组件的接头,我们会通过差异处理惩罚框架的设计意图,凭据所处理惩罚的数据状态对其举办分类。一些系统可以用批处理惩罚方法处理惩罚数据,一些系统可以用流方法处理惩罚持续不绝流入系统的数据。另外尚有一些系统可以同时处理惩罚这两类数据。 在深入先容差异实现的指标和结论之前,首先需要对差异处理惩罚范例的观念举办一个简朴的先容。 批处理惩罚系统 批处理惩罚在大数据世界有着悠久的汗青。批处理惩罚主要操纵大容量静态数据集,并在计较进程完成后返回功效。 批处理惩罚模式中利用的数据集凡是切合下列特征… 有界:批处理惩罚数据集代表数据的有限荟萃 耐久:数据凡是始终存储在某种范例的耐久存储位置中 大量:批处理惩罚操纵凡是是处理惩罚极为海量数据集的独一要领 批处理惩罚很是适合需要会见全套记录才气完成的计较事情。譬喻在计较总数僻静均数时,必需将数据集作为一个整体加以处理惩罚,而不能将其视作多笔记录的荟萃。这些操纵要求在计较举办进程中数据维持本身的状态。 需要处理惩罚大量数据的任务凡是最适适用批处理惩罚操纵举办处理惩罚。无论直接从耐久存储设备处理惩罚数据集,或首先将数据集载入内存,批处理惩罚系统在设计进程中就充实思量了数据的量,可提供富裕的处理惩罚资源。由于批处理惩罚在应对大量耐久数据方面的表示极为精彩,因此常常被用于对汗青数据举办阐明。 大量数据的处理惩罚需要支付大量时间,因此批处理惩罚不适合对处理惩罚时间要求较高的场所。 Apache Hadoop Apache Hadoop是一种专用于批处理惩罚的处理惩罚框架。Hadoop是首个在开源社区得到极大存眷的大数据框架。基于谷歌有关海量数据处理惩罚所颁发的多篇论文与履历的Hadoop从头实现了相关算法和组件仓库,让大局限批处理惩罚技能变得更易用。 新版Hadoop包括多个组件,即多个层,通过共同利用可处理惩罚批数据: HDFS:HDFS是一种漫衍式文件系统层,可对集群节点间的存储和复制举办协调。HDFS确保了无法制止的节点妨碍产生后数据依然可用,可将其用作数据来历,可用于存储中间态的处理惩罚功效,并可存储计较的最终功效。 YARN:YARN是Yet Another Resource Negotiator(另一个资源打点器)的缩写,可充当Hadoop仓库的集群协调组件。该组件认真协调并打点底层资源和调治功课的运行。通过充当集群资源的接口,YARN使得用户能在Hadoop集群中利用比以往的迭代方法运行更多范例的事情负载。 MapReduce:MapReduce是Hadoop的原生批处理惩罚引擎。 批处理惩罚模式 Hadoop的处理惩罚成果来自MapReduce引擎。MapReduce的处理惩罚技能切合利用键值对的map、shuffle、reduce算法要求。根基处理惩罚进程包罗: 从HDFS文件系统读取数据集 将数据集拆分成小块并分派给所有可用节点 针对每个节点上的数据子集举办计较(计较的中间态功效会从头写入HDFS) 从头分派中间态功效并凭据键举办分组 通过对每个节点计较的功效举办汇总和组合对每个键的值举办“Reducing” 将计较而来的最终功效从头写入 HDFS 优势和范围 |















