|
导读:移动互联时代,企业都面对着海量数据带来的挑战,有一些企业驯服了海量数据,实现了“存的下、算的出”,但纵然如此,这些企业很少跨过数据掩护的门槛,因为传统数据掩护技能在面临PB级别数据量时,都或多或少的呈现了问题,海潮工程师开拓了分级掩护方案,很好的满意了100PB级此外数据掩护需求。 PB数据量挑战传统数据掩护技能 提到数据掩护和容灾,许多人城市想到备份技能、存储复制技能、数据卷复制技能、数据库日志传输等,可是这些传统技能没法适应海量数据情况。数PB以致数十PB局限的数据,是传统数据掩护技能和容灾技能在设计和形成之初,所不能想象的。这些技能合用于百TB以下数据局限,大大都不能做到及时掩护,容灾数据日常处于离线或不行会见状态,难以满意大数据的应用需求。 委曲陈设这些技能在海量数据情况下,劫难规复、可用性、不变性等技能表示也会大打折扣。拿传统备份技能来说,日常演练/验证,数据需要从头加载,PB级数据情况下,加载时间往往是数天、甚至数周,若容灾数据不能举办有效的日常验证,整个容灾架构的靠得住性和实用性会急剧下降,所以在许多场景中,传统方案仅限于方案,不能实际陈设。 数据分级办理大数据容灾问题 OpenStack、Hadoop、Spark等今朝主流的云和大数据平台,数据靠得住性主要通过存储子系统的副本和纠删码等技能来担保,这些技能只能担保当地数据安详靠得住,没法应对工钱粉碎、物理/逻辑妨碍、站点妨碍等环境,需要增加汗青数据掩护和远间隔容灾掩护。 大数据平台80%阁下都是原始数据,这些数据颠末数据清洗、管理形成平台的尺度资源库数据,这个环节是一个海量数据布局化的进程,随后,按照上层业务应用需求,由尺度资源库快速派生出多个主题库、专题库等,这些数据库就直接对接上层应用了。 海量数据掩护需要在深入相识业务模子和数据属性的技能上,对这些数据举办分级掩护,按照重要水平等技能指标,执行差异的掩护计策,制止了本钱高、技能难落地等实际问题。
数据分级掩护 一个案例——50PB数据的掩护 分级仅是海量数据掩护的方案框架,详细方案需要针对客户的详细应用场景举办设计,所以我们以方才乐成上线的一个案例来具体展开。 该用户的数据量属于超大局限级别,在全省有11个大数据分中心,1个大数据总中心,各其中心收罗本身区域的原始数据,生成当地的尺度资源库,然后按照各自需求生成当地的主题库、专题库等,承接当地上层的应用;同时,各分中心传输当地的尺度资源库至总中心,汇聚为全省的尺度资源库,生成相关主题库、专题库,具备承接全省范畴内业务需求的本领,12其中心数据总量靠近50PB。 数据阐明——50PB数据掩护1PB即可 用户但愿成立有效的容灾机制,防御物理、逻辑、站点等妨碍。按照上文所述的原则,需要先对客户的数据举办分类,按照差异的重要水平采纳差异的数据掩护技能。 首先是原始数据,这些数据可再生,并且据颠末热度会见期后,便成为冷数据,代价低,局限大,不必回收特另外掩护技能;其次是,尺度资源库数据,这些库数据是大数据平台的初次功效数据,含金量很高,是用户大数据情况的焦点数据,不易重建,有很强的数据掩护和容灾需求,然后是种种主题库、专题库等数据,这些库数据由尺度资源库数据颠末二次加工派生出而出,并支持快速重建,产生问题可以在用户要求的RTO(复兴时间方针)内完成重建,因而这类数据也不需要特别容灾掩护。最后则是各中心间冗余数据,显然这些数据不需要容灾掩护 综上,本项目仅需要为总中心的全量尺度资源库数据举办容灾掩护,数据量约1PB。 应用方案——3条传输通路冗余、计较存储疏散 海潮为用户设计了异地容灾方案,将方案凭据客户要求陈设在分数据中心10中。总中心的全量尺度资源库有1PB布局化数据,逐日数据变革量为30TB~50TB,所以,异地容灾架构中数据传输技能要支持高频率周期性传输和及时传输模式,将增量数据复制过来,按照出产情况的压力变革两种传输技能可以机动组合,担保异地容灾大数据平台为在线状态,日常可以及时查询数据、验证数据。所以,容灾数据传输回收ETL定制化东西,这种数据传输技能与大数据平台有着天然的亲和性,高速不变、成熟靠得住,今朝,容灾方案可以担保RPO≤1小时,RTO≤2小时。 |















