|
在大型企业中担保业务数据的一致性是一个很是棘手的问题。一般来说,如跨国型公司的客户或产物相关数据,往往有多个来历。这就导致了,有时纵然是最简朴的问题也很难答复。在此环境下,数据集成大概是成为一种办理步伐。 数据集成为组织提供了存储在多个数据源中数据的统一视图,而提取、转换和加载(ETL)技能就是数据集成的早期实验。 利用ETL,可以从多个源事务系统提取、转换和加载数据到单个位置,譬喻公司数据客栈。提取和加载部门相对机器,但转换部门不那么容易。为了实现这一点,您需要对业务法则举办界说,来表明哪些转换是有效的。 ETL与数据集成之间的一个主要区别是,数据集成是一个更遍及的规模。它大概还包罗数据质量和界说主引用数据的进程,譬喻在公司范畴内界说客户、产物、供给商和其他与业务事务提供有关的要害信息。 数据分类与一致性 下面我们看一个例子。一个大的营业公司大概需要从几个条理对产物和客户举办分类,以分段分层展开营销勾当。对付该公司旗下局限较小的子公司,则可以通过简朴的产物和客户分类条理布局来实现这一点。在这个例子中,局限更大的组织大概将一罐可乐归类为碳酸饮料、一种饮料、食品和饮料销售的一部门。然而,较小的子公司大概会把同样的可乐归入食品和饮料销售,而没有中间的分类。这就是为什么需要分类的一致性——可能至少是对差此外领略——来得到公司整体销售的全局视图的原因。 不幸的是,知道你在和谁经商并不老是那么简朴。譬喻,Shell U.K.是石油巨头Royal Dutch Shell公司的子公司。像Aera Energy和Bonny Gas Transport这样的公司都是Shell公司的实体,有些尚有其他投资者。因此,与这些公司举办的业务生意业务,需要作为客户添加到Shell公司的全局视图中,可是从公司名称来看,这种干系并不明明。 著名投资银行副总裁曾汇报笔者,他们不知道本身在全球范畴内做了几多业务,譬喻,德意志银行(Deutsche bank),更不消说企业是否盈利,这些问题的谜底埋在各类全球性投资银行部分的系统内。 数据质量问题 ETL技能是办理这个问题的早期实验。但要正确得到转换步调,您需要界说业务法则,拟定什么样的转换是有效的——譬喻,如何汇总销售事务或映射一个数据库字段,当“m”用于界说男性顾主,而“male”用于另一个寄义时。技能的成长对这一进程是有辅佐的。 事实证明,实现集成化的数据比ETL和数据集成自己更遍及。数据质量也是一个重要因素。假如发明客户或产物文件中有反复的内容怎么办?在笔者参加的一个项目中,有80%的客户记录都是反复的。这意味着,该公司的贸易客户数量只有它认为的五分之一。 在原质料中,主文件的反复率凡是是20%到30%。当举办公司概述,需要汇总数据时,应该消除这些异常环境。 不绝增长的数据量 尽量数据集成对大公司来说有其优势,但也不是没有挑战。如公司发生的非布局化数据的一连增长。 并且,由于数据以差异的名目生存——传感器数据、web日志、呼唤记录、文档、图像和视频——ETL东西在这种情况中大概是无效的,因为它们在设计时并没有思量到这些因素。当存在大量数据或大数据时,这些东西也会碰着坚苦。如Apache Kafka等雷同东西,试图通过及时流数据来办理这个问题,这使他们可以或许降服以前的动静总线要领对及时数据集成的限制。 从早期的ETL到此刻,数据集成的相关技能、理念已经产生了很大的变革。但仍需要继承保持不绝进化,以跟上企业一连变革的需求和大数据时代下不绝涌现的新型挑战。 |














