首页 资讯 财经 汽车 关注 科技 房产 图片 全国 视频

数据

旗下栏目: 业内 数据 数码 手机

大数据架构面对技能集成的庞大障碍

来源:新闻门户     作者:华夏门户     浏览:次     发布时间:2020-08-07
摘要:企业可以操作Hadoop以及所有与它相关的技能设计大数据情况,以满意其特定的需求。但把所有的技能集成在一起并不……

企业可以操作Hadoop以及所有与它相关的技能设计大数据情况,以满意其特定的需求。但把所有的技能集成在一起并不是一件容易的事。

IT团队寻求构建大数据架构时有大量的技能可供选择,他们可以殽杂搭配各类技能以满意数据处理惩罚和阐明需求。可是有一个问题存在:把所有需要的技能框架组合到一起是一项难题的任务。

在不绝扩展的Hadoop生态系统中,选择和陈设符合的大数据技能是一个恒久重复的进程,周期要以年计。除非公司打点者愿花大量财力和资源来加快敦促项目。选择技能的进程中有失误判定是很常见的,一家公司的架构蓝图不必然合用于另一家组织,即即是完全沟通的行业也不可。

Bryan Lari是美国德克萨斯州大学MD安德森癌症研究中心(位于休斯顿)研究阐明主任,他说:“我常常跟人说,这不是像你在亚马逊下个订单可能从苹果商店买个对象那么简朴的事。这是一件巨大的事,它需要一个进程。我们在半年可能一年之内是做不完的。这也不是可以套用公式就能应用的技能,尽量有许多案例可能用户有乐成履历,但我们也大概用差异的东西来满意我们的需求。”

MD安德森的大数据情况会合在Hadoop集群中,在三月份的时候投入了出产情况,劈头规划用来处理惩罚病人房间监督设备传输返来的重要信号数据。不外,数据湖平台还包罗HBase(与Hadoop共同的NoSQL数据库),Hive(Hadoop支持SQL的软件),尚有各类其他Apache开源技能,譬喻:Pig、Sqoop、Oozie和Zookeeper。另外,这家癌症治疗和研究组织还陈设了Oracle数据客栈作为信息库来支持阐明和报表应用,尚有IBM的Watson认知计较系统提供自然语言处理惩罚和呆板进修成果。将来呈现新的数据可视化、管理和安详东西也一定会参加进来。

MD安德森癌症中心的IT团队在2015年头就开始利用Hadoop。为了演示大概的应用环境同时熟悉该技能,该中心首先利用根基的Apache Hadoop软件构建了试点集群情况。厥后,他们陈设了Hadoop Hortonworks漫衍式架构用于出产情况。

Vamshi Punugoti是MD安德森癌症中兴研究信息系统的副主任,他说从这次试点项目中获得的履历可以使他们处理惩罚架构调解更容易。跟着新的大数据东西呈现,总会有调解架构的大概性,必然需要成果加强可能替换组件。Punugoti说:“这是个一连更新的进程,包罗我们收集到的数据都在不绝变革着。假如我们认为(现有架构)可以处理惩罚一切那就太天真了。”

演进更好的架构

Uber平台工程师团队花了约莫一年时间设计了多层大数据架构,可是这么多技能组件搭建的有点急遽。Uber公司Hadoop团队高级工程师Vinoth Chandar说,该公司的现有系统跟不上业务运营带来的快速增长的数据量。功效,大部门数据不能举办及时阐明,Chandar认为这对付Uber公司建议实质性“及时叫车”理念来说是个大问题。

为了辅佐运营司理实现数据驱动,Chandar和他的同事们搭建了Hadoop数据湖情况,个中包罗HBase、Hive、Spark处理惩罚引擎、Kafka动静行列系统,尚有其它一些技能。个中一些技能是内部构建的,譬喻:有一款数据提取东西Streamific。

有了该架构之后,Uber公司将追赶大数据和阐明的艺术状态。可是,这并不是容易做到的。他半恶作剧地增补说:“为了把这些技能组件整合到一起,我们十小我私家险些一年没有睡觉。”

架构的挑战对付组织来说可不是闹着玩的。Gartner咨询公司预测,到2018年,70%的Hadoop陈设将无法实现他们节省本钱和收入增长的方针,主要原因是技术不敷和技能整合坚苦。Gartner公司阐明师Merv Adrian说,整合障碍还在加剧,Hadoop分发商与大数据技能有关的数字还在稳步攀升,这代表了陈设Hadoop的公司对Hadoop技能支持的需求量趋势。

在2016年太平洋西北地域BI峰会上,Adrian罗列了46种Hadoop相关的开源技能创新,这些产物都是由一家可能多家分发商提供支持处事的。可是,要把这些组件放到大数据架构中却是留给利用方的事情。“大大都Hadoop项目都像是艺术事情,我们都要把这些技能组件整合到一起利用。”

执行进程中的变革

这种整合拼凑事情长短常难题的任务,即便Hadoop不是框架中的一部门。Celtra公司提供了一个平台可以设计在线显示和视频告白,有几部门已经在基于云的处理惩罚架构中连续陈设了,此刻正把Spark及其SQL模块整合到Amazon简朴存储处事(S3)、MySQL干系型数据库和Snowflake计较的数据客栈系统。

Grega Kespret是这家波士顿公司的阐明总监,他说:“我们经验了很多实验和错误。较量有挑战的是要设计一套架构满意业务需求,但还不能太过设计。”他提醒说,假如你做了,大概会以一片杂乱而了却。

责任编辑:华夏门户

热点新闻资讯

首页 | 资讯 | 关注 | 科技 | 财经 | 汽车 | 房产 | 图片 | 视频 | 全国

Copyright © www.msgkpx.com 北京新闻网 版权所有 粤icp备10021497号-9

电脑版 | 移动版