|
为什么许多公司仍在尽力构建从收罗数据到得到洞察力的平稳运行的管道?他们但愿投资和回收呆板进修算法来阐明数据,并做出贸易预测。 可是,不行制止的是,他们应该意识到算法并不是邪术:假如回收的是垃圾数据,得出的就不会是一流的看法。因此,他们雇佣了一些数据科学家,但凡是他们90%的时间都花在数据洁净上,只剩下10%的时间来完成阐明事情。
这个进程的缺点还在于企业喜欢回收终端算法的呆板进修。Tamr公司的连系首创人兼首席执行官Andy Palmer暗示,他们应该在数据早期洁净阶段尽大概地应用呆板进修,而不是依靠事恋人员来处理惩罚复杂的数据集。该公司辅佐组织利用呆板进修打破他们的数据孤岛。 很多公司在大数据收集系统上耗费了大量资金。他们强调的是数据数量而非质量,这是显而易见的。 Palmer说:“任安在大公司事情的人都可以汇报你,他们从大大都内部系统得到的数据很简朴,简朴明白。” Tamr公司连系首创人兼首席技能官Andy Palmer和SiliconSLE Media公司移动直播事情室CUBE的主持人Michael Stonebraker与Dave Vellante和Paul Gillin在会长举办了探讨,他们最近介入了在马萨诸塞州剑桥进行的麻省理工学院CDOIQ研讨会。他们探讨了大数据回收呆板进修技能,以及为什么Tamr认为初创公司会比传统公司提供更好、更具可扩展性的大数据办理方案的原因。 大数据的清理和组织 Palmer和Stonebraker多年来一直存眷大数据技能。早在2007年,他们就预测ApacheHadoop大数据框架不会带来许多人所期望的功效。 Palmer说,“有人说大数据将是一场劫难,这有些太激进了。” 他暗示,这并不是说大数据集欠好,显然大数据是练习阐明模子和人工智能的须要东西。有些人认为,只要数据量够大,其余的阐明某人工智能方面就会到位,但这让许多公司都感想失望。 企业此决心识到数据质量不行忽视。他们还知道,数据科学家不该该耗费80%到90%或更多的时间清理数据,必需回收一种更好、更快的人工智能要领用于阐明数据。 Palmer暗示,其谜底是将呆板进修视为一种很是实用的东西,用于执行这些复杂而无趣的任务。很多供给商利用呆板进修来使预测、推荐引擎等软件的营销更具吸引力。Tamr公司将其用于最不具吸引力的工作:在任何人阐明、预测、营销或销售任何对象之前清理和组织大数据。 呆板进修可以大局限处理惩罚数据 如今,并不缺乏针对数据沼泽问题的发起办理方案。很多科技公司正在推出或更新其原始产物。然而,Stonebraker指出,这些系统中凡是利用的主要技能存在要害缺陷。这些传统技能包罗ETL(提取、转换、加载)系统和主数据打点系统。但其缺点是不能扩展。 ETL基于这样一个前提:明智的企业会为用户想要的所有数据源提供全局数据模子。然后让每个业务部分查察他们得到了哪些数据,如安在全局数据模子中获取数据,将其加载到数据客栈中等等。Stonebraker暗示,人工麋集型流程往往无法扩展。他们凡是会在数据客栈中集成10或20个数据源。 那么这些数据足够吗?以现实世界中的一家公司为例。TAMR公司的客户丰田汽车欧洲(TME)公司在各京城有经销商。假如有人在西班牙买了一辆丰田汽车,然后将其开到法国,那么其在法国的经销商对此一无所知。 总的来说,丰田汽车欧洲(TME)公司拥有250个独立的客户数据库,拥有利用50种语言的4000万笔记录。该公司正在将它们集成到单个客户数据库中,以办理此客户的处事问题。呆板进修提供了一种公道的要领来实现这一方针。Stonebraker说,“我从未见过可以或许处理惩罚这种局限的ETL系统。” Stonebraker表明说,主数据打点(MDM)无法扩展的原因主要是因为它是基于法则的。通用电气公司是Tamr公司的另一家客户,但愿对其生意业务支出举办阐明,该公司在去年有2000万笔生意业务支出,但愿将所有这些分类为基于法则的条理布局。 “所以通用电气公司拟定了500条法则,只回收了18条法则就将2000万笔生意业务中的200万笔举办了分类,但其余的400多条法则并不会像那18条法则那样更快地举办分类。” 他指出,这是收益递减纪律。他说,“企业将不得不写出大量无法领略的法则,假如不利用呆板进修技能,那么将会不堪重负。” |















