|
中国IDC圈6月13日报道,越来越多措施员也涌入大数据行业,可是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的,最常引用Victor的4V理论,大量(Volume),快速(Velocity),种类多(Variety),代价(Value),但毕竟多大是大?多快是快?几种算种类多?每小我私家都有本身的概念。最焦点的问题还不在数量和种类,而是代价(Value)。什么是大数据的代价?如何浮现它的代价?如何权衡它的价值 ?它可以或许变现么?如何来变现却是大数据的焦点问题。 做大数据的同学,外面看起来像是红楼梦的大观园一样,外表鲜豁亮丽,身在个中的人,才知道各有各的无奈。大数据的处理惩罚凡是分为,数据收集,数据清洗,数据加工,数据应用,数据可视化。数据收集同学老是诉苦数据源Garbage in, Garbage out的感受,数据清洗的同学总有沙里淘金的感受,数据加工的同学也常常受两端气,对比来说,做数据可视化的同学较量幸运,可以找到许多炫酷的感受,但有不是大数据的主流技能。最难熬的是做大数据应用/变现的同学,不得不靠着忽悠行走江湖。 概念一 :大数据的信息熵值低 1948年,香农提出信息熵的观念,可以用于表述信息的代价,信息熵高的言简意赅,信息熵低的冗余拖沓。今朝,许多大数据的来历都是一些系统的Log,图片,视频等。出格是日志系统数据,数据越来越多,越来越大,个中大部门是牢靠模板的数据,区分度差,信息量并没有跟着数据的增加而线性增加。别的举个例子,之前我们利用胶卷照片的,我们会选择重要的场景,珍惜每一个照片,设计好角度和光圈,此刻有数据相机了,内存近乎无限大了,各人肆无顾忌的自拍,哪怕都是同一个角度,各人照的废片也是一把一把的。同一范例的数据多了,信息熵也就低落了。 概念二:大数据不是银弹,而是蚂蚁效应 大数据应用常见,多见于推荐系统,业务流程优化,医疗,机能优化,预测,金融生意业务等,这些业务在传统的做法上,已经十分依赖于数据了,固然以前不叫大数据,可是也都是数据驱动的业务。数据的局限和种类增多,处理惩罚要领的增多,会徐徐提高这些应用的精准性,这种提高必然是徐徐的,一点一滴的。也许一天两天感受不错来的,可是颠末多年的一连改造,这种结果是显而易见的。 举个例来说,语音识别起始于60年月,基于小型词汇库,在90年月,IBM推出的ViaVoice是语音识此外一个里程碑,基于巨大隐式马尔科夫模子(HMM)可能神经网络算法越发成熟,数据也是基于大量的词汇库,语料库。新闻联播曾经就是ViaVoice中文版本的重要练习语库。固然用了更大的语料库,结果有改造,可是还无法到达实用的水平。2009年今后,借助于互联网语料库的进一步富厚,数据料的增长,远远高出算法的改造水平。语音识别在精确性和实用性获得很大的晋升,用户也不绝利用语音识别反馈更多的数据。以至于,谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ,和他的同事在一篇题为《数据的非理性结果》(The Unreasonable Effectiveness of Data)的文章中写道,“大数据基本上的简朴算法比小数据基本上的巨大算法越发有效。”。大数据正在一步一步的办理一些科技应用困难,譬喻自动驾驶,人工智能等。 概念三:大数据不表明因果干系,只体贴相关性 《大数据时代》中界说了大数据的第三个特征,“不是因果干系,而是相关干系”。沃尔玛通过数据挖掘,发明蛋挞和飓风产物有许多关联性,而且放在一起销售提高销售量。没有人清楚个中的因果干系,虽然,也大概有人牵强的表明,美国人喜欢飓风时期躲在家里吃蛋挞,通过数据我们得到了相关性,可是却不领略个中因果干系。我溘然想起来自于《三体》的降维进攻:许多时候我们在二维世界的相关性,是无法在二维世界举办表明因果的,也许只有在三维可能多维世界才气够表明因果干系,而这种因果干系无法直接领略,只能举办归纳成相关干系。 概念四:大数据资源公司最佳变现是被收购,最直接变现渠道是告白和泛征信 许多专业大数据处事公司的成长都不走上市之路(留意不包罗大数据技能公司),因为他们对付变现的本领和可一连性都有许多记挂,他们也面对高风险的用户隐私挑战,因此许多大数据资源公司的PR事情,远远多于详细落地的数据处事事情。因此,各个专业大数据公司都忙于各类行业洞察陈诉和排行榜,数据可视化的事情一个比一个炫丽,一个比一个追热点。谈到大数据公司的变现,许多公司会提到“数据处事”,实际上数据处事的市场相对不变,并没有因为大数据公司的成长而市场膨胀,因此“数据处事”实际上是一个明明的“僧多粥少”的状态,别的老牌的数据公司,譬喻Nielson等在客户利便照旧有必然的优势。 |














