对大数据的八大观点分析-华夏新闻

中国IDC圈6月13日报道，越来越多措施员也涌入大数据行业，可是仔细问一些从业人员什么是大数据?鲜有人知道?就算知道的，最常引用Victor的4V理论，大量(Volume)，快速(Velocity)，种类多(Variety)，代价(Value)，但毕竟多大是大?多快是快?几种算种类多?每小我私家都有本身的概念。最焦点的问题还不在数量和种类，而是代价(Value)。什么是大数据的代价?如何浮现它的代价?如何权衡它的价值 ?它可以或许变现么?如何来变现却是大数据的焦点问题。

做大数据的同学，外面看起来像是红楼梦的大观园一样，外表鲜豁亮丽，身在个中的人，才知道各有各的无奈。大数据的处理惩罚凡是分为，数据收集，数据清洗，数据加工，数据应用，数据可视化。数据收集同学老是诉苦数据源Garbage in, Garbage out的感受，数据清洗的同学总有沙里淘金的感受，数据加工的同学也常常受两端气，对比来说，做数据可视化的同学较量幸运，可以找到许多炫酷的感受，但有不是大数据的主流技能。最难熬的是做大数据应用/变现的同学，不得不靠着忽悠行走江湖。

概念一：大数据的信息熵值低

1948年，香农提出信息熵的观念，可以用于表述信息的代价，信息熵高的言简意赅，信息熵低的冗余拖沓。今朝，许多大数据的来历都是一些系统的Log，图片，视频等。出格是日志系统数据，数据越来越多，越来越大，个中大部门是牢靠模板的数据，区分度差，信息量并没有跟着数据的增加而线性增加。别的举个例子，之前我们利用胶卷照片的，我们会选择重要的场景，珍惜每一个照片，设计好角度和光圈，此刻有数据相机了，内存近乎无限大了，各人肆无顾忌的自拍，哪怕都是同一个角度，各人照的废片也是一把一把的。同一范例的数据多了，信息熵也就低落了。

概念二：大数据不是银弹，而是蚂蚁效应

大数据应用常见，多见于推荐系统，业务流程优化，医疗，机能优化，预测，金融生意业务等，这些业务在传统的做法上，已经十分依赖于数据了，固然以前不叫大数据，可是也都是数据驱动的业务。数据的局限和种类增多，处理惩罚要领的增多，会徐徐提高这些应用的精准性，这种提高必然是徐徐的，一点一滴的。也许一天两天感受不错来的，可是颠末多年的一连改造，这种结果是显而易见的。

举个例来说，语音识别起始于60年月，基于小型词汇库，在90年月，IBM推出的ViaVoice是语音识此外一个里程碑，基于巨大隐式马尔科夫模子(HMM)可能神经网络算法越发成熟，数据也是基于大量的词汇库，语料库。新闻联播曾经就是ViaVoice中文版本的重要练习语库。固然用了更大的语料库，结果有改造，可是还无法到达实用的水平。2009年今后，借助于互联网语料库的进一步富厚，数据料的增长，远远高出算法的改造水平。语音识别在精确性和实用性获得很大的晋升，用户也不绝利用语音识别反馈更多的数据。以至于，谷歌公司人工智能方面的专家彼得·诺维格(Peter Norvig) ，和他的同事在一篇题为《数据的非理性结果》(The Unreasonable Effectiveness of Data)的文章中写道，“大数据基本上的简朴算法比小数据基本上的巨大算法越发有效。”。大数据正在一步一步的办理一些科技应用困难，譬喻自动驾驶，人工智能等。

概念三：大数据不表明因果干系，只体贴相关性

《大数据时代》中界说了大数据的第三个特征，“不是因果干系，而是相关干系”。沃尔玛通过数据挖掘，发明蛋挞和飓风产物有许多关联性，而且放在一起销售提高销售量。没有人清楚个中的因果干系，虽然，也大概有人牵强的表明，美国人喜欢飓风时期躲在家里吃蛋挞，通过数据我们得到了相关性，可是却不领略个中因果干系。我溘然想起来自于《三体》的降维进攻：许多时候我们在二维世界的相关性，是无法在二维世界举办表明因果的，也许只有在三维可能多维世界才气够表明因果干系，而这种因果干系无法直接领略，只能举办归纳成相关干系。

概念四：大数据资源公司最佳变现是被收购，最直接变现渠道是告白和泛征信

许多专业大数据处事公司的成长都不走上市之路(留意不包罗大数据技能公司)，因为他们对付变现的本领和可一连性都有许多记挂，他们也面对高风险的用户隐私挑战，因此许多大数据资源公司的PR事情，远远多于详细落地的数据处事事情。因此，各个专业大数据公司都忙于各类行业洞察陈诉和排行榜，数据可视化的事情一个比一个炫丽，一个比一个追热点。谈到大数据公司的变现，许多公司会提到“数据处事”，实际上数据处事的市场相对不变，并没有因为大数据公司的成长而市场膨胀，因此“数据处事”实际上是一个明明的“僧多粥少”的状态，别的老牌的数据公司，譬喻Nielson等在客户利便照旧有必然的优势。

数据

首页 > 科技 > 数据 >

对大数据的八大观点分析

热点新闻资讯