导读:很多朋友问到关于大数据数据量有多少合适的相关问题,本文首席CTO笔记就来为大家做个详细解答,供大家参考,希望对大家有所帮助!一起来看看吧!
《信息论40讲》信息的应用2——大数据和互联网广告
——吴军《信息论40讲》读书笔记
这一部分主要介绍信息论的应用。本节介绍一下大数据和互联网广告。
1、从四个特征把握大数据的本质
美图秀秀修图和使用华为手机照相都是使用大数据的结果。
怎样才能练就一双火眼金睛,判断一个公司是否在真的使用大数据呢?那就从大数据的特征说起。
首先,大数据要求数据量大,这一点大家没有疑问。数据量小一定不符合大数据的原则。至于数据量多大合适,我们在前面介绍了置信度的概念,数据至少要大到让统计的结果具有非常高的置信度。
其次,大数据需要具有多维度的特征,而且各个维度最好是正交的。
第三个特征是数据的完备性。它在过去常常被人忽略,因为人类过去使用数据,都是采用抽样的办法来获取,根本不可能做到完备。今天情况就不同了,因为收集数据的设备无所不在,我们也在有意无意向它输送数据,因此获得完备的信息完全可能,这样一来就堵住了采用数据作预测的死角。
第四个特征是大数据还需要具有实时性,因为在那些应用场景,一定时间过了,数据就失去意义了。
2、在未来的时代,有三类企业会受益于大数据。 大数据的威力大家都看到了,那么可能有人要问,有了大数据,我原来从事的行业是否会消失?其实大部分行业不会很快消失,但是可能会以另一种形式出现。消除数据之间的矛盾,也需要领域知识。因此在一个行业里从业很长时间,具有专业知识的人,不仅不会被大数据取代,而且有可能利用好大数据,在事业上更上一层楼。在未来的时代,有三类企业会受益于大数据。
第一类企业是类似于腾讯、阿里巴巴或者今日头条的公司,它们自己有数据,有技术,有应用场景,不需外人帮忙。
第二类企业有数据没有技术,包括很多大企业,比如移动通讯运营商、传统的银行和零售业等等,它们需要外人帮忙,但是通常出于保护自己利益的考虑,不会和第一类公司合作。这里面的专业人士,就能够解决上面数据冲突,以及将行业内不同维度的数据联系起来的问题。
第三类企业缺乏数据,但是有技术,于是它们需要为第二类企业解决实际问题。当然,在解决问题的过程中,它们或许能够进入很多领域,逐渐成为新的平台性公司,比如美国著名的大数据公司Splunk就是这么一步步发展起来的,它今天的市值高达200亿美元。但是在一开始,这类公司一定是做脏活累活。
3、大数据思维的四个层次
我们过去说,量变会带来质变,那常常是在一个维度上说的,而今天我们说大数据思维,已经超出了这一层含义,是一种全新的思维方式和做事情的方法。
大数据思维的第一层含义:从大量的、看似杂乱无章的数据点,总结出原来找不到的相关性。
大数据思维的第二层含义:不事先作假定,从大数据出发先得到结论,再分析原因。
大数据思维的第三层含义:利用大数据在准确把控宏观规律的同时,精确到每一个细节。
大数据思维的第四层含义:是通过几个维度的强相关性,替代过去的因果关系。
大数据思维的四个层次,它们层层递进,希望大家记在心里,想想自己如何具有大数据思维。
1、Google的广告系统利用的是用户主动输入的信息
用户自己主动输入的信息最为有效,因为任何时候,人总是喜欢买东西,不喜欢被卖东西。任何推送都比不上用户主动的请求更有效。
2、人对各种东西喜好的差异比我们通常想的要小很多
个性化服务的本质就是寻找每一个人和整个群体在喜好上的差异程度,我们可以用交叉熵来定量衡量它。维度分得越细,个性化特点越突出。但是,人对各种东西喜好的差异比我们通常想的要小很多。
今天有很多不重视底层技术和信息理论的创业者,天真地以为自己做了点个性化的事情,就可以对现有的行业竞争者取得碾压性的优势,这只是他们自己的想象。
Google一直强调,没有数据就得不出任何结论,道理是相通的。在信息时代,为什么我们要了解信息论最基本的原理?就是要能够判断做事情的方向是否正确,以免像一些公司那样,死都不知道是怎么死的。
3、使用正交、可叠加信息有很大的作用
这才是Facebook成功的根本原因。
4、离达成交易的环节越短,广告的效果越有效。
大部分媒体,包括门户网站上的信息,只是提供普通信息,它们离购买最远,因此广告的效果最差。社交网络的信息和Google搜索的信息属于第二、第三阶段的,离购买越来越近,广告的效果也就越来越好,电商上的属于最后一环,效果最好。我在很多场合讲,做人做事要直截了当,效果最好,不要拐弯抹角,就是这个道理。
什么样的数据量叫大数据?
分好多类吧;比如某计算天体运动的程序要计算几百位的浮点数据运算;虽然数据体积不大;但是计算过程很占资源
再比如,某网站要在1秒内相应上万个用户的登陆请求;这个数据体积也不大,但是要求即时响应速度;
再比如;某服务器需要备份数据库,备份大小达到几十个G;这个是一般意义上的大数据
在大数据时代,多大的数据量可以被称为大数据
我在比比鲸上看过他们的大数据,数据确实够大,包涵了10多家网站的所有信息,而且对于每个行业还有行业报告
“大数据” 到底有多大
在很多人的眼里大数据可能是一个很模糊的概念,但是,在日常生活中大数据有离我们很近,我们无时无刻不再享受着大数据所给我们带来的便利,个性化,人性化。全面的了解大数据我们应该从四个方面简单了解。定义,结构特点,我们身边有哪些大数据,大数据带来了什么,这四个方面了解。
那么“大数据”到底是什么呢?
在麦肯锡全球研究所给出的定义中指出:大数据即是一种规模大到在获取,存储,管理,分析方面大大超出了传统数据库软件工具能力范围的数据集合。简单而言大数据是数据多到爆表。大数据的单位一般以PB衡量。那么PB是多大呢?1GB=1024MB ,1PB=1024GB才足以称为大数据。
如图:
衡量单位一览表
其次,大数据具有什么样的特点和结构呢?
大数据从整体上看分为四个特点,
第一,大量。
衡量单位PB级别,存储内容多。
第二,高速。
大数据需要在获取速度和分析速度上要及时迅速。保证在短时间内更多的人接收到信息。
第二,多样。
数据的来源是各种渠道上获取的,有文本数据,图片数据,视频数据等。因此数据是多种多样的。
第三,价值。
大数据不仅仅拥有本身的信息价值,还拥有商业价值。大数据在结构上还分为:结构化,半结构化,非结构化。结构化简单来讲是数据库,是由二维表来逻辑表达和实现的数据。非结构化即数据结构不规则或不完整,没有预定义的数据模型。由人类产生的数据大部分是非结构化数据。
结语:以上就是首席CTO笔记为大家整理的关于大数据数据量有多少合适的全部内容了,感谢您花时间阅读本站内容,希望对您有所帮助,更多关于大数据数据量有多少合适的相关内容别忘了在本站进行查找喔。