今天首席CTO笔记来给各位分享关于大数据时代多久过去的相关内容,其中也会对大数据时代到来的时间进行详细介绍,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
本文目录一览:
1、大数据元年是指哪一年2、“大数据”时代到来了么3、大数据时代发展历程是什么?4、大数据时代预言家:互联网将把人类带向何处5、2000年大数据时代到来对吗6、什么是大数据时代?大数据元年是指哪一年
2013年
数据就是资源
信息爆炸推动媒体转型
大数据并不是一个新概念,但大数据时代却是伴随着近年来信息爆炸式增长而来。
互联网上,每天新浪微博用户发博量超过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB……
数据量的爆发式增长也带来了数据储存方式的革命。“今天我们花不到100美元就可以买到1个T的存储,成本只是10年前的1%。”微软亚太研发集团首席技术官孙博凯说。在2000年,数字化储存的信息只占全球数据量的1/4,而在2007年,所有数据中只有7%是储存在报纸、书籍、图片等媒介上,其余全是数字数据。
“新媒体的本质就是数据分析。我们已经从信息时代走到了数字时代和智能时代,如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识;如果数据能够借助于各种各样的工具在分析的基础之上为我们提供正确的决策,它就是资源。”解放日报报业集团社长尹明华在近日举行的中国传媒大会上说。
大数据时代,信息的内涵已不仅仅是消息等新闻,而是各种各样的数据。这就要求媒体必须适应新的信息生产和传播方式,以多元化媒介来承担信息传播的职能。生产、分析、解读数据,探索一条为受众和用户提供分众化服务和体验的媒体发展之路,将成为媒体竞争的必备技能。
量身打造资讯
媒体转型发展新思路
中国社科院信息化研究中心秘书长姜奇平说,“媒体通过对数据的整合和分析,针对不同的受众需求,满足个性化和专业化的需求。”
腾讯网总编辑陈菊红说:“目前门户网站之间、网络媒体之间同质化非常严重。未来的媒体和门户网站应充分利用大数据和关系链,在为用户筛选、推荐最适合的内容,提供近乎量身打造的新闻资讯的同时,使他们体验社交媒体的感受。”
从理论到实践,大数据的发展为掌握了大量数据源的媒体和门户网站提供了转型的良好契机。过去一年,国内几家大的互联网企业纷纷调整自己的发展战略,迎接大数据时代的到来。
浙报集团去年开始投资数据分析项目,将目光放在了未来社交网络的数据深度挖掘上;优酷和土豆合并,搜索平台可以挖掘和推算出4亿多视频用户的浏览行为数据;搜狐正着手搭建基于云计算的大数据平台,将旗下数据资产全面打通整合,获取每月9亿多人次的用户数据资产;腾讯启用新版首页,并启动门户、微博、视频、无线的跨平台深度整合战略……在云计算、移动互联网等新技术推动下,一场关于数据的圈地运动正在互联网上拉开大幕,竞争日益激烈。
挑战也是机遇
赢得大数据时代的主动权
大数据时代的媒体转型和发展,需要结合自身特色,走一条符合传播规律、符合自身实际、符合受众需求的发展之路。这对媒体既是机遇也是挑战。
大数据考验媒体的战略决策能力。姜奇平说:“数据量的快速增长,需要在带宽和存储设备等基础设施方面加大投入,这令很多媒体进退维谷。”不转型,就会丧失主动权,被淘汰或边缘化;要转型,就要对当前的报道形式和运行体系进行全面改造。这将考验决策者的胆魄和智慧。
媒体应对大数据时代的另一个挑战是数据加工能力的匮乏。专家指出,当前大数据建设缺乏专门的数据分析方法、使用体系和高端专业人才,很多媒体没有专门的数据管理和分析部门和专家。如果软件跟不上,却一窝蜂地投身数据平台的搭建,对媒体长远发展不利。
有媒体担心,在大数据时代的转型道路上,媒体是否会迷失方向,变成咨询公司或是社交网站?
对此,孙博凯说:“老技术既有的投资、数据和价值观,是不可能被新技术全部抹杀的,而是融合、整合到新的业务中去,在更高层次上得以发展。”媒体也应该有这样的信念。只有积极谋略全局,着眼长远,才能赢得大数据时代的主动权。
“大数据”时代到来了么
“大数据”时代到来了么
潮流是一股可笑又可敬的力量:今天,如果打开任何媒体,要是不提“大数据”,恐怕都不好意思出版。 这股潮流,铺天盖地,连国家领导人都不例外。 问题在于:为什么人人言必称大数据?
数据的价值,随着数据量的几何级数增长,已经不再能够通过传统的图表得以显现,这正是为什么商业智能还没来得及流行,便已被“数据分析”挤下舞台。因为,价值隐藏在数据中,需要数据分析方可释放这些价值。数据分析能力的高低,决定了价值发现过程的好坏与成败。可以说,没有数据分析,“大数据”只是一堆IT库存,成本高而收益为零。但是国内热潮的“大数据”概念,目前仍然停留在数据收集、整理、存储和简单报表等几个初级阶段。能够对大数据进行基本分析和运用的,只有少数几个行业的少数企业。关于这一点,我们可以通过谷歌搜索结果来简单揭示这一现状的:
挑选四个关键词,并且分别搜索,并且对搜索结果计数用JMP数据分析软件进行制图:
很明显,英文世界里,“big data”的搜索结果计数比中文世界里的“大数据”搜索结果计数要多了不少; 而“analytics”(分析)的搜索量不仅仅高于“big data”,更是远远高于“分析”在中文世界里的搜索结果,大概是169倍!
这个结果,尽管不能100%还原中国业界对“大数据“和”分析“的重视程度,但仍然可以揭示一个起码的事实:作为大数据概念源头的西方国家尤其是美国业界对于”分析”的重视,远甚于中国业界对分析的关注。
这个来自谷歌搜索的简单分析结果,和我们对于中国企业大数据实施现状的理解不谋而合。
中国式大数据与分析的现状
所谓”大数据分析“,其和”小数据分析“的唯一差别在于数据量以及数据量带来的对于数据存储、查询及分析吞吐量的要求。本质上,”大数据分析“仍然需要通过数据分析来发现现状,找到导致现状的根源要素,并且通过模型与预测分析技术来对改善进行预测与优化,并且实现企业运营各个领域的持续改善与创新。要谈”大数据分析”的中国现状,首先必须深入了解”数据分析“在国内的应用情况。
国内企业,不论是国企还是民企,真正在业务决策中以数据分析结果为依据的,主要集中在银行,保险,电信和电商等几个行业。以IT预算最充沛,人员能力最强的银行为例,目前主要是大型银行在导入数据分析。中小银行尚在观望与学习阶段,人员与能力建设正在起步阶段。数据分析的应用范围主要集中在信用风险、流程优化、市场营销、成本与预算等几个方面,深度尚可,但广度一般,尚未扩充到运营管理的所有领域。
而谈到“大数据”或者数据仓库,上述行业中的绝大多数企业早已实施了各种数据仓库,以管理数据。这种买药再看病的模式,完全本末倒置。数据仓库与数据库不一样,其使命就是为了分析而存在的。没有分析,仓库何用之有? 四大行之一的某大型国有银行,90年代末期就开始花费好几亿元IT预算,建设“数据大集中”项目,受该行影响,其他国内银行掀起了一股数据集中的热潮。而当时连商业智能还是个尚未传入中国IT概念,更遑论数据分析了。15年过去了,这些被集中的数据,还在么?
至于支撑起我国庞大GDP的制造业、建筑业和贸易业,在运用数据分析进行业务决策方面,则尚未见规模。其IT开支仍然主要集中在基础架构与流程化的软件套件领域(如ERP,CRM,HRM, SCM等),部分企业开始导入商业智能(报表、制图、管理驾驶舱),而数据分析应用远远没有进入规模发展阶段。以我国制造业企业为例,从五、六年前开始热炒“六西格玛”、”全面质量管理“,”精益生产“,尽管这些举措对中国制造、中国创造等带来本质变化尚需时日,但是就提升企业决策能力和管理水平而言,这些举措的的确起到了一定的作用,对于中国企业从拍脑袋到用数据决策这一本质转变打下了一个基础。
这一现状的原因,我们认为主要提现在如下几个方面:
1. 企业的权力来源
数据分析才是真正的一把手工程。分析的使命,在于改善决策。决策的第一责任人,也就是企业最高层管理人员。国企,尤其是大型央企,职业经理人体系并不完善,董事长、总经理级别的任命是由组织部门而不是经济部门来决定的。“讲政治”的人事任命体系决定了企业决策的复杂性和特殊性,科学管理方法和决策手段的推广,完全取决于企业最高领导人本身对于这些手段的认可程度。
另外,数据分析带来的不仅仅是分析软件和分析方法论,更需要决策、运营进行相应的改善与调整,我们通常称之为“变革”。 任何变革都会带来相匹配的风险与收益。国企的权力架构和民企、外企非常不同,哪怕总经理决定了要变革,还得征求企业内部各路权力部门的认可与接受,变革的难度导致了我们通常看到和听到的“转型极其艰难”,“身为大家长要对几十万张嘴负责”等煽情苦情的自我表白。不要说数据分析,就连开除几个绩差员工,一不小心就要得罪人,严重了还要危及乌纱帽,改革谈何容易。
相比之下民企和外企在这方面的转变要敏捷、迅速很多。比如苹果,很多年前就开始全球范围导入JMP数据分析平台,在我们的跨国团队的帮助下从搭建数据分析能力、规范数据分析流程、导入高级数据分析方法、直到生产与研发环节的数据分析全球标准化等工作。整个过程长达数年,涉及到庞大的机构、人员、方法、流程的转变,却平稳有序。其间还发生了Steve Jobs辞世,新任CEO上台等足以中断一切的重大企业事件,但导入数据分析能力这一过程丝毫没有受到任何影响。
2. 企业的运营能力储备
能力储备也是个关键要素。哪怕管理层决心一致,雄心壮志,重大变革能否落地,还得取决于团队能否升级与被变化。意志力尽管重要,体能却是个关键。数据分析对于参与者的统计、概率、数学、计算机、业务理解等几个方面的能力要求甚高。尽管“能力是可以培养的”,但是我们在国内这么多年的众多数据分析导入项目中,面临最多的挑战就是人员培训和流程变革。
以电信运营业为例,BOSS系统,各种业务系统和数据仓库搭建了许多年,数据分析对于客户行为的理解与促销产品的层出不穷也使得这个行业的数据分析应用远远超过绝大多数其他行业。但电信业在大规模导入数据分析方面面临的首要问题,仍然是专业人才储备以及与数据分析有关的规章制度、决策流程与文化体系的建立。
我们在市场上看到更多的,是IT部门主导的数据分析项目。项目名称是数据分析,而内容仔细一了解,往往都是数据仓库+企业报表。不是传统财务三表,而是用于展现核心KPI的图表。对“数据分析”不了解,把报表和制图当成“分析”,是这一现状的根源。
3. 市场环节与竞争压力
不同企业对市场竞争的变化是非常不同而有趣的。比如三桶油,建立竞争力的方法,在于找油田、收购加油站,利用垄断性政策优势抬高行业准入门槛。三大电信运营商,若干年前曾经有子公司互相攻击,甚至发展到人员斗殴,割断对方光线网络的事件。而华为与中兴的竞争,若干年前除了口水仗,还有互相挖对方技术团队。
政策性垄断行业,尽管有压力,但是在提升生产力和生产效率的手段方面,改变缓慢而低效。 高度市场化领域,比如家电,汽车,消费电子,华工、医药等领域,对以数据分析为代表的“高级能力”的接受程度则高了不少。
综上所述,我国企业界对于数据分析的应用仍然停留在个别行业与个别应用的阶段。不过,尽管导入数据分析的过程是如此艰难而挫折,我仍然认为,随着我国各行业市场化进程的推动,随着互联网、数据分析技术不断对传统产业的颠覆过程,“数据分析”或者“大数据分析”迟早会成为中国企业界突破藩篱的关键手段。
数据大不大其实一点也不重要
只要是数据,里面必然有故事。与其在能力毫不匹配的情况下片面追求大数据,还不如立即行动起来,从手头、身边保有的小数据当中提取价值,进而为真正的大数据时代的数字化决策打下基础。
从微观角度来看,我们以中国零售及消费品行业为例,看看数据分析在这一领域的应用现状:
概要
公司对分析法的应用日益增多,但还远远不足以捕捉其可能的价值。为了认识到其价值所在,公司应再次将关注重心置于分析法上,构建并应用分析法来确定行动、发掘货架层面的商机。这样,分析法才能满足如今眼光敏锐、关注价值的消费者。
背景
企业内部采用的分析手段是非标准化的,零散的—--例如把图表当分析;
更多地关注数据获取和管理,而不是开展面向客户的预测性建模与数据挖掘。前者是IT工作,后者才是从数据里获取价值的过程
尚未在公司真正地运行或者构建持续的分析能力、分析流程和与数据分析有关的业务与管理决策机制。
而根据我们为中国企业提供JMP数据分析战略拓展与项目支持的多年经验,我们的建议是:
1. 从项目级别的数据分析应用开始,逐渐现成项目组级别的标准化分析流程与业务决策制度。借助项目拓展出有基本分析与应用能力的团队;
2. 将项目分析经验扩展到部门级别,拓展 数据分析—价值获取—业务决策 这一价值链。 根据部门级数据分析应用的需要来开展数据获取和管理。借助部门级引用导入拓展出数据分析与业务决策的流程,以及统一、先进的数据分析平台与业务实践库
3. 从部门级到企业级应用,纵横两个维度都在拓展,需要企业管理层的高度参与与制度支持,推广基于数据分析为核心的文化与模式转变,建立支撑这些变化的长远的数据分析战略
4. 至于数据是不是够大,是不是需要“云计算“,全看业务需要而定!
以上是小编为大家分享的关于“大数据”时代到来了么的相关内容,更多信息可以关注环球青藤分享更多干货
大数据时代发展历程是什么?
大数据技术发展史:大数据的前世今生
今天我们常说的大数据技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大数据分布式计算框架MapReduce和NoSQL数据库系统BigTable。
你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的数据需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个数据库系统。
现在你听到分布式、大数据之类的词,肯定一点儿也不陌生。但你要知道,在2004年那会儿,整个互联网还处于懵懂时代,Google发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。
因为那个时间段,大多数公司的关注点其实还是聚焦在单机上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集群,通过分布式的方式将海量数据存储在这个集群上,然后利用集群上的所有机器进行数据计算。 这样,Google其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就非常厉害了。
当时的天才程序员,也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。
两年后的2006年,Doug Cutting将这些大数据相关的功能从Nutch中分离了出来,然后启动了一个独立的项目专门开发维护大数据技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大数据计算引擎MapReduce。
当我们回顾软件开发的历史,包括我们自己开发的软件,你会发现,有的软件在开发出来以后无人问津或者寥寥数人使用,这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是Windows、Linux、Java,而现在这个名单要加上Hadoop的名字。
如果有时间,你可以简单浏览下Hadoop的代码,这个纯用Java编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技革命,推动了人工智能的发展与进步。
我觉得,我们在做软件开发的时候,也可以多思考一下,我们所开发软件的价值点在哪里?真正需要使用软件实现价值的地方在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为公司创造真正的价值,进而实现自己的人生价值。而不是整天埋头在需求说明文档里,做一个没有思考的代码机器人。
Hadoop发布之后,Yahoo很快就用了起来。大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大数据存储与计算。
2008年,Hadoop正式成为Apache的顶级项目,后来Doug Cutting本人也成为了Apache基金会的主席。自此,Hadoop作为软件开发领域的一颗明星冉冉升起。
同年,专门运营Hadoop的商业公司Cloudera成立,Hadoop得到进一步的商业支持。
这个时候,Yahoo的一些人觉得用MapReduce进行大数据编程太麻烦了,于是便开发了Pig。Pig是一种脚本语言,使用类SQL的语法,开发者可以用Pig脚本描述要对大数据集上进行的操作,Pig经过编译后会生成MapReduce程序,然后在Hadoop上运行。
编写Pig脚本虽然比直接MapReduce编程容易,但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大数据计算,比如说你可以写个Select语句进行数据查询,然后Hive会把SQL语句转化成MapReduce的计算程序。
这样,熟悉数据库的数据分析师和工程师便可以无门槛地使用大数据进行数据分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。据说,2011年的时候,Facebook大数据平台上运行的作业90%都来源于Hive。
随后,众多Hadoop周边产品开始出现,大数据生态体系逐渐形成,其中包括:专门将关系数据库中的数据导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。
在Hadoop早期,MapReduce既是一个执行引擎,又是一个资源调度框架,服务器集群的资源调度管理由MapReduce自己完成。但是这样不利于资源复用,也使得MapReduce非常臃肿。于是一个新项目启动了,将MapReduce执行引擎和资源调度分离开来,这就是Yarn。2012年,Yarn成为一个独立的项目开始运营,随后被各类大数据产品支持,成为大数据平台上最主流的资源调度系统。
同样是在2012年,UC伯克利AMP实验室(Algorithms、Machine和People的缩写)开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质,而2012年的时候,内存已经突破容量和成本限制,成为数据运行过程中主要的存储介质。Spark一经推出,立即受到业界的追捧,并逐步替代MapReduce在企业应用中的地位。
一般说来,像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的数据进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的数据是非在线得到的实时数据,而是历史数据,所以这类计算也被称为大数据离线计算。
而在大数据领域,还有另外一类应用场景,它们需要对实时产生的大量数据进行即时计算,比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大数据流计算,相应地,有Storm、Flink、Spark Streaming等流计算框架来满足此类大数据应用的场景。 流式计算要处理的数据是实时在线产生的数据,所以这类计算也被称为大数据实时计算。
在典型的大数据的业务场景下,数据业务最通用的做法是,采用批处理的技术处理历史全量数据,采用流式计算处理实时新增数据。而像Flink这样的计算引擎,可以同时支持流式计算和批处理计算。
除了大数据批处理和流处理,NoSQL系统处理的主要也是大规模海量数据的存储与访问,所以也被归为大数据技术。 NoSQL曾经在2011年左右非常火爆,涌现出HBase、Cassandra等许多优秀的产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。
我们回顾软件发展的历史会发现,差不多类似功能的软件,它们出现的时间都非常接近,比如Linux和Windows都是在90年代初出现,Java开发中的各类MVC框架也基本都是同期出现,Android和iOS也是前脚后脚问世。2011年前后,各种NoSQL数据库也是层出不群,我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。
事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。
但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的泡沫,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。
正所谓在历史前进的逻辑中前进,在时代发展的潮流中发展。通俗的说,就是要在风口中飞翔。
上面我讲的这些基本上都可以归类为大数据引擎或者大数据框架。而大数据处理的主要应用场景包括数据分析、数据挖掘与机器学习。数据分析主要使用Hive、Spark SQL等SQL引擎完成;数据挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等,内置了主要的机器学习和数据挖掘算法。
此外,大数据要存入分布式文件系统(HDFS),要有序调度MapReduce和Spark作业执行,并能把执行结果写入到各个应用系统的数据库中,还需要有一个大数据平台整合所有这些大数据组件和企业应用系统。
图中的所有这些框架、平台以及相关的算法共同构成了大数据的技术体系,我将会在专栏后面逐个分析,帮你能够对大数据技术原理和应用算法构建起完整的知识体系,进可以专职从事大数据开发,退可以在自己的应用开发中更好地和大数据集成,掌控自己的项目。
希望对您有所帮助!~
大数据时代预言家:互联网将把人类带向何处
大数据时代预言家:互联网将把人类带向何处
21年过去,中国互联网的发展超乎了当年所有人的想象。在信息和数据引领的互联网时代,无论在中国还是世界其他地方,我们历经数载,真的已然掌握了互联网精髓?人类将如何继续发展互联网,还是说,互联网将把人类带向何处?
第二届世界互联网大会昨天在乌镇揭幕,本报独家专访了《大数据时代》的联合作者之一、被誉为“大数据时代预言家”的英国牛津大学网络学院互联网研究所教授维克托·迈尔-舍恩伯格。在长期研究互联网治理与监管的他眼中,网络时代相比人类漫长的历史只是沧海一粟。对于互联网将如何深刻变革人类的经济与社会,我们依旧知之甚少。
没有任何一种科技会绑架我们
“互联网通过给计算机添加通信功能而改变了世界,但多年过去,很多人仍以为互联网只是让沟通变快了些。”迈尔-舍恩伯格说,在研究中他经常发现,在各个行业里,都存在仍旧只把互联网当做与客户快速交流工具的人,并且这样想的人迄今仍不在少数。
但是,这些人无疑是错了。“如果继续这样认为,那么不出几年,这些人就会被市场淘汰。”迈尔-舍恩伯格给出的原因很简单:今天,互联网影响力已经彻底覆盖我们的生活。
既然能耐已经强大到可以无处不在,那么问题就来了——互联网是否已经彻底绑架了我们的生活?随处可见的“低头族”似乎就是最好例证。
不过,迈尔-舍恩伯格表示,这又是人们对互联网的误解,他并不认为人类会对互联网存在过度的依赖。
“没有任何一种科技会绑架我们,只要我们愿意,我们永远是未来的掌控者。”鉴于此,迈尔-舍恩伯格希望人类未来能更加关注事实和数据,用此二者来为经济社会发展做出更好的决策。
事实上,迈尔-舍恩伯格也认同,互联网横空出世后很长一段时间里,都只是一项崭新的技术,并没有“灵魂”,也没有所谓的“互联网精神”。但当“智能”、“数据”等概念逐渐脱颖而出时,互联网的运用也脱离了单纯的技术意义,上升到了新的境界。
大数据究竟是什么
谈到“大数据”,对于这个经常与“互联网”一起打包出现的名词,迈尔-舍恩伯格开门见山地表示,人们对大数据也存在不少误解,最大误解就是“大数据只是一项新技术”。如果用传统的观念去理解大数据,我们不仅会错失大数据自身具备的深刻洞见和巨大优势,甚至会对大数据的分析结果产生错误的理解。
那么大数据究竟是什么?
在迈尔-舍恩伯格与肯尼思·库克耶(《经济学人》数据编辑)共同撰写的《大数据时代》中,他们二人指出,大数据并非某一个确切的概念。最初,大数据的出现是由于某些需要处理的信息量过大,超越了一般计算机在处理数据时能够使用的内存量,因而工程师们必须改进数据处理工具,新处理技术也就孕育而生。
由于互联网公司有能力搜集大量有价值的数据,且背后有强大的利益驱动,所以互联网公司顺理成章地最先成为了最新数据处理技术的使用者。正因如此,很多人担心,掌握了大量数据的互联网公司是否会用现有数据解析其他个人信息,达成某些我们想象不到的商业目的。
迈尔-舍恩伯格表示,据他了解,的确有公司存在滥用数据分析的现象。这也是为何他非常强调通过立法来监管个人信息的使用尤为重要。他表示,一些数据只有在监管严格的情况下才能够被允许使用,而通过法律途径监管数据,远比直接限制或叫停数据流要好得多。
“试想一下,如果能通过分析我的健康数据,为我生病的孩子找到致病成因和治疗方法,这或许是所有人都喜闻乐见的。然而,如果是利用我的健康数据来蓄意提高我的医疗保险成本,这是我要拒绝的。”
他认为,大数据本身并没有错,错误的是使用方法。当互联网的能量愈发强大,我们也就必须更加努力地去避免被诱惑,更敏锐地发现它的美中不足。
人类对于互联网的误读,也部分源自对人类自身的不了解。
任何垄断永远都只是暂时的
虽然迈尔-舍恩伯格认为互联网不会绑架人们的生活,但是互联网“杀掉”了人们更多的时间却是事实。有调查数据显示,BAT(百度、阿里巴巴、腾讯)在中国整个网民的覆盖率里面占到了90%以上,这三家所有APP的时长,加起来占到整个网民消耗时长的50%。
对此,迈尔-舍恩伯格表示:“这种情况在哪儿都一样。”在美国,人们一样每天会有无数时间花在脸书和谷歌上,包括在Youtube(2006年被谷歌收购)长时间观看视频。
“我们唯一需要关心的应该是,会否有下一个百度、阿里巴巴、腾讯诞生。”在任何由创新驱动的行业里,都会出现垄断。但正是因为创新层出不穷,任何垄断永远都只是暂时的。
在美国,许多著名的互联网公司都曾被认为是垄断,但如今他们中的许多影响力都不复以往。
以谷歌街景服务为例,谷歌的图像采集车在许多国家采集了道路和房屋的影像,以及很多备受争议的数据。在一些国家,业主们不希望自家房屋或是花园出现在谷歌街景的影像中,于是谷歌迫不得已,顶着巨大压力,将这些业主的房屋或是花园做了影像模糊处理。但问题是,对于意图犯罪的盗贼来说,这样的马赛克,无异于此地无银三百两。
但是,如果其他公司有一项技术,能同时具备街景的实用,并符合所有人的安全考量,那么谷歌的地位就势必受到挑战——只是,暂时大家还不知晓是否有这样的技术存在。垄断与创新的关系,就是后者对前者的制约。
“只要垄断是暂时的,且创新机遇一直存在,人们就无需担心互联网会发生垄断。”
互联网创业“进场费”远低于以往
2012年撰写《大数据时代》时,迈尔-舍恩伯格和库克耶就提出,如今信息技术变革的重点应该在于信息本身,而不能像过去那样只关注技术。虽然大部分技术专家都认同数据的发展与计算机科技的变革是步调一致的,但今天,好的内容传递已经成为变革真正的推动力。
迈尔-舍恩伯格表示,现在是互联网创业、数据创业的好时代,尤其是在中国。他认为,在BAT三足鼎立的中国互联网格局中,年轻的互联网创业者最需要的就是坚持创新力,有自己的好点子。
事实上,一百年前人们若想创业,需要募集很久的资金才能建造一座工厂。甚至就在十年前,互联网创业者仍需融资多时才能建立一座服务器农场。“然而,今天在大数据时代,创业者需要具备的可能仅仅只是‘一个棒主意’。”迈尔-舍恩伯格说,剩下的创业需求都能以商品价格获得,比如云计算服务。
“也就是说,互联网创业的‘进场费’,在资本层面远低于以往,但对创业内容——‘金点子’的质量要求却不断提高。”迈尔-舍恩伯格表示,这样的现象“简直太好了”。
对于中国目前最炙手可热的“互联网+”,迈尔-舍恩伯格认为这是让数据大显身手的绝佳策略。
他认为,‘互联网+’的思维将任何想得到的事物都尝试与互联网发生联系,这不仅让数据有机会在更广阔的空间发挥作用,对数据搜集来说,也能接触更为多样、广泛的数据源。他说,自己并不认为中国的互联网产业发展过快,更不觉得中国的互联网发展不稳定。“如果真的有什么需要注意,那就是继续保有创新力。”
中国举办世界互联网大会今年已至第二届。迈尔-舍恩伯格说,举办互联网大会是中国向世界各国展示互联网和数字技术发展成就的绝佳机会。他期待大会能更多地关注中国互联网企业家们这些年来的成就,也希望通过这次大会,能帮助中国本土的互联网企业继续保持创新的力量。
互联网世界不存在绝对的安全
谈到互联网风险,无论是2012年著书时,还是现在,迈尔-舍恩伯格说安全问题一直是首要考虑的对象。
谷歌、亚马逊,以及阿里巴巴、华为等,都相继推出了云服务,但庞大的数据存储于这些大公司云端,是否意味着更高的安全性?
“如果有一家公司说自己的云服务绝对安全,那它简直是疯了。”迈尔-舍恩伯格表示,云安全是一个非常宏大的话题,许多互联网公司在不远的将来都必定会投入更多资金和精力在数据安全和服务安全上。因为在互联网世界中,不可能存在绝对安全;即使纵观整个人类历史,也不存在绝对之事,除了每个人都终有一死。
不过,他紧接着指出,大企业的互联网安全技术已经远好于大部分小企业,因为黑客们已经瞄准大企业多年,因而多数大企业的安全系统一直在更新换代。“真正需要担心的是小公司,尤其是一些新近创业的中小企业,他们的网络安全更需要警惕。”
为何互联网安全越来越重要?原因很简单。
迈尔-舍恩伯格表示,当越来越多的交易和人类互动都从线下转移到线上,并且愈发数字化,那么针对互联网世界的犯罪也就随之水涨船高。在互联网世界中,能以非法手段获取的财富远超线下,因而犯罪手法也就愈发复杂。同时,随着互联网技术的复杂和升级,许多小公司(包括国家和地区)的信息安全系统和安全网络已经跟不上当今潮流,不少企业和国家都处于在互联网世界“半裸奔”的状态。相比赫赫有名的大企业们,籍籍无名的小企业才更应该担心正对自己虎视眈眈的互联网风险。
对互联网的盲目崇拜也是风险
对于中国的互联网安全,迈尔-舍恩伯格延续了自己的看法,认为中国只要保持目前对互联网安全的投入趋势就好。
“我担心的反而不是中国这样的互联网大国。”他表示,对于那些互联网产业刚刚兴起的国家,安全问题对于他们来说更为重要。在他看来,正是因为互联网在这些国家还处于刚起步,加之他们对互联网安全的投入相当有限,所以,这些国家就容易成为互联网犯罪的首要潜在攻击对象。
个人信息安全也是互联网安全中最为脆弱的一环。互联网掌握人们的数据越多,个人对自身信息的掌控力就越弱,个人数据被窃取、滥用甚至用于犯罪的可能性也相对越大。
对于滥用大数据的现象,迈尔-舍恩伯格表示,如果的确存在通过大数据分析来欺骗消费者和客户的行为,那么造成这一现象的最主要原因就是买方和卖方的信息不对称。
听起来和线下交易极度相似?但是要注意,互联网诞生的一大使命就是为解决信息不对称的。迈尔-舍恩伯格说,相比线下交易,互联网上的信息不对称能够通过数据传递迅速解决,这是线下商务无法比拟的。因此,只要数据存在,人们在网上交易时,就能通过数据信息了解自己所承担价格是否合理、这笔交易究竟“值不值”。
但是,我们也不得不承认,互联网在为生活提供便利的同时,也让保护隐私的法律手段失去了掌控。
以个人数据安全为例,在《大数据时代》中曾提到,面对大数据,保护隐私的核心技术不再适用。同时,从大数据本身和大数据分析结果获益的人,可能会将大数据放到并不适用的领域,还可能过分夸大、人为提升对大数据分析结果的信赖。当然,最坏的结果,就是将大数据用于犯罪。
此外,迈尔-舍恩伯格表示,还有一大风险正在形成,但还来得及避免的,那就是对互联网的盲目崇拜。因为,互联网并不是那么的无所不能。
精确性不再是探索世界的重心
2012年,维克托·迈尔-舍恩伯格和《大数据时代》 的另一位作者肯尼思·库克耶意识到,世界上最富创新力的企业正越来越重视数据,并且数据已不再是交易的副产品,而是能增加新思维和经济效益的宝贵资源。所以,两人决定撰写一本关于大数据的书。
迈尔-舍恩伯格说,书中并不存在哪一个部分是对中国或是其他任何一个单一国家特别重要的,也不存在哪一个章节比其他更重要。“因为只有当所有概念融合在一起,这本书才有意义。”他说,如果《大数据时代》要再版,原书中没有内容需要删去,只是会多增加一些实际案例,可能会增加一章,专门讲述大数据在这三年来已经如何影响和改变各个经济领域。
谈到大数据在互联网中的运用,迈尔-舍恩伯格认为,通过互联网,大数据对人类最大的影响或许就是改变了人类探索世界的方法,而这一改变的影响力还将持续下去。
比如,人们在脸书上看到有人发了新消息,下面都会有一个“喜欢”按钮来点赞,同时也能看到有多少人也喜欢这条消息。当数量不多时,会显示诸如“13”、“109”这样的精确数字;而当点赞数量庞大时,反而只会显示一个近似值,如“6000”、“41k(41000,k表示千)”。脸书系统并非不知道确切点赞人数是多少,而是当持有相同观点的人数变得颇具规模后,具体数字已经不再重要。人们已经得到结论,并能就此趋势做出相应的判断。
两位作者在《大数据时代》中提到,谷歌的翻译之所以比其他公司的翻译服务更好,并非谷歌拥有更好的算法机制,而是增加了各式各样看似无用,甚至是错误的数据。2006年,谷歌发布的上万亿的语料库,正是来自互联网的一些“无用”的内容。而谷歌将此作为“训练集”,使谷歌翻译服务能够正确推算出英语词汇搭配的更多可能性。
可以说,谷歌的这一尝试与数据、算法已经没有特别大关联。事实上,当年的这一尝试,恰好体现了如今在中国最常被提起的“互联网思维”。如同网络新闻可以不断被更新,甚至修改,互联网的一大重要特质就是容错。当精确性不再是我们探索世界的重心,我们就必须学会接受混乱和错误的存在。“人们正变得更侧重于分析不同事物间的相关性,而不再寻求每个预测背后的原因。”迈尔-舍恩伯格说。
对于中国互联网,尤其是发展堪比宇宙速度的电商产业,迈尔-舍恩伯格说,这基本在他的预料之中,因为中国广袤的市场和消费者基数给予了电子商务发展的理想环境。任何一个新点子,或是新产品,都能通过互联网迅速传达给十亿潜在消费者,而这十亿人又说着同一种语言,生活在同一个法律体系中。
这意味着什么?“意味着只需要一晚,甚至更短时间,好的想法、好的产品,就能让亿万人知道。”这在其他任何一个国家都无法想象,也是无法达到的规模。
三年前,迈尔-舍恩伯格和库克耶曾表示,当人类准备开发电子商务、寓生活于互联网、进入计算机时代或者拿起算盘时,这些行为的产生比背后存在的问题更加重要。
三年过去,互联网世界的变化速度与日俱增,但万变之中有一点不曾变过。“通过互联网,大数据将改变一切,可能超越我们所有人的想象。”
2000年大数据时代到来对吗
“2000年大数据时代到来”是错的。2014年大数据时代到来。
进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。
提出者
最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。
什么是大数据时代?
大数据是互联网发展到一定阶段的必然产物,由于互联网在资源整合方面的能力在不断增强,互联网本身必须通过数据来体现出自身的价值,所以从这个角度来看,大数据正在充当互联网价值的体现者。
随着更多的社会资源进行网络化和数据化改造,大数据所能承载的价值也必将不断提到提高,大数据的应用边界也会不断得到拓展,所以在未来的网络化时代,大数据自身不仅能够代表价值,大数据自身更是能够创造价值。
但是只有技术支撑,还不足以引起大数据时代的到来,另外一个重要因素,就是数据产生方式的变革,数据产生的方式在过去这些年经历了三个阶段:
第一阶段,运营式系统阶段。在上世纪七八十年代,用户购物时产生的记录一条条输入数据库,当时都是由这些运营系统生成这些数据的。
第二阶段,由用户原创内容阶段。2002年的时候,开始有了博客,后来发展成微博,到后来出现的微信,这些让每个网民都成了自媒体,都可以自己随心所欲地向网络发布相关的信息,这个时候数据产生的速度要远远大于之前的仅仅由运营系统产生的数据。
第三阶段,感知式系统阶段。真正让大数据时代由量变到质变是因为数据产生的方式到了第三个阶段——感知式系统阶段。
感知式系统阶段也就是物联网的大规模普及,物联网的迅速发展让大数据时代最终到来。
结语:以上就是首席CTO笔记为大家介绍的关于大数据时代多久过去和大数据时代到来的时间的全部内容了,希望对大家有所帮助,如果你还想了解更多这方面的信息,记得收藏关注本站。