大数据的前世今生 |
|||
来源: | 发布时间:2015年05月19日|||
摘要:
|
|||
什么是大数据(big data)?它在百度百科上的概念是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。 这 个晦涩难懂的概念用一个例子就能说清,刘邦为什么能战胜项羽?在历史的角度上原因很多,但从今天的话题来看,因为刘邦掌握了“大数据”。刘邦的队伍进入咸 阳后,萧何将秦朝有关国家户籍、地形、法令等图书档案一律收走。这些秦朝的律令图书档案就相当于大数据,使刘邦对天下的关塞险要、户口多寡、强弱形势、风 俗民情等了如指掌,从而制定了正确的方针政策和律令制度,找到了可靠的依据,对日后打败项羽、西汉政权的建立和巩固,起到了巨大的作用。这个故事看似不太 着边际,却一目了然的解释了“大数据”的作用。 而在网络时代的当下,大数据的数量规模、复杂程度早已不是人工可以掌握的, 这个数据量有多大?举一个直观的例子:每天互联网上要发出2940亿封邮件,200万篇博客,1288个新应用可供下载,数据流量可以刻1.68亿张 DVD光盘。如此数量巨大、结构复杂、类型众多数据构成的数据集合,只有基于云计算的数据处理与应用模式下,通过数据的整合共享,交叉复用,才能形成智力 资源和知识服务能力。 讲到这里,很多概念性的名词蹦出,比如“云计算、云平台”,恐怕有很多人不明白其含义,以及大数据的产生的背景和演变的过程,大数据应用的知识和常识以对社会发展产生的革命性变化等。对此我们专访了中金数据系统有限公司云计算研发部副总监关懿新。 什么是大数据 “大数据并非新鲜事物,它早就存在,以前在软件行业,叫数据挖掘,企业通过报表、分析、图表、走向趋势、生产量分析其中的关系,发掘出能反映的问题,数据挖掘更多体现在传统的软件应用里面,只不过大家不太注意。”关懿新说道。 其实大数据并非一个确切的概念。最初这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生。 “大 数据的发掘能够被广泛应用也是因为技术的进步,使得海量的计算资源可以被计算。最早因为谷歌搜索引擎的崛起,建立一套不对外的海量数据处理平台 MapReduce,后来开源的软件仿照它的理论做了Hadoop平台。国内最早的巨型机,比如银河机、天河机也是非常昂贵。”关懿新进一步说到,随着互 联网的发展,这些技术使得人们可以处理的数据大大增加。而且这些数据不再需要用传统的数据库表格来整齐地排列,一些可以消除僵化的层次机构和一致性的技术 出现,互联网公司可以收集大量更有价值的数据。 2011年5月,麦肯锡全球研究院发布了名为《大数据:创新、竞争和生产力的 下一个前沿》的研究报告,报告中指出大数据将成为企业的核心资产,对大数据的分析将成为竞争的关键,并会引发新一轮生产力的增长与创新,对海量数据的有效 利用将成为企业在竞争中取胜的最有利武器。麦肯锡还预测通过对大数据的合理使用可以使零售业的经营利润提高60%以上。 麦肯锡的报告发出后,大数据的概念迅速得到了IT界的热捧。 随着平台逐步的成熟,当这些数据进入商用,互联网公司顺利成章地 成为了最新处理技术的领头羊,他们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。这仅仅是一个开始,当大数据时代进入了我们的生活,在 各行各业遍地开花的时候,正式开启了重大的时代转型。到今天“大数据”的概念已经在业界内外和大众媒体上沸沸扬扬地广为传播,并不断涌现出这个方向上的努 力与创新。 云计算与云平台 云计算的概念最早出现在2006年,在当年8月举行的搜索引擎战略大会上,谷歌CEO施密特在回答主持人提问的时候,第一次使用了“云”(cloud)这个词来描述他的服务器。 其 实这样的想法由来已久。早在1995年,为了对抗快速崛起的微软,甲骨文(Oracle)公司的CEO拉里?埃里森就推出了一款名为“网络计算机”的设 备,当时售价500美元,不需要安装微软的操作系统就可以使用。埃里森揶揄道:“个人电脑(PC)是一种可笑的设备。”他设想这样一台设备,可以像插入插 座获得电力一样,即插就能获得数据。但是,这款设备生不逢时,很快就退出了市场,因为当时的网络传输速度极慢,产生的数据也没有那么大,在自家的电脑上就 可以轻松完成。但是,埃里森的这个想法却深深地影响了硅谷,奠定了现在云计算的雏形。 近几年云计算作为一个时髦的名词,在商界、学术界甚至政府界都拼命的在各自的产品、技术、报告和文件中与之关联。一时间,云存储、云手机、云电脑等概念甚嚣尘上,但始终有种云里雾里的感觉。 “云 计算是把大量的数据资源架构在互联网上,或者说是云端,一个你看不到,但是能够给你提供服务、能够调动大量的计算机资源给你提供服务的地方。比如说你需要 这种服务,需要十台计算机或者一百台计算机,但你不需要把计算机都买过来,云计算是可以提供大规模的计算机,远程地为你提供服务。”关懿新解释道。 云计算能够提供可弹性的计算资源在商业上为客户进行服务。中金曾经为某三维动画制作公司做3D效果的渲染,因为这家公司做完这部片子就不再需要这个服务,所以不打算购买计算机但可以租用了中金的计算机的服务。 “客户根据需要多长时间、多少台机器来付费就可以了。这样的服务在互联网企业刚起步的时候,需要的资源比较少,可以租少量的服务器,随着业务的快速扩张,可以从云端租用大量的服务器来支撑他们的业务。”关懿新说:“这样比自己购买计算机省下了一大笔钱和精力。” 云 平台是海量计算机管理的平台,它是虚拟的平台,且灵活可变,在中金数据系统有限公司采访时,记者看到了机房里一台台服务器,云平台的概念是用一个软件把这 一百台服务器管理起来,需要计算的时候就在上面产生一台虚拟机器,而这台机器所用的CPU是下面一百台物理机提供的。因为一台物理机可以根据它的能力产生 若干台虚拟的计算机,所以客户可以根据需求来定制这台虚拟计算机来提供服务,服务完成之后这台虚拟计算机就自动消掉了。 云平 台分为几个层次,IAAS基础层是虚拟机一层,负责动态管理物理资源,PAAS平台层提供更基础的软件层,一般面向开发商,提供报表、数据分析、数据库的 服务。SAAS是软件层,直接提供软件服务,为客户直接从手机端、PC端提供服务,客户直接从软件上看到结果。比如舆情服务、信息推荐等。 大数据与云计算 大 数据催生了云计算,反过来,云计算又进一步激发了人们对大数据的认识。从表面上看,大数据和云计算是两个完全不同的概念,从技术上看,大数据与云计算的关 系就像一对完美搭档,二者存在很多的交集,相互依赖。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但 它必须依托云计算的分布式处理。 大数据的出现,为云计算提供了释放能量的空间,也指明了云计算真正有价值的方向。大数据对云 环境有着很高的依赖,云计算不仅大大提高了企业处理大数据的计算能力,而且不需要投入和管理过多的硬件设备,按照需要进行付费,有效地优化现有的资源。从 这一层意义上来说,云计算为大数据提供了保管的场所和畅通的访问渠道。大数据作为企业的核心资产,对其进行有效的盘活,发掘出其在商业决策中的巨大价值是 云计算的内在灵魂和必然的升级方向。 “互联网公司通过云计算为企业提供服务,近些年在全国建立了很多数据中心,当时提倡的概 念是集约化建设。通过建设集中的数据中心之后,很多单位只需要租用数据中心的服务。”关懿新打了个比方:“简单说,原来各个单位都在建小机房,后来集中成 一个大机房,提供动态的资源分配为各个单位服务。” 逐渐这个概念得到推广,政府把原来只是在IT界的“云计算”推广得更大、 更远,开始建设云计算中心。“大约从2010年开始,云计算的计算能力升级,能够把若干台机器统一管理,进行大规模的运算,能对海量的数据进行运算。于是 互联网公司把数据挖掘应用的更加广泛。云计算中心分为几种,一种是私有云,在政府或企业范围内建作内部使用;一种是公有云,在互联网企业界,比如微软、谷 歌、阿里巴巴等,公众可以访问,但云计算的安全性、可用性以及成本等方面仍存在诸多的疑虑;另一种是混合云,就是把私有云和公有云混合在一起。”关懿新说 道:“当大数据和百姓的衣食住行息息相关时,是它推广速度最快的时候。比如前一段出现的腾讯推出的嘀嘀打车、平安推出的网络保险,就是基于大数据的分析和 挖掘,对数据进行分析,推算出用户的需求,产生商业的应用来影响到每个人的生活。” “什么是大数据?”当我们再回头思考时,这个问题看似简单,却也很难回答。仁者见仁,智者见智,有人说,大数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。也有人说大数据像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而大部分隐藏在表面之下…… 大数据不仅是一个技术,未来或许将成为一个行业,依然让人琢磨不透,这就是大数据的魅力。 |
|||
|