大数据概念和特点 |
|||
来源: | 发布时间:2015年05月19日|||
摘要:
|
|||
大数据(big data),指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资 讯。在维克托?迈尔-舍恩伯格及肯尼斯?库克耶编写的《大数据时代》中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。 “大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着Google Map&Reduce和Google File System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。 美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并非单纯指 人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质 的变化,也产生了海量的数据信息。 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。 大 数据的特点有四个层面:第一,数据体量巨大,从TB级别,跃升到PB级别;第二,数据类型繁多,包含网络日志、视频、图片、地理位置信息等等;第三,处理 速度快,可从各种类型的数据中快速获得高价值的信息,这一点也是和传统的数据挖掘技术有着本质的不同;第四,只要合理利用数据并对其进行正确、准确的分 析,将会带来很高的价值回报。业界将其归纳为4个 “V” ——Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。 |
|||
|