云计算\大数据与Hadoop|大数据分析师工资待遇

发布时间：2019-03-10 03:49:51　影响了：人

　　人们认识到云将接收并处理前所未有的巨大数据量，分布式并行计算框架Hadoop也被越来越多的企业所应用。　　孙定 sun_ding@ccw.com.cn 　　
　　美国奥巴马总统委员会的科学技术顾问Stephen Brobst说：“过去3年里产生的数据量比以往4万年的数据量还要多，大数据时代的来临已经毋庸置疑。我们即将面临一场变革，常规技术已经难以应对PB级的大规模数据量。”Neol and Associates公司的著名分析师Mike Karp也指出，目前越来越多的企业采用Hadoop来存储和分析大
　　数据。
　　美国《经济学人》2010年曾经报道，沃尔玛的数据量是美国国会图书馆的167倍；eBay的分析平台每天处理的数据量高达100PB，超过纳斯达克交易所每天的数据处理量。根据IDC数据，到2020年，电子数据存储量将在2009年的基础上增加44倍，达到35万亿GB；截止到2010年，电子数据存储量已经达到了120万 PB，或1.2ZB。非结构化信息如文件、电子邮件和视频，将占未来10年新生数据的90%。Gartner也指出，传统数据库在数据增长如此迅猛的当下远不能胜任。
　　Hadoop分布式并行计算框架，是Apache的开源项目，已有7年的历史。Hadoop的核心是HDFS（分布式文件系统）和MapReduce（映射与归约）计算模型，MapReduce的思想来自于谷歌2004年发表的一篇论文。
　　HDFS分布式文件系统将一组数据分发给不同的机器并且提供冗余处理。比如，可以对每一个数据在3个不同的节点上进行复制，一旦一个数据所在节点出现问题，还有两个其他节点的相同的数据可以使用。MapReduce计算模型中的Map将一个任务分解为多个任务，产生特征数据，Reduce将多个执行结果汇总得到最终结果。
　　2008年7月，Hadoop打破1TB数据排序基准测试纪录。Yahoo!的一个Hadoop集群用209秒完成1TB数据排序，比上一年的纪录保持者快了将90秒。2009年5月，进一步将时间缩短到62秒。2007年，百度开始部署Hadoop用做日志处理。2008年，淘宝部署基于Hadoop的云梯。云梯的总容量大概为9.3PB，1100台机器，每天处理约18000道作业，扫描500TB数据。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用户。
　　在产业方面，IBM提供基于Hadoop的大数据分析软件，推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统，并提供Hadoop的部署与实施服务。EMC于2011年5月推出基于Hadoop数据中心设备――GreenPlum HD。2008年，微软收购Powerset，并将Powerset基于Hadoop的技术应用于搜索引擎bing搜索引擎。
　　Ventana Research公司分析师David Menninger认为，企业将显著提升对于开源软件Hadoop框架的兴趣，未来将有更多的供应商和更多的生产商加入Hadoop行列。
　　由此，我们就可以看出这样一个脉络：云计算必须支持大数据，面向大数据处理的新一代技术Hadoop已经浮出水面并日趋流行。