当前位置:首页 > 演讲稿 > 云计算\大数据与Hadoop|大数据分析师工资待遇
 

云计算\大数据与Hadoop|大数据分析师工资待遇

发布时间:2019-03-10 03:49:51 影响了:

  人们认识到云将接收并处理前所未有的巨大数据量,分布式并行计算框架Hadoop也被越来越多的企业所应用。   孙定 sun_ding@ccw.com.cn   
  美国奥巴马总统委员会的科学技术顾问Stephen Brobst说:“过去3年里产生的数据量比以往4万年的数据量还要多,大数据时代的来临已经毋庸置疑。我们即将面临一场变革,常规技术已经难以应对PB级的大规模数据量。”Neol and Associates公司的著名分析师Mike Karp也指出,目前越来越多的企业采用Hadoop来存储和分析大
  数据。
  美国《经济学人》2010年曾经报道,沃尔玛的数据量是美国国会图书馆的167倍;eBay的分析平台每天处理的数据量高达100PB,超过纳斯达克交易所每天的数据处理量。根据IDC数据,到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB;截止到2010年,电子数据存储量已经达到了120万 PB,或1.2ZB。非结构化信息如文件、电子邮件和视频,将占未来10年新生数据的90%。Gartner也指出,传统数据库在数据增长如此迅猛的当下远不能胜任。
  Hadoop分布式并行计算框架,是Apache的开源项目,已有7年的历史。Hadoop的核心是HDFS(分布式文件系统)和MapReduce(映射与归约)计算模型,MapReduce的思想来自于谷歌2004年发表的一篇论文。
  HDFS分布式文件系统将一组数据分发给不同的机器并且提供冗余处理。比如,可以对每一个数据在3个不同的节点上进行复制,一旦一个数据所在节点出现问题,还有两个其他节点的相同的数据可以使用。MapReduce计算模型中的Map将一个任务分解为多个任务,产生特征数据,Reduce将多个执行结果汇总得到最终结果。
  2008年7月,Hadoop打破1TB数据排序基准测试纪录。Yahoo!的一个Hadoop集群用209秒完成1TB数据排序 ,比上一年的纪录保持者快了将90秒。2009年5月,进一步将时间缩短到62秒。2007年,百度开始部署Hadoop用做日志处理。2008年,淘宝部署基于Hadoop的云梯。云梯的总容量大概为9.3PB,1100台机器,每天处理约18000道作业,扫描500TB数据。Facebook、Linkedin、Amazon、EMC、eBay、Twitter、IBM、Microsoft、Apple、HP等都已是Hadoop的用户。
  在产业方面,IBM提供基于Hadoop的大数据分析软件,推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统,并提供Hadoop的部署与实施服务。EMC于2011年5月推出基于Hadoop数据中心设备――GreenPlum HD。2008年,微软收购Powerset,并将Powerset基于Hadoop的技术应用于搜索引擎bing搜索引擎。
  Ventana Research公司分析师David Menninger认为,企业将显著提升对于开源软件Hadoop框架的兴趣,未来将有更多的供应商和更多的生产商加入Hadoop行列。
  由此,我们就可以看出这样一个脉络:云计算必须支持大数据,面向大数据处理的新一代技术Hadoop已经浮出水面并日趋流行。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3