当前位置:首页 > 工作总结 > 数据容灾_企业数据容灾迫在眉睫
 

数据容灾_企业数据容灾迫在眉睫

发布时间:2019-03-22 04:23:01 影响了:

  覆巢之下 亦有完卵   正所谓“生于忧患,死于安乐”,部署容灾解决方案是一个成熟企业忧患意识的充分体现。要知道,对于一个成熟企业来说,数据、技术才是最核心的价值。当存储着核心数据、技术资料的信息系统忽然遭遇灾难时,是否有优秀的容灾系统提供挽回损失的机会,决定着企业的生死存亡。构建容灾系统,提前做好准备,才能做到“覆巢之下,亦有完卵”!
   容灾与企业的生死存亡
  
  从上世纪90年代开始,信息化行业进入了高速增长阶段。随着信息化技术的快速发展和硬件设备价格的降低,主机和服务器的数量开始以惊人的速度增加。大大小小的数据中心遍布城市的各个角落,越来越多的企业把数据处理容量和速度作为提升其核心竞争力的重要基石。相应的,业务连续性、业务永续、高可用性、高可靠性等字眼成了各类企业在进行信息化系统建设时的关注焦点。而容灾技术,正是保障业务连续性的关键环。
  传统的容灾解决方案在大家的印象中都与高成本相对应,只有对业务连续性要求高、对数据安全等级有定要求的企业才会去考虑应用这项技术,所以这项技术大家多是只闻其声、未见真身。不过随着硬件设备成本的降低以及外界环境(包括监管部门1相关规范的出台。容灾已经被越来越多的企业所重视,进步认识容灾技术,了解容灾级别和应用现状成为越来越热门的话题。不过在进入话题之前,我们不妨先来看看历史上些惨痛的教训。
  
  历史的教训
  
  2001年9月11日,美国世贸中心双子大厦遭受恐怖袭击,在该区域办公的企业由于重要信息系统的损坏、关键数据的丢失而面临严重危机。在受影响的企业当中,因为在异地建立了数据灾备中心,德意志银行很快就恢复了业务;而纽约银行因为数据中心遭到破坏,一些分支机构被迫关闭,其2001年第3季度利润下降33%。
  2003年,当AT&T无线试图对Siebel客户关系管理(CRM)软件进行升级时,原定一个周末就能完成的项目演变为一场历时6个星期的灾难。这次CRM软件的升级事故使AT&T无线损失了1亿多美元,仅增加的用户欠款、员工加班费和承包商的佣金就高达7500万美元,同时还导致该公司该年第4季度的新增用户数急降82%。
  2008年11月,北京火车站售票系统瘫痪,因没有完善的容灾系统,业务中断整整5个小时。
  份美国的研究报告显示,在遭遇灾难之后,如果无法在14天内恢复信息业务,75%的企业业务会完全停顿,43%的企业再也无法重新运营,20%的企业会在2年内破产。美国明尼苏达大学的研究表明,遭遇灾难的同时又没有灾难恢复计划的企业,超过60%以上会在2~3年后退出市场。随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。因此,在限定的时间内成功实施灾难恢复,应该成为企业战略计划中的一个关键组成部分。美国德克萨斯州大学的份调查显示:“只有6%的公司可以在数据丢失后生存下来,43%的公司会彻底关门,51%的公司会在两年之内消失。”
  
  业务永不停顿 数据容灾技术进行时
  
  谈容灾先要搞清楚灾难备份的含义。灾难备份,简称灾备,就是指利用技术、管理手段以及相关资源确保关键数据、关键系统和关键业务在灾难发生后可以尽可能多且陕地恢复的过程。灾备的目的是确保关键业务持续运行以及减少非计划宕机时间。灾难备份可以分为狭义和广义两类,前者主要指灾难备份系统,后者又加入了层灾难恢复的含义。容灾可以说就是广义上的灾难备份。
  容灾是基于容错技术的,是容错技术的重要分支。容错技术的研究与发展应该以1971年召开第届国际容锚计算会议(FTCS-1)为起点。“容错”当然不是指“容易错”,而是指“容许错”,更确切些说应该是“容许故障”。在信息领域,容灾系统可以理解为是以存储系统作为基本支撑、以网络作为基本传输手段、以容错软硬件技术为直接技术手段、以管理技术为重要辅助手段的综合系统。现在的容灾技术可以说涵盖了容错、信息安全和系统管理三大领域。
  
  容灾的级别
  在容灾领域,国内和国际均有分级的定义标准,国际标准我们称为Share78,而国内标准则是2007年11月正式实施的《信息系统灾难恢复规范》。国内的标准出台相较国际标准要晚上15年,国内标准的基本分级原则和Share78相同,只是少了个级别。
  根据国际标准share78的定义,容灾方案被分成了7个级别,这7个级别也就是我们最常提到的国际容灾7标(层)。
  目前针对这7个层次,都有相应的容灾方案,所以用户在选择容灾方案时应重点区分它们各自的特点和适用范围,结合自己对容灾系统的要求判断选择哪个层次的方案。一些系统厂商在国际/国内标准的基础上,又提出了自己的个性化分级方式。比如IBM就将灾难备份分成了热备份(对应最高的Tier7,也即是国标中的第6级)、温备份(基本对应Tier5和Tier6)、冷备份(中等重要程度应用灾难备份方案,对应Tier3和Tier4)和无应用备份(数据磁带远程传送方案,对应Tier1和Tier2,是最基本的磁带备份解决方案)。
  
  容灾重点指标
  在企业构建容灾系统时,有两个至关重要的指标,这就是RPO和RTO。这两个指标的高低,决定了企业需要建立的容灾系统的级别。从前文的表格中我们不难看出,不同容灾方案的RTO和RPO是不相同的。
  
  RPO
  RPO可简单地描述为企业能容忍的最大数据丢失量,它是反映恢复数据完整性的指标。在同步数据复制方式下,RPO等于数据传输时延的时间;在异步数据复制方式下,RPO基本为异步传输数据排队的时间。在实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
  
  RTO
  RTO可简单地描述为企业能容忍的恢复时间,它是反映业务恢复及时性的指标,表示业务从中断到恢复正常所需的时间。RTO值越小,代表容灾系统的数据恢复能力越强。各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,需要投入大量资金。在RTO中,还有个比较重要的时间段,我们称之为网络恢复时间(NRO)。
  当然,在灾难恢复的关键指标中,RTO和RPO仅仅是两个较为突出的代表,也不能仅通过它们的数值来判断容灾体系和效果的好坏。RTO和RPO越小,可以说容灾系 统效果越好,但从经济角度考虑,最佳的容灾解决方案不定是最适合的容灾解决方案。容灾系统的总体投入(TCO)和投资回报(ROI)对于许多用户来说是十分重要的设计指标。TCO包括建立系统、维护系统和扩充系统的总投入。由于容灾系统的启用概率很低,新技术的发展和新产品性价比的提高必定造成容灾设备的贬值。另外,IT系统的任何软硬件变化都会引起容灾系统相应的变化,势必加大对系统升级的投入。要想把这种变化的影响减到最小,容灾系统的灵活性和兼容性也应该是十分重要的指标。
  
  容灾核心技术
  容灾的核心技术可以分成4大类,分别是数据存储、信息安全、系统管理和体系架构。现在所有的容灾体系和方案都离不开这4大核心技术,它们可以说是为容灾护法的4大“天王”,在这里我们先简单介绍_。下这4大“天王”。
  数据存储
  1 虚拟化存储技术
  这项技术在小型机上其实已经非常成熟了,其核心就是将物理空间虚拟化为
  个大的数据缓冲池,统管控,提高存储利用效率。
  2 多存储版本的管理
  主要是指在不同存储中心(主中心和备中心)存储数据版本的管理。
  3 删除重复数据技术
  这项技术不仅仅存在于存储领域,是一项容量优化技术。
  除了上述较为常用的技术外,还有集群并行存储技术和高效能存储技术等。
  信息安全
  近些年,在国内对于信息安全的重视程度越来越高,等级保护评级制度的出台和大规模审计就是一个很好的例子。信息安全主要包括5大方面的安全技术,分别是数据安全技术、网络安全技术、系统安全技术、身份安全技术和安全审计技术。
  系统管理
  一个容灾方案和规划没有完善的管理体系是不合格的。在系统管理中,主要包括数据信息管理、灾难应急管理、系统恢复管理、灾难评估与决策支持。
  体系架构
  体系结构技术方面主要包括容错系统架构,数据恢复技术、系统恢复技术和业务连续性服务。
  
  容灾技术的未来
  随着信息化系统的普及,企业对核心信息的容灾越来越重视,这也在定程度上推动着容灾技术的发展。从目前来看,容灾技术和容灾系统的部署正呈现以下几个趋势。
  采用外包方式
  外包方式是现在国际容灾市场的主流方式,在国外,采用灾难备份外包服务的比例达到了70%以上,世界上灾难备份的专业机构主要有SUNGARD、IBM、EMC、H3C等。
  数据容灾的IP网络化、虚拟化
  数据容灾的基础是存储系统的协议,发展到今天主要是FC、IP两种。从FC和IP网络发展的角度看,FC存储解决了IT发展历程中,对存储系统的阶段性需要。但随着2006年以来10Gb万兆系统的普及,更具标准化、性能提升更快、更简单易用的IP协议、IP存储,符合IT系统的发展趋势,成为业界公认的下一代主流存储协议与产品。各种应用于IP技术下的网络传输技术,提供了更广阔的应用前景。特别是在万兆存储技术业已成熟的情况下,万兆存储技术与万兆IP网络传输技术的融合,使得我们可以预见未来基于IP网络的容灾方式将成为容灾技术的主流。
  另外,随着虚拟化技术的发展,虚拟化容灾在数据容灾方面的应用越来越广。它的好处是大大提高了存储的利用效率,而重复数据删除技术则可以进步降低数据存储的空间占用,从而节约项目设备采购成本。
  
  集中容灾方式向分布式容灾转变
  无论是同城容灾还是异地容灾。基本上都是采用集中容灾方式。而在不久的将来,随着网络传输速度的提升以及传输效率的提升,分布式容灾将成为种趋势。分布式容灾最大的好处是可以充分利用大量分布的低价存储设备,同时也可以进步提高应对大范围灾难的能力。
  除了上述几点以外,容灾的系统化和全面化也将在不久的将来提升到一个新的阶段。虚拟化、可信平台、云计算、万兆光纤网络等新技术的出台都将进步的推动容灾技术,现在容灾领域的关键技术和产品还都来源于国外企业和厂家,相信在容灾产品和技术逐渐国产化,容灾专业人员越来越多,从技术到成本上我们都牢牢握有主动权的时候,中国容灾领域将会被世界关注,希望那一天早日到来。
  
  从分析到构建 典型容灾案例解析
  
  从前文中我们不难看出,国标的出台到现在也不过3年时间。目前,国内的容灾技术和国际上相比还存在很大的差距。在众多行业中,金融行业因其对业务连续性的要求高而对容灾提出了更高的要求,银监会和保监会在近些年也都出台了规范文件。有了行业规范文件的支持,相关企业在进行数据中心容灾设计的时候就能做到有章可循了。
  在此我们就以个金融企业的两地三数据中心容灾体系建设为例给大家作简单介绍。左下图所示即是已经建立好的三数据中心容灾体系,限于篇幅和些特殊原因,本文仅作概括性阐述,不对具体机理、技术和采用的软件产品作介绍。
  我们知道,容灾从地域上来说无非是同城容灾和异地容灾两种。在经典的三数据中心模型中,从成本控制和整体管控方面考虑,一般都建议采用同城双数据中心,另中心在异地的方式。为了叙述简便,我们略过容灾方案制定过程中对企业进行预估及业务流级别分类等诸多环节,直接对容灾解决方案中最关键的点进行分析。
  数据中心A和数据中心B分别为生产中心和同城中心,相距20公里左右,采用DWDM(密集波分复用光纤数据传输)方式互连。数据中心C为异地灾备中心,距离数据中心A约800公里左右。在数据中心A和数据中心B之间,将部分核心业务数据流采用同步模式,其它业务数据则采用异步模式,A和B之间可以进行负载的分担,数据中心A和C以及数据中心B和C都采用异步模式。
  此容灾架构的核心技术采用了IBM Power570/595+DS8000+Metro/Global Mirror+Power HA xD集群来实现的。IBM Met ro/Global Mirror技术是种同步(Metro Mirror)+异步(GIobal Mirror)的层叠技术,它可以作到同城主中心A失效时,同城的灾备中心B的RPO基本为0,异地的灾备中心c处的切换响应时间也可控制在几分钟之内。生产中心的其中1台DS8000存储可以同异地远端的DS8000通过Global Mirror模式进行数据镜像,实现异地的数据备份及保护。通过对A、B和C中心之间的专线带宽进行估算(采用常用的OLTP+连续数据流估算组合),在数据中心A站点内部进行了定调整。
  在同城利用HACMP+PPRC(也叫Metro Mirror)的组合进行存储的本地数据复制,磁盘阵列本身为RAID 5或10的冗余方式,系统部件和网络均作了冗余性处理,应用方面也运行负载技术进行了高可用 性处理。本地另采用虚拟磁带库作为离线数据备份手段,采购了专用的数据库复制、本地复制及管理软件。当数据中心A的主应用(或主磁盘)失效时,会瞬间切换到备应用(通过负载均衡检测技术)和备磁盘体系上,如果数据中心A出现故障,IBM的HACMP-XD(HACMP的WAN版本)技术会自动进行应用接管,启用灾备中心体系。基本流程如下:
  1 HACMP-XD侦察到failover;
  2 HACMP-xD在灾备中心启动PPRCsecondary卷;
  3 HACMP-XD在灾备中心重新启动系统和应用。
  容灾方案的制定和实施是一个非常复杂的过程,上述案例仅是概括性介绍,而且主要以数据存储容灾和应用自动接管为主进行介绍。至于数据库容灾、数据一致性检查、虚拟化存储机理、网络对容灾技术的支持(包括设备和相关专用协议、技术等),在这里暂不作介绍。
  
  虚拟化让容灾不再遥远
  
  IT架构容灾已经成为大家关注的焦点,关键业务的停机成本昂贵,甚至可能为企业带来无可挽回的损失。尽管越来越多的企业意识到容灾的重要性,但是如何打造高效的容灾系统仍然面临极大的挑战。第一,现有很多业务连续性方案无法满足企业业务的需求,特别是停机时间的目标。大家往往专注于保护几个专有的系统,对其他大量的系统,特别是x86服务器系统没有进行有效地保护。第二,业务连续性方案的成本随着可用性的需求而急剧升高,许多方案都需要用户投入大量资金购买附加硬件,软件和服务,这造成了昂贵的成本需求。灾难恢复计划往往需要复制数据中心的基础架构,这些需求将导致容灾成本急剧增加,同时使得利用率很低的服务器急剧扩展,从而进步增加了容灾的成本。第三,传统的业务连续性方案都相当复杂,实施,管理和维护都很麻烦。管理容灾架构、维护实时更新的复杂文档、人工的恢复流程和高效的测试计划都导致了极大的复杂性。第四,测试复杂的业务连续性方案是极具挑战性的工作,测试过程往往需要巨大的设备投入和人员投入。
  随着PC服务器虚拟化的普及,它也开始承担越来越重要的业务,SQL Server、Exchange、Oracle、SAP等核心业务也开始放在虚拟化的PC服务器上。此时,虚拟化的PC服务器的容灾就成为一个重要课题。虚拟化PC服务器承担的任务越来越重,虚拟化的容灾系统构建刻不容缓。类似vCenter Site Recovery Manager(SRM)这样面向虚拟化PC服务器的低成本、高可靠性、简单方便的业务连续性方案,成为企业容灾方案的重要选择之一。
  建立容灾系统最关键的步骤是发生灾难后的业务恢复,但是传统灾难恢复方案要求生产和灾备节点硬件配置一样,这大大增加了容灾系统的成本。传统的灾难恢复计划通常需要复杂的、耗时费力的流程,容易造成人为错误。因此很多用户只选择极少的几个关键系统进行容灾,其他系统被拒之门外。而如果部署了虚拟化,用户便可以轻松地应对这些挑战,实现如下目标:
  第一,容灾系统成本大大下降。部署虚拟化后,无需在灾备中心投入和生产节点完全一样的硬件,从而降低了灾备节点的投入。虚拟机可以在任何硬件上进行恢复,灾备节点可以利用生产节点淘汰的硬件。即使灾备节点使用新设备,仍然可以在平时当做开发测试中心使用,从而大大降低了灾备中心的限制,降低了整个容灾系统的成本。
  第二,容灾演练难题迎刃而解。每个用户都希望建立5个9(99.999%)可用性的容灾系统,但是这谈何容易?5个9的可用性意味着一年只有5分钟左右的停机时间,也就要求服务器不能重启次。而所有的容灾都要演练,每年至少演练一次,否则容灾系统就将成为摆设。而参加过容灾演练的人都知道,容灾演练是要停系统的,并且不是几分钟可以完成的。要容灾可靠,就要经常演练:经常演练,就要经常停机,这个矛盾在传统的容灾系统中根本无法解决。而基于虚拟化的容灾系统,可以构建完全真实、但虚拟的容灾演练环境,让容灾演练不影响系统的可用性。
  第三,容灾作业计划书易于维护。容灾好建,维护难行,这是传统容灾系统的另一个难题。通过构建虚拟化容灾系统,将容灾作业计划书建立在系统中,通过脚本实现了容灾作业计划书的无纸化、自动化,彻底越过了这一障碍,让容灾系统的运维变得更简单。
  第四,灾难后快速恢复。虚拟化容灾方案将容灾作业计划书流程化、自动化,消除了传统容灾系统中缓慢、人工的过程,从而实现快速恢复的目标。虚拟化提供了真正的硬件无关性,消除了裸金属恢复过程中重新安装系统的过程。发生灾难后,管理员只需点击一个按钮,就可以开始全自动的、基于流程的灾难恢复。
  第五,灾难恢复更为可靠。虚拟化容灾方案消除了传统灾难恢复中许多容易犯错的过程,包括和硬件兼容性相关的故障:确保容灾恢复按预先设计的流程自动执行,容灾系统更为可靠。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3