当前位置:首页 > 发言稿 > 【从容 从容灾开始】 容灾
 

【从容 从容灾开始】 容灾

发布时间:2019-03-19 04:37:48 影响了:

  图1 即使在高峰期,医生也能随时、快速地查看医学影像      牛启润现在的心态可以用“从容”一词来形容。   2007年之前,牛启润时常在半夜三更被电话吵醒,电话来自中山大学附属第二医院信息中心机房,身为该中心主任的他少不得要重新穿好衣服,匆忙赶去机房查看是哪些系统或设备出了问题,“救火”完毕后才能回家。
  2007年,中山大学第二附属医院容灾系统的建成与运营,终结了牛启润“消防员”的角色,这半年多来,他睡得很安稳,再也没有在睡梦中接到信息中心的电话,再也不用像消防员那样半夜起来“救火”。
  
  起因
  
  与银行、证券等金融行业大范围建立容灾系统相比,医疗行业实施容灾系统的医院还不多见。那么,中山大学第二附属医院为何能够如此积极建立容灾系统呢?难道只是为了让牛启润睡个安稳觉吗?
  答案当然是否定的。不过,该医院容灾系统的建立仍然与牛启润的一次“受害”和“救火”经历有关。2005年11月的一天早上,中山大学第二附属医院遭受了一次没有提前通知的停电,整个信息系统突然中断,更严重的是,“数据库被破坏了”。而此时正值门诊高峰期,门诊、住院、检验三大系统都不得不停止工作,医院业务基本停滞,“医患人员都在外面等着,吵吵闹闹的。”牛启润只好带领信息中心的全体工作人员对系统进行重新冷备份,最后花了好几个小时才最终使系统恢复正常运行。
  提起让他感到“很尴尬”这段经历,在银行工作过6年多,对银行容灾系统非常了解的牛启润说,如果是在银行业,这样的事故就不可能会发生。银行业已基本建立起了“2+2”模式的容灾备份系统,有的甚至不仅建有同城容灾备份系统,还建有异地容灾备份系统,目的不只是对付停电这样的小事故,更是为从容应对火灾、地震等灾害性事件的发生。
  然而,即使到现在,绝大多数医院仍然在采用传统的集群解决方案“2+1”模式,即两台服务器连接到一台磁盘阵列。这意味着当单台磁盘阵列成为核心系统的故障点时,整个系统将发生停机或瘫痪。
  如果说业务高度依赖信息系统,是银行业广泛建立容灾系统的最主要原因的话,那么,随着信息化的深入,一方面医院的数据量越来越大,必须确保这些数据不丢失,另一方面医院业务也对信息系统也提出了7×24小时不间断工作的要求,必须保证系统运行的稳定性和高可用性,其实,容灾系统对于医院的必要性和重要性已全面凸现,实施的需求也已经很迫切了。
  中山医院第二附属医院的信息系统从1997年开始投入使用,其中的门诊、住院、检验三大系统是跟患者就医关系最密切的,这三大系统的稳定就成为牛启润和他的团队工作的重中之重。目前,这三个系统每年大约产生100G的数据,如果这些数据有丢失或者部分丢失的话,将对医院造成难以估量的损失。而作为一家大型综合性三甲医院,目前,中山大学第二附属医院的日门诊量在5000~6000之间,日住院病人达到1400人左右,业务量非常繁忙。“门诊这样的系统,停机最长不能超过五分钟”,如果系统运行的稳定性得不到保障的话,将直接影响到病人就诊,降低医院的服务水平,从而成为医院的“病患之忧”。
  正是有了“受害“的教训,再加上业务的需求日益迫切,2006年年底,中山大学第二附属医院正式筹建容灾系统。
  
  行动
  
  经过规划,牛启润和他的团队决定采用“2+2”模式的容灾备份方案,在原有两台服务器连接一台磁盘阵列的传统方式的基础上,安装实施容灾系统。即在以门诊、住院、检验为主的生产机房之外,于主院区内与生产中心机房相距约200米的另一栋楼中另设一间备份、容灾机房,并通过光纤让两机房相连接。
  
  图2 中山大学附属第二医院容灾系统结构
  
  生产机房的数据迁移到一台磁盘柜中,备份、容灾机房另安装一台磁盘柜,对系统数据进行同步备份,并安装容灾软件,保证生产机房内某个或全部系统数据出现故障时,备份系统能够自动接替工作,确保信息系统不受到影响,可以不间断地为医院提供7×24×365的支持。
  容灾系统所需的二套磁盘阵列,一套在生产机房为主阵列,一套在备份、容灾机房为备阵列,两机房的磁盘阵列之间实现同步容灾复制,并确保应用系统在两台阵列上的数据在任何时候都是完全同步的。
  生产机房与备份、容灾机房的SAN交换机之间用单模光纤连接,2路(4芯)光纤通道并行工作,配备了支持2路光纤通道、传输距离可达10Km的长波收发器。假设生产中心发生灾难性的数据损坏,可由容灾软件把三个应用系统自动切换到容灾中心的备机上运行,保证系统的服务持续不断。
  整个系统(见图1)不仅要实现集中的数据存储,数据连续同步备份、还要能够保证数据的安全性和系统快速恢复,以确保容灾系统能够随时随地高效的被使用。
  这样,在设备选型上,需要考虑信息系统除了满足存储的要求,还要同时满足容灾的需求,如果生产机房的存储设备发生任何问题,切换到备份、容灾机房的设备可以继续工作。经过调研和选型,中山大学第二附属医院决定采用两台EMC CLARiiON CX3-20磁盘阵列来部署实施容灾系统。
  让牛启润看中EMC CLARiiON CX3-20的主要原因是,该产品具有同步写入、同步备份数据的功能,而且这种备份与应用系统没有关系,这样就能完全避免由于某个磁盘阵列出现故障时而对应用系统产生影响。
  此外,在中端阵列中,该产品具有较好的性价比,其中,四个前端和两个后端 4 Gb/s 端口,外加低延迟、高带宽 I/O 互连技术,可以处理繁重的工作负载。从存储的业务应用来看,EMC CLARiiON CX3-20可以提供邮件/消息服务、数据库、文件/打印、Web 服务、分布式应用程序、远程复制等等,还支持范围广泛的一系列服务器操作环境,如Microsoft Windows、Linux、Solaris、AIX、HP-UX 和 VMware ESX Server等。
  EMC CLARiiON CX3-20还具有低成本、体积小,容量大等特点,进一步简化了安装、升级、扩展以及维修。该产品的FC/iSCSI 选项能够让信息中心可以轻松地整合多个应用环境。它还能够从 5 个磁盘驱动器无缝扩展到 120 个,最大的容量达到59TB,可以根据信息量的需求逐渐扩展。
  工作是辛苦的,“有两个礼拜是在机房白天黑夜地干,没有回家。”从规划设计、讨论方案、招标选型、迁移数据、搭建系统、测试、一直到系统上线,牛启润带领他12人的团队终于在2007年春暖花开的季节完成了容灾系统项目。
  
  图3 住院病人的相关信息在容灾中心都有备份
  
  收获
  
  系统运行半年多来,牛启润亲身体会到,容灾系统在真实地为医院信息系统保驾护航。
  有了容灾系统,他不用半夜三更赶到信息中心的机房去“救火”了。一旦系统出现问题或者发生故障,第二天上班牛启润查看的时候就会发现系统自动进行了切换,一切业务还是照常运行,门诊、住院、检验系统的应用人员对此毫无知觉。即使是这样,半年多来,除系统维护的需要外,这种系统自动切换也只是发生了一两次,而且切换所花费的时间非常少,整个过程不超过20秒。
  EMC CLARiiON CX3-20同步写入、同步备份数据的功能也发挥得很正常,尽管容灾机房的磁盘阵列与生产机房的磁盘阵列同步写入数据时还要受到带宽因素的影响,这种延迟也很小,几乎能以毫秒来计算。
  另外,由于两个磁盘阵列同步备份几乎对应用系统没有影响,门诊、住院、检验三大应用系统的正常运行基本上不受生产机房与容灾机房之间的系统切换的影响。在中山大学第二附属医院的门诊高峰期,即每个周一、周二的上午和专家出诊较多的时间段,系统客户端的应用人员也察觉不到这种切换,可以说影响是微乎其微的,应用系统真正实现了持续无间断的运行。
  更重要的是,整个系统的稳定性和高可用性不仅使医院日益增多的数据处于持续安全的状态,就算再出现停电、 火灾、地震等突发事故时,牛启润也能够从容应对。不管是为病患提供及时的服务,还是提升医院的形象,容灾系统都起到了持续的保障作用。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3