当前位置:首页 > 思想汇报 > 【宁夏银行的存储升级实录】 宁夏银行
 

【宁夏银行的存储升级实录】 宁夏银行

发布时间:2018-12-30 05:01:00 影响了:

  问题描述:业务激增带来3大问题      随着宁夏银行业务规模的不断扩大,柜面业务和渠道代理业务不断发展,核心系统所处理的交易不断增加,经过了3年多的时间,主机所处理的交易量由上线初的日均15万笔增加到40万笔,核心数据库的应用数据由上线初的20GB增加到80GB。业务量的增加产生了以下问题:
  第一个问题是主机的交易速度下降。柜员反映,有时在业务高峰期办理业务会出现终端停顿15~25秒的现象,给银行的电子银行渠道业务(ATM、POS、电话银行等业务)带来一定影响。
  第二个问题是完成一次季度结息大约需要10小时且需要停业两小时,严重影响了正常业务。每次季度结息次日(每季末21日),当天柜员结账会造成交易超时,使日常的交易(柜面业务、银联业务和代理业务等)堵塞。当时的应急办法是每家支行只能同时允许一个柜员进行结账,致使柜员不能正常下班。
  第三个问题是数据库备份和恢复的效率较低。宁夏银行的数据库的备份采用4mm的盒式磁带(非压缩容量20GB),最初20GB左右的数据量,备份两盘磁带需要80分钟。当容量增加到80GB时,备份4盘磁带需要3个多小时,而恢复一套完整的数据库备份则需要5小时,一旦系统有故障,恢复数据太慢就成了恢复营业的主要障碍。
  
  原因分析:磁盘速度慢是系统瓶颈
  针对以上现象,银行对主机系统运行进行了监控。首先,用vmstat命令检查系统资源,发现应用程序使用CPU率并不高,而系统的I/O平均等待时间较长,占CPU处理时间的30%以上。说明CPU不繁忙,系统的瓶颈在于读写磁盘速度慢。其次,对数据库的运行进行监控,Informix数据库检查点的磁盘刷新时间过长,检查点写盘会挂起数据库引擎的全部任务,这就造成有些交易超时失败。
  既然系统的瓶颈是磁盘读写慢,那么就不用更换主机。我们计划使用两台存储服务器以实现应用程序和数据库数据的实时备份,这样既解决了备份效率低的问题,同时还实现了数据级的灾难备份功能。
  2006年我行购买了两台EMC DMX800存储服务器(双光纤通道、8GB缓存)和两台光纤交换机,并为IBM M85主机加装了光纤通道卡,还购买了实时备份和快照备份的软件及其许可证。两台存储服务器中的一台作为主存储服务器,另一台作为备用存储服务器。备用服务器提供实时备份和快照备份,两台EMC存储服务器可用容量为2000GB,可满足我行3~5年的业务发展需要。因为我行还有两台闲置的IBM S70主机,可用一台IBM S70管理备用存储服务器的实时备份,另一台IBM S70管理快照备份。把闲置设备利用起来,也避免了现有资源的浪费。
  
  解决方法:4步更换存储服务器
  为了解决交易速度慢和数据备份与恢复的效率低的问题,宁夏银行信息技术部从搭建应急环境和测试环境入手,实现了银行存储系统的升级和更换。
  1.搭建原系统的应急环境。为了防止更换存储出现不可预知的情况,需要搭建现役主机的备用主机。我们租用了一台备用主机S80,将操作系统和数据库环境安装成和现役主机一样,存储硬盘用本机硬盘。
  2.搭建测试主存储服务器环境。因为存储服务器最终要和两台现役IBM M85主机连接,形成新的HACMP环境。本文为了方便描述,将两台IBM M85主机分别称为1号机和2号机。为了不影响生产应用,需要将两台IBM M85主机的HACMP双机热备应用拆开成单机环境, 将 1号机保持连接到原外接磁盘阵列上,停用HACMP服务,手工启动原HACMP的资源组进程,IP地址设置为原HACMP的漂移地址,继续用于生产业务。将2号机挂接到主存储服务器上,进行认盘测试和存储空间分配,将数据库数据恢复到该系统上,进行业务测试和压力测试等。
  3.搭建测试备用存储服务器环境。备用存储服务器和两台IBM S70主机连接。为了方便描述,将两台IBM S70主机分别称为3号机和4号机。将两台IBM S70主机连接到备用存储服务器上,进行认盘测试和存储空间分配,用3号机管理实时备份,4号机管理快照备份。主存储服务器和备用存储服务器之间的光纤交换系统联调测试,并对实时备份和快照备份进行测试。
  4.存储切换。银行核心系统的存储切换需要向社会发布停业公告,本次存储切换当日提前结账,营业后进行存储切换。步骤如下:先备份数据库数据两套,长期保留;将数据库数据备份恢复到租用的S80主机上,用于应急;将数据库数据备份恢复到 2号机(该机与主存储服务器相连接)上,内部测试业务正常后,方可进行下一步操作。将 1号机与外接磁盘阵列断开,接入到主存储服务器上,与2号机一起配置HACMP环境。如果在规定的每次季度结息时,通过对存储服务器的实时备份和快照备份所进行的实际数据环境的验证,那么才能将主存储服务器系统正式用于生产,但是要密切关注系统的运行情况,当存储服务器系统稳定运行一个月以后,拆除S80应急系统。
  实施效果:检查点操作最多3秒
  
  图1 改造前的系统环境
  存储系统升级后,在业务高峰期,数据库的检查点操作(每5分钟一次)耗时1秒到3秒,业务处理很顺畅,银联业务和代理业务等出现的超时问题大大减少。在银行的存储系统升级以前前,受原存储设备性能的制约。而存储升级后,该问题自动解决。
  存储升级前,存储设备是外接磁盘阵列。该设备仅有磁盘冗余功能,如果阵列卡出现故障或者两块硬盘同时损坏,我行核心业务的后台数据库数据将会全部丢失,会造成停业事故,将使我行经营业务遭受致命打击。
  存储升级项目上线后,两台EMC存储服务器实现了远程数据级的容灾备份功能,主用EMC存储上的数据库数据和应用程序实时地同步复制到备用EMC存储上,当主用EMC存储出现停机故障时,备用存储上完好地保留了实时生产数据,容灾备份能力大大增强,将来在此基础上可发展为应用级的远程灾备系统。另外,还可在任一时间点进行快照备份数据库,方便为开发测试工作提供测试数据源。
  
  图2 改造后的系统环境
  链接:银行存储升级方案设计要点
  银行数据中心的存储系统升级时数据的安全性很重要。因此,在设计方案时要充分考虑数据安全和备份方面的问题。
  在数据存储方面,设计者首先要保证数据的物理安全。除了能保护存储数据的安全外,还要提高数据的吞吐率,便于数据集中存储。在数据备份方面,升级银行存储系统的核心是要保证系统数据的逻辑安全。在备份方式的选择上,设计者需要选择能够自动进行备份作业的专业设备,通过专用备份软件实施无人值守的自动化备份。这样银行的信息技术部门就可以根据需要,制定和调整备份策略,由备份系统自动完成全系统范围内重要数据的备份。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3