宁夏银行的存储升级实录_宁夏银行
问题描述:业务激增带来3大问题 随着宁夏银行业务规模的不断扩大,柜面业务和渠道代理业务不断发展,核心系统所处理的交易不断增加,经过了3年多的时间,主机所处理的交易量由上线初的日均15万笔增加到40万笔,核心数据库的应用数据由上线初的20GB增加到80GB。业务量的增加产生了以下问题:
第一个问题是主机的交易速度下降。柜员反映,有时在业务高峰期办理业务会出现终端停顿15~25秒的现象,给银行的电子银行渠道业务(ATM、POS、电话银行等业务)带来一定影响。
第二个问题是完成一次季度结息大约需要10小时且需要停业两小时,严重影响了正常业务。每次季度结息次日(每季末21日),当天柜员结账会造成交易超时,使日常的交易(柜面业务、银联业务和代理业务等)堵塞。当时的应急办法是每家支行只能同时允许一个柜员进行结账,致使柜员不能正常下班。
第三个问题是数据库备份和恢复的效率较低。宁夏银行的数据库的备份采用4mm的盒式磁带(非压缩容量20GB),最初20GB左右的数据量,备份两盘磁带需要80分钟。当容量增加到80GB时,备份4盘磁带需要3个多小时,而恢复一套完整的数据库备份则需要5小时,一旦系统有故障,恢复数据太慢就成了恢复营业的主要障碍。
原因分析:磁盘速度慢是系统瓶颈
针对以上现象,银行对主机系统运行进行了监控。首先,用vmstat命令检查系统资源,发现应用程序使用CPU率并不高,而系统的I/O平均等待时间较长,占CPU处理时间的30%以上。说明CPU不繁忙,系统的瓶颈在于读写磁盘速度慢。其次,对数据库的运行进行监控,Informix数据库检查点的磁盘刷新时间过长,检查点写盘会挂起数据库引擎的全部任务,这就造成有些交易超时失败。
既然系统的瓶颈是磁盘读写慢,那么就不用更换主机。我们计划使用两台存储服务器以实现应用程序和数据库数据的实时备份,这样既解决了备份效率低的问题,同时还实现了数据级的灾难备份功能。
2006年我行购买了两台EMC DMX800存储服务器(双光纤通道、8GB缓存)和两台光纤交换机,并为IBM M85主机加装了光纤通道卡,还购买了实时备份和快照备份的软件及其许可证。两台存储服务器中的一台作为主存储服务器,另一台作为备用存储服务器。备用服务器提供实时备份和快照备份,两台EMC存储服务器可用容量为2000GB,可满足我行3~5年的业务发展需要。因为我行还有两台闲置的IBM S70主机,可用一台IBM S70管理备用存储服务器的实时备份,另一台IBM S70管理快照备份。把闲置设备利用起来,也避免了现有资源的浪费。
解决方法:4步更换存储服务器
为了解决交易速度慢和数据备份与恢复的效率低的问题,宁夏银行信息技术部从搭建应急环境和测试环境入手,实现了银行存储系统的升级和更换。
1.搭建原系统的应急环境。为了防止更换存储出现不可预知的情况,需要搭建现役主机的备用主机。我们租用了一台备用主机S80,将操作系统和数据库环境安装成和现役主机一样,存储硬盘用本机硬盘。
2.搭建测试主存储服务器环境。因为存储服务器最终要和两台现役IBM M85主机连接,形成新的HACMP环境。本文为了方便描述,将两台IBM M85主机分别称为1号机和2号机。为了不影响生产应用,需要将两台IBM M85主机的HACMP双机热备应用拆开成单机环境, 将 1号机保持连接到原外接磁盘阵列上,停用HACMP服务,手工启动原HACMP的资源组进程,IP地址设置为原HACMP的漂移地址,继续用于生产业务。将2号机挂接到主存储服务器上,进行认盘测试和存储空间分配,将数据库数据恢复到该系统上,进行业务测试和压力测试等。
3.搭建测试备用存储服务器环境。备用存储服务器和两台IBM S70主机连接。为了方便描述,将两台IBM S70主机分别称为3号机和4号机。将两台IBM S70主机连接到备用存储服务器上,进行认盘测试和存储空间分配,用3号机管理实时备份,4号机管理快照备份。主存储服务器和备用存储服务器之间的光纤交换系统联调测试,并对实时备份和快照备份进行测试。
4.存储切换。银行核心系统的存储切换需要向社会发布停业公告,本次存储切换当日提前结账,营业后进行存储切换。步骤如下:先备份数据库数据两套,长期保留;将数据库数据备份恢复到租用的S80主机上,用于应急;将数据库数据备份恢复到 2号机(该机与主存储服务器相连接)上,内部测试业务正常后,方可进行下一步操作。将 1号机与外接磁盘阵列断开,接入到主存储服务器上,与2号机一起配置HACMP环境。如果在规定的每次季度结息时,通过对存储服务器的实时备份和快照备份所进行的实际数据环境的验证,那么才能将主存储服务器系统正式用于生产,但是要密切关注系统的运行情况,当存储服务器系统稳定运行一个月以后,拆除S80应急系统。
