当前位置:首页 > 工作总结 > [集成系统运维投标文件(含运维方案)]数据中心运维投标
 

[集成系统运维投标文件(含运维方案)]数据中心运维投标

发布时间:2019-07-24 09:47:58 影响了:

目录

一、法定代表人授权书 ............................................................................................................ 2 二、法定代表人或其授权代表身份证复印件 ........................................................................... 3 三、投标申请及声明 ................................................................................................................ 4 四、报价表 . .............................................................................................................................. 5 五、报价明细表 ....................................................................................................................... 6 5.1企业简介 ......................................................................................................................... 8 5.1.1公司概况 . .................................................................................................................. 8 5.1.2 公司资质 . ................................................................................................................. 8 5.1.3 管理与运作 .............................................................................................................. 8 5.1.4 发展目标 . ................................................................................................................. 8 5.2同类业绩情况: . ................................................................................................................ 8 六、投标单位资质证明文件(见下附件) ............................................................................... 9 七、运维方案 ......................................................................................................................... 10 7.1运维服务目标及服务范围 ............................................................................................. 10 7.2服务内容 ....................................................................................................................... 11 7.3运维人员组织架构 ........................................................................................................ 13 7.3.1运维组织结构介绍 ................................................................................................ 13 7.3.2运维成员职责 . ....................................................................................................... 13 7.3.3运维成员组织结构 ................................................................................................ 14 7.4 运维质量保证措施 ........................................................................................................ 15 7.4.1 质量控制管理 . ...................................................................................................... 15 7.4.2 进度控制管理 . ...................................................................................................... 15 7.5运维流程及服务方式 . .................................................................................................... 15 7.5.1 服务方式 . ............................................................................................................... 15 7.5.2运维流程 . ................................................................................................................ 16 7.6具体服务项目及输出文档 ............................................................................................. 19 7.6.1小型机、pc 服务器、网络设备及存储系统 . ............................................................ 19 7.6.2机房空调、UPS 设备运维服务 ................................................................................ 26 7.6.3数据库系统运维服务 .............................................................................................. 29 7.6.4中间件系统运维服务 .............................................................................................. 36 7.7应急服务响应措施 ........................................................................................................ 44 7.7.1突发事件应急流程 .................................................................................................. 44 7.7.2预防措施及处理办法 .............................................................................................. 46

一、法定代表人授权书

xxx :

本授权书声明:xxx 科技有限公司(投标单位)的xxx 董事长(法定代表人姓名、职务)授权xxx 销售经理(被授权人的姓名、职务)为本公司的合法代理人,就xxxxxx 项目投标及合同的签订,以本公司名义处理一切与之有关的事务。

本授权书于年 月 日签字生效,有效期天,特此声明。

法人授权代表签字: 法人授权代表身份证号码:

投标单位: xxx科技有限公司(公章) 法定代表人:(印鉴)

年 月日

二、法定代表人或其授权代表身份证复印件

三、投标申请及声明

致:xxx 投资咨询有限公司

根据贵方号招标文件,正式授权下述签字人 销售经理 (姓名和职务) 代表申报人xxx 有限公司(招标投标单位名称),提交下述文件正本一式壹份,副本一式叁份。据此函,签字人兹宣布同意如下:

1) 承认和愿意按照招标文件中的各项规定和要求,提供相应服务(服务期一年)。总报价为(大写): 元整(¥元) ,接招标单位中标通知书后10天内进场提供相关服务。

2) 愿意按照《合同法》和《中华人民共和国招标投标法》履行自己的责任和义务。

3) 如果我们申请书被接受,我们将履行招标文件中规定的每一项要求,按期、按质、按量完成任务。

4) 我们愿意提供招标人在招标文件中要求的所有资料。 5) 我们理解,最低报价不是中标的唯一条件。

6) 我们同意按招标文件规定,交纳投标保证金。遵守xxx 投资咨询有限公司有关招标的各项规定。 7) 我方的申请书在开标后60天内有效。

申报投标单位名称:xxx 有限公司 (盖章) 法定代表人:(印鉴)

年 月 日

四、报价表

招标单位: 项目名称: 总报价(小写): (大写):

其他说明:我公司将于签订合同7日后进场,提供优质维保服务

投标单位:xxxx 有限公司 (盖章)

法定代表人:xxxxxxx (盖章)

编 制 时 间:年 月 日

五、报价明细表

投标单位:(公章) 法定代表人(印鉴)

年 月 日

5.1企业简介

5.1.1公司概况

5.1.2公司资质 5.1.3管理与运作 5.1.4发展目标

5.2同类业绩情况:

附下页:

六、投标单位资质证明文件(附下页)

1) 企业法人营业执照复印件加盖投标单位公章; 2)税务登记证复印件

七、运维方案

7.1运维服务目标及服务范围

通过购买专业运维服务,进一步加强xxx 数据中心运行维护,对数据中心运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为数据中心运行维护工作提供专业的技术平台,满足xxx 大数据量安全存储的要求,可以满足多种应用运行环境稳定的要求,可以满足系统及数据高效、可靠和安全运行的要求,可以满足运行设备统一管理、及时的故障恢复的要求,可以保证在数据中心构建的应用系统和数据集中运行的设备平台正常运行,满足省本级数据库和应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现省本级信息化建设的可持续发展奠定集中统一的设施基础。

设备及软件清单:

7.2服务内容

依据客户提供的设备及软件清单,我公司对xxxxxx 提供如下服务内容:

7.3运维人员组织架构

7.3.1运维组织结构介绍

我公司将在此运维项目中投入业务水平高、技术能力强的运维人员和质量控制人员,采用xxx 公司严格规范的运维管理模式,进行全方位管理。

为了进一步确保运维项目的进度与质量,xxx 公司在项目运维阶段、质量管理、技术文档等方面进行严密规范的部署。

xxx 公司的运维队伍组成包括:

运维项目总负责人(常务总经理兼任);

运维管理委员会(项目经理、甲方代表、监理代表); 运维驻点服务小组; 技术支持专家组; 备品备件供应小组; 文档管理小组

7.3.2运维成员职责

项目经理职责:

项目经理受公司总经理任命和委托,全权负责运维项目合同的各项条款的履行。对运维项目的优质、高效、安全负全责。

驻点工程师职责:

1、负责对小型机、服务器、存储设备相关的申报事件进行处理和解决。 2、负责对小型机、服务器、存储设备提供日常性能和运行状况监控,对故障进行分析处理及建立完善预警机制。

3、负责保障机房服务器正常运行,遵循用户的安全保障管理要求。 4、接受用户对服务器维护事件的督办、检查,协助服务台完成对用户意见进行回访和事件统计、分析。对服务过程和反馈的意见进行改进,同时接受服务台的绩效考评工作。

5、及时提供服务器运行和问题处理情况,并向用户负责,并按周、月、季、年提交运维运维服务工作进度总结和计划。

6、负责整理和归纳服务器日常维护知识库,提交至运维服务平台。 7、负责整理和提交服务器运维过程资料和相关配套维护文档。

技术支持专家职责:

1. 为客户提供7×24小时的故障响应电话支持。

2. 接听客户服务热线电话和接收(电话/Email/Fax等)客户服务请求; 3. 通过网络或电话为客户提供即时的远程技术支持, 包括软硬件故障的诊断和排除, 客户端软件的安装和设置。

4. 协调多方服务团队,及时跟进未完成的服务请求并及时更新系统信息和状态;

备品备件管理员职责:

1. 组织实施备品备件的订购、运输及入库工作

2. 负责汇总待料备件,及时采购或调拨,并主动向项目经理说明待料原因、追踪处理。

7.3.3运维成员组织结构

针对本次维保项目我公司配备了5名专职人员具体如下表:

备注:人员证书附下页:

7.4运维质量保证措施

7.4.1质量控制管理

按照相应的ISO9001:2000国际质量体系标准及国家规定进行质量控制,还以相应的规范要求对设计质量,施工质量、材料和设备质量进行管理、要求、控制。

公司的施工阶段性内部验收制度,是质量控制管理的有利保证。工程的每一个阶段完成时,公司技术支持部门都要按有关部门规范和要求进行严格的内部验收。验收标准整体上高于用户验收标准。

7.4.2 进度控制管理

针对本次项目我公司结合客户要求做出如下运维计划:

具体输出见本投标文件7.6 具体服务项目及输出文档

7.5运维流程及服务方式

7.5.1服务方式

针对本次项目我公司为保证各系统的稳定可靠的运行我公司根据该项目的具

体要求提供三种方式的技术支持服务,分别为:现场服务、远程技术支持服务、针对甲方运维人员的技术培训服务。

现场服务

对客户的系统进行现场维护和巡检,驻点工程师对各个应用系统完成定期巡检,同时输出巡检报告提交给客户,驻点工程是还应对客户的故障设备进行维修和更换备件服务。为了让客户得到更及时和更快的服务,驻点工程师还提供7×24小时的故障响应电话支持。

远程技术支持服务

远程技术服务主要是通过电话或其他方式受理客户和驻点工程师的疑难问题,通过沟通来指导客户或驻点工程师解决问题,同时远程技术服务工程师还通过电话或者其他方式与客户主动沟通来提高客户管理和运维能力。

技术培训服务

为提高客户的运维人员的技术水平及运维管理能力,我公司将派遣具有丰富实施经验的技术专家定期对客户进行相关专业(主机、存储、数通、网络、安全、机房环境等)的培训。

培训可以采用灵活多样的方式如面对面交流、课堂授课、邮件沟通等。

7.5.2运维流程

我公司除培训服务外,为本项目提供两种服务方式:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。

1、技术人员现场值守运行维护服务的基本操作流程如下图所示:

2、定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:

7.6具体服务项目及输出文档 7.6.1小型机、pc 服务器、网络设备及存储系统

小型机、pc 服务器、网络设备及存储系统运维部分主要分为三部分,分别为小型机存储系统运维、pc 服务器运维、网络设备运维。

小机存储系统运维内容主要包含小型机设备、光纤交换机、存储设备三部分主要从以下几个方面进行维护:

1、检查设备各部件的状态灯; 2、检查并处理设备的错误日志; 3、硬件设备的全面检查; 4、网络配置的检查及测试; 5、操作系统性能分析;

6、核对各小型机配置信息,根据需要调整配置; 7、检查设备的微码版本; 8、检查存储设备运行情况;

针对如上要求输出如下检测报告:

存储系统设备巡检:

Pc 服务器运维内容主要包含设备硬件、操作系统、软件几个方面进行考虑。 PC 服务器巡检:

网络设备的运维内容主要包含交换机、防火墙以及负载均衡等相关设备 输出文档按照如下:

7.6.2机房空调、UPS 设备运维服务

为保证机房内各个应用系统的设备正常稳定的运行,良好的机房环境是非常必要的,我公司针对本次项目主要从机房空调系统、UPS 供配电系统,作为重点运维内容,同时对机房内的其他指标项进行检测如机房内温度、湿度、消防系统、新风系统等。

机房空调系统的运维内容主要遵循如下表单进行巡检:

备注:我公司巡检人员每周会严格按照机房空调巡检报告具体要求对客户的空调系统检测,为保证空调系统的工作正常,每年不低于2次的全面巡检,对故障配件进行检修,在日常维护中及时清理及更换过滤网和加湿罐等耗材,定期清理机房空调的室外机,检修内各供水管路及排水管路,杜绝漏水,保证管路畅通。在设备出现故障后,保证在48小时内恢复正常。

机房UPS 系统的运维内容主要遵循如下表单进行巡检:

备注:我公司巡检人员每周会严格按照UPS 巡检报告具体要求对客户的UPS 供配电系统进行检测,根据具体的检测结果对UPS 设

备进行合理维修,为保证UPS 设备的正常运行,每年至少进行一次全面巡检,巡检时检查蓄电池使用情况,在客户授权的情况下进行充放电,当UPS 设备发生故障时,应在72小时内恢复正常运行。

7.6.3数据库系统运维服务

针对数据系统的运维我公司提供如下解决方案:本方案适用于技术人员的日常运维工作。

ORACLE DB维护方法

数据库启动

1、以oracle 用户用户登录,

sqlplus ‘/as sysdba’ sqlplus> startup

2、以oracle 用户或ora816用户登录

sqlplus ‘/as sysdba’ sqlplus>startup nomunt sqlplus >alter database mount; sqlplus >alter database open;

3、第一种启动方式是最常用的手工启动方式,第二种启动方式是数据库有故障时常用的逐步启动方式,可以观察故障点。因为startup nomount 语句只读取spfile (server parameter file 数据库参数文件),启动instance ,启动SGA 和后台进程;alter database mount语句打开控制文件,确认数据文件和联机日志文件的位置,但此时不对数据文件和日志文件进行校验检查;alter database open 打开包括Redo log文件在内的所有数据库文件,这种方式下可访问数据库中的数据。Startup 完成功能是上述三条语句的之和。 数据库停止

1、 sqlplus ‘/as sysdba’

sqlplus>shutdown normal 正常方式关闭数据库。 2、shutdown immediate

立即方式关闭数据库, 在 SQLPLUS中执行shutdown immediate,数据库并不立即关闭,而是在所有事务执行完毕并提交工作后才关闭,所以可能会等待,因此在关闭数据前要停掉连接到数据库的所有应用程序。建议日常维护工作中的关闭数据库,采用此方式。

3、shutdown abort

直接关闭数据库,正在访问数据库的会话会被突然终止。如果数据库中有大量

操作正在执行,这时执行shutdown abort 后,因日志回滚、前滚(Roll Back/Roll Forward ),下次重新启动数据库需要教长时间。当用shutdown immediate不能关闭数据库时,shutdown abort可以立即完成数据库的关闭操作。 监听器的启停

1、监听器的启动,以oracle 用户用户登录

lsnrctl start [$ORACLE_SID]

2、监听器的停止,以oracle 用户用户登录

lsnrctl stop [$ORACLE_SID]

3、监听器状态的查看,以oracle 用户用户登录

lsnrctl status [$ORACLE_SID]

4、检测服务名是否有效,在操作系统下运行

tnsping SERVICE_NAME NUMBERS

SERVICE_NAME为你建立的服务名,NUMBERS 为你要试PING 数据库服务的次数 用户管理

1、用SQL 语句查看系统中已有用户情况 select * from dba_users;

2、增加新的用户,并授予连接和资源权限,只有授予连接权限才可登录,授

予资源权限才可建表和修改

create user USERNAME profile defaultidentified by PASSWORD default tablespace DEFALUT_TABLESPACE_NAME temporary tablespace TEMP_TABLESPACE_NAME ; grant connect to USERNAME; grant resource to USERNAME;

3、修改用户口令

alter user USERNAME identified by NEWPASSWORD;

4、删除用户

drop user USERNAME;

5、限制某个已有用户会话的连接数(通过创建profile 的方式)

create profile PROFILENAME limit sessions_per_user

CONNECT_NUMBERS;

alter user USERNAME profile PROFILENAME; 数据库参数文件 1、参数文件位置$ORACLE_HOME/dbs/spfileINSTANCE_NAME.ora,参数主要分为动态参数和非动态参数,动态参数修改够直接生效,非动态参数需要重新启动数据库才能生效。

2、 修改参数的方法

altersystem set PARAMETER_NAME = VAlUE scope=both(system/spfile)

3、几个重要的参数 A 、db_block_size 数据库块大小,数据库创建时决定,创建后不能修改。 B 、db_block_buffers 数据高速缓冲区大小为此值与db_block_buffes的乘积,该区越大越好。

C 、share_pool_size 程序高速缓冲区和数据字典缓冲区的大小,主要用于存储执行过的sql 语句,减少重复分析,提高运行速度。该区也越大越好,但建议数据高速缓冲区加上程序高速缓冲区和数据字典缓冲区的大小(即SGA )一般不超过系统物理内存的50%。

D 、sort_area_size 每个会话用于排序操作的内存大小,建议为默认值的两倍到1M 之间。

E 、process 能同时访问数据库的最大进程数,根据连接数的多少,来设定,一般为300以上。

F 、db_io_slaves 后台写进程数 对I/O比较繁忙的数据库,可以将其设为多于1个。

(以上参数以9i 为参考,在10g 里个别参数名有所变化)

数据库概况的查询

1、表空间的情况

select tablespace_name,stauts from dba_tablespaces;

2、数据文件的情况

SELECT FILE_NAME,FILE_ID,TABLESPACE_NAME FROM DBA_DATA_FILES;

3、段的情况

SELECT SEGMENT_NAME,,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS FROM DBA_ROLLBACK_SEGS;

4、表、存储过程的拥有者名字和创建日期

select owner,object_name,object_type,created from all_objects

where object_type=’TABLE ’OR OBJECT_TYPE=’PROCEDURE" 5、其他常用的视图和表 v$lock 锁的情况 v$session 会话的情况 v$process 进程的情况 v$parameter 数据库参数 v$rollname 回滚段的情况 v$sqlarea 共享池中的SQL 语句 v$waitstat 等待的会话 dba_jobs 数据里定义的作业 dba_jobs_running 数据库里正在运行的作业 dba_views 数据库中所有视图的文本 dba_indexs 数据库中所有索引的描述 dba_free_space 数据库中所有表空间自由分区 dba_db_links 数据库中所有数据库链接 常用对象的创建和使用 1、表的创建(在表空间zy 上创建表dhhm 为例) create table dhhm

(hm varchar2(11) ,

yhmc varchar2(60)) tablespace zy;

2、索引的创建(将DHHM 表上hm 字段建立索引hmsy 存储在表空间zy 上为例) create index hmsy on dhhm(hm) tablespace zy; 3、已有存储过程、函数、包源代码的查找 select name,text from user_source where name=NAME;

4、数据库链接的创建和使用

create public database link DBLINKNAME.world connect to USERNAME identdied by PASWORD using SERVICENAME;

select * from TABLE_NAME@DBLINKNAME;

5、同义词的创建和使用(以dyh 用户可以查询并修改yyxt 用户的dhhm 表为例)

cratesynonyn dyh.dhhm for yyxt.dhhm;

grant select on yyxt.dhhm to dyh;

grant update on yyxt.dhhm to dyh;

失效数据库对象的检测和编译

1、失效存储过程的查找和编译

select "alter procedure"||object_name||" compile;" from

user_objects where status = "INVALID" and object_type="PROCEDURE’ 然后复制粘贴并执行第一条语句的输出结果

2、失效的包的查找和编译

select "alter package"||object_name||" compile;" from

user_objects where status = "INVALID" and object_type= "PACKAGE’ 然后复制粘贴并执行第一条语句的输出结果

表空间的管理

1、查看所有表空间大小和使用率

select a.tablespace_name,sum(a.bytes)/1024/1024 "total size(M)",

round(10000*(sum(a.bytes)/1024/1024-sum(b.bytes)/1024/1024))/

1000"used size (M)",

round(10000*(sum(a.bytes)/1024/1024-sum(b.bytes)/1024/1024)/

(sum(a.bytes)/1024/1024))/100 "percent %"

from dba_data_files a,(select tablespace_name,file_id,

sum(bytes) bytes

from dba_free_space group by tablespace_name,file_id ) b

where a.tablespace_name=b.tablespace_name

and a.file_id=b.file_id group by a.tablespace_name;

2、使用文件系统的表空间扩展

alter database TABLESPACE_NAME add datafile FILE_NAME size SIZE;

3、用裸设备表空间的扩展

alter database TABLESPACE_NAME add datafile RAW_DEVICE_NAME size SIZE; 这里需要注意的是裸设备要提前建立后,且这里使用的是裸设备的字符文件

(类型为C ),SIZE 值要比其实际大小要稍微小一些。

4、集群中,在某一台主机上共享卷组上增加文件系统和裸设备后,一定要 同步到集群中另外的主机,否则当数据库在另外的主机中启动时,会找不着相应的设备号,导致数据库不能够被打开。

5、查找表空间的剩余空间块数以及最大空闲块的大小,如果碎片过多或最大空闲块过小,需要手工合并表空间碎片

select tablespace_name,count(*)

"free block number",trunc(sum(bytes)/1024/1024)

"total free size(M)",trunc(max(bytes)/1024/1024)

"max block(M)" from dba_free_space group by tablespace_name;

6、手工合并某表空间碎片

alter tablespace TABLESPACE_NAME coalesce;

数据文件I/O的统计优化

col 文件名 format a35;

select

df.name 文件名,fs.phyrds 读次数,fs.phywrts 写次数, (fs.readtim/decode(fs.phyrds,0,-1,fs.phyrds)) 读时间, (fs.writetim/decode(fs.phywrts,0,-1,fs.phywrts)) 写时间

from v$datafile df,v$filestat fs

where df.file#=fs.file#order by df.name;

错误号的跟踪出理

1、在操作系统级显示其错误详细信息和常用解决办法以报ora_4031错误为例)

$>oerr ora 4031 2、有时为了进一步跟踪其错误,让其产生更详细的告警日志在用户报警文件里,需要在数据库的初始化文件里加下面一句配置,并重新启动数据库

event = "4031 trace name errorstack level 3"

这里注意的是,跟踪完毕后,应将此句话屏蔽掉,以免影响数据库性能。 ORACLE 数据库日常检查

1、登录到主机上利用sqlplus 检查是否可用;

2、数据库告警日志的检查

$ORACLE_HOME/admin/INSTANCE_NAME/bdump/alert_INSTANCE_NAME.log

此文件中记载数据库的启动、停止、系统级修改、告警信息、日志切换,是日常维护中的重要依据。

会话连接日志的清理

会话连接日志$ORACLE_HOME/network/log/listener.log,此文件中记载着每个连接登录时的IP地址和时间等情况,可作为监测的依据,因为此文件不断增大,需要定期清空,清空方式为在$ORACLE_HOME/network/log目录下运行操作系统命令

>listener.log。

数据库hang 住时的停止和方法

在某个帐务数据库发生故障时,在将其对应的服务和后台帐务应用停完后,需要数据库重新启动,具体停止方法如下:

$lsnrctl stop

$kill –9 `ps –ef|grep LOCAL=NO|grep –v grep|awk ‘{print $2}’`

$sqlplus ‘/as sydba’

sqlplus >alter system switch logfile;

sqlplus >shutdown immediate

启动方法为:

$sqlplus ‘/as sydba’

sqlplus >startup

$lsnrctl start

扩表空间方法

方法一:利用图形化得OEM 工具来扩,选择存储管理的表空间;

方法二:利用脚本:

alter database TABLESPACE_NAME add datafile RAW_DEVICE_NAME size SIZE;(注:三个大写字符串是需要变化的具体值)

这里需要注意的是裸设备要提前建立,且这里使用的是裸设备的字符文件(类型为c ),SIZE 值要比其实际大小要稍微小一些,如设备大小为15M ,语句里就不能使用15M ,只要比15M 小10K 左右就可以。

相关通用工具介绍

Enterprise Manager (EM )

EM 是用于Oracle 数据库管理的一个功能强大的工具,并且可以通过IE 访问连接,使用EM 可以完成大部分的数据库管理工作。

1. 作为 oracle 用户登录到操作系统上。执行以下命令来启动 dbconsole 进程: emctl start dbconsole

EM 启动后可以通过登录以下URL 来连接:

https://localhosts:5500/em

2. 通过执行以下命令来检查 dbconsole 进程的状态:

emctl status dbconsole

3. 停止 dbconsole 进程:

emctl stop dbconsole

7.6.4中间件系统运维服务

中间件系统运维主要组从如下几个方面进行:根据客户要求我公司从如下几个方面进行巡检:

1、操作系统版本

AIX

# oslevel –r 或者

# oslevel –s 或者

2、WebShpere 版本以及补丁级别

查看版本方法如下:

方法一:

如果websphere 启动了,那么可以用浏览器访问console, 欢迎页面右上角就

写有相关信息,默认情况使用https://ip:9090/admin登陆

方法二:

如果是WebSphere 6.1,则记录在

/properties/version/WAS.product,

如果WebSphere 7.0,则记录在

/properties/version/BASE.product

方法三:

执行WebSphere Application Server安装目录的bin 目录下的versionInfo 命令,由输出信息可以查看到WAS 的产品信息。

Windows 平台执行versionInfo.exe

Unix 和Linux 平台执行versionInfo.sh

这个将会看到非常详细的信息,推荐使用该方法

cd /bin

versionInfo.exe

3、查看WAS 的JDK 版本

方法一:通过SystemOut.log 文件查找

查看任意慨要文件(profile)下的SystemOut.log 文件,此文件包含WebSphere Application Server 产品相关信息, 包括JDK 的版本信息。/logs/server1/SystemOut.log

方法二:通过从命令行运行 java –version

/java/bin/java -fullversion

4、查看web 服务器版本信息

Windows 平台上的IBM HTTP Server的版本信息,运行apache.exe –v C:\Program Files\IBM HTTP Server\bin>apache -v

Server version: IBM_HTTP_Server/6.0 Apache/2.0.47

Server built: Nov 4 2004 10:11:21

Unxi 和Linux 平台上的IBM HTTP Server的版本信息,运行httpd –v httpd -v

Server version: IBM_HTTP_Server/6.0 Apache/2.0.47

Server built: Nov 4 2004 10:11:21

5、JAVA 堆

一般JVM 大小设置为1G ,使用以下过程来设置 JVM 堆大小:

选择服务器-> 应用程序服务器-> Server1-> 进程定义->Java 虚拟机 滚动到初始堆大小和最大堆大小字段并设置值。

单击确定以保存更改。

6、系统运行日志

WebSphere5.0,5.1

/AppServer/logs

WebSphere6.0,6.1

/AppServer/profiles//logs

下面2个是出了故障后,进行定位的,导出内存内容的,检查配置参数。

7、Java core

通过分析javacore 可以获得jvm 中当前运行的线程情况,分析不同时间的javacore 文件,可以分析出一些死锁的问题

文件直接看,或者使用ThreadAnalyzer 查看

选择服务器-> 应用程序服务器-> Server1-> 进程定义->环境条目

滚动到IBM_JAVADUMP_OUTOFMEMORY查看属性定义,然后找到相关文件

8、Heap dump

通过分析heapdump 可以获得jvm 内存中当前的对象分布情况,从而查找解决内存泄漏的问题。heapdump 文件似乎只有在内存泄漏的时候才会生成,因为要将内存中的数据写道文件,所以当堆大小设置比较大的时候,这个过程会要比较长的时间

选择服务器-> 应用程序服务器-> Server1-> 进程定义->环境条目

滚动到IBM_HEAP_DUMP_OUTOFMEMORY查看属性定义,然后找到相关文件

一、 确认磁盘空间是否满足要求

1、 WebSphere 应用服务器自身代码的占用空间。这个空间一般在1G 左右,在不同的系统平台上略有差异。

2、 概要文件所占的空间。WebSphere 应用服务器V6.1创建的概要文件基本类型有3种,每个概要文件所占用的空间如下:应用程序服务器(Application Server) :在WebSphere 应用服务器安装没有选择安装样本程序时,这一概要文件所占磁盘

空间约为200M ;Deployment Manager :30M ;定制概要文件(Custom ,即node agent ):10M 。

3、 如果要安装WEB 服务器,则在WEB 服务器所在服务器上要预留WEB 服务器所占的磁盘空间。IBM HTTP服务器一般占用110M 左右的空间。

4、 如果安装WEB 服务器,则在WEB 服务器所在机器上通常也要安装Web Server Plug-in 组件,该组件所占磁盘空间约为200M 。

5、 WebSphere 应用服务器系统日志的占用空间。日志空间的估算要结合系统对日志的配置情况。WebSphere 应用服务器的主要日志有SystemOut.log ,SystemErr.log 。我们可设置日志文件的大小和保存的历史日志文件数量,从而可以估算出其需要的空间。

6、 如果有WEB 服务器,需考虑WEB 服务器的日志空间。如果客户开启了WEB 服务器的访问日志access.log (默认开启),此日志增长的速度极快,要预留足够的空间。

7、备份文件需要的空间。WebSphere 应用服务器提供了一个备份命令(backupConfig.bat/sh),用来备份应用服务器的配置及其上应用。我们建议在系统稳定之后及时备份。对于一个典型生产系统,WebSphere 应用服务器这个配置文件经常超过100M 。可在发出backupConfig 命令时,使用-logfile 参数指定该备份文件的存放位置。

8、系统出错时日志,例如,JVM 在发生OutOfMemory 时,在大多数平台上WebSphere 应用服务器会默认写javacore 文件和heapdump 文件,记录错误出现时的JVM Heap 、线程情况,以备错误诊断使用。虽然可以调整应用服务器参数使之不产生此类文件,但为了分析问题,通常需要从此类文件入手。这类文件通常都特别大,例如heapdump 文件,可能达到几百M 。如果多次出现OutOfMemroy ,对磁盘空间的占用很快。因此,必须考虑为此类文件预留磁盘空间。

9、 WAS安装程序还需要在系统的临时目录/tmp中有100M 以上的空闲空间。

10、 用户发布到WebSphere 应用服务器上所有应用程序以及应用自身的应用日志的占用空间。这个大小与实际应用相关,而且不同应用可以差别很大。

二、日常管理任务

1、查看/更改应用服务器端口

更改应用访问端口

默认情况下,WAS 的管理控制台和应用访问是两个不同的端口。访问WAS 的管理控制台或者WAS 上部署的应用,所使用的端口由应用服务器端口以及虚拟主机决定。假设我们要把应用访问的端口从9080变成9082(实际工作中,如果没有Web 服务器,有的环境会希望把应用访问端口变成80,方法类似),则按如下步骤进行:登陆WAS 管理控制台,选择 左边菜单 服务器 - 应用服务器,点击 server1,选择“端口”,点击“WC_defaulthost”,修改端口为自己想要的任意端口(注意避免端口冲突),例如,9082。然后点击“确定”。然后“保存”。

更改WAS 管理控制台端口

登陆WAS 管理控制台,选择 左边菜单 服务器 - 应用服务器,点击 server1选择“端口”。然后更改WC_adminhost为自己希望的管理控制台端口。然后点击“确定”、“保存”。选择 左边菜单 环境 - 虚拟主机,点击;然后选择admin_host,选择“主机别名”。把原有端口9060改成与前面应用服务器/端口/WC_adminhost一致的端口,例如,9063。或者点击“新建”,创建一个主机别名 *, 9063。然后“确定”,“保存”。目的就是要让 应用服务器/端口/WC_adminhost的端口出现在 虚拟主机/admin_host的主机别名列表中。

2、管理安全性

(1)启用管理安全性

启用管理安全性将激活用于防止未经授权的用户使用服务器的设置,简单来说,进入管理控制台、更改应用服务器配置、停止应用服务器进程这些管理任务,都需要输入预先定义的用户名和密码才能完成。缺省情况下,创建概要文件时会启用管理安全性。如果在创建概要文件时没有选择“启用管理安全性”,在随后使用过程中又希望启用,则可按如下步骤进行:

首先进入控制台,例如:https://was_ip:9060/admin,注意这里登陆的用户一定要是设置安全性的用户。例如,admin 。选择“安全性”>“安全管理、应用程序和基础结构”,然后点击“安全配置向导”。为了配置的简便性,在“指定保护范围”中,可以不选择“使用 Java 2 安全性来限制应用程序访问本地资源”;在“选择用户存储库”中接受默认选项,用户存储库为“联合存储库”,点击“下一步”;在配置用户存储库中填入用户名、密码。如果您是第一次启用管理安全性,则输入一个新的用户名(您登陆管理控制台的用户名)和密码。这个用户名密码是任意的,并不要求是操作系统用户,因为联合存储库默认的用户条目来自于文

件;如果以前曾经使用该存储库启用过管理安全性,则使用存储库中持有管理员特权的用户名和密码。点击“下一步”、“完成”。保存之后重启应用服务器,这时登陆管理控制台等就需要提供您预定义的用户名/密码了。

(2)停用管理安全性

停用管理控制台很简单,不选择“启用管理安全性”,点击“应用”,保存并重启应用服务器即可。有一种特殊情况下,特如忘掉了管理员密码,此时我们无法登陆管理控制台,从而无法在管理控制台中停用管理安全性。这时,可从$WAS_HOME/profiles/xxx概要文件名/bin目录下,发出如下命令: wsadmin -conntype NONE 。当wsadmin 的命令行窗口出现之后,发出下列命令: securityoff 。上述操作在应用服务器启动或停止的状态都能发出。再次启用WAS 时,就是停用管理安全性的状态了。

(3)更改管理员密码

当我们需要更改管理员密码时,可以选择“用户和组”>“管理用户”,在搜索内容为“*”时点击“搜索”,会列出该存储库中的所有用户。选中管理用户标识,可更改该用户的密码。更改即时生效。

(4) 停用管理安全性

停用管理控制台很简单,不选择“启用管理安全性”,点击“应用”,保存并重启应用服务器即可。有一种特殊情况下,特如忘掉了管理员密码,此时我们无法登陆管理控制台,从而无法在管理控制台中停用管理安全性。这时,可从$WAS_HOME/profiles/xxx概要文件名/bin目录下,发出如下命令: wsadmin -conntype NONE 。当wsadmin 的命令行窗口出现之后,发出下列命令: securityoff 。上述操作在应用服务器启动或停止的状态都能发出。再次启用WAS 时,就是停用管理安全性的状态了。

(5) 更改管理员密码

当我们需要更改管理员密码时,可以选择“用户和组”>“管理用户”,在搜索内容为“*”时点击“搜索”,会列出该存储库中的所有用户。选中管理用户标识,可更改该用户的密码。更改即时生效。

(6) 忘记管理员密码

如果忘记管理员密码,我们无法进入管理控制台更改密码。此时,需要先用“停用管理安全性”一节中wsadmin 命令的方法,停用管理安全性,然后“更改

管理员密码”,再次“启用管理安全性”即可。

(7) 创建更多的管理用户

使用启用管理安全性的WAS 环境时,默认情况下只有一个管理员ID ,这意味着同一时刻只有一个人能登陆管理控制台。这对于多人开发小组在同一WAS 环境发布测试时并不方便。您可先在存储库中创建一个用户,然后为该用户ID 分配相应的管理角色。具体步骤如下:1)选择“用户和组”>“管理用户”,点击“添加”,添加一个用户ID ,例如,admin1。保存。 2) 选择“用户和组”>“管理用户角色,填入用户名(必须是在存储库中已经存在的用户名),选择相应的管理角色,例如,“管理员”。点击“确定”,保存。这样,下次重启WAS 时,两个用户都能同时登陆管理控制台。

3、备份/恢复概要文件

生产环境、概要文件配置过于复杂或经常更改时,需要定期备份概要文件,以便必要时快速恢复。您可使用backupConfig 命令备份配置文件。例如,要备份概要文件AppSrv01的当前配置,可以从$WAS_HOME/profiles/AppSrv01/bin目录下,发出命令 backupConfig,它会将AppSrv01当前概要文件默认生成一个压缩包,您也可以指定该压缩包的名称,例如:backupConfig WebSphereConfig_2007_05_30.zip。恢复配置时,使用restoreConfig WebSphereConfig_2007_05_30.zip。

4、正确卸载WAS

需要提醒的是,WAS 的卸载过程不是直接删除目录,如果这样做,下次你可能无法在同一台机器上成功安装WAS 。在卸载WAS 之前,先停止机器上的WAS 进程,用ps –ef |grep java 确保没有was 进程在运行。然后,执行WAS_HOME/uninstall/uninstall.sh命令卸载WAS 。如果因为某些特殊原因卸载向导引导的卸载过程没有成功(例如,您直接删除了WAS 安装目录),或者您希望在同一目录再次安装WAS ,请参照信息中心“手工卸载”给出的建议。

应用部署通常会涉及如下几个任务:配置应用所需要的环境:如系统变量、虚拟主机、类路径、安全性等等;配置应用所需要的资源如JMS 资源、数据源等。其中,需要注意的是:

(1)应用打包:部署在 WebSphere 应用服务器上的应用可以是打包的*.ear/*.war文件,也可以是未打包但符合J2EE 规范要求的组件。在生产环境中,

推荐使用打包的*.ear/*.war文件,便于版本控制和管理。对于复杂项目中多个J2EE 组件的打包,请参见文章“关于J2EE 应用开发项目包的管理”。

(2)管理 Utility Jar 包:大多数J2EE 应用都会有一些公用的Utility Jar 包,首先要强调的是:一定要避免在同一个类载入路径下存在同一个类的多个版本!这会在实际运行中带来很多莫名其妙且难以诊断的问题。其次,对于JDBC 驱动这类通用等级较高的Utility Jar包,可以放置在/lib/ext目录下;对于多个应用共享的Utility Jar,可以放在 /lib/ext中,也可以放在shared lipary(共享库)中,推荐放在shared lipary中;对于单个应用使用的Utility Jar,可与应用打包在一起,或放入shared lipary中。共享库的使用能够避免Utility Jar包多个版本的混乱,以及Utility Jar包的冲突。共享库配置方法请参见红皮书sg247304 12.5.4 Step 4: Sharing utility JARs using shared liparies章节。

(3)Jar 包冲突:Jar 包冲突问题在大型Java 软件开发中经常遇到,简单的说,当不同应用使用的公用Utility Jar包、应用服务器底层的Jar 包中存在同名、且版本不同的类时,我们称之为Jar 包冲突。这种问题的解决办法可以参考文章如何在WebSphere 中解决Jar 包冲突 。

(4 )会话超时:针对应用场景的不同,不同应用期望的会话超时时间各不相同。WebSphere 应用服务器的会话管理分为Application server、Application 、Web Module 三个级别。顾名思义,在每个特定级别上更改的会话管理的配置,对当前级别起作用。部署在WebSphere 应用服务器上的应用,默认的会话超时时间为30分钟,默认的会话管理级别是Application Server。如果您期望更改您的应用,例如,DefaultApplication 的会话超时时间,可按如下步骤进行:选择应用程序>应用程序名>会话管理,选择“覆盖会话管理”,并在“设置超时”中填上期望的会话超时时间。点击“确定”保存即可。

(5)环境变量设置

当应用需要通过写Java 环境变量的方式配置一些变量时,可在应用服务器启动脚本中用-D 参数指定,也可以在应用程序服务器 > 应用程序服务器名(例如,server1) > 进程定义 > Java 虚拟机中设置“通用JVM 参数” -Daaa=xxx。

7.7应急服务响应措施

7.7.1突发事件应急流程

在日常运维中可能会出现突发事件,一旦出现如下问题我公司将遵循应急流程处理突发事件。

突发事件的来源,可能来自三个途径,第一巡检维护过程中发现、第二设备运行发生告警、业务部门反馈,一旦发生驻点工程师第一时间告知客户,并将具体的情况一同告知,以最快速度联系公司相关技术专家和公司相关高层领导,与专家进行充分沟通初步定为故障,并将故障定级,同时告知客户,如遇到驻点工程师无法解决的故障时,公司内相关领域技术专家会以最快速度赶到事故现场进行故障处理,直至问题解决,在问题解决之后。由技术专家和驻点工程师共同完事件问题报告,将事故的发生原因,处理的方式,已及如何避免再次发生的方法进行详细记录,录入客户的运维管理文件中,同时由公司技术专家完成将此案例录入公司内部知识案例库,作为以后借鉴依据,当事故处理完毕后,由驻点工程师或技术专家讲结果告之客户和公司相关领导。

具体流程详见下图所示:

7.7.2预防措施及处理办法

系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,设计了完善的突发事件应急策略。

系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。

当获悉出现突发事件时,驻点工程师可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,与公司技术专家沟通,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3