当前位置:首页 > 工作总结 > 如何做好it运维管理 [报业集团IT运维管理平台建设思路]
 

如何做好it运维管理 [报业集团IT运维管理平台建设思路]

发布时间:2019-07-18 03:57:06 影响了:

  随着浙江日报报业集团业务系统  向多元化结构发展,新媒体技术及报业信息化技术也发生日新月异的变化,集团信息化网络的规模越来越大,报业出版及发行等业务系统越来越多。这直接推动Web服务器、应用服务器、数据库以及服务器虚拟化的应用快速发展,IT部门的重要性也不断提升的同时, IT运维面临的挑战也更加复杂化。如,原有的机房已经不能满足现有信息化设备的发展;日益增多的信息化终端设备和放开的USB设备权限导致病毒攻击、流量异常的情况增多;众多的业务系统和需要开启的远程监控窗口,易出现抢桌面和重复开启服务的状况;IP地址冲突以及IP地址不够用等现象。
  如何能将现有的IT管理小软件进行资源整合,实现统一平台的集中管理,做到跨域扫描IT运维管理体系,并通过制定相应的流程规范来合理、高效的调配资源,使IT运维管理架构与集团业务系统的管理架构相统一,并将网络拥塞状况直观展现,为管理者和运维工作人员决策提供参考。这将是IT运维监控系统建设项目的总体目标。
  总体设计思路
  为更合理地配置网络资源、更好地管理网络IP资源,及时统计用户访问量、网络带宽分析、机房环境预知和巡检等,针对集团的实际情况,我们研发了IT运维综合管理平台(IT Operation Management platform,ITOM),为技术管理者提供了多管理领域的全方位解决方案。IT运维综合管理平台的设计主要分三个:
  1.信息采集层。包含故障性能信息采集和故障信息采集。性能信息采集是对运行在服务器的中间件、数据库以及应用程序的监控。通过在被管理设备上安装监控程序的方式,然后将来自ICT内各部分的信息标准化为通用格式,实时保存为逻辑分析提供信息基础。包括发现网络拓扑,通过网络运行状况监控,判断网络的运行质量、运行效率、网络流量以及连通率信息等。
  在信息采集层采集到的故障信息通常是逻辑故障信息。采集是通过接收IT基础设施发送的标准日志,同时辅以主动对设备轮询,将所收集的故障时间发送给探针,提交给事件管理器进行信息汇总。而其他类网络故障判断需要通过在信息处理层完成。初始故障等级判别是根据信息汇聚层收集上来的事件,级别定义。
  2.信息处理层。按照事先设定的业务模型规则,将信息采集层收集的海量数据进行数据分析、数据关联、数据处理,使得看似无序和不同类的事件,通过事先定义的业务模型规则,对信息采集层所采集到的信息进行根源分析和对比,达到故障定位的目的。
  网络故障判断在信息处理层须根据默认的规则定义,通过告警系统中的Automation 自动引擎,对故障事件进行分析和计算,经过数据关联和处理后,得出的网络故障判断,生成故障结果表单。例如端口流量、错报和丢包发生率、广播包与非广播包的多少来对设备阀值设定,超过预设参数进入故障结果表单。
  3.信息应用层。数据应用层对日常运维的性能参数通过图表的方式反映出来,包括流量报告、故障分析报告、网络监控平台、统计分析报告等。
  ITOM基于WEB方式的管理界面,允许维护人员通过浏览器方式查看业务运行状态和告警信息,支持界面的个性化定制。监控平台可实时监控包括网络状态、设备状态、业务主机状态、链路状态、性能管理、流量管理等信息。
  支持多种应用接口,包括WebService接口、API接口、文件接口、码流接口等,集成多种第三方管理应用的综合数据接入,在同一平台上予以展现,是全域IT运维管理的决策支持系统。
  十大功能描述
  1.T运维管理平台采用 ITIL的标准。
  ITIL(IT Infrastructure Librry 信息技术基础架构库)是英国各个行业在IT管理方面的最佳实践归纳起来变成规范,它结合流程、人员和技术三要素,为企业的IT部门提供一套从计划、研发、实施到运行维护的最佳实践方案,可以引导组织高效和有效地使用技术,让既有的信息化资源发挥更大的效能。
  ITIL实际上是建立在业务和技术之间的桥梁,框架图如图1所示:
  ITIL含服务支持和服务提供两部分,对应的10个管理流程是IT运维管理的核心过程,如图2所示:
  围绕十个管理流程,并通过服务级别协议(SLA)来保证IT服务的质量,IT运维管理平台的结构图如图3所示。
  2.分级用户管理,不同用户拥有不同子域、子系统的使用权限。
  不同用户的分级管理通过统一入口授权完成,管理者、IT运维人员登录系统后分别可以查看对应角色的子系统信息,如网络管理员可以看到对应的机房监控数据和网络拥塞信息,资产管理人员可以对资产信息扫描和登记,实现真正意义上的分级管理。
  3.网络状况可以做到实时监控,核心设备做负载均衡。
  网络部分设备采用双核心双链路热备连接,这种接法的网络经系统智能分析后生成的网络拓扑图与真实物理拓扑结构略有出入,经人为修正后形成集团的网络拓扑图,真实反映整个网络的运行状态,直观反映设备的分布情况、负载状况和设备属性,以及线路的实时流量,同时通过负载均衡动态平衡;流量异常或者超负荷时会有颜色显示,告警网管关注点,动态预警可能存在的故障隐患。
  网络平台管理对核心及汇聚等重要设备的UP/DOWN、CPU负载、线路负载等重要指标做告警设置,对核心业务服务器的操作系统参数(系统范围的CPU 使用情况、磁盘和I/O 使用情况、文件系统资源、日志文件等)实施告警监控,协助IT运维人员诊断和排除相关问题。同时可以提供灵活的警报条件定义,生成基于Web的报表,为工作人员进行应用系统的性能分析及系统优化提供依据。
  通过ITOM读取在AIMS Server上集中创建生产主机环境的基线数据库,实时监控核心业务服务器的系统环境和应用环境,减少长期运营维护费用、降低危害攻击的可能性,保证了生产环境的稳定和核心业务数据的安全。
  4.值班机房做到无人值守。
  ITOM通过读取第三方厂商监测的机房温度数据、湿度数据、UPS电源信息等各类指标,若超出阀值信息发出警告,从而可以在无人值守的情况下,消除机房管理中的安全隐患。

猜你想看
相关文章

Copyright © 2008 - 2022 版权所有 职场范文网

工业和信息化部 备案号:沪ICP备18009755号-3