本帖最后由 monicazhang 于 2015-8-27 13:46 编辑
20150827 淡然 续上
4 流程支持技术
4.1 网络管理工具
4.1.1 功能需求· 自动发现和监控网络节点:可自动发现网络节点、自动产生网络拓扑图,并对网络事件进行处理; · 分布式和可伸缩:由于某公司的网络系统比较庞大,应可分配采集器,采集器可向分布在广域网上的一个或多个管理器报告发现设备的情况与设备变化的情况,只有重要的数据才被传往管理器,这样减少了全网的信息流量,从而最大限度地节约网络带宽; ITSS考试 · 拓扑过滤:图象过滤功能使某公司可以根据自己的需要,选择要发现监控的对象,定制MAP,按一定的共同特征将被管对象进行分组; · 动态监测网络: 自动发现和监控机制能够发现网络节点,动态检测网络连接,生成和保持TCP/IP网络图,可确定网络设备的运行状态; · 网络诊断:可协助网络管理员分析网络的运行状态,快速排除可能的故障。
4.2 诊断与健康检查工具
4.2.1 功能需求· 监视关键系统资源的使用情况:例如,CPU的利用率、交换区的利用率、内存的利用率、网卡的使用情况及文件系统的使用情况等,通知系统管理员注意这些变化。 · 设置阀值:当所定义的变量超出阀值时,能够立即向指定的管理中心发出报警信息,同时在本地执行指定的命令程序; · 监控关键进程的状态;
4.3 数据库和应用系统管理工具4.3.1 功能需求· 监控各种数据库资源和活动; · 对异常和超过阈值事件的报警和响应,通过消息组和消息浏览器观察消息,通过动作窗口定义对事件的响应; · 对数据库和应用系统可实行集中监控,一旦应用或事务处理发生故障,可向操作人员发出报警,并存储相应的报警信息,以备分析和生成统计报告使用。
4.4 备份与恢复工具4.4.1 功能需求· 能够将服务器或客户端的数据存储到备份介质上; · 验证备份介质上存储的数据可读; · 可以从备份介质上恢复备份的数据; · 能够按照预定的备份方案自动执行备份,减少操作人员的干预; · 备份活动可集中管理和调度; · 备份与恢复工具应支持多种主机、应用、存储和数据保护方法,可根据需要进行灵活配置;
4.5 存储管理工具4.5.1 功能需求· 集中式的故障排除:集中式的管理控制台使操作员无需通过每台运行设备来解决问题; · 简便的状态监控:及时发现报警和警告信号,进一步迅速隔离事件; · 可自动发现存储中的改变,确保系统达到最高的可用性; · 可实时查看存储容量的分配和使用; · 可控制存储资源的使用,及时对潜在的容量短缺发出报警;
4.6 可选工具清单功能需求
| 可选工具
| 网络管理工具
| Micromuse Netcool HP Openview Network Node Manager (NNM) Cisco Ciscoworks 2000 IBM Tivoli Netview CA Unicenter Network and System Management 等
| 诊断与健康检查工具
| HP Openview Operation (OVO) HP Performance Manager HP Insight Manager IBM Tivoli Monitoring 等
| 数据库与应用系统管理工具
| HP Openview Operation (OVO) HP Openview SPI IBM Tivoli Monitoring for CA Unicenter Database Management 等
| 备份与恢复工具
| HP Openview Data Protector IBM Tivoli Storage Manager for System Backup and Recovery CA Brightstor Storage Resource Manager 等
| 存储管理工具
| HP Openview Storage Area Manager (SAM) IBM Tivoli Storage Manager CA Brightstor Storage Resource Manager 等
|
5 现有流程的改进建议本章提出了在实施集中运维前,基于现有人力、手段和技术的可操作的目标与建议。本章首先提出了近期可以实现的目标,然后提出可以尽快实施的流程改进建议。
5.1 目标5.1.1 指导方针· 应建立主动管理的服务模式 · 应建立服务及时响应机制 · 应建立规范化的管理机制 · 应建立标准化的操作流程 · 应建立知识积累机制 · 生产系统应采用严格安全管理制度,包括口令管理制度、权限管理制度等 · 应安装配置网络防火墙、防病毒软件,加强网络安全管理 · 应建立严格的桌面安全管理制度 · 应建立并遵循完善的备份策略 · 应建立对操作系统、数据库、网络的监控体系 · 修改业务数据应通过正常的业务流程,严格控制直接修改数据库数据
5.1.2 流程执行框架· 应建立并遵循日常工作流程 · 应建立并遵循故障处理流程 · 应建立并遵循变更流程 · 应建立并遵循应急处理流程 ITSS认证 · 应建立并遵循数据修改流程
5.1.3 流程角色应设置以下流程角色和职责 · 运维总体负责人 - 重大决策、接受汇报、审批重大变更 · 网络、系统主管 - 网络或系统管理总体决策和管理,把握发展方向 · 网络管理员、系统管理员 - 负责日常管理 - 接受和总结汇报 - 协调各方关系 - 系统设备、网络设备的日常监控 - 故障处理 - 安装、升级、调优 - 安全管理 - 系统配置、逻辑日志的定期备份 - 备份介质管理 - 制定日常操作和应急措施 · 数据修改员、网络操作员 - 日常维护 - 日志记录 - 填写知识库 - 工作小节 - 数据修改和修改日志记录
5.1.4 流程支持技术框架应有如下流程支持技术与工具支持运维管理: · 网络监控工具 - 监控关键网络设备间的连通性 - 监控核心网络设备的CPU利用率、端口利用率和数据流量 - 自动网络拓扑 - 定期采集网络设备配置信息 - 实施监控和分析恶意攻击 - 实施监控每个IP地址的数据流量 · 全公司统一的运维管理工具 - 问题上报 - 知识管理
5.2 改进建议由于领导的充分重视,以及运维人员的不懈努力,某公司的运维管理成熟度较高,流程的执行状况良好。结合上述的现阶段可实现的目标,我们建议某公司在实现集中运维前,可以在以下方面做进一步的提高,为实现集中运维奠定基础。
改进建议1: 加强运维安全管理
具体要求: · 加强密码管理 - 要求所有密码必须定期修改,系统中设定密码更改提醒 - 对密码长度和复杂度进行设定,如密码长度不得少于8位,必须包含数字及大小写字母等 - 生产机超级用户口令只能被少数管理员知晓 - 当密码被添加、修改和删除时,应能够审核其行踪 · 加强权限管理 - 梳理数据访问权限 - 健全用户管理权限 · 加强防病毒管理 - 建立病毒系统补丁通告机制,使用户能够及时了解并更新病毒代码 · 加强运维安全培训 - 定期举行运维安全培训,使运维人员和业务人员了解运维安全的知识和意识
改进建议2: 记录运维操作、事件处理和问题处理的过程和结果
具体要求: · 运维操作记录 要求每次运维操作均要详细记录,可采用Excel、数据库等技术手段保存电子记录,已备日后查询和知识共享使用。 记录项
| 含义
| 日期/时间
| 记录运维操作的日期和时间
| 序号
| 运维操作流水号
| 操作对象
| 运维操作的对象,如服务器A,磁带库2等
| 操作原因
| 包括日常操作、故障处理与恢复等
| 原因编号
| 操作原因代码,便于分类统计和知识共享
| 处理结果
| 包括成功、失败及后续处理、遗留问题
| 操作人
| 操作人员代码
|
· 事件处理记录 与运维操作相同,要求每个IT事件均要详细记录,可采用Excel、数据库等技术手段保存电子记录,已备日后查询和知识共享使用。事件处理记录模板可参考突发事件管理流程模板。 · 问题处理记录 问题处理记录模板可参考问题管理流程模板。
改进建议3: 建立知识共享体系
具体要求: · 建立和完善知识库,将故障处理、问题处理记录保存,向所有的运维人员开放,解决问题时,可根据关键词和分类检索 · 将常见问题处理方法,以及一些小窍门等发布到内部网上,供最终用户解决问题时使用 · 在内部网IT运维管理社区中,开设运维问题交流专区,供所有用户交流
改进建议4: 合理安排运维人员工作,逐步实现被动运维管理向主动运维管理的转变
具体要求: ITSS培训 · 培训运维人员运维管理流程和技术等方面的内容,使运维人员意识到主动运维管理的重要性和必要性 · 所需的运维知识应有2人以上的专家,且每个运维人员应有自己的专长的同时,还应广泛了解其他运维方面的知识。 · 建立和完善性能数据库,进行运维数据的采集和分析处理,预测变化趋势,及时发现潜在问题 · 梳理所有的日常运维工作及运维人员情况,制定运维工作计划,通过监督、检查、分析,不断优化和调整运维工作计划
本帖关键字:ITSS
|