[p=30,2,center]学习资料:IT运维管理社区专家讲堂直播300期视频回放[p=30,2,center]
[p=30,2,center]
运维一般是指对已经建立好的IT系统的维护,包括网络、系统、中间件、数据库等方面。所谓IT运维管理,是指企事业单位或公司的IT部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(如软硬件、网络、系统、数据库等)、IT业务系统和IT运维人员进行的综合管理。
[p=22,null,left]随着IT的发展、信息化进程的推进,运维管理将覆盖对整个组织运行,进行支持的管理信息系统并涵盖IT相关的所有内容,除了传统的IT运维,还拓展了业务运维和日常管理运维。其参与的对象也从IT部门和人员,拓展到组织的管理层和各部门,及其相关的业务骨干。
IT运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,一个企业或公司在不断发展壮大的过程中,IT系统也随之不断成熟和完善。从几十台到上百台、上千台服务器,每天出现故障的机率和突发故障都会增大很多,运维不是被动的救火队和敢死队,相反IT运维的方式方法也需要不断变化以适应日趋庞大复杂的IT系统,运维的标准化、自动化、安全高效也呼之欲出,成为一种趋势和发展的方向。那么如何去实现运维的标准化、自动化和安全高效呢?
[p=22,null,left]
[p=22,null,left]首先,运维需要流程,建议采纳ITIL国际标准及选购适合的ITSM工具平台(如国内的E8.ITSM),大多数时候,运维人员都在进行着简单重复的工作,且很难得到最终用户的肯定。曾有一个词“穷忙族”形容运维工程师,工位上不见人影,一坐下电话不断,是不是你该解决的问题都有人来找你。这样的场景,大家应该都有体会。标准化流程的制定非常重要,不仅方便问题的梳理而且能让对应的问题找到对应的人,同时有利于团队的协作。运维的流程化管理需要把握两个原则:[p=22,null,left]
[p=22,null,left]1、设立IT运维关键流程,引入优先处理原则[p=22,null,left] 设立IT运维关键流程,引入优先处理原则就是要定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置运维流程时还需要引入优先处理原则,例行的事按常规处理,重大特殊事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。[p=22,null,left]
[p=22,null,left]2、建立规范的事件跟踪流程,强化运维执行力度[p=22,null,left] 结合本公司IT系统的情况,建立故障和事件处理跟踪流程,利用表格等工具来记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上大量运维实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还可以通过规范的流程随时追踪该故障请求的处理状态。[p=22,null,left]
[p=22,null,left]其次,运维需要标准化、自动化。在运维工作中,大家遇到最多的无非就是故障处理、系统升级、上线、安全加固等问题,问题如何及时发现、处理、反馈,系统升级、上线如何自动平滑的进行,安全加固如何稳妥规范的进行,这些都需要一个标准,有了标准才会自动和衔接。同时随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业需要运用专业化、标准化和流程化的手段,来实现运维工作的自动化管理。[p=22,null,left]
[p=22,null,left] 举例来说,所有IT设备在遇到问题时要能自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维监控器的屏幕上并有相应的警示音,然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。事后按时间阶段性对事故类型进行统计和分类,分析故障发生的频率,以提供日后运维重点和决策的依据。同时IT运维的自动化还能够预测故障、在故障发生前进行报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。
[p=22,null,left]
[p=22,null,left]对于企业来说,运维的自动化主要体现在两个方面:一是IT运维监控和诊断优化;二是运维流程自动化管理。IT运维监控的自动化,就是对重要的IT设备实施主动式监控,如路由器、交换机、防火墙、服务器等。其二就是要做到配置变更检测的自动化,当IT设备配置参数发生变化,将触发一个变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置,并能够根据相应的环境进行优化。运维流程自动化管理主要就是要实现维护事件提醒自动化,通过对IT设备和应用活动的实时监控,当发生异常事件时系统自动启动报警和响应机制,第一时间通知相关责任人。其二就是系统健康检测自动化,定期自动地对IT设备硬件和应用系统进行健康巡检,定期自动的对系统做日志的收集分析,记录系统运行状况,并通过运维人员阶段性的监控、分析和总结,生成IT运维的可用性、性能、系统资源利用状况分析报告。
最后,运维需要安全,只有安全才能实现高效稳定。针对软硬件、数据、文档等,做好相应的安全措施,具体需要注意的是:[p=22,null,left]1、服务器和网络设备等密码一定要符合相应的复杂度。[p=22,null,left]2、远程连接时,应设置成普通账户登入然后才能切换到root或管理员级别进行操作。[p=22,null,left]3、对账户严格分级权限控制,并设置好审计等。[p=22,null,left]4、防止恶意注册,手机、邮箱验证注册或图片验证码,并限制每个IP注册的数量。[p=22,null,left]5、需要从数据库中提取或者存入数据,连接数据库时,注意完成相应操作后及时关闭数据库连接。[p=22,null,left]6、对数据库深入防御。保护数据库的措施越多,攻击者就越难获得和使用数据库内的信息。比如:敏感关键信息加密存储、避免使用默认端口、对数据库的连接进行IP限制、审计追踪控制等。[p=22,null,left]7、重要、关键数据的定期及时备份存储,并对备份的压缩包进行加密。[p=22,null,left]
[p=22,null,left]而对于企业管理人员来说,需要注意的:[p=22,null,left]1、完善安全制度并加强安全制度的落实。[p=22,null,left]2、加强人员的安全教育和管理,避免人为因素或防控不严而泄露。[p=22,null,left]3、加大对安全的投入和支持企业信息化安全建设。[p=22,null,left]4、网站发布的任何信息进行严格内容审查,对非法入侵账户发布的违法信息一经发现,即刻报案并取证追查源头。[p=22,null,left]
[p=22,null,left]IT运维是个不断发展和完善的过程,随着科技的前进,IT运维标准化和安全也在不断发展和变化,我们仍要保持一颗好奇、学习的心,去探索和分享,同时也希望更多的朋友分享你的心得和体会。
|