关于IT运维管理——互联网公司怎么样评估IT运营水平？

daisy8

关于IT运维管理——互联网公司怎么样评估IT运营水平？

前言

本文是衡量IT运营水平系列文之一，旨在：

阐述在云计算时代，如何客观合理的评估一个企业IT运营的水平
详细阐述超级互联网公司的内部IT运营水平评估指标以及算法
提供指标数据的获取来源

您现在的IT运营水平处在什么阶段？

作为一个互联网企业或者一个正在尝试互联网+的传统行业，IT 基础设施是其搭建上层业务的核心要素，而其的运维负责人（运维总监或者 CIO 们），通常在岗位定义中属于后端支撑部门，永远处于镁光灯的背面。

这样的定位和IT基础设施的重要程度其实产生了一种怪异的矛盾。

原因是多层次的，但有一种原因却是客观存在的：即对于后端 IT 基础设施的交付和运营水平，企业的 CEO 们无法客观合理的评估其行业先进性，从而无法评估运维团队的工作表现，只能通过故障多和少这一简单数据来予以奖励和惩罚。

然而可悲的是，不出故障的系统是不可能的，因此运维人员被打上要么默默无闻，要么罚款开除的宿命 LOGO。

本文作者有在 BAT 超过 10 年的 IT 运营负责经验，且对于国内一线云计算公司的运营团队以及运营水准有深入的了解，尝试通过介绍 BAT 这样超级互联网公司和一线云计算公司如何评估其 IT 运营水平，从而梳理出行业的一个客观公开的标准。

一旦该标准确立，则将有助于运维人员和其公司负责人评估 IT 运营水平，从而进一步提升高绩效的运维团队的岗位含金量，推进整个 IT 行业的发展。

评估IT运营水平的几个核心要素

我们对于核心要素有如下两个准入标准：

和运营的实际效果密切相关
尽可能回归为量化数据，且此数据可以相对公平的横向对比

按照上述准入标准，在超级互联网公司归纳为如下 4 个大类，各个大类之中又分为若干子类别，用以在评估公司总体 IT 运营水平的同时，又能评估各个子团队的绩效水平。

可用性
成本
效率
技术先进性

100分的水平 = 可用性50% + TCO20% + 效率20% + 技术创新10%

上面提到的四类核心要素的细分指标说明如下。

1、可用性

可用性 = 1 - 服务不可用时间/服务总时间

在超级互联网公司，通常业务可用性的保底要求是 99.5%。而核心业务的可用性目标通常设置为 99.9% 或者 99.99%。

而整体业务可用性指标又可以按 case trace 的思路拆分成如下 4 类可用性指标：

程序可用性
安全可用性
网络可用性：其中又可以拆分为自有网络可用性；运营商网络可用性；负载均衡等网络产品可用性
服务器可用性：其中又可以细化为服务器整体故障率；单品牌故障率以及部件故障率

业界不少公司会采用 MTTR（Mean Time To Repair）,MTTF Mean Time To failures）,MTBF（Mean Time Between Failure）来作为一部分考量指标，但在超级互联网公司的运维部门，反而不常用该类指标。

逻辑其实也相当简单：一切指标围绕自身需要，最能反映现实问题，并且最能帮助拆分后优化问题。

2、成本

在超级互联网公司已经一致采用 TCO 作为总成本的考量。前期为了客观考量，先剔除水平偏离度高的人员薪酬数据，我们通常把 TCO 的算法按如下计算：

在超级互联网公司，如果把单台服务器 TCO 作为一个不断 trace 的成本业绩指标，最新的单台 TCO 数据可以做到 15000 元人民币/年/台。

其中：

服务器采购成本可以量化为单服务器平均单价。
网络设备采购成本可以量化为单端口平均单价。
布线成本可以量化为单端口平均单价。
IDC 租用成本可以量化为单服务器平均单价。
关于IDC 租用成本，需要额外注意的是：
- 如果一个 16A 的机柜月定价为 8000 元，则客观衡量的单价应该为该机柜实际放置了 10 台服务器，则单价为 8000/10；
- 如果一个机柜放置了 10 台，一个机柜放置了 12 台，则平均单价应该为（8000+8000）/（10+12）。
带宽成本可以量化为单 G 平均单价。
软件成本可以量化为单服务器平均单价。
外包服务成本可以量化为单服务器平均单价。

3、效率

总指标为上线效率，修复效率和资源使用效率。

上线效率即从业务需求提出到业务正式上线的效率，其中又可以拆分为：

预算效率：从内部预算开启，业务部门提出需求到预算审批通过的时间效率
采购效率：从预算确认到采购流程完毕，供应商开始正式接单的时间效率
到货效率：从供应商接单到服务器到货的时间效率
上架效率：从服务器到货到服务器完全上架的效率（包含捆扎网线电源线，以及电源通电）
安装效率：从安装操作系统到具备交付业务的时间效率
部署效率：从业务接收服务器资源到业务正式上线的效率

修复效率即从故障发生到故障修复的时间效率，其中又可以拆分为：

故障报出效率：从故障发生到监控系统报出的时间
故障接手效率：从故障报出到运维人员接手处理的时间
故障定位效率：从运维人员接手到定位故障的时间
故障修复效率：从运维人员接手到故障修复的时间

业务交付效率和故障修复效率是两个常见概念，但是在超级互联网公司，对于资源使用效率也非常之关注，因为此类效率数据和成本关系极大，并且也能客观反映一个 IT 运营团队的技术水平以及精细化的运营能力。

资源使用效率主要为 CPU，IO 和存储的利用率。CPU 利用率主要考虑计算资源，通常以平均峰值使用率和平均使用率作为 2 个衡量指标。

在超级互联网公司，平均 CPU 峰值使用率可以超过 40%。

4、技术先进性

技术先进性指标包括如下：

知识产权数量
PAPER 数量：尤其在意国外一级会议的 PAPER
开源社区贡献：例如阿里巴巴对于开源社区的贡献
技术创新性：强调别人没有而你有的那部分：例如百度全球首款 ARM
服务器的商用；例如百度通过机器学习预测磁盘故障率；例如腾讯的模块化数据中心设计
生态合作程度：例如 BAT 天蝎组织的创建

核心要素如何记录和评估？

按照第二部分的拆解，一个超级互联网公司的 IT 运营水平考量要素，大指标有 4 类，但子指标多达几十种。

如果只是通过单人手工的方式来收集碎片数据，纯粹作为 KPI 来考量，工作量巨大，并且数据失真严重。

事实上，上述核心要素贯穿运营工作的每一个过程和每一处细节，绩效考量应该是润物细无声，工作完毕要素即能够实时保留和核算，并且每一个子目标的出具，能够便于运营团队及时发现问题，从每一个细节改进过程。

所以在超级互联网公司，一套统管运营全过程的 IT 管理系统便不可或缺。从功能上说，它集成了 IT 监控，资产管理，报警，故障修复，故障知识库等多个功能模块，在功能运转过程中，它同时兼备了数据统计的职能。

案例1：如下图所示，修复效率这项指标，您可以从其的报表页面直接获取实时生成的指标数据，客观评估您的运维水平。

案例2：甚至还可以给出一个得分。这样变成关注整个运营全生态的闭环，提供了从发现故障到解决故障的全生态功能，在其软件部署运行的过程中，也会替您实时生成实时的运营阶段全指标数据。

作者介绍

朱品燕（女）
灵犀CEO，IT圈非著名文艺女青年，十年来混迹百度，任系统部高级经理，负责百度服务器硬件研发，管理系统研发，资产管理以及供应链团队，统管百度IT基础设施交付和运营。
带领团队经历了百度基础设施演进的每一个过程，时间跨度724365*10，服务器规模跨度1K-1W-10W-50W，对IT运营有深刻理解。现创办灵犀，并就读清华EMBA。

本文来自微信 [url=]Linkedsee灵犀[/url]

上一篇：专家过招：三步教你成为Zabbix配置高手
下一篇：运维本来是不受人待见的，大时代来了：为什么nagios,zabbix火了？

sst14440 · 发表于 2016-6-29 10:37:34

学习了，虽然太深奥

raby · 发表于 2016-7-9 21:08:06

谢谢分享！

关于IT运维管理——互联网公司怎么样评估IT运营水平？

评论