×

微信扫一扫,快捷登录!

监控项目如何做?  

*********************************************
编辑:游子归家版主
作者:网友
出处:prince2项目管理交流 QQ群 248023936
*********************************************
主题:监控项目如何做?
回答:
乐***:是要写类似的工作规范么?包含工作流程,基制之类的东西?
U***:不是编写管理制度、规范类
仔***:小U是想多了解下,这个项目如何落地更有价值和特色,具体如何落地怎么做,了解成功的经验
技术层面+产品规划层面
U***:偏技术
怒哀***:哦,那和我不一样,我只负责管理层面
U***:管理体系在上一期项目已经做了
仔***:技术想了解哪些~
乐***:故障预防和快速定位现在不都用工具了么
U***:我这客户是传统行业,互联网行业的一些技术还不一定适用
可以理解为还是跑在IOE架构上
仔***:一提到IOE  就想到医疗、教育、金融、、、
等等上流的行业。。
U***:业务系统架构还是比较典型的三层架构,不全是分布式。虽说都是高可用,但其实还是隐藏着很多单点隐患
仔***:互联网这种奔跑的兔子,一定会另辟蹊径
不过我对IOE基本不了解。。
女***:IOE就是IBM,ORACLE,EMC
乐***:基础的三层结构
女***:去IOE就是不用这些公司的产品
用普通的电脑建集群建虚拟机
省钱
塘柳***:vmware?
乐***:ioe为什么不能做监控工具?
女***:监控工具有开源的
U***:没说不能做监控啊
乐***:前段监控加流程工具
U***:传统行业的监控系统大部分是基于商业软件再二次定制开发
监控不是万能的,而且监控告警出来,并不能就准确定位故障原因
仔***:要看监控的层面,如果是根据表象来监控(如Ping不通才告警)那注定只能是被动监控,而且不能定位故障原因,我们姑且叫为”不明确告警“如果是基于底层硬件监控,比如使用megacli对硬盘1/O,raid卡电池/缓存进行监控,往往可以起到主动预防的效果(这是服务器还没宕机,服务还没影响)。并且故障原因也是知道的
除了使用基于OS内的监控,还可以使用带外(out of band)进行基于硬件的监控,使用SNMP trap的方式,也可以起到主动预防,并且确认故障原因的效果
姑且叫做”明确类告警“
随着运营经验的积累,监控能力的深入,可以将更多不明确告警转换为明确类告警,在事件产生的同时就告诉一线人员具体故障原因,故障点,对业务的影响,申请1、2、3、4步骤的解决办法
我们一直就是这么做的
U***:相当于“性能/容量告警”、“可用性告警”、“状态告警”中的后两者
乐***:能够提前预防的告警太少了
珠珠说的也就是目前大部分的做法了
qq***:预防?
其实也不是不能预防。
预防是站在业务角度去考虑问题的。
比如双机,冗余等等方面就是基于这些考虑。
当某一个部件出现问题。从上层的业务是不感知的。
那么从规划和部署时候就要考虑这些问题。
监控和告警仍然是看的是现象。
当某个告警事件出来以后。向上有哪些影响。向下根源问题在哪里。
这只是解决0 和1 的问题。就是生与死的问题。
其实在中间过程中过程。那就是中间的度量问题。
就像一个人有偶发的死亡。但是大部分时间是活着的。
但是每个活体的质量是不一样的。
我曾经学过几年麻衣之术。。。基于科学算法。。可以推到一些问题


不想错过高端求职信息?关注我们的微信吧!微信公众号:ITILXF()

圈子决定你的未来,关注IT高端精英圈,人脉 +知识+资讯,尽在你掌握!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x




上一篇:基础设施告警
下一篇:【ITSS每日问答】ITSS每日问答之8月5日
slbenben

写了 1685 篇文章,拥有财富 10487,被 10 人关注

您需要登录后才可以回帖 登录 | 立即注册
B Color Link Quote Code Smilies
admin 发表于 2015-9-19 12:18:34
不错,学习了。
木木 发表于 2015-10-12 14:40:12
学习下:)
Powered by IT 运维管理
返回顶部