Zabbix 一直想监控服务器硬件信息,而DELL OMSA很好的反馈满足了我想要监控得内容,通过OMSA和脚本的实现,对zabbix得熟练玩法实现了服务器的硬件信息监控和自动生成服务器硬件资产信息.
1、服务器自带的工具,比如HP的hpacucli,DELL的OMSA等
2、智能平台管理接口 (IPMI,全称Intelligent Platform Management Interface)
基于以上两种,通过nagios、zabbix或自研运维平台等包裹,进行预警操作。
由于公司使用的服务器全部为DELL PowerEdge系列的,这里将以如何对DELL PowerEdge系列服务器硬件进行监控这一实际案例为主。
OMSA 介绍
DELL OMSA的全称为Dell Openmanage Server Administrator
,它是戴尔公司基于自主研发力量开发的IT系统管理解决方案,通过与业内领先的系统管理解决方案供应商密切配合,在深入了解用户对系统管理需求的基础上,OMSA系统管理方案可以全面解决系统管理人员最关心的系统部署、系统监控和系统变更三大系统管理问题。它通过提供以下两种方式来对本地和远程的服务器进行管理和监控。
界面:
zabbix监控
zabbix介绍
Zabbix是一款功能很齐全且定制性能强得开源项目,能够很好得解决了企业内服务器系统性能得监控、网络质量得监控、网络设备使用情况得监控、以及各个业务使用情况得监控(自己定义监控项)、还有硬件监控;
能够通过使用者自己得想法去满足企业中各种监控需求,使用的人如果思想越活跃(业内称会玩),能够满足很多各式各样得监控,只有你想不到没有做不到。
举个栗子:我的一个朋友给自己得女朋友监控一个商品页面的价钱,达到自己满意得价钱给她发短信 (哈哈,484很嗨森 (∩_∩))
官方网站:点击这里
脚本监控,直接获取值的监控项:
这里基于zabbix 开源监控平台,自己编写监控脚本,通过自定义key得方式在zabbix中进行数据监控和故障预警。
LLD 自动发现
由于有些服务器部件是变动得,所以基于LLD(Low-level discovery)
动态得发现设备并基于我指定得监控项模板创建监控项
模板创建监控项:
RAID状态监控:
由于服务器上可能会创建多个raid,并且raid级别各不一样
机箱状态监控:
BBU电池状态监控:
CPU硬件状态监控:
内存硬件状态监控:
硬件温度监控:
硬件电压状态监控:
硬件电源状态监控:
硬盘硬件状态监控:
网卡硬件状态监控:
风扇硬件状态监控:
硬件资产监控:
自动生成硬件资产信息
在很多服务器得情况下,一般使用zabbix监控得用户,当某个机器告警了,要连上去看一下得时候,不知道这台机器得IP。一般会到zabbix右上角搜索一台机器,然后点击去找到这个机器得IP或者域名,然后登陆到服务器上查看。(我们告警得时候告警得是机器得alias名称——别名,不会选择报IP,因为别名让收告警得用户更好知道这台是台提供什么得服务器或者作用。)
在这个基础上我又在监控得机器上加入了很多信息,并且不是手动去输入得都是自动生成的。服务器情况从此不管是运行状态还是设备信息都能从监控这一个平台全部看到。
下面是效果:
从刚开始探索硬件监控到写脚本实现,从线下测试到线上全部测试,再到模板得创建,修复大大小小不协调问题,监控项得慢慢完善才有了现在这套监控。脚本总共有415行代码!