nagios监控说明.docx
《nagios监控说明.docx》由会员分享,可在线阅读,更多相关《nagios监控说明.docx(15页珍藏版)》请在冰豆网上搜索。
nagios监控说明
Nagios监控利用说明
Nagios介绍
Nagios是一款开源的免费网络监视工具,能有效监控Windows、Linux和Unix的主机状态,互换机路由器等网络设置,打印机等。
在系统或效劳状态异样时发出邮件或短信报警第一时刻通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。
目前,语联网12台效劳器均由nagios监控,监控界面:
监控界面说明
上图是nagios的监控界面,左侧栏是nagios能够监控的各个项目,点击左侧栏的按钮,右边即可显示相应的监控数据。
左侧栏显示的功能要紧分四个部份:
General、CurrentStatus、Reports、System,下面将别离介绍四部份的详细功能。
General
本部份与监控并无关系。
General分两个子项:
Home和Documentation。
其中,Home显示nagioscore相关的最新新闻;Documentation链接到与nagios相关的文档手册页面。
CurrentStatus
本部份显示监控的详细信息,下面将别离介绍各子项的详细内容。
TacticalOverview
该子项显示nagios所监控的所有主机状态的概况。
右上方_MonitoringPerformance:
上图中检测执行时刻的三个值别离表示min/max/avg。
比如
,表示效劳检测执行时刻最短秒,最长秒,平均秒
左上方_NetworkOutages
下方部份
其中MonitoringFeatures中的Flap有必要说明一下,Flap指被监控效劳的状态值在该效劳报警的阈值周围彷徨时刻较长时的状态。
Map
本部份要紧显示监控机与被监控机之间简单的拓朴图,页面中央即显示拓朴图。
另外,说明一下右上方的功能:
1、LayoutMethod
下拉框中有不同的显示方式,选择其中一种,然后点击update,拓朴图的显示方式会有所改变。
2、Scalingfactor
缩放拓朴图的大小
3、DrawingLayers和Layermode
那个地址我也不明白怎么翻译成中文。
其中DrawingLayers的框中显示的是nagios所监控的两个主机群。
若是选中”LinuxServers”,然后在Layermode当选中Exclude,那么拓朴图将显示所有的windows-servers;若是选中”LinuxServers”,然后在Layermode当选中include,那么拓朴图将显示所有的Linuxservers。
4、Suppresspopus
该项我也不明白是什么功能,呵呵。
Hosts
不管是host仍是service的状态,若是显示绿色表示正常,黄色表示警告,红色表示报警。
下面就监控的各项别离进行说明:
其中主机名的命名,前面的数字是该主机IP的主机位,后面是该主机所承担的角色或任务。
比如:
100_redis_master ,表示该主机的IP的主机位是100,该主机的角色是redis主效劳器。
点击主机名右边的按钮
,会显示该主机上的效劳。
HostStateInformation
点击该主机名,会显示关于该主机的详细信息:
,如以下图如示:
其中,“InScheduledDowntime?
”的精准意义我也不明白;“PassiveChecks”用于被监控机械专门多时,如此能够减轻监控机的负担。
HostCommands
声明:
本人很少用这部份的功能,可能有些说明不准确,请指正。
这部份是nagios的外部命令,在执行这些命令时,效劳器上会挪用文件。
这些命令并无直接更改nagios的配置文件,但能够实现一些功能,如以下图如示:
没有说明的地址说明本人还没完全明白得。
HostComments
如上图所示,该部份要紧用于不同系统治理员之间的交流或备忘。
比如:
治理员A在下班之前作如上备注,治理员B代替时,会看到以上信息,以作相关预备。
Services
Services的页面显示与Hosts大体一样。
下面以一条正监控的service信息来进行说明:
1、效劳名:
disk_/,即表示磁盘的根分区
2、Attempt:
不管是主机仍是效劳监控,默许都是5分钟检测一次,若是显现警告或报警,会在Status显示warning或critical。
若是持续4次检测的状态都是异样,那么触发邮件告警
3、StatusInformation
Freespace:
/14GB,即剩余空间14G
78%:
剩余78%的空间
Inode=96%:
此处并非是磁盘空间,指该分区inode的利用情形
另外,对正在监控的各项效劳作一下简明说明:
1、disk_/:
磁盘根分区
2、disk_/bak:
磁盘分区/bak
3、disk_boot:
磁盘分区/boot。
……后面的/shm、/site、var都是如此
4、load:
CPU负载信息,三个值别离表示5分钟、10分钟、15分钟内的平均负载
5、mem:
剩余内存的百分比
6、ping:
监控机ping被监控机的情形
7、ssh:
被监控机的ssh运行状态
8、swap:
互换分区
9、total_procs:
总的进程数
10、users:
被监控机上登录的用户数
11、zombie_procs:
僵死进程数
HostGroups
本部份显示nagios所监控的主机组的相关状态信息,现有的主机组按所利用的操作系统(windows和Linux)而分,以后还能够依照需求分成其它组。
本部份要紧有三个显示页面:
ServiceOverviewForAllHostGroups、
StatusSummaryForAllHostGroups、StatusGridForAllHostGroups。
只是显示的方式不同罢了。
有必要说明一下三个按钮表示的意思:
:
点击该按钮会显示主机详细的状态信息
:
点击该按钮会显示主机的效劳状态
:
点击该按钮会在拓朴图中显示该主机的位置
ServiceGroups
本部份的显示方式与HostGroups的差不多,nagios默许并无效劳组的概念,本人以为概念此组要紧的目的仍是便于得出不同主机、相同效劳的状态对照报告(后面会涉及到此功能)。
目前概念了两个效劳组check_disk_data和check_load,别离列出不同主机中磁盘分区/data和CPU的状态信息。
Problem
本部份集中显示异样信息,比如警告、报警等。
QuickSearch
此处按主机名进行搜索。
比如填入”100”,再按回车键,即可显示主机100_redis_master的相关信息,如以下图所示:
Reports
本部份功能要紧分两部份:
一是,显示nagios运行的相关日记,比如:
错误消息、何时发出报警邮件,这些邮件别离发送给哪些人等;二是,生成在一按时刻内,被监控的主机或效劳的运行报告,比如,生成某主机在一周内的运行情形(宕机多长时刻,发生异样的频率等)。
Availability
第一步
点击Availability,会显示如下界面:
Type下拉框中有四个选项:
别离针对Hostgroup、Host、Servicegroup、Service生成报告。
那个地址我就默许的Hostgroup进行演示。
第二步
点击按钮”ContinuetoStep2”,进入下一界面:
在Hostgroup下拉框中,我选择linux-Servers。
第三步
点击按钮”ContinuetoStep3”,进入下一界面:
没有注明的部份,我也不明白其精准的含义,也很少利用。
第四步
点击”CreateAvailabilityReport”,生成报告。
因为以上是最近7天的报告,而nagios只运行了4天,因此还有36%的TimeUndetermined。
Trends
本部份生成报告的进程与Availability相同,但本部份只生成与Host或Service相关的历史数据,并以图形的形式呈现显现。
如以下图:
Graphs
Nagios默许是没有点graphs功能的,需要安装插件nagiosgraphs。
该功能是将被监控的各项数据绘在图形上,能够很直观地看出该被监控项在天天、周、月、年的运行转变情形。
上图是一天内监控http的情形。
Alerts
本部份主若是关于报警的日记和报告的生成。
History
显示当天的报警日记。
介绍一下右上方各选项的含义:
主若是对报警日记进行挑选,没有标注的项说明本人也不太明白精准含义。
Summary
对最近一周的报警信息进行汇总,默许只显示前25条,可自行设置。
生成结果如以下图:
Histogram
针对主机或效劳,生成其最近一周的报警信息的直方图。
生成结果如以下图所示:
上图表示该主机重启过2-3次。
Notifications
显示当天触发邮件报警的记录。
EventLog
显示当天nagios运行的所有日记。
System
声明:
本部份的功能本人很少应用,体会甚少,所以介绍可能比较模糊或不准确,请原谅。
本部份主若是对nagios系统作全局的配置或注解,或查看nagios系统的各项配置,运用的命令等,只有治理员才能查看这些信息。
Comments
对主机或效劳作注释,如以下图所示:
其中Comment栏确实是用户NagiosAdmin作的注释。
Downtime
Downtime指在设按时刻段内,若是被指定的主机或效劳显现异样,nagios不发出报警邮件。
因为这种异样是在打算内的、可预知的。
上图中显示的内容表示,在时刻段14:
04——16:
04内,主机100_redis_master会关机保护硬件,在此期间,nagios不得发出报警邮件。
ProcessInfo
对nagios作全局的介绍或设置,如全数启用或停用某项功能等。
具体介绍请看以下图:
未注明的项,大部份之前都显现过,而且说明过。
PerformanceInformation
本部份显示主机或效劳在最近1分钟、5分钟、15分钟、1小时内被检测数的百分比,分主动检测和被动检测两种,因当前应用的是主动检测,因此被动检测的数据为0.
SchedulingQueue
列出打算中需要被检测项的队列,按时刻顺序排列。
也可针对每一项进行更改被检测的时刻。
如以下图所示:
Configuration
可查看每一个被监控的主机或效劳的详细配置信息。