且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

nagios+nrpe监控配置错误日志集

更新时间:2022-08-12 14:39:18

报错:UNKNOWN: iostat not found or is not executable by the nagios user

      客户端缺少:iostat命令

      下载:wget ftp://195.220.108.108/linux/centos/6.5/os/x86_64/Packages/sysstat-9.0.4-22.el6.x86_64.rpm

       安装:rpm -ivh sysstat-9.0.4-22.el6.x86_64.rpm 

问题解决!!!


2014-12-29

  由于我们公司线上服务器都是采取DHCP自动获取的ip地址,近期要对部分服务器进行配置升级,虽然云服务承诺服务器重启之后是不会变更ip地址的,但是为了防止必要的麻烦,于是我就手动将ip地址与mac地址进行绑定写到文件中去。

网卡配置文件格式:

DEVICE=eth0

BOOTPROTO=static

GATEWAY=10.124.156.1

HWADDR=28:6E:D4:89:C2:36

IPADDR=10.124.156.250

NETMASK=255.255.255.0

ONBOOT=yes

TYPE=Ethernet

USERCTL=no

IPV6INIT=no

PEERDNS=yes

加粗部分是必须要有的,然后根据自己的实际情况对GATEWAY、HWADDR、IPADDR、NETMASK进行修改。

所有修改完成之后,重启网卡,出现一个问题,那就是nagios报警某台服务器宕机 (10.124.156.249),这台机器ping其他服务器报错:

connect: network is unreachable

于是排错,之前未修改配置文件之前是正常的,问题肯定出在配置文件上。但是查询多次都不能排除错误。最后经过对比nagios+nrpe监控配置错误日志集

发现这台主机缺少一条默认路由。正常情况下网卡重启会自动将默认路由设置上的,但是这台服务器可能是由于网卡没有正常重启造成的。于是手动添加:

route add -net 0.0.0.0 gw 10.124.156.1


2015-1-12
nagios插件nrpe日志隔离,可以使nrpe日志写到指定文件里,避免messages里大量的nrpe日志信息影响排错信息。
vim /etc/xinetd.d/nrpe   
    service nrpe
    {
       flags           = REUSE
       socket_type     = stream
       port            = 5666
       wait            = no
       user            = nagios
       group           = nagios
       server          =/usr/local/nagios//bin/nrpe
       server_args     = -c/usr/local/nagios//etc/nrpe.cfg --inetd
       log_on_failure  += USERID
        #将nrpe日志重定向到指定文件
       disable         = no
       only_from       = 10.124.151.248
     }
     
     重启一下xinetd服务即可。
     另外:如果不想要这么nrpe信息,因为没有啥实际需要,可以加黑信息修改如下:
      log_type       = file /dev/null  #重定向到空
备注:5分钟之后见效果 ^_^

2015-1-14

nagios监控某个主机(10.124.156.239)报下面的错误:

NRPE: Unable to read output 

在网上检查,基本上都是说权限问题、脚本问题。但是我分析了一下我的实际情况,服务器的脚本是默认的,有几个自己添加的监控脚本能够正常工作,但是为什么自带的就不行呢?可以肯定不是权限的问题,当然也不是脚本的问题。所以我就仔细检查nrpe.cfg文件,发现出现下面的这个问题:

nagios+nrpe监控配置错误日志集

经过对比,默认的命令被系统给篡改。所以将上述红框里面的变量引用定义一下或者改成绝对路径就可以。Ok,问题解决了。


2015-1-26


多日以来,一直发现服务器再备份的时候出现系统报警的问题,还好一直没有出现什么故障。今天与同事交流问题,忽然发现,tar和gzip在备份的时候应该是一个进程才对,但为什么在执行计划任务的时候是多个进程呢?对于这个问题,我一直认为是单个进程派生多个进程所致,今天才知道,这是个错误。因为gzip和tar以及rsync都是单进程程序,是不会派生多进程。幸亏旁边的另一个同事提醒我,这个脚本是执行一次吗?如果只执行一次是不会出现多进程的问题的。于是我仔细检查了一下,问题出在计划任务。

我的计划任务是每天的六点定时执行一次,但是我却做成了 * 6 * * * sh XX.sh

这个脚本的意思不就是在每天六点的每分钟里都会执行一次吗?哎,真是粗心大意。仅于此坐下笔记以示警示!










本文转自 南非波波 51CTO博客,原文链接:http://blog.51cto.com/nanfeibobo/1596349,如需转载请自行联系原作者