下午收到了某个机器的报警Zabbix agent availability:not available (0),提示是zabbix死掉了,出现这种情况大多数是因为机器死了,如果不是,那就因为zabbix出问题了,登录服务器没发现问题,zabbix和机器一切正常。

服务端telnet 正常,zabbix_get 也可以获取到数据,重启了zabbix-agent也还是这样。

agent排查:

agent机器上/var/log/zabbix-agent.log

从agent上,telnet 没问题。

server排查:

     查看两个服务器的tcp链接,有个TIME_WAIT,所以是通的,也不是网络问题。

     server机器上的/var/log/zabbix-server.log 日志中,发现了这么一条

 

后来查阅资料说是因为版本不一致。

agent上发现小版本确实不同,5.0.19   

server端上的版本,5.0.18 

yum list zabbix-agent #查询zabbix-agent的可更新版本,发现有新版本,5.0.21,索性都升级到5.0.21了

server端升级日志。

 

agent升级日志

 

升级后,重启了zabbix-agent,zabbix-server,发现web界面还是没有变绿,接着排查。

后来想看看两个服务器之间建立的链接,netstat -an|grep X.X.X.X

查看两个机器的tcp连接,发现还是之前建立的,推测可能是卡死了,restart的时候没有杀掉。

然后便stop掉服务,再看看,stop后连接消失了,再启动,也没有了,正常的传输数据,早就传完结束了,再去看web界面,变绿了,恢复正常了。

推测结论:可能是restart的时候进程没有掉,tcp连接都没断开。 

 

更多推荐

Zabbix agent availability:not available (0) 一次问题追踪。