博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
linux-HA 节点 故障: node xxx UNCLEAN (offline) 一例
阅读量:2497 次
发布时间:2019-05-11

本文共 910 字,大约阅读时间需要 3 分钟。

上周在测试HA 的时候,需要临时增加硬盘空间,请硬件同事重新规划了虚拟机的配置。
测试过程中出现了一个奇怪的问题
两边node 启动了HA 系统后,相互认为对方是损坏的。
crm_mon 命令显示  
node95   UNCLEAN  (offline)
node96   online
另一个节点  node95 则相反,认为node96 offline unclean
没有办法解决,即便是重装了HA 系统也是如此。从现有的运行正常的ha系统,copy整个配置文件过来也是如此。
最后放弃,今天将问题提交到网络组,看看是不是两边的通信有问题,tcpdump 观察两边的5405 端口是有通信的。
但是系统还是有问题,整郁闷的时候,两边自动好了,认为对方是正常的节点了。
莫名其妙。
看了下时间,两边的时间都是utc 时间, 于是手工date 修改了主机时间到现在时间。
修改完了,手工重启下node95 ,看看ha的反应,奇怪的事情又发生了。两边又相互不认识了。
整郁闷的时候, 突然两边node又都认识了。奇怪的事情发生了。两个vm的时间都又回到了utc时间。
这回想明白是怎么回事了。
初步确定问题原因了:
应该是重新加载硬盘以后,调整了虚拟机的物理机器,导致虚拟机的时间会同步物理机的时间,物理机的 时间是用utc时间的,我这边改了时间后,重启一台,导致两个节点的时间序列不一致了,集群系统认为出错了,不能在两台机器之间清理状态,两台机器都认为 对方坏掉了,发生了脑裂了。各人自己维护自己的系统状态了。碰巧两台机器在损坏的过程中发生了一次时间同步,两台机器都回到了utc 时间,两边的时间序列应该在同一个时间上了。两边的PE(策论引擎) 认为系统node 对等了,然后集群的状态同步恢复到了正常状态。
HA 的节点间应该有严格的时间同步机制!!。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/133735/viewspace-743067/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/133735/viewspace-743067/

你可能感兴趣的文章
庞果网:字符串的完美度
查看>>
队列实现 (双向循环链表 C++)
查看>>
bzoj2957 楼房重建(线段树)
查看>>
2017 Multi-University Training Contest 3 hdu 6060
查看>>
iOS中开发者账号分类
查看>>
算法训练 区间k大数查询
查看>>
戏说 .NET GDI+系列学习教程(三、Graphics类的方法的总结)
查看>>
CentOS软件的安装,更新与卸载命令
查看>>
算法提高 扶老奶奶过街【真假话逻辑判断】
查看>>
php学习笔记
查看>>
机器学习——朴素贝叶斯分类器
查看>>
JavaScript 表单验证 方法
查看>>
Java for LeetCode 139 Word Break
查看>>
[原]F5负载均衡示例:轮寻
查看>>
技术人生:如何成为一位优秀的程序员
查看>>
自己看
查看>>
算法导论——求最大子数组问题
查看>>
iOS开发:正则表达式
查看>>
正则表达式
查看>>
JavaScript高级程序设计之函数
查看>>