当前位置:文档之家› fence问题

fence问题

一、对于机器重启动,可能原因有两个:
1、网络交换机,对于有些交换机型号(如CISCO)必须设定PORTFAST(可能是这么拼,我对交换机不熟悉)。而有些品牌的型号(如TPLINK)缺省就设定了PORTFAST。
2、fence_ilo的版本问题。我用RHCS 4.5,就出现了不断重启,下载了最新4.7的fence包,才解决的。
再详细说一下有关fence版本的问题,
在4.5中,fence_ilo xxxx -o off能正常关机,但fence_ilo xxxx -o on或者-o restart报错,不能重新启动机器。
假设A机正常工作,B机关着,那么A机的fenced服务会不断发fence信号(相当于 fence_ilo xxx -o restart,都是通过fence agent来发出的),让B机重启,但由于fence 不能在OFF的状态把B机启动,所以会一直报fence failure。而手动启动B机,刚启动,A机的fence信号又发过来,让B机RESTART,结果就是B机OFF以后不能START。
注:A机发fence 信号的周期是10秒左右,0秒发出fence 信号(fence node "nodename"),5秒就能返回失败信号(fence "nodename" failure),10秒再发出fence信号。以上过程在B机未能重启的情况下,一直重复。

二、fence_ilo 报“no route to host"错误
10楼遇到过此问题的。
解决这个问题要检查几个地方:
1、硬件连接:对于HP ILO作为fence 设备不能两个ILO直连。(IBM BMC好象可以)。对HP的ILO,它的fence信号是通过ETHO发出的,而不是ILO端口,所以不能直连。

2、配置:在fence设备配置中,HOSTNAME必须是ILO端口的地址或NAME,如果是NAME,在HOSTS文件中必须设定。
如果能在A机上PING通B机的ILO端口,就应该不会出现这个错误了。









RHCS使用HP iLO3 fence
2011-01-14 14:11
最近在2台HP DL388G7上部署RedHat Cluster Suite,想将其配置为高可用性集群,在配置fence时发现在其中一台机器上使用fence_ilo对令一台进行隔离时总是失败,报错信息如下:

#fence_ilo -a 192.168.100.1 -l Administrator -p PASSW0RD -o staus
Unable to connect/login to fencing device

确认网络、密码都没有问题,就是连接不上。

经过查询发现DL388G7的ILO的版本是ILO3,不支持RHCS自带的fence_ilo,但可以支持ipmi,即可以使用fence_ipmi来隔离失效的节点,测试命令如下:

fence_ipmilan -v -P -A password -a 192.168.100.1 -l Administrator -p PASSW0RD -o status




ipmitool -H 192.168.100.1 -I lanplus -U Administrator mc info

注意:在配置fence_ipmi时需要在/etc/cluster/cluster.conf中加入lanplus=1(ILO3需要)




什么是IPMI? 百度百科的解释如下:

IPMI(智能平台管理接口)是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法。IPMI 信息通过基板管理控制器 (BMC)(位于 IPMI 规格的硬件组件上)进行交流。使用低级硬件智能

管理而不使用操作系统进行管理。

以上难以理解?你可以理解为通过这个接口可以:看到一些服务器硬件信息、实现远程开关机、远程重启服务器。应用场景如:

1. 服务器宕机,这时候通过SSH已经无法远程连接,服务器又托管在IDC,你又打电话苦寻网管员无果,可以通过IPMI来进行远程重启。

2. 集群服务,如RHCS中的内部Fence设备。

目前服务器基本上都集成了这个接口,可能各个服务器配置不同,所以如果没有意外,可以在服务器上架的时候配置就一下IPMI,为以后操作带来方便。
目前DELL R710 R910 系列服务器的IPMI,集成在第一块网卡eth0,你需要将网线连接第一块网卡eth0到交换机。eth0网卡启动与否并不影响它的使用。所以服务器的IP地址则推荐选择其他的网卡。

(坑爹啊,我广泛查阅了资料才知道DELL是这么回事)

IPMI配置途径:

一、通过开机的BIOS配置,网上图文教程比较多,即开机ctrl+E进入配置界面。
二、主要用于通过指令来配置,适用于服务器已经上架,IDC机房距离又较远,实在懒得跑过去一趟。前提是第一块网卡得连上线,不然没办法测试。

CentOS 上的配置方法:

1. 安装相关组件,主要是OpenIPMI,并启动服务:

yum install OpenIPMI OpenIPMI-devel OpenIPMI-tools OpenIPMI-libs
/etc/init.d/ipmi start
chkconfig ipmi on
2. 进行IPMI的基本网络配置:


service acpi stop
service networkmanager stop

网上很多教程都有-I open参数,其实这个参数是默认的。不要统统都抄过来啊。
以下指令分别配置了IP地址、掩码、网关、允许进入开关。IP地址最好与服务器IP在同一网段。

ipmitool lan set 1 ipaddr 192.168.1.70
ipmitool lan set 1 netmask 255.255.255.0
ipmitool lan set 1 defgw ipaddr 192.168.1.1
ipmitool lan set 1 access on
ipmitool lan print 1 # 检查网络配置结果
3. 开启默认用户、设置默认密码:

ipmitool lan set 1 user
ipmitool lan set 1 password 123123
ipmitool user list 1 # 显示当前用户列表
4. 通过查看用户列表。可以看到当前有两个用户,一个是默认匿名用户,一个是root。而root的uid = 2。
所以要设置一下root用户的密码,按照提示输入两次密码:

ipmitool user set password 2
5. 在多台服务器上配置好IPMI后,测试可以ping通设置好的IP地址。
以下为两种检验方法:

ping 192.168.1.70
ipmitool -H 192.168.1.70 -U root power status

正常返回结果会是:power is on。

注意:ipmitool只能对其他服务器执行,对本机执行则返回无结果。

6. 好了,你可以开关机与重启的测试(闲的没事干):

ipmitool -H 192.168.1.70 -U root power on
ipmitool -H 192.168.1.70 -U root power off
ipmitool -H 192.168.1.70 -U root power reset
RHCS中的Fence配置方法:



在做RHCS集群中,选择IPMI进行Fence配置时,仅仅验证ipmitool测试正常是不够的。还需要验证RHCS中的agent是否可以正常工作,因为我通过ipmitool lan print 1 发现验证仅支持MD5,所以使用以下指令进行agent的验证试探。

fence_ipmilan -v -a 192.168.1.70 -l root -p 123123 -o status -A md5
以上参数分别表示IP地址、用户名、密码、验证方法。

验证通过后,RHCS的配置文件中也要加上验证方法的配置:



这样才能确保集群Fence正常。

网上一堆案例都搞不清auth的问题,有贴auth="none"的,有贴auth="password"的,只有通过上述方法验证后你才能确定到底是什么原因?

最后说一句。IPMI在RHCS中属于内部Fence设备,如果你拔掉服务器电源线,它是没办法正常工作的。

不过服务器电源一般都不是单电,可以不用考虑这种情况。







7.由于cman存在一个bug,需在每台机器上执行如下命令创建一个软链接:
ln -s /usr/sbin/cman_tool /sbin/cman_tool



1、客户在配置RHCS HA时,配置Fence遇到问题,无法使用HP iLO Device,原因如下:
HP Proliant Server iLO3在配置Fence时与以往不同,目前为止(RHEL5U5以下的,RHEL6没有测试)RHCS HA只支持iLO2,不支持新版本的iLO3,但iLO3支持ipmi over lan,所以解决方法如下:
在设置Fence的时候可以选择IPMI LAN,同时为每台Node指定Fence设备时,需要选上lanplus复选框,或者直接修改/etc/cluster/cluster.conf文件。请确保cluster.conf中lanplus=1。
ipmi over lan测试方法:

a)ipmitool -H [ip address] -I lanplus -U [user] mc info

b)fence_ipmilan -v -P -a [ip address] -l [user] -p [password] -o status

c)fence_ipmilan -v -P -a [ip address] -l [user] -p [password] -o reboot -A password



2、客户在配置晚RHCS HA之后需要在service中添加数据库启停脚本,但客户反映自己写的脚本无效,原因如下:
在添加脚本资源时,脚本必须为可以启停的服务脚本,即可以在脚本后面用start|stop|restart等参数控制脚本启停,否则RHCS HA不会将该脚本作为有效脚本,解决方法如下:
让客户参照Redhat系统服务启停脚本,eg: root@localhost# cat /etc/init.d/sshd



3、客户在Redhat Linux做网卡bond时,如果RHEL装了xen虚拟机,可能造成拔掉一根网线无法自动Failover的现象。解决方法如下(2种):

a)绑定网卡改一些参数:
此时需要编辑XEN的配置文件,指定网桥设备
vi /etc/xen/xend-config.sxp
找到有netdev的一行,修改如下
(network-script 'network-bridge netdev=bond0')
重启后系统就可以正常识别物理网卡的up/down状态了
cat /proc/net/bonding/pbond0

b)更换启动

内核:
i.检查/boot文件夹下的除了xen意外的其他内核,并把该内核假如到启动项menu.list中,并将其设置为默认。(推荐)
ii.服务器正常启动,到grub界面时,手动选择其他内核启动。






相关主题
文本预览
相关文档 最新文档