Stefan Held schrieb:
Am 04.07.2008 um 19:37 schrieb Wolfgang Leideck:
Hallo,
ich unter VMware zwei Centos 5.2 VMs aufgesetzt. Anschliessend habe ich einen einfachen Cluster konfiguriert beim dem nur eine IP-Adresse geswitcht werden soll. Das Starten des Cluster funktioniert wie erwartet. Wenn ich den Knoten A herunterfahre switch die IP Adresse zum Knoten B, prima. Wenn ich aber Knoten A wieder boote hält der Cluster Service auf Knoten B an und beide Knoten sind offline. Was kann da falsch sein?
Gruss WLeideck
Was steht denn in messages zu dem herunterfahren?
Kannst du eventuell mal deine cluster.conf mitliefern?
Wenn du VMWare meinst, dann Workstation oder ESX?
Hallo,
zu Ergänzung das Phänomen tritt sowohl unter VMWare Server als auch VMWare Workstation auf.
Hier die cluster.conf <cluster config_version="4" name="Cluster> <fence_daemon post_fail_delay="0" post_join_delay="3"/> <clusternodes> <clusternode name="extmaster" nodeid="1" votes="1"> <fence> <method name="1"> <device name="fence1" nodename="extmaster"/> </method> </fence> </clusternode> <clusternode name="extstandby" nodeid="2" votes="1"> <fence> <method name="1"> <device name="fence2" nodename="extstandby"/> </method> </fence> </clusternode> </clusternodes> <cman two_node="1" expected_votes="1"/> <fencedevices> <fencedevice agent="fence_manual" name="fence1"/> <fencedevice agent="fence_manual" name="fence2"/> </fencedevices> <rm> <failoverdomains> <failoverdomain name="ClusterDomain" ordered="1" restircted="1"> <failoverdomainnode name="extmaster" priority="1"/> <failoverdomainnode name="extstandby" priority="2"/> </failoverdomain> </failoverdomains> <resources> <ip address="192.168.10.100" monitor_link="1"/> </resources> <service autostart="1" name="Shared IP"> <ip ref="192.168.10.100"/> </service> </rm> </cluster>
Wie gesagt, das umswitchen der IP-Adresse funktioniert, nach dem auf extstandby 'fence_ack_manual -n extmaster' ausgeführt wurde. Sobald aber extmaster wieder bootet, erhalte ich folgenden syslog: Jul 5 13:56:57 extstandby openais[5500]: [TOTEM] The token was lost in the OPERATIONAL state. Jul 5 13:56:57 extstandby dlm_control[5523]: cluster is down, exiting ... Jul 5 13:56:57 extstandby fenced[5517]: groupd is down, exiting ... Dann wiederholt ccsd[5494]: Unable to connect to cluster infrastructure after xxx seconds.
Das war es dann. Muss ich vielleicht irgendeinen Timeout-Wert anpassen, oder ist da sonst etwas faul an der Konfiguration?
Wolfgang