[CentOS-de] Cluster Probleme

Wolfgang Leideck wleideck at googlemail.com
Sam Jul 5 12:22:45 UTC 2008


Stefan Held schrieb:
> 
> Am 04.07.2008 um 19:37 schrieb Wolfgang Leideck:
> 
>> Hallo,
>>
>> ich unter VMware zwei Centos 5.2 VMs aufgesetzt. Anschliessend habe ich
>> einen einfachen Cluster konfiguriert beim dem nur eine IP-Adresse
>> geswitcht werden soll.
>> Das Starten des Cluster funktioniert wie erwartet. Wenn ich den Knoten A
>> herunterfahre switch die IP Adresse zum Knoten B, prima. Wenn ich aber
>> Knoten A wieder boote hält der Cluster Service auf Knoten B an und beide
>> Knoten sind offline.
>> Was kann da falsch sein?
>>
>> Gruss
>> WLeideck
> 
> 
> Was steht denn in messages zu dem herunterfahren?
> 
> Kannst du eventuell mal deine cluster.conf mitliefern?
> 
> Wenn du VMWare meinst, dann Workstation oder ESX?
> 
Hallo,

zu Ergänzung das Phänomen tritt sowohl unter VMWare Server als auch
VMWare Workstation auf.

Hier die cluster.conf
<cluster config_version="4" name="Cluster>
  <fence_daemon post_fail_delay="0" post_join_delay="3"/>
  <clusternodes>
    <clusternode name="extmaster" nodeid="1" votes="1">
    <fence>
       <method name="1">
         <device name="fence1" nodename="extmaster"/>
       </method>
    </fence>
    </clusternode>
    <clusternode name="extstandby" nodeid="2" votes="1">
    <fence>
       <method name="1">
          <device name="fence2" nodename="extstandby"/>
       </method>
    </fence>
    </clusternode>
  </clusternodes>
  <cman two_node="1" expected_votes="1"/>
  <fencedevices>
    <fencedevice agent="fence_manual" name="fence1"/>
    <fencedevice agent="fence_manual" name="fence2"/>
  </fencedevices>
  <rm>
    <failoverdomains>
      <failoverdomain name="ClusterDomain" ordered="1" restircted="1">
        <failoverdomainnode name="extmaster" priority="1"/>
        <failoverdomainnode name="extstandby" priority="2"/>
      </failoverdomain>
    </failoverdomains>
    <resources>
      <ip address="192.168.10.100" monitor_link="1"/>
    </resources>
    <service autostart="1" name="Shared IP">
       <ip ref="192.168.10.100"/>
    </service>
  </rm>
</cluster>

Wie gesagt, das umswitchen der IP-Adresse funktioniert, nach dem auf
extstandby 'fence_ack_manual -n extmaster' ausgeführt wurde. Sobald aber
extmaster wieder bootet, erhalte ich folgenden syslog:
Jul  5 13:56:57 extstandby openais[5500]: [TOTEM] The token was lost in
the OPERATIONAL state.
Jul  5 13:56:57 extstandby dlm_control[5523]: cluster is down, exiting
...
Jul  5 13:56:57 extstandby fenced[5517]: groupd is down, exiting
...
Dann wiederholt ccsd[5494]: Unable to connect to cluster infrastructure
after xxx seconds.

Das war es dann.
Muss ich vielleicht irgendeinen Timeout-Wert anpassen, oder ist da sonst
etwas faul an der Konfiguration?

Wolfgang
-------------- nächster Teil --------------
Ein Dateianhang mit Binärdaten wurde abgetrennt...
Dateiname   : wleideck.vcf
Dateityp    : text/x-vcard
Dateigröße  : 265 bytes
Beschreibung: nicht verfügbar
URL         : http://lists.centos.org/pipermail/centos-de/attachments/20080705/b44e2dd6/wleideck.vcf