<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40">
<head>
<meta http-equiv=Content-Type content="text/html; charset=us-ascii">
<meta name=Generator content="Microsoft Word 12 (filtered medium)">
<style>
<!--
/* Font Definitions */
@font-face
{font-family:Calibri;
panose-1:2 15 5 2 2 2 4 3 2 4;}
@font-face
{font-family:Tahoma;
panose-1:2 11 6 4 3 5 4 4 2 4;}
@font-face
{font-family:"Arial CYR";}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{margin:0cm;
margin-bottom:.0001pt;
font-size:11.0pt;
font-family:"Calibri","sans-serif";}
a:link, span.MsoHyperlink
{mso-style-priority:99;
color:blue;
text-decoration:underline;}
a:visited, span.MsoHyperlinkFollowed
{mso-style-priority:99;
color:purple;
text-decoration:underline;}
p.MsoAcetate, li.MsoAcetate, div.MsoAcetate
{mso-style-priority:99;
mso-style-link:"Balloon Text Char";
margin:0cm;
margin-bottom:.0001pt;
font-size:8.0pt;
font-family:"Tahoma","sans-serif";}
span.EmailStyle17
{mso-style-type:personal-compose;
font-family:"Calibri","sans-serif";
color:windowtext;}
span.BalloonTextChar
{mso-style-name:"Balloon Text Char";
mso-style-priority:99;
mso-style-link:"Balloon Text";
font-family:"Tahoma","sans-serif";}
.MsoChpDefault
{mso-style-type:export-only;}
@page WordSection1
{size:612.0pt 792.0pt;
margin:72.0pt 72.0pt 72.0pt 72.0pt;}
div.WordSection1
{page:WordSection1;}
-->
</style>
<!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]-->
</head>
<body lang=EN-NZ link=blue vlink=purple>
<div class=WordSection1>
<p class=MsoNormal>Hi.<o:p></o:p></p>
<p class=MsoNormal>The short story... Rush job, never done clustered file systems
before, vlan didn’t support multicast. Thus I ended up with drbd working
ok between the two servers but cman / gfs2 not working, resulting in what was meant
to be a drbd primary/primary cluster being a primary/secondary cluster until
the vlan could be fixed with gfs only mounted on the one server. I got the single
server working and left to for the contractor to do there bit. Two months down
the line and a few other hiccups in the mix I have a server that wont mount the
gfs partition.. assuming that drbd hasn’t gotten confused and lost the
data on the drive..<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>If I can how do I fix this.<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Drbd is currently as follows: <o:p></o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# drbd-overview<o:p></o:p></p>
<p class=MsoNormal> 1:r0 WFConnection Primary/Unknown UpToDate/DUnknown
C r----<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Cman:<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# /etc/init.d/cman status<o:p></o:p></p>
<p class=MsoNormal>groupd is stopped <o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>gfs2 mount<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# ./gfsmount.sh start<o:p></o:p></p>
<p class=MsoNormal>Mounting gfs2 partition<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: can't connect to gfs_controld: Connection
refused<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: gfs_controld not running<o:p></o:p></p>
<p class=MsoNormal>/sbin/mount.gfs2: error mounting lockproto lock_dlm<o:p></o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]#<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>And log/messages<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Feb 28 09:20:39 mcvpsam01 openais[3328]: [TOTEM] The
consensus timeout expired.<o:p></o:p></p>
<p class=MsoNormal>Feb 28 09:20:39 mcvpsam01 openais[3328]: [TOTEM] entering
GATHER state from 3.<o:p></o:p></p>
<p class=MsoNormal>Feb 28 09:20:54 mcvpsam01 openais[3328]: [TOTEM] The
consensus timeout expired.<o:p></o:p></p>
<p class=MsoNormal>Feb 28 09:20:54 mcvpsam01 openais[3328]: [TOTEM] entering GATHER
state from 3.<o:p></o:p></p>
<p class=MsoNormal>Feb 28 09:21:09 mcvpsam01 openais[3328]: [TOTEM] The
consensus timeout expired.<o:p></o:p></p>
<p class=MsoNormal>Feb 28 09:21:09 mcvpsam01 openais[3328]: [TOTEM] entering
GATHER state from 3.<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>cluster.conf<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# cat /etc/cluster/cluster.conf<o:p></o:p></p>
<p class=MsoNormal><?xml version="1.0"?><o:p></o:p></p>
<p class=MsoNormal><cluster alias="cluster-setup"
config_version="1" name="cluster-setup"><o:p></o:p></p>
<p class=MsoNormal> <rm log_level="4"/><o:p></o:p></p>
<p class=MsoNormal> <fence_daemon clean_start="1"
post_fail_delay="0" post_join_delay="3"/><o:p></o:p></p>
<p class=MsoNormal> <clusternodes><o:p></o:p></p>
<p class=MsoNormal> <clusternode
name="mcvpsam01" nodeid="1" votes="1"><o:p></o:p></p>
<p class=MsoNormal> <fence><o:p></o:p></p>
<p class=MsoNormal> <method
name="2"><o:p></o:p></p>
<p class=MsoNormal>
<device name="LastResortNode01"/><o:p></o:p></p>
<p class=MsoNormal> </method><o:p></o:p></p>
<p class=MsoNormal> </fence><o:p></o:p></p>
<p class=MsoNormal> </clusternode><o:p></o:p></p>
<p class=MsoNormal> <clusternode
name="drvpsam01" nodeid="2" votes="1"><o:p></o:p></p>
<p class=MsoNormal> <fence><o:p></o:p></p>
<p class=MsoNormal> <method
name="2"><o:p></o:p></p>
<p class=MsoNormal>
<device name="LastResortNode02"/><o:p></o:p></p>
<p class=MsoNormal> </method><o:p></o:p></p>
<p class=MsoNormal> </fence><o:p></o:p></p>
<p class=MsoNormal> </clusternode><o:p></o:p></p>
<p class=MsoNormal> </clusternodes><o:p></o:p></p>
<p class=MsoNormal> <cman expected_votes="1"
two_node="1"/><o:p></o:p></p>
<p class=MsoNormal> <fencedevices><o:p></o:p></p>
<p class=MsoNormal> <fencedevice
agent="fence_manual" name="LastResortNode01"
nodename="mcvpsam01"/><o:p></o:p></p>
<p class=MsoNormal> <fencedevice
agent="fence_manual" name="LastResortNode02"
nodename="drvpsam01"/><o:p></o:p></p>
<p class=MsoNormal> </fencedevices><o:p></o:p></p>
<p class=MsoNormal> <rm/><o:p></o:p></p>
<p class=MsoNormal> <totem consensus="4800"
join="60" token="10000" token_retransmits_before_loss_const="20"/><o:p></o:p></p>
<p class=MsoNormal></cluster><o:p></o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]#<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Drbd.conf<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# cat /etc/drbd.conf<o:p></o:p></p>
<p class=MsoNormal>resource r0 {<o:p></o:p></p>
<p class=MsoNormal>protocol C;<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>syncer { rate 1000M; }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>startup {<o:p></o:p></p>
<p class=MsoNormal> wfc-timeout
120;
# wait 2min for other peers<o:p></o:p></p>
<p class=MsoNormal> degr-wfc-timeout
120;
# wait 2min if peer was already<o:p></o:p></p>
<p class=MsoNormal>
# down before this node was rebooted<o:p></o:p></p>
<p class=MsoNormal> become-primary-on both;<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>net {<o:p></o:p></p>
<p class=MsoNormal> allow-two-primaries;<o:p></o:p></p>
<p class=MsoNormal># cram-hmac-alg
"sha1";
# algo to enable peer authentication<o:p></o:p></p>
<p class=MsoNormal># shared-secret "123456";<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> # handle split-brain situations<o:p></o:p></p>
<p class=MsoNormal> after-sb-0pri discard-least-changes;# if
no primary auto sync from the<o:p></o:p></p>
<p class=MsoNormal>
# node that touched more blocks during<o:p></o:p></p>
<p class=MsoNormal>
# the split brain situation.<o:p></o:p></p>
<p class=MsoNormal> after-sb-1pri
discard-secondary; # if one primary<o:p></o:p></p>
<p class=MsoNormal> after-sb-2pri
disconnect; # if
two primaries<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> # solve the cases when the outcome<o:p></o:p></p>
<p class=MsoNormal> # of the resync decision is incompatible<o:p></o:p></p>
<p class=MsoNormal> # with the current role assignment in<o:p></o:p></p>
<p class=MsoNormal> # the cluster<o:p></o:p></p>
<p class=MsoNormal> rr-conflict
disconnect;
# no automatic resynchronization<o:p></o:p></p>
<p class=MsoNormal>
# simply disconnect<o:p></o:p></p>
<p class=MsoNormal>}<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>disk {<o:p></o:p></p>
<p class=MsoNormal> on-io-error
detach;
# detach the device from its<o:p></o:p></p>
<p class=MsoNormal>
# backing storage if the driver of<o:p></o:p></p>
<p class=MsoNormal>
# the lower_device reports an error<o:p></o:p></p>
<p class=MsoNormal>
# to DRBD<o:p></o:p></p>
<p class=MsoNormal># fencing resource-and-stonith;<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> on mcvpsam01 {<o:p></o:p></p>
<p class=MsoNormal> device
/dev/drbd1;<o:p></o:p></p>
<p class=MsoNormal> disk /dev/sdb1;<o:p></o:p></p>
<p class=MsoNormal> address
202.37.1.133:7789;<o:p></o:p></p>
<p class=MsoNormal> meta-disk
internal;<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> on drvpsam01 {<o:p></o:p></p>
<p class=MsoNormal> device
/dev/drbd1;<o:p></o:p></p>
<p class=MsoNormal> disk /dev/sdb1;<o:p></o:p></p>
<p class=MsoNormal> address
202.37.1.134:7789;<o:p></o:p></p>
<p class=MsoNormal> meta-disk
internal;<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal>}<o:p></o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]#<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]# cat /etc/drbd.d/global_common.conf<o:p></o:p></p>
<p class=MsoNormal>global {<o:p></o:p></p>
<p class=MsoNormal> usage-count yes;<o:p></o:p></p>
<p class=MsoNormal> # minor-count
dialog-refresh disable-ip-verification<o:p></o:p></p>
<p class=MsoNormal>}<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>common {<o:p></o:p></p>
<p class=MsoNormal> protocol C;<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> handlers {<o:p></o:p></p>
<p class=MsoNormal>
pri-on-incon-degr "/usr/lib/drbd/notify-pri-on-incon-degr.sh;
/usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ;
reboot -f";<o:p></o:p></p>
<p class=MsoNormal>
pri-lost-after-sb "/usr/lib/drbd/notify-pri-lost-after-sb.sh;
/usr/lib/drbd/notify-emergency-reboot.sh; echo b > /proc/sysrq-trigger ;
reboot -f";<o:p></o:p></p>
<p class=MsoNormal>
local-io-error "/usr/lib/drbd/notify-io-error.sh;
/usr/lib/drbd/notify-emergency-shutdown.sh; echo o > /proc/sysrq-trigger ;
halt -f";<o:p></o:p></p>
<p class=MsoNormal>
# fence-peer "/usr/lib/drbd/crm-fence-peer.sh";<o:p></o:p></p>
<p class=MsoNormal>
# split-brain "/usr/lib/drbd/notify-split-brain.sh root";<o:p></o:p></p>
<p class=MsoNormal>
# out-of-sync "/usr/lib/drbd/notify-out-of-sync.sh root";<o:p></o:p></p>
<p class=MsoNormal>
# before-resync-target "/usr/lib/drbd/snapshot-resync-target-lvm.sh -p 15
-- -c 16k";<o:p></o:p></p>
<p class=MsoNormal>
# after-resync-target /usr/lib/drbd/unsnapshot-resync-target-lvm.sh;<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> startup {<o:p></o:p></p>
<p class=MsoNormal>
# wfc-timeout degr-wfc-timeout outdated-wfc-timeout wait-after-sb<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> disk {<o:p></o:p></p>
<p class=MsoNormal>
# on-io-error fencing use-bmbv no-disk-barrier no-disk-flushes<o:p></o:p></p>
<p class=MsoNormal>
# no-disk-drain no-md-flushes max-bio-bvecs<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> net {<o:p></o:p></p>
<p class=MsoNormal>
# sndbuf-size rcvbuf-size timeout connect-int ping-int ping-timeout max-buffers<o:p></o:p></p>
<p class=MsoNormal>
# max-epoch-size ko-count allow-two-primaries cram-hmac-alg shared-secret<o:p></o:p></p>
<p class=MsoNormal>
# after-sb-0pri after-sb-1pri after-sb-2pri data-integrity-alg no-tcp-cork<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal> syncer {<o:p></o:p></p>
<p class=MsoNormal>
# rate after al-extents use-rle cpu-mask verify-alg csums-alg<o:p></o:p></p>
<p class=MsoNormal> }<o:p></o:p></p>
<p class=MsoNormal>}<o:p></o:p></p>
<p class=MsoNormal>[root@mcvpsam01 init.d]#<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Any ideas how I can get the file system mounted to recover
the data.<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal>Thanks<o:p></o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal><o:p> </o:p></p>
<p class=MsoNormal style='mso-margin-top-alt:5.0pt;margin-right:0cm;margin-bottom:
7.5pt;margin-left:0cm;text-autospace:none'><b><span style='font-family:"Arial CYR","sans-serif";
color:#003366'>Greg Machin</span></b><span style='font-size:9.0pt;font-family:
"Arial CYR","sans-serif";color:#008C9A'><br>
</span><b><span style='font-size:10.0pt;font-family:"Arial CYR","sans-serif";
color:#008C9A'>Systems Administrator - Linux</span></b><span style='font-size:
9.0pt;font-family:"Arial CYR","sans-serif";color:#008C9A'><br>
Infrastructure Group, Information Services<o:p></o:p></span></p>
<p class=MsoNormal><o:p> </o:p></p>
</div>
</body>
</html>