<br><br><div class="gmail_quote">On Sat, Nov 15, 2008 at 3:16 AM, Rudi Ahlers <span dir="ltr"><<a href="mailto:rudiahlers@gmail.com">rudiahlers@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi,<br>
<br>
We have a server which locks up about once a week (for the past 3<br>
weeks now), without any warning, and the only way to recover it, is to<br>
reset the server. This causes unwanted downtime, and often software<br>
loss as well.<br>
<br>
How do I debug the server, which runs CentOS 5.2 to see why it locks<br>
up? The CPU is an Intel Q9300 Core 2 Quad, with 8 GB RAM, on an Intel<br>
Motherboard<br>
</blockquote><div><br>Attach a local console to the video port and let us know what it says --><br>that will (probably) be very insightful.  E.G., Kernel panic, MCE, ....<br><br>Next, run memtest86+ -- at least overnight.  [Note: I've had less than<br>
stellar results with memtest86 recently, but if it shows errors, you've got<br>a problem big time; if it doesn't show errors, you still not 100% sure that<br>memory is good:-):-).]  Is it ECC memory??  If not, why not -- particularly<br>
given it is a critical server ....<br><br>Are all the fans spinning -- particularly the CPU??  Do you have lm-sensors<br>enabled??  Either create a script or using something like munin to track things<br>and see if fans, temperature, voltages are all stable & within range up to death.<br>
<br>Can you easilhy swap power supplies??  (Is the unit dual powered or just<br>one unit?) <br><br>Clearly, just a start, but you get the idea of elementary, 101 problem solving ....<br><br>   -rak-<br><br></div></div>