<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
</head>
<body bgcolor="#ccccff" text="#000000">
<font face="Helvetica, Arial, sans-serif">As part of patching a cluster
which has two DL580G5 login nodes ( 4X Intel 7300 DC cpus) & 24 HP
DL160G5 compute nodes ( 2x Intel 5272 DC cpus) we encountered an issue
that I would like to record:<br>
<br>
I upgraded both DL580s to Centos 4.7 via yum but only rebooted one
initially- this node, previously bomb-proof, started to hang randomly
with no obvious messages logged to help with diagnosis. <br>
<br>
In the dmessage output I found this sequence never seem before<br>
<br>
Uhhuh. NMI received for unknown reason 20.<br>
Dazed and confused, but trying to continue<br>
Do you have a strange power saving mode enabled?<br>
Uhhuh. NMI received for unknown reason 30.<br>
Dazed and confused, but trying to continue<br>
<br>
(repeated several times)<br>
<br>
Googling revealed many different scenarios with this boot error
message, some suggesting a memory error - Oh Joy, these two machines
have 64GB RAM each.<br>
<br>
I then changed grub.conf to boot to the previous kernel
2.6.9-67.0.15.ELsmp instead of the updated version of
2.6.9-78.0.5.ELsmp.<br>
<br>
The boot-time error messages immediately went away and so far the
systems are reliable.<br>
<br>
Has anyone an explanation or confirmation that they have seen or
overcome the above issue? I should mention that the DL160 compute nodes
have not exhibited this behaviour at all.<br>
<br>
Les Oswald<br>
<br>
</font>
</body>
</html>