Hello community.<br><br>We are running, Centos 4.8 on SuperMicro SYS-6026T-3RF with 2xIntel Xeon E5630 and 8xKingston KVR1333D3D4R9S/4G<br><br>For some time we have lots of MCE in mcelog and we cant find out the reason.<br>
"Ordinary" mce message looks like:<br><br>CPU 51 BANK 8 TSC 8511e3ca77dc <br>MISC 274d587f00006141 ADDR 807044840 <br>STATUS cc0055000001009f MCGSTATUS 0<br><br>decode with mcelog --ascii --cpu p4(cause there is no xeon56xx in list):<br>
<br>HARDWARE ERROR. This is *NOT* a software problem!<br>Please contact your hardware vendor<br>CPU 53 BANK 8 TSC 1982d8f72b1f <br>MISC e1742eac00006242 ADDR 7ffd78a80 <br>MCG status:<br>MCi status:<br>Error overflow<br>MCi_MISC register valid<br>
MCi_ADDR register valid<br>MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR<br>Transaction: Memory read error<br>STATUS cc0002000001009f MCGSTATUS 0<br><br>The global question is it possible to find out the exact hw which causes those messages? <br>
First we thought that according to <br><br>/* A machine check record */<br>struct mce {<br>        __u64 status;   /* bank status register */<br>        __u64 misc;     /* misc register (always 0 right now) */<br>        __u64 addr;     /* address or 0 */<br>
        __u64 mcgstatus; /* global MC status register */<br>        __u64 rip;      /* Program counter or 0 for silent error */<br>        __u64 tsc;      /* cpu time stamp counter */<br>        __u64 res1;     /* for future extension */<br>
        __u64 res2;     /* dito. */<br>        __u8 cs;        /* code segment */<br>        __u8 bank;      /* machine check bank */<br>        __u8 cpu;       /* cpu that raised the error */<br>        __u8 finished; /* entry is valid */<br>
        __u32 pad;<br>};<br><br>cpu is the cpu rised the exception, but we have 2 quadro cpus with HT so maximum cpu number should be 16 and in logs we see 53 etc.<br>So no we r not sure about what cpu value is :)Does anyone know what the CPU number means exactly?<br>
<br>One more interesting thins is the following output:<br>[root@zuno]# cat /var/log/mcelog |grep CPU|sort|awk '{print $2}'|uniq<br>32<br>33<br>34<br>35<br>50<br>51<br>52<br>53<br><br>Those numbers are always the same.<br>
<br>Ok.Supposed we have problem in RAM, since i dont really know what those cpu numbers mean we suppose that cpu+bank can point the problem hw.Is it possible?<br>According to our "broken ram theory" we suppose that those numbers 32,33,34,45 and 50,51,52,53 indicate some simetric problem with ram/or slots or smth else.Is it correct?<br>
<br>Thanks in advance.<br><br><br><br><br><br><br><br><br>