<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN" "http://www.w3.org/TR/REC-html40/strict.dtd"><html><head><meta name="qrichtext" content="1" /><style type="text/css">p, li { white-space: pre-wrap; }</style></head><body style=" font-family:'Sans Serif'; font-size:8pt; font-weight:400; font-style:normal;">I have an Athlon with about 10 HDDs plugged in, primarily to do Disk2Disk backups. Some drives are PATA, some are SATA, some are USB. A strange concoction, but it's been relatively stable for some 4-5 years, despite numerous upgrades and so on. It's been running CentOS 4 for a long, long time. (years) <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>Recently, I've started to have problems with its stability, and after 2 weeks of swapping hardware, found that using an earlier kernel restores its stability! <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>It takes a few days to determine if anything "goes south", so debugging is very, very slow. But I get random read errors, either SCSI errors or (a few times) HDA read errors. <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>Once the read errors begin, the system becomes very unresponsive, and often won't restart, even though I wait for hours, without my hitting the "kill switch". <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p># uname -a <br>
Linux backuphost 2.6.9-67.0.22.EL #1 Wed Jul 23 17:17:45 EDT 2008 i686 athlon i386 GNU/Linux<br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>The failures occur on all /dev/sd* devices, even those that are USB. Once, /dev/hdc had a similar problem after /dev/sdb had failed. Don't know if the mapping below helps? <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>/dev/hda - PATA, on motherboard, 20 GB. <br>
/dev/hdb - IDE CDROM <br>
/dev/hdc - on motherboard 500 GB IDE<br>
/dev/hdd - on motherboard 300 GB IDE<br>
/dev/hde - on PCI card, 500 GB IDE <br>
/dev/sda - SATA, on a PCI card, 1 TB<br>
/dev/sdb - SATA, on a PCI card 1 TB<br>
/dev/sdc - USB on a USB 2.0 PCI card, 750 GB <br>
/dev/sde - USB on a USB 2.0 PCI card, 750 GB<br>
/dev/sdf - USB on a USB 2.0 PCI card, 1 TB <br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p><p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>Here's what I see in the /var/log/messages:<br>
<p style="-qt-paragraph-type:empty; margin-top:0px; margin-bottom:0px; margin-left:0px; margin-right:0px; -qt-block-indent:0; text-indent:0px; -qt-user-state:0;"><br></p>May 27 05:08:42 hume ntpd[4844]: kernel time sync enabled 0001<br>
May 27 08:01:01 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 08:01:01 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 08:01:01 hume kernel: EXT3-fs error (device sda1): ext3_find_entry: reading directory #2 offset 0<br>
May 27 08:01:01 hume kernel:<br>
May 27 08:14:27 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 08:14:27 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 08:14:27 hume kernel: EXT3-fs error (device sda1): ext3_find_entry: reading directory #2 offset 0<br>
May 27 08:14:27 hume kernel:<br>
May 27 10:28:30 hume ntpd[4844]: synchronized to 63.240.161.99, stratum 2<br>
May 27 11:48:07 hume sshd(pam_unix)[26873]: session opened for user root by (uid=0)<br>
May 27 11:48:10 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:10 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 11:48:10 hume kernel: EXT3-fs error (device sda1): ext3_find_entry: reading directory #2 offset 0<br>
May 27 11:48:10 hume kernel:<br>
May 27 11:48:16 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:16 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 11:48:16 hume kernel: EXT3-fs error (device sda1): ext3_readdir: directory #2 contains a hole at offset 0<br>
May 27 11:48:23 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:23 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 11:48:23 hume kernel: EXT3-fs error (device sda1): ext3_readdir: directory #2 contains a hole at offset 0<br>
May 27 11:48:24 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:24 hume kernel: end_request: I/O error, dev sda, sector 12847<br>
May 27 11:48:24 hume kernel: EXT3-fs error (device sda1): ext3_readdir: directory #2 contains a hole at offset 0<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 0<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 0<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 8<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 1<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 16<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 2<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 24<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 3<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 32<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 4<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 40<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 5<br>
May 27 11:48:38 hume kernel: SCSI error : <0 0 0 0> return code = 0x40000<br>
May 27 11:48:38 hume kernel: end_request: I/O error, dev sda, sector 48<br>
May 27 11:48:38 hume kernel: Buffer I/O error on device sda, logical block 6<br>
.. MANY MEGABYTES OF STUFF LIKE THIS .. </p></body><br />-- 
<br />This message has been scanned for viruses and
<br />dangerous content by
<a href="http://www.mailscanner.info/"><b>MailScanner</b></a>, and is
<br />believed to be clean.
</html>