[CentOS-es] Problema con Centos Server

Eduardo Grosclaude eduardo.grosclaude en gmail.com
Mar Ene 19 03:36:21 UTC 2010


2010/1/17 xOChilpili <xochilpili en gmail.com>:
> Hola a todos!
>
> Hace poco instalé un servidor Centos, en el cuál comparto archivos (música,
> videos y fotos) con samba y una pequeña página web.
> No tengo instalado Gnome, ni nada gráfico.
> Cuando quiero compartir música, del servidor a la máquina "A", en la máquina
> "A" (que tiene Fedora 11) escribo: mount -t cifs -o username=usr
> //ipServer/musik/ /mnt/musik/, lo monta, pero cuando estoy escuchando música
> con amarok y al copiar más música al servidor, empieza a copiar pero en
> determinado tiempo todo se congela y en la pantalla del servidor me muestra
> un mensaje que dice;  "hda lost interrupt" y después se deja de escuchar
> amarok y no puedo acceder al servidor nisiquiera por ssh... Y en la máquina
>

> PS.- Probé el disco duro, con una liveCD que se llama Hiren's Boot Cd.
> Verificando sectores dañados, pero no encontró ninguno, así ke descarté ke
> sea problema del disco duro (hda)

Sin embargo puede tratarse de algún otro problema relacionado con el
hardware, y definitivamente ese mensaje dice que el problema es con
hda y en el server. No veo que Samba, ni el equipo A, tengan parte en
esto (salvo que A está utilizando ancho de banda del sistema de
entrada/salida por partida doble, red más disco).

A veces hay problemas que son detectados por SMART. Puedes probar con
smartctl -a /dev/hda y ver la tabla de los parámetros monitoreados por
SMART, es la parte que se ve parecida a esto:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE
UPDATED  WHEN_FAILED RAW_VALUE
...
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age
Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age
Always       -       0
200 Multi_Zone_Error_Rate   0x000f   100   100   060    Pre-fail
Always       -       2558
203 Run_Out_Cancel          0x0002   100   100   000    Old_age
Always       -       433748902550
240 Head_Flying_Hours       0x003e   200   200   000    Old_age
Always       -       0

Cuando el valor de algún parámetro en VALUE o WORST es MENOR que
THRESH, es indicador de problema con ese parámetro en particular. Sin
embargo SMART no es perfecto, hay cosas que no encuentra; pero que yo
sepa no da falsos positivos. Para mayor control se puede pedir un test
con "smartctl -t long /dev/hda" (ver man smartctl).

Cuando otros usuarios refieren este mensaje de "lost interrupt" se les
aconseja revisar o cambiar los cables planos del disco, cambiar de
slot IDE, e inclusive cambiar la fuente. Puedes probar directamente a
sacar el disco de su máquina y ponerlo en otra similar? Probar otro
modo de operación del disco (tocando el setup de BIOS)?

Qué disco es? Qué equipo (motherboard, velocidad de CPU, cantidad de RAM)...?

(Al resto de la lista) Frecuentemente necesitamos hacer estas
preguntas a quienes vienen a la lista con un problema. Para acelerar
estos pasos se podría convenir en un "protocolo" consistente en
solicitar de antemano a quienes hacen consultas, que incluyan, o suban
a un pastebin, una salida de algún catalogador de hardware y logs de
su sistema.

Alguien recomienda algún programa de test normalizado para este fin?

-- 
Eduardo Grosclaude
Universidad Nacional del Comahue
Neuquen, Argentina


Más información sobre la lista de distribución CentOS-es