[CentOS-es] Problema con mtrr Centos 5.3 Kernel i386 2.6.18-128.2.1.PAE

Eduardo Grosclaude eduardo.grosclaude en gmail.com
Vie Jul 31 02:08:01 UTC 2009


2009/7/30 Carlos German Tejero <german_tejero en yahoo.com.ar>:
> Buenas a todos, esta es la primera vez que escribo a la lista, soy german
> tejero de argentina.
> Tengo un problema con el que estoy lidiando hace una semana y no he podido
> resolverlo, siempre he podido resolver todo mis problemas con linux, pero
> esta vez me supero.
> Mi escenario es el siguiente.
> Tengo un servidor HP Proliant ML370G5, con 10GB RAM, dos procesadores Xeon
> QuadCore, con el que servio a unos cuantos usuarios de Sunray.
> El tema es que el servidor se empezo a congelar sin razon. Utilizando dmesg
> + kdump + crash di con que que el kernel esta tomando valores incorrectos
> del mtrr, si hago cat /proc/mtrr retorna dos rangos con tamaños de 200GB.
> Utilizando LiveCD de ubuntu 9.04 y Fedora di con que el kernel 2.6.28 toma
> bien los valores y opera normalmente.
> Intente pasar los rangos al mtrr por linea de comandos utilizando echo pero
> el servidor se cuelga o no me toma los valores. Escribi un programa en C
> utilizando ioctl para modificar el mtrr, pero tampoco me permite modificar
> los valores. Ahora tengo tres caminos posibles:
>
> 1.- Pachear el kernel para corregir el error del mtrr o harcodear los rangos
> 2.- Compilar un kernel 2.6.28 o superior, y configurarlo para centos 5
> 3.- Instalar una distribucion con kernel mas moderno y virtualizar sobre el
> centos 5
>
> ¿Que me recomiendan? ¿Alguno de ustedes a tenido problemas con el mtrr?

Nunca

> ¿Pudieron solucionarlos?
>
> Ideas y sugerencias son realmente bienvenidas!!!
>
Cómo se ve exactamente /proc/mtrr con el kernel que falla y con uno "bueno"?

Has probado a arrancar con todas las sugerencias de parámetros
relativos a acpi, etc?

Has buscado si hay un reporte de tu problema registrado como bug del
kernel (http://bugzilla.kernel.org/)? O en Red Hat
(https://bugzilla.redhat.com/)? Busca con algo como "mtrr freeze" o
mencionando el modelo de motherboard.

Has probado a reemplazar la memoria, intercambiar bancos de lugar, o
reducir el tamaño de la memoria, y registrar si hay diferencias en el
dmesg de los sucesivos arranques? Eso puede orientarte en la búsqueda
del presunto bug.

Si no lo hay y ninguna de las cosas que pruebes arregla tu problema,
deberías pensar en registrar un bug.

Has probado el kernel de centosplus?

-- 
Eduardo Grosclaude
Universidad Nacional del Comahue
Neuquen, Argentina


Más información sobre la lista de distribución CentOS-es