Buenas a todos, esta es la primera vez que escribo a la lista, soy german tejero de argentina. Tengo un problema con el que estoy lidiando hace una semana y no he podido resolverlo, siempre he podido resolver todo mis problemas con linux, pero esta vez me supero. Mi escenario es el siguiente. Tengo un servidor HP Proliant ML370G5, con 10GB RAM, dos procesadores Xeon QuadCore, con el que servio a unos cuantos usuarios de Sunray. El tema es que el servidor se empezo a congelar sin razon. Utilizando dmesg + kdump + crash di con que que el kernel esta tomando valores incorrectos del mtrr, si hago cat /proc/mtrr retorna dos rangos con tamaños de 200GB. Utilizando LiveCD de ubuntu 9.04 y Fedora di con que el kernel 2.6.28 toma bien los valores y opera normalmente. Intente pasar los rangos al mtrr por linea de comandos utilizando echo pero el servidor se cuelga o no me toma los valores. Escribi un programa en C utilizando ioctl para modificar el mtrr, pero tampoco me permite modificar los valores. Ahora tengo tres caminos posibles:
1.- Pachear el kernel para corregir el error del mtrr o harcodear los rangos 2.- Compilar un kernel 2.6.28 o superior, y configurarlo para centos 5 3.- Instalar una distribucion con kernel mas moderno y virtualizar sobre el centos 5
¿Que me recomiendan? ¿Alguno de ustedes a tenido problemas con el mtrr? ¿Pudieron solucionarlos?
Ideas y sugerencias son realmente bienvenidas!!!
Saludos!!!!
2009/7/30 Carlos German Tejero german_tejero@yahoo.com.ar:
Buenas a todos, esta es la primera vez que escribo a la lista, soy german tejero de argentina. Tengo un problema con el que estoy lidiando hace una semana y no he podido resolverlo, siempre he podido resolver todo mis problemas con linux, pero esta vez me supero. Mi escenario es el siguiente. Tengo un servidor HP Proliant ML370G5, con 10GB RAM, dos procesadores Xeon QuadCore, con el que servio a unos cuantos usuarios de Sunray. El tema es que el servidor se empezo a congelar sin razon. Utilizando dmesg
- kdump + crash di con que que el kernel esta tomando valores incorrectos
del mtrr, si hago cat /proc/mtrr retorna dos rangos con tamaños de 200GB. Utilizando LiveCD de ubuntu 9.04 y Fedora di con que el kernel 2.6.28 toma bien los valores y opera normalmente. Intente pasar los rangos al mtrr por linea de comandos utilizando echo pero el servidor se cuelga o no me toma los valores. Escribi un programa en C utilizando ioctl para modificar el mtrr, pero tampoco me permite modificar los valores. Ahora tengo tres caminos posibles:
1.- Pachear el kernel para corregir el error del mtrr o harcodear los rangos 2.- Compilar un kernel 2.6.28 o superior, y configurarlo para centos 5 3.- Instalar una distribucion con kernel mas moderno y virtualizar sobre el centos 5
¿Que me recomiendan? ¿Alguno de ustedes a tenido problemas con el mtrr?
Nunca
¿Pudieron solucionarlos?
Ideas y sugerencias son realmente bienvenidas!!!
Cómo se ve exactamente /proc/mtrr con el kernel que falla y con uno "bueno"?
Has probado a arrancar con todas las sugerencias de parámetros relativos a acpi, etc?
Has buscado si hay un reporte de tu problema registrado como bug del kernel (http://bugzilla.kernel.org/)? O en Red Hat (https://bugzilla.redhat.com/)? Busca con algo como "mtrr freeze" o mencionando el modelo de motherboard.
Has probado a reemplazar la memoria, intercambiar bancos de lugar, o reducir el tamaño de la memoria, y registrar si hay diferencias en el dmesg de los sucesivos arranques? Eso puede orientarte en la búsqueda del presunto bug.
Si no lo hay y ninguna de las cosas que pruebes arregla tu problema, deberías pensar en registrar un bug.
Has probado el kernel de centosplus?