<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<META NAME="Generator" CONTENT="MS Exchange Server version 6.5.7652.24">
<TITLE>Re: [CentOS-devel] RE: [CentOS-virt] BUG: soft lockup detected onCPU#?</TITLE>
</HEAD>
<BODY>
<!-- Converted from text/plain format -->
<BR>

<P><FONT SIZE=2>Thanks Johnny, and sorry for the top post (blackberry).<BR>
<BR>
I d/l'd the src rpm and found their patches all in 1 patch file called xen.patch (I did an ls -lt and picked the files with the latest timestamps). There may also be kernel config changes as several config files were touched, but I couldn't get a hold of the original 8.1.8 src rpm to diff them.<BR>
<BR>
I would be happy to help in getting the parts needed so they can be rolled up into a single patch to apply to the current plus kernel. Just let me know what you need.<BR>
<BR>
I wonder if anybody at XenSource notified upstream of the fixes?<BR>
<BR>
-Ross<BR>
<BR>
<BR>
----- Original Message -----<BR>
From: centos-devel-bounces@centos.org &lt;centos-devel-bounces@centos.org&gt;<BR>
To: The CentOS developers mailing list. &lt;centos-devel@centos.org&gt;<BR>
Sent: Wed Jan 23 07:37:04 2008<BR>
Subject: Re: [CentOS-devel] RE: [CentOS-virt] BUG: soft lockup detected onCPU#?<BR>
<BR>
Ross S. W. Walker wrote:<BR>
&gt; Ross S. W. Walker wrote:<BR>
&gt;&gt; Brett Worth wrote:<BR>
&gt;&gt;&gt; Hello All.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I've just started looking into Xen and have a test<BR>
&gt;&gt;&gt; environment in place.&nbsp; I'm seeing an<BR>
&gt;&gt;&gt; annoying problem that I thought worthy of a post.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Config:<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I have 2 x HP DL585 servers each with 4 Dual core Opterons<BR>
&gt;&gt;&gt; (non-vmx) and 16GB RAM<BR>
&gt;&gt;&gt; configured as Xen servers.&nbsp; These run CentOS 5.1 with the<BR>
&gt;&gt;&gt; latest updates applied.&nbsp; These<BR>
&gt;&gt;&gt; system both attach to an iSCSI target which is an HP DL385<BR>
&gt;&gt;&gt; running ietd and serving SAN<BR>
&gt;&gt;&gt; based storage.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I have a test VM running CentOS 5.1 also updated.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Problem:<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; If I run the VM on a single server everything is OK.&nbsp; If I do<BR>
&gt;&gt;&gt; a migrate of the VM to the<BR>
&gt;&gt;&gt; other server I start getting random &quot;BUG: soft lockup<BR>
&gt;&gt;&gt; detected on CPU#?&quot; messages on the<BR>
&gt;&gt;&gt; VM console.&nbsp; The messages seem to happen with IO but not<BR>
&gt;&gt;&gt; every time.&nbsp; A reboot of the VM<BR>
&gt;&gt;&gt; on the new server will stop these messages.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; I've also left the VM running overnight a couple of times and<BR>
&gt;&gt;&gt; when I do I find that any<BR>
&gt;&gt;&gt; external sessions (ssh) are hung in the morning but the<BR>
&gt;&gt;&gt; console session is not.&nbsp; New ssh<BR>
&gt;&gt;&gt; sessions can be started and seem to work.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; After much googling it looks like the kernel messages can<BR>
&gt;&gt;&gt; occur if dom0 is very busy but<BR>
&gt;&gt;&gt; mine is not.<BR>
&gt;&gt;&gt;<BR>
&gt;&gt;&gt; Any suggestions?<BR>
&gt;&gt; The soft lockup is technically not a BUG.<BR>
&gt;&gt;<BR>
&gt;&gt; You will see these errors if an IRQ takes more then 10 seconds<BR>
&gt;&gt; to respond.<BR>
&gt;&gt;<BR>
&gt;&gt; In your case I would take a look at your iSCSI setup and the<BR>
&gt;&gt; time it takes to migrate the VM from one node to another along<BR>
&gt;&gt; with SCSI reserve/release setup on the iSCSI target.<BR>
&gt;&gt;<BR>
&gt;&gt; I also have been using the Xen 3.2 RPMs off xen.org to CentOS<BR>
&gt;&gt; 5.1 which good results, the VM migration may run smoother and<BR>
&gt;&gt; quicker in Xen 3.2, but in doing so you take Xen off the<BR>
&gt;&gt; reservation, if your OK with that it may fix your issues.<BR>
&gt;<BR>
&gt; After seeing this same issue on my Xen 3.2 install, but with NO<BR>
&gt; migration or iSCSI happening I decided it is probably NOT iSCSI's<BR>
&gt; fault, so I decided to research it a little more and this is what<BR>
&gt; I found:<BR>
&gt;<BR>
&gt; <A HREF="http://docs.xensource.com/XenServer/4.0.1/guest/ch04s08.html#rhel5_limitations">http://docs.xensource.com/XenServer/4.0.1/guest/ch04s08.html#rhel5_limitations</A><BR>
&gt;<BR>
&gt; XenSource does provide a repo of CentOS 5 kernels that have been<BR>
&gt; patched to fix this though:<BR>
&gt;<BR>
&gt; <A HREF="http://updates.xensource.com/XenServer/4.0.1/centos5x/">http://updates.xensource.com/XenServer/4.0.1/centos5x/</A><BR>
&gt;<BR>
&gt; But these seem to be woefully out of date.<BR>
&gt;<BR>
&gt; I wonder if a kind soul would add the fix to the centosplus kernel<BR>
&gt; with XenSource's patch so those rogue Xen users could benefit from<BR>
&gt; this fix until upstream decides to include it.<BR>
&gt;<BR>
&gt; I suppose the centosplus patch would need to be flagged interm in<BR>
&gt; case it needs removed when upstream has their own fix.<BR>
<BR>
Ross,<BR>
<BR>
Thanks for researching this.<BR>
<BR>
I can probably add this to the next centosplus kernels, though I usually<BR>
do not like to add patches ... and I will need to grab their kernels and<BR>
work out what is patched and try to roll it into our kernels.<BR>
<BR>
-- Johnny Hughes<BR>
<BR>
</FONT>
</P>


<P></P>
<HR WIDTH="100%">
This e-mail, and any attachments thereto, is intended only for use by
the addressee(s) named herein and may contain legally privileged
and/or confidential information. If you are not the intended recipient
of this e-mail, you are hereby notified that any dissemination,
distribution or copying of this e-mail, and any attachments thereto,
is strictly prohibited. If you have received this e-mail in error,
please immediately notify the sender and permanently delete the
original and any copy or printout thereof.

</BODY>
</HTML>