<div dir="ltr"><br><div class="gmail_extra"><br><div class="gmail_quote">On Wed, Jun 14, 2017 at 1:32 PM, Karanbir Singh <span dir="ltr"><<a href="mailto:kbsingh@centos.org" target="_blank">kbsingh@centos.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="HOEnZb"><div class="h5">On 14/06/17 15:40, Fabian Arrotin wrote:<br>
> On 14/06/17 11:51, Karanbir Singh wrote:<br>
>><br>
>><br>
>> On 14/06/17 08:18, Daniel Horák wrote:<br>
>>> Hi Brian,<br>
>>> I see lots of slaves offline, is it connected to the yesterday's outage<br>
>>> or is it different issue?<br>
>>><br>
>>> Thanks,<br>
>>> Daniel<br>
>>><br>
>>> On 06/13/17 19:57, Brian Stinson wrote:<br>
>>>> Hi Folks,<br>
>>>><br>
>>>> Jenkins was leaking file descriptors and hit a limit today at 17:00 UTC,<br>
>>>> service was degraded for about 10 minutes, and service was fully<br>
>>>> restored at around 17:24.<br>
>>>><br>
>>>> I've increased the open-files limit for jenkins and am working on tuning<br>
>>>> the garbage collector to mitigate this in the future.<br>
>>>><br>
>>>> Thanks for your patience, and apologies for any inconvenience.<br>
>>>><br>
>><br>
>> I noticed a lot of slaves were down, and was pointed to this by a few<br>
>> people - on <a href="http://chat.openshift.io" rel="noreferrer" target="_blank">chat.openshift.io</a> and irc.freenode : on investigation it<br>
>> looked like jenkins master had exhausted ram and other jobs on the<br>
>> machine were killing the cpu with loads upto 50.x; I had to restart the<br>
>> jenkins master to bring services back.<br>
>><br>
>> once Brian is online, he will likely do a more through investigation and<br>
>> get back with details.<br>
>><br>
>> regards<br>
>><br>
><br>
> I spoke with Brian last week about a plan to move Jenkins to another<br>
> node : actually jenkins master is running on a small VM (2 vcpus and 4Gb<br>
> of RAM), and load average is indeed always high (actually above 20, to<br>
> give an example).<br>
> Let me sync with him (as we already have the node that will be used as<br>
> replacement) to schedule a maintenance window for this<br>
><br>
<br>
</div></div>with 20 you might have caught it just before things went south, again.<br>
lets get Jenkins moved to a new host, more ram and compute etc, but I<br>
think we might need to look at whats going south here.<br>
<br>
I've disabled the JMS Plugin for now, that seems to have had a huge<br>
impact on the system stability. Am going to leave that off till we can<br>
workout what the underlaying issue here is.<br>
<br>
Regards,<br></blockquote><div><br></div><div>Scott wrote that plugin and can look at what is happening.  We need that for our pipeline triggering it has been working fine for a while so it would be good to understand</div><div>what the root cause issue is before just disabling it.</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5"><br>
<br>
<br>
--<br>
Karanbir Singh, Project Lead, The CentOS Project<br>
<a href="tel:%2B44-207-0999389" value="+442070999389">+44-207-0999389</a> | <a href="http://www.centos.org/" rel="noreferrer" target="_blank">http://www.centos.org/</a> | <a href="http://twitter.com/CentOS" rel="noreferrer" target="_blank">twitter.com/CentOS</a><br>
GnuPG Key : <a href="http://www.karan.org/publickey.asc" rel="noreferrer" target="_blank">http://www.karan.org/<wbr>publickey.asc</a><br>
<br>
</div></div><br>______________________________<wbr>_________________<br>
Ci-users mailing list<br>
<a href="mailto:Ci-users@centos.org">Ci-users@centos.org</a><br>
<a href="https://lists.centos.org/mailman/listinfo/ci-users" rel="noreferrer" target="_blank">https://lists.centos.org/<wbr>mailman/listinfo/ci-users</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">-== @ri ==-</div></div>
</div></div>