<div dir="ltr">Confluence is back<div>I didn't have to touch to it.</div><div>A little bit slow but I hope that caches will be filled before US are waking up</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Tue, Jun 9, 2015 at 9:45 AM, Arnaud Héritier <span dir="ltr"><<a href="mailto:aheritier@gmail.com" target="_blank">aheritier@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Same thing this today :(<div>I restarted LDAP.</div><div>I'm trying to see if I can fix Confluence but I'm not sure to be able to do it myself</div></div><div class="gmail_extra"><br><div class="gmail_quote"><span class="">On Tue, May 26, 2015 at 6:01 PM, Kohsuke Kawaguchi <span dir="ltr"><<a href="mailto:kk@kohsuke.org" target="_blank">kk@kohsuke.org</a>></span> wrote:<br></span><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5"><div dir="ltr"><div><br></div><div>We had the outage of LDAP and Confluence Friday morning.</div><div><ul><li>LDAP server (slapd) is configured to <a href="https://issues.jenkins-ci.org/browse/INFRA-240" target="_blank">restart every day</a>. Apparently for some reason, when it happened last night, it killed slapd but a new one didn't come online. This happend around May 21 20:00 EDT. No monitoring was set up to detect this.<br><br></li><li>As a result, no one was able to login to JIRA & Confluence.<br><br></li><li>The intersection of the people who had access and the people who knew where LDAP was running was zero, until the morning next day in PDT. I think Arnaud, Kostyasha, or James pinged me over IRC and CloudBees internal chat, and I got ithe daemon started at May 22 10:05 EDT.<br><br></li><li>LDAP outage lasted good 14 hours.<br><br></li><li>At around the same time, Confluence started acting up. According to the monitoring, this happened around May 22 10:10 EDT.<br><br></li><li>A quick investigation revealed that this was caused by cache depletion. Confluence is very slow, so we have the static cache layer in front that serves pre-generated HTML files. Probably because the periodical cache regeneration failed due to LDAP outage, almost all the cached files were gone.<br><br></li><li>This resulted in everyone hitting Confluence hard, and Confluence couldn't keep up with it.<br><br></li><li>The maintenance screen was put up around 11:05 EDT, the cache regeneration process was started again, and by 12:10 EDT, the cache was sufficiently populated and the maintenance screen was taken down.</li></ul></div>Here is my take of actions based on this:<div><ul><li>slapd needs to be managed by Upstart, not /etc/init.d so that if the process is lost, it'll automatically get restarted. With this, nightly LDAP restart shouldn't be an issue.<br><br></li><li>LDAP needs to be monitored so that we know it's responsive. Ideally this should check the certificate expiration date as well so that we get warned if the expiration gest imminent.<br><br></li><li>Static cache size in Confluence needs to be monitored so that we can see when it starts to go down.<br><br></li><li>Static cache generator code needs to be checked to find out why it can deplete the cache. I suspect it's the full regeneration process going rogue, but surely it should be able to keep the old cache file around if the new one fails to generate.</li></ul><span><font color="#888888"><div><br></div>-- <br><div>Kohsuke Kawaguchi</div>
</font></span></div></div>
<br></div></div><span class="">_______________________________________________<br>
Jenkins-infra mailing list<br>
<a href="mailto:Jenkins-infra@lists.jenkins-ci.org" target="_blank">Jenkins-infra@lists.jenkins-ci.org</a><br>
<a href="http://lists.jenkins-ci.org/mailman/listinfo/jenkins-infra" target="_blank">http://lists.jenkins-ci.org/mailman/listinfo/jenkins-infra</a><br>
<br></span></blockquote></div><span class=""><br><br clear="all"><div><br></div>-- <br><div><div>-----</div><div>Arnaud Héritier</div><div><a href="http://aheritier.net" target="_blank">http://aheritier.net</a></div><div>Mail/GTalk: aheritier AT gmail DOT com</div><div>Twitter/Skype : aheritier</div></div>
</span></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div>-----</div><div>Arnaud Héritier</div><div><a href="http://aheritier.net" target="_blank">http://aheritier.net</a></div><div>Mail/GTalk: aheritier AT gmail DOT com</div><div>Twitter/Skype : aheritier</div></div>
</div>