Verminderde performance en instabiliteit op InSite & OutSite

Issue AFAS Profit InSite OutSite
14-01-2025 08:19 CET · 5 uren, 14 minuten, 17 seconden

Update

Post-mortem

De eerste onderzoeken wezen in de richting van een netwerkcomponent (loadbalancer) die mogelijk niet goed functioneerde. Tijdens de instabiliteit zagen we hier vertragingen en een verhoogde belasting. In de ochtend hebben we dit product stapsgewijs voorzien van extra capaciteit. Dit leek de stabiliteit deels te verbeteren, maar gebruikers ervoeren nog steeds af en toe haperingen. Wel bleef de loadbalancer in de lucht en viel niet meer volledig uit.

Omdat de situatie nog niet volledig stabiel was, hebben we een deel van het verkeer omgeleid naar een ander type en merk loadbalancer. Dit testscenario bracht aan het licht dat de instabiliteit nog steeds aanwezig was, ongeacht het type loadbalancer dat werd gebruikt. Dit betekende dat de oorzaak niet bij de loadbalancer zelf lag, maar ergens anders in de keten.

Parallel hieraan is een case met de hoogste prioriteit aangemaakt bij de fabrikant van de oorspronkelijke loadbalancer. De fabrikant bevestigde dat de extra toegekende capaciteit een juiste stap was en dat er in het product zelf geen verdere problemen werden gevonden.

Verder onderzoek wees uit dat er in de backend locking ontstond, waardoor verbindingen bij een bepaalde belasting in een wachtrij (queue) terechtkwamen. Deze wachtrij leidde niet alleen tot vertragingen, maar veroorzaakte ook extra druk op de loadbalancer. Hierdoor bleven connecties zich opstapelen en was steeds meer capaciteit nodig om de belasting op te vangen.

De definitieve oplossing is doorgevoerd in de vorm van een softwarepatch op de backend, die in de nacht van 27 op 28 januari is geïnstalleerd.

Oorzaak
Een suboptimaal cachingmechanisme in de backend, waardoor bij hoge belasting locking ontstond.

Tijdelijke oplossing
Extra capaciteit toegekend aan de netwerkcomponenten om de impact te verminderen.

Definitieve oplossing
Installatie van een backend-patch in de nacht van 27 op 28 januari.

Acties ter voorkoming

  • Evaluatie en optimalisatie van cachingmechanismen om vergelijkbare locking-issues in de toekomst te voorkomen.
  • Monitoring uitbreiden om dit type wachtrijvorming eerder te signaleren.
  • Verbeterde stresstests uitvoeren om de impact van hoge belasting beter in kaart te brengen.
06-02-2025 · 14:46 CET
Update

Tussentijdse update: we zijn nog bezig met het onderzoek naar de oorzaak van de storing. Zodra we meer weten, updaten we deze melding met de nieuwe informatie. Je hoeft dus geen Incident aan te maken bij Support om meer te weten te komen.

20-01-2025 · 17:23 CET
Opgelost

De problemen met InSite en OutSite zijn nu voldoende onder controle en de sites functioneren weer naar verwachting. We blijven doorgaan met ons onderzoek om de precieze oorzaak te achterhalen en maatregelen te nemen zodat dit in de toekomst kan worden voorkomen.

Onze excuses voor deze zeer vervelende storing en dank voor je geduld en begrip!

14-01-2025 · 13:19 CET
Wordt onderzocht

We hebben momenteel een stabiele omgeving, maar houden de melding open en blijven actief monitoren. Het onderzoek naar de onderliggende oorzaak gaat door. De volgende update volgt rond 13:15 uur, tenzij de situatie in de tussentijd verandert.

14-01-2025 · 12:00 CET
De-escaleren

We zien over de gehele omgeving inmiddels verbetering in onze monitoring en krijgen dit ook bevestigd vanuit onze gebruikers. De oorzaak van het probleem zit in een intern virtueel netwerkcomponent, maar is nog niet concreet. We hebben het alleen al wel kunnen isoleren om de impact te verminderen terwijl we met de leveranciers verder zoeken.
Volgende update volgt rond 12:00 uur.

14-01-2025 · 11:14 CET
Wordt onderzocht

De bron van het probleem is nog niet bekend. We hebben wel een mogelijke workaround gevonden die we nu aan het doorvoeren zijn en de eerste resultaten daarvan zijn positief; de pagina’s laden weer. We verwachten dat we deze workaround het komende half uur verder kunnen doorvoeren.
We blijven werken aan een structurele oplossing. Volgende update volgt rond 11:15 uur.

14-01-2025 · 10:33 CET
Wordt onderzocht

Het onderzoek is nog in volle gang. Onze leveranciers zijn betrokken. Helaas is er nog geen concrete bevinding te melden. Volgende update volgt om 10:30 uur.

14-01-2025 · 10:00 CET
Escaleren

We hebben een richting van de oorzaak, maar een oplossing is nog niet voorhanden. We kunnen nog geen tijdsindicatie geven voor wanneer we een oplossing hebben.
De volgende update volgt om 10:00 uur.

14-01-2025 · 09:28 CET
Update

We hebben een oorzaak gevonden van de verminderde performance en werken aan een oplossing. Onze excuses voor het ongemak.

14-01-2025 · 08:41 CET
Issue

Momenteel ervaren we performance problemen op InSite. We hebben dit in onderzoek.

14-01-2025 · 08:19 CET

← Terug