Hoe kies je de juiste tool voor incidentbeheer?

Tools voor incidentbeheer spelen een belangrijke rol in moderne DevOps, maar ontwikkelaars en DevOps-teams zien dat niet altijd in. Vaak hoor je: “Waarom zouden we nóg een app nodig hebben? We loggen alles al, doen aan monitoring en hebben alarmering ingesteld in onze systemen, dus we weten het meteen als er iets misgaat.”

Maar in moderne applicaties die bestaan uit onderling afhankelijke containers en microservices, heeft één enkele storing vaak een domino-effect op andere services. Traditionele alarmering is ongeschikt voor moderne cloudapplicaties. Dat komt omdat storingen een lawine aan waarschuwingen kunnen veroorzaken die aan het gehele Ops-team zijn gericht. En dat maakt het lastig om te bepalen wat de oorzaak van een storing is of wie opdracht moet krijgen om deze te verhelpen. Bovendien merken de meeste monitoringtools het probleem meestal pas op nadat services echt zijn uitgevallen. Wat dergelijke tools niet zien, zijn de afwijkingen en patronen die duidelijk maken dat er iets dreigt mis te gaan, nog voordat een storing optreedt.

Moderne tools voor incidentbeheer werken echter met data uit monitoringtools, zoals meetwaarden, logs en traces, om waarschuwingen te filteren en proactief problemen op te sporen. Deze tools voor incidentbeheer combineren data uit verschillende bronnen en brengen onmiddellijk de juiste mensen op de hoogte. Zo kunnen DevOps-teams zo snel mogelijk een diagnose stellen en tot een oplossing komen.

Belangrijk werk in verband met incidentbeheer vindt ook ná een incident plaats. Met post-mortems en oorzakenanalyses kunnen teams bepalen hoe soortgelijke incidenten in de toekomst kunnen worden voorkomen of in elk geval sneller kunnen worden opgelost, mochten ze nog een keer optreden.

Maar hoe herkent u een krachtige tool voor incidentbeheer? Op welke functies moet u letten? Hoe herkent u de belangrijkste kenmerken van een tool? Dat leest u hieronder.

Belangrijke functies voor incidentbeheer

Bij de keuze van een tool voor incidentbeheer moet u letten op een paar belangrijke functies.

Incidentrespons automatiseren

Automatisering moet de belangrijkste drijfveer zijn bij de keuze van een platform voor incidentbeheer. Uit eigen onderzoek in 2020 blijkt dat 72% van de teams meer dan de helft van de tijd besteed aan het oplossen van problemen, en dat een kwart van de respondenten zelfs meer dan 80% van de tijd daarmee bezig is. Er wordt dus uitzonderlijk veel tijd besteed aan probleemoplossing en dat werkt enorm vertragend. Het gaat ten koste van de slagvaardigheid van concurrerende bedrijven die zich zouden moeten concentreren op het creëren van waarde, niet op het handmatig oplossen van problemen.

Een platform waarmee u geautomatiseerde workflows kunt inrichten om incidenten snel op te lossen, werkt in het voordeel van uw team. Hiermee komt tijd vrij die anders zou worden besteed aan handmatige processen voor het oplossen van incidenten, en ook kunt u problemen identificeren voordat ze tot storingen leiden.

Denk bijvoorbeeld aan een situatie waarin verzoeken aan uw website mislukken omdat de webservers overbelast zijn. Met uw incidentenplatform moet u gemakkelijk een workflow kunnen definiëren, zoals:

Een monitoringtool, zoals New Relic, legt de fout vast.
Het platform voor incidentbeheer merkt de fout op en registreert een incidentgebeurtenis.
De medewerker die op dat moment dienst heeft om dit scenario af te handelen, krijgt automatisch een melding.
Via de melding kan de medewerker bijvoorbeeld een Ansible-taak activeren die automatisch webserver-VM’s toevoegt om de capaciteit met 25% te verhogen.
Er wordt een bericht met informatie over het herstel in een Slack-kanaal geplaatst en er wordt een Jira-ticket geopend waarin wordt vermeld wat is misgegaan en wat is gedaan om het probleem op te lossen.

Als het platform dit niet kan, moet u verder kijken.

Incidenten identificeren

Een tool voor incidentbeheer die niet in staat is om snel en betrouwbaar incidenten te identificeren is maar half bruikbaar. Een incident kan een grote of kleine gebeurtenis zijn en kan van alles en nog wat inhouden, van een systeemstoring of een back-upfout tot pagina’s die te traag laden of koppelingen die niet werken.

Kies altijd voor een tool die automatisch incidenten kan identificeren. De tool moet ook kunnen worden geïntegreerd in alle monitoring- en alarmeringstools waarmee uw team werkt en met alle tools die u in de toekomst denkt te gaan gebruiken. De identificatie van incidenten staat of valt met de beschikbaarheid van geschikte data. Als een tool voor incidentbeheer niet alle monitoringgegevens en meetwaarden kan verwerken die door apps en services worden gegenereerd, wordt het lastig om te ontdekken wanneer er iets misgaat.

Waarschuwingen filteren en onderdrukken

In een bedrijfsomgeving is al snel sprake van grote aantallen waarschuwingen. Filter- en onderdrukkingsfuncties zijn dus geen overbodige luxe. Incidenten kunnen aanmerkelijk doeltreffender worden verwerkt doordat een overload aan informatie wordt voorkomen. Waarschuwingsfilters zorgen ervoor dat essentiële informatie bij de juiste mensen terechtkomt en dat belangrijke alarmen niet verloren gaan tussen waarschuwingen met een lage prioriteit.

Door geautomatiseerd te filteren kunt u ook onderscheid maken tussen waarschuwingen waarop u moet reageren en informatie die u kunt negeren. Hoewel elke waarschuwing traceerbaar en beschikbaar is voor audits, moet de focus liggen op waarschuwingen waarvoor een bepaalde actie is vereist.

Correlatie tussen waarschuwingen

Software voor incidentbeheer verwerkt doorgaans monitoring- en waarschuwingsgegevens uit verschillende bronnen. Perfect natuurlijk, mits de software maar begrijpt dat één incident vaak veranderingen in alle gegevensbronnen tot gevolg heeft. Als één van uw services uitvalt, wilt u niet dat het platform drie uitvalmeldingen rapporteert, alleen maar omdat de uitval van één enkele service in drie van uw monitoringtools wordt gemeld.

Intelligente software kan het probleem slim oplossen: de correlatie tussen gebeurtenissen wordt herkend zodat duidelijk is dat meerdere gebeurtenissen deel uitmaken van één incident, en alles wordt in één enkel incidentrapport gegroepeerd. Dit leidt niet alleen tot minder overbodige waarschuwingen, u beschikt ook over een uitgebreide tijdlijn van elke gebeurtenis die aan het incident heeft bijgedragen, zodat medewerkers gemakkelijker de achterliggende oorzaak kunnen achterhalen.

On-call management

On-call management wordt vaak over het hoofd gezien bij het beheren en oplossen van incidenten. Zonder dit systeem verandert elk ernstig incident in een oefening waarbij iedereen wordt ingezet, omdat niet snel kan worden bepaald welke medewerkers op dat moment beschikbaar en gekwalificeerd zijn om het specifieke incident op te lossen.

Kies een oplossing voor incidentbeheer met geavanceerde opties voor on-call management. Ideaal is een platform waar u aanwezigheidsschema’s en vaardigheden kunt instellen, zodat u in geval van nood niet hoeft te zoeken naar de juiste mensen en ze gemakkelijk kunt bereiken.

Communicatie over incidenten

Meldingen werden vroeger vooral per e-mail verzonden, maar niemand houdt zijn inbox voortdurend in de gaten, waardoor belangrijke berichten gemakkelijk ‘verdwijnen’ en de responstijd aanzienlijk langer wordt. Tegenwoordig communiceren operationele teams vooral via telefoon, chat en sms om ervoor te zorgen dat iedereen onmiddellijk over de juiste informatie over incidenten beschikt.

Naast het informeren van technische teams is het ook goed om belanghebbenden binnen het bedrijf in te lichten. Het kan bijvoorbeeld nodig zijn om een DevOps-manager te informeren over fouten in een implementatie. En bij een systeemstoring die gevolgen voor al uw klanten heeft, wilt u waarschijnlijk ook de CTO op de hoogte brengen.

Kies een tool die in uw bestaande workflow past en in het berichtenplatform van uw team kan worden geïntegreerd. Met de oplossing voor incidentbeheer moet het mogelijk zijn om precies te bepalen met wie contact moet worden opgenomen bij een bepaald type incident en een bepaalde ernst. Ook moet de oplossing kunnen worden geïntegreerd in tools zoals Teams, Slack en Jira, zodat teamleden kunnen worden bereikt die hiermee dagelijks werken.

Ga nog een stap verder en kies software voor incidentbeheer die ondersteuning biedt voor integraties waarmee de statuspagina van uw systeem automatisch wordt bijgewerkt wanneer een van uw services uitvalt. Interne communicatie over incidenten is belangrijk, maar ook communicatie met klanten is cruciaal. Het is frustrerend als iemand problemen ondervindt met een app of API, maar de statuspagina gewoon op groen blijft staan.

Post-mortems en analyse van incidenten

Kijk tot slot of de tool een functie biedt voor post-mortems en analyse van incidenten. De tool voor incidentbeheer moet inzichtelijk maken wat fout is gegaan en hoe u dit in de toekomst kunt voorkomen.

Zoek een oplossing die uitvoerige rapportage na afloop van een incident biedt, zoals een tijdlijn met gebeurtenissen die aan het incident hebben bijgedragen, een lijst met mensen die zijn ingelicht, wie er hebben gereageerd, hoe het incident is opgelost, en de mogelijkheid om deze informatie gemakkelijk te delen. Een goed rapport na afloop van een incident bevat ook aanbevelingen en verwijzingen naar aanvullende documentatie, zoals interne of openbare artikelen en documenten die helpen bij het vinden van een oplossing.

Door al deze functies samen kunnen post-mortems en analyses van incidenten gemakkelijk worden uitgevoerd om te voorkomen dat soortgelijke incidenten opnieuw plaatsvinden.

Volgende stappen

Het beheer van een omgeving waarin snel wordt gewerkt, steeds nieuwe implementaties plaatsvinden en/of de IT complex van aard is, kan uitermate lastig zijn en aanleiding geven tot veel fouten. Voor apps met microservices die in de cloud worden uitgevoerd, is meer nodig dan alleen monitoring. Dit vraagt om robuust, betrouwbaar incidentbeheer.

Voor nieuwkomers op dit gebied kunnen tools voor incidentbeheer behoorlijk ingewikkeld lijken. Maar zoals we hebben gezien, maken ze het DevOps-teams een stuk gemakkelijker, door tijdige en relevante meldingen en communicatie en door integratie van automatisering in de workflow voor incidentbeheer. Ze verminderen de werkdruk wanneer incidenten optreden en dragen bij aan snelle oplossing van incidenten, zodat teams meer tijd hebben voor activiteiten die meerwaarde opleveren.

xMatters biedt een platform dat de continuïteit van services waarborgt. Dit platform biedt alle functies die in dit artikel worden beschreven, plus tal van andere unieke functies waarmee bedrijven incidenten effectief kunnen aanpakken.

In combinatie met Critical Event Management van Everbridge kan xMatters incidenten in uw organisatie beheren, waarschuwingen afhandelen en begeleiding bieden bij communicatie en meldingen. Meer weten? Demo plannen Zo krijgt u de kans om een tool voor incidentbeheer in actie te zien en onze experts al uw vragen te stellen.

Ervaar Everbridge 360™

Everbridge versterkt veerkracht