Sent på fredagskvällen, just när du är på väg att sätta dig ner för familjedinern, börjar telefonen ringa och du får meddelanden från din favoritövervakningstjänst om att webbplatsen är nere.
Du ursäktar dig och förbereder dig för en hel natt för att åtgärda vad som än behöver åtgärdas.
Lektion nummer ett i Incidenthantering är: undvik det. Implementera utgivningsfönster som inte släpper ut något till produktion på kvällar eller efter fredagslunch.
Det finns inget värre än att behöva spendera helgen (i bästa fall) för att åtgärda ett nytt fel eller sätta på datorn på måndagsmorgonen bara för att inse att en hel helg av drift och därmed inga försäljningar eller att tjänsten är borta.
Ingen är där för att åtgärda det, så du måste snabbt samla ihop några utvecklare som är olyckliga nog att svara på dina samtal och WhatsApp-meddelanden.
När ni alla är online tillbringar ni natten med att avvisa den uppenbara frågan från Produktsvarig, Chef, Kollegor, Stakeholders, Kunder eller din familj – “när är det fixat?”
Eller, du kan ha en skriftlig Incidenthanteringsprocess som fortfarande kräver att folk gör något, men tydligt hanterar hela incidenten på ett ansvarsfullt, hanterbart och resultatdriven sätt.
Genom att ha en roterande schema av utvecklare i en call-kedja, behöver ingen vara tillgänglig hela tiden eller sitta och vänta på problem. Men om saker, ja saker, går åt helvete då är du redo. För det kommer att hända.
När processen är aktiverad är det lika viktigt att intressenter är utbildade och förstår att det finns en process och att problemet arbetas på, oavsett hur snabbt de vill att problemet ska lösas.
De behöver respektera processen, för att undvika kaos, skuldbeläggning, konflikter och “han sa-hon sa”. Och viktigast av allt, för att få det fixat.
Läs mer i "The CTO Playbook" tillgängligt på Amazon/Kindle.
Vi är ett schweiziskt företag (LLC) baserat i
Schweiz.