IT storingenstress voorkomen? Denk als een beroepspessimist

Leestijd: 6:23 min

IT storingenstress voorkomen? Leer denken als een beroepspessimist.

Het is in de auto op weg naar Radix dat in het ANP-journaal weer z’n bericht voorbijkomt.

“Treinongeluk in Taiwan kost 18 mensen het leven. Daarnaast 170 gewonden”.

Vreselijk drama natuurlijk.

Wat mijn aandacht trok was wat daarna kwam.

Het ongeluk gebeurde omdat de trein 2 x de toegestane snelheid reed. De machinist had de snelheidsbegrenzer uitgeschakeld en vergeten deze weer aan te zetten.

Wát? De snelheidsbegrenzer KON uitgezet worden door de machinist?

Natuurlijk wordt de machinist aangeklaagd. Maar zou eigenlijk niet de ontwerper gestraft moeten worden?

Risico’s inschatten is lastig voor ons mensen.

De hele dag schatten onze hersenen in of iets wel of niet kan. Daarbij denken we in succespercentages. Als iets met 99,99% zekerheid zal lukken, doen we het meestal. We zullen anders nooit een straat oversteken, op een ladder klimmen of met een auto aan het verkeer deelnemen.

Die 0,01% accepteren we dan maar. Het leven blijft een risico.

Ook hebben we een onvoorwaardelijk geloof in anderen. “We hebben dat toch afgesproken” of nog beter “We hebben dit toch in de procedure gezet”. Als het heel erg is zetten we er een bordje bij. “Niet uitzetten”

Maar zo werkt het dus niet als het fout gaan echt dramatische gevolgen heeft. Zelfs 0,01% of 0,001% is dan niet acceptabel.

Murphy Law

Murphy, een ruimtevaartingenieur die aan veiligheidskritische systemen werkte, heeft er ooit een mooie wet van gemaakt: “Anything that can go wrong, will go wrong”

Mooi gezegd!

Maar die zekerheid is ook meteen de oplossingsrichting.

Neem het fout gaan als uitgangspunt. Ga er gewoon van uit. Bedenk wat de gevolgen zijn. Als die groot of catastrofaal kunnen zijn, neem dan de oorzaak weg of zorg dat de gevolgen zo minimaal mogelijk zijn.

Machinebouwers hebben dit goed begrepen.

In fabrieken worden veel machines bedient door mensen (operators). Vaak zijn dat machines die mensen zwaar verwonden als het fout gaat. Denk aan grote snijmachines of een metaalpers.

Je moet er niet aan denken dat de operator in een onbewaakt ogenblik zijn arm eronder heeft als hij hem aanzet.

Dus hebben machinebouwers dit technisch goed opgelost. Ze hebben de menselijke onachtzaamheid uitgesloten.

De operator kan alleen snijden of persen door twee knoppen tegelijkertijd indrukken. Daar heeft hij altijd 2 handen voor nodig. Soms moet ook nog een afschermhek worden gesloten.

Per ongeluk je arm eronder laten kan gewoon niet meer. Als er iets gebeurd is het zeer bewust veroorzaakt. Mensen zijn tenslotte creatief.

Bij automatisering is het allemaal wat minder visueel. Wel is het een aaneenschakeling van kritische systemen of wat we noemen single point of failure. Vermijden is niet altijd mogelijk en werken we meer aan de gevolgen minimaliseren.

Met een paar simpele principes kom je al een heel eind.

Het “één is geen” principe

Disken gaan kapot, printers krijgen storing, internet gaat uitvallen. Dat is een zekerheid waar we van uit gaan.

Dit kan allemaal opgelost worden met Sla’s en servicecontracten. Maar als je niet nog een stap neemt, is de impact nog steeds te groot. Het bedrijf staat namelijk direct bijna volledig stil. Het duurt tussen de 4 en 48 uur voordat het opgelost is. Vaak nog onacceptabel lang en niet te verkleinen met een ander contract. Je blijft zitten met aanrijtijden.

Die tijd moet je dus op een andere manier zien te overbruggen.

Enkele voorbeelden:

Server:
disken dubbel uitvoeren, reserve disken, dubbele voeding of zelfs een redundant systeem.

Internetlijn:
Tenminste een minimale/goedkope back-up lijn zodat de mail en beperkt browsen door kan gaan. Als je afhankelijk bent van cloud moet dit wat meer zijn. Kies ook een zo verschillend mogelijk oplossing. Andere leverancier, andere techniek ( glasvezel en DSL of kabel). Dan heb je storingen in de gehele keten ondervangen.

Printer:
Naast die mooie grote kleuren multifunctional met alle toeters en bellen ten minste een simpel zwart/ wit A4 printer.

Back-up:
Ondanks alle security bewustzijn en alle malware en virus scanners zal er toch ooit iets gebeuren. De back-up is de verzekering. Beknibbel daar nooit op.

Cloud:
Ook daar zijn storingen en soms zelfs faillissementen. Helaas kan je dit niet altijd redundant uitvoeren. Maar kijk wel wat de leverancier gedaan heeft om uitvallen te voorkomen. Zorg ook altijd voor wat we noemen een reversed back-up. Een regelmatige copy/back-up van je clouddata op een andere plaats, bij een andere leverancier.

Het vermijdbare crisis principe

Automatisering is veranderen. Patchen, updaten, vervangen etc. etc. Doe dat nooit zonder een recoveryplan of onder grote tijdsdruk. Ga er vanuit dat dingen niet lopen als gehoopt, langer duren of onverwachts fout gaat.

Bijvoorbeeld: Een belangrijke server of applicatie updaten terwijl de beschikbaarheid daarna onmisbaar is. Oplossing is simpel: Breng jezelf niet in die situatie. Doe het op een tijdstip dat er tijd is om te herstellen en ook de leverancier beschikbaar is om te ondersteunen.

Het is wat tegen natuurlijk maar zo updaten we bedrijfsapplicaties liever niet na werktijd. De supportdesk van de leverancier is dan namelijk niet bereikbaar.

Mensen doen NIET wat ze gezegd of geleerd is.

Door onkunde, door afleiding of doordat ze dingen vergeten te doen. Procedures of bordjes zijn zinloos om die 0,01% te voorkomen. Elke knop “Hier niet drukken” zal wel eens ingedrukt worden. Haal de knop weg of zorg dat er daarna nog een keer een bevestiging wordt gevraagd. Maak dat de handeling niet onbewust of per ongeluk gedaan kan worden.

In Mailchimp, de bekende nieuwsbrieven software, moet je het woord REMOVE intoetsen voordat je iets daadwerkelijk kan verwijderen.

Bloopers uit de praktijk

Bij een film moet je altijd even wachten tot na de aftiteling voor de leuke bloopers.
In IT is niets zo leerzaam als voorbeelden waar het echt mis ging. Voorkomen was lang niet altijd erg moeilijk geweest als je er maar aan gedacht had.

Ransomware: De keren dat ik een verhaal heb gelezen over bedrijven, politie, ziekenhuizen en advocatenkantoren die getroffen waren en niet in staat waren om dit snel op te lossen kunnen een boek vullen. Uit ellende moesten ze de cybercriminelen betalen om nog iets te redden. Typisch geval van de back-up niet op orde. (lees: geen back-up)

Wifi: Echt belangrijke informatie op je netwerk en dan gewoon wifi gebruiken op je netwerk. (OPCW hack)

CEO fraude. Klakkeloos betalen op een zg mailtje van de directeur. Een simpele check aan de telefoon was voldoende geweest of te horen of het wel klopte.

Serverrack onder een airco plaatsen. “Moest toch kunnen” zei de electro installateur. Airco heeft pomp om condenswater af te voeren. Totdat deze in het weekend kapot ging. Resultaat was 5 cm in de nieuwe server. Kon gelijk in de afvalbak.

En dan de spectaculairste.

In een chrysantenstekbedrijf hing een grote zware machine aan een rails om telkens 30 bakken met stekjes in de kas te zetten. Ding woog een paar duizend kilo. De kas kende 25 posities, daarna hield de kas op. Om de positie te herkennen “telde” de machine metalen vlaggen op de rails.

Simpel toch! Totdat één vlag lostrilde, van de rails viel en de machine naar positie 25 moest.

U raad het al. De machine reed vrolijk door op zoek naar vlag 25. Enige probleem was dat de rails ophield.

2000 kg in het luchtledige vocht tegen de zwaartekracht.

En de zwaartekracht won.

Ooit wel eens op deze manier naar je automatisering gekeken?

Het is zo makkelijk om onnodige dingen weg te schrappen: “We hebben toch een grote printer”, “De leverancier geeft toch een 99,9% uptime garantie”. Als de kosten van stilstand gigantisch zijn, is dat een verkeerde bezuiniging.

Kijk eens vanuit dit perspectief naar uw belangrijkste gereedschap. Lastig of geen tijd. Vreemde ogen zien misschien meer. We kijken graag met u mee.

[thrive_leads id=’3565′]