Stromausfall im Rechenzentrum: Ein Notfalltag bei Power-Netz
Ein Bericht von Alexander Bien, COO (Chief Operating Officer) bei Power-Netz:
Sehr geehrte Kundinnen, sehr geehrte Kunden,
im folgenden möchte ich Ihnen einen (hoffentlich) erklärenden Einblick in die Ereignisse rund um den Stromausfall im Rechenzentrum Düsseldorf vom 12.01.2015 geben. Ich schreibe dies aus meiner persönlichen Perspektive. Im Anschluss führe ich unsere Quintessenz auf und erkläre, was wir aus den Geschehnissen gelernt haben und was für Konsequenzen wir für die Zukunft ziehen werden.
=== Was ist geschehen?
Montag, 11:00 Uhr
Am Montag Vormittag gegen 11:00 Uhr befand sich unsere Technik-Abteilung mitten im ersten „Trello Meeting“ des Jahres. „Trello Meeting“ bedeutet bei uns, dass wir uns gemeinsam darauf verständigen was für Aufgaben/Projekte die kommenden 1-2 Wochen auf uns zu kommen und wer davon was in welcher Priorität bearbeiten wird. Wir organisieren uns dabei in Anlehnung an die Kanban Methodik über ein Trello-Board – daher der Name.
11:30 Uhr
Wir waren also gerade mitten im Meeting, als im Rechenzentrum plötzlich keiner unserer Services mehr erreichbar war. Als erstes glaubten wir an einen Fehler unserer Internetanbindung im Büro. Wir mussten aber recht schnell feststellen, dass es so einfach leider nicht ist. Eine kurze Rückfrage bei einigen ortsansässigen Unternehmen am Standort ergab, dass das Gerücht eines größeren Ausfalls im Rechenzentrum kursiert. Das Wort „Stromausfall“ fällt, aber noch weiß niemand etwas Genaues.
11:35 Uhr
Da unser Büro in Düsseldorf nur ca. 100m vom Rechenzentrum entfernt ist (quasi gegenüber), machen Marcel Witt und ich uns auf den Weg ins Rechenzentrum (RZ). Schon am Eingang wird klar: „hier stimmt etwas nicht!“. Die Eingangstür zum RZ ist offen. Die Fläche im RZ ist dunkel. Es ist ein sehr ungewohnter Anblick. Wo normalerweise hunderte von Servern emsig brummen, herrscht nun Stille und Dunkelheit. Im Gegensatz dazu sind mehr Menschen vor Ort als wir jemals vorher gleichzeitig im Rechenzentrum gesehen haben.
11:40 Uhr
Die RZ Betreiber sind bereits seit längerem mit Technikern vor Ort. Man verschafft sich einen Überblick über die Systeme. Stromkreise werden geprüft, Anzeigen interpretiert, Dokumentationen gelesen, Telefonate geführt. Es herrscht reges Treiben. Irgendwo zwischendurch können wir die Info erhaschen, dass es ein Problem mit der Stromversorgung gibt. Aus Erfahrung wissen wir, wenn die Rückschaltung auf das Stromnetz bis jetzt nicht passiert ist, muss es etwas Größeres sein. Uns ist klar: „das könnte länger dauern“.
Parallel zu den Ereignissen vor Ort im Rechenzentrum nehmen die Anrufe in unseren Standorten in Bad Gandersheim und Düsseldorf zu. Kunden melden sich, fragen nach eventuellen Problemen. Offizielle Informationen liegen uns zu diesem Zeitpunkt noch nicht vor, so dass wir in unseren telefonischen Auskünften zurückhaltend sind. Wir kommunizieren: „Es gibt ein Infrastrukturproblem im Rechenzentrum. Personal ist vor Ort. Nähere Details liegen uns noch nicht vor. Wir bitten um Geduld.“
12:00 Uhr
Wir dürfen die RZ Fläche kurz betreten. Da die Fläche in völliger Dunkelheit liegt, dürfen wir wegen der Unfallgefahr nicht lange bleiben. In Absprache mit dem Betreiber einigen wir uns darauf, die Abgangssicherungen der Serverschränke auszuschalten. So ist sichergestellt, dass bei Stromschwankungen oder Schaltversuchen kein Server in kurzer Zeit mehrfach an- und ausgeschaltet wird. Solch wiederholte kurze Schaltvorgänge können für die Hardware (z.B. Netzteile oder Festplatten) schwere Folgen haben.
12:30 Uhr
Marcel und ich machen uns auf den Rückweg ins Büro. Im Rechenzentrum können wir aktuell nicht helfen, hier geht alles auch ohne uns seinen Gang. Inzwischen sind diverse Kundentechniker eingetroffen. Er kommen neue Probleme ans Licht: Vor dem Haus herrscht Parkplatzmangel. Die Zufahrt wird langsam eng.
Inzwischen sind wir ca. eine Stunde komplett offline. Neben den Kundensystemen sind unsere internen Systeme ebenfalls betroffen. Unser Ticketsystem, Mailserver, Wiki, Nagios (Serverüberwachung), unsere eigene Webseite – quasi ALLES. Die Telefone stehen nicht mehr still. Immer mehr betroffene Kunden melden sich und fragen nach was los ist. Faktisch befinden sich jetzt 6 Leute permanent am Telefon. Später wird sich herausstellen, dass es ca. 250-300 Anrufe pro Stunde gibt.
14:00 Uhr
Marcel und ich gehen nochmal rüber. Noch immer nichts Neues im Rechenzentrum. Inzwischen sind vor dem Eingang gut 20 Personen eingetroffen. Zum Überwiegenden Teil sind es Techniker anderer Kunden sowie Servicepersonal der Infrastrukturdienstleister (Klimafirmen, Elektriker, Stadtwerke, etc). Ein gewisser Galgenhumor unter den Kunden ist zu spüren. Allen ist klar, solange die Fläche nicht wieder freigegeben wird, können wir hier nichts ausrichten. Also heißt es: warten. Der Betreiber teilt uns mit, dass man immer noch bemüht ist, den Fehler zu beheben. In der nächsten Stunde sei aber nicht mit neuen Erkenntnissen zu rechnen. Der Betreiber des Rechenzentrums lädt die am RZ Wartenden spontan in ein gegenüberliegendes Restaurant ein. Eine Revolte scheint vorerst abgewendet.
14:30 Uhr
Die Anrufe reißen nicht ab. Erste Kunden wenden sich per Facebook an uns. Manche Kunden rufen inzwischen zum wiederholten Mal an, um zu erfragen, ob es Neuigkeiten gibt. Bei uns wächst die Gewissheit, dass wir unsere Kunden irgendwie informieren müssen. Der E-Mail-Kanal fällt aus. Zum einen können wir keine E-Mails versenden (Mailserver Offline), zum anderen wäre der Nutzen fraglich. Es gibt eine gute Chance, dass der Mailserver des Kunden ebenfalls im dunklen Rechenzentrum steht.
15:00 Uhr
Wir prüfen die Möglichkeit einer vorgeschalteten Bandansage, um die wichtigsten Informationen möglichst schnell zu übermitteln. Letzten Endes entscheiden wir uns gegen die Bandansage. Solange es uns irgendwie möglich ist, möchten wir schlechte Neuigkeiten gerne persönlich am Telefon überbringen.
15:30 Uhr
Die Anfragen über Facebook mehren sich. Wir veröffentlichen ein Status-Update und beantworten alle Direktnachrichten. Telefone glühen weiter. Aus dem Rechenzentrum erreicht uns die Nachricht, dass in ca. 15 Min die Fläche wieder freigegeben wird. Mit Strom. Freudige Erwartung macht sich unter allen Anwesenden breit. Alle stellen sich ordentlich in einer Reihe vor die Eingangstür. Marcel und ich treffen Vorbereitungen für das Wiederhochfahren der Systeme und legen eine Reihenfolge fest, koordinieren mit den Kollegen, wer was machen wird usw. Telefonisch geben wir die Nachricht weiter, in ca. 30-60 Min sollten die Services wieder zur Verfügung stehen.
16:00 Uhr
Bisher kein Einlass. Die ordentliche Schlange vor dem Eingang ist verschwunden. Von Seiten des Betreibers wird uns mitgeteilt: Man ist wieder in der Lage, Strom ins Gebäude zu liefern – die Situation ist jedoch noch nicht stabil. Beim Zurückschalten auf den Hauptstrom (Stadtwerke) gibt es nach wie vor Schwierigkeiten. Es ist nicht auszuschließen, dass es bei den Schaltversuchen nochmals zu Auswirkungen innerhalb des Rechenzentrums kommen kann. Daher gibt man die Fläche noch nicht frei und versucht weiterhin das Problem zu lösen. Wir müssen am Telefon zurückrudern, aus den 30-60 Minuten wird leider doch nichts.
17:30 Uhr
Das Rechenzentrum wird nun endlich freigegeben. Die Stromversorgung läuft zwar über die Dieselgeneratoren, aber man hat einen defekten Schalter ausgemacht und ist nun zuversichtlich, dass weitere Arbeiten keine Auswirkungen auf die Verbraucher im Rechenzentrum haben werden. Marcel und ich spulen unseren Plan ab. Wir prüfen:
– Haben alle Server wieder Strom?
– Sind die Netzteile alle unbeschädigt?
– Booten alle Server, oder gibt es irgendwo Probleme?
Die Kollegen im Büro geben die Neuigkeiten an die anrufenden Kunden weiter.
18:30 Uhr
Alle Serversysteme sind jetzt wieder unter Strom. Es sind keine Netzteile defekt. Drei Festplatten haben den Ausfall nicht überlebt, aber dank RAID hat das keine Auswirkungen. Marcel und ich wechseln den Standort zurück ins Büro und arbeiten von hier aus weiter. In den nun folgenden Stunden beginnt unsere Arbeit eigentlich erst. Es ist zu erwarten, dass so gut wie ALLE Server manuelle Eingriffe auf die ein oder andere Weise benötigen werden. Quasi jedes unserer Hosting-Systeme hat eine MySQL Datenbank. Wenn diese mitten im Betrieb den Strom verlieren, ist in der Regel mindestens ein ‚mysqlrepair‘ fällig.
19:00 Uhr
Wir arbeiten die Systemliste und unser Nagios (Serverüberwachung) ab. Wie erwartet sind eine Vielzahl von MySQL Tabellen ‚crashed‘ und müssen repariert werden. Wir entscheiden uns, für unsere um 19:55 Uhr ein Statusupdate auf Facebook zu veröffentlichen. Was wir auf keinen Fall gebrauchen können, ist ein Shitstorm, den es nun zwingend zu verhindern gilt.
20:10 Uhr
Im Rechenzentrum wird (unbemerkt von uns) die Stromversorgung zur Hauptstromquelle des Energieversorgers umgeschaltet.
21:00 Uhr
Per Tanklastwagen werden die Tanks der Dieselgeneratoren im Innenhof aufgefüllt. Aus Sicht des Rechenzentrumsbetreibers ist der Ausfall damit abgeschlossen. Der Standort läuft wieder unter normalen Bedingungen. Auch bei uns kehrt langsam Ruhe ein. 9 von 10 Servern sind wieder online. Die ersten Mitarbeiter von uns können Feierabend machen. Unsere Kunden hören eine zwischenzeitlich aufgenommene Bandansage zum aktuellen Sachstand. Marcel, Abdel und ich sind noch im Büro und reparieren die verbleibenden Systeme, teils in Zusammenarbeit mit den Kunden. Wir versenden ein erstes offizielles Mailing an unsere Kunden zum Status Quo.
Dienstag, 00:30 Uhr
So gut wie alle Server (bis auf einen) laufen wieder normal. Wir machen Feierabend.
09:00 Uhr bis 12:30 Uhr
Der letzte Server konnte auch wieder repariert werden. Das Dateisystem konnte repariert werden, alles läuft wieder innerhalb normaler Parameter. Wir versenden ein Update zu unserem Mailing vom Vortag, informieren erneut über Facebook und beginnen mit der internen Nachbereitung. Was hat gut geklappt, was nicht? Was müssen wir ändern – und wie?
Freitag, 14:00 Uhr
Wir versorgen unsere Kunden per Newsletter mit dem versprochenen Ausfallbericht unseres Rechenzentrum-Betreibers TeliaSonera.
== Was hat das nun alles für Konsequenzen bei Power-Netz?
– Wir müssen auch in solchen Ausnahmesituation handlungsfähiger bleiben. Unsere internen Systeme sollten auch bei solch einem Ausfall verfügbar bleiben.
– Kommunikation zum Kunden muss möglich sein, auch Abseits von Email. Evtl. per Twitter, Pushbullet, Pushover, Boxcar, SMS, oder RSS.
– Wir brauchen eine Status-Webseite die erreichbar ist, auch wenn es einen solchen Totalausfall gibt.
– Möglichkeit zum „Ad-Hoc“ Management verbessern. Evtl. per ansible oder rundeck.
– Vorbereiten einer Bandansage, die man in der Telefonanlage vorschalten kann. Hinweis auf die (neu zu erschaffende) Statusseite, um das Telefonvolumen zu steuern und möglichst zu mindern.
== Aber was ist mit der Hauptursache, dem Stromausfall? Gibt es denn z.B. keinen Notstrom im Rechenzentrum?
Doch, gibt es. Relevant für uns sind 2 Dieselgeneratoren, die bei Bedarf Strom in die USV einspeisen können für den Fall, dass die Hauptstromquelle (Stadtwerke) nicht zur Verfügung steht. Jeder dieser Dieselgeneratoren hat eine Leistung von ca. 700 PS und kann bis zu 720 KVA Strom erzeugen. Die USV besteht aus einer großen Anzahl Batterien. Das Modell der USV ist ein „Online USV“ Modell. Will heißen, der Strom (egal ob vom Diesel oder vom Netz) wird stets erst in die USV geleitet und erst dann zur Rechenzentrumsfläche. Lange Rede kurzer Sinn: Das Rechenzentrum ist mit den branchenüblichen Infrastrukturkomponenten ausgestattet um unterbrechungsfreien Strom sicherzustellen.
== Suchen Sie sich jetzt ein Rechenzentrum in dem es keine Stromausfälle gibt?
Ich denke da könnten wir lange suchen. Jedes Rechenzentrum hat oder hatte bereits irgendwann irgendwo irgendwie mit Problemen im Bereich von Strom oder Klima zu kämpfen.
So komisch es klingt, so sind wir doch insgesamt mit dem Ablauf der Entstörung bei unseren Lieferanten zufrieden. Wer schon länger in der Branche unterwegs ist wird verstehen: Technik kann und wird immer irgendwo irgendwie irgendwann fehlschlagen. 100%-ige Sicherheit gibt es nicht, für kein Geld der Welt. Für uns ist wichtig, dass wir unsere Leistungen von Experten beziehen, die im Falle eines Falles kompetent und versiert handeln und aus den erfahrenen Fehlern die richtigen Schlüsse für die Zukunft ziehen.
== Was bedeutet das jetzt unter dem Strich?
Aus Fehlern muss man lernen. So erwarten wir es von unseren Lieferanten – und so erwarten wir es auch von uns selbst.
Als selbst betroffenes Unternehmen ist uns bekannt, was es heißt, stundenlang ohne Internet und Mailverkehr zu sein. Leider bleibt uns in solch einem Notfall-Szenario nur, einen klaren Kopf zu behalten. Wir danken allen Kunden, die äußerst verständnisvoll reagiert haben. Alle ungeduldigen oder erzürnten Kunden haben ebenfalls unser vollstes Verständnis. Abschließend ist folgendes zu resümieren: Wir haben es uns nicht ausgesucht….
Sie sehen gerade einen Platzhalterinhalt von Facebook. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von Instagram. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr InformationenSie sehen gerade einen Platzhalterinhalt von X. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf die Schaltfläche unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.
Mehr Informationen