Müdigkeit im Bereitschaftsdienst und warum Erholung dazugehört

Ich habe um zwei Uhr nachts einen Alarm angenommen, das Symptom behoben, bin wieder ins Bett gegangen und am Morgen festgestellt, dass ich den falschen Cluster geändert hatte. Es ist nichts Katastrophales passiert. Darum geht es nicht. Der Punkt ist: Ich war nur dem Namen nach im Dienst — der Körper im Bett, der Kopf halb in kubectl — und die Plattform hätte eine wachere Version von mir verdient, als ich um diese Uhrzeit bieten konnte.

Laptop offen auf einem Schreibtisch bei Nacht

Foto von cottonbro studio auf Pexels

Bereitschaftsdienst gehört zur DevOps-Arbeit. Ich will ihn nicht wegdiskutieren. Ich sage nur: Wir behandeln Müdigkeit wie technische Schulden, die wir nie einplanen — und wundern uns dann, wenn sich Vorfälle ziehen, Nachbesprechungen wiederholen und gute Engineers still anfangen, den Pager nicht mehr haben zu wollen.

Die Luftfahrt hat Ruhezeitregeln, die bürokratisch wirken, bis man Unfallberichte liest, in denen Müdigkeit eine Rolle spielte. Berufspiloten haben Dienstzeitgrenzen, Mindestruhezeiten und Planungssysteme, die beides berücksichtigen. Ich sage nicht, dass SRE-Teams denselben Rechtsrahmen brauchen wie eine Airline. Ich sage: Die zugrunde liegende Physik ist dieselbe: Unterbrochener Schlaf lässt Menschen nachlassen, und übermüdete Menschen lassen Systeme nachlassen.

Darüber denke ich nach, wenn ich Rotationen mitgestalte, wenn ich selbst den Pager habe und wenn ich merke, dass ich kleine Fehler mache, die mir ausgeruht nicht passieren würden.

Müdigkeit ist keine Faulheit

Alert Fatigue — zu viele Alarme, zu wenig Signal — wird häufig beschrieben. Die menschliche Müdigkeit im Bereitschaftsdienst liegt daneben und ist leiser.

Unterbrochener Schlaf summiert sich. Drei „kurze“ Alarme in einer Nacht sind psychologisch keine drei getrennten Ereignisse. Sie sind eine kaputte Nacht. In der vierten Nacht einer Primary-Rotation wird die Reaktionszeit schlechter. Man greift zu vertrauten Befehlen, statt die Fehlermeldung zu lesen. Man nimmt an, dass die Lösung vom letzten Vorfall wieder passt. Man merged einen PR, den man an einem normalen Dienstag zur Prüfung weitergegeben hätte.

Ich habe all das gemacht. Ich bin nicht stolz darauf. Ich bin aber auch kein Sonderfall. Studien zu Schichtarbeit und Schlafentzug zeigen dasselbe Muster: Das Urteilsvermögen leidet, bevor die Motivation nachlässt. Es ist einem noch wichtig — nur entscheidet man schlechter.

Dienstpläne in der Luftfahrt berücksichtigen Dienstzeit (Zeit mit Aufgabe), Flugzeit, Anzahl der Sektoren und Ruhezeit seit dem letzten Dienst. Der Betrieb verlässt sich nicht darauf, dass Piloten sagen: „Mir geht’s gut.“ Gefühle lügen. Uhren sind grob, aber fair.

Bereitschaft planen wir oft als ein Name in PagerDuty bis nächsten Montag und nennen es erledigt. Keine Zählung von Alarmen pro Nacht. Kein Erholungstag nach einem schweren Vorfall. Keine Grenze für aufeinanderfolgende Wochen. Das Tool weiß, wer Primary ist. Es weiß nicht, ob diese Person geschlafen hat.

Wie sich eine schlechte Rotation von innen anfühlt

Eine Primary-Woche beginnt hoffnungsvoll. Am dritten Tag geht ein Deploy schief und man ist bis vier Uhr morgens wach. Am vierten Tag verschickt Marketing eine Mail, der HPA hinkt hinterher und weckt einen wieder. Am fünften Tag sitzt man in Meetings, weil Meetings eben dann stattfinden. Am sechsten Tag bittet jemand um eine „kurze Prüfung“ einer Produktionsänderung, weil man „den Cluster kennt“. Am siebten Tag übergibt man an Secondary und merkt, dass man nicht mehr weiß, was man zweimal behoben hat.

Secondary ist keine Erholung, wenn Secondary trotzdem ständig Eskalationen bekommt. Ein Manager-on-call ohne Training ist kein Backup. Abdeckung auf dem Papier ist keine Abdeckung für den Körper.

Die grausamste Variante ist Heldenkultur: Wer es am schnellsten repariert, bekommt Dank; wer um Erholung bittet, bekommt schiefe Blicke. Die Luftfahrt hat auf die harte Tour gelernt, dass Helden, die Flugzeuge abstürzen lassen, kein guter Tausch sind. Wir fliegen keine Passagiere, aber wir berühren Systeme, mit denen fremde Menschen Miete und Krankenhausrechnungen bezahlen. Müde Reparaturen werden zu den Vorfällen von morgen.

Ich habe keine perfekte Rotationsgeschichte. Ich war in kaputten Rotationen und habe ein paar davon mit anderen zu etwas Menschlicherem umgebaut. Freundlichkeit ist hier operativ gemeint, nicht sentimental.

Parallelen, die ich ernst nehme (und eine nicht)

Dienstzeitgrenzen. Ein Pilotentag hat eine Obergrenze. Bereitschaftsdienst ist nicht in jeder Minute aktiver Dienst, aber Alarme und Incident Bridges sind es. Lange Bridges nach Mitternacht behandle ich so, als würden sie die Kapazität des nächsten Tages verbrauchen, ähnlich wie ein langer Dienst die Mindestruhe beeinflusst. Wenn jemand nachts vier Stunden auf einer Bridge war, bin ich skeptisch, ob dieselbe Person am Nachmittag eine riskante Änderung leiten sollte.

Erholung vor Rückkehr. Nach einem schweren Vorfall sollte die Person, die die Ursachenanalyse getragen hat, nicht automatisch in der nächsten Nacht wieder Primary sein. Rotationstools kennen selten „Erholung nach dem Vorfall“. Teams können das trotzdem regeln, anfangs auch manuell.

Crew Resource Management. CRM heißt: ansprechen, wenn jemand überlastet ist; Aufgaben teilen; kritische Schritte laut bestätigen. Incident Command hilft, wenn es geübt ist. Eine müde Person, die um drei Uhr allein in einem Kanal tippt, ist das Gegenteil davon.

Sterile-Cockpit-Regeln. Kurze ruhige Phasen für riskante Änderungen reduzieren Ablenkung. Darüber habe ich an anderer Stelle im Kontext von Produktionsänderungen geschrieben. Dieselbe Idee schützt Bereitschaftsdienst: Nicht jeder Alarm braucht sofort einen Menschen in der Schleife. Weniger Lärm schafft Erholung zwischen echten Ereignissen.

Was ich nicht wörtlich übertrage. Piloten können eine Landung nicht per Rollback zurücknehmen. Wir können Deploys zurückrollen. Die Einsätze ähneln sich, die Mechanik nicht. Ich vermeide Luftfahrt-Cosplay in Postmortems. Nützlich ist Respekt vor menschlichen Grenzen, nicht Epauletten in Slack.

Rotationen planen, die Menschen ernst nehmen

Ich habe keine fertige Schablone. Kontext zählt: Teamgröße, Zeitzonen, Kunden-SLA, wie laut die Plattform ist. Diese Muster haben Teams geholfen, in denen ich gearbeitet habe:

Primary und Secondary, wobei Secondary wirklich verfügbar ist. Secondary antwortet innerhalb weniger Minuten, wenn Primary nicht reagiert. Secondary kennt dieselben Runbooks. Secondary ist nicht „wer manchmal E-Mails liest“.

Follow-the-sun, wenn möglich. Übergaben zu festen Zeiten mit schriftlichen Notizen: offene Vorfälle, verdächtige Graphen, laufende Deploys. Eher wie ein Crew-Wechsel mit Logbucheintrag, nicht „du bist dran, viel Glück“.

Höchstzahl aufeinanderfolgender Wochen. Zwei Primary-Wochen pro Quartal und Person sind für mich ein Startpunkt für die Diskussion, kein Gesetz. Die konkrete Zahl zählt weniger als überhaupt eine Zahl zu haben, damit ein Engineer nicht de facto zur dauerhaften Reserve wird.

Ausgleichstage oder Erholungszeit nach schlechten Nächten. In manchen Firmen ist das kontrovers. Es ist billiger als wiederholte Ausfälle. Eine Organisation, mit der ich gearbeitet habe, gab automatisch einen freien Tag nach jeder Incident Bridge, die länger als drei Stunden dauerte und nach Mitternacht endete. Missbrauch war selten. Die Stimmung wurde besser.

Ein Eskalationspfad über Manager, der nicht automatisch wieder Primary weckt. Manchmal ist die richtige Antwort Kundenkommunikation oder ein Feature Flag in Produktverantwortung, nicht noch ein kubectl aus demselben müden Kopf.

Übergaberitual. Fünf Minuten synchron oder ein kurzes asynchrones Dokument: Was hat alarmiert, was wirkt instabil, welche Deploys sind geplant? Langweilig. Reduziert Alarme der Sorte „Warum hat niemand gesagt, dass Redis mitten in einer Migration ist?“

Tools unterstützen das: PagerDuty-Schedules, Opsgenie-Overrides, Google-Calendar-Blöcke für Erholung. Tools ersetzen keine Regelung. Ohne Regelung wird der Kalenderblock von Meetings überbucht.

Weniger Alarme sind auch Erholungspolitik

Der billigste Weg, Müdigkeit im Bereitschaftsdienst zu reduzieren, sind weniger falsche Notfälle. Das überschneidet sich mit Alarmhygiene; der Bereitschaftswinkel ist Schlaf.

Wenn alles alarmiert, ist nichts dringend, und jede Nacht ist kaputt. Schwellenwerte, Verantwortlichkeiten und SLO-basierte Alarme zu verbessern, ist Erholungsarbeit. Es ist auch Vorfallprävention.

Kubernetes-Cluster erzeugen unendlich viele Gründe, jemanden zu wecken: CrashLoopBackOff, Node NotReady, ein Zertifikat, das in dreißig Tagen abläuft und als CRITICAL markiert ist. Jede Regel sollte einen einfachen Test bestehen: Würde ich dafür geweckt werden wollen, wenn ich diese Woche schon zweimal geweckt wurde? Wenn nein: ein Ticket daraus machen.

Ein wöchentlicher Überblick über Trends ist bei langsamen Lecks besser als nächtlicher Lärm. Burn-rate Alerts sind besser als statische CPU-Schwellen. Ich sehe immer noch Plattformen, die bei Pod-Restarts alarmieren, ohne bekannte Cron-Fehler auszuschließen. Das ist eine Regelungsentscheidung im Monitoring-Kostüm.

Wenn man trotzdem Bereitschaft hat und müde ist

Das echte Leben wartet nicht auf ideale Rotationen. Kinder werden krank. Schlaflosigkeit kommt dazwischen. Beim Nachbarn geht ein Alarm los. Die Primary-Woche passiert trotzdem.

Persönliche Gewohnheiten, die mir geholfen haben, wenn auch nicht perfekt:

Nicht heldenhaft über die Übergabezeit hinaus weitermachen. Wenn es Secondary gibt, bei der vereinbarten Schwelle eskalieren. „Ich schaffe das noch“ über Erschöpfung hinaus ist genau der Weg zu Änderungen am falschen Cluster.

Jede Aktion während eines Alarms aufschreiben. Zeitgestempelte Notizen im Incident-Dokument. Das ausgeruhte Ich prüft; das müde Ich vertraut Papier.

Unumkehrbare Schritte nicht ohne zweites Augenpaar machen. PVC löschen, Produktions-Node drainen, irgendetwas mit --force: innehalten, Secondary oder eine erfahrene Person anpingen, atmen. In der Luftfahrt gibt es Challenge-Response für kritische Punkte. Wir können „confirm delete prod“ in einen Thread schreiben.

Nach der Übergabe schlafen, wenn der Vorfall stabil ist. Die Geschichte kann bis zum Morgen-Standup warten. Durchgemachte Nächte fühlen sich edel an und produzieren verschwommene Postmortems.

Auf der Bridge sagen, dass man müde ist. Nicht als Ausrede, sondern als Information. „Ich brauche jemand anderen für die Überprüfung; ich bin seit eins wach.“ Gute Incident Leads behandeln das wie einen Low-Fuel-Callout.

Beim letzten Punkt bin ich schlecht, wenn das Ego übernimmt. Ich versuche, besser zu werden.

Was Manager und Leads ohne neue Plattform tun können

Fragen, wie viele Alarme es letzte Woche gab — pro Person, nicht aggregiert. Summen verbergen, wenn eine Person untergeht.

Aufeinanderfolgende Bereitschaftslast in Retrospektiven ansehen. Wenn derselbe Name jede dritte Woche auftaucht und auch noch das Migrationsprojekt verantwortet, ist das Planungsschuld.

Trainingszeit für Secondary schützen. Ungeschultes Backup ist Fiktion.

Langweilige Wochen feiern, nicht nur Kriegsgeschichten. Eine niedrigere MTTA durch bessere Alarme belohnen, nicht nur heldenhafte Rettungen um vier Uhr morgens.

Bereitschaft so besetzen, dass Urlaub ohne Schuldgefühl möglich ist. Wenn die Rotation zusammenbricht, sobald ein Engineer fehlt, sind Einstellung oder Umfang das eigentliche Problem — nicht, dass jemand eine Woche frei hatte.

Nichts davon erfordert neue Software. Es erfordert die Einsicht, dass nachhaltiger Betrieb ein Personal- und Alarmierungsproblem ist, kein Tugendproblem.

Ruhe und das bescheidene Eingeständnis von Grenzen

Ich wollte die Person sein, die immer den Alarm annimmt, immer klar bleibt und immer die Lösung liefert. Diese Person ist eine Figur, kein Kollege. Das echte Ich braucht Schlaf. Das echte Ich macht in der fünften unterbrochenen Nacht mehr Fehler. Das echte Ich arbeitet besser, wenn die Rotation fair ist und die Alarme ehrlich sind.

Die Luftfahrt hat Müdigkeit nicht beseitigt, indem sie Piloten sagte, sie sollten sich mehr anstrengen. Sie hat Dienstzeiten gemessen, Ruhezeiten durchgesetzt, CRM aufgebaut und Kultur verändert, wenn Unfälle es verlangten. Wir können diese Demut übernehmen, ohne den regulatorischen Rahmen zu kopieren.

Wenn du diese Woche den Pager hast: Ich hoffe, die Nächte bleiben ruhig. Wenn nicht, hoffe ich, dass jemand übernehmen kann, während du dich erholst. Wer Rotationen plant, sollte Alarme und Schlafschuld zählen wie Error Budgets: echte Zahlen, echte Kompromisse, kein Bauchgefühl.

Der Cluster ist morgen noch da. Er läuft besser, wenn die Menschen, die ihn betreuen, noch stehen, noch klar denken und nächsten Monat wieder bereit sind, den Pager zu nehmen, weil dieser Monat sie nicht gebrochen hat.

Das ist das ganze Argument. Erholung ist nicht das Gegenteil von Zuverlässigkeit. Erholung ist ein Teil davon, wie Zuverlässigkeit den Kontakt mit Produktion überlebt.