Zum Hauptinhalt springen

Postmortem Systemausfall 30.10.2024

· 2 Minuten Lesezeit

Zusammenfassung

Am 30.10.2024 kam es zwischen 08:59 und 09:24 Uhr zu einem vollständigen Systemausfall aller Dr.wait Dienste. Die Störung dauerte insgesamt 25 Minuten.

Was ist passiert?

Einer der Dienste, der für den Telefonassistenten verantwortlich ist, geriet in einen bisher unbekannten Zustand, begann, 100% der verfügbaren CPU-Leistung zu verbrauchen. Dies führte dazu, dass alle anderen Prozesse auf dem Server stark eingeschränkt wurden und letztendlich zu einem kompletten Systemausfall führten.

CPU-Auslastung während des Vorfalls

CPU-Auslastung des betroffenen Servers während des Vorfalls. Der plötzliche Anstieg auf 100% um 08:59 Uhr ist deutlich erkennbar.

Auswirkungen

  • Alle Dr.wait Systeme waren für 25 Minuten nicht verfügbar
  • Betroffen waren sowohl das digitale Wartezimmer als auch der Terminplaner
  • Der Telefonassistent war während dieser Zeit ebenfalls nicht erreichbar

Ursachenanalyse

Die genaue Ursache für das ungewöhnliche Verhalten des Telefonassistenten wird derzeit noch untersucht. Unsere Entwicklungsteams arbeiten mit Hochdruck daran, den Grund für den übermäßigen CPU-Verbrauch zu identifizieren.

Getroffene Maßnahmen

Um ähnliche Vorfälle in Zukunft zu vermeiden, haben wir folgende Maßnahme implementiert:

  • Alle Prozesse, die mehr als 50% der CPU-Leistung verbrauchen, werden automatisch beendet und neu gestartet
  • Dies verhindert, dass ein einzelner Prozess das gesamte System beeinträchtigen kann

Ausblick

Wir werden die Untersuchung der Grundursache fortsetzen und gegebenenfalls weitere Maßnahmen ergreifen, um die Stabilität unserer Systeme weiter zu verbessern. Wir entschuldigen uns für die entstandenen Unannehmlichkeiten und arbeiten kontinuierlich daran, solche Vorfälle in Zukunft zu vermeiden.