Zusammenfassung
Am 30.10.2024 kam es zwischen 08:59 und 09:24 Uhr zu einem vollständigen Systemausfall aller Dr.wait Dienste. Die Störung dauerte insgesamt 25 Minuten.
Was ist passiert?
Einer der Dienste, der für den Telefonassistenten verantwortlich ist, geriet in einen bisher unbekannten Zustand, begann, 100% der verfügbaren CPU-Leistung zu verbrauchen. Dies führte dazu, dass alle anderen Prozesse auf dem Server stark eingeschränkt wurden und letztendlich zu einem kompletten Systemausfall führten.
CPU-Auslastung des betroffenen Servers während des Vorfalls. Der plötzliche Anstieg auf 100% um 08:59 Uhr ist deutlich erkennbar.
Auswirkungen
- Alle Dr.wait Systeme waren für 25 Minuten nicht verfügbar
- Betroffen waren sowohl das digitale Wartezimmer als auch der Terminplaner
- Der Telefonassistent war während dieser Zeit ebenfalls nicht erreichbar
Ursachenanalyse
Die genaue Ursache für das ungewöhnliche Verhalten des Telefonassistenten wird derzeit noch untersucht. Unsere Entwicklungsteams arbeiten mit Hochdruck daran, den Grund für den übermäßigen CPU-Verbrauch zu identifizieren.
Getroffene Maßnahmen
Um ähnliche Vorfälle in Zukunft zu vermeiden, haben wir folgende Maßnahme implementiert:
- Alle Prozesse, die mehr als 50% der CPU-Leistung verbrauchen, werden automatisch beendet und neu gestartet
- Dies verhindert, dass ein einzelner Prozess das gesamte System beeinträchtigen kann
Ausblick
Wir werden die Untersuchung der Grundursache fortsetzen und gegebenenfalls weitere Maßnahmen ergreifen, um die Stabilität unserer Systeme weiter zu verbessern. Wir entschuldigen uns für die entstandenen Unannehmlichkeiten und arbeiten kontinuierlich daran, solche Vorfälle in Zukunft zu vermeiden.