Wiederherstellzeiten von IT-Services - Recovery Time
MTTR - Mean Time to Repair
Die mittlere Wiederherstellungszeit gibt an, wie lange es im Durchschnitt dauert, einen ausgefallenes IT-Dienst oder eine IT-System wieder in Betrieb zu nehmen.
Kennzahlen-Steckbrief
Kennzahlen-Stammdaten
Kennzahlen-Titel | IT-Recovery Time (je IT-Service) |
---|---|
Kennzahlen-ID | IT-PPI.recoverytime |
Kennzahlen-Typ | Qualität-Kennzahlen |
Kennzahlen-Beschreibung | Die mittlere Wiederherstellungszeit (MTTR - Mean Time to Repair) ist ein Kennwert in der IT zur Beurteilung der Verfügbarkeit eines technischen Systems oder einer Systemkomponente. MTTR angibt, wie lange es im Durchschnitt dauert, einen ausgefallenen IT-Service oder IT-System oder eine Komponente zu reparieren und die volle Funktionstüchtigkeit wiederherzustellen. Service-Provider versuchen die MTTR zu optimieren und sie möglichst kurz zu halten. Bei Notfallübungen kann der Nachweis zur Einhaltung dieser Steuergrößen erbracht werden. |
Interpretation | Eine geringere MTTR zeigt an, dass der IT-Service schnell wieder hergestellt werden kann. Die mittlere Wiederherstellungszeit (MTTR) und Notfallpläne sind eng miteinander verknüpft und spielen eine entscheidende Rolle im IT-Kontinuitätsmanagement. Die MTTR ist ein wichtiger Indikator für die Wirksamkeit von Notfallplänen. Durch die Entwicklung und regelmäßige Überprüfung von detaillierten Notfallplänen können Unternehmen ihre MTTR reduzieren und ihre Widerstandsfähigkeit gegenüber Störungen erhöhen. |
Messverfahren | Manuelle Protokollierung und Simulation bei Tests: In kleineren Umgebungen oder bei komplexen Ausfällen kann eine manuelle Protokollierung der Wiederherstellungszeit erforderlich sein. Dies erfordert eine genaue Dokumentation aller Schritte und Zeitpunkte. Notfallübungen: Simulierte Notfälle, die regelmäßig durchgeführt werden, um die Dauer einer Wiederherstellung eines Services zu testen. |
Messdaten | in Messtabellen, Log-Einträge |
Berechnungsmethode | Zeitmessung |
Maßeinheit [...] | Definierten Zeitspanne von Ausfall bis zur vollständigen Wiederherstellung. |
Adressat | Prozess-Stakeholder IT-Service-Owner |
Gültigkeit | gemäß Vorgaben aus der Dokumentenlenkung zur Aufbewahrungsfristen. |
Links | - |
Warum ist die Einteilung in Level wichtig?
- Priorisierung: Durch die Einteilung in Level können Störungen nach ihrer Dringlichkeit und Komplexität priorisiert werden.
- Ressourcenallokation: Unternehmen können ihre Ressourcen gezielt auf die jeweiligen Level ausrichten.
- Leistungsmessung: Die MTTR kann für jedes Level einzeln gemessen und verglichen werden.
- Verbesserungspotenzial: Durch die Analyse der MTTR für verschiedene Level können Schwachstellen identifiziert und Verbesserungspotenziale aufgezeigt werden.
Faktoren, die die MTTR beeinflussen:
- Komplexität des Systems: Je komplexer ein System, desto länger kann die Wiederherstellung dauern.
- Verfügbarkeit von Ersatzteilen: Ein fehlendes Ersatzteil kann die Wiederherstellung verzögern.
- Qualifikation des Personals: Gut geschulte Mitarbeiter können die MTTR verkürzen.
- Automatisierung: Automatisierte Prozesse beschleunigen die Fehlerbehebung.
- Notfallpläne: Gut vorbereitete Notfallpläne verkürzen die Wiederherstellungszeit.
Die Einteilung der MTTR in verschiedene Level ermöglicht eine differenzierte Betrachtung von Ausfällen und hilft Unternehmen dabei, ihre IT-Systeme resilienter zu gestalten. Durch eine gezielte Anpassung der Maßnahmen an die jeweilige Komplexität und Schwere eines Ausfalls können Unternehmen die Auswirkungen von Störungen minimieren und ihre Geschäftskontinuität gewährleisten.
Kennzahlen-Werte - Klassifizierung von IT-Services nach Wiederherstellzeiten
Die Definition von Wiederherstellzeiten kann ein Qualitätskriterium in Service Level Agreements (SLAs) sein.
Kennzahlen-Werte | |
---|---|
angestrebte Zielwert | Im jeweiligen SLA vereinbart. |
Toleranzbereich | - |
Eskalationsregel | Im jeweiligen SLA vereinbart. |
Maßnahmen bei Grenzwertüberschreitung | - |
Messzeitpunkte/-intervalle | Monat |
Betrachtungszeitraum | Monat |
Operationalisierung | ![]() |
Messverantwortlicher | Prozessmanager für IT-Prozess Notfälle managen IT-Servicemanager |
Abbildung platinus-SLA-MTTR (Bildquelle = platinus)
Die MTTR kann in verschiedene Level unterteilt werden, um die Komplexität und den Schweregrad von Ausfällen besser zu klassifizieren.
Ausprägung Tiers | Beschreibung Description | |
---|---|---|
MTTR-0 | Es sind keine Wiederherstellungszeit vereinbart. Es wird Best Effort angestrebt. | - |
**MTTR-1 ** | MTTR < 6d ( Second Business Day bis 1 Arbeitswochen). Großflächige Ausfälle, Schwere Cyberangriffe. Aktivierung von Notfallplänen, Wiederherstellung aus Backups, Inbetriebnahme von Notfallsystemen. | |
**MTTR-2 ** | MTTR < 6 Stunden - Next Business Day. Komplexere Probleme, die eine tiefergehende Analyse erfordern, wie z.B. Hardwareausfälle oder Softwarefehler. Eskalation an spezialisierte Teams, Nutzung von Diagnosetools, Ersatzteilbeschaffung. | |
MTTR-3 | MTTR < 6 Stunde. Kleine Störungen, die sich leicht beheben lassen, wie z.B. ein abgestürzter Dienst oder ein Netzwerkproblem. Automatisierung, Standardprozeduren, gut geschulte Mitarbeiter. | |
MTTR-4 | MTTR < 6 min. Sehr kleine Störungen, die sich leicht beheben lassen. Automatisierung, Standardprozeduren, gut geschulte Mitarbeiter. |
Tabelle zu Klassifizierung der Recovery Time von IT-Services (Quelle = platinus)
Kennzahlen-Darstellung
Kennzahlendarstellung | |
---|---|
Kennzahlenvisualisierung | Zeitstrahl![]() |
Aggregationsstufen | nach Event |
Kennzahlen*–*Berichterstatter | Prozessmanager, Servicemanager |
Kennzahlen*–*Berichtsablage | Online-Auswertungen im Monitoring-System Auswertungen im Process-HUB, Service-HUB |
Background
Der Unterschied zwischen System- und Datenwiederherstellung liegt im Umfang der Wiederherstellung.
Systemwiederherstellung
Bezieht sich auf die Wiederherstellung des Betriebssystems, der Anwendungen und der Systemeinstellungen. Kann auch ein "Systemabbild" umfassen, das eine exakte Kopie des gesamten Systems (inklusive aller Daten) darstellt.
Datenwiederherstellung
Konzentriert sich auf die Wiederherstellung einzelner Dateien, Ordner oder Datenbanken. Bezieht sich auf die Wiederherstellung von Benutzerdaten, wie z. B. Dokumenten, Fotos, Videos usw.
Mit dem Begriff Datenwiederherstellung (englisch: data recovery) wird im weitesten Sinne die Erkennung und Wiederherstellung fehlerhaft übertragener Daten bezeichnet. Im engeren Sinne bedeutet dies nach einem Datenverlust die Wiederherstellung der Originaldaten eines Datenträgers mithilfe von Backup-Systemen oder Continuous Data Protection (CDP). Nach einer Störung der Datenübertragung wird ein genauer zuvor definierter Zustand bei der Recovery wiederhergestellt. Insbesondere nach dem Ausfall einer physikalischen Übertragungsleitung nutzt der Anwender Wiederaufsetzpunkte, um seine Anwendung ohne Verlust fortzusetzen.
Die Ursachen des Datenverlustes können vielfältig sein. Die physikalisch und chemisch bedingte Lebensdauer eines Datenträgers ist endlich und kann von einigen Jahren bis zu einigen Jahrzehnten reichen. Auch äußere Einwirkungen wie starke elektromagnetische Felder, mechanische Beschädigungen, Elementarschäden oder bei optischen Datenträgern auch eine starke Lichteinstrahlung können auf einem Datenträger einen Verlust beziehungsweise eine Veränderung der Daten verursachen. Unter- oder Überspannung sowie Angriffe durch Würmer und Viren können schädlich sein. Nicht zuletzt kann die Ursache im Fehlverhalten des Benutzers liegen, zum Beispiel durch versehentliches Überschreiben oder Löschen einer Datei. Die Neuinstallation eines Programms oder des Betriebssystems kann zu einer Inkonsistenz in Bezug auf die alten Daten führen (englisch: data corruption).
Zu unterscheiden ist einmal der Recovery Point Objective (RPO), der den akzeptierbaren Datenverlust meint, und der Recovery Time Objective (RTO), der das Zeitfenster meint, in dem auf die Daten nicht zugegriffen werden kann.