Zum Hauptinhalt springen

Wiederherstellzeiten von IT-Services - Recovery Time

MTTR - Mean Time to Repair


Teaser-MTTR

MTTR - Mean Time To Recover

Die mittlere Wiederherstellungszeit gibt an, wie lange es im Durchschnitt dauert, einen ausgefallenes IT-Dienst oder eine IT-System wieder in Betrieb zu nehmen.

Kennzahlen-Steckbrief

Kennzahlen-Stammdaten

Kennzahlen-TitelIT-Recovery Time (je IT-Service)
Kennzahlen-IDIT-PPI.recoverytime
Kennzahlen-TypQualität-Kennzahlen
Kennzahlen-BeschreibungDie mittlere Wiederherstellungszeit (MTTR - Mean Time to Repair) ist ein Kennwert in der IT zur Beurteilung der Verfügbarkeit eines technischen Systems oder einer Systemkomponente. MTTR angibt, wie lange es im Durchschnitt dauert, einen ausgefallenen IT-Service oder IT-System oder eine Komponente zu reparieren und die volle Funktionstüchtigkeit wiederherzustellen. Service-Provider versuchen die MTTR zu optimieren und sie möglichst kurz zu halten. Bei Notfallübungen kann der Nachweis zur Einhaltung dieser Steuergrößen erbracht werden.
InterpretationEine geringere MTTR zeigt an, dass der IT-Service schnell wieder hergestellt werden kann. Die mittlere Wiederherstellungszeit (MTTR) und Notfallpläne sind eng miteinander verknüpft und spielen eine entscheidende Rolle im IT-Kontinuitätsmanagement. Die MTTR ist ein wichtiger Indikator für die Wirksamkeit von Notfallplänen. Durch die Entwicklung und regelmäßige Überprüfung von detaillierten Notfallplänen können Unternehmen ihre MTTR reduzieren und ihre Widerstandsfähigkeit gegenüber Störungen erhöhen.
MessverfahrenManuelle Protokollierung und Simulation bei Tests: In kleineren Umgebungen oder bei komplexen Ausfällen kann eine manuelle Protokollierung der Wiederherstellungszeit erforderlich sein. Dies erfordert eine genaue Dokumentation aller Schritte und Zeitpunkte.
Notfallübungen: Simulierte Notfälle, die regelmäßig durchgeführt werden, um die Dauer einer Wiederherstellung eines Services zu testen.
Messdatenin Messtabellen, Log-Einträge
BerechnungsmethodeZeitmessung
Maßeinheit [...]Definierten Zeitspanne von Ausfall bis zur vollständigen Wiederherstellung.
AdressatProzess-Stakeholder
IT-Service-Owner
Gültigkeitgemäß Vorgaben aus der Dokumentenlenkung zur Aufbewahrungsfristen.
Links-

Warum ist die Einteilung in Level wichtig?

  • Priorisierung: Durch die Einteilung in Level können Störungen nach ihrer Dringlichkeit und Komplexität priorisiert werden.
  • Ressourcenallokation: Unternehmen können ihre Ressourcen gezielt auf die jeweiligen Level ausrichten.
  • Leistungsmessung: Die MTTR kann für jedes Level einzeln gemessen und verglichen werden.
  • Verbesserungspotenzial: Durch die Analyse der MTTR für verschiedene Level können Schwachstellen identifiziert und Verbesserungspotenziale aufgezeigt werden.

Faktoren, die die MTTR beeinflussen:

  • Komplexität des Systems: Je komplexer ein System, desto länger kann die Wiederherstellung dauern.
  • Verfügbarkeit von Ersatzteilen: Ein fehlendes Ersatzteil kann die Wiederherstellung verzögern.
  • Qualifikation des Personals: Gut geschulte Mitarbeiter können die MTTR verkürzen.
  • Automatisierung: Automatisierte Prozesse beschleunigen die Fehlerbehebung.
  • Notfallpläne: Gut vorbereitete Notfallpläne verkürzen die Wiederherstellungszeit.

Die Einteilung der MTTR in verschiedene Level ermöglicht eine differenzierte Betrachtung von Ausfällen und hilft Unternehmen dabei, ihre IT-Systeme resilienter zu gestalten. Durch eine gezielte Anpassung der Maßnahmen an die jeweilige Komplexität und Schwere eines Ausfalls können Unternehmen die Auswirkungen von Störungen minimieren und ihre Geschäftskontinuität gewährleisten.

Kennzahlen-Werte - Klassifizierung von IT-Services nach Wiederherstellzeiten

Die Definition von Wiederherstellzeiten kann ein Qualitätskriterium in Service Level Agreements (SLAs) sein.

Kennzahlen-Werte
angestrebte ZielwertIm jeweiligen SLA vereinbart.
Toleranzbereich-
EskalationsregelIm jeweiligen SLA vereinbart.
Maßnahmen bei Grenzwertüberschreitung-
Messzeitpunkte/-intervalleMonat
BetrachtungszeitraumMonat
Operationalisierungplatinus-SLA-MTTR
MessverantwortlicherProzessmanager für IT-Prozess Notfälle managen
IT-Servicemanager

Abbildung platinus-SLA-MTTR (Bildquelle = platinus)

Die MTTR kann in verschiedene Level unterteilt werden, um die Komplexität und den Schweregrad von Ausfällen besser zu klassifizieren.

Ausprägung TiersBeschreibung
Description
MTTR-0Es sind keine Wiederherstellungszeit vereinbart. Es wird Best Effort angestrebt.-
**MTTR-1 **MTTR < 6d ( Second Business Day bis 1 Arbeitswochen). Großflächige Ausfälle, Schwere Cyberangriffe. Aktivierung von Notfallplänen, Wiederherstellung aus Backups, Inbetriebnahme von Notfallsystemen.
**MTTR-2 **MTTR < 6 Stunden - Next Business Day. Komplexere Probleme, die eine tiefergehende Analyse erfordern, wie z.B. Hardwareausfälle oder Softwarefehler. Eskalation an spezialisierte Teams, Nutzung von Diagnosetools, Ersatzteilbeschaffung.
MTTR-3MTTR < 6 Stunde. Kleine Störungen, die sich leicht beheben lassen, wie z.B. ein abgestürzter Dienst oder ein Netzwerkproblem. Automatisierung, Standardprozeduren, gut geschulte Mitarbeiter.
MTTR-4MTTR < 6 min. Sehr kleine Störungen, die sich leicht beheben lassen. Automatisierung, Standardprozeduren, gut geschulte Mitarbeiter.

Tabelle zu Klassifizierung der Recovery Time von IT-Services (Quelle = platinus)

Kennzahlen-Darstellung

Kennzahlendarstellung
KennzahlenvisualisierungZeitstrahl
image-20221209141120572
Aggregationsstufennach Event
Kennzahlen*–*BerichterstatterProzessmanager, Servicemanager
Kennzahlen*–*BerichtsablageOnline-Auswertungen im Monitoring-System
Auswertungen im Process-HUB, Service-HUB

Background

Der Unterschied zwischen System- und Datenwiederherstellung liegt im Umfang der Wiederherstellung.

Systemwiederherstellung

Bezieht sich auf die Wiederherstellung des Betriebssystems, der Anwendungen und der Systemeinstellungen. Kann auch ein "Systemabbild" umfassen, das eine exakte Kopie des gesamten Systems (inklusive aller Daten) darstellt.

Datenwiederherstellung

Konzentriert sich auf die Wiederherstellung einzelner Dateien, Ordner oder Datenbanken. Bezieht sich auf die Wiederherstellung von Benutzerdaten, wie z. B. Dokumenten, Fotos, Videos usw.

Mit dem Begriff Datenwiederherstellung (englisch: data recovery) wird im weitesten Sinne die Erkennung und Wiederherstellung fehlerhaft übertragener Daten bezeichnet. Im engeren Sinne bedeutet dies nach einem Datenverlust die Wiederherstellung der Originaldaten eines Datenträgers mithilfe von Backup-Systemen oder Continuous Data Protection (CDP). Nach einer Störung der Datenübertragung wird ein genauer zuvor definierter Zustand bei der Recovery wiederhergestellt. Insbesondere nach dem Ausfall einer physikalischen Übertragungsleitung nutzt der Anwender Wiederaufsetzpunkte, um seine Anwendung ohne Verlust fortzusetzen.

Die Ursachen des Datenverlustes können vielfältig sein. Die physikalisch und chemisch bedingte Lebensdauer eines Datenträgers ist endlich und kann von einigen Jahren bis zu einigen Jahrzehnten reichen. Auch äußere Einwirkungen wie starke elektromagnetische Felder, mechanische Beschädigungen, Elementarschäden oder bei optischen Datenträgern auch eine starke Lichteinstrahlung können auf einem Datenträger einen Verlust beziehungsweise eine Veränderung der Daten verursachen. Unter- oder Überspannung sowie Angriffe durch Würmer und Viren können schädlich sein. Nicht zuletzt kann die Ursache im Fehlverhalten des Benutzers liegen, zum Beispiel durch versehentliches Überschreiben oder Löschen einer Datei. Die Neuinstallation eines Programms oder des Betriebssystems kann zu einer Inkonsistenz in Bezug auf die alten Daten führen (englisch: data corruption).

Zu unterscheiden ist einmal der Recovery Point Objective (RPO), der den akzeptierbaren Datenverlust meint, und der Recovery Time Objective (RTO), der das Zeitfenster meint, in dem auf die Daten nicht zugegriffen werden kann.