Ausfallzeiten - Downtime des IT-Services
Downtime - Mean Time To Repair (MTTR)
Mit der Ausfallzeit (Downtime), ist die Zeit gemeint, während der ein IT-Service, ein IT-System oder IT-Netzwerk für den Benutzer nicht zur Verfügung steht.
Der Grund für den Ausfall kann ein Fehler in der Hardware oder Software sein, der die Downtime verursacht hat, es kann sich aber auch um Bedienfehler handeln oder um eine bewusste, vorsätzliche Ausfallzeit, beispielsweise um Wartungs- und Reparaturarbeiten durchführen oder Software-Updates oder neue Anwendungssoftware laden zu können.
- Im Fehlerfall handelt es sich um eine ungeplante Downtime.
- Im Wartungsfall um eine geplante Downtime.
Die Klassifizierung der Verfügbarkeit bestimmt die Länge der Ausfallzeit. Diese kann bei einfacher Verfügbarkeit von 99,50 % bei 48 Stunden pro Jahr liegen und bei Non-Stopp-Verfügbarkeit bei 99,999%.
Die Verfügbarkeit wird bestimmt durch die Faktoren Mean Time Between Failures (MTBF), das ist die mittlere Zeitspanne zwischen dem Auftreten von zwei Fehlern, und Mean Time To Repair (MTTR), das ist die Dauer der Störungsbeseitigung. Eine hohe Verfügbarkeit resultiert aus einer möglichst großen MTBF und einer möglichst kleinen MTTR.
Typische Ausfallmetriken wie MTTR, MTBF, MTTF
Zu den gängigen Ausfallmetriken gehören:
- Mean-Time-To-Repair (MTTR): Die durchschnittlich für die Reparatur und Wiederherstellung eines ausgefallenen Systems benötigte Zeit. Bei Mean Time To Repair handelt sich um eine Messgröße für die Wartbarkeit von reparierbaren Komponenten oder Services. Je nach Komplexität des Geräts und des zugehörigen Problems kann die MTTR in Minuten, Stunden oder Tagen gemessen werden. Die Abkürzung der MTTR kann dabei auch für Mean-Time-To-Recovery, Mean-Time-To-Resolve oder Mean-Time-To-Resolution stehen.
- Mean-Time-Between-Failure (MTTF): Die durchschnittliche Betriebsdauer zwischen einem Geräteausfall oder Systemabsturz und dem nächsten. In Unternehmen wird die MTBF herangezogen, um die Zuverlässigkeit und Verfügbarkeit von Systemen und Komponenten vorherzusagen. Diese Kennzahl wird durch Nachverfolgung der Zeitspanne zwischen System-/Komponentenausfällen während des normalen Betriebs berechnet.
- Mean-Time-To-Failure (MTTF): Die durchschnittliche Betriebsdauer eines Geräts oder Systems bis zum Ausfall. In der Regel erfassen IT-Teams die entsprechenden Daten, indem sie Systemkomponenten über mehrere Tage oder Wochen beobachten. Diese Kennzahl ähnelt zwar der MTBF, wird jedoch normalerweise verwendet, um Elemente zu beschreiben, die ausgetauscht werden müssen, z. B. ein Bandlaufwerk in einem Backup-Array, während die MTBF für Elemente verwendet wird, die entweder repariert oder ersetzt werden können.
- Mean-Time-To-Detect (MTTD): Die durchschnittliche Zeitspanne zwischen dem Eintreten eines Problems und dessen Erkennung. Die MTTD bezeichnet die Zeit, die vergeht, bevor die IT-Abteilung ein Service-Ticket erhält und die Stoppuhr für die MTTR startet.
- Mean-Time-To-Investigate (MTTI): Die durchschnittliche Zeitdauer zwischen der Erkennung eines IT-Incidents und dem Beginn der Untersuchung seiner Ursache mit Blick auf die Lösungsfindung. Mit anderen Worten, die Zeitspanne zwischen MTTD und dem Beginn der MTTR.
- Mean-Time-To-Restore-Service (MTRS): Die durchschnittliche Zeitspanne von der Erkennung eines Incidents bis zur erneuten Bereitstellung des betreffenden Systems oder der Komponente für die Benutzer. Die MTRS unterscheidet sich folgendermaßen von der MTTR: Während die MTTR angibt, wie lange es dauert, ein Element zu reparieren, bezieht sich die MTRS darauf, wie lange es dauert, den Service wiederherzustellen, nachdem das Element repariert wurde.
- Mean-Time-Between-System-Incidents (MTBSI): Die durchschnittliche Zeitspanne zwischen der Erkennung zweier aufeinanderfolgender Incidents. Die MTBSI wird durch Addition von MTBF und MTRS berechnet (MTBSI = MTBF + MTRS).
- Ausfallrate (Failure Rate): Eine weitere Metrik für die Zuverlässigkeit, mit der die Häufigkeit des Ausfalls einer Komponente oder eines Systems gemessen wird. Die Ausfallrate wird als Anzahl der Ausfälle pro Zeiteinheit angegeben.