Fehlertoleranz
Fault Tolerance
Die Fehlertoleranz, Fault Tolerance (FT), stellt den kontinuierlichen Betrieb von Rechnersystemen oder Netzwerken auch dann sicher, wenn Systemkomponenten fehlerhaft arbeiten oder sogar ausgefallen sind. Fehlertolerante Systeme werden dort eingesetzt, wo höchste Verfügbarkeit und Hochverfügbarkeit unabdingbar sind.
Ein solches System, dessen Verhalten auch mit Graceful Degradation beschrieben wird, muss verschiedene Fehlerbehandlungsmethoden beherrschen:
- Fehlererkennung,
- Fehlervermeidung und
- der Fehlerausbreitung,
- Wiederherstellungsverfahren um die normalen Verhältnisse nach einem Fehler, einer Störung oder einem Defekt wieder herzustellen.
Das System muss sich außerdem selbst rekonfigurieren können.
Die Fehlertoleranz umfasst verschiedene präventive Maßnahmen. Diese liegen in der Redundanz der Prozessoren, Komponenten und Geräten, die bei Ausfall einer Komponente dessen Funktion übernehmen. Dazu gehört auch das Duplizieren von Datenbeständen, also die Spiegelung auf mehrere Speichereinheiten wie RAID-Systemen, das gegen Fehler und Ausfälle schützt. Darüber hinaus kann sich die Fehlertoleranz auf die physikalische Netzstruktur beziehen, die doppelt ausgeführt sein kann. Im Falle einer Störung im Verkabelungssystem wird automatisch die parallel geschaltete Verkabelungsstruktur für die Übertragung benutzt.
Die Fehlertoleranz von Software bezieht sich auf Fehlererkennungs- und -behebungsverfahren.