Tolérance aux pannes - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

Introduction

Le concept de tolérance aux pannes se réfère à une méthode de conception d'un système de telle façon qu'il puisse continuer à fonctionner, potentiellement de manière réduite (en mode dégradé), au lieu de tomber complètement en panne lorsque l'un de ses composants ne fonctionne plus correctement.

Noter la différence entre :

  • les systèmes informatiques conçus pour ne pratiquement pas être ralentis en cas de défaillance matérielle ou logicielle ;
  • les critères définis pour représenter la fiabilité.

Un exemple hors de l'informatique est un véhicule conçu pour être toujours conduisible même si l'un des pneus est crevé.

Critères de tolérance aux pannes

Aucune machine, y compris en électronique et en informatique, n'est fiable à 100 %, ni inusable. Le fabricant, ou un laboratoire d'essais indépendant, définit, après des tests traduisant une utilisation plus ou moins sévère, un critère de tolérance aux pannes de ladite machine.

Ce critère s'exprime soit en un nombre moyen d'heures entre panne (en anglais MTBF, ou mean time between failure), soit en un nombre d'heures de fonctionnement avant la fin de vie de la machine. On lui associe en général un autre paramètre, le MTTR (mean time to repair), le temps moyen de réparation. La combinaison des deux permet d'établir le taux de disponibilité prévisible.

La disponibilité correspond à \frac{MTBF}{MTBF + MTTR} .

Classification de la disponibilité

La classification des systèmes en termes de disponibilité conduit communément à 7 classes de non prise en compte (système disponible 90% du temps, et donc indisponible plus d'un mois par an) à ultra disponible (disponible 99,99999% du temps et donc indisponible seulement 3 secondes par an) : ces différentes classes correspondent au nombre de 9 dans le pourcentage de temps durant lequel les systèmes de la classe sont disponibles.

Type Indisponibilité (par an) Pourcentage disponibilité Classe
non géré 50.000 (34 jours, 17 heures et 20 min) 90% 1
géré 5.000 (3 jours, 11 heures et 20 min) 99% 2
bien géré 500 (8 heures 20 minutes) 99,9% 3
tolérence fautive 50 (un peu moins d'une heure) 99,99% 4
haute disponibilité 5 minutes 99,999% 5
très haute disponibilité 0,5 (30 secondes) 99,9999% 6
très grande haute disponibilité 0,05 (3 secondes) 99,99999% 7

Degrés de gravité des défaillances

  1. panne franche (« fail stop ») : soit le système fonctionne normalement (les résultats sont corrects), soit il ne fait rien. Il s'agit du type de panne le plus simple ;
  2. panne par omission ou panne transitoire : des messages sont perdus en entrée ou en sortie ou les deux. Elle est considérée comme une panne temporelle de durée infinie ;
  3. panne temporelle : le temps de réponse du système dépasse les exigences des spécifications ;
  4. panne byzantine : le système donne des résultats aléatoires.

Désavantages

Les avantages d'un système tolérant aux pannes sont évidentes, mais qu'en est-il des désavantages ?

  • Interférence avec la détection de panne. Pour conserver l'exemple de la voiture capable de rouler avec un pneu crevé, il n'est peut être pas évident pour un conducteur que sa roue, équipée un système tolérant aux pannes, vient de crever. C'est souvent pris en charge par un système de détection automatique de pannes séparé. Dans le cas du pneu, un détecteur surveille la perte de pression d'air et averti le conducteur. L'alternative est la détection de panne manuelle, comme aller inspecter manuellement tous les pneus à chaque arrêt.
  • Réduction de priorité de la correction de pannes. Même si l'administrateur est au courant de la panne, avoir un système tolérant aux pannes est comme réduire l'importance de la réparer. Si la panne n'est pas corrigée, cela pourrait tout de même mener à une défaillance système, lorsque le composant tolérant aux pannes tombe en panne complètement ou lorsque tous les composants redondants ont également cessé de fonctionner.
  • Difficulté du test Pour certains systèmes de tolérance aux pannes, tels que des réacteurs nucléaires, il n'y a pas de moyen facile pour vérifier que les composants de sauvegarde sont opérationnels. L'exemple le plus connu est Tchernobyl, où le système de rafraichissement de secours a été testé en désactivant les systèmes primaire et secondaire. Le système de secours n'a pas fonctionné, provoquant l'explosion et l'échappement du nuage radioactif.
  • Coût. Les composants tolérants aux pannes et les composants redondants ont tendance à accroître les coûts. Cela peut être un coût purement économique ou également inclure des mesures autres, telles le poids. Les vols spaciaux habités, par exemple, ont tellement de systèmes redondants et de composants tolérants aux pannes que leur poids est accru drastiquement par rapport aux systèmes non-habités, qui n'ont pas besoin du même niveau de sécurité.
Page générée en 0.092 seconde(s) - site hébergé chez Contabo
Ce site fait l'objet d'une déclaration à la CNIL sous le numéro de dossier 1037632
A propos - Informations légales
Version anglaise | Version allemande | Version espagnole | Version portugaise