La fiabilité de fonctionnement est la possibilité de se fier aux services délivrés.
Elle dépend de la fiabilité de fonctionnement des composants utilisés.
Il existe une différence entre la tolérance aux pannes (système qui fonctionne même lorsqu'une défaillance apparaît) et les systèmes qui ont rarement de problèmes.
Par exemple, la crossbar de Western Electric a un taux de défaillance de deux heures pour quarante ans, et donc hautement résistant aux pannes. Mais lorsqu'une panne apparaît, ils s'arrêtent tout de même, et ne sont donc pas véritablement tolérants aux pannes.
Une erreur interne, provoquée par les circonstances précédentes, reste interne tant qu'elle n'a pas eu de conséquences sur le fonctionnement externe du système.
Cette erreur peut rester interne longtemps (latence de la faute) mais conduit à court ou long terme à un état d'erreur externe par une défaillance ou panne.
L'état d'erreur externe se manisfeste par des défaillances, des pannes (failures) au niveau du service rendu d'une faute. Le système est en panne si suite à l'un des phénomènes précédents il ne respecte pas l'une de ses spécifications.
En général, seules sont visibles les états d'erreurs externes, comment repérer le problème qui a conduit à la défaillance ?
L'origine des erreurs à prendre en compte peut varier :
L'évitement des pannes est l'ensemble des moyens permettant, en amont, d'éviter que le système ne tombe en panne.
Cela passe notamment par :