Typologie des risques encourus lors d'une intervention
Une intervention présente toujours un certain niveau de risque. Un vieux dicton dit :
“Si ça marche, ne touche à rien !”
Même lorsque l'intervention est sensée corriger un défaut où un dysfonctionnement antérieur. Une intervention mal gérée peut conduire à un fonctionnement encore plus dégradé. Notre expérience de plusieurs dizaines de milliers d'opération sur nos site clients ont permis de déterminer, à l'arrivée, et dans l'optique de l'exploitant, plusieurs niveaux de risque qui affectent la combinaison de l'étendue du désordre avec le temps d'indisponibilité.
Un risque est toujours associé à une probabilité d'apparition. Un risque cataclysmique plausible doté d'une probabilité d'apparition de 0 n'est plus à considérer.
Les risques sont énoncés du plus critique au moins critique :
Risque TMA 0 : Rupture durable
L'intervention a provoqué une rupture technologique majeure (mélange de versions, incompatibilité avec l'environnement système). La probabilité d'un tel risque est proche de 0 lorsque :
Le projet est géré dans un outil de versionnemment.
Le projet est géré avec mise en oeuvre d'une instance de pré-qualification.
Le projet dispose d'une politique de sauvegarde régulière.
Les interventions “à risque” respectent l'obligation de sauvegarde complète préalable.
Risque TMA 1 : Rupture totale avec inconnue sur l'origine (absence de message d'erreur, ou non accès aux données de trace d'erreur)
L'intervention a causé un dysfonctionnement total à un emplacement non identifié (c'est-à-dire non lié à une modification notoirement répertoriée et réversible). L'effet de l'apparition du risque peut être long, car il nécessite une recherche pas à pas
Risque TMA 2 :
Risque TMA 3 : Effet de bord à effet différé
Impact des risques
Etendue/Indispo | Très longue | Longue | Courte | Très courte |
Totale | | | | |
Centrale | | | | |
Locale critique | | | | |
Locale non critique | | | | |
Etendues de risque
Totale : La plate-forme ne fonctionne plus du tout. Cas typique : Serveur off,
DNS off, Page blanche (fatal error, erreur de compilation), rupture d'authentification.
Centrale : La plate-forme présente un fonctionnement correct sur la page d'accueil (fonctions techniques du service en marche), mais une fonction centrale arrête tous les utilisateurs avant qu'ils accèdent à leur service. Cas typique : Erreur fatale sur la page d'accès aux cour, erreur fatale sur le tableau de bord personnel, perturbation des droits d'accès et rôles.
Locale critique : Le dysfonctionnement présente un caractère local (une fonctionnalité précise), mais celle-ci bloque un processus métier clef du client. Cas exemple : La génération des statistiques de temps d'usage est essentiel pour un organisme de formation continue subventionné.
Locale non critique : Le dysfonctionnement affecte une fonctionnalité secondaire (n'est pas clef dans les processus métier) ou un accessoire contournable (on peut faire autrement).
Temps d'indisponibilité