Alertes par Niveau de Criticité

Priorisez intelligemment vos alertes pour réagir vite aux incidents importants.

Toutes les alertes ne se valent pas. Un site de production down à 2h du matin mérite une réaction immédiate. Un certificat SSL qui expire dans 30 jours peut attendre le prochain jour ouvré. Traiter toutes les alertes de la même façon conduit à deux problèmes : soit on se noie dans le bruit, soit on rate les incidents critiques.

La classification par criticité permet de router chaque alerte vers le bon canal et la bonne personne. Les incidents critiques déclenchent l'escalade complète (SMS, appel, notification manager). Les alertes informatives arrivent tranquillement par email pour action planifiée.

Ce guide vous aide à définir vos niveaux de criticité, à configurer le routage approprié, et à éviter les pièges classiques (tout en critique = rien en critique).

Les 4 Niveaux de Criticité

Voici une classification standard adaptable à votre contexte :

  • Critique (P1) : Impact business majeur immédiat. Site de production down, paiements impossibles, données corrompues. Intervention immédiate requise, même à 3h du matin.
  • Haute (P2) : Dégradation significative de service. Performance très dégradée, fonctionnalité majeure impactée, erreurs fréquentes. Intervention rapide requise pendant les heures ouvrées.
  • Moyenne (P3) : Problème à surveiller. Dégradation mineure, warning qui pourrait empirer, seuil approché. Action planifiée sous 24-48h.
  • Basse (P4) : Information ou maintenance préventive. Certificat expire dans 30 jours, backup légèrement retardé, métrique inhabituelle. Action au prochain sprint.

Pourquoi Classifier les Alertes ?

La classification par criticité apporte plusieurs bénéfices :

  • Focus sur l'essentiel : Quand tout est urgent, rien ne l'est. La classification permet d'identifier immédiatement ce qui requiert une action immédiate.
  • Réduction du bruit : Les alertes basse priorité n'interrompent pas le travail. Elles sont traitées en batch à des moments dédiés.
  • Meilleur sommeil : Seules les vraies urgences réveillent l'équipe d'astreinte. Moins de fatigue = meilleures décisions.
  • Métriques pertinentes : Mesurez le MTTR par niveau de criticité. Un MTTR élevé sur P1 est un problème. Un MTTR élevé sur P4 est normal.

Comment Définir les Niveaux

Suivez cette méthodologie pour classifier vos monitors :

  1. Listez vos services : Énumérez tous les services monitorés : site web, API, base de données, services tiers, tâches planifiées.
  2. Évaluez l'impact business : Pour chaque service : combien coûte une heure d'indisponibilité ? Combien d'utilisateurs impactés ? Quelle est l'image de marque ?
  3. Définissez les seuils : Site principal = P1 si down. API secondaire = P2. Service interne = P3. Environnement de staging = P4.
  4. Documentez : Créez une matrice de classification accessible à toute l'équipe. Révisez-la régulièrement.
  5. Itérez : Après quelques semaines, analysez : trop de P1 ? Peut-être certains devraient être P2. Jamais de P1 ? Peut-être manquez-vous de monitoring critique.

Routage par Criticité

Chaque niveau de criticité mérite un traitement différent :

Niveau Canal Temps de réponse attendu
Critique (P1)SMS + Appel + Email< 15 minutes
Haute (P2)SMS + Email< 1 heure (heures ouvrées)
Moyenne (P3)Email + Slack< 24 heures
Basse (P4)Email digest< 1 semaine

Exemples de Classification

Voici comment classifier des alertes courantes :

  • Site de production down (5xx) : P1 - Critique. Chaque minute compte. SMS immédiat + escalade si pas d'acquittement sous 5 minutes.
  • Latence API > 2 secondes : P2 - Haute. Impact utilisateur significatif mais le service fonctionne. Email + SMS pendant heures ouvrées.
  • Certificat SSL expire dans 14 jours : P3 - Moyenne. Suffisamment de temps pour agir. Email pour action planifiée.
  • Espace disque > 70% : P4 - Basse. Warning préventif. Email digest hebdomadaire avec toutes les alertes P4.

Bonnes Pratiques

Évitez les pièges classiques de la classification :

  • Évitez le "tout critique" : Si plus de 10% de vos alertes sont P1, vous avez un problème de classification. Réévaluez avec le critère d'impact business réel.
  • Révisez régulièrement : Un nouveau service peut mériter P1. Un ancien service décommissionné peut passer en P3. Revoyez la matrice trimestriellement.
  • Formez l'équipe : Tous les membres doivent comprendre la classification et savoir comment réagir à chaque niveau.
  • Analysez les incidents : Un incident P1 qui n'a eu aucun impact business était peut-être mal classifié. Utilisez les post-mortems pour affiner.

Checklist Classification

  • Définir les 4 niveaux avec exemples concrets
  • Classifier tous les monitors existants
  • Configurer le routage par niveau
  • Documenter la matrice de classification
  • Former l'équipe sur les temps de réponse attendus

Questions Fréquentes

Combien de niveaux de criticité ?

Quatre niveaux (P1-P4) sont généralement suffisants. Plus de niveaux complique la classification sans apporter de valeur. Moins de niveaux ne permet pas de différencier assez.

Un monitor peut-il changer de criticité ?

Oui, et c'est normal. Une latence élevée peut être P3 de jour (équipe présente) et P2 de nuit (moins de tolérance). Utilisez des règles horaires.

Qui décide de la criticité ?

Idéalement, le product owner et l'équipe technique ensemble. Le PO connaît l'impact business, l'équipe technique connaît les dépendances.

Comment gérer les désaccords sur la criticité ?

En cas de doute, commencez par le niveau supérieur. Il est plus facile de descendre une criticité après analyse que de remonter après un incident raté.

Les environnements de staging sont-ils jamais critiques ?

Rarement en P1, mais un staging down avant un déploiement majeur peut mériter un P2. Le contexte compte.

Comment MoniTao gère-t-il les criticités ?

Chaque monitor MoniTao a un niveau de criticité configurable. Ce niveau détermine les canaux de notification et les délais d'escalade.

Conclusion

La classification par criticité est fondamentale pour une gestion efficace des alertes. Elle permet de réagir vite aux vrais problèmes tout en évitant la fatigue d'alerte sur les incidents mineurs.

Prenez le temps de définir votre matrice de classification, configurez le routage approprié dans MoniTao, et révisez régulièrement. Votre équipe vous remerciera.

Prêt à dormir sur vos deux oreilles ?

Commencez gratuitement, sans carte bancaire.