Escalade des Alertes : Du Premier Email Ă  l'Appel d'Urgence

Configurez des niveaux d'alerte progressifs pour garantir une réponse aux incidents critiques.

Une alerte email non lue peut coûter des milliers d'euros si elle signale un incident critique sur votre site e-commerce pendant un pic de ventes. L'escalade des alertes résout ce problème en augmentant progressivement l'urgence des notifications jusqu'à obtenir une réponse.

Le principe est simple : si personne ne réagit à l'alerte initiale dans un délai défini, le système passe au niveau supérieur. Un email ignoré devient un SMS. Un SMS sans réponse déclenche un appel téléphonique. L'incident finit toujours par atteindre quelqu'un qui peut agir.

Ce guide vous montre comment configurer une stratégie d'escalade efficace avec MoniTao. De la simple escalade email → SMS jusqu'aux chaînes d'escalade multi-personnes, vous aurez tous les outils pour garantir qu'aucun incident critique ne passe inaperçu.

Comprendre l'Escalade des Alertes

L'escalade est un mécanisme de notification progressif qui fonctionne en plusieurs étapes :

  • Alerte initiale : Quand un incident est dĂ©tectĂ©, une première notification est envoyĂ©e via le canal par dĂ©faut (gĂ©nĂ©ralement email). Un timer dĂ©marre.
  • PĂ©riode d'attente : Le système attend un dĂ©lai configurable (ex: 5 minutes) pour voir si l'alerte est acquittĂ©e ou si le service revient en ligne.
  • Escalade niveau 2 : Si aucune action n'est prise, l'alerte passe au niveau supĂ©rieur (ex: SMS) et le timer recommence.
  • Escalade finale : Le processus continue jusqu'au dernier niveau configurĂ© ou jusqu'Ă  rĂ©solution. Les niveaux critiques peuvent inclure des appels tĂ©lĂ©phoniques.

Les Niveaux d'Escalade Typiques

Voici une configuration d'escalade standard adaptable à la plupart des équipes :

  • Niveau 1 - Email (immĂ©diat) : Première notification envoyĂ©e Ă  l'Ă©quipe ops. Non intrusif, idĂ©al pour les incidents mineurs ou pendant les heures de bureau quand l'Ă©quipe surveille ses emails.
  • Niveau 2 - Slack/Teams (après 5 min) : Si pas de rĂ©ponse Ă  l'email, notification dans le canal d'alertes. La visibilitĂ© collective augmente les chances que quelqu'un rĂ©agisse.
  • Niveau 3 - SMS (après 10 min) : Alerte directe sur le tĂ©lĂ©phone de l'ingĂ©nieur d'astreinte. Impossible Ă  ignorer, mĂŞme loin de son ordinateur.
  • Niveau 4 - Appel (après 20 min) : Appel tĂ©lĂ©phonique automatique pour les incidents critiques non rĂ©solus. RĂ©servĂ© aux situations oĂą le service est complètement indisponible.

Configurer l'Escalade dans MoniTao

MoniTao permet de définir des politiques d'escalade flexibles :

  1. Définir les canaux : Configurez d'abord tous vos canaux d'alerte (email, SMS, webhook Slack, etc.) dans Paramètres > Canaux.
  2. Créer une politique d'escalade : Dans Paramètres > Escalade, créez une nouvelle politique et définissez les niveaux avec leurs délais.
  3. Assigner aux monitors : Appliquez la politique aux monitors concernés. Vous pouvez avoir différentes politiques pour différents niveaux de criticité.
  4. Tester le flux : Utilisez le mode test pour simuler une escalade complète et vérifier que chaque niveau fonctionne correctement.

Exemple de Configuration d'Escalade

Voici un exemple de politique d'escalade complète :

# Politique d'escalade "Production Critique"
escalation_policy:
  name: "Production Critique"
  levels:
    - level: 1
      delay: 0  # Immédiat
      channels: ["email-ops"]

    - level: 2
      delay: 300  # 5 minutes
      channels: ["slack-alerts"]

    - level: 3
      delay: 600  # 10 minutes (total)
      channels: ["sms-oncall"]

    - level: 4
      delay: 1200  # 20 minutes (total)
      channels: ["phone-oncall", "email-manager"]

  # Désescalade automatique si résolu
  auto_resolve: true
  resolve_notify: ["slack-alerts"]

Cette configuration envoie d'abord un email, puis escalade vers Slack après 5 minutes, SMS après 10 minutes, et finalement appel + notification au manager après 20 minutes. Si le problème se résout, une notification de récupération est envoyée dans Slack.

Scénarios d'Escalade Courants

Adaptez votre escalade selon le contexte :

  • Heures de bureau : Escalade rapide car l'Ă©quipe est disponible. Email → Slack (2 min) → SMS (5 min). La rĂ©activitĂ© attendue est haute.
  • Nuit et weekend : Escalade plus directe : Email + SMS immĂ©diat pour l'astreinte. Pas de passage par Slack que personne ne surveille.
  • Services critiques : Escalade agressive avec dĂ©lais courts et appel tĂ©lĂ©phonique en dernier recours. Chaque minute de downtime a un impact business.
  • Services secondaires : Escalade douce : email seul pendant les heures de bureau, SMS uniquement si down > 1 heure. Pas besoin de rĂ©veiller quelqu'un pour un service non critique.

Bonnes Pratiques d'Escalade

Pour une escalade efficace sans fatigue d'alertes :

  • DĂ©lais rĂ©alistes : Donnez assez de temps pour rĂ©agir Ă  chaque niveau. 2 minutes pour lire un email est trop court. 5-10 minutes est plus raisonnable.
  • Éviter la redondance : Si quelqu'un a dĂ©jĂ  acquittĂ© l'alerte, les niveaux suivants ne doivent pas se dĂ©clencher. L'acquittement stoppe l'escalade.
  • Rotation d'astreinte : IntĂ©grez votre planning d'astreinte Ă  l'escalade. Le SMS va Ă  la personne d'astreinte du moment, pas toujours au mĂŞme.
  • Feedback loop : Analysez rĂ©gulièrement vos escalades. Si vous atteignez souvent le niveau 4, soit les dĂ©lais sont trop courts, soit l'Ă©quipe ne rĂ©agit pas assez vite.

Checklist Configuration Escalade

  • Configurer tous les canaux d'alerte nĂ©cessaires
  • DĂ©finir des dĂ©lais rĂ©alistes entre chaque niveau
  • CrĂ©er des politiques diffĂ©rentes par criticitĂ©
  • Configurer la rotation d'astreinte
  • Tester le flux complet d'escalade
  • Documenter qui est notifiĂ© Ă  chaque niveau

Questions Fréquentes

L'escalade continue-t-elle si le problème se résout ?

Non, MoniTao détecte automatiquement la résolution et stoppe l'escalade. Une notification de récupération est envoyée selon votre configuration.

Puis-je acquitter une alerte pour stopper l'escalade ?

Oui, l'acquittement depuis le dashboard, l'email, ou via l'API stoppe immédiatement l'escalade. L'alerte reste visible mais aucune notification supplémentaire n'est envoyée.

Comment gérer plusieurs personnes d'astreinte ?

Configurez un groupe de contacts pour chaque niveau. MoniTao peut notifier tous les membres du groupe ou les contacter en rotation jusqu'à obtenir une réponse.

Puis-je avoir différentes escalades jour/nuit ?

Oui, créez des politiques séparées et utilisez les règles de timing pour appliquer automatiquement la bonne politique selon l'heure et le jour.

Que se passe-t-il si personne ne répond au dernier niveau ?

Le système continue de réessayer le dernier niveau à intervalles réguliers jusqu'à acquittement ou résolution. Vous pouvez aussi configurer une notification à un backup (ex: manager).

L'escalade fonctionne-t-elle pendant les maintenances ?

Non, si un monitor est en fenêtre de maintenance, aucune alerte ni escalade n'est déclenchée. C'est précisément l'utilité des maintenance windows.

Conclusion

L'escalade des alertes est votre filet de sécurité. Elle garantit que les incidents critiques finissent toujours par atteindre quelqu'un qui peut agir, même si les premiers destinataires ne sont pas disponibles.

MoniTao vous offre une escalade flexible et puissante : niveaux multiples, délais configurables, intégration avec la rotation d'astreinte. Configurez votre première politique d'escalade et dormez sur vos deux oreilles.

PrĂŞt Ă  dormir sur vos deux oreilles ?

Commencez gratuitement, sans carte bancaire.