Escalade des Alertes : Du Premier Email Ă l'Appel d'Urgence
Configurez des niveaux d'alerte progressifs pour garantir une réponse aux incidents critiques.
Une alerte email non lue peut coûter des milliers d'euros si elle signale un incident critique sur votre site e-commerce pendant un pic de ventes. L'escalade des alertes résout ce problème en augmentant progressivement l'urgence des notifications jusqu'à obtenir une réponse.
Le principe est simple : si personne ne réagit à l'alerte initiale dans un délai défini, le système passe au niveau supérieur. Un email ignoré devient un SMS. Un SMS sans réponse déclenche un appel téléphonique. L'incident finit toujours par atteindre quelqu'un qui peut agir.
Ce guide vous montre comment configurer une stratégie d'escalade efficace avec MoniTao. De la simple escalade email → SMS jusqu'aux chaînes d'escalade multi-personnes, vous aurez tous les outils pour garantir qu'aucun incident critique ne passe inaperçu.
Comprendre l'Escalade des Alertes
L'escalade est un mécanisme de notification progressif qui fonctionne en plusieurs étapes :
- Alerte initiale : Quand un incident est détecté, une première notification est envoyée via le canal par défaut (généralement email). Un timer démarre.
- Période d'attente : Le système attend un délai configurable (ex: 5 minutes) pour voir si l'alerte est acquittée ou si le service revient en ligne.
- Escalade niveau 2 : Si aucune action n'est prise, l'alerte passe au niveau supérieur (ex: SMS) et le timer recommence.
- Escalade finale : Le processus continue jusqu'au dernier niveau configuré ou jusqu'à résolution. Les niveaux critiques peuvent inclure des appels téléphoniques.
Les Niveaux d'Escalade Typiques
Voici une configuration d'escalade standard adaptable à la plupart des équipes :
- Niveau 1 - Email (immédiat) : Première notification envoyée à l'équipe ops. Non intrusif, idéal pour les incidents mineurs ou pendant les heures de bureau quand l'équipe surveille ses emails.
- Niveau 2 - Slack/Teams (après 5 min) : Si pas de réponse à l'email, notification dans le canal d'alertes. La visibilité collective augmente les chances que quelqu'un réagisse.
- Niveau 3 - SMS (après 10 min) : Alerte directe sur le téléphone de l'ingénieur d'astreinte. Impossible à ignorer, même loin de son ordinateur.
- Niveau 4 - Appel (après 20 min) : Appel téléphonique automatique pour les incidents critiques non résolus. Réservé aux situations où le service est complètement indisponible.
Configurer l'Escalade dans MoniTao
MoniTao permet de définir des politiques d'escalade flexibles :
- Définir les canaux : Configurez d'abord tous vos canaux d'alerte (email, SMS, webhook Slack, etc.) dans Paramètres > Canaux.
- Créer une politique d'escalade : Dans Paramètres > Escalade, créez une nouvelle politique et définissez les niveaux avec leurs délais.
- Assigner aux monitors : Appliquez la politique aux monitors concernés. Vous pouvez avoir différentes politiques pour différents niveaux de criticité.
- Tester le flux : Utilisez le mode test pour simuler une escalade complète et vérifier que chaque niveau fonctionne correctement.
Exemple de Configuration d'Escalade
Voici un exemple de politique d'escalade complète :
# Politique d'escalade "Production Critique"
escalation_policy:
name: "Production Critique"
levels:
- level: 1
delay: 0 # Immédiat
channels: ["email-ops"]
- level: 2
delay: 300 # 5 minutes
channels: ["slack-alerts"]
- level: 3
delay: 600 # 10 minutes (total)
channels: ["sms-oncall"]
- level: 4
delay: 1200 # 20 minutes (total)
channels: ["phone-oncall", "email-manager"]
# Désescalade automatique si résolu
auto_resolve: true
resolve_notify: ["slack-alerts"]
Cette configuration envoie d'abord un email, puis escalade vers Slack après 5 minutes, SMS après 10 minutes, et finalement appel + notification au manager après 20 minutes. Si le problème se résout, une notification de récupération est envoyée dans Slack.
Scénarios d'Escalade Courants
Adaptez votre escalade selon le contexte :
- Heures de bureau : Escalade rapide car l'équipe est disponible. Email → Slack (2 min) → SMS (5 min). La réactivité attendue est haute.
- Nuit et weekend : Escalade plus directe : Email + SMS immédiat pour l'astreinte. Pas de passage par Slack que personne ne surveille.
- Services critiques : Escalade agressive avec délais courts et appel téléphonique en dernier recours. Chaque minute de downtime a un impact business.
- Services secondaires : Escalade douce : email seul pendant les heures de bureau, SMS uniquement si down > 1 heure. Pas besoin de réveiller quelqu'un pour un service non critique.
Bonnes Pratiques d'Escalade
Pour une escalade efficace sans fatigue d'alertes :
- Délais réalistes : Donnez assez de temps pour réagir à chaque niveau. 2 minutes pour lire un email est trop court. 5-10 minutes est plus raisonnable.
- Éviter la redondance : Si quelqu'un a déjà acquitté l'alerte, les niveaux suivants ne doivent pas se déclencher. L'acquittement stoppe l'escalade.
- Rotation d'astreinte : Intégrez votre planning d'astreinte à l'escalade. Le SMS va à la personne d'astreinte du moment, pas toujours au même.
- Feedback loop : Analysez régulièrement vos escalades. Si vous atteignez souvent le niveau 4, soit les délais sont trop courts, soit l'équipe ne réagit pas assez vite.
Checklist Configuration Escalade
- Configurer tous les canaux d'alerte nécessaires
- Définir des délais réalistes entre chaque niveau
- Créer des politiques différentes par criticité
- Configurer la rotation d'astreinte
- Tester le flux complet d'escalade
- Documenter qui est notifié à chaque niveau
Questions Fréquentes
L'escalade continue-t-elle si le problème se résout ?
Non, MoniTao détecte automatiquement la résolution et stoppe l'escalade. Une notification de récupération est envoyée selon votre configuration.
Puis-je acquitter une alerte pour stopper l'escalade ?
Oui, l'acquittement depuis le dashboard, l'email, ou via l'API stoppe immédiatement l'escalade. L'alerte reste visible mais aucune notification supplémentaire n'est envoyée.
Comment gérer plusieurs personnes d'astreinte ?
Configurez un groupe de contacts pour chaque niveau. MoniTao peut notifier tous les membres du groupe ou les contacter en rotation jusqu'à obtenir une réponse.
Puis-je avoir différentes escalades jour/nuit ?
Oui, créez des politiques séparées et utilisez les règles de timing pour appliquer automatiquement la bonne politique selon l'heure et le jour.
Que se passe-t-il si personne ne répond au dernier niveau ?
Le système continue de réessayer le dernier niveau à intervalles réguliers jusqu'à acquittement ou résolution. Vous pouvez aussi configurer une notification à un backup (ex: manager).
L'escalade fonctionne-t-elle pendant les maintenances ?
Non, si un monitor est en fenêtre de maintenance, aucune alerte ni escalade n'est déclenchée. C'est précisément l'utilité des maintenance windows.
Conclusion
L'escalade des alertes est votre filet de sécurité. Elle garantit que les incidents critiques finissent toujours par atteindre quelqu'un qui peut agir, même si les premiers destinataires ne sont pas disponibles.
MoniTao vous offre une escalade flexible et puissante : niveaux multiples, délais configurables, intégration avec la rotation d'astreinte. Configurez votre première politique d'escalade et dormez sur vos deux oreilles.
Liens utiles
PrĂŞt Ă dormir sur vos deux oreilles ?
Commencez gratuitement, sans carte bancaire.