Glossaire du Monitoring

Toutes les définitions et acronymes du monitoring expliqués simplement.

Le monde du monitoring regorge d'acronymes et de termes techniques qui peuvent sembler obscurs au premier abord. SLA, SLO, SLI, MTTR, MTTD, MTBF... Ces termes sont pourtant essentiels pour communiquer efficacement avec votre équipe et vos partenaires.

Ce glossaire rassemble les définitions claires et précises de tous les termes que vous rencontrerez dans votre parcours de monitoring. Chaque définition est accompagnée d'exemples concrets pour faciliter la compréhension.

Utilisez ce glossaire comme référence rapide ou pour former les nouveaux membres de votre équipe. Bookmarkez cette page - vous y reviendrez souvent.

Disponibilité et SLA

Uptime
Pourcentage de temps pendant lequel un service est opérationnel et accessible. Un uptime de 99.9% signifie que le service peut être indisponible maximum 8.77 heures par an.
Downtime
Période pendant laquelle un service est indisponible ou non fonctionnel. Le downtime peut être planifié (maintenance) ou non planifié (incident).
Disponibilité (Availability)
Capacité d'un service à être opérationnel quand on en a besoin. Souvent exprimée en pourcentage (ex: 99.95% availability).
SLA (Service Level Agreement)
Accord contractuel entre un fournisseur et un client définissant les niveaux de service garantis. Inclut généralement un engagement de disponibilité et des pénalités en cas de non-respect.
SLO (Service Level Objective)
Objectif interne de niveau de service que l'équipe s'engage à atteindre. Plus strict que le SLA pour avoir une marge de sécurité.
SLI (Service Level Indicator)
Métrique quantitative mesurant un aspect du service. Ex: taux de requêtes réussies, latence p99, temps de chargement.
MTTR (Mean Time To Recovery)
Temps moyen pour restaurer un service après un incident. Mesure la rapidité de réponse de l'équipe. Objectif typique : < 1 heure.
MTTD (Mean Time To Detect)
Temps moyen entre le début d'un incident et sa détection. Un bon monitoring réduit le MTTD à quelques minutes.
MTBF (Mean Time Between Failures)
Temps moyen entre deux pannes. Mesure la fiabilité d'un système. Plus le MTBF est élevé, plus le système est stable.

Performance

Latence (Latency)
Délai entre une requête et sa réponse. Mesurée en millisecondes (ms). Une latence élevée dégrade l'expérience utilisateur.
TTFB (Time To First Byte)
Temps entre l'envoi de la requête et la réception du premier octet de réponse. Indicateur clé de la performance serveur.
Temps de Réponse (Response Time)
Temps total pour recevoir une réponse complète. Inclut la latence réseau et le temps de traitement.
Débit (Throughput)
Nombre de requêtes traitées par unité de temps. Ex: 1000 requêtes par seconde (RPS).
Percentile (p50, p95, p99)
Mesure statistique indiquant la valeur en dessous de laquelle se trouve X% des observations. P99 = 99% des requêtes sont plus rapides que cette valeur.

Alertes et Incidents

Fatigue d'Alerte (Alert Fatigue)
Désensibilisation de l'équipe face aux alertes trop nombreuses ou peu pertinentes. Conduit à ignorer les vraies alertes.
Faux Positif
Alerte déclenchée alors qu'il n'y a pas de problème réel. Cause principale de la fatigue d'alerte.
Escalade (Escalation)
Processus de transmission d'un incident à un niveau de support supérieur ou à la direction quand il n'est pas résolu rapidement.
Astreinte (On-Call)
Période pendant laquelle un membre de l'équipe doit être disponible pour répondre aux incidents, souvent en dehors des heures de bureau.
Incident
Événement non planifié causant une interruption ou une dégradation de service. Classé par sévérité (P1 à P4).
Post-Mortem
Analyse rétrospective d'un incident pour comprendre les causes racines et définir des actions préventives. Sans blame, focalisé sur l'amélioration.

Types de Vérifications

Health Check
Endpoint dédié retournant l'état de santé d'un service. Généralement /health ou /status. Vérifie les dépendances critiques.
Heartbeat (Ping de Vie)
Signal périodique envoyé par une application pour confirmer qu'elle fonctionne. L'absence de heartbeat déclenche une alerte.
Monitoring Synthétique
Tests automatisés simulant le parcours utilisateur. Détecte les problèmes avant que les vrais utilisateurs ne les rencontrent.
RUM (Real User Monitoring)
Mesure des performances telles qu'expérimentées par les vrais utilisateurs. Collecte des données depuis les navigateurs.
Sonde (Probe)
Point de monitoring distant qui vérifie la disponibilité d'un service. Plusieurs sondes géographiquement distribuées améliorent la fiabilité.

Questions Fréquentes

Quelle est la différence entre SLA, SLO et SLI ?

SLI est la métrique mesurée, SLO est l'objectif interne, SLA est l'engagement contractuel avec pénalités. Ex: SLI = 99.95% uptime mesuré, SLO = 99.9% cible, SLA = 99.5% garanti au client.

Comment calculer le MTTR ?

MTTR = Somme des temps de résolution / Nombre d'incidents. Ex: 3 incidents résolus en 30min, 45min, 15min → MTTR = (30+45+15)/3 = 30 minutes.

Qu'est-ce qu'un bon taux d'uptime ?

Dépend du contexte. 99% (3.65 jours de downtime/an) est le minimum acceptable. 99.9% (8.77h/an) est standard. 99.99% (52 min/an) est excellent.

Pourquoi utiliser des percentiles plutôt que des moyennes ?

Les moyennes masquent les valeurs extrêmes. P99 montre que 99% des utilisateurs ont une meilleure expérience que cette valeur, révélant les cas problématiques.

Conclusion

Maîtriser le vocabulaire du monitoring est essentiel pour communiquer efficacement avec votre équipe et vos stakeholders. Ces termes reviendront constamment dans vos discussions sur la fiabilité et la performance.

Gardez ce glossaire à portée de main et n'hésitez pas à le partager avec les nouveaux membres de votre équipe. Une terminologie commune est la base d'une collaboration efficace.

Prêt à dormir sur vos deux oreilles ?

Commencez gratuitement, sans carte bancaire.