Glossário — SLA e Uptime
Termos essenciais de SLA, uptime e disponibilidade de sistemas críticos.
SLA (Service Level Agreement)
Acordo de nível de serviço — define metas mensuráveis e multas por descumprimento. Contrato sem SLA real é declaração de intenção.
SLO (Service Level Objective)
Objetivo interno de nível de serviço — meta operacional que a equipe persegue, geralmente mais agressiva que o SLA contratual.
SLI (Service Level Indicator)
Indicador específico que mede o cumprimento do SLO — uptime, latência, taxa de erro, throughput. Métrica concreta, não meta.
MTTR (Mean Time To Resolve)
Tempo médio de resolução de incidentes — métrica de eficiência operacional. Importante medir p95 e p99, não apenas média.
MTTD (Mean Time To Detect)
Tempo médio para detectar um incidente — métrica de maturidade do monitoramento. Quanto menor, mais maduro o serviço.
MTBF (Mean Time Between Failures)
Tempo médio entre falhas — métrica de confiabilidade. Útil em sistemas com componentes físicos.
Uptime
Tempo em que o sistema está disponível, expresso em percentual. 99,9% mensal = 43,8 min de downtime; 99,99% = 4,4 min.
Uptime composto
Disponibilidade resultante quando múltiplos componentes em série compõem um serviço — sempre menor que o componente mais frágil.
High availability (HA)
Arquitetura projetada para minimizar indisponibilidade via redundância, failover e ausência de pontos únicos de falha.
Disaster recovery (DR)
Capacidade de recuperar operação após falha catastrófica. Tipicamente envolve site secundário e procedimento testado anualmente.
Active-active
Arquitetura em que múltiplas instâncias servem tráfego simultaneamente. Maior resiliência e melhor uso de recursos que active-passive.
Service credit
Compensação contratual quando SLA é violado, tipicamente em crédito futuro — não cobre prejuízo operacional real do cliente.
