Glossário — SLA e Uptime

Termos essenciais de SLA, uptime e disponibilidade de sistemas críticos.

SLA (Service Level Agreement)

Acordo de nível de serviço — define metas mensuráveis e multas por descumprimento. Contrato sem SLA real é declaração de intenção.

SLO (Service Level Objective)

Objetivo interno de nível de serviço — meta operacional que a equipe persegue, geralmente mais agressiva que o SLA contratual.

SLI (Service Level Indicator)

Indicador específico que mede o cumprimento do SLO — uptime, latência, taxa de erro, throughput. Métrica concreta, não meta.

MTTR (Mean Time To Resolve)

Tempo médio de resolução de incidentes — métrica de eficiência operacional. Importante medir p95 e p99, não apenas média.

MTTD (Mean Time To Detect)

Tempo médio para detectar um incidente — métrica de maturidade do monitoramento. Quanto menor, mais maduro o serviço.

MTBF (Mean Time Between Failures)

Tempo médio entre falhas — métrica de confiabilidade. Útil em sistemas com componentes físicos.

Uptime

Tempo em que o sistema está disponível, expresso em percentual. 99,9% mensal = 43,8 min de downtime; 99,99% = 4,4 min.

Uptime composto

Disponibilidade resultante quando múltiplos componentes em série compõem um serviço — sempre menor que o componente mais frágil.

High availability (HA)

Arquitetura projetada para minimizar indisponibilidade via redundância, failover e ausência de pontos únicos de falha.

Disaster recovery (DR)

Capacidade de recuperar operação após falha catastrófica. Tipicamente envolve site secundário e procedimento testado anualmente.

Active-active

Arquitetura em que múltiplas instâncias servem tráfego simultaneamente. Maior resiliência e melhor uso de recursos que active-passive.

Service credit

Compensação contratual quando SLA é violado, tipicamente em crédito futuro — não cobre prejuízo operacional real do cliente.