Glossário — SLA e Uptime

Termos essenciais de SLA, uptime e disponibilidade de sistemas críticos.

SLA (Service Level Agreement)

Acordo de nível de serviço — define metas mensuráveis e multas por descumprimento. Contrato sem SLA real é declaração de intenção.

Objetivo interno de nível de serviço — meta operacional que a equipe persegue, geralmente mais agressiva que o SLA contratual.

Indicador específico que mede o cumprimento do SLO — uptime, latência, taxa de erro, throughput. Métrica concreta, não meta.

Tempo médio de resolução de incidentes — métrica de eficiência operacional. Importante medir p95 e p99, não apenas média.

Tempo médio para detectar um incidente — métrica de maturidade do monitoramento. Quanto menor, mais maduro o serviço.

Tempo médio entre falhas — métrica de confiabilidade. Útil em sistemas com componentes físicos.

Tempo em que o sistema está disponível, expresso em percentual. 99,9% mensal = 43,8 min de downtime; 99,99% = 4,4 min.

Disponibilidade resultante quando múltiplos componentes em série compõem um serviço — sempre menor que o componente mais frágil.

Arquitetura projetada para minimizar indisponibilidade via redundância, failover e ausência de pontos únicos de falha.

Capacidade de recuperar operação após falha catastrófica. Tipicamente envolve site secundário e procedimento testado anualmente.

Arquitetura em que múltiplas instâncias servem tráfego simultaneamente. Maior resiliência e melhor uso de recursos que active-passive.

Compensação contratual quando SLA é violado, tipicamente em crédito futuro — não cobre prejuízo operacional real do cliente.