Skip to content
Monitoramento9 min de leitura

Uptime e SLA: a matemática dos noves (99,9% vs 99,99%)

99,99% soa redondo, mas significa que sua loja pode cair no máximo 52 minutos no ano inteiro. Veja a tabela completa, o conceito de error budget e como medir uptime de forma honesta.

Corredor de data center com servidores em rack
Cada 'nove' adicional divide o downtime por 10 — e o custo por exigência sobe exponencialmente. 99,99% custa muito mais que 99,9%.Unsplash
O que você vai aprender
  • A diferença real entre 99,9% e 99,99% de uptime em minutos de downtime por ano.
  • Por que SLA contratual ≠ SLA percebido pelo cliente.
  • O conceito de error budget aplicado a e-commerce.
  • Como medir e comunicar uptime de forma honesta (e o que não contar como downtime).

"Nosso site tem 99,99% de uptime" — frase que aparece em qualquer landing page de hospedagem. Soa bonito, mas o que esse número significa de fato? E, mais importante: como você prova isso pro seu cliente B2B que está cobrando SLA no contrato? Este guia é a matemática prática dos noves, sem marketing.

8h 45min
de downtime/ano permitido em SLA de 99,9%
Cálculo: 525.600min × 0,001
52min 36s
de downtime/ano permitido em SLA de 99,99%
Cálculo: 525.600min × 0,0001
5min 16s
de downtime/ano permitido em SLA de 99,999% ("five nines")
Cálculo: 525.600min × 0,00001
~30%
dos contratos B2B brasileiros de e-commerce já incluem cláusula de SLA & multa
Estimativa setorial — pesquisa ABComm

A tabela dos noves

Cada "nove" adicional divide o downtime por 10. Não é incremento linear — é exponencial. Custa cada vez mais caro garantir cada nove extra.

SLADowntime/diaDowntime/mêsDowntime/ano
99%14 min 24 s7 h 18 min3 d 15 h 36 min
99,5%7 min 12 s3 h 39 min1 d 19 h 48 min
99,9%1 min 26 s43 min 49 s8 h 45 min 57 s
99,95%43 s21 min 54 s4 h 22 min 58 s
99,99%8,6 s4 min 22 s52 min 35 s
99,999%0,86 s26 s5 min 15 s
📌 Como ler: "99,99%" anual permite 52 minutos de queda no ano inteiro. Uma única manutenção mal planejada de 1 hora já estoura o SLA do ano. Por isso quase ninguém promete isso sem janela de manutenção excluída do cálculo.
100% is the wrong reliability target for basically everything.— Benjamin Treynor Sloss, VP de Engenharia, Google

Error budget: o orçamento de falha

O Google formalizou o conceito de error budget (orçamento de erro) em SRE: se você assume um SLA de 99,9%, você "gasta" 0,1% de tempo em queda — e isso é OK, é parte do orçamento.[1]

Quando o orçamento ainda está positivo, a equipe pode tomar riscos: lançar feature nova, migrar banco, atualizar versão. Quando o orçamento foi gasto, prioridade vira estabilidade — nada de lançamento até o budget se recuperar no próximo período.

Esse mecanismo destrava a tensão clássica entre dev (quer entregar) e ops (quer estabilidade). Vira política, não negociação.

Gráficos de barras crescentes em painel de monitoramento
Error budget transforma a tensão clássica entre dev (quer entregar) e ops (quer estabilidade) em política, não negociação.Unsplash

Como medir uptime de forma honesta

O que conta como downtime

  • HTTP 5xx ou conexão recusada para usuário final.
  • Latência maior que limite (geralmente p99 > 10s na home). Latência catastrófica é downtime efetivo.
  • Resposta válida mas conteúdo errado — página em branco com 200, erro JavaScript fatal. Por isso navegação real (Chromium) é mais confiável que ping.

O que não conta (e por quê)

  • Falha do usuário — internet do cliente cai, problema de DNS local. Você não tem como controlar.
  • Janela de manutenção pré-anunciada com aviso de pelo menos 7 dias. Tem que estar no contrato.
  • Falha de provedor de terceiro não exclusivo — Cloudflare global, AWS region. Discutível: depende do contrato.
⚠ Cuidado: excluir do SLA "qualquer indisponibilidade causada por terceiros" é a forma de dizer 99,99% e não significar nada. Se a sua loja roda em AWS e a AWS cai, do ponto de vista do cliente você caiu. Negocie com contraparte específica.

SLA na prática: medindo de onde?

Uptime medido de um único ponto mente para os dois lados:

  • Mente para mais: se medir do mesmo data center, vai dar 99,99% mesmo se a borda de internet entre seu data center e o usuário cair.
  • Mente para menos: se medir de uma região e a conexão entre essa região e sua loja oscila, vai contar como sua queda algo que é só rota.

A boa prática é medir de 3+ regiões geograficamente distintas, com regra de quórum: só conta como queda se 2 de 3 regiões falham simultaneamente. Isso elimina ruído de roteamento.

A página de status pública

Se você vende B2B ou tem clientes que dependem da sua loja para vender (marketplaces, plataformas), página de status pública é obrigatória. Ela:

  • Tira do SAC dezenas de perguntas a cada incidente.
  • Demonstra transparência — o que vale ouro em renegociação de contrato.
  • Dá histórico que protege em disputa: "no dia X estávamos com 99,7%, dentro do SLA".

A Especialista Loja Virtual gera página de status pública automaticamente — veja como funciona.

Resumo prático

  1. Saiba o seu SLA real antes de prometer um número. Meça por 90 dias com retries e quórum.
  2. Negocie exceções específicas, não genéricas. "Falha de terceiros" vira "falha de [provedor X listado em anexo]".
  3. Use error budget como ferramenta de decisão, não punição.
  4. Comunique antes do cliente perguntar. Status page pública é mais barato que SAC.
Próximo passo: abra a aba Página pública no dashboard e publique seu primeiro status page com slug do seu domínio. Em 5 minutos você está com um link que sobreviveria a um incidente da sua própria loja.

Referências

  1. Beyer et al. Site Reliability Engineering — How Google Runs Production Systems. O'Reilly, 2016 — cap. 3 (Embracing Risk) e cap. 4 (Service Level Objectives). sre.google/books
  2. Atlassian. SLA, SLO and SLI — definitions and best practices. atlassian.com/incident-management
  3. AWS. Service Level Agreements — Amazon EC2, RDS, CloudFront. aws.amazon.com/legal/sla
  4. Cloudflare. Public Service Status & Incident History. cloudflarestatus.com
  5. Brasil. Resolução ANEEL 482/2012 e ANATEL — referência para SLA setorial.

Perguntas frequentes

Qual SLA prometer pro meu cliente B2B?
99,9% é o ponto realista para a maioria das lojas que opera sem multi-region. Promete 8h45 de queda no ano — espaço suficiente para imprevisto. Acima disso (99,95% ou 99,99%) exige investimento em failover real, não dá para prometer só pela hospedagem.
Janela de manutenção pode ficar fora do cálculo?
Sim, desde que (1) seja pré-anunciada com pelo menos 7 dias e (2) esteja explicitamente listada no contrato. Sem isso, qualquer tempo offline conta como downtime.
Se a AWS cair, vale como SLA do cliente?
Discutível. Do ponto de vista do cliente final, você caiu — não importa de quem foi a culpa. Em contrato B2B, negocie exclusão específica ("falha de [provedor X]") em vez de "qualquer terceiro".

Monitore tudo isso automaticamente

A Especialista Loja Virtual roda navegação real no seu site a cada poucos minutos, alerta no Discord, Slack ou e-mail e mostra screenshot do incidente. Comece grátis.