Qual SLA prometer pro meu cliente B2B?

99,9% é o ponto realista para a maioria das lojas que opera sem multi-region. Promete 8h45 de queda no ano — espaço suficiente para imprevisto. Acima disso (99,95% ou 99,99%) exige investimento em failover real, não dá para prometer só pela hospedagem.

Janela de manutenção pode ficar fora do cálculo?

Sim, desde que (1) seja pré-anunciada com pelo menos 7 dias e (2) esteja explicitamente listada no contrato. Sem isso, qualquer tempo offline conta como downtime.

Se a AWS cair, vale como SLA do cliente?

Discutível. Do ponto de vista do cliente final, você caiu — não importa de quem foi a culpa. Em contrato B2B, negocie exclusão específica ("falha de [provedor X]") em vez de "qualquer terceiro".

Monitoramento23 de maio de 20269 min de leitura

Uptime e SLA: a matemática dos noves (99,9% vs 99,99%)

99,99% soa redondo, mas significa que sua loja pode cair no máximo 52 minutos no ano inteiro. Veja a tabela completa, o conceito de error budget e como medir uptime de forma honesta.

Corredor de data center com servidores em rack — Cada 'nove' adicional divide o downtime por 10 — e o custo por exigência sobe exponencialmente. 99,99% custa muito mais que 99,9%.Unsplash

O que você vai aprender

A diferença real entre 99,9% e 99,99% de uptime em minutos de downtime por ano.
Por que SLA contratual ≠ SLA percebido pelo cliente.
O conceito de error budget aplicado a e-commerce.
Como medir e comunicar uptime de forma honesta (e o que não contar como downtime).

"Nosso site tem 99,99% de uptime" — frase que aparece em qualquer landing page de hospedagem. Soa bonito, mas o que esse número significa de fato? E, mais importante: como você prova isso pro seu cliente B2B que está cobrando SLA no contrato? Este guia é a matemática prática dos noves, sem marketing.

8h 45min

de downtime/ano permitido em SLA de 99,9%

Cálculo: 525.600min × 0,001

52min 36s

de downtime/ano permitido em SLA de 99,99%

Cálculo: 525.600min × 0,0001

5min 16s

de downtime/ano permitido em SLA de 99,999% ("five nines")

Cálculo: 525.600min × 0,00001

~30%

dos contratos B2B brasileiros de e-commerce já incluem cláusula de SLA & multa

Estimativa setorial — pesquisa ABComm

A tabela dos noves

Cada "nove" adicional divide o downtime por 10. Não é incremento linear — é exponencial. Custa cada vez mais caro garantir cada nove extra.

SLA	Downtime/dia	Downtime/mês	Downtime/ano
99%	14 min 24 s	7 h 18 min	3 d 15 h 36 min
99,5%	7 min 12 s	3 h 39 min	1 d 19 h 48 min
99,9%	1 min 26 s	43 min 49 s	8 h 45 min 57 s
99,95%	43 s	21 min 54 s	4 h 22 min 58 s
99,99%	8,6 s	4 min 22 s	52 min 35 s
99,999%	0,86 s	26 s	5 min 15 s

📌 Como ler: "99,99%" anual permite 52 minutos de queda no ano inteiro. Uma única manutenção mal planejada de 1 hora já estoura o SLA do ano. Por isso quase ninguém promete isso sem janela de manutenção excluída do cálculo.

100% is the wrong reliability target for basically everything.— Benjamin Treynor Sloss, VP de Engenharia, Google

Error budget: o orçamento de falha

O Google formalizou o conceito de error budget (orçamento de erro) em SRE: se você assume um SLA de 99,9%, você "gasta" 0,1% de tempo em queda — e isso é OK, é parte do orçamento.^[1]

Quando o orçamento ainda está positivo, a equipe pode tomar riscos: lançar feature nova, migrar banco, atualizar versão. Quando o orçamento foi gasto, prioridade vira estabilidade — nada de lançamento até o budget se recuperar no próximo período.

Esse mecanismo destrava a tensão clássica entre dev (quer entregar) e ops (quer estabilidade). Vira política, não negociação.

Gráficos de barras crescentes em painel de monitoramento — Error budget transforma a tensão clássica entre dev (quer entregar) e ops (quer estabilidade) em política, não negociação.Unsplash

Como medir uptime de forma honesta

O que conta como downtime

HTTP 5xx ou conexão recusada para usuário final.
Latência maior que limite (geralmente p99 > 10s na home). Latência catastrófica é downtime efetivo.
Resposta válida mas conteúdo errado — página em branco com 200, erro JavaScript fatal. Por isso navegação real (Chromium) é mais confiável que ping.

O que não conta (e por quê)

Falha do usuário — internet do cliente cai, problema de DNS local. Você não tem como controlar.
Janela de manutenção pré-anunciada com aviso de pelo menos 7 dias. Tem que estar no contrato.
Falha de provedor de terceiro não exclusivo — Cloudflare global, AWS region. Discutível: depende do contrato.

⚠ Cuidado: excluir do SLA "qualquer indisponibilidade causada por terceiros" é a forma de dizer 99,99% e não significar nada. Se a sua loja roda em AWS e a AWS cai, do ponto de vista do cliente você caiu. Negocie com contraparte específica.

SLA na prática: medindo de onde?

Uptime medido de um único ponto mente para os dois lados:

Mente para mais: se medir do mesmo data center, vai dar 99,99% mesmo se a borda de internet entre seu data center e o usuário cair.
Mente para menos: se medir de uma região e a conexão entre essa região e sua loja oscila, vai contar como sua queda algo que é só rota.

A boa prática é medir de 3+ regiões geograficamente distintas, com regra de quórum: só conta como queda se 2 de 3 regiões falham simultaneamente. Isso elimina ruído de roteamento.

A página de status pública

Se você vende B2B ou tem clientes que dependem da sua loja para vender (marketplaces, plataformas), página de status pública é obrigatória. Ela:

Tira do SAC dezenas de perguntas a cada incidente.
Demonstra transparência — o que vale ouro em renegociação de contrato.
Dá histórico que protege em disputa: "no dia X estávamos com 99,7%, dentro do SLA".

A Especialista Loja Virtual gera página de status pública automaticamente — veja como funciona.

Resumo prático

Saiba o seu SLA real antes de prometer um número. Meça por 90 dias com retries e quórum.
Negocie exceções específicas, não genéricas. "Falha de terceiros" vira "falha de [provedor X listado em anexo]".
Use error budget como ferramenta de decisão, não punição.
Comunique antes do cliente perguntar. Status page pública é mais barato que SAC.

Próximo passo: abra a aba Página pública no dashboard e publique seu primeiro status page com slug do seu domínio. Em 5 minutos você está com um link que sobreviveria a um incidente da sua própria loja.

Referências

Beyer et al. Site Reliability Engineering — How Google Runs Production Systems. O'Reilly, 2016 — cap. 3 (Embracing Risk) e cap. 4 (Service Level Objectives). sre.google/books
Atlassian. SLA, SLO and SLI — definitions and best practices. atlassian.com/incident-management
AWS. Service Level Agreements — Amazon EC2, RDS, CloudFront. aws.amazon.com/legal/sla
Cloudflare. Public Service Status & Incident History. cloudflarestatus.com
Brasil. Resolução ANEEL 482/2012 e ANATEL — referência para SLA setorial.

Perguntas frequentes

Qual SLA prometer pro meu cliente B2B?: 99,9% é o ponto realista para a maioria das lojas que opera sem multi-region. Promete 8h45 de queda no ano — espaço suficiente para imprevisto. Acima disso (99,95% ou 99,99%) exige investimento em failover real, não dá para prometer só pela hospedagem.
Janela de manutenção pode ficar fora do cálculo?: Sim, desde que (1) seja pré-anunciada com pelo menos 7 dias e (2) esteja explicitamente listada no contrato. Sem isso, qualquer tempo offline conta como downtime.
Se a AWS cair, vale como SLA do cliente?: Discutível. Do ponto de vista do cliente final, você caiu — não importa de quem foi a culpa. Em contrato B2B, negocie exclusão específica ("falha de [provedor X]") em vez de "qualquer terceiro".

Monitore tudo isso automaticamente

A Especialista Loja Virtual roda navegação real no seu site a cada poucos minutos, alerta no Discord, Slack ou e-mail e mostra screenshot do incidente. Comece grátis.

Criar conta grátis Ver planos

A tabela dos noves

Error budget: o orçamento de falha

Como medir uptime de forma honesta

O que conta como downtime

O que não conta (e por quê)

SLA na prática: medindo de onde?

A página de status pública

Resumo prático

Referências

Perguntas frequentes

Continue lendo

Monitore tudo isso automaticamente