Robots.txt e noindex em produção: o incidente de SEO que não cai a loja
Existe uma classe de incidente que não derruba a loja, não trava o checkout, não dispara 5xx. Você simplesmente para de receber visitas do Google. Veja como detectar antes do prejuízo.
- Por que uma única linha errada em
robots.txtpode zerar tráfego orgânico em 7 dias. - A diferença entre
Disallow: /e metanoindex— e por que os dois fazem estrago. - O incidente clássico do "deploy de staging que foi pra prod com noindex".
- Os 3 monitoramentos que toda loja precisa pra nunca sofrer isso.
Existe uma classe de incidente em e-commerce que não cai a loja, não trava o checkout, não dá 5xx. Tudo continua funcionando perfeitamente — você só não recebe mais visitas do Google. Em 7 a 21 dias, o tráfego orgânico vira pó e ninguém entende por quê. O culpado, em quase todos os casos: uma linha no robots.txt ou um meta tag noindex que foi pra produção "sem querer".
noindexnoindex acidental para produção em algum momentorobots.txt é a primeira coisa que o crawler lê. Se a primeira coisa que o crawler lê diz "não entre", todo o resto do site não importa.— John Mueller, Google Search AdvocateO que tecnicamente acontece
Existem 3 mecanismos distintos para "esconder do Google", com efeitos muito diferentes:
| Mecanismo | Onde fica | O que o Google faz |
|---|---|---|
Disallow: / em robots.txt | Arquivo público /robots.txt | Não rastreia (mas pode manter o que já indexou, com URL "nu") |
<meta name="robots" content="noindex"> | HTML da página | Rastreia, mas remove do índice em alguns dias |
Header HTTP X-Robots-Tag: noindex | Resposta HTTP do servidor | Igual ao meta, mas funciona em qualquer resposta (PDF, imagem, JSON) |
Detalhes oficiais em Google Search Central — robots.txt e block-indexing.[1]
Disallow em robots.txtnão tira a URL do índice. O Google continua mostrando a URL, mas sem snippet ("Nenhuma informação está disponível para esta página"). Para remover do índice, é preciso noindex + permitir o crawl. Confusão típica.Os 3 incidentes típicos
1. Deploy de staging com noindex global
Ambiente de staging tem noindex em todas as páginas (corretamente). Em deploy via git/CI/CD, alguém esqueceu de retirar a variável NOINDEX=trueno .env de produção, ou o template de staging com noindex sobrescreveu o de prod. Resultado: produção inteira em noindex. Ninguém percebe até o gráfico de Search Console cair.
2. Disallow: / em manutenção que não foi removido
Durante migração de servidor, equipe sobe robots.txt com Disallow: / para evitar crawl em ambiente quebrado. Migração termina, ninguém lembra de reverter. O robots.txt continua bloqueando — e o Google para de rastrear novas páginas, indexação de produto novo não acontece.
3. Plugin de SEO mal configurado
Plugin tipo Yoast ou Rank Math tem opção "permitir que mecanismos de busca indexem". Em update, a opção volta pro default ou alguém clica sem entender. Em WooCommerce e Magento isso é frequente em update major.
Como monitorar — 3 verificações que evitam tudo isso
Check 1 — Conteúdo do robots.txt
Baixar https://seudominio.com.br/robots.txt a cada hora e comparar contra um hash conhecido. Mudou? Alerta imediato. Em particular, alertar quando aparece a string Disallow: / sozinha (a regex é razoavelmente simples).
Isso é exatamente o que a Especialista Loja Virtual já faz por padrão (campos robotsContent e robotsSha no banco). Veja verificador de sitemap para auditoria pontual.
Check 2 — Meta robots da home e top-10 páginas
Para cada URL importante, fazer um GET e procurar:
<meta name="robots" content="noindex">
<meta name="robots" content="none"> # equivalente a noindex,nofollowSe aparecer onde não deveria, alerta crítico. Idealmente cobrir home, top-10 de tráfego (vê no Search Console), e uma página de cada template(categoria, produto, blog).
Check 3 — Header X-Robots-Tag
Mais sutil — não aparece no HTML, só na resposta HTTP. Use o inspetor de cabeçalhos HTTP para verificar pontualmente. Para monitoramento, basta ler o header em cada teste sintético e alertar quando aparecer noindex em produção.
Se você suspeita que aconteceu
- Search Console → Cobertura → veja se há aumento súbito de páginas "Excluídas — bloqueada pelo robots.txt" ou "Excluídas — noindex".
- Verifique o robots.txt agora —
curl -i https://seudominio.com.br/robots.txt. - Para cada template (home/produto/categoria), inspecione o HTML buscando
noindex. - Cheque headers HTTP —
curl -I https://seudominio.com.br/. - Corrigiu? No Search Console, peça "Validar correção" nos relatórios afetados. Acelera o reprocessamento.
Resumo
Esse é o tipo de erro que não dispara alerta de uptime e custa mais caro do que muitos incidentes de queda. Tráfego orgânico de e-commerce é asset de anos para construir e dias para perder. Coloque os 3 monitoramentos acima na sua infraestrutura — eles são baratos, simples, e te salvam de um pesadelo que muita gente já viveu.
Referências
- Google Search Central. Robots.txt introduction e Block indexing. developers.google.com/search/docs/crawling-indexing/robots/intro
- IETF. RFC 9309 — Robots Exclusion Protocol. datatracker.ietf.org/doc/rfc9309
- John Mueller (Google). Various Google Search Office Hours sobre robots, noindex e recovery.
- Ahrefs. Common SEO mistakes and how to avoid them. ahrefs.com/blog
- Sistrix. The lifecycle of a noindex tag — how fast does Google react? sistrix.com
- Similarweb / SEMrush. Brazilian e-commerce traffic source breakdown, 2024.
Perguntas frequentes
- O Google demora quanto para reagir a um noindex?
- Páginas que ele rastreia com frequência saem em 24–72h. Páginas profundas podem demorar 7–14 dias. Recuperar depois costuma demorar 21–30 dias com correção rápida + "Validar correção" no Search Console.
- Disallow no robots.txt tira a URL do índice?
- Não. Disallow bloqueia o crawl, mas a URL pode ficar no índice exibida "nua" (sem snippet). Para remover do índice, é preciso noindex + permitir o crawl (paradoxal, mas é como funciona).
- Como impedir que aconteça?
- robots.txt e meta robots em código, commitados, com code review obrigatório. Nunca em painel administrativo onde qualquer usuário pode mudar sem rastro. Mais: monitore o conteúdo do robots.txt e o header X-Robots-Tag das principais páginas.
Continue lendo
Monitore tudo isso automaticamente
A Especialista Loja Virtual roda navegação real no seu site a cada poucos minutos, alerta no Discord, Slack ou e-mail e mostra screenshot do incidente. Comece grátis.
