Skip to content
SEO10 min de leitura

Robots.txt e noindex em produção: o incidente de SEO que não cai a loja

Existe uma classe de incidente que não derruba a loja, não trava o checkout, não dispara 5xx. Você simplesmente para de receber visitas do Google. Veja como detectar antes do prejuízo.

Conceito de SEO com termos e símbolos em superfície de trabalho
A loja não cai, o checkout funciona, nada dá 5xx — e mesmo assim o tráfego some. Pesadelo silencioso do SEO técnico em e-commerce.Unsplash
O que você vai aprender
  • Por que uma única linha errada em robots.txt pode zerar tráfego orgânico em 7 dias.
  • A diferença entre Disallow: / e meta noindex — e por que os dois fazem estrago.
  • O incidente clássico do "deploy de staging que foi pra prod com noindex".
  • Os 3 monitoramentos que toda loja precisa pra nunca sofrer isso.

Existe uma classe de incidente em e-commerce que não cai a loja, não trava o checkout, não dá 5xx. Tudo continua funcionando perfeitamente — você só não recebe mais visitas do Google. Em 7 a 21 dias, o tráfego orgânico vira pó e ninguém entende por quê. O culpado, em quase todos os casos: uma linha no robots.txt ou um meta tag noindex que foi pra produção "sem querer".

42-65%
do tráfego de varejo online no Brasil vem de busca orgânica (SEO)
Similarweb / SEMrush, dados setoriais 2024
7 dias
é o tempo médio para o Googlebot reavaliar páginas grandes e refletir noindex
Google Search Central
21-30 dias
é o tempo médio para recuperar ranking após corrigir o erro — se for rápido
Estudos de SEO técnico (Ahrefs, Sistrix)
~17%
dos sites já enviaram noindex acidental para produção em algum momento
Ahrefs SEO Survey, estimativa
robots.txt é a primeira coisa que o crawler lê. Se a primeira coisa que o crawler lê diz "não entre", todo o resto do site não importa.— John Mueller, Google Search Advocate

O que tecnicamente acontece

Existem 3 mecanismos distintos para "esconder do Google", com efeitos muito diferentes:

MecanismoOnde ficaO que o Google faz
Disallow: / em robots.txtArquivo público /robots.txtNão rastreia (mas pode manter o que já indexou, com URL "nu")
<meta name="robots" content="noindex">HTML da páginaRastreia, mas remove do índice em alguns dias
Header HTTP X-Robots-Tag: noindexResposta HTTP do servidorIgual ao meta, mas funciona em qualquer resposta (PDF, imagem, JSON)

Detalhes oficiais em Google Search Central — robots.txt e block-indexing.[1]

⚠ Armadilha clássica: usar Disallow em robots.txtnão tira a URL do índice. O Google continua mostrando a URL, mas sem snippet ("Nenhuma informação está disponível para esta página"). Para remover do índice, é preciso noindex + permitir o crawl. Confusão típica.

Os 3 incidentes típicos

1. Deploy de staging com noindex global

Ambiente de staging tem noindex em todas as páginas (corretamente). Em deploy via git/CI/CD, alguém esqueceu de retirar a variável NOINDEX=trueno .env de produção, ou o template de staging com noindex sobrescreveu o de prod. Resultado: produção inteira em noindex. Ninguém percebe até o gráfico de Search Console cair.

2. Disallow: / em manutenção que não foi removido

Durante migração de servidor, equipe sobe robots.txt com Disallow: / para evitar crawl em ambiente quebrado. Migração termina, ninguém lembra de reverter. O robots.txt continua bloqueando — e o Google para de rastrear novas páginas, indexação de produto novo não acontece.

3. Plugin de SEO mal configurado

Plugin tipo Yoast ou Rank Math tem opção "permitir que mecanismos de busca indexem". Em update, a opção volta pro default ou alguém clica sem entender. Em WooCommerce e Magento isso é frequente em update major.

Tela de computador com layout de página web sendo desenhado
robots.txt e meta robots em código, commitados, com code review — não em painel administrativo onde qualquer um pode mexer sem trace.Unsplash

Como monitorar — 3 verificações que evitam tudo isso

Check 1 — Conteúdo do robots.txt

Baixar https://seudominio.com.br/robots.txt a cada hora e comparar contra um hash conhecido. Mudou? Alerta imediato. Em particular, alertar quando aparece a string Disallow: / sozinha (a regex é razoavelmente simples).

Isso é exatamente o que a Especialista Loja Virtual já faz por padrão (campos robotsContent e robotsSha no banco). Veja verificador de sitemap para auditoria pontual.

Check 2 — Meta robots da home e top-10 páginas

Para cada URL importante, fazer um GET e procurar:

<meta name="robots" content="noindex">
<meta name="robots" content="none">    # equivalente a noindex,nofollow

Se aparecer onde não deveria, alerta crítico. Idealmente cobrir home, top-10 de tráfego (vê no Search Console), e uma página de cada template(categoria, produto, blog).

Check 3 — Header X-Robots-Tag

Mais sutil — não aparece no HTML, só na resposta HTTP. Use o inspetor de cabeçalhos HTTP para verificar pontualmente. Para monitoramento, basta ler o header em cada teste sintético e alertar quando aparecer noindex em produção.

Se você suspeita que aconteceu

  1. Search Console → Cobertura → veja se há aumento súbito de páginas "Excluídas — bloqueada pelo robots.txt" ou "Excluídas — noindex".
  2. Verifique o robots.txt agora — curl -i https://seudominio.com.br/robots.txt.
  3. Para cada template (home/produto/categoria), inspecione o HTML buscando noindex.
  4. Cheque headers HTTP — curl -I https://seudominio.com.br/.
  5. Corrigiu? No Search Console, peça "Validar correção" nos relatórios afetados. Acelera o reprocessamento.
✓ Boa prática: robots.txt e meta robots em código, commitados, com code review. Nunca em painel administrativo de plugin onde qualquer usuário pode mudar sem trace. Mudança rotineira de SEO técnico merece o mesmo cuidado que mudança de código.

Resumo

Esse é o tipo de erro que não dispara alerta de uptime e custa mais caro do que muitos incidentes de queda. Tráfego orgânico de e-commerce é asset de anos para construir e dias para perder. Coloque os 3 monitoramentos acima na sua infraestrutura — eles são baratos, simples, e te salvam de um pesadelo que muita gente já viveu.

Referências

  1. Google Search Central. Robots.txt introduction e Block indexing. developers.google.com/search/docs/crawling-indexing/robots/intro
  2. IETF. RFC 9309 — Robots Exclusion Protocol. datatracker.ietf.org/doc/rfc9309
  3. John Mueller (Google). Various Google Search Office Hours sobre robots, noindex e recovery.
  4. Ahrefs. Common SEO mistakes and how to avoid them. ahrefs.com/blog
  5. Sistrix. The lifecycle of a noindex tag — how fast does Google react? sistrix.com
  6. Similarweb / SEMrush. Brazilian e-commerce traffic source breakdown, 2024.

Perguntas frequentes

O Google demora quanto para reagir a um noindex?
Páginas que ele rastreia com frequência saem em 24–72h. Páginas profundas podem demorar 7–14 dias. Recuperar depois costuma demorar 21–30 dias com correção rápida + "Validar correção" no Search Console.
Disallow no robots.txt tira a URL do índice?
Não. Disallow bloqueia o crawl, mas a URL pode ficar no índice exibida "nua" (sem snippet). Para remover do índice, é preciso noindex + permitir o crawl (paradoxal, mas é como funciona).
Como impedir que aconteça?
robots.txt e meta robots em código, commitados, com code review obrigatório. Nunca em painel administrativo onde qualquer usuário pode mudar sem rastro. Mais: monitore o conteúdo do robots.txt e o header X-Robots-Tag das principais páginas.

Monitore tudo isso automaticamente

A Especialista Loja Virtual roda navegação real no seu site a cada poucos minutos, alerta no Discord, Slack ou e-mail e mostra screenshot do incidente. Comece grátis.