Gerador de robots.txt | Editor visual para criar regras de rastreamento

Monte um robots.txt empilhando regras Allow/Disallow por user-agent, com linha de sitemap e crawl-delay opcionais. Os modelos de um clique cobrem permitir tudo, bloquear tudo, um esquema padrão e o bloqueio de bots de IA, para você obter a sintaxe certa sem decorar o formato.

💡 Sobre esta ferramenta

O arquivo robots.txt fica na raiz do site e informa aos rastreadores quais caminhos eles podem acessar. A sintaxe parece simples, mas os detalhes pesam: as regras são agrupadas por User-agent, a prioridade entre Allow e Disallow depende do tamanho da correspondência, e uma barra final a mais ou a menos muda o que é bloqueado. É na edição manual que surge a maioria dos erros.

Este editor reconstrói a saída sempre que você altera uma regra. Regras que compartilham o mesmo user-agent são agrupadas automaticamente, e a linha Sitemap: é adicionada ao final. O modelo "Padrão (recomendado)" bloqueia os caminhos comuns /admin/, /private/ e /tmp/; "Bloquear bots de IA" insere GPTBot, ChatGPT-User, CCBot e Google-Extended de uma vez. Copie o texto da caixa de saída e salve como robots.txt na raiz do seu domínio.

🧐 Perguntas frequentes

Bloquear uma página no robots.txt a remove do Google? Não. O robots.txt controla o rastreamento, não a indexação. Uma URL bloqueada ainda pode aparecer nos resultados se outras páginas a referenciarem, só que sem descrição. Para mantê-la fora dos resultados, use uma meta tag noindex ou proteção por senha.

O que significa um Disallow vazio? Disallow: sem nada depois significa "não bloquear nada", ou seja, permitir tudo. É isso que o modelo Permitir tudo gera. Já Disallow: / diz aos rastreadores para não entrarem em todo o site.

Allow e Disallow batem na mesma URL, qual vence? Os grandes buscadores aplicam a regra correspondente mais específica (a mais longa). Assim, Disallow: /pasta/ junto com Allow: /pasta/publico/ bloqueia a pasta mas libera tudo o que estiver sob /pasta/publico/.

O Crawl-delay funciona com o Googlebot? O Google ignora a linha Crawl-delay; a frequência de rastreamento é ajustada no Search Console. Alguns rastreadores como o Bing a respeitam, então mantenha um valor se for o seu alvo.

Posso escrever regras para vários bots? Sim. Adicione uma regra para cada nome de user-agent e cada uma vira um grupo próprio na saída. Use * para uma regra que vale para todos os rastreadores.

📚 Curiosidades sobre o robots.txt

A convenção robots.txt — formalmente o Protocolo de Exclusão de Robôs — foi um padrão de fato por décadas antes de ser documentada como RFC 9309. Um detalhe que confunde muita gente: o arquivo só funciona a partir da raiz do host (https://example.com/robots.txt); colocá-lo em uma subpasta não tem efeito.

Entender a lógica de correspondência ajuda a escrevê-lo certo: quando várias regras se aplicam, vence o caminho mais específico, e o curinga * dentro de um caminho permite padrões como /*.pdf$. Na era da IA, muitos sites adicionam user-agents como GPTBot, CCBot ou Google-Extended para excluir seu conteúdo do treinamento de modelos — mas o robots.txt continua sendo um pedido, não uma tranca: um bot pode optar por ignorá-lo.

Found

info Visão geral

📘 Como usar

Gerador de robots.txt

grid_view Relacionados

Gerador de robots.txt | Editor visual para criar regras de rastreamento

💡 Sobre esta ferramenta

🧐 Perguntas frequentes

📚 Curiosidades sobre o robots.txt

info Visão geral

📘 Como usar

Gerador de robots.txt

fullscreen Gerador de robots.txt

grid_view Relacionados

Gerador de robots.txt | Editor visual para criar regras de rastreamento

💡 Sobre esta ferramenta

🧐 Perguntas frequentes

📚 Curiosidades sobre o robots.txt