O arquivo robots.txt é sua ferramenta principal para controlar quais crawlers podem acessar seu site. Com a proliferação de crawlers de IA, saber configurá-lo corretamente tornou-se essencial.
Neste guia, vou mostrar exatamente como configurar robots.txt para crawlers de IA, com templates prontos para copiar e usar.
Básico de Robots.txt
Robots.txt é um arquivo de texto na raiz do seu site que diz aos crawlers o que podem ou não acessar. A sintaxe é simples:
# Comentário (ignorado pelos crawlers)
User-agent: NomeDoCrawler
Disallow: /pasta-bloqueada/
Allow: /pasta-permitida/
User-agent: *
Disallow: /admin/
Diretivas Principais
- User-agent: Especifica qual crawler. Use
*para todos. - Disallow: Bloqueia acesso a um caminho.
/bloqueia tudo. - Allow: Permite acesso (útil para exceções dentro de bloqueios).
- Sitemap: Indica localização do sitemap XML.
Onde Colocar
O arquivo deve estar em seusite.com.br/robots.txt — exatamente na raiz do domínio. Crawlers sempre buscam neste local específico.
User-Agents dos Crawlers de IA
Aqui estão os user-agents que você precisa conhecer:
| Crawler | User-Agent | Empresa | Propósito |
|---|---|---|---|
| GPTBot | GPTBot |
OpenAI | Treino de modelos |
| ChatGPT-User | ChatGPT-User |
OpenAI | Busca em tempo real |
| ClaudeBot | ClaudeBot |
Anthropic | Treino de modelos |
| Google-Extended | Google-Extended |
Treino Gemini/Bard | |
| PerplexityBot | PerplexityBot |
Perplexity | Busca de IA |
| Bytespider | Bytespider |
ByteDance | Treino de modelos |
| CCBot | CCBot |
Common Crawl | Dataset público |
| FacebookBot | FacebookBot |
Meta | Treino de modelos |
Templates Prontos Para Usar
Template 1: Permitir Tudo (Máxima Visibilidade)
PermissivoPara quem quer máxima visibilidade em IAs. Permite todos os crawlers.
# ===========================================
# ROBOTS.TXT - MÁXIMA VISIBILIDADE EM IAs
# ===========================================
# Permitir todos os crawlers (padrão)
User-agent: *
Allow: /
# Bloquear apenas áreas administrativas
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /login/
# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml
Template 2: Bloquear Treino, Permitir Busca (Recomendado)
RecomendadoBloqueia uso para treinamento mas permite busca em tempo real. Melhor equilíbrio.
# ===========================================
# ROBOTS.TXT - BLOQUEAR TREINO, PERMITIR BUSCA
# ===========================================
# Bloquear crawlers de TREINO de IA
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: FacebookBot
Disallow: /
# Permitir crawlers de BUSCA em tempo real
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
# Padrão para outros crawlers
User-agent: *
Allow: /
Disallow: /admin/
# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml
Template 3: Bloquear Todas as IAs
RestritivoPara quem não quer que conteúdo seja usado por nenhuma IA.
# ===========================================
# ROBOTS.TXT - BLOQUEAR TODAS AS IAs
# ===========================================
# Bloquear TODOS os crawlers de IA
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: PerplexityBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: cohere-ai
Disallow: /
# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /
User-agent: Bingbot
Allow: /
User-agent: *
Allow: /
Disallow: /admin/
# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml
Cenários Comuns
Bloquear Apenas Áreas Específicas
Se você quer permitir IAs mas proteger certas seções:
# Permitir GPTBot, mas bloquear áreas premium
User-agent: GPTBot
Allow: /blog/
Allow: /sobre/
Disallow: /premium/
Disallow: /cursos/
Disallow: /ebooks/
E-commerce: Proteger Páginas de Produto
# E-commerce: permitir categorias, bloquear carrinho
User-agent: GPTBot
Allow: /categorias/
Allow: /blog/
Disallow: /carrinho/
Disallow: /checkout/
Disallow: /minha-conta/
Disallow: /busca
Google-Extended ≠ Googlebot
Bloquear Google-Extended NÃO afeta seu SEO. São crawlers diferentes. Google-Extended é apenas para treino de IA, Googlebot é para indexação de busca.
Validando Seu Robots.txt
Sempre valide seu robots.txt antes de publicar:
- Google Search Console: Use o Testador de robots.txt
- Acesso direto: Verifique em
seusite.com.br/robots.txt - Sintaxe: Verifique se não há erros de digitação
Teste Antes de Publicar
Erros no robots.txt podem bloquear acidentalmente crawlers importantes. Sempre teste a sintaxe e verifique se as regras estão corretas antes de subir para produção.
Verificando nos Logs
Após configurar, monitore seus logs de servidor para confirmar que crawlers estão respeitando as regras:
# Ver acessos de crawlers de IA
grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/nginx/access.log
# Contar acessos por crawler
grep -oE "GPTBot|ClaudeBot|Google-Extended" access.log | sort | uniq -c
Quer Configuração Profissional?
A AUDITSEO configura seu robots.txt de forma otimizada para sua estratégia de AI SEO.
Solicitar ConfiguraçãoPerguntas Frequentes
Como bloquear GPTBot no robots.txt?
Adicione User-agent: GPTBot seguido de Disallow: / no seu arquivo robots.txt. Isso impede o crawler da OpenAI de acessar seu site para treinamento.
Bloquear crawlers de IA afeta meu SEO?
Não diretamente. Crawlers de IA como GPTBot, ClaudeBot e Google-Extended são separados dos crawlers de indexação. Bloquear eles não afeta seus rankings no Google Search.
Onde fica o arquivo robots.txt?
O robots.txt deve estar na raiz do seu domínio: seusite.com.br/robots.txt. É um arquivo de texto simples que os crawlers consultam antes de rastrear.
Crawlers de IA respeitam robots.txt?
Os principais (GPTBot, ClaudeBot, Google-Extended) afirmam respeitar robots.txt. Não há garantia absoluta, mas empresas estabelecidas geralmente cumprem.
Posso bloquear treino mas permitir busca?
Sim. Bloqueie GPTBot (treino) mas permita ChatGPT-User (busca em tempo real). Da mesma forma com outros crawlers que têm versões separadas.
Conclusão
Configurar robots.txt para crawlers de IA é simples mas requer atenção:
- Permissivo: Permite visibilidade máxima em IAs
- Balanceado: Bloqueia treino, permite busca (recomendado)
- Restritivo: Bloqueia todas as IAs
Escolha o template que se adequa à sua estratégia, personalize conforme necessário e sempre valide antes de publicar.
Continue aprendendo: crawlers de IAs, schema markup e sitemap otimizado.
