Robots.txt Para IAs: Guia Completo de Configuração Para LLMs

Aprenda a configurar seu robots.txt para controlar como crawlers de IA acessam seu site. Templates prontos para copiar e usar.

O arquivo robots.txt é sua ferramenta principal para controlar quais crawlers podem acessar seu site. Com a proliferação de crawlers de IA, saber configurá-lo corretamente tornou-se essencial.

Neste guia, vou mostrar exatamente como configurar robots.txt para crawlers de IA, com templates prontos para copiar e usar.

Básico de Robots.txt

Robots.txt é um arquivo de texto na raiz do seu site que diz aos crawlers o que podem ou não acessar. A sintaxe é simples:

robots.txt • Sintaxe Básica
# Comentário (ignorado pelos crawlers)

User-agent: NomeDoCrawler
Disallow: /pasta-bloqueada/
Allow: /pasta-permitida/

User-agent: *
Disallow: /admin/

Diretivas Principais

  • User-agent: Especifica qual crawler. Use * para todos.
  • Disallow: Bloqueia acesso a um caminho. / bloqueia tudo.
  • Allow: Permite acesso (útil para exceções dentro de bloqueios).
  • Sitemap: Indica localização do sitemap XML.

Onde Colocar

O arquivo deve estar em seusite.com.br/robots.txt — exatamente na raiz do domínio. Crawlers sempre buscam neste local específico.

User-Agents dos Crawlers de IA

Aqui estão os user-agents que você precisa conhecer:

Crawler User-Agent Empresa Propósito
GPTBot GPTBot OpenAI Treino de modelos
ChatGPT-User ChatGPT-User OpenAI Busca em tempo real
ClaudeBot ClaudeBot Anthropic Treino de modelos
Google-Extended Google-Extended Google Treino Gemini/Bard
PerplexityBot PerplexityBot Perplexity Busca de IA
Bytespider Bytespider ByteDance Treino de modelos
CCBot CCBot Common Crawl Dataset público
FacebookBot FacebookBot Meta Treino de modelos

Templates Prontos Para Usar

Template 1: Permitir Tudo (Máxima Visibilidade)

Permissivo

Para quem quer máxima visibilidade em IAs. Permite todos os crawlers.

robots.txt • Permitir Todos
# ===========================================
# ROBOTS.TXT - MÁXIMA VISIBILIDADE EM IAs
# ===========================================

# Permitir todos os crawlers (padrão)
User-agent: *
Allow: /

# Bloquear apenas áreas administrativas
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /login/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Template 2: Bloquear Treino, Permitir Busca (Recomendado)

Recomendado

Bloqueia uso para treinamento mas permite busca em tempo real. Melhor equilíbrio.

robots.txt • Balanceado
# ===========================================
# ROBOTS.TXT - BLOQUEAR TREINO, PERMITIR BUSCA
# ===========================================

# Bloquear crawlers de TREINO de IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

# Permitir crawlers de BUSCA em tempo real
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Padrão para outros crawlers
User-agent: *
Allow: /
Disallow: /admin/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Template 3: Bloquear Todas as IAs

Restritivo

Para quem não quer que conteúdo seja usado por nenhuma IA.

robots.txt • Bloquear IAs
# ===========================================
# ROBOTS.TXT - BLOQUEAR TODAS AS IAs
# ===========================================

# Bloquear TODOS os crawlers de IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: cohere-ai
Disallow: /

# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Allow: /
Disallow: /admin/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Cenários Comuns

Bloquear Apenas Áreas Específicas

Se você quer permitir IAs mas proteger certas seções:

robots.txt • Bloqueio Parcial
# Permitir GPTBot, mas bloquear áreas premium
User-agent: GPTBot
Allow: /blog/
Allow: /sobre/
Disallow: /premium/
Disallow: /cursos/
Disallow: /ebooks/

E-commerce: Proteger Páginas de Produto

robots.txt • E-commerce
# E-commerce: permitir categorias, bloquear carrinho
User-agent: GPTBot
Allow: /categorias/
Allow: /blog/
Disallow: /carrinho/
Disallow: /checkout/
Disallow: /minha-conta/
Disallow: /busca

Google-Extended ≠ Googlebot

Bloquear Google-Extended NÃO afeta seu SEO. São crawlers diferentes. Google-Extended é apenas para treino de IA, Googlebot é para indexação de busca.

Validando Seu Robots.txt

Sempre valide seu robots.txt antes de publicar:

  1. Google Search Console: Use o Testador de robots.txt
  2. Acesso direto: Verifique em seusite.com.br/robots.txt
  3. Sintaxe: Verifique se não há erros de digitação

Teste Antes de Publicar

Erros no robots.txt podem bloquear acidentalmente crawlers importantes. Sempre teste a sintaxe e verifique se as regras estão corretas antes de subir para produção.

Verificando nos Logs

Após configurar, monitore seus logs de servidor para confirmar que crawlers estão respeitando as regras:

Bash • Verificar Logs
# Ver acessos de crawlers de IA
grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/nginx/access.log

# Contar acessos por crawler
grep -oE "GPTBot|ClaudeBot|Google-Extended" access.log | sort | uniq -c

Quer Configuração Profissional?

A AUDITSEO configura seu robots.txt de forma otimizada para sua estratégia de AI SEO.

Solicitar Configuração

Perguntas Frequentes

Como bloquear GPTBot no robots.txt?

Adicione User-agent: GPTBot seguido de Disallow: / no seu arquivo robots.txt. Isso impede o crawler da OpenAI de acessar seu site para treinamento.

Bloquear crawlers de IA afeta meu SEO?

Não diretamente. Crawlers de IA como GPTBot, ClaudeBot e Google-Extended são separados dos crawlers de indexação. Bloquear eles não afeta seus rankings no Google Search.

Onde fica o arquivo robots.txt?

O robots.txt deve estar na raiz do seu domínio: seusite.com.br/robots.txt. É um arquivo de texto simples que os crawlers consultam antes de rastrear.

Crawlers de IA respeitam robots.txt?

Os principais (GPTBot, ClaudeBot, Google-Extended) afirmam respeitar robots.txt. Não há garantia absoluta, mas empresas estabelecidas geralmente cumprem.

Posso bloquear treino mas permitir busca?

Sim. Bloqueie GPTBot (treino) mas permita ChatGPT-User (busca em tempo real). Da mesma forma com outros crawlers que têm versões separadas.

Conclusão

Configurar robots.txt para crawlers de IA é simples mas requer atenção:

  • Permissivo: Permite visibilidade máxima em IAs
  • Balanceado: Bloqueia treino, permite busca (recomendado)
  • Restritivo: Bloqueia todas as IAs

Escolha o template que se adequa à sua estratégia, personalize conforme necessário e sempre valide antes de publicar.

Continue aprendendo: crawlers de IAs, schema markup e sitemap otimizado.

Sidney Santos

Sidney Santos

Especialista em Search Intelligence AI com mais de 12 anos de experiência em SEO. Fundador da AUDITSEO.

Continuar no cluster

Hub da categoria

Veja todos os artigos organizados por tema, com filtros reais, copy editorial e ligacao com paginas de servico.

Abrir categoria

Auditoria SEO

Pagina relacionada para aprofundar a estrategia e conectar a leitura editorial a uma rota comercial ou institucional.

Abrir pagina

Consultoria SEO

Pagina relacionada para aprofundar a estrategia e conectar a leitura editorial a uma rota comercial ou institucional.

Abrir pagina

SEO Local

Pagina relacionada para aprofundar a estrategia e conectar a leitura editorial a uma rota comercial ou institucional.

Abrir pagina