Robots.txt Para IAs: Guia Completo de Configuração Para LLMs

Q: Como bloquear GPTBot no robots.txt?

Adicione 'User-agent: GPTBot' seguido de 'Disallow: /' no seu arquivo robots.txt. Isso impede o crawler da OpenAI de acessar seu site para treinamento.

Q: Onde fica o arquivo robots.txt?

O robots.txt deve estar na raiz do seu domínio: seusite.com.br/robots.txt. É um arquivo de texto simples que os crawlers consultam antes de rastrear.

O arquivo robots.txt é sua ferramenta principal para controlar quais crawlers podem acessar seu site. Com a proliferação de crawlers de IA, saber configurá-lo corretamente tornou-se essencial.

Neste guia, vou mostrar exatamente como configurar robots.txt para crawlers de IA, com templates prontos para copiar e usar.

Básico de Robots.txt

Robots.txt é um arquivo de texto na raiz do seu site que diz aos crawlers o que podem ou não acessar. A sintaxe é simples:

# Comentário (ignorado pelos crawlers)

User-agent: NomeDoCrawler
Disallow: /pasta-bloqueada/
Allow: /pasta-permitida/

User-agent: *
Disallow: /admin/

Diretivas Principais

User-agent: Especifica qual crawler. Use * para todos.
Disallow: Bloqueia acesso a um caminho. / bloqueia tudo.
Allow: Permite acesso (útil para exceções dentro de bloqueios).
Sitemap: Indica localização do sitemap XML.

Onde Colocar

O arquivo deve estar em seusite.com.br/robots.txt — exatamente na raiz do domínio. Crawlers sempre buscam neste local específico.

User-Agents dos Crawlers de IA

Aqui estão os user-agents que você precisa conhecer:

Crawler	User-Agent	Empresa	Propósito
GPTBot	`GPTBot`	OpenAI	Treino de modelos
ChatGPT-User	`ChatGPT-User`	OpenAI	Busca em tempo real
ClaudeBot	`ClaudeBot`	Anthropic	Treino de modelos
Google-Extended	`Google-Extended`	Google	Treino Gemini/Bard
PerplexityBot	`PerplexityBot`	Perplexity	Busca de IA
Bytespider	`Bytespider`	ByteDance	Treino de modelos
CCBot	`CCBot`	Common Crawl	Dataset público
FacebookBot	`FacebookBot`	Meta	Treino de modelos

Templates Prontos Para Usar

Para quem quer máxima visibilidade em IAs. Permite todos os crawlers.

# ===========================================
# ROBOTS.TXT - MÁXIMA VISIBILIDADE EM IAs
# ===========================================

# Permitir todos os crawlers (padrão)
User-agent: *
Allow: /

# Bloquear apenas áreas administrativas
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /login/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Bloqueia uso para treinamento mas permite busca em tempo real. Melhor equilíbrio.

# ===========================================
# ROBOTS.TXT - BLOQUEAR TREINO, PERMITIR BUSCA
# ===========================================

# Bloquear crawlers de TREINO de IA
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

# Permitir crawlers de BUSCA em tempo real
User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# Padrão para outros crawlers
User-agent: *
Allow: /
Disallow: /admin/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Para quem não quer que conteúdo seja usado por nenhuma IA.

# ===========================================
# ROBOTS.TXT - BLOQUEAR TODAS AS IAs
# ===========================================

# Bloquear TODOS os crawlers de IA
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: cohere-ai
Disallow: /

# Permitir buscadores tradicionais
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

User-agent: *
Allow: /
Disallow: /admin/

# Sitemap
Sitemap: https://www.seusite.com.br/sitemap.xml

Cenários Comuns

Bloquear Apenas Áreas Específicas

Se você quer permitir IAs mas proteger certas seções:

# Permitir GPTBot, mas bloquear áreas premium
User-agent: GPTBot
Allow: /blog/
Allow: /sobre/
Disallow: /premium/
Disallow: /cursos/
Disallow: /ebooks/

E-commerce: Proteger Páginas de Produto

# E-commerce: permitir categorias, bloquear carrinho
User-agent: GPTBot
Allow: /categorias/
Allow: /blog/
Disallow: /carrinho/
Disallow: /checkout/
Disallow: /minha-conta/
Disallow: /busca

Google-Extended ≠ Googlebot

Bloquear Google-Extended NÃO afeta seu SEO. São crawlers diferentes. Google-Extended é apenas para treino de IA, Googlebot é para indexação de busca.

Validando Seu Robots.txt

Sempre valide seu robots.txt antes de publicar:

Google Search Console: Use o Testador de robots.txt
Acesso direto: Verifique em seusite.com.br/robots.txt
Sintaxe: Verifique se não há erros de digitação

Teste Antes de Publicar

Erros no robots.txt podem bloquear acidentalmente crawlers importantes. Sempre teste a sintaxe e verifique se as regras estão corretas antes de subir para produção.

Verificando nos Logs

Após configurar, monitore seus logs de servidor para confirmar que crawlers estão respeitando as regras:

# Ver acessos de crawlers de IA
grep -E "GPTBot|ClaudeBot|PerplexityBot" /var/log/nginx/access.log

# Contar acessos por crawler
grep -oE "GPTBot|ClaudeBot|Google-Extended" access.log | sort | uniq -c

Quer Configuração Profissional?

A AUDITSEO configura seu robots.txt de forma otimizada para sua estratégia de AI SEO.

Solicitar Configuração

Perguntas Frequentes

Como bloquear GPTBot no robots.txt?

Adicione User-agent: GPTBot seguido de Disallow: / no seu arquivo robots.txt. Isso impede o crawler da OpenAI de acessar seu site para treinamento.

Bloquear crawlers de IA afeta meu SEO?

Não diretamente. Crawlers de IA como GPTBot, ClaudeBot e Google-Extended são separados dos crawlers de indexação. Bloquear eles não afeta seus rankings no Google Search.

Onde fica o arquivo robots.txt?

O robots.txt deve estar na raiz do seu domínio: seusite.com.br/robots.txt. É um arquivo de texto simples que os crawlers consultam antes de rastrear.

Crawlers de IA respeitam robots.txt?

Os principais (GPTBot, ClaudeBot, Google-Extended) afirmam respeitar robots.txt. Não há garantia absoluta, mas empresas estabelecidas geralmente cumprem.

Posso bloquear treino mas permitir busca?

Sim. Bloqueie GPTBot (treino) mas permita ChatGPT-User (busca em tempo real). Da mesma forma com outros crawlers que têm versões separadas.

Conclusão

Configurar robots.txt para crawlers de IA é simples mas requer atenção:

Permissivo: Permite visibilidade máxima em IAs
Balanceado: Bloqueia treino, permite busca (recomendado)
Restritivo: Bloqueia todas as IAs

Escolha o template que se adequa à sua estratégia, personalize conforme necessário e sempre valide antes de publicar.

Continue aprendendo: crawlers de IAs, schema markup e sitemap otimizado.

Sidney Santos

Especialista em Search Intelligence AI com mais de 12 anos de experiência em SEO. Fundador da AUDITSEO.

LinkedIn Instagram

Robots.txt Para IAs: Guia Completo de Configuração Para LLMs

Básico de Robots.txt

Diretivas Principais

Onde Colocar

User-Agents dos Crawlers de IA

Templates Prontos Para Usar

Template 1: Permitir Tudo (Máxima Visibilidade)

Template 2: Bloquear Treino, Permitir Busca (Recomendado)

Template 3: Bloquear Todas as IAs

Cenários Comuns

Bloquear Apenas Áreas Específicas

E-commerce: Proteger Páginas de Produto

Google-Extended ≠ Googlebot

Validando Seu Robots.txt

Teste Antes de Publicar

Verificando nos Logs

Quer Configuração Profissional?

Perguntas Frequentes

Como bloquear GPTBot no robots.txt?

Bloquear crawlers de IA afeta meu SEO?

Onde fica o arquivo robots.txt?

Crawlers de IA respeitam robots.txt?

Posso bloquear treino mas permitir busca?

Conclusão

Sidney Santos

Serviços relacionados a este conteúdo

Básico de Robots.txt

Diretivas Principais

Onde Colocar

User-Agents dos Crawlers de IA

Templates Prontos Para Usar

Template 1: Permitir Tudo (Máxima Visibilidade)

Template 2: Bloquear Treino, Permitir Busca (Recomendado)

Template 3: Bloquear Todas as IAs

Cenários Comuns

Bloquear Apenas Áreas Específicas

E-commerce: Proteger Páginas de Produto

Google-Extended ≠ Googlebot

Validando Seu Robots.txt

Teste Antes de Publicar

Verificando nos Logs

Quer Configuração Profissional?

Perguntas Frequentes

Como bloquear GPTBot no robots.txt?

Bloquear crawlers de IA afeta meu SEO?

Onde fica o arquivo robots.txt?

Crawlers de IA respeitam robots.txt?

Posso bloquear treino mas permitir busca?

Conclusão

Sidney Santos

Artigos Relacionados

Crawlers de IAs

Schema Markup Para IAs

Estrutura HTML Para IAs

Serviços relacionados a este conteúdo

RECURSOS RELACIONADOS A SEO TÉCNICO

Hub da categoria

Auditoria SEO

Consultoria SEO

SEO Local

LEITURAS RELACIONADAS

Auditoria Tecnica para AI SEO

Schema Markup Para AI Overviews: Guia Técnico de Dados Estruturados

Estrutura HTML Para IAs: Como Organizar Conteúdo Para LLMs Entenderem