Robots.txt: o que é, como funciona e como configurar corretamente para SEO

Q: O que é o arquivo robots.txt?

Arquivo de texto na raiz do site (seudominio.com.br/robots.txt) com instruções para robôs de rastreamento sobre quais partes podem ou não ser rastreadas. Implementa o Robots Exclusion Protocol (REP), padrão de 1994 para comunicação entre sites e bots de busca.

Q: Para que serve o robots.txt no SEO?

1) Otimizar o crawl budget — direcionar o Googlebot para páginas importantes; 2) Bloquear páginas sem valor (admin, checkout, filtros); 3) Referenciar o sitemap XML; 4) Controlar quais bots específicos podem rastrear o quê.

Q: O Googlebot é obrigado a seguir o robots.txt?

Por convenção, sim. Limitações: pode indexar URLs bloqueadas se houver links externos; não respeita Crawl-delay (use Search Console); bots maliciosos geralmente ignoram o arquivo.

Q: Como criar um robots.txt para WordPress?

1) Via Yoast SEO → Ferramentas → Editor de Arquivo → Robots.txt; 2) Diretamente no servidor via FTP na raiz do site; 3) Via gerenciador de arquivos do cPanel. WordPress gera robots.txt virtual automático se não existir arquivo físico.

Q: O que deve ser bloqueado no robots.txt?

Bloquear: /wp-admin/, /wp-includes/, /checkout/, /cart/, /minha-conta/, /?s= (busca interna), filtros de e-commerce, paginação profunda. Nunca bloquear: CSS e JavaScript para renderização, conteúdo editorial, imagens (/wp-content/uploads/).

Q: Como testar se o robots.txt está correto?

1) Acesse seudominio.com.br/robots.txt pelo navegador; 2) Use o Testador de robots.txt no Google Search Console; 3) Monitore o relatório de Cobertura no Search Console (Indexação → Páginas → 'Bloqueado por robots.txt').

Q: Robots.txt pode prejudicar o SEO?

Sim. Erros críticos: 1) Disallow: / bloqueando todo o site; 2) Bloquear CSS e JavaScript; 3) Bloquear páginas de conteúdo por engano; 4) Usar robots.txt para conteúdo duplicado (use canonical ou noindex); 5) Não atualizar após migração de servidor.

Q: Preciso de robots.txt se já tenho sitemap?

Sim — são complementares. Sitemap: diz quais páginas EXISTEM e devem ser indexadas. Robots.txt: diz quais páginas NÃO devem ser rastreadas. Os dois juntos são a base do SEO técnico.

Existe um arquivo de texto simples, escondido na raiz do seu site, que pode — se configurado errado — fazer com que o Google nunca encontre suas páginas mais importantes. Ou, no extremo oposto, desperdiçar o tempo de rastreamento do Googlebot em páginas que não deveriam jamais aparecer nos resultados de busca. Esse arquivo é o robots.txt — e é um dos elementos de SEO técnico que mais causa danos silenciosos quando ignorado ou mal configurado.

A boa notícia é que entender o robots.txt é simples. A sintaxe é mínima, a lógica é direta, e os erros mais comuns são evitáveis com um entendimento básico de como o arquivo funciona. Mas exatamente por parecer simples, muitos profissionais de marketing digital e desenvolvedores o tratam como detalhe — e pagam caro com quedas de tráfego inexplicáveis que só são diagnosticadas meses depois.

Neste guia completo você vai entender o que é o robots.txt, como funciona o protocolo de exclusão de robôs, a sintaxe completa do arquivo, os casos de uso mais importantes, como configurar corretamente para SEO, como criar ou editar no WordPress — e os erros que mais destroem tráfego orgânico silenciosamente.

O que é robots.txt

O robots.txt é um arquivo de texto simples localizado na raiz de um site web (acessível pelo endereço seudominio.com.br/robots.txt) que contém instruções para os robôs de rastreamento — especialmente o Googlebot e outros bots de mecanismos de busca — sobre quais partes do site podem ou não podem ser rastreadas. É a implementação do Robots Exclusion Protocol (REP), um padrão criado em 1994 que se tornou a forma universal de comunicação entre sites e bots de rastreamento.

Quando o Googlebot chega ao seu site para rastrear, a primeira coisa que ele faz é visitar o endereço seudominio.com.br/robots.txt para verificar se existem instruções específicas sobre o que pode ou não pode rastrear. Se o arquivo existe e contém diretivas, o Googlebot as segue (na maioria dos casos — voltaremos a esse detalhe importante). Se o arquivo não existe ou está vazio, o Googlebot assume que pode rastrear todo o site.

robots txt o que é — arquivo de configuração que controla o rastreamento do Googlebot no site — O arquivo robots.txt é a primeira instrução que o Googlebot lê ao visitar seu site — ele define quais páginas podem ser rastreadas e quais devem ser ignoradas pelos bots de busca.

Como funciona o robots.txt: a sintaxe completa

O robots.txt usa uma sintaxe muito simples com apenas alguns elementos principais. Veja cada um:

User-agent: para qual bot se aplica a regra

O campo User-agent especifica para qual robô de rastreamento as instruções seguintes se aplicam. O asterisco (*) significa “todos os bots”. Você pode especificar bots individuais pelo nome para criar regras específicas:

User-agent: *          # aplica para todos os bots
User-agent: Googlebot  # aplica apenas para o Googlebot
User-agent: Bingbot    # aplica apenas para o bot do Bing

Disallow: o que NÃO pode ser rastreado

O campo Disallow especifica os caminhos (paths) que o bot não deve rastrear. É o comando mais usado no robots.txt:

Disallow: /admin/         # bloqueia todo o diretório /admin/
Disallow: /wp-admin/      # bloqueia o painel do WordPress
Disallow: /checkout/      # bloqueia páginas de checkout
Disallow: /search?        # bloqueia páginas de resultado de busca interna
Disallow: /               # bloqueia TODO o site (cuidado!)
Disallow:                 # permite tudo (campo vazio = sem restrição)

Allow: exceções dentro de bloqueios

O campo Allow cria exceções dentro de um diretório bloqueado com Disallow. É útil quando você quer bloquear um diretório inteiro mas permitir algumas páginas específicas dentro dele:

User-agent: Googlebot
Disallow: /wp-content/
Allow: /wp-content/uploads/  # permite rastrear imagens mesmo bloqueando o restante

Sitemap: indicando o mapa do site

O campo Sitemap indica a localização do sitemap XML do site — ajudando os bots a encontrar e rastrear todas as páginas importantes. Embora possa ser configurado diretamente no Google Search Console, incluí-lo no robots.txt garante que qualquer bot (não apenas o Google) encontre o sitemap:

Sitemap: https://www.seusite.com.br/sitemap_index.xml

Crawl-delay: controle de velocidade de rastreamento

O campo Crawl-delay instrui o bot a aguardar um determinado número de segundos entre requisições — útil para servidores com capacidade limitada que podem ser sobrecarregados por rastreamento intenso. Importante: o Googlebot não respeita o Crawl-delay do robots.txt — para controlar a velocidade de rastreamento do Google especificamente, use a configuração de “Taxa de rastreamento” no Google Search Console:

Crawl-delay: 10  # aguardar 10 segundos entre requisições (ignorado pelo Googlebot)

robots txt SEO — como configurar o arquivo robots.txt para otimizar o crawl budget e o rastreamento — Configurar corretamente o robots.txt é uma das ações de SEO técnico mais impactantes — define como o Googlebot distribui o crawl budget entre as páginas do site.

Robots.txt e SEO: por que é fundamental para o crawl budget

O robots.txt tem impacto direto no crawl budget — a quantidade de páginas que o Googlebot rastreia num site em determinado período. O Googlebot tem recursos limitados e distribui o tempo de rastreamento com base na autoridade do site, na velocidade do servidor e na qualidade do conteúdo encontrado em visitas anteriores. Sites grandes com muitas páginas precisam usar o robots.txt estrategicamente para garantir que o Googlebot priorize as páginas que importam — não desperdice tempo rastreando URLs irrelevantes.

O que bloquear no robots.txt para otimizar o crawl budget

Páginas e diretórios que tipicamente devem ser bloqueados no robots.txt por não terem valor de SEO: painéis administrativos (/wp-admin/, /admin/), páginas de checkout e carrinho (/checkout/, /cart/), páginas de conta de usuário (/minha-conta/, /account/), resultados de busca interna do site (/search?, /?s=), páginas de tags com baixo volume de conteúdo, páginas de paginação profunda (como /page/50/ em blogs), páginas de filtros de e-commerce que geram conteúdo duplicado, e scripts e arquivos de sistema que não têm conteúdo editorial.

Robots.txt vs Meta Robots: qual usar em cada caso

Uma distinção crítica de SEO técnico: o robots.txt e a meta tag robots (<meta name="robots" content="noindex">) têm funções diferentes e não são intercambiáveis. O robots.txt controla o rastreamento — se o Googlebot pode ou não visitar a página. A meta robots controla a indexação — se uma página rastreada pode ou não ser incluída no índice do Google.

O erro mais grave: bloquear uma página no robots.txt quando na verdade você quer que ela seja rastreada mas não indexada. Se você bloqueia uma página no robots.txt, o Googlebot não acessa a página — e portanto não lê a meta robots noindex que você colocou nela. O resultado: o Google pode manter a página no índice (com base em informações anteriores ou links externos) mesmo sem conseguir rastreá-la atualmente. Para excluir uma página do índice, use a meta robots noindex — não o robots.txt.

Robots.txt para WordPress: configuração correta

O WordPress gera automaticamente um robots.txt virtual quando nenhum arquivo físico existe na raiz do servidor. Esse robots.txt padrão do WordPress bloqueia o diretório /wp-admin/ (exceto /wp-admin/admin-ajax.php) e permite o restante. Para a maioria dos sites simples, é suficiente — mas sites com necessidades específicas de SEO precisam de um robots.txt personalizado.

Como editar o robots.txt via Yoast SEO

O plugin Yoast SEO permite editar o robots.txt diretamente pelo painel do WordPress, sem necessidade de acessar o servidor via FTP ou gerenciador de arquivos. O caminho é: Yoast SEO → Ferramentas → Editor de Arquivo → Robots.txt. O editor exibe o conteúdo atual do arquivo e permite adicionar, editar ou remover diretivas. Qualquer alteração feita pelo Yoast cria ou atualiza o arquivo robots.txt físico na raiz do servidor.

Robots.txt recomendado para a maioria dos sites WordPress

Um robots.txt bem configurado para sites WordPress típicos:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Disallow: /minha-conta/
Disallow: /checkout/
Disallow: /cart/
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/

User-agent: Googlebot
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.seusite.com.br/sitemap_index.xml

robots txt erros comuns SEO — como evitar bloqueios acidentais de páginas importantes no arquivo robots.txt — Erros no robots.txt podem bloquear páginas inteiras do Google acidentalmente — um dos erros de SEO técnico com maior impacto negativo no tráfego orgânico.

Os erros mais graves em robots.txt que destroem SEO

Erro 1: bloquear o site inteiro acidentalmente

O erro mais catastrófico possível — e surpreendentemente comum: colocar Disallow: / no robots.txt, bloqueando todo o site para todos os bots. Isso faz com que o Googlebot pare de rastrear todas as páginas — e eventualmente o site desaparece dos resultados de busca. Esse erro acontece frequentemente em migrações de servidor, quando o robots.txt de staging (ambiente de desenvolvimento, que normalmente bloqueia tudo para não ser indexado) é copiado acidentalmente para produção. Antes de qualquer migração, verifique o robots.txt da versão de produção. Use o Google Search Console para verificar se o arquivo está correto após qualquer alteração importante no site.

Erro 2: bloquear CSS e JavaScript necessários para renderização

O Google precisa renderizar o JavaScript e o CSS das páginas para entender completamente o conteúdo — especialmente em sites que usam frameworks JavaScript como React, Vue ou Angular. Bloquear os diretórios de scripts e estilos no robots.txt impede o Googlebot de renderizar as páginas corretamente, o que pode resultar em conteúdo incompletamente indexado. A recomendação do Google é nunca bloquear arquivos CSS e JavaScript no robots.txt. Use o teste de inspeção de URL no Google Search Console para verificar como o Googlebot renderiza cada página importante do site.

Erro 3: usar robots.txt para tentar esconder conteúdo duplicado

Uma prática equivocada comum: bloquear páginas com conteúdo duplicado no robots.txt pensando que vai resolver o problema de duplicação. O problema é que o Google pode ainda assim indexar essas páginas via links externos ou histórico de indexação anterior — e simplesmente não consegue mais verificar se o conteúdo mudou porque está bloqueado. Para lidar com conteúdo duplicado, use a tag canonical (<link rel="canonical">) ou a meta robots noindex — não o robots.txt. Entenda como o redirecionamento 301 e as canonicals resolvem duplicação de forma muito mais eficiente do que bloquear no robots.txt.

Erro 4: conflito entre Disallow e Allow

Quando existe conflito entre uma diretiva Disallow e uma Allow para a mesma URL, o Google aplica a regra mais específica (maior número de caracteres no path). Se as duas diretivas têm o mesmo nível de especificidade, o Google aplica a Allow. Esse comportamento pode causar confusão — especialmente quando você quer bloquear um diretório inteiro mas permitir uma subpasta específica. Teste sempre o robots.txt com o testador oficial do Google Search Console após qualquer alteração para verificar como cada URL é tratada.

Erro 5: esquecer de adicionar o sitemap

O robots.txt é o lugar ideal para referenciar o sitemap XML do site — porque qualquer bot que visitar o arquivo vai encontrar a localização do sitemap automaticamente. Muitos sites submetem o sitemap no Google Search Console mas esquecem de incluí-lo no robots.txt — perdendo a oportunidade de facilitar a descoberta pelo Bing, Yahoo e outros bots que também rastreiam o site. A indexação eficiente depende tanto do robots.txt correto quanto do sitemap bem configurado — os dois elementos trabalham juntos para garantir que o Google encontre e rastreie todas as páginas importantes.

robots txt WordPress — como criar e editar o arquivo robots.txt em sites WordPress para SEO — No WordPress, o robots.txt pode ser gerenciado via Yoast SEO ou diretamente no servidor — a configuração correta é fundamental para garantir que o Google rastreie as páginas certas.

Como verificar e testar o robots.txt

Acesse diretamente pelo navegador

A forma mais simples de verificar o robots.txt do seu site é acessar diretamente pelo navegador: seudominio.com.br/robots.txt. Se o arquivo existe, o conteúdo é exibido em texto simples. Se retornar erro 404, o arquivo não existe — e o Googlebot assume que pode rastrear tudo. Se retornar erro 500 ou similar, há um problema de servidor que precisa ser resolvido.

Use o testador de robots.txt do Google Search Console

O Google Search Console oferece uma ferramenta específica para testar o robots.txt: acesse o Search Console → Configurações → Testador de robots.txt. Nessa ferramenta, você pode inserir qualquer URL do site e verificar se ela está sendo bloqueada ou permitida pelas diretivas atuais do arquivo. É especialmente útil para verificar se URLs específicas estão sendo bloqueadas acidentalmente após uma alteração no robots.txt. Use o SEO on-page combinado com uma configuração técnica correta do robots.txt para maximizar a eficiência do rastreamento.

Monitore o relatório de cobertura no Search Console

O relatório de Cobertura (Indexação) no Google Search Console mostra quais URLs estão sendo bloqueadas pelo robots.txt — tanto intencionalmente quanto por erro. Acesse: Indexação → Páginas → filtre por “Bloqueado por robots.txt”. Se aparecerem URLs que deveriam estar indexadas nessa lista, há uma configuração incorreta no robots.txt que precisa ser corrigida imediatamente. Monitore esse relatório mensalmente como parte da rotina de auditoria de SEO técnico do site.

Robots.txt para e-commerce: configuração específica

Sites de e-commerce têm necessidades específicas de robots.txt por gerar naturalmente muitas URLs de baixo valor que podem comprometer o crawl budget:

URLs de filtro e ordenação

E-commerces com filtros de produto geram URLs como /camisetas/?cor=azul&tamanho=M&ordenacao=preco — potencialmente milhares de combinações para o mesmo conjunto de produtos. Essas URLs devem ser bloqueadas no robots.txt (ou ter canonical apontando para a URL principal da categoria) para evitar que o Googlebot desperdice crawl budget rastreando variações infinitas de conteúdo praticamente idêntico. Use Disallow: /*?* para bloquear todas as URLs com parâmetros de query string — mas teste cuidadosamente antes de implementar, pois pode bloquear URLs legítimas que usam parâmetros.

Páginas de carrinho, checkout e conta

Páginas de carrinho de compras, checkout e área de conta do cliente nunca devem ser rastreadas pelo Google — não têm valor editorial, frequentemente contêm informações específicas da sessão do usuário, e são de acesso restrito. No robots.txt: Disallow: /carrinho/, Disallow: /checkout/, Disallow: /minha-conta/. Essa configuração também previne que o Google indexe acidentalmente páginas de transação que poderiam expor informações de pedidos.

⚙️ Quer auditar e corrigir o robots.txt do seu site para maximizar o rastreamento do Google?

A Hostconect realiza auditorias completas de SEO técnico — incluindo verificação e otimização do robots.txt, sitemap, canonicals e crawl budget — para garantir que o Google rastreie e indexe exatamente as páginas que importam para o seu negócio. Diagnóstico gratuito.

👉 Quero auditar o SEO técnico do meu site

📖 Veja Também

Perguntas Frequentes sobre Robots.txt

O que é o arquivo robots.txt?

Robots.txt é um arquivo de texto localizado na raiz de um site (seudominio.com.br/robots.txt) que contém instruções para robôs de rastreamento — especialmente o Googlebot — sobre quais partes do site podem ou não podem ser rastreadas. Implementa o Robots Exclusion Protocol (REP), padrão criado em 1994 para comunicação entre sites e bots de busca.

Para que serve o robots.txt no SEO?

O robots.txt serve para: 1) Otimizar o crawl budget — direcionar o Googlebot para rastrear páginas importantes, evitando desperdício em páginas sem valor; 2) Bloquear páginas que não devem ser rastreadas (admin, checkout, conta do usuário, filtros de e-commerce); 3) Referenciar o sitemap XML para facilitar a descoberta de páginas; 4) Controlar quais bots específicos podem rastrear o quê.

Qual é a diferença entre robots.txt e meta robots noindex?

Robots.txt controla o rastreamento — se o Googlebot pode visitar a página. Meta robots noindex controla a indexação — se uma página rastreada pode ser incluída no índice do Google. São funções diferentes e não intercambiáveis. O erro mais grave: bloquear uma página no robots.txt quando você quer noindex — porque o Googlebot não lê a meta tag de uma página que ele não pode rastrear, e pode manter a página no índice mesmo assim.

O Googlebot é obrigado a seguir o robots.txt?

Por convenção, sim — o Googlebot respeita as diretivas do robots.txt. Mas há limitações importantes: 1) O Google pode ainda indexar URLs bloqueadas no robots.txt se houver links externos apontando para elas (indexa a URL mas não o conteúdo); 2) O Googlebot não respeita o campo Crawl-delay do robots.txt (use o Search Console para controlar a taxa de rastreamento); 3) Bots maliciosos geralmente ignoram o robots.txt completamente.

Como criar um robots.txt para WordPress?

Três formas: 1) Via Yoast SEO — Yoast SEO → Ferramentas → Editor de Arquivo → Robots.txt; 2) Diretamente no servidor via FTP — crie o arquivo robots.txt na raiz do site (/public_html/ geralmente); 3) Via gerenciador de arquivos do cPanel. O WordPress gera um robots.txt virtual automaticamente se nenhum arquivo físico existir — bloqueando /wp-admin/ por padrão. Para customizações, crie um arquivo físico que sobrescreve o virtual.

O que deve ser bloqueado no robots.txt?

Tipicamente devem ser bloqueados: /wp-admin/ (painel administrativo), /wp-includes/ e /wp-content/plugins/ (arquivos do sistema), /checkout/ e /cart/ (e-commerce), /minha-conta/ (área de usuário), /?s= e /search/ (resultados de busca interna), páginas de paginação profunda, URLs de filtros de e-commerce que geram duplicação. Nunca bloqueie: arquivos CSS e JavaScript necessários para renderização, páginas de conteúdo editorial, imagens (/wp-content/uploads/).

Como testar se o robots.txt está correto?

Três métodos: 1) Acesse diretamente pelo navegador: seudominio.com.br/robots.txt — verifique se o conteúdo está como esperado; 2) Use o Testador de robots.txt no Google Search Console (Configurações → Testador de robots.txt) para verificar se URLs específicas estão sendo bloqueadas ou permitidas; 3) Monitore o relatório de Cobertura no Search Console (Indexação → Páginas → filtrar “Bloqueado por robots.txt”) para identificar URLs bloqueadas acidentalmente.

O que acontece se o robots.txt não existe?

Se o arquivo robots.txt não existe (retorna erro 404), o Googlebot assume que pode rastrear todo o site sem restrições. Para a maioria dos sites simples, isso é aceitável. Para sites maiores ou com páginas que não devem ser rastreadas (admin, checkout, filtros), a ausência do robots.txt pode resultar em desperdício de crawl budget. O WordPress gera automaticamente um robots.txt virtual básico mesmo sem arquivo físico.

Robots.txt pode prejudicar o SEO?

Sim — e é mais comum do que parece. Erros críticos que prejudicam o SEO: 1) Disallow: / bloqueando todo o site acidentalmente; 2) Bloquear CSS e JavaScript necessários para renderização das páginas; 3) Bloquear páginas de conteúdo importantes por engano; 4) Usar robots.txt para tentar resolver conteúdo duplicado (use canonical ou noindex em vez disso); 5) Não atualizar o robots.txt após migração de servidor (quando o robots.txt de staging com Disallow: / é copiado para produção).

Preciso de robots.txt se já tenho sitemap?

Sim — robots.txt e sitemap têm funções complementares e não substituíveis. O sitemap diz ao Google quais páginas EXISTEM e devem ser indexadas. O robots.txt diz quais páginas NÃO devem ser rastreadas. Ter os dois corretamente configurados é a base do SEO técnico: o sitemap garante que o Google encontre tudo que importa, e o robots.txt garante que o Googlebot não desperdice tempo em páginas que não importam.