Glossário financeiro e tech

Robots.txt

Entenda o arquivo robots.txt, sua função no SEO e como criar um para controlar o rastreamento de páginas pelo Google.

Definição atualizada

O que é Robots.txt?

O arquivo robots.txt é um documento de texto simples localizado na raiz do seu site (ex: https://www.seusite.com/robots.txt) que instrui os robôs de mecanismos de busca (como o Googlebot) sobre quais páginas ou seções do site eles podem ou não rastrear. Embora não seja uma ferramenta para bloquear a indexação direta, ele é fundamental para gerenciar o orçamento de rastreamento e evitar que áreas sensíveis ou duplicadas sejam acessadas desnecessariamente.

A sintaxe do robots.txt utiliza diretivas como "User-agent" (para especificar o robô) e "Disallow" (para indicar os caminhos proibidos). Por exemplo, "User-agent: * Disallow: /admin/" impede todos os robôs de acessar a pasta administrativa. Já o comando "Allow" pode ser usado para abrir exceções dentro de diretórios bloqueados. Um erro comum é confundir a diretiva "Disallow" com a meta tag noindex; o robots.txt apenas controla o rastreamento, não a exibição nos resultados de busca. Se uma URL bloqueada for linkada de outros sites, ela ainda pode aparecer no índice.

Manter um robots.txt bem estruturado é uma prática essencial de SEO técnico. Antes de publicar, valide o arquivo com ferramentas como o Testador de robots.txt do Google Search Console para garantir que não haja bloqueios acidentais a recursos importantes (CSS, JavaScript) que possam prejudicar a renderização e o rankeamento. Lembre-se de que o arquivo é público: qualquer pessoa pode acessar seu robots.txt para ver quais diretórios você tenta esconder, portanto, nunca o utilize para informações realmente sensíveis — a proteção adequada deve vir de autenticação ou restrições no servidor.

Perguntas frequentes

O que é um arquivo robots.txt?

É um arquivo de texto colocado na raiz do site para dar instruções aos robôs de busca sobre quais URLs podem ser rastreadas.

O robots.txt impede que uma página apareça no Google?

Não diretamente. Ele bloqueia o rastreamento, mas a página ainda pode ser indexada se houver links externos apontando para ela. Para evitar a indexação, use a meta tag 'noindex'.

Como posso verificar se meu robots.txt está correto?

Utilize o Testador de robots.txt do Google Search Console ou ferramentas de SEO como o Screaming Frog para simular o comportamento dos robôs e identificar bloqueios indesejados.