Como criar um robots.txt no WordPress

O robots.txt é um arquivo importante que controla o rastreamento dos robôs de busca a um site ou blog. No WordPress há maneiras práticas de manter este arquivo sempre atualizado e obedecendo às melhores práticas.

Por isso, neste artigo eu criei um passo a passo de como criar um robots.txt no WordPress, além de trazer dicas para um robots estratégico e perfeito para SEO.

Continue lendo para entender.

O que é o Robots.txt e para que serve?

O robots.txt é o primeiro arquivo acessado pelos robôs de busca (do Google, Bing, Yahoo e outros) ao rastrear um site. Trata-se de um simples arquivo de texto que contém instruções sobre quais páginas podem ou não ser rastreadas, além da URL do sitemap.xml, facilitando o trabalho dos crawlers.

No SEO, saber como criar um robots.txt estratégico é um grande diferencial. Ele otimiza a ação dos robôs de busca e impede que páginas indesejadas sejam indexadas no Google e em outros mecanismos de pesquisa.

Onde encontrar o Robots.txt no WordPress?

O local padrão do arquivo robots.txt é na raiz do site, ou seja, ele deve ser acessível por meio da URL: www.site.com.br/robots.txt. Esse arquivo de texto pode ser acessado tanto através do FTP quanto pelo gerenciador de arquivos da hospedagem do site. Além disso, em muitos casos, ele também pode ser editado através de plugins no WordPress, algo que abordarei mais adiante.

Caso você tenha tentado acessar o arquivo robots.txt do seu site e não tenha conseguido pela URL mencionada, isso significa que o site ainda não possui esse arquivo. Para aprender como criar o seu primeiro robots.txt no WordPress, continue lendo.

Sintaxe do Robots.txt

Os comandos básicos utilizados no robots.txt são reconhecidos pela maioria dos buscadores mais utilizados, como Google, Bing e Yahoo. Para entender cada um deles, continue lendo.

User-agent

O user-agent especifica o rastreador para qual a regra a seguir irá valer. Os principais bots e rastreadores que você deve considerar permitir ou bloquear no arquivo robots são os seguintes:

  • Google: User-agent: Googlebot
  • Google Imagens: User-agent: Googlebot-images
  • Google Adwords: User-agent: Adsbot-Google
  • Google Adsense: User-agent: Mediapartners-Google
  • Yahoo: User-agent: Slurp
  • Bing: User-agent: Bingbot
  • ChatGPT: User-agent: ChatGPT-User
  • Baidu: User-agent: Baiduspider
  • DuckDuckGo: User-agent: DuckDuckBot
  • Yandex: User-agent: YandexBot

Para criar uma regra que vale para todos os bots, utilize User-agent: * seguido das regras a serem aplicadas.

Disallow

Após definir os user-agent, você pode começar a listar as URLs (ou o padrão de URL) não permitidas, com o comando Disallow. Veja seu uso na prática:

# as regras abaixo irão valer apenas para o rastreador do DuckDuckGo
User-agent: DuckDuckBot

# bloqueia o rastreio de um arquivo
Disallow: /ebooks/guia-do-robots.html

#bloqueia o rastreio de todo o diretório
Disallow:/e-books/

#bloqueia o rastreio de um tipo específico de arquivo
Disallow: /*.pdf$

#bloqueia o rastreio a todo o site
Disallow: /

Allow

Ao contrário do Disallow, o Allow é um comando que indica que o rastreamento é permitido em determinado arquivo ou diretório. Veja o exemplo:

# as regras irão valer para todos os rastreadores
User-agent: *

# permite o rastreio de todo o site
Allow: /

# bloqueia apenas um diretório, após permitir o rastreio em todo o site
Disallow:/e-books/

Sitemap

indicar a URL do sitemap.xml ajuda robô de busca a encontrar as páginas que você quer indexar mais facilmente. Apesar de que os buscadores encontram URLs navegando através de links na internet, fornecer um sitemap organizado e com todas as URLs aumenta as chances de indexar um maior número de páginas e de forma mais rápida.

O comando é utilizado, por padrão, no final do arquivo robots.txt como no exemplo:

User-agent: *
Allow: /

Disallow: /ebooks

Sitemap: https://site.com.br/sitemap.xml

Criando um Robots.txt manualmente

Criar um robots.txt manualmente pode ser uma ótima oportunidade de aprender exatamente como ele funciona. Para isso, conheça os principais comandos para utilizar na criação do arquivo:

  • Crie um novo arquivo txt no bloco de notas;
  • Especifique as regras usando os comandos listados;
  • Salve o arquivo em formato .txt;
  • Acesse os arquivos do site através do FTP ou do gerenciador de arquivos da hospedagem;
  • Faça upload do arquivo para a pasta raiz;
  • Teste acessando https://seusite.com.br/robots.txt

Criando um Robots.txt com Plugins de SEO

Mas é claro que existem soluções mais práticas para quem usa WordPress e não quer criar o arquivo robots.txt manualmente. Para isso é possível usar recursos de plugins como:

  • Yoast SEO: Crie ou edite o robots na opção Tools do menu da ferramenta, em seguida em File Editor. Disponível no plano gratuito.
  • Rank Math: Acesse o editor em Configurações Gerais no menu do plugin e em seguida Editar robots.txt. Disponível no plano gratuito.

Uma dica importante é utilizar recursos de ferramentas mais completas de SEO como essas, em vez de instalar um plugin específico para criar e editar o robots. Isso porque quanto mais plugins, mais pesado e vulnerável será o site em WordPress. Instale apenas plugins extremamente necessários e de fontes confiáveis.

Melhores práticas para configurar um Robots.txt

Depois de conhecer os comandos e recursos do robots.txt é preciso entender a estratégia por trás de um bom robots, focado em SEO e em performance. Veja quais são as melhores práticas abaixo.

Permissões e bloqueios recomendados

É preciso ter muito cuidado na hora de restringir o rastreio dos robôs de busca. Por mais que alguns buscadores menores pareçam desinteressantes, é preciso lembrar que – na maioria dos casos – todo tráfego é bem-vindo.

Para tomar boas decisões sobre o que bloquear, analisar arquivos de log e entender se algum robô de busca está realizando rastreios demais e comprometendo a performance do servidor é o melhor caminho. Se você tem uma equipe de TI ou sabe como extrair estes dados mais técnicos, tome suas decisões baseadas nestes relatórios.

Contudo, para sites menores e que ainda não possuem muito tráfego, esta não deve ser uma preocupação. Mas há quem prefira bloquear o acesso de ferramentas como SEMRush e Ahrefs. Não só por questões de performance, como também como uma forma de manter a privacidade dos dados de seu site. Se você não quer ser rastreado por esse tipo de ferramenta, pode bloqueá-las utilizando os comandos a seguir.

User-agent: SemrushBot" 

Disallow: /


User-agent: AhrefsBot

Disallow: /

Erros comuns que prejudicam o SEO

Um erro grave e infelizmente comum que prejudica muito o SEO é bloquear por engano o rastreio de todo o site ou de páginas importantes. Muitas vezes um site WordPress não está indexando páginas no Google e por que há um “Disallow: /” bloqueando o rastreio de todas as URLs no robots.txt.

Portanto esta é uma verificação que deve ser feita de tempos em tempos, para prevenir queda no tráfego e perda de posição no ranking. É sempre uma boa ideia colocar a revisão do robots.txt como rotina do trabalho de SEO.

Ferramentas para validar seu Robots.txt

Algumas ferramentas são muito úteis para validar as regras do robots e evitar erros. Felizmente há ferramentas gratuitas, como algumas que listo aqui:

Testador de Robots.txt do Rank Math: O próprio plugin que indiquei anteriormente possui um testador de robots gratuito. Basta digitar a URL a ser testada e selecionar o bot desejado para fazer a verificação.

Bing Webmaster Tools: Nas ferramentas do Bing para Webmasters é possível testar URLs apenas para o bot do Bing em Ferramentas e Melhorias > Testador de Robots.txt. Para saber mais sobre como fazer a verificação do seu site no Bing e utilizar os recursos e ferramentas, leia meu outro artigo sobre o Bing Webmaster Tools: Guia Completo.

Criar um robots.txt no WordPress é importante e fácil

Por fim, vale destacar que apesar de ser um simples arquivo de texto com algumas regras, o arquivo robots tem papel importante no SEO. Negligenciar este recurso pode dificultar o trabalho dos robôs de busca e o que é pior, acabar bloqueando o acesso a páginas importantes.

O arquivo é simples de criar no WordPress com ajuda de plugins e, por isso, não deve ficar de fora da estratégia de SEO. Além disso, manter o robots atualizado e testar a cada alteração é uma ótima maneira de não ser surpreendido com problemas de indexação.

Se você ainda tem dúvida sobre como criar um robots.txt no WordPress, deixe sua dúvida nos comentários.

Deixe um comentário