Fév
08
Robots.txt optimisé pour WordPress
J’ai passé pas mal de temps à essayer d’optimiser le fichier robots.txt pour WordPress. J’ai pour cela utilisé un certain nombre de ressources trouvées sur le web. J’ai commenté chaque ligne pour en faciliter la compréhension. J’utilise en plus de cela le plugin All in one SEO afin d’effectuer un certain nombre d’optimisations. Ce fichier est adapté à ma structure de permaliens. Il ne l’est pas forcément pour toutes les structures. Il contient un certain nombre de »Allow » qu’il n’est pas forcément utile de spécifier mais que j’ai mis pour des raisons de clarté et d’exhaustivité. Ma stratégie est de laisser passer les moteurs sur toutes les pages (ou presque) ce qui leur permet de rapidement découvrir la structure du site et les articles (via les archives et les catégories) et de bloquer ensuite l’indexation des archives et des catégories grâce All In One SEO (noindex, follow). Voici donc le contenu actuel de mon fichier robots.txt :
User-agent: * # Indique que les règles suivants s’appliquent à tous les robots
Disallow: /cgi-bin # Ne pas référencer le répertoire cgi-bin
Disallow: /wp-admin # Ne pas référencer le répertoire des fichiers d’admin
Disallow: /wp-includes # Ne pas référencer le répertoire ducode wp
Disallow: /wp-content/plugins # Ne pas référencer le répertoire des plugins
Disallow: /wp-content/cache # Ne pas référencer le répertoire cache
Disallow: /wp-content/themes # Ne pas référencer le répertoire des thèmes
Allow: /category # Autorise le passage sur les pages de catégories (l’indexation est bloquéepar All In One SEO)
Allow: /page # Autorise le passage sur les sous-pages (archives et catégories) mais l’indexation est bloquéepar All In One SEO
Allow: /2005/ # Autorise le passage sur les pages d’archives mais l’indexation est bloquéepar All In One SEO
Allow: /2006/ # Idem
Allow: /2007/ # Idem
Allow: /2008/# Idem
Disallow: /feed/ # Ne pas référencer lefeed (il sera référencé par feedburner)
Disallow: */trackback # Ne pas référencer les trackbacks (déjà référencés via la note)
Disallow: */feed # Ne pas référencer lesfeed de notes et de commentaires
Disallow: */comments # Ne pas référencer les commentaires (déjà référencés via la note)
Disallow: /*?* # Ne pas référencer les fichiers dynamiques
Disallow: /*? # Ne pas référencer les fichiers dynamiques
Disallow: /*.php$ # Ne pas référencer les fichiers php
Disallow: /*.js$ # Ne pas référencer les javascripts
Disallow: /*.inc$ # Ne pas référencer lesincludes
Disallow: /*.css$ # Ne pas référencer les styles css
Allow: /wp-content/uploads # Référencer les images
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /* # Autoriser le bot google Image sur tout le site
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /* # Autoriser lebot Adsense sur tout le site
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: http://www.lautre-monde.fr/sitemap.xml # lien vers lesitemap (généré par plugin)
# END XML-SITEMAP-PLUGIN
Merci pour l’info.
Une petite question! lorsqu’un blog ne se trouve pas à la racine du site et que son index est un fichier PHP, faut-il ajouter le nom du répertoire avant le / ? comme cela par exemple:
Disallow: blog/2005/ # Ne pas référencer les archives de 2005
et doit-on retirer cette ligne:
Disallow: /*.php$ # Ne pas référencer les fichiers php
?
Le problème vient du fait que le robots.txt doit obligatoirement se trouver à la racine donc tu dois donner le nom des répertoires à partir de la racine.
Tu peux utiliser * pour matcher mais beaucoup de moteurs ne semblent pas le supporter (google le supporte) donc il faut mieux tout rentrer.
ok. merci
Bonjour
Site intéressant mais je m’inquiète de savoir si ces infos sont toujours pertinentes pour WP version 2.7.1 voire la 2.8 prévue, notemment sur les robots, les exclusions, la modif pour que les pages aient la sidebar ? Merci.
Pour le robots.txt, il n’est pas vraiment dépendant de la version de WP dans la mesure où la structure du site dépend plus de ta configuration de permaliens et de ton theme mais bon, c’est encore valable à mon sens.
Pour ce qui est de la sidebar, c’est pareil, c’est lié au theme, pas à la version WP.
Et si on a plusieurs blogs dans des répertoires différents, comment on fait pour proposer deux sitemap par exemple ???
Il faut lister les deux sitemaps dans le fichier robots.txt et également les soumettre via le google webmaster tools.
Sitemap: http…xml
Sitemap: http2…xml
Comme ça ?
Oui cela devrait fonctionner comme ça normalement.
OK, merci bien 🙂
Merci pour votre article.
Je l’ai suivi pour mon propre site mais je n’ai pas poussé le filtrage aussi loin.
Il apparaît que Google s’est amélioré depuis la date où j’ai écris cet article et il est moins évident qu’un filtrage poussé soit nécessaire pour éviter le duplicate content. Apparemment, il faut mieux laisser Google faire son tri…
On peut voir une source pour ton dernier avis histoire de se faire une idée ?
Pas de source précise, juste un feeling suite à plusieurs lectures sur différents forums et ma propre expérience… Après, chacun a sa propre vision…
Ben, je ne vais pas faire croire que je suis un spécialiste 🙂 Je vais donc sonder d’autres vrais spécialistes 🙂
merci bien pour cette articles…
mais tres dur de optimiser le robots.txt
merci pour les information : )