16
Nov
08

Venir à bout du duplicate content





Dans les sites webs en général et sur wordpress en particulier, il y a un ennemi, c’est le duplicate content ou contenu dupliqué. Mais qu’est ce donc? Je vous dois une explication. Google, dans sa recherche de la pertinence, analyse les pages dans le but de les classer entre elles mais également de supprimer les doublons. En effet, il semble inutile de ressortir X fois la même page dans les résultats de recherche. Ainsi, votre site peut voir la majorité de ses pages classées en « duplicate content » si votre contenu semble trop similaire d’une page à l’autre. Une page en duplicate content aura très peu de chances de ressortir correctement dans les résultats de recherche et donc de vous amener du trafic.

Mais quelles sont les sources de duplicate content? Dans WordPress, elles sont multiples. Tout le monde connaît le problème lié aux archives par catégorie et par date. En effet, toute note publiée sera reprise en extrait ou en totalité suivant votre configuration dans les archives par date et par catégorie ce qui fait donc trois copies de la même note. Pour régler cela, il y a plusieurs parades : utiliser le robots.txt pour bloquer le passage sur les archives, utiliser le noindex pour les archives ou encore ne reprendre que des extraits dans les archives (c’est ce que je fais).

Seconde source de duplicate content, pas forcément unique à WordPress, les sidebars! En effet, la sidebar est répétée sur chaque page avec le même contenu. Donc comme elle contient toujours les mêmes informations (en général la liste des commentaires récents, une blogroll et la liste des catégories), si vos notes sont relativement courtes (quelques lignes), Google va se rendre compte que la majorité du contenu de la page est similaire aux autres pages et elle va être taggée en duplicate content et partir dans l’index supplémentaire. Pour régler cela, faites comme moi, supprimez un maximum d’informations de la sidebar. Par exemple, passez la liste de tags et de catégories sur des pages dédiées. Avant cette manipulation, j’avais plus de la moitié du blog en duplicate content. Aussi si le rythme d’indexation de google vous semble lent (site non indexé en majorité au bout de plusieurs mois), posez vous la question du duplicate content.

Troisième source de duplicate content, la reprise externe de votre contenu, plus ou moins légalement. Certains sites vont reprendre votre contenu avec ou sans votre accord. Par exemple, les aggrégateurs de flux RSS ou les Digg Like sur lesquels vous êtes inscrits reprennent un extrait de votre note avec un lien vers celle-ci. Le problème est que le PR de ces sites est souvent supérieur à celui de votre site. Aussi, dans certains cas, Google peut penser que le contenu original est celui de l’autre site (notamment quand il utilise un lien de redirection ou un lien en nofollow). J’en ai fait l’expérience avec Wikio. En recherchant certaines notes de mon blog, la page Wikio ressortait en premier et ma note était en duplicate content! Depuis, je me suis désinscrit de Wikio. Pour les aggrégateurs RSS, le risque est moindre car ils mettent systématiquement un lien direct vers votre site et ils ne reprennent qu’une petite partie de votre contenu, de plus, celui-ci change à chaque note publiée donc en général, cela ne pose pas de problèmes dans la majeure partie des cas.

Il y a enfin les sites qui reprennent intégralement votre contenu, le plus souvent sans votre accord. A cet égard, attention à l’utilisation de la licence Creative Commons, en la mettant sur votre site, vous autorisez un tiers à reprendre votre contenu sous certaines conditions. Il n’est pas impossible que le site reprennant le contenu sorte mieux que vous dans Google (c’est du vécu). Vous ne vous en rendrez pas compte car vous n’avez pas le temps de regarder que chaque page ressort correctement, cela serait trop long. Aussi, je vous conseille de surveiller les referers (les sites faisant des liens vers vous, parfois, ce sont des sites ayant repris votre contenu) mais aussi de faire des recherches très spécifiques sur certaines notes à fort trafic si le trafic reçu vous semble brusquement moindre. Si un site a repris votre contenu et que cela pose un problème de duplicate content, commencez par demander à l’auteur du site de retirer ce contenu, dans 90% des cas, cela sera fait rapidement. Si la personne ne répond pas favorablement, il faut contacter son hébergeur (on le trouve grâce au whois) pour lui demander d’agir.

Comment détecter le duplicate content? C’est relativement simple. Il suffit d’aller dans google et de tapper la commande site:www.monsite.com. Ceci va vous sortir toutes les pages indexées dans google. Si à la fin, vous voyez le message suivant apparaître : « Pour limiter les résultats aux pages les plus pertinentes (total : X), Google a ignoré certaines pages à contenu similaire. Si vous le souhaitez, vous pouvez relancer la recherche en incluant les pages ignorées », bingo, vous avez du duplicate content. Parfois, cela ne va concerner que quelques pages donc pas de panique.







L'autre monde | Thème liquide par Olivier