| Définition URL : (Source
Wikipédia) Une URL, de l'anglais Uniform
Resource Locator, littéralement «localisateur uniforme
de ressource », est une chaîne de caractères utilisée
pour adresser les Ressources dans le World Wide Web :
document HTML, image, son, forum Usenet, boîte aux
lettres électronique, etc. Elle est informellement
appelée une adresse Web.
Définition Canonique : (Source
Wikipédia)
En mathématiques, canonique qualifie ce qui
semble à tous comme le plus simple, le plus porteur de
sens ou ce qui facilitera des manipulations
ultérieures. En informatique, la mise en forme
canonique est le procédé par lequel on convertit des
données qui ont plusieurs représentations possibles vers
un format 'standard'.
Et l'url canonique ?
Les pages détectées comme étant du duplicate content
ne présentent généralement aucun intérêt pour les
internautes et les moteurs de recherche. De plus, cela
prend de la place inutilement dans les index des
moteurs. C'est pourquoi, les moteurs ont mis en place
des algorithmes plus ou moins puissants (et sensibles)
pour détecter le duplicate content.
|
Pages exactement
identiques (à l'octet près)
|
Pages similaires,
mais comportant des balises <TITLE> et
<DESCRIPTION> différentes |
Pages différentes,
mais comportant les mêmes balises <TITLE> et
<DESCRIPTION> |
| Cas de sites
miroirs. Google considèrera que la page ayant le
plus fort PageRank est l'URL canonique.
Il désindexera les autres pages et reportera
leur PageRank sur la page retenue. Cela
ne semble pouvoir se produire que si les pages
identiques figurent sur des noms de domaine
différents. |
Toutes les
recherches portant sur le texte commun aux
différentes pages donneront comme résultat la
page ayant le plus fort PageRank. Les
autres pages seront visibles en cliquant sur "relancer
la recherche en incluant les pages ignorées".
Elles figureront également dans les résultats
des recherches portant sur leurs contenus
originaux (ce qui diffère du texte commun). |
Certaines pages
peuvent sembler très similaires aux yeux des
moteurs de recherche alors qu'elles semblent
différentes aux yeux d'un humain. Le fait
qu'elles possèdent des balises identiques ne
fait qu'aggraver la situation. Elles risquent de
subir les mêmes problèmes que les pages
similaires de la colonne N°2. Dans le pire des
cas, il est même possible que leur contenu ne
soit pas indexé. |
|