Qu'est-ce qu'un Sitemap ?

Un Sitemap est une façon facile pour les webmasters d'informer les robots des moteurs de recherche sur les pages qui composent son site Web. Il convient particulièrement pour les sites Web qui n'ont pas de liens HTML comme les sites en Flash ou en Javascript, mais aussi pour informer sur les pages se trouvant derrière un formulaire.

Il se présente sous la forme d'un fichier XML qui liste les URL d'un site en y ajoutant des informations comme la date de la dernière mise a jour, la fréquence à laquelle les données sont ammenées à etre modifées et la priorité relative des URL.

Pour utiliser un sitemap il faut respecter le protocole générateur de sitemap qui vous permettra de réaliser le sitemap de votre site.

L'utilisation du protocole Sitemap ne garantit pas la prise en compte des pages Web dans les moteurs de recherche, mais permet de fournir des indications aux robots d'exploration et ainsi d'optimiser leur fonctionnement.

Sitemap XML

Le format du protocole Sitemap se compose de balises XML. Toutes les valeurs de données d'un plan Sitemap doivent utiliser des caractères d'échappement d'entité. Quant au fichier, il doit être enregistré avec un codage UTF-8.

Un Sitemap est limité à 50 000 URL et 10 Mo (10 485 760 octets). Vous pouvez par contre compresser vos fichiers Sitemap à l'aide de l'utilitaire gzip pour réduire les besoins en terme de bande passante, cependant le fichier sitemap une fois décompressé ne doit pas excéder 10 Mo.

Exemple Sitemap XML

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
      <loc>http://www.example.com/</loc>
      <lastmod>2008-01-01</lastmod>
      <changefreq>monthly</changefreq>
      <priority>1.0</priority>
   </url>
</urlset>

Définitions des balises Sitemap XML>

Obligatoire
Balise Description
<urlset> Encadre le fichier xml et référence le standard du protocole actuel avec l'attribut xmlns.
<url> Balise parent de chaque entrée d'URL.
<loc> URL de la page. Cette URL doit commencer par l'intitulé du protocole (http, par exemple).L'URL ne doit pas comporter plus de 2 048 caractères.

Facultatif
Balise Description
<lastmod> Date de la dernière modification du fichier. Cette date doit être au format date et d’heure W3C. Celui-ci vous permet d'omettre l'heure, si vous le souhaitez, et de n'utiliser que le format AAAA-MM-JJ.
<changefreq> Fréquence probable de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et ne reflète pas nécessairement la fréquence effective d'exploration de la page. Les valeurs acceptées sont les suivantes :

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never
<priority> Priorité de cette URL par rapport aux autres URL de votre site. Les valeurs acceptées sont comprises entre 0,0 et 1,0. Cette valeur n'a aucune incidence sur la comparaison de vos pages avec celles d'autres sites. Elle permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes pour les robots d'exploration.

La priorité par défaut d'une page est égale à 0,5.

DTD Sitemap XML

<?xml version="1.0"?>
<!DOCTYPE sitemap [
 <!ELEMENT urlset (url+)>
 <!ELEMENT url (loc, lastmod?, changefreq?, priority?)>
 <!ELEMENT loc (#PCDATA)>
 <!ELEMENT lastmod (#PCDATA)>
 <!ELEMENT changefreq (#PCDATA)>
 <!ELEMENT priority (#PCDATA)>
]>

Index Sitemap XML

Si vous souhaitez répertorier plus de 50 000 URL, vous devez créer plusieurs fichiers Sitemap. Et répertorier chaque fichier Sitemap dans un fichier d'index Sitemap. Les fichiers d'index Sitemap peuvent contenir jusqu'à 1 000 plans Sitemap et ne doivent pas excéder 10 Mo (10 485 760 octets) et peuvent être compressés. Vous pouvez utiliser plusieurs fichiers d'index Sitemap.

Exemple Sitemap XML

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"&g;
   <sitemap>
      <loc>http://www.example.com/sitemap1.xml</loc>
      <lastmod>2008-01-01</lastmod>
   </sitemap>
   <sitemap>
      <loc>http://www.example.com/sitemap2.xml.gz</loc>
      <lastmod>2007-12-01</lastmod>
   </sitemap>
</sitemapindex>

Définitions des balises Index Sitemap XML

Obligatoire
Balise Description
<sitemapindex> Encadre des informations relatives à l'ensemble des plans Sitemap du fichier.
<sitemap> Encadre les informations relatives à un plan Sitemap.
<loc> Indique l'emplacement du plan Sitemap.

Balise Description
<lastmod> Indique l'heure à laquelle le fichier Sitemap correspondant a été modifié, et non l'heure à laquelle l'une des pages de ce plan Sitemap aurait été actualisée. La valeur de la balise lastmod doit être fournie au format de date et d’heure W3C.
En indiquant la date et l'heure de la dernière modification, vous permettez aux robots d'exploration du moteur de recherche de n'extraire de l'index qu'une partie des plans Sitemap, par exemple ceux qui ont été modifiés depuis une certaine date. Ce mécanisme d'extraction incrémentiel de plans Sitemap permet de découvrir rapidement de nouvelles URL sur des sites très volumineux.

DTD Index Sitemap XML

<?xml version="1.0"?>
<!DOCTYPE sitemapindex [
 <!ELEMENT sitemapindex (sitemap+)>
 <!ELEMENT sitemap (loc, lastmod?)>
 <!ELEMENT loc (#PCDATA)>
 <!ELEMENT lastmod (#PCDATA)>
]>

Emplacement du fichier Sitemap

L'emplacement du fichier Sitemap permet de déterminer l'ensemble des URL susceptibles d'être incluses dans ce plan Sitemap.
Un fichier Sitemap stocké à l'adresse http://exemple.fr/catalog/sitemap.xml peut contenir toutes les URL commençant par http://exemple.fr/catalog/, mais ne peut pas inclure d'URL commençant par http://exemple.fr/images/.

Pour plus d'information visitez www.sitemap.org
Sitemap Generator