🗺️

Analyse du Sitemap XML : Validation, Couverture et Optimisation

Un sitemap mal configure peut faire plus de mal que de bien : pages noindex declarees, URLs en erreur 404, lastmod perimees. Cette analyse telecharge votre sitemap.xml (jusqu'a 50 000 caracteres), extrait les 30 premieres URLs et les compare aux pages reellement crawlees pour identifier les incoherences. La declaration dans le robots.txt est aussi verifiee. Resultat : vous savez si votre sitemap aide ou freine l'indexation de votre site.

Ce que l'analyse couvre

  • 1Validation du format XML : vérification de la syntaxe, de l'encodage UTF-8, du namespace sitemaps.org et du respect de la limite de 50 000 URLs par fichier. Au-delà, un sitemap index est nécessaire pour regrouper plusieurs fichiers.
  • 2Détection des URLs en erreur : identification des pages en 4xx (non trouvées) ou 5xx (erreur serveur) incluses dans le sitemap. Chaque URL en erreur gaspille le budget de crawl de Google et signale un site mal maintenu.
  • 3Contradiction noindex/sitemap : signalement des pages avec une directive noindex qui sont pourtant soumises dans le sitemap. C'est une contradiction critique — Google peut ignorer le sitemap ou la directive noindex, avec des résultats imprévisibles.
  • 4Vérification des dates lastmod : contrôle du format ISO 8601, détection des dates toutes identiques (signe d'un sitemap généré sans données réelles), et cohérence avec les modifications effectives du contenu.
  • 5Tags priority et changefreq : signalement informatif de leur présence. Google confirme qu'il ignore complètement ces deux attributs. Les conserver ne nuit pas, mais ils n'apportent aucune valeur.
  • 6Comparaison pages crawlées vs sitemap : croisement des liens internes détectés et des sous-pages crawlées avec les URLs du sitemap. Identification des pages manquantes (dans le site mais pas dans le sitemap) et des pages orphelines (dans le sitemap mais introuvables sur le site).
  • 7Déclaration dans robots.txt : vérification que le sitemap est référencé avec la directive Sitemap: dans le robots.txt. Sans cette déclaration, Google doit découvrir le sitemap par d'autres moyens (Search Console, liens).
  • 8Quality gates pour les pages programmatiques : alerte à 30+ pages de localisation (exigence de 60% de contenu unique par page) et blocage à 50+ pages de localisation (risque de pénalité doorway pages). Les pages d'intégration, glossaire et produits avec contenu unique sont signalées comme safe à l'échelle.

Analysez votre site maintenant

Résultat en moins de 60 secondes. Rapport détaillé avec recommandations actionables.

Commencer gratuitement →

Questions fréquentes

Combien d'URLs du sitemap sont analysées ?

Le crawler extrait les 30 premières URLs des balises <loc> de votre sitemap.xml (téléchargé jusqu'à 50 000 caractères). Pour les sitemaps plus volumineux, les 30 premières URLs sont un échantillon représentatif. L'analyse vérifie aussi la structure globale du fichier XML sans limite de taille.

Google utilise-t-il vraiment les sitemaps pour le classement ?

Le sitemap n'influence pas directement le classement, mais il influence la découverte et l'indexation. Google utilise le sitemap pour trouver les nouvelles pages et les mises à jour. C'est particulièrement critique pour les sites jeunes, les sites avec peu de liens internes, et les pages profondes que le crawl normal pourrait manquer.

Faut-il inclure toutes les pages dans le sitemap ?

Non. N'incluez que les pages indexables et de qualité : pages avec contenu unique, sans directive noindex, sans redirection, en HTTPS. Excluez les pages de paramètres d'URL, le contenu dupliqué, les pages de pagination, les pages de filtres et les pages d'administration.

Quelle est la différence entre un sitemap et un sitemap index ?

Un sitemap contient les URLs de vos pages (max 50 000 URLs ou 50 Mo non compressé). Un sitemap index est un fichier qui référence plusieurs sitemaps — utile pour les grands sites qui dépassent la limite. Il permet aussi d'organiser les URLs par type : pages, articles, images, vidéos.

La contradiction noindex + sitemap est-elle vraiment grave ?

Oui. Si une page est noindex mais présente dans le sitemap, Google reçoit deux signaux contradictoires. En pratique, Google respecte généralement le noindex, mais la contradiction gaspille le budget de crawl et peut créer de la confusion dans Search Console. La bonne pratique est de retirer du sitemap toute page noindex.

Autres types d'analyse