Sitemaps XML : L’outil le plus méconnu de la boîte à outils du SEO

Sitemaps XML : L’outil le plus méconnu de la boîte à outils du SEO

Sitemaps XML : L'outil le plus méconnu de la boîte à outils du SEO

Au cours de toutes mes années de conseil en référencement, j’ai vu de nombreux clients ayant des idées fausses sur les sitemaps XML. C’est un outil puissant, c’est sûr – mais comme tout outil puissant, un peu de formation et d’expérience sur le fonctionnement de tous les éléments est très utile.

Indexation

L’idée fausse la plus répandue est probablement que le plan de site XML permet d’indexer vos pages. La première chose à faire est de mettre les choses au clair : Google n’indexe pas vos pages simplement parce que vous l’avez demandé gentiment. Google indexe les pages parce que (a) il les a trouvées et explorées, et (b) il les considère de qualité suffisante pour qu’elles méritent d’être indexées. Pointer Google vers une page et lui demander de l’indexer n’est pas vraiment un facteur.

Cela dit, il est important de noter qu’en soumettant un sitemap XML à la console de recherche Google, vous donnez à Google un indice qui lui permet de savoir si les pages du sitemap XML sont de bonne qualité et méritent d’être indexées. Mais ce n’est qu’un indice que les pages sont importantes… comme l’est le lien vers une page de votre menu principal.

Cohérence

L’une des erreurs les plus courantes que je vois les clients commettre est le manque de cohérence dans les messages envoyés à Google au sujet d’une page donnée. Si vous bloquez une page dans robots.txt et que vous l’incluez ensuite dans un sitemap XML, vous êtes une allumeuse. « Voilà, Google… une belle page bien juteuse que vous devriez vraiment indexer », dit votre sitemap. Mais ensuite, votre robots.txt vous l’enlève. C’est la même chose avec les méta-robots : N’incluez pas une page dans un sitemap XML et mettez ensuite les méta-robots « noindex,follow ».

Pendant que j’y suis, laissez-moi vous parler brièvement des méta-robots : « noindex » signifie ne pas indexer la page. « Nofollow » ne signifie rien à propos de cette page. Cela signifie « ne suivez pas les liens sortant de cette page », c’est-à-dire allez de l’avant et jetez tout ce jus de liens dans les toilettes. Il y a probablement une raison obscure pour laquelle les méta-robots sont « noindex,nofollow« , mais je ne sais pas ce que c’est. Si vous voulez que Google n’indexe pas une page, mettez les méta-robots sur « noindex,follow ».

OK, fin de la diatribe…

En général, vous voulez donc que chaque page de votre site tombe dans deux seaux :

les pages utilitaires (utiles aux utilisateurs, mais pas ce que vous attendez d’une page de renvoi de recherche)
Des pages d’accueil de recherche de haute qualité

Tout ce qui se trouve dans le seau n°1 doit être soit bloqué par robots.txt, soit bloqué par des méta-robots « noindex,follow » et ne doit pas se trouver dans un sitemap XML.

Tout ce qui se trouve dans le compartiment 2 ne devrait pas être bloqué dans le fichier robots.txt, ne devrait pas avoir de méta-robots « noindex » et devrait probablement se trouver dans un plan de site XML.

(Image du seau, avant que je ne les décore, avec l’aimable autorisation de la Minnesota Historical Society sur Flickr).

Qualité générale du site

Il semblerait que Google prenne une certaine mesure de la qualité globale du site, et utilise cette mesure à l’échelle du site pour influer sur le classement – et je ne parle pas ici du jus de lien.

Pensez à cela du point de vue de Google. Imaginons que vous ayez une page géniale avec un contenu fabuleux qui coche toutes les cases, de la pertinence pour Panda à l’engagement dans les médias sociaux. Si Google considère votre site comme un millier de pages de contenu, dont seulement 5 ou 6 pages sont comme cette unique grande page… eh bien, si Google envoie un utilisateur sur l’une de ces grandes pages, quelle sera l’expérience de l’utilisateur s’il clique sur un lien de cette page et visite autre chose sur votre site ? Il y a de fortes chances pour qu’il se retrouve sur une page qui est nulle. C’est un mauvais UX. Pourquoi voudraient-ils envoyer un utilisateur sur un site comme celui-là ?

Les ingénieurs de Google comprennent certainement que chaque site possède un certain nombre de pages « utilitaires » qui sont utiles aux utilisateurs, mais pas nécessairement des pages de type contenu qui devraient être des pages de renvoi de la recherche : des pages pour partager du contenu avec d’autres, répondre à des commentaires, se connecter, récupérer un mot de passe perdu, etc.

Si votre plan de site XML inclut toutes ces pages, que communiquez-vous à Google ? Plus ou moins que vous n’avez aucune idée de ce qui constitue un bon contenu sur votre site et de ce qui n’en constitue pas.

Voici plutôt le tableau que vous voulez dresser pour Google. Oui, nous avons un site ici avec 1 000 pages… et voici les 475 de ces 1 000 pages qui sont nos bonnes pages de contenu. Vous pouvez ignorer les autres, ce sont des pages utilitaires.

Maintenant, disons que Google explore ces 475 pages, et avec leurs mesures, décide que 175 d’entre elles sont de niveau « A », 200 de niveau « B+ », et 100 de niveau « B » ou « B-« . C’est une assez bonne moyenne générale, et cela indique probablement un site assez solide où envoyer les utilisateurs.

Par contraste, un site qui soumet les 1 000 pages via le plan de site XML. Maintenant, Google examine les 1 000 pages que vous dites être un bon contenu, et voit que plus de 50% sont des pages « D » ou « F ». En moyenne, votre site est assez nul ; Google ne veut probablement pas envoyer les utilisateurs sur un site comme celui-là.

La peluche cachée

N’oubliez pas que Google va utiliser ce que vous soumettez dans votre sitemap XML comme indice de ce qui est probablement important sur votre site. Mais ce n’est pas parce que ce n’est pas dans votre plan de site XML que Google va nécessairement ignorer ces pages. Vous pourriez avoir des milliers de pages avec à peine assez de contenu et de liens pour les indexer, mais cela ne devrait pas être le cas.

Il est important de faire un site : faites une recherche pour voir toutes les pages que Google indexe à partir de votre site afin de découvrir les pages que vous avez oubliées, et nettoyez celles qui ne font pas partie de la « note moyenne » que Google va donner à votre site en définissant les méta-robots « noindex,follow » (ou en bloquant dans robots.txt). En général, les pages les plus faibles qui ont encore fait l’objet d’un index vont être listées en dernier dans un site : la recherche.

Noindex vs. robots.txt

Il existe une différence importante mais subtile entre l’utilisation de méta-robots et l’utilisation de robots.txt pour empêcher l’indexation d’une page. L’utilisation de méta-robots « noindex,follow » permet à l’équité des liens allant à cette page de se propager aux pages auxquelles elle renvoie. Si vous bloquez la page avec robots.txt, vous ne faites que la jeter aux toilettes.

Dans l’exemple ci-dessus, je bloque les pages qui ne sont pas de vraies pages – elles suivent des scripts – donc je ne perds pas l’équité des liens, car ces pages n’ont pas l’en-tête avec les liens du menu principal, etc.

Pensez à une page comme la page « Contactez-nous » ou la page « Politique de confidentialité » – probablement liée à chaque page de votre site par le menu principal ou le menu de bas de page. Il y a donc une tonne de liens vers ces pages ; voulez-vous simplement les jeter ? Ou préférez-vous laisser ce jus de liens se déverser sur tout ce qui se trouve dans votre menu principal ? Question facile à répondre, n’est-ce pas ?

Gestion de la bande passante

Quand pourriez-vous réellement vouloir utiliser robots.txt à la place ? Peut-être si vous avez des problèmes de bande passante et que Googlebot passe beaucoup de temps à chercher des pages d’utilitaires, pour découvrir ensuite des méta-robots « noindex,follow » dedans et devoir se tirer d’affaire. Si vous en avez tellement que Googlebot n’arrive pas à accéder à vos pages importantes, vous devrez peut-être bloquer via robots.txt.

J’ai vu un certain nombre de clients constater une amélioration générale du classement en nettoyant leurs sitemaps XML et en n’indexant pas leurs pages d’utilitaires :

Est-ce que j’ai vraiment 6 000 à 20 000 pages qui doivent être explorées chaque jour ? Ou est-ce que Googlebot recherche des URL de réponse à un commentaire ou de partage d’e-mail ?

Pour votre information, si vous avez un ensemble de pages principales dont le contenu change régulièrement (comme un blog, de nouveaux produits ou des pages de catégories de produits) et que vous avez une tonne de pages (comme des pages de produits uniques) où il serait bien que Google les indexe, mais pas au détriment de la ré-indexation des pages principales, vous pouvez soumettre les pages principales dans un sitemap XML pour donner à Google un indice que vous les considérez plus importantes que celles qui ne sont pas bloquées, mais qui ne sont pas dans le sitemap.

Débogage des problèmes d’indexation

C’est là que le plan du site XML est vraiment utile aux référenceurs : lorsque vous soumettez un tas de pages à Google pour l’indexation, et que seules certaines d’entre elles sont effectivement indexées. La console de recherche Google ne vous dira pas quelles pages sont indexées, mais seulement un nombre global de pages indexées dans chaque plan de site XML.

Imaginons que vous soyez un site de commerce électronique et que vous ayez 100 000 pages de produits, 5 000 pages de catégories et 20 000 pages de sous-catégories. Vous soumettez votre sitemap XML de 125 000 pages, et vous découvrez que Google en indexe 87 000. Mais quelles sont ces 87 000 pages ?

Tout d’abord, vos pages de catégorie et de sous-catégorie sont probablement TOUTES des cibles de recherche importantes pour vous. Je créerais un sitemap.xml de catégorie et un sitemap.xml de sous-catégorie et les soumettrais séparément. Vous vous attendez à une indexation de près de 100 % – et si vous ne l’obtenez pas, vous savez que vous devez chercher à créer plus de contenu sur ces pages, à augmenter le nombre de liens vers elles, ou les deux. Vous pourriez découvrir des pages de catégories ou de sous-catégories de produits qui ne sont pas indexées parce qu’elles ne contiennent qu’un seul produit (ou aucun). Dans ce cas, vous voudrez probablement mettre des méta-robots « noindex,follow » sur ces pages et les extraire du plan du site XML.

Il y a de fortes chances que le problème se situe dans certaines des 100 000 pages de produits – mais lesquelles ?

Commencez par une hypothèse, et divisez vos pages de produits en différents plans de site XML pour tester ces hypothèses. Vous pouvez en faire plusieurs à la fois – il n’y a rien de mal à avoir une URL dans plusieurs sitemaps.

Vous pouvez commencer avec trois théories :

Les pages qui n’ont pas d’image de produit ne sont pas indexées
Les pages qui contiennent moins de 200 mots de description unique ne sont pas indexées
Les pages qui n’ont pas de commentaires/examens ne sont pas indexées

Créez un plan de site XML avec un nombre significatif de pages qui entrent dans chacune de ces catégories. Il n’est pas nécessaire que toutes les pages appartiennent à cette catégorie – juste assez pour que la taille de l’échantillon permette de tirer une conclusion raisonnable sur la base de l’indexation. Vous pouvez par exemple faire 100 pages dans chaque catégorie.

Votre objectif est d’utiliser le pourcentage d’indexation global d’un plan de site donné pour identifier les attributs des pages qui font qu’elles sont indexées ou non.

Une fois que vous connaissez le problème, vous pouvez soit modifier le contenu de la page (ou les liens vers les pages), soit ne pas indexer les pages. Par exemple, vous pourriez avoir 20 000 de vos 100 000 pages de produits dont la description est inférieure à 50 mots. S’il ne s’agit pas de termes à fort trafic et que vous obtenez les descriptions à partir d’un flux de fabricants, cela ne vaut probablement pas la peine d’essayer d’écrire manuellement 200 mots de description supplémentaires pour chacune de ces 20 000 pages. Autant mettre les méta-robots sur « noindex,follow » pour toutes les pages comportant moins de 50 mots de description de produit, car Google ne va pas les indexer de toute façon et ils ne font qu’abaisser la note de qualité globale de votre site. Et n’oubliez pas de les supprimer de votre plan de site XML.

Sitemaps XML dynamiques

Maintenant, vous vous dites : « OK, super, Michael. Mais maintenant, je dois garder manuellement mon plan de site XML synchronisé avec mes méta-robots sur l’ensemble de mes 100 000 pages », et cela ne risque pas d’arriver.

Mais il n’est pas nécessaire de le faire manuellement. Les sitemaps XML n’ont pas besoin d’être des fichiers statiques. En fait, ils n’ont même pas besoin d’avoir une extension .XML pour être soumis dans la console de recherche Google.

Il suffit de définir des règles logiques pour qu’une page soit incluse dans le plan de site XML ou non, et d’utiliser cette même logique dans la page elle-même pour définir l’index ou le non-index des méta-robots. Ainsi, au moment où la description d’un produit provenant du flux du fabricant est mise à jour par ce dernier et passe de 42 à 215 mots, la page de votre site apparaît comme par magie dans le plan du site XML et ses méta-robots sont configurés sur « index,follow ».

Sur mon site de voyage, je fais cela pour une tonne de pages différentes. J’utilise l’ASP classique pour ces pages, donc j’ai des sitemaps comme celui-ci :

https://www.visualitineraries.com/ItinSiteMap.asp

Lorsque ces sitemaps sont récupérés, au lieu de rendre une page HTML, le code côté serveur ne fait que recracher le XML. Celui-ci itére sur un ensemble d’enregistrements d’une de mes tables de base de données et crache un enregistrement pour chacun qui répond à un certain critère.

Plans de site vidéo

Oh, et qu’en est-il de ces satanés plans de site XML vidéo ? Ils sont tellement 2015. Wistia ne se donne même plus la peine de les générer ; vous devriez simplement utiliser JSON-LD et le balisage schema.org/VideoObject dans la page elle-même.

Résumé
Soyez cohérent – si le site est bloqué dans robots.txt ou par les méta-robots « noindex », il est préférable qu’il ne soit pas dans votre plan de site XML.
Utilisez vos plans de site XML comme outils de recherche pour découvrir et éliminer les problèmes d’indexation, et ne laissez/demandez à Google d’indexer que les pages que vous savez que Google voudra indexer.
Si votre site est volumineux, utilisez des sitemaps XML dynamiques – n’essayez pas de synchroniser manuellement tout cela entre robots.txt, les méta-robots et les sitemaps XML.

Image de Cornfield avec l’aimable autorisation de Robert Nunnally sur Flickr.

60
81