Identification des problèmes de Googlebot Crawl grâce aux journaux du serveur

Identification des problèmes de Googlebot Crawl grâce aux journaux du serveur

Identification des problèmes de Googlebot Crawl grâce aux journaux du serveur

En parcourant les journaux des serveurs, j’ai infiniment amélioré mon travail de référencement. Si vous les utilisez déjà dans le cadre de votre analyse, félicitations – sinon, je vous encourage à lire ce post.

C’est ce que nous allons faire dans cet article :

Présenter brièvement un résultat de journal du serveur
Comprendre les problèmes communs avec le crawl de Googlebot
Utilisez un journal de serveur pour voir le chemin de crawl de Googlebot.
Examinez un vrai problème de gaspillage du budget de crawl de Googlebot et corrigez-le.
Présentez ou redécouvrez mon analyseur de données préféré.

Il est essentiel pour le référencement car :

Les outils des webmasters, les crawlers tiers et les opérateurs de recherche ne vous donneront pas l’histoire complète.
Vous comprendrez comment Googlebot se comporte sur votre site, et cela vous permettra d’être mieux référencé.

Je vais supposer que vous savez au moins ce que sont les journaux de serveur et comment les obtenir. Au cas où vous n’auriez jamais vu de journal de serveur, voyons un exemple de « hit ».

Anatomie d’un hit de journal de serveur

Chaque ligne d’un journal de serveur représente un « hit » pour le serveur web. Les illustrations suivantes peuvent vous aider à comprendre :

Exemple de demande de fichier : brochure_download.pdf

Une requête pour /page-a.html se terminera probablement par de multiples occurrences parce que nous devons obtenir les images, le css et tout autre fichier nécessaire pour rendre cette page.

Crédit image : Media College

Exemple de succès

Chaque serveur est intrinsèquement différent dans l’enregistrement des occurrences, mais ils donnent généralement des informations similaires qui sont organisées en champs. Vous trouverez ci-dessous un exemple d’accès à un serveur web Apache, et j’ai volontairement réduit les champs pour faciliter la compréhension :

50.56.92.47 – – [31/Mai/2012:12:21:17 +0100] « GET » – « /wp-content/themes/esp/help.php » – « 404 » « – » « Websterdatailla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html) » – www.example.com –

Nom du champ Valeur
IP 50.56.92.47
Date 31/Mai/2012:12:21:17 +0100
Méthode GET
Code de réponse 404
User-agent Websterdatailla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)
URI_request /wp-content/themes/esp/help.php
Hôte : www.example.com

En réalité, il y a beaucoup plus de domaines et une richesse d’informations qui ne peuvent être obtenues que par les journaux des serveurs web.

Les problèmes d’exploration des googlebot que vous pouvez trouver avec les logs

En ce qui concerne le référencement, nous voulons nous assurer que Google explore les pages que nous voulons voir apparaître sur notre site – parce que nous voulons qu’elles soient bien classées. Nous savons déjà ce que nous pouvons faire en interne pour aider les pages à se classer dans les résultats de recherche, par exemple :

S’assurer que les pages sont liées en interne.
Gardez les pages importantes aussi près que possible de la racine.
Veillez à ce que les pages ne renvoient pas d’erreurs.

Tout cela est typiquement standard et vous pouvez obtenir ces informations facilement sans les journaux du serveur, mais je veux plus, je veux voir Googlebot.

Je veux rechercher des problèmes spécifiques à Googlebot comme :

Les dépenses inutiles du budget de crawl
Page qu’il considère importante / non importante
S’il existe des pièges à bottes
Google invente-t-il des erreurs 404 en essayant de créer des URL (pensez à JavaScript)
Google essaie-t-il de remplir des formulaires ? (Oui, cela arrive)
Utilisation des journaux du serveur pour voir Googlebot

Étape 1 : Obtenir des journaux de serveur.

Demandez à votre client, ou téléchargez un ensemble de journaux de serveur auprès de votre hébergeur. Le but est d’essayer de capturer les visites de Googlebot sur votre site, mais nous ne savons pas quand cela va se produire – vous aurez donc peut-être besoin de quelques jours de journaux, ou seulement de quelques heures.

Pour vous donner un exemple concret :

Le domaine exemple a un PageRank de 6, un DA de 80 et reçoit 200 000 visites par jour. Les journaux de leur serveur IIS s’élèvent à 4 Go par jour, mais comme le site est très populaire, Googlebot le visite au moins une fois par jour.

Dans ce cas, je recommande une journée complète de journaux pour s’assurer que nous attrapons Googlebot.

Étape 2 : Télécharger et installer Splunk.

Rendez-vous sur http://www.splunk.com, inscrivez-vous et téléchargez le produit – édition gratuite.

Remarque : l’édition gratuite ne vous permet de télécharger que 500 Mo par 24 heures.

Étape 3 : Ajout des données du journal de votre serveur à Splunk

Je vous recommande de placer les journaux de votre serveur sur votre machine locale pour rendre ce processus agréable et facile.

J’ai préparé quelques screencasts, je sais qu’ils ont l’air ringard, mais peu importe.

Etape 4 : Afficher uniquement les résultats contenant Googlebot comme user-agent
Étape 5 : Exportation vers Excel

Il suffit de cliquer sur le lien « Exporter » et d’attendre que votre CSV massif soit téléchargé. (Note : si le lien n’apparaît pas, c’est que la recherche n’est pas encore terminée)

L’analyse, le problème et la solution
Le problème

Chaque fois que Googlebot passait sur le site, il passait la plupart de son temps à parcourir les pages PPC et les scripts JSON internes. Pour vous donner une idée du temps et du budget consacrés à l’exploration, voir ci-dessous :

Le vrai problème est que nous avions des pages sur le site qui n’avaient pas été indexées, et c’était la cause. Je n’aurais pas trouvé cela sans les journaux du serveur et je suis très reconnaissant de l’avoir fait.

Un regard dans ma feuille de calcul Excel

Comment confirmer ce que vous voyez est en fait Googlebot

Il est possible d’explorer ou de visiter un site en utilisant l’agent utilisateur de Googlebot, et pire encore, il est possible d’usurper l’adresse IP de Googlebot. Je vérifie toujours une liste d’adresses IP en fonction de ce que je vois dans le rapport du journal du serveur et j’utilise la méthode officiellement décrite par Google.

Comment ai-je réglé ce problème ?

1) Rampement des pages PPC

J’ai d’abord vérifié que ces pages n’étaient pas indexées ou ne recevaient aucun trafic, puis j’ai utilisé robots.txt pour bloquer uniquement Googlebot de ces pages. J’ai fait très attention à cela car je voulais m’assurer que je ne bloquais pas Google Adbot (le robot qui doit explorer les pages PPC).

User-agent : Googlebot
Rejeter : /*/cppcr/
Rejeter : /cppcr

2) Demandes infinies de GET aux scripts JSON

Il s’agissait d’un simple bloc de robots.txt de plus, car Google n’avait pas besoin de demander ces scripts. Googlebot a été pris dans un formulaire, encore et encore. En réalité, il n’y a aucune raison pour qu’un bot puisse le parcourir, j’ai donc réglé le user-agent sur all (*).

User-agent : *
Rejeter : /*/json/
Rejeter : /json

Résultats

Je suis assez heureux de dire qu’une semaine plus tard, il y a eu une augmentation de 7 000 pages dans l’index, comme le rapportent les outils pour les webmasters.

Rand a donné quelques bons conseils pour éviter les problèmes de crawling, je vous recommande donc d’y jeter un coup d’œil, et je remercie tout particulièrement les gens de ratedpeople.com d’avoir eu la gentillesse de me laisser analyser et expérimenter sur leur site.

Ressources supplémentaires

La documentation de l’entreprise
Documentation du journal du serveur Apache
Activation de l’enregistrement IIS
Téléchargements des journaux du serveur cPanel
Différences entre les résultats et les pages vues

N’hésitez pas à me suivre sur Twitter @dsottimano, n’oubliez pas d’embrasser au hasard un développeur – même s’il dit qu’il n’aime pas ça 🙂

58
52