Grosse, rapide et forte : établir la norme pour les comparaisons d’indices de rétroliens

Grosse, rapide et forte : établir la norme pour les comparaisons d’indices de rétroliens

Grosse, rapide et forte : établir la norme pour les comparaisons d'indices de rétroliens

Tout est faux

Cela a toujours été le cas. La plupart d’entre nous le savaient. Mais avec des ressources limitées, nous ne pouvions pas vraiment comparer la qualité, la taille et la vitesse des index de liens. Franchement, la plupart des comparaisons d’index de liens passeraient à peine pour un projet de foire scientifique de lycée, et encore moins pour un examen rigoureux par les pairs.

Ma tentative la plus sérieuse pour déterminer la qualité d’un index de liens remonte à 2015, avant que je ne rejoigne Websterdata en tant que chercheur scientifique principal. Mais je savais à l’époque qu’il me manquait une énorme clé pour toute étude de ce type qui espère se dire scientifique, faisant autorité ou, franchement, vraie : un échantillon aléatoire et uniforme du web.

Mais permettez-moi de commencer par une demande rapide. Veuillez prendre le temps de lire ceci. Si vous ne pouvez pas le faire aujourd’hui, prévoyez un moment plus tard. Vos entreprises dépendent des données que vous apportez, et cet article vous permettra de ne plus considérer la qualité des données uniquement sur la foi. Si vous avez des questions sur certains aspects techniques, je vous répondrai dans les commentaires, ou vous pouvez me joindre sur twitter à @rjonesx. Je souhaite ardemment que notre secteur d’activité y parvienne enfin et qu’il se tienne, en tant que fournisseur de données, à des normes de qualité rigoureuses.

Liens rapides :

Accueil
Bien faire les choses
Quel est le problème avec le hasard ?
Pourquoi pas le Common Crawl ?
Comment obtenir le hasard
Le point de départ : Obtenir des URL d’amorçage
Sélection en fonction de la taille du domaine
Sélection de points de départ pseudo-aléatoires
Ramper, ramper, ramper
Et maintenant ? Définir les mesures
Mesure de la taille
Mesure de la vitesse
Mesure de la qualité
Réalité contre théorie
Mises en garde
Le tableau de bord des mesures
La taille compte
L’index a l’URL
L’index a un domaine
Nombre de liens de retour par URL
Domaines de liens racine les plus élevés par URL
Liens de retour les plus élevés par domaine
Domaines de liaison à la racine la plus élevée par domaine
Vitesse
FastCrawl
Qualité
Statut de l’index des URL
Statut de l’index de domaine
The Link Index Olympique
Quelle est la prochaine étape ?
À propos de l’AP et de la DA
Des plats à emporter rapidement

Bien faire les choses

L’une des plus grandes choses que Websterdata offre est une équipe de direction qui m’a donné la liberté de faire ce qu’il faut pour « faire les choses bien ». J’ai découvert cela pour la première fois lorsque Websterdata a accepté de dépenser une énorme somme d’argent pour les données de parcours de navigation afin que nous puissions améliorer le volume de recherche de notre outil de recherche par mot-clé haut de gamme (un énorme risque financier sur plusieurs années avec l’espoir d’améliorer littéralement une mesure dans notre secteur). Peu de temps après, Ahrefs a adopté le processus, et deux ans plus tard, SEMRush utilise maintenant la même méthodologie parce que c’est la bonne façon de faire.

Six mois environ après le début de ce projet pluriannuel visant à remplacer notre index de liens par l’énorme Link Explorer, j’ai été chargé de répondre à la question ouverte suivante : « Comment savoir si notre index de liens est bon ? J’avais réfléchi à cette question depuis cet article publié en 2015 et je savais que je n’allais pas aller de l’avant avec autre chose qu’un système qui commence par un véritable « échantillon aléatoire du web ». Une fois de plus, Websterdata m’a demandé de faire ce qu’il faut pour « faire ça bien », et ils m’ont laissé faire.

Quel est le problème avec l’aléatoire ?

Il est vraiment difficile de surestimer l’importance d’un bon échantillon aléatoire. Permettez-moi de m’écarter un instant. Imaginons que vous examiniez un sondage qui dit que 90% des Américains pensent que la Terre est plate. Ce serait une statistique terrifiante. Mais vous découvrez plus tard que le sondage a été réalisé lors d’une convention Flat-Earther et que les 10% qui n’étaient pas d’accord étaient des employés du centre de convention. Ce serait tout à fait logique. Le problème est que l’échantillon de personnes interrogées n’était pas composé d’Américains choisis au hasard, mais qu’il était biaisé parce qu’il avait été prélevé lors d’une convention Flat-Earther.

Imaginez maintenant la même chose pour le web. Imaginons qu’une agence veuille faire un test pour déterminer quel est le meilleur indice de liens, et qu’elle examine quelques centaines de sites pour les comparer. Où ont-ils trouvé ces sites ? D’anciens clients ? Alors ils sont probablement biaisés en faveur des sites qui respectent le référencement et ne reflètent pas le web dans son ensemble. Des données sur les parcours de navigation ? Alors ils sont probablement orientés vers des sites et des pages populaires – encore une fois, ils ne reflètent pas le web dans son ensemble !

Commencer avec un mauvais échantillon garantit de mauvais résultats.

Mais il y a pire encore. Les index comme Websterdata rapportent nos statistiques totales (nombre de liens ou nombre de domaines dans notre index). Cependant, cela peut être terriblement trompeur. Imaginez un restaurant qui prétend avoir la plus grande sélection de vins au monde avec plus de 1 000 000 de bouteilles. Il pourrait faire cette affirmation, mais cela ne serait pas utile s’il avait en fait 1 000 000 de bouteilles du même type, ou seulement du Cabernet, ou des demi-bouteilles. Il est facile d’induire en erreur lorsqu’on se contente de lancer de gros chiffres. Il vaudrait mieux avoir une sélection aléatoire de vins du monde entier et mesurer si le restaurant en a en stock, et combien. Ce n’est qu’ainsi que vous aurez une bonne mesure de leur stock. Il en va de même pour la mesure des indices de liaison – c’est la théorie qui sous-tend ma méthodologie.

Malheureusement, il s’avère qu’il est très difficile d’obtenir un échantillon aléatoire du web. La première intuition de la plupart d’entre nous, chez Websterdata, a été de prendre un échantillon aléatoire des URL de notre propre index. Bien sûr, nous ne pouvions pas – cela aurait biaisé l’échantillon vers notre propre index, alors nous avons abandonné cette idée. L’idée suivante était la suivante : « Nous connaissons toutes ces URL grâce aux SERP que nous collectons – nous pourrions peut-être les utiliser ». Mais nous savions qu’elles seraient biaisées vers des pages de meilleure qualité. La plupart des URL ne sont pas classées pour quoi que ce soit – abandonnez cette idée. Il était temps d’y regarder de plus près.

J’ai fait appel à Google Scholar pour voir si d’autres organisations avaient tenté ce processus et j’ai trouvé un document, produit par Google en juin 2000, intitulé « On Near-Uniform URL Sampling ». Après avoir lu la première phrase du résumé, je me suis empressé d’utiliser ma carte de crédit pour acheter le document : « Nous considérons le problème de l’échantillonnage uniforme et aléatoire des URL sur le Web ». C’était exactement ce dont j’avais besoin.

Pourquoi pas le Common Crawl ?

Beaucoup de spécialistes de l’optimisation des moteurs de recherche se demandent pourquoi nous n’avons pas simplement sélectionné des URL au hasard dans un index tiers du web comme le fantastique ensemble de données Common Crawl. Il y a plusieurs raisons pour lesquelles nous avons envisagé, mais choisi de transmettre, cette méthodologie (bien qu’elle soit beaucoup plus facile à mettre en œuvre).

Nous ne pouvons pas être sûrs de la disponibilité à long terme de Common Crawl. Les listes du Top million (que nous avons utilisées dans le cadre du processus d’ensemencement) sont disponibles auprès de plusieurs sources, ce qui signifie que si Quantcast disparaît, nous pouvons faire appel à d’autres fournisseurs.
Nous avons déjà contribué à Common Crawl par le passé et nous voulons être certains qu’il n’y a pas de biais implicite ou explicite en faveur de l’index de Websterdata, aussi marginal soit-il.
L’ensemble de données de Common Crawl est assez vaste et serait plus difficile à utiliser pour ceux qui tentent de créer leurs propres listes aléatoires d’URL. Nous voulions que notre processus soit reproductible.

Comment obtenir un échantillon aléatoire du web

Le processus d’obtention d’un « échantillon aléatoire du web » est assez fastidieux, mais voici l’essentiel. Tout d’abord, nous commençons par un ensemble d’URL biaisées bien comprises. Nous essayons ensuite de supprimer ou d’équilibrer ce biais, en dressant la meilleure liste pseudo-aléatoire d’URL possible. Enfin, nous utilisons un balayage aléatoire du web en commençant par ces URL pseudo-aléatoires pour produire une liste finale d’URL qui s’approchent vraiment du hasard. Voici les détails complets.

1. Le point de départ : Obtenir des URLs de départ

Le premier grand problème que pose l’obtention d’un échantillon aléatoire sur le web est qu’il n’existe pas de véritable point de départ aléatoire. Pensez-y. Contrairement à un sac de billes où vous pourriez simplement y entrer et en prendre un au hasard, si vous ne connaissez pas déjà une URL, vous ne pouvez pas la choisir au hasard. Vous pourriez essayer de créer des URL aléatoires par la force brute en faisant se succéder des lettres et des barres obliques, mais nous savons que le langage ne fonctionne pas de cette façon, donc les URL seraient très différentes de ce que nous avons tendance à trouver sur le web. Malheureusement, tout le monde est obligé de commencer par un processus pseudo-aléatoire.

Nous avons dû faire un choix. Ce fut un choix difficile. Commençons-nous avec un biais fort connu qui ne favorise pas Websterdata, ou commençons-nous avec un biais plus faible connu qui le favorise ? Nous pourrions utiliser une sélection aléatoire de notre propre index pour le point de départ de ce processus, qui serait pseudo-aléatoire mais pourrait potentiellement favoriser Websterdata, ou nous pourrions commencer avec un index public plus petit comme le Quantcast Top Million qui serait fortement biaisé en faveur des bons sites.

Nous avons décidé de prendre ce dernier point comme point de départ car les données de Quantcast le sont :

Reproductibles. Nous n’allions pas faire de la « sélection aléatoire d’URL » une partie de l’API de Websterdata, nous avions donc besoin de quelque chose avec lequel d’autres dans l’industrie pourraient également commencer. Quantcast Top Million est gratuit pour tout le monde.
Pas de parti pris pour Websterdata : nous préférerions pécher par excès de prudence, même si cela impliquait plus de travail pour éliminer le parti pris.
Un parti pris bien connu : Le biais inhérent au Quantcast Top 1 000 000 a été facilement compris – ce sont des sites importants et nous devons supprimer ce biais.
Le biais du Quantcast est naturel : Tout graphique de lien lui-même partage déjà une partie du biais Quantcast (les sites puissants sont plus susceptibles d’être bien liés)

Dans cette optique, nous avons sélectionné au hasard 10 000 domaines dans le Top Million de Quantcast et nous avons commencé à supprimer les biais.

2. Une sélection basée sur la taille du domaine plutôt que sur son importance

Comme nous savions que le Top Million de Quantcast était classé en fonction du trafic et que nous voulions atténuer ce biais, nous avons introduit un nouveau biais basé sur la taille du site. Pour chacun des 10 000 sites, nous avons identifié le nombre de pages du site selon Google en utilisant la commande « site : » et nous avons également récupéré les 100 premières pages du domaine. Nous pouvons maintenant équilibrer le « biais d’importance » avec un « biais de taille », qui reflète davantage le nombre d’URL sur le web. C’était la première étape pour atténuer le biais connu qui consiste à ne retenir que les sites de haute qualité dans le Top Million du Quantcast.

3. Sélection de points de départ pseudo-aléatoires sur chaque domaine

L’étape suivante a consisté à sélectionner au hasard des domaines parmi ces 10 000, en privilégiant les sites les plus importants. Lorsque le système sélectionne un site, il choisit ensuite au hasard parmi les 100 premières pages que nous avons recueillies sur ce site via Google. Cela permet d’atténuer un peu plus le biais d’importance. Nous ne commençons pas toujours par la page d’accueil. Bien que ces pages aient tendance à être des pages importantes du site, nous savons qu’elles ne sont pas toujours la page la plus importante, qui tend à être la page d’accueil. C’était la deuxième étape pour atténuer le biais connu. Des pages de moindre qualité sur des sites plus importants compensaient le biais intrinsèque des données Quantcast.

4. Crawl, crawl, crawl

Et c’est là que nous apportons notre plus grand changement. Nous parcourons le web en commençant par cet ensemble d’URL pseudo-aléatoires pour produire l’ensemble réel d’URL aléatoires. L’idée ici est de prendre toute la randomisation que nous avons intégrée dans l’ensemble d’URL pseudo-aléatoires et de laisser les crawlers cliquer au hasard sur les liens pour produire l’ensemble d’URL vraiment aléatoires. Le crawler sélectionnera un lien aléatoire dans notre ensemble pseudo-aléatoire et commencera ensuite un processus de clic aléatoire sur les liens, avec à chaque fois 10% de chances d’arrêter et 90% de chances de continuer. À chaque fois, il a 10 % de chances de s’arrêter et 90 % de continuer. À chaque fois que le crawler s’arrête, l’URL finale est déposée dans notre liste d’URL aléatoires. C’est cet ensemble final d’URL que nous utilisons pour effectuer nos mesures. Ce processus nous permet de générer environ 140 000 URL uniques par mois pour produire notre ensemble de données de test.

Et maintenant ? Définir les mesures

Une fois que nous avons l’ensemble aléatoire d’URL, nous pouvons commencer à vraiment comparer les index de liens et à mesurer leur qualité, leur quantité et leur vitesse. Heureusement, dans sa quête pour « faire ça bien », Websterdata m’a donné un accès généreux et payant aux API des concurrents. Nous avons commencé par tester Websterdata, Majestic, Ahrefs, et SEMRush, mais nous avons finalement abandonné SEMRush après leur partenariat avec Majestic.

Alors, à quelles questions pouvons-nous répondre maintenant que nous disposons d’un échantillon aléatoire du web ? C’est exactement la liste de souhaits que j’ai envoyée dans un courriel aux responsables du projet Link chez Websterdata :

La taille :
Quelle est la probabilité qu’une URL choisie au hasard figure dans notre index par rapport aux concurrents ?
Quelle est la probabilité qu’un domaine sélectionné au hasard figure dans notre index par rapport à ses concurrents ?
Quelle est la probabilité qu’un index indique le plus grand nombre de liens retour pour une URL ?
Quelle est la probabilité qu’un index indique le plus grand nombre de domaines de liens racine pour une URL ?
Quelle est la probabilité qu’un index indique le plus grand nombre de liens retour pour un domaine ?
Quelle est la probabilité qu’un index indique le nombre le plus élevé de domaines de liens racine pour un domaine ?
La vitesse :
Quelle est la probabilité que le dernier article d’un flux sélectionné au hasard figure dans notre index par rapport à nos concurrents ?
Quel est l’âge moyen d’une URL sélectionnée au hasard dans notre index par rapport à celui de nos concurrents ?
Quelle est la probabilité que le meilleur backlink pour une URL choisie au hasard soit toujours présent sur le web ?
Quelle est la probabilité que le meilleur lien retour pour un domaine choisi au hasard soit encore présent sur le web ?
Qualité :
Quelle est la probabilité que le statut d’une page sélectionnée au hasard dans l’index de Google (incluse ou non dans l’index) soit le même que le nôtre par rapport aux concurrents ?
Quelle est la probabilité que l’état de l’index d’une page sélectionnée au hasard dans les SERPs de Google soit le même que le nôtre par rapport aux concurrents ?
Quelle est la probabilité que le statut d’un domaine sélectionné au hasard dans l’index de Google soit le même que le nôtre par rapport à celui de nos concurrents ?
Quelle est la probabilité que le statut d’un domaine sélectionné au hasard dans les SERPs de Google soit le même que le nôtre par rapport à celui de nos concurrents ?
Dans quelle mesure notre indice se compare-t-il à celui de Google exprimé comme « un rapport proportionnel de pages par domaine par rapport à nos concurrents » ?
Quelle est la corrélation entre nos mesures d’URL et les classements de Google aux États-Unis par rapport à nos concurrents ?

Réalité contre théorie

Malheureusement, comme toute chose dans la vie, j’ai dû faire quelques coupes. Il s’avère que les API fournies par Websterdata, Majestic, Ahrefs et SEMRush diffèrent à certains égards importants – dans la structure des coûts, les ensembles de fonctionnalités et les optimisations. Par politesse, je ne mentionnerai le nom du fournisseur que lorsque c’est Websterdata qui faisait défaut. Examinons chacune des mesures proposées et voyons celles que nous pourrions conserver et celles que nous avons dû mettre de côté…

La taille : Nous avons pu contrôler les 6 mesures de taille !

La vitesse :
Nous avons pu inclure cette métrique de Fast Crawl.
Quel est l’âge moyen d’une URL choisie au hasard dans notre index par rapport aux concurrents ?
Il n’est pas possible de connaître l’âge d’une URL ou d’un domaine dans toutes les API, c’est pourquoi nous avons dû abandonner cette mesure.
Quelle est la probabilité que le meilleur lien retour pour une URL choisie au hasard soit toujours présent sur le web ?
Malheureusement, il n’a pas été possible de le faire à l’échelle, car une API est d’un coût prohibitif pour le tri des liens supérieurs et une autre est extrêmement lente pour les grands sites. Nous espérons, dans les mois à venir, effectuer un ensemble de mesures de liens en direct indépendamment de notre collection quotidienne de mesures.
Quelle est la probabilité que le meilleur lien retour pour un domaine choisi au hasard soit toujours présent sur le web ?
Une fois de plus, il n’a pas été possible de le faire à l’échelle parce qu’une API est d’un coût prohibitif pour le tri des liens supérieurs et qu’une autre est extrêmement lente pour les grands sites. Nous espérons, dans les mois à venir, effectuer un ensemble de mesures de liens en direct indépendamment de notre collection quotidienne de mesures.
Qualité :
Nous avons pu conserver cette métrique.
Quelle est la probabilité que l’état de l’index d’une page sélectionnée au hasard dans les SERP de Google soit le même que le nôtre par rapport à celui des concurrents ?
Nous avons choisi de ne pas poursuivre en raison des besoins internes de l’API, et nous envisageons de l’ajouter bientôt.
Nous avons pu conserver cette mesure.
Quelle est la probabilité que le statut de l’index d’un domaine sélectionné au hasard dans les SERPs de Google soit le même que le nôtre par rapport à celui de nos concurrents ?
Nous avons choisi de ne pas poursuivre en raison des besoins internes de l’API au début du projet, et nous envisageons d’en ajouter bientôt.
Dans quelle mesure notre index se compare-t-il à celui de Google exprimé sous la forme d’un ratio proportionnel de pages par domaine par rapport à nos concurrents ?
Nous avons choisi de ne pas poursuivre le projet en raison des besoins internes de l’API. Nous envisageons de l’ajouter bientôt.
Quelle est la corrélation entre nos mesures d’URL et le classement de Google aux États-Unis par rapport à nos concurrents ?
Nous avons choisi de ne pas poursuivre en raison des fluctuations connues de l’API/DA car nous modifions radicalement le graphique des liens. La mesure n’aurait aucun sens tant que l’indice ne serait pas stable.

En fin de compte, je n’ai pas pu obtenir tout ce que je voulais, mais je me suis retrouvé avec 9 mesures solides et bien définies.

Sur le sujet des liens vivants :

Dans l’intérêt d’être TAGFEE, j’avoue ouvertement que je pense que notre index a plus de liens supprimés que d’autres comme l’index Ahrefs Live. Au moment où j’écris ces lignes, nous avons environ 30 billions de liens dans notre index, dont 25 billions que nous pensons être en direct, mais nous savons qu’une certaine proportion d’entre eux ne le sont probablement pas. Si je crois que nous avons le plus de liens vivants, je ne crois pas que nous ayons la plus grande proportion de liens vivants dans un index. Cet honneur ne revient probablement pas à Websterdata. Je ne peux pas en être certain car nous ne pouvons pas le tester complètement et régulièrement, mais dans l’intérêt de la transparence et de l’équité, je me suis senti obligé de le mentionner. Je pourrais cependant consacrer un billet ultérieur à tester cette mesure pendant un mois et à décrire la méthodologie appropriée pour le faire de manière équitable, car il s’agit d’une mesure trompeuse et délicate à mesurer. Par exemple, si un lien est extrait d’une chaîne de redirections, il est difficile de dire si ce lien est toujours actif, à moins de connaître la cible initiale du lien. Nous n’allions suivre aucune mesure si nous n’arrivions pas à « l’obtenir correctement », c’est pourquoi nous avons dû mettre les liens actifs en attente pour le moment.

Mises en garde

N’en lisez pas plus avant de lire cette section. Si vous posez une question dans les commentaires qui montre que vous n’avez pas lu la section Avertissements, je vais juste dire « lisez la section Avertissements ». Alors voilà…

Il s’agit d’une comparaison de données qui reviennent via les API, et non pas au sein des outils eux-mêmes. De nombreux concurrents proposent des types d’index en direct, frais, historiques, etc. qui peuvent différer de manière importante. Il s’agit simplement d’une comparaison de données API utilisant des paramètres par défaut.
Nous paramétrons les drapeaux API pour supprimer tous les liens supprimés connus des métriques Websterdata, mais pas ceux des concurrents. Cela pourrait en fait biaiser les résultats en faveur des concurrents, mais nous avons pensé que ce serait la façon la plus honnête de représenter notre ensemble de données par rapport à des ensembles de données plus conservateurs comme Ahrefs Live.
Certaines mesures sont difficiles à estimer, notamment « si un lien est dans l’index », car aucune API – pas même Websterdata – ne dispose d’un appel qui vous dit simplement si elle a déjà vu le lien. Nous faisons de notre mieux, mais toute erreur ici se trouve sur le fournisseur de l’API. Je pense que nous (Websterdata, Majestic et Ahrefs) devrions tous envisager d’ajouter un point final comme celui-ci.
Les liens sont comptés différemment. Que les liens en double sur une page soient comptés, que les redirections soient comptées, que les canoniques soient comptées (ce que Ahrefs vient de changer récemment), etc. affectent tous ces paramètres. De ce fait, on ne peut pas être certain que tout est « pommes contre pommes ». Nous nous contentons de rapporter les données à leur valeur nominale.
Par la suite, le point le plus important dans tous ces graphiques et mesures est la direction. Comment les indices évoluent-ils les uns par rapport aux autres ? L’un rattrape-t-il son retard, un autre est-il en retard ? Ce sont les questions auxquelles il est le plus facile de répondre.
Les mesures sont contradictoires. Pour chaque URL ou domaine aléatoire, un index de lien (Websterdata, Majestic ou Ahrefs) obtient 1 point pour être le plus grand, pour être lié au plus grand ou pour être « correct ». Il obtient 0 point s’il n’est pas le gagnant. Cela signifie que la somme des graphiques ne sera pas égale à 100 et cela tend également à exagérer les différences entre les indices.
Enfin, je vais tout montrer, les verrues et tout le reste, même si c’était ma faute. Je vais montrer pourquoi certaines choses sont bizarres sur les graphiques et ce que nous avons corrigé. Ce fut une énorme expérience d’apprentissage et je suis reconnaissant de l’aide que j’ai reçue des équipes de soutien de Majestic et Ahrefs qui, en tant que client, ont répondu à mes questions honnêtement et ouvertement.

Le tableau de bord des mesures

Nous suivons ces 9 mesures de base (bien qu’avec des améliorations) depuis novembre 2017. En gardant un œil sur la qualité, la taille et la vitesse, nous avons méthodiquement construit un indice de rétroaction étonnant, qui n’est pas déterminé par des chiffres généraux, mais plutôt par des paramètres définis et mesurés de manière complexe. Passons maintenant en revue chacune de ces mesures.

La taille compte

C’est le cas. Admettons-le. La taille réduite de l’index Websterdatascape est une limitation depuis des années. Peut-être qu’un jour nous écrirons un long billet sur tous les efforts que Websterdata a fait pour augmenter l’index et sur les problèmes qui se sont posés, mais c’est un billet pour un autre jour. En vérité, autant la qualité est importante, autant la taille est énorme pour un certain nombre de cas d’utilisation spécifiques d’un index de liens. Vous voulez trouver tous vos mauvais liens ? Plus c’est gros, mieux c’est. Voulez-vous trouver beaucoup de possibilités de liens ? Plus c’est gros, mieux c’est. Nous avons donc mis au point un certain nombre de mesures pour nous aider à déterminer où nous nous situons par rapport à nos concurrents. Voici chacun de nos indicateurs de taille.

L’index contient l’URL

Quelle est la probabilité qu’une URL choisie au hasard figure dans notre index par rapport aux concurrents ?

C’est l’une de mes mesures préférées car je pense que c’est un reflet pur de la taille de l’index. Elle répond à la question simple suivante : « si nous avons saisi une URL aléatoire sur le web, quelle est la probabilité qu’un index en ait connaissance ? Cependant, vous pouvez voir ma courbe d’apprentissage dans le graphique (je faisais une fausse déclaration sur l’API Ahrefs à cause d’une erreur de ma part) mais une fois corrigée, nous avions un beau reflet des index. Permettez-moi de répéter ceci : il s’agit de comparaisons dans les API, et non dans les outils web eux-mêmes. Si je me souviens bien, vous pouvez obtenir davantage de données en exécutant des rapports dans Majestic, par exemple. Cependant, je pense que cela démontre que le nouvel explorateur de liens de Websterdata est un concurrent de taille, voire le plus grand, car nous avons été en tête dans cette catégorie tous les jours sauf un. Au moment où j’écris ces lignes, Websterdata est en train de gagner.

L’index a un domaine

Quelle est la probabilité qu’un domaine choisi au hasard figure dans notre index par rapport à ses concurrents ?

Quand j’ai dit que je montrerai « les verrues et tout », je le pensais. Déterminer si un domaine est dans un index n’est pas aussi simple qu’on pourrait le penser. Par exemple, un domaine a peut-être des pages dans l’index, mais pas la page d’accueil. Il m’a fallu un certain temps pour comprendre cela, mais en février de cette année, je l’avais compris.

Il est également important de noter l’échelle de ce graphique. La variation est de 99,4 à 100% entre Websterdata, Majestic et Ahrefs au cours des derniers mois. Cela indique à quel point les index de liens sont proches en termes de connaissance des domaines racine. Majestic a historiquement eu tendance à gagner cette mesure avec une couverture proche de 100%, mais il faudrait sélectionner 100 domaines au hasard pour en trouver un sur lequel Websterdata ou Ahrefs n’ont pas d’informations. Cependant, la croissance continue de Websterdata nous a permis de rattraper notre retard. Bien que les indices soient très proches, au moment d’écrire ce billet, Websterdata est en train de gagner.

Liens de retour par URL

Quel est l’index qui a le plus grand nombre de liens retour pour une URL choisie au hasard ?

C’est une mesure difficile à déterminer. Malheureusement, il n’est pas facile de déterminer quels sont les backlinks qui doivent compter et ceux qui ne doivent pas compter. Par exemple, imaginez qu’une URL comporte un lien vers une page, mais que cette page inclut ce lien 100 fois. Est-ce que c’est 100 liens ou un seul ? Eh bien, il s’avère que les différents index de liens mesurent probablement ces types de scénarios différemment et obtenir une définition exacte de chacun d’entre eux revient à s’arracher les dents, car la définition est si compliquée et il y a tant de cas limites. En tout cas, je pense que c’est un excellent exemple de ce que nous pouvons faire pour montrer l’importance de la direction. Quelles que soient les mesures, Websterdata et Majestic rattrapent leur retard sur Ahrefs, qui est le leader depuis un certain temps. Au moment où j’écris ces lignes, Ahrefs est en train de gagner.

Domaines de liens racine par URL

Quel index indique le nombre de RLD le plus élevé pour une URL choisie au hasard ?

Simple, n’est-ce pas ? Non, même cette métrique a ses nuances. Qu’est-ce qu’un domaine de liaison à la racine ? Les sous-domaines comptent-ils s’ils se trouvent sur des sites de sous-domaine comme Blogspot ou WordPress.com ? Si oui, combien y a-t-il de sites sur le web qui devraient être traités de cette manière ? Nous avons utilisé une méthode d’apprentissage automatique basée sur des enquêtes, des données du SERP et des données de liens uniques pour établir notre liste, mais chaque concurrent le fait différemment. Ainsi, pour cette métrique, la direction importe vraiment. Comme vous pouvez le voir, Websterdata a constamment rattrapé son retard et, au moment où j’écris ces lignes, il est enfin en train de gagner.

Liens retour par domaine

Quel indice indique le nombre de liens retour le plus élevé pour un domaine choisi au hasard ?

Cette mesure ne m’a pas plu, car j’ai découvert très tôt une terrible erreur. (Pour les autres techniciens qui lisent ceci, je stockais les comptes de backlink comme INT(11) plutôt que BIGINT, ce qui causait beaucoup de liens pour les grands domaines lorsqu’ils étaient plus grands que la taille maximale du nombre parce que la base de données par défaut est le même nombre le plus élevé). Néanmoins, Majestic vole la vedette à cette métrique depuis un petit moment, bien que l’histoire soit plus profonde que cela. Leur domination est une telle aberration qu’elle doit être expliquée.

L’une des décisions les plus difficiles qu’une entreprise doit prendre concernant son indice de backlink est de savoir comment gérer le spam. D’une part, le spam est cher pour l’indice et probablement ignoré par Google. D’autre part, il est important pour les utilisateurs de savoir s’ils ont reçu des tonnes de liens spammeurs. Je ne pense pas qu’il y ait une réponse correcte à cette question ; chaque index doit simplement choisir. Un examen attentif de la raison pour laquelle Majestic gagne (et continue d’accroître son avantage) est dû à un réseau de spam particulièrement infâme cloné par Wikipedia. Tout site ayant des liens de retour de Wikipédia reçoit des tonnes de liens de ce réseau, ce qui fait que leur nombre de liens de retour augmente rapidement. Si ce type de liens vous inquiète, vous devez aller voir sur Majestic et rechercher les liens se terminant principalement par .space ou .pro, y compris des sites comme tennis-fdfdbc09.pro, troll-warlord-64fa73ba.pro, et badminton-026a50d5.space. D’après mes derniers tests, il y a plus de 16 000 domaines de ce type dans ce réseau de spam dans l’index de Majestic. Majestic remporte cette mesure, mais à d’autres fins que la recherche de réseaux de spam, ce n’est peut-être pas le bon choix.

Relier les domaines racine par domaine

Quel indice indique le nombre de LRD le plus élevé pour un domaine choisi au hasard ?

OK, celui-là m’a pris un certain temps pour être juste. Au milieu de ce graphique, j’ai corrigé une erreur importante où je regardais les domaines uniquement pour le domaine racine sur Ahrefs plutôt que le domaine racine et tous les sous-domaines. C’était injuste pour Ahrefs jusqu’à ce que je fasse enfin tout corriger en février. Depuis lors, Websterdata a agressivement augmenté son indice, Majestic a repris les comptages LRD par le réseau précédemment évoqué mais s’est stabilisé, et Ahrefs est resté relativement stable en taille. En raison de la nature « contradictoire » de ces mesures, cela donne la fausse impression que l’indice Ahrefs est en chute libre. Ce n’est pas le cas. Ils sont toujours énormes, tout comme Majestic. Le véritable avantage est directionnel : Websterdata connaît une croissance spectaculaire par rapport à leurs réseaux. Au moment d’écrire ce billet, Websterdata est en train de gagner.

Vitesse

Être le « premier à savoir » est un élément important dans presque toutes les industries et avec les index de liens, il n’en va pas autrement. Vous voulez savoir le plus tôt possible quand un lien monte ou descend et quelle est la qualité de ce lien afin de pouvoir réagir si nécessaire. Voici notre mesure actuelle de la vitesse.

FastCrawl

Quelle est la probabilité que le dernier article d’un ensemble de flux RSS sélectionnés au hasard soit indexé ?

Contrairement aux autres mesures discutées, l’échantillonnage est ici un peu différent. Au lieu d’utiliser la randomisation ci-dessus, nous faisons une sélection aléatoire parmi plus d’un million de flux RSS connus pour trouver leur dernier billet et vérifier s’ils ont été inclus dans les différents index de Websterdata et de ses concurrents. Bien qu’il y ait quelques erreurs dans ce graphique, je pense qu’il n’y a qu’un seul point clair à retenir. Ahrefs a raison au sujet de ses crawlers. Ils sont rapides et ils sont partout. Alors que Websterdata a augmenté notre couverture de manière spectaculaire et rapide, il a à peine mis un bémol à cette métrique de FastCrawl.

Maintenant, vous pouvez vous demander, si Ahrefs est tellement plus rapide au crawling, comment Websterdata peut-il rattraper son retard ? Eh bien, il y a quelques réponses, mais la plus importante est probablement que les nouvelles URL ne représentent qu’une fraction du web. La plupart des URL ne sont pas nouvelles. Disons que deux index (un nouveau, un ancien) ont un tas d’URL qu’ils envisagent d’explorer. Les deux index pourraient donner la priorité à des URL sur des domaines importants qu’ils n’ont jamais vus auparavant. Pour l’index le plus important et le plus ancien, ce sera un pourcentage plus faible de ce groupe parce qu’il a été exploré rapidement pendant longtemps. Ainsi, au cours de la journée, un pourcentage plus élevé du crawl de l’ancien index sera consacré à la réouverture de pages déjà connues. Le nouvel index peut consacrer une plus grande partie de son potentiel d’exploration à de nouvelles URL.

Cependant, il met maintenant la pression sur Websterdata pour qu’il améliore l’infrastructure d’exploration alors que nous rattrapons et dépassons les Ahrefs dans certaines mesures de taille. A partir de ce post, Ahrefs est en train de gagner la mesure FastCrawl.

Qualité

Bon, maintenant on parle ma langue. C’est la chose la plus importante, à mon avis. Quel est l’intérêt de faire un graphique de liens pour aider les gens à faire du référencement si ce n’est pas similaire à Google ? Bien que nous ayons dû réduire temporairement certaines mesures, nous en avons obtenu quelques-unes qui sont vraiment importantes et qui méritent d’être examinées.

Correspondance des index de domaines

Quelle est la probabilité qu’un domaine aléatoire partage le même statut d’index dans Google et un index de liens ?

Domain Index Matches cherche à déterminer quand un domaine partage le même statut d’index avec Google que celui de l’un des index de liens concurrents. Si Google ignore un domaine, nous voulons ignorer un domaine. Si Google indexe un domaine, nous voulons indexer un domaine. Si nous avons un domaine que Google n’indexe pas, ou vice versa, c’est mauvais.

Ce graphique est un peu plus difficile à lire en raison de l’échelle (les premiers jours de suivi ont été des échecs), mais ce que nous voyons en fait est une différence statistiquement insignifiante entre Websterdata et nos concurrents. Nous pouvons le faire paraître plus compétitif qu’il ne l’est réellement si nous calculons seulement les gains et les pertes, mais nous devons tenir compte d’une erreur dans la façon dont nous avons déterminé le statut de l’indice Ahrefs jusqu’aux environs de février. Pour ce faire, je montre les gains et les pertes de tous les temps par rapport aux gains et aux pertes des derniers mois.

Rappel : il s’agit de statistiques contradictoires. L’indice Ahrefs est en fait très proche. Ils perdent constamment par une très faible marge, ils ne perdent pas beaucoup. Cependant, les agrégats sont constants dans le temps. Cependant, comme vous pouvez le voir, Websterdata gagne « tout le temps », mais Majestic gagne davantage ces derniers mois. Néanmoins, ceux-ci sont assez insignifiants, étant souvent la différence entre un ou deux statuts d’index de domaine sur 100. Tout comme la mesure « Index Has Domain » dont nous avons parlé ci-dessus, presque tous les index de liens ont presque tous les domaines, et l’examen du graphique à long terme jour par jour montre à quel point ils sont incroyablement proches. Cependant, si nous tenons compte des résultats, à ce jour (et pour la plupart de la semaine dernière), Websterdata remporte cette mesure.

Correspondance des URL des domaines

Quelle est la probabilité qu’une URL aléatoire partage le même statut d’index dans Google que dans un index de liens ?

C’est la mesure de qualité la plus importante, à mon avis. Permettez-moi de l’expliquer un peu plus. C’est une chose de dire que votre index est vraiment gros et comporte beaucoup d’URL, mais ressemble-t-il à celui de Google ? Est-ce que vous naviguez sur le web comme Google ? Ignorez-vous les URL que Google ignore tout en explorant les URL que Google explore ? C’est une question vraiment importante qui pose les bases d’un index de backlink capable de produire de bonnes métriques relationnelles comme PA et DA.

C’est l’une des métriques où Websterdata brille vraiment. Une fois que nous avons corrigé une erreur dans la façon dont nous vérifions les Ahrefs, nous pouvons déterminer avec précision si notre indice ressemble plus ou moins à celui de Google que nos concurrents. Depuis le début du suivi, Websterdata Link Explorer n’a jamais été autre chose que le numéro 1. En fait, nous n’avons eu que 3 liens avec Ahrefs et n’avons jamais perdu contre Majestic. Nous avons personnalisé notre crawl pour qu’il ressemble le plus possible à celui de Google, et cela a porté ses fruits. Nous ignorons les types d’URL que Google déteste, et nous recherchons les URL que Google aime. Nous pensons que cette méthode sera très rentable à long terme pour nos clients, car nous développons notre gamme de fonctionnalités à partir d’un indice déjà très important et de grande qualité.

Les Jeux olympiques de l’index des liens

Très bien, nous venons de passer beaucoup de temps à étudier ces mesures individuelles, donc je pense qu’il vaut probablement la peine de mettre ces choses dans un contexte facile à comprendre. Imaginons un instant qu’il s’agisse des Jeux olympiques de Link Index, et que peu importe le nombre de points gagnés ou perdus, cela détermine si vous recevez une médaille d’or, de bronze ou d’argent. J’écris ceci le mercredi 25 avril. Voyons comment les choses se passeraient si les Jeux olympiques avaient lieu aujourd’hui :

Comme vous pouvez le voir, Websterdata remporte l’or dans six des neuf mesures que nous mesurons, deux en argent et une en bronze. De plus, nous continuons à augmenter et à améliorer notre indice chaque jour. Comme l’indiquent la plupart des graphiques ci-dessus, nous avons tendance à nous améliorer par rapport à nos concurrents, j’espère donc que d’ici la publication dans une semaine environ, nos scores seront encore meilleurs. Mais la réalité est que, d’après les mesures ci-dessus, la qualité, la quantité et la vitesse de notre indice de liens sont excellentes. Je ne vais pas dire que notre indice est le meilleur. Je pense que personne ne peut vraiment le savoir et que cela dépend fortement du cas d’utilisation spécifique. Mais je peux dire ceci – c’est sacrément bon. En fait, Websterdata a gagné ou a été à égalité pour l' »or » 27 sur les 30 derniers jours.

Et maintenant ?

Nous allons chercher l’or. Tout l’or. Tout le temps. Il y a une tonne de bonnes choses à l’horizon. Nous nous réjouissons de l’ajout régulier de nouvelles fonctionnalités à Link Explorer, basées sur les données dont nous disposons déjà, d’une navigation plus rapide et de mesures améliorées (PA, DA, score de spam, et peut-être même de nouvelles en préparation ! Nous avons parcouru un long chemin mais nous savons qu’il nous reste encore beaucoup à faire. Nous vivons une époque passionnante !

Un peu de DA et PA

L’autorité de domaine et l’autorité de page sont alimentées par notre index de liens. Comme nous passons d’un ancien index beaucoup plus petit à un index plus grand et beaucoup plus rapide, vous pouvez voir des changements petits ou grands de DA et PA en fonction de ce que nous avons crawlé dans ce nouvel index que l’ancien index Websterdatascape a manqué. Votre meilleure chance est de vous comparer à vos concurrents. En outre, à mesure que notre index s’accroît, nous devons constamment ajuster le modèle pour tenir compte de la taille et de la forme de notre index, de sorte que DA et PA resteront tous deux en bêta pendant un certain temps. Ils sont absolument prêts pour le prime-time, mais cela ne veut pas dire que nous n’avons pas l’intention de continuer à les améliorer au cours des prochains mois, à mesure que la croissance de notre indice se stabilisera. Merci !

Les nouveautés rapides

Félicitations pour votre réussite, mais permettez-moi de vous donner quelques clés à retenir :

Le nouveau Websterdata Link Explorer est alimenté par un graphique de liens de pointe et nous avons les données pour le prouver.
Dites à vos fournisseurs de données de faire passer leurs calculs avant leurs paroles. Vous méritez des mesures honnêtes et bien définies, et vous avez tout à fait raison de l’exiger de vos fournisseurs de données.
Pour bien faire les choses, il faut s’attarder sur les détails. Je ne peux que louer nos dirigeants, les PME, les concepteurs et les ingénieurs qui ont posé des questions difficiles, creusé et résolu des problèmes difficiles, en refusant de construire autre chose que le meilleur. Cet index de liens prouve que Websterdata peut résoudre le problème le plus difficile en matière de référencement : l’indexation du web. Si nous pouvons faire cela, vous ne pouvez qu’espérer de grandes choses à l’avenir.

Merci d’avoir pris le temps de lire ! J’attends avec impatience de répondre aux questions dans les commentaires ou vous pouvez me joindre sur Twitter à @rjonesx.

J’aimerais également remercier à l’avance les personnes qui n’ont pas participé à l’étude de Websterdatazers et qui ont proposé des évaluations et des critiques de ce billet – elles n’approuvent pas nécessairement les conclusions, mais ont fourni des commentaires précieux. Je tiens à remercier en particulier Patrick Stox d’IBM, JR Oakes d’Adapt Partners, Alexander Darwin de HomeAgency, Paul Shapiro de Catalyst SEM, la personne à qui je fais le plus confiance en matière de référencement, Tony Spencer, et une poignée d’autres personnes qui ont souhaité rester anonymes.

A propos de rjonesx –

Je suis Russ Jones, chercheur principal chez System1 et chercheur adjoint chez Websterdata. J’ai trois filles extraordinaires, Claren, Aven et Ellis, une femme incomparable, Morgan, et je suis un nerd chrétien et démocrate qui ne sait pas toujours quand il faut se taire 🙂

44
60