Autorité de la page 2.0 : Mise à jour sur les tests et le calendrier

Autorité de la page 2.0 : Mise à jour sur les tests et le calendrier

Autorité de la page 2.0 : Mise à jour sur les tests et le calendrier

L’une des décisions les plus difficiles à prendre dans n’importe quel domaine est de choisir consciemment de ne pas respecter une échéance. Au cours des derniers mois, une équipe composée de certains des plus brillants ingénieurs, scientifiques, chefs de projet, rédacteurs et spécialistes du marketing a travaillé pour que la nouvelle Autorité des pages (PA) soit publiée le 30 septembre 2020. Le nouveau modèle est exceptionnel à presque tous les égards par rapport à l’actuel PA, mais notre dernière mesure de contrôle de la qualité a révélé une anomalie que nous ne pouvions pas ignorer.

En conséquence, nous avons pris la décision difficile de retarder le lancement de Page Authority 2.0. Permettez-moi donc de prendre un moment pour retracer nos pas et expliquer comment nous en sommes arrivés là, où cela nous mène et comment nous avons l’intention de procéder.

Voir un vieux problème avec un regard neuf

Historiquement, Websterdata a utilisé la même méthode à maintes reprises pour construire un modèle d’autorité de page (ainsi que d’autorité de domaine). L’avantage de ce modèle était sa simplicité, mais il laissait beaucoup à désirer.

Les précédents modèles de Page Authority s’entraînaient contre les SERP, en essayant de prédire si une URL se classerait ou non par rapport à une autre, sur la base d’un ensemble de mesures de liens calculées à partir de l’index des liens de l’explorateur de liens. L’un des principaux problèmes de ce type de modèle était qu’il ne permettait pas de traiter de manière significative la force maximale d’un ensemble particulier de mesures de liens.

Par exemple, imaginez les URL les plus puissantes sur Internet en termes de liens : les pages d’accueil de Google, Youtube, Facebook, ou les URL de partage des boutons de réseaux sociaux suivis. Il n’existe pas de SERP qui oppose ces URL les unes aux autres. Au lieu de cela, ces URL extrêmement puissantes se classent souvent en première position, suivies par des pages dont les mesures sont nettement inférieures. Imaginez que Michael Jordan, Kobe Bryant et Lebron James s’affrontent en tête à tête avec des joueurs du secondaire. Chacun gagnerait à chaque fois. Mais nous aurions beaucoup de mal à extrapoler à partir de ces résultats si Michael Jordan, Kobe Bryant ou Lebron James gagnaient dans des concours individuels les uns contre les autres.

Lorsque nous avons été chargés de réexaminer l’Autorité des domaines, nous avons finalement choisi un modèle avec lequel nous avions beaucoup d’expérience : la méthode d’entraînement originale des SERP (bien qu’avec un certain nombre de modifications). Avec Page Authority, nous avons décidé d’utiliser une méthode de formation différente en prédisant quelle page aurait le plus de trafic organique total. Ce modèle présentait plusieurs qualités prometteuses, comme la possibilité de comparer des URL qui n’apparaissent pas sur le même SERP, mais présentait également d’autres difficultés, comme une page ayant une grande équité de liens mais se trouvant simplement dans une zone thématique peu fréquentée. Nous avons répondu à nombre de ces préoccupations, comme l’amélioration de l’ensemble de formation, pour tenir compte de la compétitivité en utilisant une mesure sans lien.

Mesurer la qualité de la nouvelle Autorité de la page

Les résultats ont été – et sont – très prometteurs.

Tout d’abord, le nouveau modèle a évidemment prédit la probabilité qu’une page ait un trafic organique plus précieux qu’une autre. C’était attendu, car le nouveau modèle visait cet objectif particulier, alors que l’actuel Page Authority se contentait de prédire si une page serait mieux classée qu’une autre.

Deuxièmement, nous avons constaté que le nouveau modèle prévoyait si une page serait mieux classée qu’une autre par rapport au Page Authority précédent. Cette constatation est particulièrement réjouissante, car elle a dissipé nombre de nos craintes que le nouveau modèle ne soit pas aussi performant que les anciens contrôles de qualité en raison du nouveau modèle de formation.

Dans quelle mesure le nouveau modèle permet-il de mieux prédire les SERP que l’autorité de pagination actuelle ? À chaque intervalle – jusqu’à la position 4 contre 5 – le nouveau modèle est égal ou supérieur au modèle actuel. Il n’a jamais perdu.

Tout se passait bien. Nous avons alors commencé à analyser les valeurs aberrantes. J’aime appeler cela le test « est-ce que tout a l’air stupide ? ». L’apprentissage machine fait des erreurs, tout comme les humains le peuvent, mais les humains ont tendance à faire des erreurs d’une manière très particulière. Lorsqu’un humain fait une erreur, nous comprenons souvent exactement pourquoi l’erreur a été commise. Ce n’est pas le cas pour le ML, en particulier les réseaux neuronaux ; nous avons extrait les URL avec des autorités de page élevées sous le nouveau modèle qui se trouvait n’avoir aucun trafic organique, et les avons inclus dans le jeu de formation pour apprendre pour ces erreurs. Nous avons rapidement vu des AP bizarres de 90+ tomber à des 60 et 70 beaucoup plus raisonnables… une autre victoire.

Il ne restait plus qu’un dernier test.

Le problème de la recherche par marque

Certains des mots clés les plus populaires sur le web sont « navigation ». Les gens font des recherches sur Google pour trouver Facebook, Youtube et même Google lui-même. Ces mots-clés sont recherchés un nombre astronomique de fois par rapport aux autres mots-clés. Par la suite, une poignée de marques très puissantes peut avoir un impact énorme sur un modèle qui considère le volume total de recherche comme faisant partie de son objectif principal de formation.

Le dernier test consiste à comparer l’autorité de page actuelle à la nouvelle autorité de page, afin de déterminer s’il existe des aberrations bizarres (où l’autorité de page a changé de façon spectaculaire et sans raison évidente). Tout d’abord, examinons une simple comparaison entre le LOG des domaines racine de liaison et l’autorité de la page.

Pas trop minable. Nous constatons une corrélation généralement positive entre les liens entre les domaines racine et l’autorité de la page. Mais pouvez-vous repérer les bizarreries ? Allez-y et prenez une minute…

Deux anomalies ressortent de ce tableau :

Il y a un curieux écart entre la distribution principale des URL et les valeurs aberrantes au-dessus et en dessous.
L’écart le plus important pour une seule note se situe à PA 99. Il y a un très grand nombre de PA 99 avec un large éventail de domaines racine de liens.

Voici une visualisation qui vous aidera à faire ressortir ces anomalies :




Les espaces gris entre le vert et le rouge représentent cet étrange écart entre la majeure partie de la distribution et les valeurs aberrantes. Les valeurs aberrantes (en rouge) ont tendance à se regrouper, surtout au-dessus de la distribution principale. Et, bien sûr, on peut voir la mauvaise distribution au sommet des PA 99.

Gardez à l’esprit que ces problèmes ne sont pas suffisants pour rendre le nouveau modèle de Page Authority moins précis que le modèle actuel. Toutefois, après un examen plus approfondi, nous avons constaté que les erreurs produites par le modèle étaient suffisamment importantes pour pouvoir influencer négativement les décisions de nos clients. Il est préférable d’avoir un modèle qui est décalé d’un peu partout (parce que les ajustements effectués par les référenceurs ne sont pas incroyablement précis) que d’avoir un modèle qui est correct presque partout mais bizarrement erroné dans un nombre limité de cas.

Heureusement, nous sommes assez confiants quant à la nature du problème. Il semble que les AP de la page d’accueil soient gonflés de façon disproportionnée et que le coupable probable soit l’ensemble de la formation. Nous ne pouvons pas être certains que c’est la cause tant que nous n’avons pas terminé la formation, mais c’est une piste solide.

La bonne et la mauvaise nouvelle

Nous sommes en bonne forme dans la mesure où nous disposons de plusieurs modèles de candidats qui surpassent l’Autorité des pages existante. Nous en sommes au stade de l’écrasement des bugs, pas de la construction de modèles. Toutefois, nous n’allons pas publier de nouvelle partition tant que nous ne serons pas sûrs qu’elle orientera nos clients dans la bonne direction. Nous sommes très attentifs aux décisions que prennent nos clients sur la base de nos mesures, et pas seulement à la question de savoir si ces mesures répondent à certains critères statistiques.

Compte tenu de tout cela, nous avons décidé de retarder le lancement de Page Authority 2.0. Cela nous donnera le temps nécessaire pour répondre à ces préoccupations premières et produire une métrique de premier ordre. Frustrant ? Oui, mais aussi nécessaire.

Comme toujours, nous vous remercions de votre patience et nous sommes impatients de produire la meilleure métrique de Page Authority que nous ayons jamais publiée.

Visitez le Centre de ressources de l’Autorité palestinienne

A propos de rjonesx –

Je suis Russ Jones, chercheur principal à System1 et chercheur adjoint à Websterdata. J’ai trois filles extraordinaires, Claren, Aven et Ellis, une femme incomparable, Morgan, et je suis un nerd chrétien et démocrate qui ne sait pas toujours quand il faut se taire 🙂

24
10