Mise à jour du noyau de Google de mai 2020 : les gagnants, les gagnants, les perdants et pourquoi tout cela est probablement de la merde

Mise à jour du noyau de Google de mai 2020 : les gagnants, les gagnants, les perdants et pourquoi tout cela est probablement de la merde

Mise à jour du noyau de Google de mai 2020 : les gagnants, les gagnants, les perdants et pourquoi tout cela est probablement de la merde

Le 4 mai, Google a annoncé le lancement d’une nouvelle mise à jour du noyau. Le 7 mai, il est apparu que la poussière était presque retombée. Voici une vue sur 11 jours de WebsterdataCast :

Nous avons mesuré une volatilité relativement élevée du 4 au 6 mai, avec un pic de 112,6° le 5 mai. Notez que la température moyenne sur 30 jours avant le 4 mai était historiquement très élevée (89,3°).

Comment cela se compare-t-il aux précédentes mises à jour de base ? En tenant compte du fait que les températures récentes ont été bien supérieures aux moyennes historiques, la mise à jour de base de mai 2020 a été notre deuxième mise à jour de base la plus chaude jusqu’à présent, arrivant juste en dessous de la mise à jour « Medic » d’août 2018.

Qui a « gagné » la Core Update de mai ?

Il est courant de faire état des gagnants et des perdants après une mise à jour majeure (et je l’ai fait moi-même), mais depuis un certain temps, je crains que ces analyses ne couvrent qu’une petite fenêtre de temps. Chaque fois que nous comparons deux points fixes dans le temps, nous ignorons la volatilité naturelle des classements de recherche et les différences inhérentes entre les mots clés.

Cette fois-ci, j’aimerais examiner attentivement les pièges. Je vais me concentrer sur les gagnants. Le tableau ci-dessous présente les gagnants d’un jour (5 mai) par classement total dans l’ensemble de suivi WebsterdataCast de 10 000 mots-clés. Je n’ai inclus que les sous-domaines ayant au moins 25 classements au 4 mai :

En mettant de côté les suspects statistiques habituels (petites tailles d’échantillon pour certains mots-clés, les avantages et les inconvénients uniques de notre ensemble de données, etc. ), quel est le problème de cette analyse ? Bien sûr, il y a différentes façons de rapporter le « % de gain » (comme la variation absolue par rapport au pourcentage relatif), mais j’ai rapporté les chiffres absolus honnêtement et la variation relative est exacte.

Le problème est qu’en nous précipitant pour présenter les chiffres après un jour, nous avons ignoré la réalité, à savoir que la plupart des mises à jour de base sont pluri-journalières (une tendance qui semble se poursuivre pour la mise à jour de base de mai, comme le montre notre graphique initial). Nous n’avons pas non plus tenu compte des domaines dont les classements peuvent être historiquement volatils (mais nous y reviendrons plus tard). Que se passe-t-il si nous comparons les données sur 1 jour et sur 2 jours ?

Quelle est l’histoire que nous racontons ?

Le tableau ci-dessous ajoute le pourcentage relatif de gain sur deux jours. J’ai conservé les 25 sous-domaines et je continuerai à les trier en fonction du pourcentage gagné sur 1 jour, par souci de cohérence :

Même en comparant les deux premiers jours du déploiement, nous pouvons constater que l’histoire évolue considérablement. Le problème est le suivant : Quelle est l’histoire que nous racontons ? Souvent, nous ne regardons même pas des listes, mais des anecdotes basées sur nos propres clients ou des données choisies avec soin. Considérez cette histoire :

Si c’était notre seule vue des données, nous conclurions probablement que la mise à jour s’est intensifiée au cours des deux jours, le deuxième jour récompensant encore plus les sites. Nous pourrions même commencer à rédiger un article sur l’augmentation de la demande d’applications ou sur les récompenses accordées à certains sites d’information. Ces histoires pourraient avoir un grain de vérité, mais le fait est que nous n’avons aucune idée à partir de ces seules données.

Maintenant, choisissons trois points de données différents (tous font partie des 20 premiers) :

De ce point de vue limité, nous pourrions conclure que Google a décidé que la mise à jour de base a mal tourné et l’a inversée le deuxième jour. Nous avons même pu conclure que certains sites d’information étaient pénalisés pour une raison quelconque. Cela raconte une histoire radicalement différente de la première série d’anecdotes.

Il y a une histoire encore plus étrange enfouie dans les données de mai 2020. Considérez ceci :

LinkedIn a montré une petite bosse (que nous ignorons généralement) le premier jour, puis a perdu 100 % de son classement le deuxième jour. Wow, cette mise à jour de May Core a vraiment du punch ! Il s’avère que LinkedIn a peut-être accidentellement désindexé son site – il s’est rétabli le lendemain, et il semble que ce changement massif n’ait rien à voir avec la Core Update. La simple vérité est que ces chiffres nous en disent très peu sur les raisons pour lesquelles un site a gagné ou perdu des classements.

Comment définir le terme « normal » ?

Examinons de plus près les données de MarketWatch. Marketwatch a gagné 19% dans les statistiques sur 1 jour, mais a perdu 2% dans les chiffres sur 2 jours. Le problème ici est que nous ne savons pas, à partir de ces chiffres, à quoi ressemble le flux normal du SERP de MarketWatch. Voici un graphique de sept jours avant et après le 4 mai (le début de la mise à jour de base) :

En examinant ne serait-ce qu’une petite partie des données historiques, nous pouvons constater que MarketWatch, comme la plupart des sites d’information, connaît une volatilité importante. Les « gains » du 5 mai sont uniquement dus aux pertes du 4 mai. Il s’avère que la moyenne sur 7 jours après le 4 mai (45,7) n’est qu’une légère augmentation par rapport à la moyenne sur 7 jours avant le 4 mai (44,3), MarketWatch mesurant un modeste gain relatif de +3,2%.

Examinons maintenant Google Play, qui semble être clairement gagnant après deux jours :

Il n’est même pas nécessaire de faire le calcul pour voir la différence. En comparant la moyenne sur 7 jours avant le 4 mai (232,9) à la moyenne sur 7 jours après (448,7), Google Play a connu un changement relatif spectaculaire de +93 % après la mise à jour de base de mai.

Comment cette comparaison avant/après sur 7 jours fonctionne-t-elle avec l’incident LinkedIn ? Voici un graphique avant/après avec les lignes pointillées ajoutées pour les deux moyennes :

Bien que cette approche contribue certainement à compenser l’anomalie d’un seul jour, nous affichons toujours un changement avant/après de -16%, ce qui n’est pas vraiment conforme à la réalité. Vous pouvez voir que six des sept jours après la mise à jour de base de mai étaient supérieurs à la moyenne de sept jours. Notez que LinkedIn a également une volatilité relativement faible sur l’historique à court terme.

Pourquoi est-ce que je choisis un exemple extrême où mon nouveau système de mesure n’est pas à la hauteur ? Je veux qu’il soit parfaitement clair qu’aucune mesure ne peut jamais tout dire. Même en tenant compte de la variance et en effectuant des tests statistiques, il nous manque encore beaucoup d’informations. Une différence avant/après claire ne nous dit pas ce qui s’est réellement passé, mais seulement qu’il y a eu un changement en corrélation avec le moment de la mise à jour de base. Ce sont des informations utiles, mais elles doivent encore être étudiées avant que nous ne tirions des conclusions générales.

Dans l’ensemble, cependant, l’approche est certainement meilleure que les tranches d’un jour. L’utilisation de la comparaison de la moyenne des 7 jours avant et après tient compte à la fois des données historiques et des 7 jours complets après la mise à jour. Et si nous étendions cette comparaison des périodes de 7 jours à l’ensemble des données plus importantes ? Voici notre liste originale des « gagnants » avec les nouveaux chiffres :

Il est évident que cela fait beaucoup à digérer dans un seul tableau, mais nous pouvons commencer à voir où la mesure avant/après (la différence relative entre les moyennes sur 7 jours) donne une image différente, dans certains cas, que la vue sur 1 jour ou sur 2 jours. Reconstruisons les 20 premiers en nous basant sur le pourcentage de variation avant et après :

Certains des grands acteurs sont les mêmes, mais nous avons aussi quelques nouveaux venus – y compris des sites qui semblaient avoir perdu leur visibilité le premier jour, mais qui ont accumulé des gains sur 2 et 7 jours.

Jetons un coup d’œil rapide sur Parents.com, notre grand gagnant initial (gagnant ? gagnant ?). Le premier jour, le gain a été énorme (+100 %), mais les chiffres du deuxième jour ont été plus modestes, et les gains avant et après se sont élevés à un peu moins de la moitié de ceux du premier jour. Voici les sept jours avant et après :

Il est facile de voir ici que le saut du premier jour était une anomalie à court terme, basée en partie sur une baisse le 4 mai. La comparaison des moyennes sur sept jours semble se rapprocher de la vérité. C’est un avertissement non seulement pour les traqueurs d’algo comme moi, mais aussi pour les SEO qui pourraient voir ce +100% et se précipiter pour le dire à leur patron ou client. Ne laissez pas une bonne nouvelle se transformer en une promesse que vous ne pouvez pas tenir.

Pourquoi continuons-nous à faire cela ?

Si vous avez l’impression que je lance un appel au secteur, sachez que je suis dans ma ligne de mire. La pression est énorme pour que les analyses soient publiées rapidement, non seulement parce que cela équivaut à du trafic et des liens (franchement, c’est le cas), mais aussi parce que les propriétaires de sites et les référenceurs veulent vraiment des réponses. Comme je l’ai écrit récemment, je pense qu’il est extrêmement dangereux de surinterpréter les pertes à court terme et de corriger les mauvaises choses. Cependant, je pense qu’il y a aussi un réel danger à surestimer les gains à court terme et à s’attendre à ce que ces gains soient permanents. Cela peut conduire à des décisions tout aussi risquées.

Est-ce que tout cela est de la merde ? Non, je ne pense pas, mais je pense qu’il est très facile de quitter le trottoir et de se retrouver dans la boue après une tempête, et qu’il faut au moins attendre que le sol soit sec. Ce n’est pas facile dans un monde de Twitter et de cycles d’information de 24 heures, mais il est essentiel d’avoir une vue sur plusieurs jours, d’autant plus que de nombreuses mises à jour d’algorithmes importants se déroulent sur de longues périodes.

Quels chiffres devons-nous croire ? Dans un sens, tous, ou du moins tous ceux que nous pouvons vérifier de manière adéquate. Aucune mesure ne peut à elle seule brosser un tableau complet, et avant de vous précipiter pour célébrer votre victoire, il est important de passer à l’étape suivante et de bien comprendre les tendances historiques et le contexte de toute victoire.

Qui veut des données gratuites ?

Compte tenu de l’ampleur de l’analyse, je n’ai pas couvert les perdants de la mise à jour de base de mai 2020 dans ce billet ni dépassé le Top 20, mais vous pouvez télécharger les données brutes ici. Si vous souhaitez les modifier, veuillez d’abord en faire une copie. Les gagnants et les perdants se trouvent sur des onglets séparés, et cela couvre tous les domaines avec au moins 25 classements dans notre ensemble de données WebsterdataCast 10K le 4 mai (un peu plus de 400 domaines).

26
21