Peut-on prédire le temps qu’il fera sur Google ?

Peut-on prédire le temps qu’il fera sur Google ?

Peut-on prédire le temps qu'il fera sur Google ?

[Durée de lecture estimée : 7 minutes]

Il y a quatre ans, quelques semaines à peine avant la première mise à jour de Penguin, le projet WebsterdataCast a commencé à recueillir ses premières données réelles. Détecter et interpréter les mises à jour de l’algorithme de Google a été à la fois un défi bien plus difficile et bien plus gratifiant que ce à quoi je m’attendais, et j’ai beaucoup appris en cours de route, mais il y a une question lancinante à laquelle je n’ai jamais pu répondre avec satisfaction. Pouvons-nous utiliser les données passées de Google pour prévoir les futures mises à jour ?

Avant toute analyse, j’ai toujours aimé utiliser mes yeux. À quoi ressemble la « météo » de l’algorithme de Google sur une longue période ? Voici une année complète de températures WebsterdataCast :

La plupart d’entre nous savent maintenant que Google n’est pas une machine silencieuse qui ronronne jusqu’à ce qu’une mise à jour nominative occasionnelle ait lieu quelques fois par an. L’algorithme change constamment et, même si ce n’était pas le cas, le web change constamment autour de lui. Trouver le signal dans le bruit est déjà assez difficile, mais qu’est-ce qu’un pic ou une vallée dans ce graphique vous dit sur le moment où le prochain pic pourrait arriver ? Très peu, à première vue.

Mais c’est pire que cela.

Avant même de se plonger dans les données, il y a un problème fondamental à essayer de prévoir les futures mises à jour des algorithmes. Pour le comprendre, examinons un problème différent : la prévision du temps dans le monde réel. Prévoir le temps qu’il fera dans le monde réel est incroyablement difficile et nécessite une quantité massive de données pour être efficace, mais nous savons que le temps suit un ensemble de lois naturelles. En fin de compte, quelle que soit la complexité du problème, il existe une chaîne de causalité entre le temps d’aujourd’hui et celui de demain et un schéma dans le chaos.

L’algorithme de Google est construit par des personnes, guidées par des motivations humaines et politiques, et n’est contraint que par les règles de ce qui est technologiquement possible. Il est vrai que Google ne remplacera pas l’ensemble du SERP par la photo d’un sandwich au fromage demain, mais il peut mettre à jour l’algorithme à tout moment, pour n’importe quelle raison. Il n’existe pas de lois naturelles qui lient l’algorithme de demain à celui d’aujourd’hui. L’histoire peut nous renseigner sur les motivations de Google et nous pouvons faire des prédictions raisonnables sur l’avenir de l’algorithme, mais ces futures mises à jour de l’algorithme ne sont pas nécessairement liées à un modèle ou à un calendrier.

Que savons-nous réellement ?

Si nous nous fions aux déclarations publiques de Google, nous savons qu’il existe de nombreuses mises à jour de l’algorithme. Le fait que seule une poignée d’entre elles soient nommées explique en partie pourquoi nous avons construit WebsterdataCast en premier lieu. En 2011, Eric Schmidt a témoigné devant le Congrès, et son témoignage écrit comprenait les données suivantes :

Pour vous donner une idée de l’ampleur des changements envisagés par Google, en 2010, nous avons mené 13 311 évaluations de précision pour voir si les changements d’algorithme proposés amélioraient la qualité de ses résultats de recherche, 8 157 expériences côte à côte où il a présenté deux ensembles de résultats de recherche à un panel de testeurs humains et a demandé aux évaluateurs de classer l’ensemble de résultats qui était le meilleur, et 2 800 évaluations de clic pour voir comment un petit échantillon d’utilisateurs réels de Google a réagi au changement. Au final, le processus a abouti à 516 modifications qui ont été jugées utiles aux utilisateurs sur la base des données et ont donc été apportées à l’algorithme de Google.

J’ai souligné une phrase – « 516 changements ». A une époque où nous pensions que Google faisait peut-être une douzaine de mises à jour par an, Schmidt a révélé que c’était plus proche de 10X/semaine. Aujourd’hui, nous ne savons pas comment Google définit les « changements », et beaucoup de ces changements étaient sans doute mineurs, mais il est clair que Google change constamment.

La page « Comment fonctionne la recherche » de Google révèle qu’en 2012, ils ont procédé à 665 « améliorations » ou « lancements » sur la base d’un nombre incroyable de 118 812 évaluations de précision. En août 2014, Amit Singhal a déclaré sur Google+ qu’ils avaient apporté « plus de 890 améliorations à Google Search rien que l’année dernière ». Il n’est pas clair si cela faisait référence aux 12 mois précédents ou à l’année civile 2013.

Nous n’avons pas de chiffre public pour les deux dernières années, mais il est incroyablement peu probable que le rythme du changement ait ralenti. Google apporte des modifications à la recherche de l’ordre de 2X/jour.

Bien sûr, quiconque a de l’expérience dans le développement de logiciels se rend compte que Google n’a pas réparti de manière égale 890 améliorations sur l’année et en a publié une toutes les 9 heures et 51 minutes. Ce serait peu pratique pour de nombreuses raisons. Il est très probable que les versions sont déployées par morceaux et sont liées à une sorte de processus ou de calendrier interne. Ce processus ou ce calendrier peut être irrégulier, mais les employés de Google doivent approuver, publier et vérifier chaque modification.

En mars 2012, Google a publié une vidéo de sa réunion hebdomadaire sur la qualité de la recherche, qui, à l’époque, avait lieu « presque tous les jeudis ». Cette vidéo et d’autres déclarations depuis révèlent un processus systématique au sein de Google par lequel les mises à jour sont examinées et approuvées. Il n’est pas nécessaire de faire des calculs très poussés pour constater qu’il y a beaucoup plus de mises à jour par an que de réunions hebdomadaires.

Y a-t-il un schéma hebdomadaire ?

Nous ne pouvons peut-être pas prédire la date exacte de la prochaine mise à jour, mais ce schéma est-il régulier ? Certes, c’est un peu difficile à dire à partir du graphique du début de cet article. L’analyse d’une série chronologique irrégulière (où la période entre les pics et l’intensité de ces pics changent) demande des calculs très compliqués, alors j’ai décidé de commencer un peu plus simplement.

J’ai donc décidé de commencer un peu plus simplement. J’ai commencé en supposant qu’un modèle régulier était présent et en cherchant un moyen d’éliminer une partie du bruit en me basant sur cette hypothèse. L’analyse la plus simple qui a donné des résultats a consisté à prendre une moyenne mobile de 3 jours et à calculer l’erreur standard moyenne (ESM). En d’autres termes, pour chaque température (chaque température est un jour unique), on prend la moyenne de ce jour et du jour situé de part et d’autre de celle-ci (une fenêtre de 3 jours) et on élève au carré la différence entre la température de ce jour et la moyenne de 3 jours. Cela permet d’exagérer les pics isolés et d’adoucir certaines des séquences les plus bruyantes, ce qui donne le graphique suivant :

Ce poste a été inspiré en partie par le mois de février 2016, qui a montré un rapport signal/bruit exceptionnellement élevé. Zoomons donc sur les 90 derniers jours du graphique :

Voir les pics 2-6 (à partir du 21 janvier) ? L’espace entre eux, respectivement, est de 6 jours, 7 jours, 7 jours et 8 jours. Ensuite, il y a un écart de 2 semaines par rapport au pic suivant, plus petit (le 3 mars), et de 8 jours par rapport à celui d’après. Bien que ce ne soit pas la preuve d’un schéma régulier clair, il est difficile de croire que le rythme hebdomadaire est entièrement une coïncidence, étant donné ce que nous savons du processus d’approbation de la mise à jour de l’algorithme.

Ce schéma est moins clair les autres mois, et je ne veux pas dire qu’un cycle de mise à jour hebdomadaire soit le seul élément du tableau. Nous savons que Google procède également à des mises à jour de données importantes (notamment Penguin) et qu’il arrive que les mises à jour s’étalent sur plusieurs jours (voire plusieurs semaines). On observe une tendance similaire, bien que plus bruyante, en avril 2015 (première partie du graphique de l’EQM sur 12 mois). Il est également intéressant de noter les niveaux d’activité autour de Noël 2015 :

Malgré toutes nos théories de conspiration, il semble vraiment y avoir une accalmie dans l’activité de Google à Noël 2015, d’une durée d’environ 4 semaines, suivie d’un pic assez important qui pourrait refléter un certain rattrapage. Les ingénieurs aussi partent en vacances. Remarquez que ce premier pic de janvier est suivi d’un écart d’environ deux semaines, puis de deux écarts d’une semaine.

Le jour le plus fréquent de la semaine pour ces pics semble être le mercredi, ce qui est étrange, si nous pensons qu’il y a un lien avec les réunions de Google le jeudi. Il est possible que ces cycles approximativement hebdomadaires soient liés à des schémas de recherche naturels en milieu de semaine, bien que nous nous attendions généralement à des pics moins prononcés si le changement était lié à quelque chose comme des pics de trafic en milieu de semaine ou un volume de nouvelles.

Avons-nous déjà gagné Google ?

J’ai longuement écrit pourquoi je pense que les mises à jour des algorithmes sont toujours importantes, mais, d’un point de vue tactique, je ne pense pas que nous devrions essayer de planifier nos efforts autour de mises à jour hebdomadaires. De nombreuses mises à jour sont très petites et même certaines, qui sont importantes en moyenne, peuvent ne pas avoir d’effet sur notre employeur ou nos clients.

Je considère la météo de Google comme un peu comme le taux de chômage. Il est intéressant de savoir si ce taux est, disons, de 5 ou 7 %, mais en fin de compte, ce qui compte pour vous, c’est d’avoir un emploi ou non. Un taux de chômage faible ou élevé est un indicateur économique utile et peut vous aider à décider si vous risquez de trouver un nouvel emploi, mais il ne détermine pas votre sort. De même, mesurer la température de l’algorithme peut nous apprendre quelque chose sur le système dans son ensemble, mais la température d’un jour donné ne détermine pas votre succès ou votre échec.

En fin de compte, au lieu d’essayer de prédire quand une mise à jour de l’algorithme aura lieu, nous devrions nous concentrer sur les motivations qui se cachent derrière ces mises à jour et sur ce qu’elles indiquent sur l’intention de Google. Nous ne savons pas exactement quand le marteau va tomber, mais nous pouvons nous en sortir à temps si nous sommes attentifs.

39
36