Étude de corrélation des classements : Autorité du domaine vs. volume de recherche de marque

Étude de corrélation des classements : Autorité du domaine vs. volume de recherche de marque

Étude de corrélation des classements : Autorité du domaine vs. volume de recherche de marque

Il y a un peu plus de deux semaines, j’ai eu le plaisir de parler au SearchLove de San Diego. Ma présentation, intitulée Does Google Still Need Links, a examiné les preuves disponibles sur la façon dont Google utilise les liens comme facteur de classement et dans quelle mesure en 2017, y compris l’étude que je partage ici aujourd’hui.

L’un des principaux points de ma présentation était de faire valoir que si les liens représentent toujours une source d’information utile pour l’algorithme de classement de Google, Google dispose aujourd’hui de nombreuses autres sources, dont la plupart n’auraient jamais été imaginées à l’époque où le PageRank était conçu comme un proxy de la popularité et de l’autorité des sites web, il y a près de 20 ans.

Le volume de recherche de marque est l’une de ces sources d’information, et l’une des plus accessibles pour nous, simples mortels, j’ai donc décidé d’examiner de plus près comment elle se compare à une mesure basée sur des liens. Cela nous donne également un aperçu intéressant des KPI que nous devrions poursuivre dans nos efforts de marketing hors site – car la notoriété de la marque et la création de liens sont souvent des objectifs contradictoires.

Pour plus de clarté, par volume de recherche de la marque, j’entends le volume de recherche régional mensuel pour la marque d’un site de classement. Par exemple, pour la page https://www.walmart.com/cp/Gift-Cards/96894, il s’agirait du volume de recherche mensuel aux États-Unis pour le terme « walmart » (tel qu’indiqué par Google Keyword Planner). J’ai écrit plus loin sur la façon dont j’ai rassemblé cet ensemble de données et traité les cas de bord.

Lorsque j’ai choisi ma mesure basée sur les liens pour la comparaison, Domain Authority m’a semblé un choix naturel – c’est au niveau du domaine, ce qui devrait être juste étant donné que c’est généralement le niveau de précision avec lequel nous pouvons mesurer le volume de recherche de marque, et il est arrivé en tête dans l’étude de Websterdata sur les facteurs basés sur les liens au niveau du domaine.

Une note sur les études de corrélation

Avant d’aller plus loin, voici un mot d’avertissement sur les études de corrélation, dont celle-ci : Ils peuvent facilement manquer la forêt pour les arbres.

Par exemple, le fait que l’autorité de domaine (ou le volume de recherche de marque, ou quoi que ce soit d’autre) soit positivement corrélée avec les classements pourrait indiquer que l’un ou l’ensemble des éléments suivants est probable :

Les liens entraînent un bon classement des sites
Un bon classement permet aux sites d’obtenir des liens
Un troisième facteur (par exemple, la réputation ou l’âge du site) fait que les sites obtiennent à la fois des liens et des classements

Cela ne veut pas dire que les études de corrélation sont inutiles – mais nous devrions les utiliser pour éclairer notre compréhension et susciter des recherches plus approfondies, et non comme le dernier mot sur ce qui est et n’est pas un facteur de classement.

Méthodologie

(Ou passez directement aux résultats !)

L’étude Websterdata mentionnée ci-dessus a utilisé les 800 exemples de mots-clés fournis par les 22 catégories de premier niveau dans Google Keyword Planner, puis a examiné les 50 premiers résultats pour chacune d’entre elles. Après déduplication, cela donne 16 521 requêtes. Websterdata n’a examiné que les résultats web (pas d’images, de boîtes de réponse, etc.), a ignoré les requêtes comportant moins de 25 résultats au total et, pour autant que je sache, a utilisé les classements des bureaux.

J’ai adopté une approche légèrement différente. J’ai contacté STAT pour demander un échantillon d’environ 5 000 mots-clés sans marque pour le marché américain. Comme Websterdata, j’ai éliminé les résultats non web, mais contrairement à Websterdata, j’ai également éliminé tout ce qui avait un baserank inférieur à 10 (le baserank étant la façon dont STAT présente le classement d’un résultat de recherche lorsque les résultats non web sont exclus). Vous pouvez voir l’export STAT ici.

Websterdata a utilisé les corrélations de Mean Spearman, un processus qui consiste à classer les variables pour chaque mot-clé, puis à prendre la corrélation moyenne de tous les mots-clés. J’ai également choisi cette méthode, et je vais vous expliquer pourquoi en utilisant l’exemple ci-dessous :

Mot-clé

Position dans le classement du SERP

Site de classement

Volume de recherche de marque du site de classement

Rang par mot-clé du volume de recherche de la marque

Mot-clé A

1

exemple1.com

100,000

1

Mot-clé A

2

exemple2.com

10,000

2

Mot-clé A

3

exemple3.com

1,000

3

Mot-clé A

4

exemple4.com

100

4

Mot-clé A

5

exemple5.com

10

5

Pour le mot-clé A, nous avons des volumes de recherche de marque très variables dans les 5 premiers résultats de recherche. Cela signifie que le volume de recherche et les classements ne pourraient jamais être particulièrement bien corrélés, même si les résultats sont parfaitement triés par ordre de volume de recherche.

L’approche de Websterdata évite ce problème en comparant la position dans le classement (la 2ème colonne du tableau) avec la colonne à l’extrême droite du tableau – comment chaque site se classe pour la variable donnée.

Dans ce cas, la corrélation directe entre le classement et le volume de recherche donnerait une corrélation de (-)0,75. En corrélant le classement avec le volume de recherche, on obtient une corrélation parfaite de 1.

Ce processus est ensuite répété pour chaque mot-clé de l’échantillon (j’ai compté les versions bureau et mobile du même mot-clé comme deux mots-clés), puis la corrélation moyenne est prise.

Définition du volume de recherche par marque

Au départ, j’ai pensé qu’il suffirait de rechercher le volume de recherche de chaque site de l’échantillon en déduisant le sous-domaine et le TLD de leur domaine (par exemple, « walmart » pour https://www.walmart.com/cp/Gift-Cards/96894). Cependant, cette méthode s’est avérée étonnamment déficiente. Voici quelques exemples :

www.cruise.co.uk
ecotalker.wordpress.com
www.sf.k12.sd.us

Les marques de ces sites sont-elles respectivement « cruise », « wordpress » et « sd » ? Il est clair que non. Pour déterminer quel était le terme de recherche de la marque, j’ai commencé par prendre chaque candidat potentiel à partir de l’URL, par exemple pour ecotalker.wordpress.com :

Ecotalker
Ecotalker wordpress
WordPress.com
Wordpress

J’ai ensuite déterminé quel était le terme ayant le volume de recherche le plus élevé pour lequel le sous-domaine en question se classait en première position – ce qui, dans ce cas, est un lien entre « Ecotalker » et « Ecotalker wordpress », qui apparaissent tous deux comme ayant un volume nul.

Je m’appuie assez fortement sur la correspondance des synonymes de Google dans la recherche de volume de recherche pour repérer les cas où le volume de recherche est supérieur à zéro – par exemple, je suis convaincu que « ecotalker.wordpress » apparaîtrait avec le même volume de recherche que « ecotalker wordpress ».

Vous pouvez voir l’ensemble de données des sous-domaines avec leur DA et leur volume de recherche marqué ici.

(Encore une fois, j’ai utilisé STAT pour extraire les volumes de recherche en vrac).

Les résultats : Notoriété de la marque > liens

Voici l’histoire principale : le volume de recherche de marque est mieux corrélé avec les classements que ne l’est l’autorité de domaine.

Cependant, il y a quelques autres points d’intérêt ici. Premièrement, aucune de ces variables n’a une corrélation particulièrement forte avec les classements – une corrélation parfaite serait 1, et je trouve une corrélation entre Domain Authority et les classements de 0,071, et une corrélation entre le volume de recherche de marque et les classements de 0,1. C’est très faible selon les normes de l’étude Websterdata, qui a trouvé une corrélation de 0,26 entre Domain Authority et les classements en utilisant les mêmes méthodes statistiques.

Je pense que la plus grande différence qui explique cela est l’utilisation par Websterdata de 50 résultats web par requête, contre 10 pour moi. Si c’est vrai, cela signifierait que Domain Authority a beaucoup plus à voir avec ce qu’il faut pour vous mettre en première page qu’avec le classement dans les premiers résultats une fois que vous y êtes.

Une autre différence potentielle réside dans les types de mots-clés des deux échantillons. L’étude de Websterdata présente une répartition assez égale des mots-clés entre les volumes de recherche 0-10k, 10k-20k, 20k-50k et 50k+ :

En revanche, mes mots-clés étaient plus orientés vers le bas de l’échelle :

Cependant, cela ne semble pas être la cause de mes chiffres de corrélation plus faibles. Regardez les corrélations pour les classements des mots-clés à fort volume de recherche (10k+) uniquement dans mon ensemble de données :

Bien que la correspondance entre les deux mesures se rapproche beaucoup ici, les corrélations globales sont encore loin d’être aussi élevées que celles de Websterdata, ce qui m’amène à attribuer cette différence davantage à leur utilisation de 50 positions de classement qu’aux mots-clés eux-mêmes.

Il convient de noter que mon échantillon de requêtes à haut volume n’est que de 980.

Analyse de régression

Une autre façon d’examiner la relation entre deux variables est de se demander dans quelle mesure la variation de l’une s’explique par l’autre. Par exemple, le rang moyen d’une page dans notre échantillon est de 5,5. Si nous avons une page spécifique qui se classe à la position 7, et un modèle qui prédit qu’elle se classera à la position 6, nous avons expliqué 33% de sa variation par rapport au rang moyen (pour cette page particulière).

En utilisant les données ci-dessus, j’ai construit un certain nombre de modèles pour prédire le classement des pages de mon échantillon, puis j’ai tracé la proportion de la variance expliquée par ces modèles ci-dessous (vous pouvez en savoir plus sur cette mesure, normalement appelée le R au carré, ici).

Quelques explications :

Volume de recherche de marque du site de classement – comme discuté ci-dessus
Log(Branded Search Volume) – Prendre le log du volume de recherche de marque pour une comparaison plus juste avec l’autorité du domaine, où, par exemple, un site DA 40 est beaucoup plus que deux fois plus lié à un site DA 20.
Ranked Branded Search Volume (volume de recherche de marque) – Comparaison du volume de recherche de marque de ce site avec celui d’autres sites classés pour le même mot-clé, comme indiqué ci-dessus

Tout d’abord, il convient de noter que, malgré des carrés R très faibles, toutes les variables énumérées ci-dessus étaient statistiquement très significatives – dans le pire des cas, à un dix-millionième de pour cent près d’être significatives à 100 %. (Dans le meilleur des cas, à un vigintillionième d’un vigintillionième d’un vigintillionième d’un non millionième de pour cent).

Cependant, ce qui est vraiment intéressant ici, c’est que le fait d’inclure dans le même modèle le classement des autorités de domaine et le volume de recherche de marques n’explique guère plus de variations que le seul volume de recherche de marques.

Pour être clair : la quasi-totalité des variations de classement que nous pouvons expliquer en nous référant à l’autorité de domaine, nous pourrions tout aussi bien les expliquer en nous référant au volume de recherche de marque. En revanche, l’inverse n’est pas vrai.

Si vous souhaitez examiner ces données plus en détail, l’ensemble complet est ici.

De belles données. Pourquoi devrais-je m’en soucier ?

Il y a deux principaux éléments à prendre en compte ici :

Si vous vous souciez de votre autorité de domaine parce qu’elle est corrélée avec les classements, alors vous devriez vous soucier au moins autant de votre volume de recherche de marque.
La corrélation entre les liens et les classements peut parfois être un peu déroutante – il se peut que les liens soient eux-mêmes simplement corrélés avec un troisième facteur qui explique mieux les classements.

Il y a également un certain nombre d’éléments à prendre en compte, notamment la faiblesse (bien que statistiquement significative) des deux séries de corrélations. Cela met encore plus l’accent sur la pertinence et l’intention, qui constituent sans doute le reste du tableau.

Si vous essayez de produire du contenu pour créer des liens, ou si vous vous retrouvez à lire un article ou à regarder une présentation sur cette technique ou toute autre technique de création de liens dans un avenir proche, il y a ici quelques questions intéressantes à ajouter à celles posées par Tomas Vaitulevicius en novembre dernier. En particulier, si vous produisez du contenu pour gagner des liens et de la notoriété, il se peut qu’il ne soit pas très bon pour l’un ou l’autre, vous devez donc trouver ce qui vous convient et comment le mesurer.

Je ne dis pas que les liens sont morts ou quoi que ce soit de ce genre, mais nous devrions être un peu plus critiques sur le comment, le pourquoi et le quand ils sont importants. En particulier, je pense qu’ils pourraient être de moins en moins importants sur la première page de résultats pour des raisons de concurrence, mais j’aimerais connaître votre avis sur les commentaires ci-dessous.

J’aimerais également voir d’autres personnes mener des analyses similaires. Comme pour toute recherche, les études de recoupement et de réplication constituent une étape importante du processus.

Quoi qu’il en soit, j’écrirai davantage sur ce sujet dans un avenir proche, alors surveillez cet espace !

À propos de Tom.Capper –

Consultant senior chez Distilled London.

47
36