Graphique des connaissances 2.0 : Vos connaissances en vedette

Graphique des connaissances 2.0 : Vos connaissances en vedette

Graphique des connaissances 2.0 : Vos connaissances en vedette

En janvier, Google a discrètement introduit un changement qui pourrait, selon moi, révolutionner la recherche organique. Actuellement, l’impact est limité, et il faudra peut-être des mois ou des années pour que l’effet se fasse pleinement sentir, mais le changement sous-jacent est fondamental pour l’avenir du Knowledge Graph et la délicate symbiose entre Google et les webmasters.

Boîte de réponse 1.0

Commençons par le début. J’ai beaucoup écrit sur la génération actuelle des boîtes à réponses (parfois appelées « réponses directes » ou « réponses à une boîte »). Ces boîtes affichent des réponses rapides à des questions généralement concrètes. Par exemple, si je veux savoir quand la tour Willis est ouverte ici à Chicago, je peux chercher [heures d’ouverture de la tour Willis] et obtenir :

La capacité de Google à comprendre les questions s’est considérablement accrue au cours des deux dernières années, probablement encore plus grâce à la mise à jour du Hummingbird. Par exemple, je peux obtenir la même boîte de réponse en demandant [quand la tour Sears est-elle ouverte].

Alors, d’où viennent ces données ? Généralement, elles proviennent directement du graphique des connaissances, et vous pouvez les repérer assez facilement. Voici le tableau des connaissances pour la [tour de Willis] :

J’ai ajouté la flèche rouge – comme vous pouvez le voir, les informations dans la boîte de réponse proviennent directement d’une propriété du graphique des connaissances. Vous pouvez aussi l’inverser facilement, pour créer des exemples à l’infini. Prenons la propriété « La construction a commencé » : 1970″ et transformons-la en une requête, comme [quand la tour de Sears a-t-elle été construite]. Vous obtiendrez une autre boîte de réponse :

La plupart de ces informations proviennent d’un nombre très limité de sources, dont Freebase, Wikipedia et Google+. Freebase est structuré en termes d’entités et de propriétés (penser en fonction des objets, par opposition aux articles), ce qui en fait un outil parfaitement adapté à Knowledge Graph.

Le dilemme de Google

Mais il y a un problème. Les principales sources de données pour le graphique des connaissances sont gérées par des personnes. Ironiquement, Google est confronté au même dilemme avec le Knowledge Graph en 2014 qui a conduit à la création des moteurs de recherche sur Internet en premier lieu. Pour dire les choses simplement, le champ des informations est beaucoup trop vaste, et croît trop rapidement, pour qu’une approche à l’échelle humaine puisse être adoptée. Google ne peut pas se contenter d’engager les rédacteurs de Wikipédia – il lui faut une nouvelle source de données.

Google n’ignore pas ce problème. Dans un document de recherche publié cette année, Google souligne la question fondamentale (chapeau à Andrew Isidoro) :

Le document explique ensuite une méthode d’extraction à la demande des données manquantes du graphe de connaissances, en utilisant la technologie de recherche existante de Google. Bienvenue à…

Boîte à réponses 2.0

Heureusement (pour eux), Google dispose déjà de l’une des plus grandes sources de données de la planète – leur index du web mondial. Et si, au lieu de chercher des réponses dans un ensemble limité de sources encyclopédiques, Google pouvait générer des réponses directement à partir de nos sites web ?

C’est exactement ce qu’ils ont fait. Par exemple, voici ce que vous verrez en haut d’une recherche récente pour [taux d’imposition de la sécurité sociale] :

Contrairement aux boîtes de réponse basées sur le graphique des connaissances, ce nouveau format tire sa réponse directement de sites web tiers, en leur donnant l’attribution via le titre de la page et le lien. À bien des égards, il s’agit d’un résultat organique supplémentaire et, comme toutes les cases de réponse de la colonne de gauche, il apparaît au-dessus de « #1 ».

Ces réponses plus longues ressemblent davantage à des bribes de recherche, mais il existe également une deuxième version, déclenchée lorsque Google peut trouver une réponse définitive sur un site tiers. Voici la nouvelle boîte de réponse pour la requête [Pierre de naissance de septembre] :

Cet exemple comprend un extrait plus long, mais la réponse directe – « Saphir » – est mise en évidence, davantage dans le style d’une boîte de réponse traditionnelle. Là encore, le titre et l’URL de la page source sont indiqués sous l’extrait.

Comment savons-nous, au-delà de l’attribution à un tiers, que cela ne provient pas du Graphique des connaissances traditionnelles ? Essayez une variante de la requête, comme [pierre de naissance de septembre]. J’obtiens ce résultat :

Voici la boîte de réponse pour une question plus longue [quelle est la pierre de naissance de septembre] :

Il est intéressant de noter que la réponse courte (« saphir ») n’est plus en majuscule, car c’est ainsi que Google l’a trouvée sur la page source. Dans mes tests personnels, ces variations n’étaient pas cohérentes, donc Google utilise peut-être une sorte de raffinement de la requête. Quoi qu’il en soit, il est assez clair que ces réponses sont générées à la volée.

Le nouveau numéro un

Ces boîtes de réponse sont essentiellement un nouveau résultat organique, et perturbent clairement les résultats supérieurs traditionnels. Alors, d’où viennent ces réponses, et comment en obtenir une ? Nous n’avons pas encore beaucoup de données, mais dans tous les cas que j’ai vus, l’URL utilisée pour créer la boîte de réponse apparaît également sur la première page des résultats de Google. Il faut donc que vous soyez déjà bien classé sur le terme.

Dans la plupart des cas que j’ai vus jusqu’à présent (encore une fois, l’ensemble des données est petit), la réponse vient de la position organique n°1. Par exemple, voici la boîte de réponse et le résultat n°1 que j’obtiens pour [l’anniversaire du corps des Marines] :

Donc, military.com obtient essentiellement deux listes sur ce SERP. Dans certains cas, cependant, la réponse provient d’un résultat situé plus bas sur la page 1. Voici la boîte de réponse et une partie de la page 1 pour [l’homme le plus riche du monde] :

Dans ce cas, c’est Time Magazine qui est crédité de la boîte de réponse, même si elle se trouve tout en bas de la page 8, et Forbes a les trois premières places en organique. Le pire, c’est que l’article du Time cite directement Forbes comme source, même dans le fragment de recherche. Alors, qu’est-ce qui se passe ici ?

Je pense que cela se résume à des facteurs assez basiques sur la page. L’article principal de Forbes est un peu lourd à concevoir (il a un texte à exploration limitée) et utilise une approche de défilement « infini ». Aucune des pages du Forbes ne mentionne directement l’expression « l’homme le plus riche du monde », surtout à proximité du nom de Bill Gates.

Et si je change ma requête pour quelque chose que Forbes cible mieux, comme [les personnes les plus riches du monde] ? Voici le résultat que j’obtiens (toutes ces recherches sont incognito, mais je ne peux pas exclure une sorte d’effet de l’historique de la requête) :

Il est intéressant de noter que Google semble déduire que je veux connaître la personne la plus riche du monde (et qu’il cite « Bill Gates »), mais ne pense pas que la réponse soit suffisamment définitive pour la présenter en bref. Même depuis le début de cet article, Google a apporté des améliorations au système de correspondance, mais il semble qu’actuellement le ciblage par mot-clé sur la page soit assez critique.

Ce n’est que le début

Il est clair que Google a encore un long chemin à parcourir. Certaines des boîtes de réponse sont assez ridicules. Prenez, par exemple, une recherche pour [couleur de cheveux] :

C’est une requête assez ambiguë, et elle ne semble pas bien adaptée à aucun type de boîte de réponse (encore moins à une boîte qui est à un pas d’une publicité de salon). Attendez-vous à ce que Google consacre beaucoup de temps et d’argent à l’amélioration de ce système au cours de l’année prochaine.

Alors que ce billet est axé sur les boîtes de réponse, Google utilise une approche similaire pour élargir les panels de connaissances. Par exemple, voici une recherche pour [biologie] :

Remarquez la section « Sujets connexes » – un seul de ces résultats provient de Wikipédia. Google construit une bonne partie de ce panel de connaissances sur les sites de son index. L’attribution de ces sites est beaucoup plus subtile : seul le petit texte gris renvoie au site source. Les liens bleus (à l’exception de « Wikipédia » en haut de page) renvoient directement à d’autres recherches Google.

L’équilibre est-il en train de changer ?

Il est facile de voir à quel point cette progression est inévitable – Google doit développer le Knowledge Graph, et ne peut pas se fier à des éditeurs humains et à des sources de données statiques. Si ces données peuvent être bonnes pour les utilisateurs, elles représentent un changement d’équilibre entre Google et les webmasters. Il y a toujours eu une symbiose implicite – Google explore nos sites et en extrait des informations, mais ils nous envoient du trafic en retour. Nous n’aimons peut-être pas toujours la façon dont ils font les choses, mais le résultat final a profité à des millions de propriétaires de sites.

Que se passe-t-il lorsqu’un utilisateur peut obtenir rapidement une réponse simple, et que cette réponse est extraite d’une page tierce et cannibalise les clics organiques ? Que se passe-t-il lorsque des données de tiers sont utilisées non pas pour diriger le trafic vers la source, mais vers un plus grand nombre de recherches Google ? Il me semble que la symbiose est menacée.

Pour l’instant, il n’y a pas grand-chose à faire. Vous pouvez vous efforcer de réajuster le contenu de vos pages pour qu’il apparaisse dans ces nouvelles entités, mais vous le faites au risque de nuire à votre propre trafic organique. Il est probablement préférable d’être dans la boîte des réponses que de laisser votre concurrent y être, mais ce n’est pas un choix idéal. Le mieux que je puisse dire, c’est d’être conscient de vos conditions financières – pas seulement de votre classement, mais aussi de la façon dont ces SERPs apparaissent réellement dans leur contexte. À un moment donné, nous devrons peut-être tous décider si le fait de donner nos données vaut ce que nous obtenons en retour.

58
66