Fréquence inverse des documents et importance de l’unicité

Fréquence inverse des documents et importance de l’unicité

Fréquence inverse des documents et importance de l'unicité

Dans ma dernière chronique, j’ai expliqué comment utiliser l’analyse de fréquence des termes pour évaluer votre contenu par rapport à celui de la concurrence. La fréquence des termes (TF) n’est qu’une partie de l’approche TF-IDF pour la recherche d’informations. L’autre partie est la fréquence inverse des documents (FID), dont j’ai l’intention de parler aujourd’hui.

Le billet d’aujourd’hui expliquera le fonctionnement de la FID pour vous montrer l’importance de créer un contenu qui soit vraiment unique. Il y a des raisons de réputation et de visibilité pour le faire, et c’est très bien pour les utilisateurs, mais il y a aussi des avantages en termes de référencement.

Si vous vous demandez pourquoi je me concentre sur la FID-TF, considérez ces mots tirés d’un article de Google datant d’août 2014 : « C’est l’idée du fameux TF-IDF, longtemps utilisé pour indexer les pages web ». Si la façon dont Google peut appliquer ces concepts va bien au-delà des simples modèles TF-IDF dont je parle, nous pouvons encore apprendre beaucoup en comprenant les bases de leur fonctionnement.

Qu’est-ce que la fréquence inverse des documents ?

En termes simples, c’est une mesure de la rareté d’un terme. Conceptuellement, nous commençons par mesurer la fréquence des documents. Il est plus facile d’illustrer ce concept par un exemple, comme suit :

Dans cet exemple, nous voyons que le mot « a » apparaît dans chaque document de la série de documents. Cela nous indique qu’il n’est pas utile de distinguer les documents entre eux. Il est présent dans tous les documents.

Maintenant, regardez le mot « mobilegeddon ». Il apparaît dans 1 000 documents, soit un millième de un pour cent d’entre eux. Il est clair que cette phrase permet de différencier beaucoup plus les documents qui les contiennent.

La fréquence des documents mesure la banalité, et nous préférons mesurer leur rareté. La façon classique de procéder est d’utiliser une formule qui ressemble à celle-ci :

Pour chaque terme que nous examinons, nous prenons le nombre total de documents dans l’ensemble de documents et nous le divisons par le nombre de documents contenant notre terme. Cela nous donne une mesure plus précise de la rareté. Cependant, nous ne voulons pas que le calcul qui en résulte dise que le mot « mobilegeddon » est 1 000 fois plus important pour distinguer un document que le mot « bateau », car c’est un facteur d’échelle trop important.

C’est la raison pour laquelle nous prenons la base de registre 10 du résultat, pour atténuer ce calcul. Pour ceux d’entre vous qui ne sont pas mathématiciens, vous pouvez considérer la base 10 d’un nombre comme étant un compte du nombre de zéros – c’est-à-dire que la base 10 de 1 000 000 est 6, et la base 10 de 1 000 est 3. Ainsi, au lieu de dire que le mot « mobilegeddon » est 1 000 fois plus important, ce type de calcul suggère qu’il est trois fois plus important, ce qui est plus conforme à ce qui est logique du point de vue des moteurs de recherche.

Dans cette optique, voici les valeurs IDF pour les termes que nous avons examinés précédemment :

Vous pouvez maintenant voir que nous donnons le score le plus élevé au terme le plus rare.

Que nous apprend le concept d’IDF ?

Pensez à la FIL comme une mesure de l’unicité. Il aide les moteurs de recherche à identifier ce qui rend un document donné spécial. Cette mesure doit être beaucoup plus sophistiquée que la fréquence d’utilisation d’un terme de recherche donné (par exemple, la densité de mots-clés).

Pensez-y de cette manière : Si vous êtes l’un des 6,78 millions de sites web qui répondent à la question « Super Bowl 2015 », vous avez affaire à un terrain de jeu très fréquenté. Vos chances de vous classer pour ce terme en fonction de la qualité de votre contenu sont pratiquement nulles.

L’autorité globale des liens et d’autres signaux seront la seule façon de vous classer pour un terme aussi compétitif. Si vous êtes un nouveau site dans le paysage, eh bien, peut-être devriez-vous poursuivre autre chose.

Cela nous laisse la question de savoir ce que vous devriez cibler. Pourquoi pas quelque chose d’unique ? Même l’ajout d’un simple mot comme « prédictions » – en remplaçant notre expression par « prédictions du Super Bowl 2015 » – réduit ce terrain de jeu à 17 800 résultats.

Il est clair que la concurrence est déjà beaucoup moins forte. Si l’on creuse un peu plus, l’expression « super bowl 2015 predictions and odds » ne renvoie que 26 pages dans Google. Vous voyez où cela mène ?

Ce que l’IDF nous apprend, c’est l’importance de l’unicité du contenu que nous créons. Oui, il ne vous rapportera pas autant d’argent que si vous vous classiez pour le terme « big head », mais si votre entreprise est un nouvel entrant dans un espace très fréquenté, vous ne vous classerez pas pour le terme « big head » de toute façon

Si vous pouvez choisir un plus petit nombre de termes avec beaucoup moins de concurrence et créer du contenu en fonction de ces besoins, vous pouvez commencer à vous classer pour ces termes et faire affluer de l’argent dans votre entreprise. En effet, vous rendez votre contenu plus unique en utilisant des combinaisons de termes plus rares (en tirant parti de ce que la FIL nous enseigne).

Résumé

Les personnes qui font l’analyse des mots-clés sont souvent amenées à rechercher directement les principaux termes de tête, en se basant simplement sur le volume de recherche de mots-clés disponible. Le résultat de cette approche peut, en fait, être assez lamentable.

Comprendre comment fonctionne la fréquence inverse des documents nous aide à comprendre l’importance de se démarquer. Créer un contenu qui apporte des angles uniques est souvent un moyen très efficace de lancer votre stratégie de référencement.

Bien sûr, les raisons de créer un contenu très différencié et unique vont bien au-delà du référencement. C’est bon pour vos utilisateurs, et c’est bon pour votre réputation, votre visibilité, ET aussi votre référencement.

24
26