Référencement sur Google : PageRank et bac à sable

Par 25 mars 2005
Mots-clés : Smart city

Larry Page et Sergey Brin ont commencé leur collaboration en 1996. Ils développaient alors un nouveau moteur de recherche baptisé BlackRub. Sa particularité ? Sa capacité à analyser les...

Larry Page et Sergey Brin ont commencé leur collaboration en 1996. Ils développaient alors un nouveau moteur de recherche baptisé BlackRub. Sa particularité ? Sa capacité à analyser les "BackLinks" pointant vers un site Internet donné. Ce projet initié à l'Université de Stanford portait déjà les deux clefs de succès du futur moteur de recherche Google :

Une infrastructure de calcul basée sur la mise en grille de ressources peu onéreuses, en terme de stockage et d'accès réseau ;
Un algorithme très performant permettant de classer la masse de données considérable accumulée par l'infrastructure.
C'est de cet algorithme et de son évolution dont nous allons parler aujourd'hui.
L'algorithme PageRank
En janvier 1998, Larry Page et Sergey Brin publient un article expliquant le fonctionnement de cet algorithme : "Le classement PageRank : mettre de l'ordre sur Internet" . Le but était de donner encore plus de buzz à la nouvelle société qui allait être créée en septembre de la même année : Google.
L'algorithme PageRank assigne à chaque page web un score (le PageRank) qui reflète son importance et sa popularité. Chaque lien d'une page à une autre est compté comme un vote pour la page de destination et le score de chaque page dépend des scores des pages qui lient vers elle et ainsi de suite.
>Cliquer pour agrandir l'imageAffichage du PageRank avce la ToolBar Google
Le calcul est effectué de la manière suivante :

Au départ chaque page a un score de 100.
Le score de chaque page est ensuite recalculé en ajoutant le score de chaque page liant vers elle et en divisant par le nombre de liens sortants.
Quand tous les scores ont été recalculés, l'algorithme recommence jusqu'à ce que les scores cessent d'évoluer (L'article de 1998 en prouve la convergence).
Cet algorithme a un temps d'exécution très long et Google utilise de nombreuses astuces mathématiques pour arriver à la solution rapidement.
>Cliquer pour agrandir l'image
Exemple de liens dans un site >Cliquer pour agrandir l'image
>Cliquer pour agrandir l'image
>Cliquer pour agrandir l'imageCalcul du PageRank
Sur cet exemple, la page "plan d'accès" a un lien vers la page d'Accueil et la page d'Accueil a deux liens sortants. Le score de la page d'accueil est alors partagé entre les deux liens de manière équitable. Et la page "plan d'accès" se retrouve avec un score de 50. Ici le résultat final est logique, la page d'accueil se retrouvant avec le score le plus haut.
Le robot de Google, baptisé GoogleBot , fonctionne en permanence. Tous les jours il collecte de nouvelles pages sur Internet et repère les changements sur les pages existantes, assurant un flux permanent de nouvelles informations. Toutes les 3 ou 4 semaines environ, Google doit donc effectuer à nouveau le calcul du PageRank. Pendant cette période de calcul qui dure 3 ou 4 jours, il n'est alors pas rare de voir son site descendre soudainement dans l'index Google puis remonter tout aussi brusquement, ce phénomène est bien connu des webmasters qui l'appellent la GoogleDance .
Des abus récents
Depuis 1998, tous les référenceurs (sociétés ou amateurs) se basent sur la publication de Larry Page et Sergey Brin pour essayer de pousser leurs sites en haut des résultats Google. Une technique est par exemple de placer un lien vers son site à partir d'une page ayant elle même un PageRank élevé, c'est le principe de l'échange de liens qui permet d'obtenir des scores plus élevés et ainsi de se retrouver en tête des résultats de Google, générant ainsi du trafic et surtout du chiffre d'affaire.
Des sociétés se sont spécialisées dans ce référencement et des abus ont eu lieu, avec par exemple la création de pages fantômes ne servant qu'à augmenter les scores des pages cibles.
Un nouvel algorithme secret : l'effet SanbBox
Pour contrer ces abus Google améliore en permanence son algorithme et surtout le garde désormais secret. Néanmoins aujourd'hui de nombreux indices concordent pour affirmer que Google a mis en place un système de pénalité à l'encontre des webmasters qui tentent de contourner son algorithme. Les sites repérés et soupçonnés fraudeurs sont positionnés dans un SandBox (un bac à sable) pendant plusieurs semaines voir plusieurs mois, provoquant une chute de trafic et l'angoisse des propriétaires de site.
Plusieurs théories sont citées pour expliquer cet effet. Certains parlent d'une mise à l'écart basée sur une sélection manuelle de domaines spammeurs (algorithme Trustrank). En effet, Google a récemment placé sur CraigList.org (voir l'article de l'Atelier du 17.09.2004 sur la Craiglist ) plein d'offres d'emplois pour des surfeurs professionnels. D'autres pensent que les algorithmes de Google sont si complexes qu'ils sont devenus incontrôlables et agissent de manière chaotique générant ainsi cet effet Sandbox non voulu.
Néanmoins l'explication la plus probable est que Google ait rajouté le paramètre temps dans l'évolution du classement de ses résultats. S'inspirant des courbes de croissance de bébés dans nos vieux carnets de santé, les ingénieurs de Google ont théorisé le développement d'un site Internet et de sa popularité.
>Cliquer pour agrandir l'imageCourbe de croissance normale
Au début de sa vie, un site Internet est peu connu et peu populaire (son PageRank est faible), puis au fur et à mesure du début de sa vie, il gagne en popularité et son PageRank augmente suivant une courbe de croissance similaire à celle du poids d'un nouveau né. Si au contraire un site démarre avec un PageRank très élevé puis que son PageRank n'évolue plus ou si soudainement son PageRank augmente sans évoluer par la suite, Google considère que ce site a un développement suspect, signe de référencement abusif et le place alors dans le SandBox : le bac à sable. Heureusement pour la santé de nos webmasters cette mise à l'écart n'est que temporaire !
Alors que faire pour éviter une mise en SandBox ?

Produire du contenu de qualité
Mettre en place des échanges de liens sérieux
Et finalement ne pas essayer de contourner les algorithmes de Google !
Mais au vu de l'importance de la recherche sur Internet, il ne fait aucun doute que ce jeu entre Google et les sites référencés continuera et que Google gardera toutes ses techniques secrètes !
Pierre Poignant , pour l'Atelier BNP Paribas
(Atelier groupe BNP Paribas - 25/03/2005)

Mentions légales © L’Atelier BNP Paribas