Share to: share facebook share twitter share wa share telegram print page

PageRank

Illustration du PageRank.

Le PageRank[a] ou PR est l'algorithme d'analyse des liens concourant au système de classement des pages Web utilisé par le moteur de recherche Google. Il mesure quantitativement la popularité d'une page web. Le PageRank n'est qu'un indicateur parmi d'autres dans l'algorithme qui permet de classer les pages du Web dans les résultats de recherche de Google. Ce système a été inventé par Larry Page, cofondateur de Google[1]. Ce mot est une marque déposée.

Le théorème de point fixe[Lequel ?] est le concept mathématique qui a rendu possible le calcul du PageRank[précision nécessaire][réf. nécessaire].

Fonctionnement

Le PageRank d'une page a tendance à être d'autant plus élevé que la somme des PagesRanks des pages qui pointent vers elle est élevée.

Le principe de base est d'attribuer à chaque page une valeur (ou score) proportionnelle au nombre de fois que passerait par cette page un utilisateur parcourant le graphe du Web en cliquant aléatoirement, sur un des liens apparaissant sur chaque page. Ainsi, une page a un PageRank d'autant plus important qu'est grande la somme des PageRanks des pages qui pointent vers elle (elle comprise, s'il y a des liens internes). Le PageRank est une mesure de centralité sur le réseau du web.

Plus formellement, le déplacement de l'utilisateur est une marche aléatoire sur le graphe du Web, c'est-à-dire le graphe orienté dont les sommets représentent les pages du Web et les arcs les hyperliens. En supposant que l'utilisateur choisisse chaque lien indépendamment des pages précédemment visitées (le réalisme d'une telle hypothèse pouvant être discuté), il s'agit d'un processus de Markov. Le PageRank est alors simplement la probabilité stationnaire d'une chaîne de Markov, c'est-à-dire un vecteur de Perron-Frobenius de la matrice d'adjacence du graphe du Web[2],[3]. La taille (gigantesque) de ce graphe et son évolution dynamique (modifications de pages et hyperliens, connexion ou déconnexion de serveur web…) rendent cependant impossible un calcul direct de ce vecteur propre : des algorithmes d'approximation sont utilisés.

De nombreuses corrections et améliorations ont été apportées à cet algorithme, certaines étant décrites dans le brevet déposé le [4], d'autres ne restant connues que de Google. En particulier, il est important de garantir que des modifications trop locales du graphe du Web n'entraînent pas d'augmentation disproportionnée du PageRank de certaines pages, ceci afin d'éviter que des utilisateurs (par exemple des sites commerciaux) ne « boostent » artificiellement leur PageRank. Par exemple, dans l'algorithme de base décrit ci-dessus, ajouter de nombreux liens internes sur une page Web (ce qui est très simple à faire pour un particulier) permet d'augmenter son PageRank (cette stratégie ne marche pas avec le PageRank actuel de Google).

Jusqu'en 2016, les internautes pouvaient obtenir une approximation du classement de chaque page en consultant la zone PageRank de la barre d'outils Google, qui indiquait sa valeur sur une échelle de 0 à 10 (Échelle logarithmique). Jusqu'à cette date, il existait aussi de nombreux outils pour l'obtenir sans afficher la toolbar, même s'ils se basaient eux aussi sur la valeur renvoyée par la barre d'outils de Google. Depuis 2016[5], Google ne fournit plus aucune valeur de PageRank, il est donc impossible de le connaître désormais. Ainsi, certaines sociétés privées telles que Moz et Majestic SEO tentent de s'en approcher par le biais de leurs indicateurs (citation flow, trust flow, Domain authority, page authority) afin d'avoir une idée du PageRank Réel et permettent aux webmasters de comparer les différents sites[réf. souhaitée].

Historique

Les précurseurs

Avant l’invention du PageRank, il y eut les tentatives d’Archie en 1990 et de Veronica en 1992 ; le WebCrawler de Brain Pinkerton en 1994 ; et le moteur d’AltaVista de Louis Monnier en 1995[6].

L’algorithme de Google s’inspire du Science Citation Index (SCI) fondé par Eugène Garfield en 1964, un indice de classement des articles scientifiques en fonction du nombre de citations produit par l'Institute for Scientific Information (ISI)[6],[7]. Google reprend le principe de la citation et y substitue la notion de lien entrant.

En 1996, Jon Kleinberg soulève à IBM l’idée d’un classement à partir de la structure des liens hypertextes (par opposition à l’analyse sémantique). Le chercheur de l’université Cornell sera lui aussi une source d’inspiration pour les créateurs de PageRank[6].

La naissance de PageRank

L’idée de PageRank est officiellement présentée pour la première fois en 1998 par Sergey Brin et Larry Page, les fondateurs de Google, dans « The Anatomy of a Large-Scale Hypertextual Web Search Engine[8] »[6].

Le premier brevet, Method for Node Ranking in a Linked Database[9], est cependant déposé dès avant d’être enregistré le . Il est d’abord la propriété de l'université Stanford[10], qui octroie ensuite la licence à Google la même année (amendée en 2000 et 2003), deux mois après sa fondation. Il s'agissait d'une licence exclusive jusqu'en 2011[11]. Les recherches qui ont abouti au développement de la technologie du PageRank ont été financées en partie par la National Science Foundation[12]. Il est donc précisé dans le brevet que le gouvernement a certains droits sur cette invention[13].

Principaux critères du score d'une page web

Selon le brevet Google[réf. nécessaire], les critères de classement sont :

  • les liens entrants et sortants;
  • les ancres;
  • le trafic associé à la page[réf. souhaitée];
  • le comportement des internautes : le choix de la page dans les résultats;
  • le nom de domaine.

Outils et valeurs

Le TrustRank

Il s'agit d'un critère d'autorité accordé aux pages, du fait que l'auteur dispose d'une qualité de sérieux et de compétence reconnue. Ce critère est associé aux sites gouvernementaux, et aux sites de référence tels le W3C. Le terme TrustRank vient de Yahoo! et non pas de Google, qui cependant inclut aussi un critère de confiance dans le calcul du positionnement.

Le PageRank thématique

Le monde du référencement s'accorde à dire aujourd'hui que Google a introduit des valeurs sémantiques dans le calcul du PageRank[14]. Le vote d'une page vers une autre, représenté par un lien, est pondéré par la thématique de la page émettrice. Le corpus de mots utilisés influence le classement d'une page dans les résultats du moteur de recherche, mais aussi la valeur des liens qu'elle transmet.

nofollow

La valeur nofollow de l'attribut HTML rel a été définie par Google en 2005, hors des processus normatifs du W3C. Selon Google, un lien ainsi qualifié dans une page Web ne transmet aucune valeur de PageRank aux pages ainsi liées[15],[3]. Le , Matt Cutts, responsable de qualité de l'index de Google, a annoncé[16] un changement de traitement des liens en nofollow. Ce type de lien continuera à être ignoré mais sera indirectement pris en compte dans la formule de calcul. Ce changement de traitement est une réaction à l'usage abusif effectué par les webmasters (PageRank Sculpting). D'une manière générale, la nouvelle formule prend en compte tous les liens présents dans une page (même les liens javascript[17] ou publicitaires).

Futur PageRank

Beaucoup d'outils proposent de calculer le futur classement d'une page après le prochain passage du googlebot. Ces outils ne sont pas fiables car ils se basent uniquement sur la valeur « RK » de la somme de contrôle de Google. L'utilité de cette donnée n'est connue que de Google et n'a rien à voir avec un futur PageRank, sauf sur les analyses transactionnelles.

La balise Canonical

La balise Canonical[18], qui doit être incluse entre les balises <head> et </head>, permet de faire le tri entre plusieurs pages qui ont le même contenu et ne donner aux moteurs de recherche qu'une seule page à crawler. On va alors transférer la valeur des doublons à une seule page, la page canonique. La balise canonique peut aussi être utilisée d'un site A vers un site B.

Critique

La façon de classer, de trier et de hiérarchiser des algorithmes n'est pas objective. Elle est toujours fondée sur une conception particulière de ce qui est important et légitime[19]. PageRank ne fait pas exception à ce constat.

Le premier critère de PageRank renvoie au classement des pages à partir des liens entrants : plus le nombre de pages citant un document est grand, plus ce document est considéré comme important. Ce principe de classement n’est pas neutre ou objectif. Il renvoie à une conception de la crédibilité des contenus, qui s’oppose à un autre principe de légitimation : l’autorité — principe pris en compte par le TrustRank. Le principe de classement de PageRank fait correspondre visibilité — plutôt que qualité — et légitimité. Le principal problème est que l'algorithme ne prend pas en considération les raisons pour lesquelles un article est cité[19], et il arrive couramment qu'un contenu soit cité justement parce qu’il est faux, ce qui lui fait inopportunément gagner de l'importance dans le classement de PageRank.

La course aux liens et le Matthew Effect

L'autre problème possible correspond au Matthew Effect[20] : le classement élevé — en fonction de la fréquence de citation — d'un article entraîne d’autres citations, ce qui crée une boucle qui rend de plus en plus visible — et donc légitime — un ensemble restreint de contenus.

Aussi, les référenceurs et les webmestres créent parfois massivement des liens retour, par échanges de liens ou en inscrivant un site sur une quantité d'annuaires, ce qui permettait de gonfler artificiellement l'indice de popularité d'un contenu. Toutefois, Google réagit, d'une part en instaurant des filtres, tels que la Sandbox, d'autre part en détectant et sanctionnant les campagnes massives de liens artificiels ; par ailleurs, il intègre des critères qualitatifs à l'analyse sémantique de la confiance l'indice TrustRank qui entre autres étudie le comportement des utilisateurs.

Sources

  • (en) Sergey Brin et Lawrence Page, « The Anatomy of a Large-Scale Hypertextual Web Search Engine », université Stanford,‎ (lire en ligne)
  • Dominique Cardon, « Dans l'esprit du PageRank : Une enquête sur l'algorithme de Google », Réseaux, vol. 1, no 177,‎ , p. 63-95 (DOI 10.3917/res.177.0063, lire en ligne)
  • Matteo Pasquinelli (trad. Clément Blachier, Victor Lockwood et Xiaomeng Zuo), « Google PageRank : une machine de valorisation et d'exploitation de l'attention », dans Yves Citton, L'économie de l'attention : Nouvel horizon du capitalisme ?, Paris, La Découverte, coll. « Sciences humaines », , 328 p. (ISBN 9782707178701, lire en ligne), p. 161-178
  • Henk van Ess (trad. du néerlandais de Belgique par Jean-Marc Delprato), Da Google Code, Montreuil, Pearson Education France, , 157 p. (ISBN 978-2-7440-2460-3 et 2744024600, lire en ligne)

Notes et références

Notes

  1. Antonomase du nom de marque inventé par Larry Page, cofondateur de Google, composé des mots anglais page (« page ») et rank (« rang »).

Références

  1. TIC Mag, « Le Top 10 des milliardaires high tech les plus riches du monde en 2016 - TIC Mag », TIC Mag,‎ (lire en ligne, consulté le )
  2. [PDF] Le théorème de Perron-Frobenius, document pour l'agrégation de mathématiques par B. Bekka, université de Rennes 1.
  3. a et b [PDF] Comment fonctionne le PageRank ?, explication mathématique de l'algorithme PageRank par M. Eisermann, université Grenoble 1.
  4. Comment Google attribue un score à une page Web.
  5. « Tout savoir sur le PageRank de Google »
  6. a b c et d Dominique Cardon, « Dans l'esprit du PageRank : Une enquête sur l'algorithme de Google », Réseaux, vol. 1, no 177,‎ , p. 63-95 (DOI 10.3917/res.177.0063, lire en ligne)
  7. (en) Eugene Garfield, « The evolution of the Science Citation Index », International Microbiology, vol. 20,‎ , p. 65-69 (ISSN 1139-6709, lire en ligne)
  8. (en) Sergey Brin et Lawrence Page, « The Anatomy of a Large-Scale Hypertextual Web Search Engine », université Stanford,‎ (lire en ligne)
  9. US 6.285.999 B1.
  10. Le texte du brevet est accessible sur le site du bureau des brevets des États-Unis (l'USPTO).
  11. Le texte du contrat de licence, dans sa version amendée de 2003, est accessible à cette adresse.
  12. (Grant NSF - IRI-9411306-4).
  13. « The Government has certain rights in the invention. » Voir le texte du brevet.
  14. Définition du PageRank thématique.
  15. « From now on, when Google sees the attribute (rel="nofollow") on hyperlinks, those links won't get any credit when we rank websites in our search results. This isn't a negative vote for the site where the comment was posted; it's just a way to make sure that spammers get no benefit from abusing public areas like blog comments, trackbacks, and referrer lists », source.
  16. (en) Matt Cutts, « PageRank sculpting », sur MattCutts.com, (consulté le ).
  17. SEOLand (13 juillet 2010), [1].
  18. « Utiliser des URL canoniques », sur google.com.
  19. a et b Benoît Epron et Marcello Vitali-Rosati, L'édition à l'ère du numérique, Paris, Édition La Découverte, , 114 p. (ISBN 978-2-7071-9935-5, lire en ligne), p. 77
  20. (en) Robert K. Merton, « The Matthew Effect in Science: The reward and communication systems of science are considered », Science, vol. 159, no 3810,‎ , p. 56–63 (ISSN 0036-8075 et 1095-9203, PMID 5634379, DOI 10.1126/science.159.3810.56, lire en ligne, consulté le )

Liens externes

Read other articles:

Frederik Rønnow Pesepakbola profesional Frederik Rønnow dengan seragam Eintracht Frankfurt pada pertandingan kandang melawan SV Werder Bremen pada 6 Oktober 2019.Informasi pribadiNama lengkap Frederik RønnowTanggal lahir 4 Agustus 1992 (umur 31)Tempat lahir Horsens, DenmarkTinggi 190 cm (6 ft 3 in)Posisi bermain Penjaga gawangInformasi klubKlub saat ini 1. FC Union BerlinNomor 1Karier senior*Tahun Tim Tampil (Gol)2021 -2022 Eintracht Frankfurt 0 (0)Tim nasional2016 – Den…

Cantos de trabajo de Los Llanos de Venezuela y Colombia Patrimonio cultural inmaterial de la Unesco Arreo de ganado, llanero apureñoLocalizaciónPaís Venezuela VenezuelaColombia ColombiaDatos generalesTipo Cultural inmaterialIdentificación 01285Región América Latina y el CaribeInscripción 2017 (XII sesión)En peligro Requiere medidas urgentes de salvaguardia[editar datos en Wikidata] Los cantos de arreo y ordeño son parte de los que en los llanos de Venezuela y Colombia se …

Feel's FreeAlbum studio karya Indro HardjodikoroDirilis2010DirekamPOS Production JakartaGenreJazzLabelDemajors Indipendent Music IndustryProduserIndro Hardjodikoro Feel's Free adalah album solo perdana dari Indro Hardjodikoro. Dirilis pada tahun 2010 oleh Demajors Indipendent Music Industry. Daftar lagu Titik Awal I Like Surprises My Angels Greenland Feels Free Psycopath Drum & Bass Menyapa Pagiku Lost City Senja Personil Indro Hardjodikoro - (bass) Demas Narawangsa - (drum) Lal Intje Ma…

Gran Bajo del GualichoUbicación geográficaRegión Patagonia argentinaCoordenadas 40°22′43″S 65°15′02″O / -40.37861111, -65.25055556Ubicación administrativaPaís ArgentinaDivisión Provincia de Río NegroSubdivisión  Río NegroCuerpo de aguaEfluentes evaporaciónAltitud -72 m s. n. m.Mapa de localización Gran Bajo del Gualicho Ubicación (Argentina).[editar datos en Wikidata] El Gran Bajo del Gualicho es una depresión endorreica ubicada en el área s…

Universitas of TriesteUniversità degli Studi di Triestebahasa Latin: Universitas Studiorum TergestumJenisNegeriDidirikan1924RektorProf. Maurizio FermegliaStaf administrasi1.000Jumlah mahasiswa15.177LokasiTrieste, ItaliaTim olahragaCUS TriesteAfiliasiAlmalaurea, CEI Jaringan Universitas, Nettuno (accessed 26 February 2014)Situs webwww.units.it Universitas Trieste (bahasa Italia: Università degli Studi di Trieste, or UniTS) adalah universitas di Trieste di wilayah Friuli-Venezia Giulia d…

HangwaBerbagai jenis hangwaNama KoreaHangul한과, 조과 Hanja韓菓,漢菓, 造果 Alih Aksarahangwa, jogwaMcCune–Reischauerhan'gwa, chogwa Han-gwa yang bermakna Kue Korea adalah biskuit tradisional Korea yang dibuat dari bahan tepung beras yang ditambah madu, gula, minyak wijen dan bahan-bahan lain.[1] Jenis hangwa ada bermacam-macam dan cara pembuatannya bervariasi mulai dari dibentuk, dicetak, digoreng atau dikukus. Jenis Yakgwa, terbuat dari tepung beras, diulen dengan minyak wij…

Contoh Garrote untuk menghukum mati di Filipina Garrote, atau dalam Bahasa Spanyol garrote vil yang berarti alat pencekik leher dalam bentuk rantai, kain, kabel, atau tali pancing yang digunakan untuk membunuh atau menghukum mati. Hingga perang dunia kedua, garrote digunakan untuk membunuh lawan perang atau penjaga dengan cara yang senyap. Leher lawan dibelitkan kabel yang diikatkan ke kayu, lalu ditarik dalam satu sentakan sehingga kesulitan bernapas dan mati dalam waktu singkat. Korban terakhi…

Cévennes ist eine Weiterleitung auf diesen Artikel. Zum Automodell siehe PGO Cévennes. Cevennen Typische Cevennenlandschaft Typische Cevennenlandschaft Höchster Gipfel Mont Lozère (1699 m) Lage Frankreich Teil des Zentralmassivs Cevennen (Frankreich) Koordinaten 44° 26′ N, 3° 44′ O44.4262361111113.73926388888891699Koordinaten: 44° 26′ N, 3° 44′ O p1p5 Die Cevennen oder seltener Sevennen (französisch Cévennes, okzitanisch Cevenas) sin…

2017 Canadian filmBon Cop, Bad Cop 2Directed byAlain DesRochersWritten byPatrick HuardProduced byPierre EvenPatrick HuardFrançois FlamandStarringPatrick HuardColm FeoreSarah-Jeanne LabrosseErik KnudsenNoam JenkinsJohn MooreCinematographyRonald PlanteEdited byJean-François BergeronMusic byAnik JeanProductioncompaniesItem 7Jessie FilmsDistributed byLes Films SévilleRelease date May 12, 2017 (2017-05-12) Running time126 minutesCountryCanadaLanguagesEnglishFrenchBudget$10 million C…

Political party in Germany German Centre Party Deutsche ZentrumsparteiFederal ChairmanChristian OtteFounderJoseph GörresFounded 13 December 1870 (1870-12-13) (original form) 1945 (1945) (current form) HeadquartersStraberger Weg 12 41542, Dormagen, NRWYouth wingWindthorstbund [de]Paramilitary wingReichsbanner Schwarz-Rot-Gold (1924–1930)Membership (2022 est.) 600IdeologyChristian democracy[1]Social conservatismPolitical positionCentre-rightLate 192…

Arthur Le Moyne de La Borderie Arthur Le Moyne de La Borderie, (Vitré, 5 de octubre de 1827 - 17 de febrero de 1901) fue un historiador francés, considerado el padre de la historiografía de Bretaña. (La Borderie fue una propiedad de la comuna de Étrelles.[1]​) Biografía Después de estudiar Derecho en la Universidad de Rennes,[2]​ entró en la École des chartes. La dejó en 1852 y desde 1853 hasta 1859 trabajó en el departamento de archivos de Nantes. Miembro fundador de la S…

18th century planetarium and science museum in Franeker, Friesland, Netherlands Royal Eise Eisinga PlanetariumKoninklijk Eise Eisinga PlanetariumFront of the museum in 2007Established1781LocationFraneker, NetherlandsCoordinates53°11′14″N 5°32′38″E / 53.187348°N 5.543965°E / 53.187348; 5.543965TypeScience museumWebsitewww.planetarium-friesland.nl UNESCO World Heritage SiteOfficial nameEisinga Planetarium in FranekerTypeCulturalCriteriaivDesignated2023 (45th ses…

American curler Beverly BehnkeCurlerTeamCurling clubDenver CC,Denver, ColoradoCurling career World Championshipappearances2 (1990,1994) Medal record Curling United States National Championships 1990 Superior 1993 St. Paul 1994 Duluth 1992 Grafton 1995 Appleton 1996 Bemidji 1989 Detroit[1] United States Olympic Curling Trials 1997 Duluth Beverly Behnke is an American curler from Denver, Colorado. She was a three-time national champion in the early 1990s. Curling career In 1990 Behnke was …

Sporting event delegationCyprus at the2010 Winter OlympicsIOC codeCYPNOCCyprus Olympic CommitteeWebsitewww.olympic.org.cy/index.php/gr/ (in Greek)in VancouverCompetitors2 in 1 sportFlag bearers Christopher Papamichalopoulos (opening)Sophia Papamichalopoulou (closing)Medals Gold 0 Silver 0 Bronze 0 Total 0 Winter Olympics appearances (overview)198019841988199219941998200220062010201420182022 Cyprus sent a delegation to compete at the 2010 Winter Olympics in Vancouver, British Columbia, …

1981 American slasher film directed by Romano Scavolini NightmareTheatrical release posterDirected byRomano ScavoliniWritten byRomano ScavoliniProduced byJohn L. Watkins[1]William MillingStarringBaird StaffordSharon SmithC.J. CookeMike CribbenDanny RonanCinematographyGianni FioreEdited byRobert T. MegginsonMusic byJack Eric WilliamsProductioncompanyGoldmine Productions[2]Distributed by21st Century Film CorporationRelease date October 23, 1981 (1981-10-23)[1]…

Political party in Armenia Fair Armenia Party Արդար Հայաստան կուսակցությունLeaderNorayr Norikyan[1]Founded20 January 2021 (2021-01-20)HeadquartersYerevan, ArmeniaIdeologyEconomic liberalismPro-EuropeanismRussophiliaCatch-all partyPolitical positionCentreColours  OrangeSloganStand up, Armenia!National Assembly0 / 107WebsiteFacebook pagePolitics of ArmeniaPolitical partiesElections The Fair Armenia Party (Armenian: Արդար Հայա…

Censo de los Estados Unidos de 1790 Primera página de una copia del censo, publicada en 1793.Información generalTipo de censo Censo de poblaciónLugar Estados UnidosFecha de realización 2 de agosto de 1790Autoridad responsable Cuerpo de Alguaciles de Estados UnidosCosto de realización 44 000 USDDatos de poblaciónPoblación 3 929 214 hab.Región más poblada Virginia (747 610 hab.)Región menos poblada Territorio del Suroeste (35 691 hab.)Ciudad más p…

Mythical king 17th-century Shahnameh illustration of Dara II seated on his throne Dara II or Darab II was the last king of the mythological Kayanian dynasty, ruling between 14 and 16 years. He is generally identified with Darius III (r. 336–330 BC), the last king of the Achaemenid Empire.[1] In Middle Persian literature and Islamic chronicles, he is generally known as Dara, while he is known as Darab in the New Persian proses Darab-nama and Iskandar-nama. He was the son and …

  此条目的主題是阪急電鐵經營的路線神戶高速線。关于其他路線的神戶高速線,請見「神戶高速線」。 神戶高速線新開地站停車的阪急7000系電力動車組(日语:阪急7000系電車)(右)與山陽3000系列車(日语:山陽電気鉄道3000系電車)(左)日語原名神戸高速線假名こうべこうそくせん羅馬字Kōbe Kōsoku sen概覽營運地點 日本 兵庫縣神戶市中央區、兵庫區起點…

  此條目介紹的是地震震后向震区发布警报的系统。关于地震震前的预测和预报工作,请见「地震预测」。 2015年5月尼泊尔地震期间地震网络项目(英语:Earthquake Network)发出地震警报的预警时间。十字标记标绘地震震中,而点标记显示检测位置[1]。图中可见该次地震对中国西藏大部地区而言,预警时间可达10秒以上。 地震预警系统(英語:Earthquake Early Warning syste…

Kembali kehalaman sebelumnya

Lokasi Pengunjung: 3.142.133.226