PageRank és l'algoritme que utilitza Google per determinar la posició d'una pàgina web a l'hora de fer una consulta mitjançant el seu motor de cerca. Aquest mètode mesura el seu grau d'importància de forma numèrica i permet situar els resultats més fiables en primer lloc. També indica la probabilitat que té un usuari, navegant de forma aleatòria amb enllaços, d'arribar a una pàgina concreta.
Aquesta tecnologia realitza una mesura objectiva de la rellevància que tenen les pàgines web a la xarxa i es basa en assignar un valor a cada web en funció del nombre d'enllaços d'altres pàgines que l'apunten, interpretant un vincle de la pàgina A a la pàgina B com un vot que rep la pàgina B per part de la pàgina A. A més, PageRank també considera el prestigi de cada pàgina que emet un vot, ja que als vots que provenen de determinades pàgines se'ls atorga un valor major, incrementant així el valor de la pàgina vinculada. D'aquesta manera i juntament amb altres criteris no públics, les pàgines importants reben una valoració més alta i apareixen en la part superior dels resultats de cerca.
PageRank és la part més coneguda del gran sistema de classificació de Google i destaca entre models de llenguatge (que estudia com formular les frases, sinònims, errors ortogràfics, etc.), models de consulta (com els usuaris utilitzen aquest llenguatge actualment), models de temps (algunes consultes són millor respostes gràcies a una web creada fa dos dies que una molt més antiga) i models personalitzats (no tothom busca o vol el mateix), entre d'altres.
PageRank va ser desenvolupat a la Universitat Stanford per Larry Page. Més tard Sergey Brin es va afegir al projecte, ja que estava investigant sobre els motors de cerca. El primer document que parla sobre PageRank i el prototip inicial del motor de cerca de Google va ser publicat el 1998. Poc després, Page i Brin van fundar Google Inc.[1]
Aquest algoritme beu de l'anàlisi de citacions (desenvolupat per Eugene Garfield en la dècada dels 50) i per la primera tècnica d'anàlisi de xarxes als motors de cerca, Hyper Search, desenvolupada per Massimo Marchiori.
PageRank representa la probabilitat que una persona arribi a una pàgina en particular fent clic sobre enllaços de forma totalment aleatòria. Aquest procediment es podria entendre com una cadena de Markov en què els estats són les pàgines, i les transicions són igualment probables i són els vincles entre les pàgines. Aquesta probabilitat està expressada amb un valor numèric entre 0 i 1. Així que un PageRank de 0.5 significa que existeix un 50% de probabilitat que l'usuari sigui adreçat a una web en concret si navega clicant aleatòriament. L'algorisme inicial el podem trobar al document original on els seus creadors van presentar el prototip del que ara és Google: "The Anatomy of a Large-Scale Hypertextual Web Search Engine".[2] Una alternativa a l'algorisme PageRank propost per Jon Kleinberg, és l'algorisme HITS.
Per entendre el complex funcionament d'aquest algoritme proposarem un exemple: suposem que només existeixen 4 pàgines web a la xarxa: A, B, C i D (vegeu figura 2).
1) Contribucions inicials:
En aquest cas sabem que la probabilitat inicial que un usuari acabi visitant una de les 4 webs és 1/4=0.25 (PageRank(PR)=0.25).
2) Importància dels enllaços de sortida de cada pàgina:
Si només hi hagués els enllaços de les pàgines B, C i D cap a la pàgina A, li atorgarien un valor de PageRank de 0.25 cada una d'elles.
Veiem també que B té un enllaç cap a C i que D enllaça a totes les altres pàgines. Així, tenim que B dona un vot amb valor de 0.125 a la pàgina A i un vot valorat en 0.125 a C. Per acabar sabem que D aporta 0.083 al PageRank de A.
De la mateixa manera obtenim la resta de valors de PageRank:
Per tant, el valor d'una pàgina x qualsevol es pot expressar com:
On:
3) Interpretació dels valors obtinguts:
La web B té un valor més alt que C, encara que té menys enllaços que l'apunten; això és degut al fet que la importància d'aquest enllaç és major. Un altre detall important és saber que A, encara que no té cap vincle de sortida, equival a tenir enllaços a totes les webs de la xarxa, ja que obliga a l'usuari a obrir una pàgina nova voluntàriament i la probabilitat d'accedir-hi a una en concret és la mateixa per totes.
Pot donar-se el cas que l'usuari deixi de prémer enllaços al navegar per la xarxa i passi a escriure un URL directament en la barra d'adreces o prema un dels seus marcadors del navegador. Per aquest motiu s'afegeix aquest factor d'amortiment, que tindrà en compte aquesta possibilitat.
On:
D'aquesta manera s'obtenen resultats més acurats i s'aconsegueix que les pàgines que no tenen enllaços a cap altra no surtin especialment beneficiades.
En gener de 2005 es va implementar el nou atribut 'rel=nofollow' en els enllaços amb l'objectiu inicial que els enllaços no inserits voluntàriament pels propietaris de la web no fossin tinguts en compte pels cercadors i també per evitar l'spam en altres llocs web.