Die Implementierung des PageRank in die Suchmaschine Google
Für die Implementierung des PageRank ist von zentraler Bedeutung, auf welche
Art und Weise der PageRank in die generelle Bewertung von Webseiten durch die
Suchmaschine Google einfließt. Das Verfahren wurde von Lawrence Page und Sergey
Brin mehrfach in ihren Veröffentlichungen beschrieben. Ursprünglich basierte die
Seitenbewertung durch Google auf drei Faktoren:
 |
Seitenspezifische Faktoren |
 |
Ankertext eingehender Links |
 |
PageRank |
Zu den seitenspezifischen Faktoren zählen neben den konkreten Textinhalten
etwa auch der Inhalt des Title-Tags und die URL einer Seite. Es ist mehr als
wahrscheinlich, dass seit der Veröffentlichung dieser Punkte weitere Faktoren
hinzugekommen sind. Dies soll an dieser Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus den seitenspezifischen Faktoren und den Ankertexten
eingehender Links für den Suchbegriff eine nach Position und Grad der
Hervorhebung gewichteter IR-Wert berechnet. Die Bewertung für die Relevanz einer
Webseite für eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator
für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert. Dieses
Kombinieren erfolgt in multiplikativer Form. Dass hier kein additives Verfahren
eingesetzt wird ist unmittelbar einleuchtend, da ansonsten Seiten mit einem sehr
hohen PageRank auch auf Suchanfragen hin gefunden werden könnten, obwohl sie in
keinerlei Zusammenhang zum gesuchten Begriff stehen.
Insbesondere bei aus mehreren Begriffen bestehenden Suchanfragen zeigt sich
ein deutlich größerer Einfluss der inhaltsspezifischen Bewertungskomponenten.
Der Einfluss des PageRank hingegen wird eher bei unspezifischen, aus lediglich
einem Suchbegriff bestehenden Anfragen deutlich. Gerade für
Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen Mitteln der
Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen, die einen weitaus
höheren PageRank-Wert inne haben.
Bei der Optimierung für Suchbegriffe, für die in den Suchmaschinen ein großer
Wettbewerb herrscht, ist ein hoher PageRank-Wert unerlässlich für eine hohe
Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen Kriterien
der Suchmaschinen-Optimierung folgt. Dies liegt darin begründet, dass die
Wertung des zusätzlichen Vorkommens eines Suchbegriffs innerhalb eines Dokuments
sowie in den Ankertexten von eingehenden Links mit der Häufigkeit des Vorkommens
abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu vermeiden. Damit sind
die Möglichkeiten zur Seitenoptimierung im klassischen Sinne beschränkt, und bei
hohem Wettbewerb in Suchmaschinen für einen Suchbegriff wird der PageRank zum
ausschlaggenden Faktor.
Die PageRank Anzeige der Google Toolbar
Einen großen Bekanntheitsgrad erlangte der PageRank durch seine Anzeige in
der Google Toolbar. Die Google Toolbar ist ein Browser-Plug-In für den Microsoft
Internet Explorer, das von der Google Website herunter geladen werden kann und
zahlreiche Erleichterungen für die Google-Suche bereithält.
Die Google Toolbar zeigt den PageRank einer Seite auf einer Skala von 0 bis
10 an. Zunächst ist der PageRank an der Breite des grünen Balkens in der Anzeige
ersichtlich. Fährt der Benutzer mit der Maus über die Anzeige, gibt die Toolbar
darüberhinaus den Wert des Toolbar-PageRank an. Vorsicht: Die PageRank-Anzeige
zählt zu den "Advanced Features" der Google Toolbar. Sobald diese "Advanced
Features" aktiviert sind, sammelt Google über die Toolbar Daten über das
Benutzerverhalten. Außerdem führt die Toolbar selbstständig Updates durch, ohne
dass der Benutzer über das Herunterladen der neuen Version informiert wird. Dies
bedeutet letztlich, dass Google Zugriff auf die Festplatte des Benutzers hat.
Der tatsächliche PageRank, der für eine Seite theoretisch maximal einen Wert
von dN+(1-d) annehmen kann, wobei N die Anzahl aller Seiten des Webs ist und d
üblicherweise auf 0.85 gesetzt wird, muss für die Anzeige in der Google Toolbar
skaliert werden. Es wird im Allgemeinen davon ausgegangen, dass die Skalierung
nicht linear sondern logarithmisch erfolgt. Bei einem Dämpfungsfaktor von 0.85
und einem damit verbundenen minimalen PageRank von 0.15 sowie einer angenommenen
logarithmischen Basis von 6 ergäbe sich das folgende Bild für die Skalierung:
| Toolbar-PR |
Tatsächlicher PR |
|
|
| 0/10 |
0.15 |
- |
0.9 |
| 1/10 |
0.9 |
- |
5.4 |
| 2/10 |
5.4 |
- |
32.4 |
| 3/10 |
32.4 |
- |
194.4 |
| 4/10 |
194.4 |
- |
1,166.4 |
| 5/10 |
1,166.4 |
- |
6,998.4 |
| 6/10 |
6,998.4 |
- |
41,990.4 |
| 7/10 |
41,990.4 |
- |
251,942.4 |
| 8/10 |
251,942.4 |
- |
1,511,654.4 |
| 9/10 |
1,511,654.4 |
- |
9,069,926.4 |
| 10/10 |
9,069,926.4 |
- |
0.85 × N + 0.15 |
Ob tatsächlich eine mathematisch strikte logarithmische Skalierung erfolgt
ist natürlich ungewiss. Wahrscheinlich erfolgt eine manuelle Skalierung, die
einem logarithmischen Schema folgt, damit Google die volle Kontrolle darüber
behält, wie viele Seiten einen bestimmten Toolbar-PageRank inne haben. Diesem
Schema dürfte allerdings eine logarithmische Basis von 6 bis 7 zu Grunde liegen,
was sich etwa ansatzweise aus der Anzahl der von Google angezeigten eingehenden
Links mit einem Toolbar-PageRank größer 4 für Seiten mit einem sehr hohen
Toolbar-Pagerank herleiten lässt.
Die Datenkommunikation der Toolbar
Auch Webmaster, die aufgrund von Sicherheitsbedenken die Google Toolbar oder
auch den Internet Explorer nicht dauerhaft nutzen möchten, haben eine
Möglichkeit zum Einblick in die PageRank-Werte ihrer Seiten. Google übermittelt
den PageRank in einfachen Textdateien an die Toolbar. Früher geschah dies per
XML. Der Wechsel zu Textdateien fand im August 2002 statt.
Die PageRank-Textdateien können direkt von der Domain www.google.com
abgerufen werden. In ihrer Grundform sehen die URLs der Dateien folgendermaßen
aus (ohne Zeilenumbrüche):
http://www.google.com/search?client=navclient-auto&
ch=0123456789&features=Rank&q=info:http://www.domain.com/
Die PageRank-Dateien bestehen aus einer Zeile. Der PageRank-Wert ist die
letzte Ziffer in dieser Zeile.
Die oben in der URL dargestellten Parameter sind unerlässlich für die Anzeige
der PageRank-Dateien im Browser. So identifiziert sich mit dem Wert "navclient-auto"
für den Parameter "client" die Toolbar; mit dem Parameter "q" wird die
abgefragte URL übermittelt. Der Wert "Rank" für den Parameter "features" legt
fest, dass die PageRank-Dateien abgerufen werden. Wird dieser Parameter
weggelassen, werden auch weiterhin XML-Dateien übermittelt. Der Parameter "ch"
wiederum übergibt eine Prüfsumme für die URL, wobei sich diese Prüfsumme im
Zeitablauf für einzelne URLs lediglich bei Updates der Toolbar ändern kann.
Um die Prüfsummen einzelner URLs herauszufinden ist es damit erforderlich,
die Toolbar zumindest einmal zu installieren. Hierbei wird dann vielerorts der
Einsatz von Packet Sniffern, lokalen Proxies und ähnlichem empfohlen, um die
Kommunikation zwischen Toolbar und Google aufzuzeichnen. Dies ist allerdings
nicht zwingend erforderlich, da die PageRank-Dateien vom Internet Explorer
gecached werden und somit die Prüfsummen im Ordner Temporary Internet Files
eingesehen werden können. Die PageRank-Dateien können hiermit dann auch z.B. in
anderen Browsern als dem Internet Explorer angezeigt werden, ohne dass Googles
36-Jahres-Cookies akzeptiert werden müssen.
Da die PageRank-Dateien im Browser-Cache gespeichert werden und somit offen
einsehbar sind, und sofern eine Abfrage nicht automatisiert erfolgt, sollte dies
keine Verletzung von Googles Dienstleistungsbedingungen darstellen. Es ist
allerdings Vorsicht geboten. Die Toolbar übermittelt einen eigenen User-Agent an
Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE 4.10)
Hierbei ist 1.1.60-deleon eine Toolbar-Version, die sich natürlich ändern
kann, und OS das Betriebssystem des jeweils eingesetzten Rechners. Google kann
also nachprüfen, ob eine direkte Anfrage über den Browser erfolgt, sofern kein
Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert wird.
Beim Blick in den Cache des IE wird man in der Regel feststellen, dass die
PageRank-Dateien nicht von der Domain www.google.com, sondern von IPs wie z.B.
216.239.33.102 abgerufen werden. Ebenso enthalten die URLs häufig einen weiteren
Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111". Die IPs sind
jeweils einem der derzeit sieben sich im Einsatz befindlichen Rechenzentren
Googles zugeordnet. Wozu der Parameter "failedip" tatsächlich genutzt wird, ist
unklar. Hintergrund der unmittelbaren Abfrage der PageRank-Dateien bei einzelnen
IPs ist wohl der Versuch, die PageRank-Anzeige insbesondere in den Zeiten des "Google
Dance" besser zu steuern.
Die PageRank Anzeige der Google Directory
Denjenigen, denen der Abruf der PageRank-Dateien zu kompliziert ist, bleibt
schließlich mit der Google Directory (directory.google.com) noch eine
eingeschränkte Möglichkeit, etwas über den PageRank ihrer Site zu erfahren.
Bei der Google Directory handelt es sich um einen Dump des Open Directory
Projects (dmoz.org), der neben den Seiteneinträgen ähnlich der Google Toolbar
den skalierten PageRank für die in das ODP eingetragene Seite in Balkenform
anzeigt. Allerdings erfolgt die PageRank-Anzeige in der Google-Directory auf
einer Skala von 1 bis 7. Der exakte Wert wird nicht angezeigt, kann aber über
die zweigeteilte Balkengrafik bzw. die Breite von deren Einzelgrafiken bestimmt
werden, falls der Betrachter sich beim einfachen Augenschein unsicher ist.
Durch den Vergleich des Toolbar-PageRanks mit dem Directory-PageRank kann vom
tatsächlichem PageRank von Seiten, die in das ODP eingetragen sind, ein etwas
genauerer Eindruck gewonnen werden. Dieser Zusammenhang wurde zuerst von Chris
Raimondi (www.searchnerd.com/pagerank) aufgezeigt.

Insbesondere für Seiten mit einem Toolbar-PageRank von 5 oder 6 ergibt sich
hier die Möglichkeit der Einschätzung, ob sich die Seite eher am unteren oder am
oberen Ende eines Bereichs der Toolbar-Skalierung befindet. Es sei an dieser
Stelle angemerkt, dass für die Darstellung des Vergleichs der beiden
PageRank-Anzeigen der Toolbar-PageRank von 0 nicht berücksichtigt wurde. Dass
dies sinnvoll ist, kann anhand von Seiten mit einem Directory-PageRank von 3
nachvollzogen werden. Hier ist allerdings zu berücksichtigen, dass zur
Überprüfung eine Seite der Google Directory mit einem Toolbar-PageRank von
maximal 4 ausgewählt werden sollte, da sich sonst in der Regel keine von dort
verlinkten Seiten mit einem Toolbar-PageRank von 3 finden lassen.
Der Effekt eingehender Links
PageRank und Google sind geschützte Marken der Google Inc.,
Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Sämtliche Inhalte dieser Website können im WWW wiedergegeben
werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und
ein direkter HTML-Link auf die entsprechende Seite unter
pr.efactory.de gesetzt wird.