Weitere Einflussfaktoren im Rahmen des PageRank-Verfahrens
Es wurde bereits vielerorts diskutiert, ob für die PageRank-Berechnung seit
der Veröffentlichung der wissenschaftlichen Arbeiten durch Lawrence Page und
Sergey Brin weitere Kriterien als nur die einfache Link-Struktur des Webs für
die Berechnung des PageRanks hinzugezogen wurden. Lawrence Page selbst skizziert
in der Patentschrift zum PageRank-Verfahren die folgenden potentiellen
Einflussfaktoren:
 |
Die Stärke der Hervorhebung eines Links |
 |
Die Position eines Links innerhalb des Dokuments |
 |
Die Distanz zwischen Webseiten |
 |
Die Bedeutung einer verweisenden Seite |
 |
Die Aktualität einer verweisenden Seite |
Die Implementierung dieser weiteren Einflussfaktoren würde zunächst auf
bessere Annäherung des Random Surfer Modells an tatsächliches Nutzerverhalten
abzielen. Mit der Einbeziehung von Hervorhebung und Position eines Links geht
man davon aus, das ein Benutzer nicht völlig wahllos klickt, sondern unabhängig
vom Ankertext eher die deutlich erkennbaren und unmittelbar sichtbaren Links
verfolgt. Mit der Berücksichtigung der anderen Faktoren könnte Google darüber
hinaus eine weit größere Flexibilität in der Bestimmung der Bedeutung eines
eingehenden Links für eine Webseite erreichen, als durch die bereits erwähnten
Methoden.
Ob einzelne dieser Faktoren tatsächlich in das PageRank-Verfahren
implementiert sind, ist empirisch kaum zu belegen, und soll deshalb an dieser
Stelle auch nicht ausführlich diskutiert werden. Es soll vielmehr erörtert
werden, auf welche Art und Weise weitere Einflussfaktoren in den
PageRank-Algorithmus implementiert werden könnten und welche Möglichkeiten zur
Einflussnahme auf den PageRank seitens Google sich hierdurch ergeben.
Modifizierung des PageRank-Algorithmus
Um weitere Faktoren in das PageRank-Verfahren einfliessen zu lassen, ist der
ursprüngliche PageRank-Algorithmus wiederum zu modifizieren. Da wir davon
ausgehen müssen, dass für die PageRank-Berechnung weiterhin zahlreiche
Iterationen durchgeführt werden, ist hierbei allerdings zu berücksichtigen, dass
im Sinne einer möglichst schnellen PageRank-Berechnung für die Einbeziehung
weiterer Faktoren zusätzliche Datenbank-Zugriffe im Laufe der Iterationen
weitestgehend vermieden werden sollten. Aus diesem Grunde bietet sich der
folgende, modifizierte PageRank-Algorithmus an:
PR(A) = (1-d) + d (PR(T1)×L(T1,A) + ... + PR(Tn)×L(Tn,A))
Hier bei stellt L(Ti,A) eine Bewertung des Links, der von der Seite Ti auf
die Seite A zeigt, dar. L(Ti,A) tritt damit an die Stelle der Gewichtung des
PageRanks von Seite Ti nach der Anzahl deren ausgehender Links durch den Faktor
1/C(Ti). Der Wert L(Ti,A) würde sich aus mehreren einzelnen Faktoren
zusammensetzen, die jedoch nur einmal ermittelt werden müssten und dann vor der
eigentlichen PageRank-Berechnung in einen einzigen Wert einfließen. Hierdurch
vergrößert sich die Anzahl der Datenbankzugriffe nicht, wobei allerdings
angemerkt werden muss, dass durch die hier vorgeschlagene Modifikation des
PageRank-Algorithmus im Laufe jeder Iteration bei der Bestimmung jedes einzelnen
PageRanks ein Zugriff auf eine wesentlich größere Datenbank zu erfolgen hat, als
im Falle des ursprünglichen PageRank-Algorithmus, da nun nicht mehr nur die
Bewertung von Seiten (anhand der Anzahl ihrer ausgehenden Links) sondern die
Bewertung jedes einzelnen Links in die Berechnung einfließt.
Unterschiedliche Bewertung von Links innerhalb einzelner Seiten
Zwei wesentliche von Lawrence Page in der Patentschrift zum
PageRank-Verfahren genannte Bewertungskriterien für Links sind deren Grad der
Hervorhebung und Position innerhalb eines Dokuments. Es handelt es sich hierbei
also um Kriterien, die im Rahmen des Random Surfer Modells einzig die
Wahrscheinlichkeit widerspiegeln, mit der der Zufalls-Surfer einen bestimmten
Link auf einer Website in Relation zu einem anderen Link auf dieser Website
verfolgt. Im ursprünglichen PageRank-Algorithmus entspricht diese
Wahrscheinlichkeit dem Term (1/C(Ti)), wobei die Wahrscheinlichkeiten für das
Verfolgen von Links von einer Seite dabei jeweils gleich waren.
Eine Zuweisung unterschiedlicher Wahrscheinlichkeiten für das Verfolgen von
Links könnte beispielhaft etwa folgendermaßen erfolgen:
Wir betrachten ein Web aus den drei Seiten A, B und C. Jede der Seiten
verlinkt jeweils auf jede andere. Links werden nach zwei Bewertungskriterien X
und Y gewichtet. X stellt die Hervorhebung eines Links dar. X ist gleich 1,
sofern der Links nicht hervorgehoben und gleich 2, sofern der Link etwa fett
oder kursiv hervorgehoben ist. Y stellt die Position eines Links im Dokument
dar. Y ist gleich 1, sofern der Link in der unteren Hälfte des Dokuments und
gleich 3, sofern der Link in der oberen Hälfte des Dokuments erscheint. Nehmen
wir einen multiplikativen Zusammenhang zwischen X und Y an, werden die Links aus
unserem Beispielweb wie folgt bewertet:
X(A,B) × Y(A,B) = 1 × 3 = 3
X(A,C) × Y(A,C) = 1 × 1 = 1
X(B,A) × Y(B,A) = 2 × 3 = 6
X(B,C) × Y(B,C) = 2 × 1 = 2
X(C,A) × Y(C,A) = 2 × 3 = 6
X(C,B) × Y(C,B) = 2 × 1 = 2
Zur Ermittlung der einzelnen Faktoren L sind schließlich die Bewertungen der
Links nicht mehr allein nach der Anzahl der ausgehenden Links zu gewichten.
Vielmehr erfolgt eine Gewichtung nach der wiederum bewerteten Anzahl der
ausgehenden Links. Hierdurch ergeben sich die folgenden Gewichtungsquotienten
Z(Ti) für die einzelnen Seiten Ti:
Z(A) = X(A,B) × Y(A,B) + X(A,C) × Y(A,C) = 4
Z(B) = X(B,A) × Y(B,A) + X(B,C) × Y(B,C) = 8
Z(C) = X(C,A) × Y(C,A) + X(C,B) × Y(C,B) = 8
Die einzelnen Bewertungsfaktoren L(T1,T2) für einen Link von Seite T1 nach
Seite T2 ergeben sich damit als
L(T1,T2) = X(T1,T2) × Y(T1,T2) / Z(T1)
und haben in unserem Beispiel die folgenden Werte:
L(A,B) = 0.75
L(A,C) = 0.25
L(B,A) = 0.75
L(B,C) = 0.25
L(C,A) = 0.75
L(C,B) = 0.25
Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich damit die folgenden
Gleichungen für die PageRank-Berechnung:
PR(A) = 0.5 + 0.5 (0.75 PR(B) + O.75 PR(C))
PR(B) = 0.5 + 0.5 (0.75 PR(A) + 0.25 PR(C))
PR(C) = 0.5 + 0.5 (0.25 PR(A) + 0.25 PR(B))
Aus der Lösung dieses Gleichungssystems folgen als PageRank-Werte für die
einzelnen Seiten:
PR(A) = 819/693
PR(B) = 721/693
PR(C) = 539/693
Zuallererst sehen wir, dass Seite A den höchsten PageRank erhält. Dies ist
darin begründet, dass Seite A sowohl von Seite B als auch von Seite C den
jeweils stärker bewerteten Link erhält.
Es zeigt sich ferner, dass auch hier bei der Bewertung der einzelnen Links
die Summe der PageRank-Werte aller Seiten mit 2079/693 gleich 3 und damit gleich
der Anzahl der Seiten ist. Somit können die mittels des derart modifizierten
PageRank-Algorithmus ermittelten Werte ohne weitere Normalisierung in die
allgemeine Bewertung von Webseiten durch Google einfließen.
Unterschiedliche Bewertung von Links nach Eigenschaften der
verweisenden Seite
Neben der unterschiedlichen Bewertung von Links innerhalb einer Seite führt
Lawrence Page in der Patentschrift zum PageRank-Verfahren an, dass Links auch
nach Kriterien gewichtet werden können, denen eine Bewertung der verweisenden
Seite zu Grunde liegt. Dies scheint auf den ersten Blick überflüssig, da es
bereits der Grundgedanke des PageRank-Konzepts ist, dass Links einen um so
größeren Einfluss haben, je bedeutender die verlinkende Seite ist. Page und Brin
erkannten allerdings sehr früh, dass ihr Algorithmus anfällig gegen das
"künstliche Aufblähen" des PageRank einzelner Seiten ist.
Eine Beinflussung des PageRank kann in erster Linie dadurch erfolgen, dass
Webmaster eine Vielzahl von Webseiten generieren, deren Links den PageRank so
distribuieren, dass einzelne Seiten im System eine besondere Bedeutung erlangen.
Diese Seiten können dann einen hohen PageRank inne haben, ohne dass von anderen
Websites mit hoher Relevanz auf sie verlinkt wird. Hierdurch wird nicht nur das
Konzept des PageRank unterwandert, sondern insbesondere auch der
Suchmaschinenindex mit einer Vielzahl von Webseiten überflutet, die lediglich
zum Zwecke der Beeinflussung des PageRank geschaffen wurden.
Als ein Mittel der Verhinderung dieser Form der Beinflussung zeigt Lawrence
Page in seiner Patentschrift die Bewertung von Links anhand der Distanz zwischen
verlinkender und verlinkter Seite auf. Hintergrund ist, dass je größer die
Distanz zwischen zwei Seiten ist, um so geringer ist die Wahrscheinlichkeit,
dass ein und die selbe Person beide Seiten kontrolliert. Kriterium der Distanz
zwischen Seiten kann etwa sein, ob Sie auf der selben Domain liegen oder nicht.
Damit würden interne Links weniger gewichtet als externe. Aber auch jedes andere
Kriterium der Distanz käme laut Page in Frage, also etwa ob Seiten sich auf dem
selben Webserver befinden. Letztlich sei auch gerade die Verlinkung durch
Websites aus unterschiedlichen geographischen Regionen ein deutliches Indiz für
die Relevanz einer Seite.
Als weiteres Indiz für die Bedeutung einer Seite nennt Page die Aktualität
der verlinkenden Seite. Die Informationen einer Seite sind mit viel geringerer
Wahrscheinlichkeit veraltet, je mehr kürzlich modifizierte Seiten auf sie
verlinken. Dagegen bevorzugt das eigentliche PageRank-Verfahren wie auch jedes
Verfahren der Messung der Link-Popularität eher ältere Dokumente, die erst im
Laufe ihrer Existenz eine Vielzahl eingehender Links erhalten haben und mit
einer geringeren Wahrscheinlichkeit als neue Dokumente kürzlich verändert
wurden. Grundsätzlich könnten aktuelle Dokumente mittels der bereits erwähnten
Gewichtung des Faktors (1-d) besser bewertet werden. Hierdurch erhielten sowohl
die aktuellen Dokumente selbst als auch diejenigen Dokumente auf die sie
verlinken einen höheren PageRank. Die Aktualität einer Seite ist allerdings
nicht zwingend ein Indiz für die Qualität der auf Ihr präsentierten
Informationen. Daher ist es unbedingt ratsam, wie von Page vorgeschlagen, nicht
die Aktualität einer Seite selbst zu bewerten, sondern vielmehr die Aktualität
ihrer eingehenden Links.
Schließlich nennt Page als Kriterium für die Bedeutung eines Links noch die
grundsätzliche Bedeutung der verlinkenden Seite. Als Beispiel wird in der
Patentschrift zum PageRank Verfahren der Link von der Root-Seite einer Domain
genannt. Hier könnte allerdings letztlich seitens Google ganz willkürlich auf
das PageRank-Verfahren Einfluss genommen werden.
Um die Bewertung verlinkender Seiten in den PageRank-Algorithnmus
aufzunehmen, muss der Bewertungsfaktor aus unserem modifizierten
PageRank-Algorithmus nunmehr aus mehreren Einzelfaktoren bestehen. Für einen
Link von Seite Ti nach Seite A könnte er wie folgt notiert werden:
L(Ti,A) = K(Ti,A) × K1(Ti) × ... × Km(Ti)
Hierbei stellt K(Ti,A) die weiter oben vorgestellte Bewertung der einzelnen
Links innerhalb einer Seite dar. Dazu erfolgt eine Bewertung der Seite Ti nach m
Kriterien, die durch die Faktoren Kj(Ti) repräsentiert werden. Für eine
Implementierung dieser Modifikationen muss im Falle der Bewertung von Seiten nun
nicht mehr nur der PageRank-Algorithmus abgeändert werden, sondern auch das
PageRank-Berechnungsverfahren. Dies soll wieder anhand eines Beispiels
demonstriert werden.

Wir betrachten das 3-Seiten-Web aus den Seiten A, B und C, wobei Seite A
sowohl auf Seite B als auch auf Seite C verlinkt. Seite B verlinkt auf Seite C
und Seite C wiederum verlinkt auf Seite A. Alle ausgehenden Links einer Seite
werden jeweils als gleichwertig betrachtet. Es erfolgt eine Bewertung der Links
nach genau einem seitenspezifischen Kriterium. Ein Link von Seite C sei viermal
bedeutender als ein Link von anderen Seiten. Nach entsprechender Gewichtung nach
der Anzahl der Seiten ergibt sich das folgende Bild für unsere
Bewertungsfaktoren:
K(A) = 0.5
K(B) = 0.5
K(C) = 2
Bei einem Dämpfungsfaktor d in Höhe von 0.5 ergeben sich die folgenden
Gleichungen für die Berechnung der PageRank-Werte der einzelnen Seiten:
PR(A) = 0.5 + 0.5 × 2 PR(C)
PR(B) = 0.5 + 0.5 × 0.5 × 0.5 PR(A)
PR(C) = 0.5 + 0.5 (0.5 PR(B) + 0.5 × 0.5 PR(A))
Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte für
die einzelnen Seiten:
PR(A) = 4/3
PR(B) = 2/3
PR(C) = 5/6
Es zeigt sich also, dass die Summe der PageRank-Werte nicht mehr gleich der
Anzahl der Seiten ist. Dies liegt darin begründet, dass die erfolgte Gewichtung
der Seitenbewertung nach der Anzahl der Seiten nicht korrekt war. Zur Ermittlung
der korrekten Gewichtung müsste allerdings vorab die Linkstruktur des Webs
antizipiert werden, was im Falle des WWW jedoch nicht möglich ist. Aus diesem
Grunde ist bei der Bewertung von Links nach seitenspezifischen Faktoren der
ermittelte PageRank zu normalisieren, damit kein unbegründet hoher oder geringer
Einfluss des PageRank innerhalb der Gesamtbewertung von Seiten entsteht. Bei der
iterativen PageRank-Berechnung hätte die Normalisierung nach jeder Iteration zu
erfolgen, um unerwünschte Effekte zu minimieren.
Im Falle eines sehr kleinen Webs zeigen sich Verzerrungen des PageRank durch
die Bewertungen von Links nach seitenspezifischen Kriterien sehr deutlich. Im
Falle des tatsächlichen WWW dürften sich diese Verzerrungen weitestgehend
ausgleichen. Es wäre allerdings zu befürchten, dass etwa die Bewertung der
Distanz zwischen verlinkenden Webseiten durchaus zu Verzerrungen führen kann, da
stark verlinkte Seiten sicherlich überdurchschnittlich dazu tendieren, aus
unterschiedlichen geographischen Regionen verlinkt zu werden. Hier besteht
allerdings die Möglichkeit zur Antizipation durch Erfahrungswerte aus
vorangegangenen Berechnungszyklen, so dass die Normalisierung immer nur minimal
sein müsste. Eine Einbeziehung zusätzlicher Bewertungskriterien in das
PageRank-Verfahren ist in jedem Falle möglich, dabei allerdings mit einem
erhöhten Rechenaufwand verbunden.
Themen-basierter PageRank
PageRank und Google sind geschützte Marken der Google Inc.,
Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Sämtliche Inhalte dieser Website können im WWW wiedergegeben
werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und
ein direkter HTML-Link auf die entsprechende Seite unter
pr.efactory.de gesetzt wird.