Der Effekt ausgehender Links
Da das PageRank-Verfahren die Link-Struktur des gesamten Webs abbildet, ist
es unausweichlich, dass wenn eingehende Links einen Einfluss auf den PageRank
haben, das gleiche auch für ausgehende Links gilt. Zur Darstellung der Effekte
ausgehender Links soll wieder ein kleines Beispiel dienen.
Betrachtet wird ein Web aus zwei Websites, die jeweils zwei Seiten
beinhalten. Die eine Site besteht aus den Seiten A und B, die andere aus den
Seiten C und D. Die beiden Seiten einer jeden Site verlinken sich jeweils
gegeneinander. Es wird unmittelbar deutlich, dass jede der Seiten einen
ursprünglichen PageRank von 1 inne hat. Nun wird Seite A ein externer Link auf
Seite C hinzugefügt. Für den PageRank der einzelnen Seiten ergeben sich bei
einem angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR(C)
Die Lösung dieses Gleichungssystems ergibt die folgenden Werte:
PR(A) = 14/23
PR(B) = 11/23
und somit einen aufsummierten PageRank von 25/23 für die erste Site,
PR(C) = 35/23
PR(D) = 32/23
und damit einen aufsummierten PageRank von 67/23 für die zweite Site. Der
aufsummierte PageRank beider Sites in Höhe von 92/23 = 4 bleibt also erhalten.
Das Hinzufügen von Links hat also keinen Einfluss auf den aufsummierten PageRank
des Webs. Ferner ist damit der Gewinn der verlinkten Site genauso groß wie der
Verlust der anderen.
Der tatsächliche Effekt ausgehender Links
Wie bereits gezeigt, ist der Gewinn eines geschlossenen Systems auf das ein
zusätzlicher Link gesetzt wird, gegeben durch
(d / (1-d)) × (PR(X) / C(X)),
wobei X die verlinkende Seite, PR(X) deren PageRank und C(X) die Anzahl der
ausgehenden Links von Seite X ist. Dieser Wert beschreibt damit auch den
PageRank-Verlust, der einem vormals geschlossenen System daraus entsteht, dass
einer Seite X innerhalb dieses Systems ein ausgehender Link hinzugefügt wird.
Bedingung für die angegebene Formel ist, dass die verlinkte Site nicht etwa
direkt wieder auf die verlinkende Site zurückverlinkt, da die verlinkende Site
wieder einen Teil des verlorenen PageRanks zurückgewinnen würde. Solange eine
Rückverlinkung sich über eine gar nicht so große Anzahl von Webseiten erstreckt,
ist dieser Effekt jedoch durch die Wirkungsweise des Dämpfungsfaktors zu
vernachlässigen. Ferner Bedingung für die Gültigkeit der Formel ist, dass die
verlinkende Site nicht bereits vorher ausgehende Links besitzt. Sollte dies
jedoch der Fall sein, vermindert sich die Höhe des Verlustes der betrachteten
Site, und gleichzeitig haben die bereits verlinkten Webseiten einen
entsprechenden Verminderung des PageRank hinzunehmen.
Selbst wenn für eine tatsächlich existierende Website die PageRank-Werte der
einzelnen Webseiten bekannt wären, könnte allerdings dennoch nicht ohne weiteres
im Vorhinein ermittelt werden, wie sehr das Hinzufügen eines externen Links den
PageRank der einzelnen Seiten vermindert, da die oben genannten Formel den
Status nach der Verlinkung betrachtet.
Intuitive Begründung für den Effekt ausgehender Links
Intuitiv lässt sich der Verlust von PageRank für die eigenen Seiten damit
erklären, dass der Zufalls-Surfer aus dem Random Surfer Modell durch das
Hinzufügen eines externen Links mit einer geringeren Wahrscheinlichkeit einen
Link auf eine der internen Seiten verfolgt. Damit sinkt in der Folge auch die
Wahrscheinlichkeit, mit der sich der Surfer auf einer derjenigen Seiten aufhält,
die wiederum auf diejenige Seite verlinken, der der externe Link hinzugefügt
wurde, womit auch deren PageRank sinken muss.
Es bleibt letztlich festzuhalten, dass ausgehende externe Links den
aufsummierten PageRank aller Webseiten einer Website und gegebenenfalls auch den
PageRank jeder einzelnen Seite einer Site vermindern. Da jedoch die Verlinkung
zwischen Websites gerade die Grundlage des PageRank-Verfahrens darstellt und für
sein Funktionieren unabdingbar ist, besteht durchaus die Möglichkeit, dass
ausgehende Links an einer anderen Stelle innerhalb der Bewertung von Webseiten
durch die Suchmaschine Google positiven Einfluss nehmen. Schließlich machen
gerade auch relevante ausgehende Links die Qualität einer Website aus, und
Webmaster, die Links auf andere Websites setzen, beziehen gewissermaßen deren
Content in das eigene Web-Angebot mit ein.
Dangling Links
Ein nicht ganz unwichtiger Aspekt ausgehender Links ist das Fehlen
ausgehender Links. Sobald einzelne Webseiten keine ausgehenden Links aufweisen,
versickert der PageRank gewissermaßen an diesen Stellen. Lawrence Page und
Sergey Brin bezeichnen Verweise auf derartige Seiten als "Dangling Links".
Die Auswirkungen von Dangling Links sollen anhand eines kleinen Beispiels
veranschaulicht werden. Wir betrachten eine Website die aus aus den drei Seiten
A, B und C besteht. Die Seiten A und B verlinken sich gegenseitig. Seite A
verlinkt zudem auf Seite C, die ihrerseits jedoch keine ausgehenden Links
aufweist. Für den PageRank der einzelnen Seiten ergeben sich bei einem
angenommenen Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.375 PR(A)
Die Lösung dieses Gleichungssystems ergibt die folgenden PageRank-Werte:
PR(A) = 14/23
PR(B) = 11/23
PR(C) = 11/23
Damit beträgt der aufaddierte PageRank aller Seiten 36/23, also nur etwas
mehr als die Hälfte dessen, was zu erwarten gewesen wäre, wenn Seite C auf eine
der beiden Seiten A oder B verlinkt hätte. Die Anzahl von Dangling Links ist
nach Angaben von Page und Brin nicht unbeträchtlich - und sei es, weil
zahlreiche verlinkte Seiten von Google nicht indexiert sind, etwa weil die
Indexierung per robots.txt verhindert wird. Hier ist zusätzlich zu
berücksichtigen, dass Google mittlerweile auch andere Dokumenten-Typen als HTML
wie zum Beispiel PDF oder Word Dateien indexiert, die keine wirklichen
ausgehenden Links haben. Dangling Links könnten also nicht unbeträchtliche
Folgen für das PageRank-Verfahren haben.

Um die negativen Effekte von Dangling Links auszuschalten, werden diese
Angaben von Page und Brin zufolge vor der PageRank-Berechnung aus der Datenbank
unter Anpassung der jeweiligen Anzahl von ausgehenden Links entfernt bis alle
PageRank-Werte berechnet sind. Bei der Entfernung von Dangling Links handelt es
sich um einen iterativen Vorgang, da das Entfernen wiederum neue Dangling Links
erzeugen kann, wie aus unserer einfachen Abbildung ersichtlich. Nachdem die
eigentliche PageRank-Berechnung abgeschlossen ist, wird auch den Dangling Links
PageRank - auf der Basis der PageRank-Werte der auf sie verweisenden Seiten und
unter Rückgriff auf den PageRank-Algorithmus - zugewiesen. Dies erfordert ebenso
viele Iterationen wie bei der Entfernung der Dangling Links. Um bei unserer
Abbildung zu bleiben, könnte schließlich Seite C vor Seite B bearbeitet werden.
Seite B weist dann im ersten Bearbeitungsdurchlauf bei der Bearbeitung von Seite
C noch keinen PageRank auf, womit Seite C wiederum ein PageRank von 0 zugewiesen
würde. Erst anschließend erhält Seite B ihren PageRank und im zweiten
Bearbeitungsschritt würde Seite C einen tatsächlichen PageRank zugewiesen
bekommen.
Für unser ursprüngliches Beispiel hat das Entfernen von Seite C aus der
Datenbank zur Folge, dass die Seiten A und B nach Abschluss der Berechnungen
jeweils einen PageRank von 1 erhalten. Seite C wird dann im Anschluss ein
PageRank in Höhe von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht der
aufaddierte PageRank zwar nicht der Anzahl der Seiten, doch zumindest diejenigen
Seiten mit ausgehenden Links nehmen keinen Schaden durch Dangling Links.
Durch die Eliminierung von Dangling Links haben diese also keinen negativen
Einfluss auf den PageRank der übrigen Seiten. Und wie bereits erwähnt, sind
Verweise auf Dokumententypen, die keine ausgehenden Links aufweisen können,
grundsätzlich Dangling Links. Damit wird auch unmittelbar deutlich, dass etwa
Links auf PDF-Dokumente den PageRank einer darauf verlinkenden Seite bzw. Site
nicht reduzieren können. PDF-Dokumente können also ein sehr gutes Instrument der
Suchmaschinenoptimierung für Google sein.
Der
Einfluss der Anzahl der Seiten auf den PageRank
PageRank und Google sind geschützte Marken der Google Inc.,
Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Sämtliche Inhalte dieser Website können im WWW wiedergegeben
werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und
ein direkter HTML-Link auf die entsprechende Seite unter
pr.efactory.de gesetzt wird.