PR0 - Die PageRank 0 Bestrafung
Seit Ende des Jahres 2001 greift die Bestrafung von Websites mit einem
PageRank von 0 um sich. In einschlägigen Suchmaschinenoptimierungs-Foren hat
sich hierfür die Kurzform PR0 eingebürgert und diese soll auch hier benutzt
werden. PR0 ist dadurch gekennzeichnet, dass alle - oder zumindest viele -
Seiten einer Website in der Google Toolbar einen PageRank von 0 aufweisen,
obwohl diese mitunter qualitativ hochwertige eingehende Links aufweisen können.
Sie sind nicht vollkommen aus dem Index entfernt, erscheinen aber in
Suchergebnissen stets ganz unten und sind somit praktisch nicht aufzufinden.

Einem PageRank von 0 muss natürlich nicht immer eine Bestrafung zu Grunde
liegen. Vielen vermeintlich bestraften Seiten mangelt es schlicht an eingehenden
Links mit entsprechend hohem PageRank. Wenn aber die Seiten einer Site, die
vormals gut in den Suchergebnissen platziert waren, plötzlich die gefürchtete
weiße PageRank-Anzeige aufweisen, und sich hinsichtlich der eingehenden Links
der Site nichts wesentliches verändert hat, liegt nach herrschender Meinung eine
Bestrafung durch Google vor.
Über die tatsächlichen Ursachen des PR0 kann natürlich nur spekuliert werden.
Da seitens Google mittlerweile nicht mehr über technische Details und
grundlegende Algorithmen publiziert wird, sind schließlich erforderliche
Hintergrundinformationen kaum oder gar nicht verfügbar. Nichtsdestotrotz soll
wegen der tiefgreifenden Auswirkungen von PR0 ein theoretischer Ansatz hierfür
geliefert werden.
Hintergründe des PR0
Suchmaschinen-Spam ist eines der großen Probleme mit denen
Suchmaschinen-Betreiber seit jeher zu kämpfen haben. Die übliche Vorgehensweise
gegen Spam war immer, dass - sobald Spam identifiziert wird - die entsprechenden
Domains oder auch gleich IP-Adressen in der Regel für unbestimmte Zeit aus dem
Index verbannt werden.
Ein derartiges manuelles Entfernen von Websites aus dem Index ist immer mit
einem hohen Personalaufwand verbunden. Dies läuft der stets von Google
angestrebten hohen Skalierbarkeit der Suchmaschine zuwider. Es ist hiermit also
erforderlich, Spam automatisiert zu filtern. Hierdurch entsteht jedoch die
Gefahr, auch viele unschuldige Webmaster zu bestrafen. Die eingesetzten Filter
dürfen also nur sehr sensibel auf potentiellen Spam reagieren. Um dabei dennoch
effektiv zu sein, kann es - wie auch im Rahmen des PageRank-Verfahrens -
sinnvoll sein, Linkstrukturen zu analysieren.
Eine derartige Vorgehensweise wurde von einem Mitarbeiter Google's, der unter
dem Pseudonym GoogleGuy auftritt, mehrmals mehr oder weniger eindeutig im
Google-Forum von WebmasterWorld bestätigt. Bekannt wurde sie als Bestrafung für
das "linking to bad neighborhoods". Im folgenden soll erörtert werden, wie eine
derartige Identifikation von Spam über die Analyse von Linkstrukturen realisiert
werden kann. Insbesondere soll dabei gezeigt werden, wie mittels solcher
Verfahren ganze Netzwerke von Spam-Seiten, die gegebenenfalls auch auf viele
verschiedene Domains verteilt sind, ans Ende der Ergebnisseiten verbannt werden
können.
BadRank als Umkehrung von PageRank
Der hier präsentierte theoretische Ansatz zum PR0 wurde grundlegend zuerst
von Raph Levien (www.advogato.org/person/raph) formuliert. Basis dieses Ansatzes
ist es, dass neben PageRank ein weiteres Verfahren eingeführt wird, das nicht
wie PageRank die grundsätzliche Bedeutung einer Webseite im positiven Sinne
bestimmt, sondern vielmehr die negativen Eigenschaften von Webseiten misst. Der
Einfachheit halber soll dieses Verfahren hier BadRank genannt werden.

Das "linking to bad neighborhoods" bildet die Grundlage für den BadRank. Eine
Seite, die auf eine andere Seite mit einem hohen BadRank verlinkt, erhält
hierdurch tendenziell selbst einen hohen BadRank. Hiermit werden die Parallelen
zu PageRank bereits offentsichtlich, nur dass BadRank nicht auf der Bewertung
der eingehenden Links einer jeweiligen Webseite beruht, sondern vielmehr auf
deren eigenen ausgehenden Links. In diesem Sinne ist BadRank gewissermaßen eine
Umkehrung von PageRank. In einer direkten Adaption des PageRank Algorithmus
würde sich die folgende Formel für den BadRank ergeben:
BR(A) = E(A) (1-d) + d (BR(T1)/C(T1) + ... + BR(Tn)/C(Tn))
Hierbei ist
 |
BR(A) der BadRank von Seite A, |
 |
BR(Ti) der BadRank derjenigen Seiten T, auf die Seite A verlinkt, |
 |
C(Ti) die Anzahl der eingehenden Links der jeweiligen Seite Ti und |
 |
d der auch hier erforderliche Dämpfungsfaktor. |
Der Wert E(A) entsprach im Rahmen einer der hier diskutierten Modifikationen
des PageRank Algorithmus der manuellen Höherbewertung spezifischer Webseiten. Im
Rahmen des BadRank Algorithmus reflektiert dieser Wert, ob eine Seite beim
spidern des Webs von einem Spam-Filter erfasst wurde. Ohne diesen Wert E(A) wäre
der BadRank Algorithmus vollkommen nutzlos, da es sich wiederum lediglich um
eine Analyse von Linkstrukturen handeln würde, der aber keine weiteren Kriterien
zu Grunde lägen.
Mit Hilfe des hier präsentierten BadRank-Algorithmus können also zunächst
Spam-Seiten erfasst werden. Ihnen wird dann über E(A) ein numerischer Wert
zugewiesen, der beispielsweise der Schwere des Spammings entspricht oder sich
vielleicht besser am PageRank einer jeweiligen Seite orientiert, wobei die Summe
aller E(A) gleich der Anzahl der Webseiten sein muss. Im Laufe einer iterativen
Berechnung überträgt sich dieser zugewiesene Wert dann nicht nur als BadRank auf
diejenigen Seiten, die auf Spam-Seiten verlinken. Vielmehr wäre BadRank in der
Lage, Regionen des Webs zu identifizieren, in denen Spam besonders häufig
auftritt, ganz ähnlich wie PageRank Regionen des Webs identifiziert, denen eine
grundlegende Bedeutsamkeit zukommt.

BadRank und PageRank weisen dabei natürlich gravierende Unterschiede auf, die
vor allem darin begründet sind, dass die Verteilung von eingehenden und
ausgehenden Links ganz entscheidend voneinander abweicht. Unser Beispiel stellt
eine einfache, hierarchisch strukturierte Website dar, die natürliche
Linkstrukturen wohl recht gut abbildet. Dabei verlinken alle Seiten jeweils auf
all diejenigen Seiten, die hierarchisch über ihnen angeordnet sind. Zudem
verlinken sie auf die ihnen direkt untergeordneten Seiten und diejenigen Seiten
innerhalb einer solchen Kategorie verlinken wiederum einander. Die Verteilung
der eingehenden und ausgehenden Links innerhalb einer derartigen Site gibt die
folgende Tabelle wieder.
| Ebene |
eingehende Links |
ausgehende Links |
| 0 |
6 |
2 |
| 1 |
4 |
4 |
| 2 |
2 |
3 |
Wie zu erwarten, erfolgt hinsichtlich der eingehenden Links eine
hierarchische Abstufung von oben nach unten. Die Anzahl der ausgehenden Links
ist hingegen in der mittleren Hierarchiestufe am höchsten. Ein ganz ähnliches
Bild zeigt sich, wenn wir eine weitere Ebene unten in unsere Beispiel-Site
einfügen, die den oben beschriebenen Richtlinien folgt:
| Ebene |
eingehende Links |
ausgehende Links |
| 0 |
14 |
2 |
| 1 |
8 |
4 |
| 2 |
4 |
5 |
| 3 |
2 |
4 |
Wiederum konzentriert sich die Zahl der ausgehenden Links in den mittleren
Hierarchiestufen. Vor allem aber, ist die Verteilung der ausgehden Links
wesentlich gleichmäßiger als die der eingehenden Links.
Wenn wir in unserem ursprünglichen Beispiel der Index-Seite A einen Wert E(A)
gleich 100 zuweisen, wobei alle anderen Werte E gleich 1 sind, ergeben sich bei
einem Dämpfungsfaktor d von 0.85 die folgenden BadRank-Werte:
| Seite |
BadRank |
| A |
22.39 |
| B/C |
17.39 |
| D/E/F/G |
12.21 |
Es zeigt sich, dass der BadRank sich von der Index-Seite aus weiter auf alle
anderen Seiten der Site verteilt. Auf die Kombination von BadRank und PageRank
wird weiter unten noch detaillierter eingegangen, ganz gleich jedoch, wie diese
erfolgt, ist es unmittelbar ersichtlich, dass beide sich sehr gut neutralisieren
könnten. Schließlich können wir davon ausgehen, dass auch der PageRank abnimmt,
je weiter wir uns in der Seitenhierarchie nach unten bewegen. Mit einer
derartigen Neutralisierung kann in jedem Falle ein PR0 für alle Seiten erreicht
werden.
Nehmen wir nun andererseits an, dass die hierachisch nachgeordnete Seite G
auf eine Seite X mit einem fixen BadRank BR(X)=10 verlinkt, wobei der Link von
Seite G der einzige eingehende Link von Seite X ist und alle Werte E für unser
Beispiel-Site gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85
die folgenden Werte:
| Seite |
BadRank |
| A |
4.82 |
| B |
7.50 |
| C |
14.50 |
| D |
4.22 |
| E |
4.22 |
| F |
11.22 |
| G |
17.18 |
Hier ist die Verteilung des BadRank weit weniger homogen als im
vorangegangenen Szenario. Nichtsdestotrotz erfolgt eine Distribution des BadRank
über die gesamte Site. Bemerkenswert ist, dass der BadRank der Index-Seite A
relativ gering ist. Es wäre damit problematisch, einen im Vergleich zu den
anderen Seiten höheren PageRank gleichermaßen zu neutralisieren. Dieser Effekt
mag wenig wünschenswert sein, er spiegelt jedoch die Beobachtungen zahlreicher
Webmaster wider: Relativ häufig tritt das Phänomen auf, dass alle Seiten bis auf
die jeweilige Index-Seite einer Site einen PR0 aufweisen, wobei die Index-Seite
oft einen Toolbar-PageRank von 2 bis 4 hat. Es drängt sich damit die Vermutung
auf, dass diese spezielle Form des PR0 nicht darauf beruht, dass die
entsprechende Website von einem der Spam-Filter identifiziert wurde, sondern
dass sie ihre Bestrafung aufgrund eines "linking to bad neighborhoods" erhalten
hat. Ferner wäre es natürlich auch möglich, dass diese Form des PR0 darin
begründet ist, dass lediglich hierarchisch nachgeordnete Bereiche einer Website
von einem Spam-Filter erfasst wurden.
Die Kombination von PageRank und BadRank zum PR0
Wenn wir davon ausgehen, dass ein BadRank in der hier präsentierten Form
existiert, stellt sich nun die Frage, in welcher Form BadRank und PageRank
kombiniert werden können, um einerseits möglichst viele Spammer aus den
Suchergebnissen zu eliminieren und andererseits möglichst wenige unschuldige
Seitenbetreiber ungerechtfertigterweise zu bestrafen.
Rein intuitiv bietet sich eine Verwendung der BadRank-Werte im Rahmen der
eigentlichen PageRank-Berechnung an. So könnte beispielsweise im Zuge der
iterativen Berechnung der PageRank einer Seite direkt durch ihren BadRank
dividiert werden. Dies hätte den Vorteil, dass eine Seite mit hohem BadRank auch
keinen bzw. nur einen minimalen PageRank weitergeben kann. Schließlich kann man
argumentieren, dass wenn eine Seite auf eine suspekte Seite verlinkt, die
anderen Seiten, auf die sie verlinkt, ebenfalls suspekt sind. Eine direkte
Verbindung birgt allerdings große Gefahren. So sind beispielsweise die
Auswirkungen auf den PageRank in keinster Weise vorab einzuschätzen.
Insbesondere ist zu beachten, dass eine Seite, der die Möglichkeit genommen wird
PageRank weiterzugeben, zu einem Dangling Link wird. Wie jedoch im Abschnitt zu
den ausgehenden Links erörtert wurde, ist es unbedingt erforderlich, Dangling
Links im Rahmen der PageRank-Berechnung zu vermeiden.
Es ist also sinnvoll, PageRank und BadRank getrennt voneinander zu berechnen.
Die anschließende Kombination der beiden kann dabei auf einfachen arithmetischen
Berechnungen beruhen. Eine Subtraktion hätte die grundsätzlich wünschenswerte
Folge, dass relativ geringe BadRank-Werte bei relativ hohen PageRank-Werten kaum
Einfluss hätten. Allerdings wäre es mit der Subtraktion problematisch,
tatsächlich einen PR0 für viele Seiten zu erreichen. Es würde vielmehr eine
breite Abstufung in niedrige PageRank-Regionen stattfinden. Mit der Division von
PageRank durch BadRank wäre ein PR0 leicht zu erreichen. Dies würde jedoch
implizieren, dass der BadRank eine extrem große Bedeutung erhält. Vor allem
jedoch ist ein sehr großer Teil der BadRank kleiner als 1, da auch der
Durchschnitt des BadRanks 1 ist, womit eine Normalisierung erforderlich wäre.
Eine Normalisierung und Skalierung des BadRanks auf Werte zwischen 0 und 1, so
dass "gute" Seiten Werte nahe 1 und "schlechte" Seiten Werte nahe 0 aufweisen,
und eine anschließende Multiplikation dieser Werte mit dem PageRank einer Seite
dürfte hier die besten Ergebnisse liefern.
Womöglich am effektivsten und am einfachsten zu realisieren wäre jedoch eine
schlichte, abgestufte Beurteilung von PageRank und BadRank. Denkbar ist, dass
sofern der BadRank einen bestimmten Wert überschreitet, es stets zum PR0 kommt.
Gleiches gilt, wenn die Relation aus PageRank zu BadRank einen bestimmten Wert
unterschreitet. Daneben ist es sinnvoll, dass wenn der BadRank und/oder die
Relation aus BadRank zu PageRank unter einem bestimmten Wert liegen, der BadRank
keinen Einfluss nimmt. Nur wenn keiner dieser Fälle eintritt, wäre eine
tatsächliche Kombination von PageRank und BadRank, etwa durch Division von
PageRank durch BadRank, erforderlich. Auf diese Weise sollten alle unerwünschten
Effekte vermieden werden können.
Kritische Beurteilung von BadRank und PR0
Wie die Kombination von PageRank und BadRank tatsächlich erfolgt, ist eher
von nachrangiger Bedeutung. Eine getrennte Berechnung und anschließende
Kombination von beiden hat allerdings zur Folge, dass man gegebenenfalls nicht
am Toolbar PageRank messen kann, wie hoch tatsächlich der BadRank einer Seite
ist. Denn falls eine Seite einen hohen PageRank im ursprünglichen Sinne hat,
muss der Einfluss des BadRank nicht unbedingt ersichtlich sein. Verlinkt eine
andere Seite darauf, kann dies jedoch durchaus gravierende Folgen haben.
Die weitaus größere Problematik liegt in der hier präsentierten, direkten
Umkehrung des PageRank-Algorithmus: Genauso, wie ein zusätzlicher eingehender
Link einer Seite deren PageRank immer nur erhöhen kann, kann ein zusätzlicher
ausgehender Link einer Seite auch deren BadRank immer nur erhöhen. Dies liegt
darin begründet, dass im Rahmen der BadRank-Berechnung sich die übertragenen
Werte einfach aufaddieren. Somit ist es vollkommen gleich, auf wie viele
untadelige Sites eine Seite verlinkt - ein einziger Link auf eine Spam-Site kann
gegebenenfalls ausreichen, um zu einem PR0 zu führen.
Diese Problematik stellt sich allerdings wohl nur in Ausnahmefällen. Da sich
schließlich bei einer direkten Umkehrung des PageRank-Algorithmus der BadRank
einer Seite unter deren eingehenden Links aufteilt, wird bei einzelnen Links auf
Seiten mit hohem BadRank immer nur jeweils ein Bruchteil des BadRank übertragen.
Google's Matt Cutts sagt hierzu: "If someone accidentally does a link to a bad
site, that may not hurt them, but if they do twenty, that's a problem." (searchenginewatch.com/sereport/02/11-searchking.html)
Solange jedoch alle Links im Rahmen des BadRank gleichermaßen gewertet
werden, besteht dennoch auch bei einzelnen Links ein Problem. Haben schließlich
zwei Seiten einen sehr unterschiedlich hohen PageRank und verlinken auf die
gleiche Seite mit hohem BadRank, kann es nach Art und Weise der Kombination von
PageRank und BadRank dazu kommen, dass die Seite mit dem höheren PageRank weit
weniger unter dem auf sie übertragenen BadRank leidet als diejenige Seite mit
dem niedrigeren PageRank. Wir können allerdings zuversichtlich sein, dass Google
mit derartigen Problemen umzugehen weiß. Nichtsdestotrotz soll nochmals
angemerkt werden, dass ausgehende Links im Rahmen der hier beschriebenen
Verfahren immer nur schaden können.
Dass die hier vorgestellten Verfahren tatsächlich auch dieser Form eingesetzt
werden, ist natürlich reine Spekulation. Grundsätzlich sollte jedoch die
Bewertung von Linkstrukturen in Analogie zum PageRank-Verfahren genau die Art
und Weise sein, wie nur Google mit Spam umzugehen versteht.
PageRank und Google sind geschützte Marken der Google Inc.,
Mountain View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Sämtliche Inhalte dieser Website können im WWW wiedergegeben
werden, sofern im unmittelbaren Zusammenhang Angaben zum Copyright erfolgen und
ein direkter HTML-Link auf die entsprechende Seite unter
pr.efactory.de gesetzt wird.