Richtlinien für Google Quality Rater aufgetaucht

Nach etwa vier Jahren wurden mal wieder Googles Richtlinien für Quality Rater geleakt. Quality Rater sind Mitarbeiter von Google, die Webseiten anhand Ihrer Inhalte bewerten und entscheiden wie hilfreich die Seite für eine bestimmt Suchanfrage ist. Sie beachten dabei keine algorithmischen Kriterien sondern verlassen sich vor allem auf Ihr subjektives Empfinden.
Das heißt also, wenn ein Quality Rater denkt, eine Webseite besteht nur um damit Geld zu verdienen, wird er sie als Spam markieren. Man könnte jetzt denken, dass man im Zweifelsfall der Willkür eines Einzelnen ausgeliefert ist, über die Masse der Quality Rater bekommt man jedoch ein ganz gutes, objektiveres Bild.

Auf searchengineland.com gab es das etwa 130 Seiten lange Dokument bis vor kurzem zum Download, es wurde aber mittlerweile zurückgezogen. Wie zu erwarten sind die Informationen daraus weder neu noch so bedeutend, dass sich irgendetwas ändern würde. Im Folgenden finden Sie die wichtigsten Infos handlich zusammengefasst.

Part 1: Einführung / Rating

Die ersten Seiten des Dokuments sind im Grunde unspektakulär. Hier wird erklärt, was in welcher Skala, wie auf Grund welcher Informationen, bewertet wird. In diesen Kapiteln geht es also darum, zu erkennen was ein Benutzer sucht und welche Seite das beste Ergebnis dafür ist.

Do – Know – Go

Das Ziel eines Besuchers lässt sich grob in drei Gruppen unterteilen.

Do: Der Benutzer möchte etwas kaufen/bestellen/reservieren (Beispiel: „Gibson Gitarre online kaufen“)
Know: Der Benutzer sucht nach Informationen zu einem bestimmten Thema (Beispiel: „Musik Schmidt Öffnungszeiten“)
Go: Der Benutzer möchte eine bestimmte Webseite/Unterseite besuchen (Beispiel: „Amazon Akustik Gitarren“)

Rating Scale

Die Bewertungsskala umfasst sechs „Noten“ die in absteigender Reihenfolge die Relevanz einer Webseite in Bezug auf ein Suchanfrage bestimmen.

Vital: Eine Anfrage legt nahe, dass man genau nach einer Webseite/Person/Unternehmen sucht. (Beispiel: „Microsoft“, „Mario Gomez“, „Techcrunch“)
Useful: Eine Webseite ist für die meisten Benutzer mit dieser Suchanfrage hilfreich
Relevant: Eine Webseite ist für viele oder einige Benutzer relevant
Slightly Relevant: Eine Webseite ist für die meisten Benutzer nicht besonders hilfreich
Off-Topic or Useless: Nicht relevant, thematisch unpassend
Unrateable: Nicht bewertbar

Zu jedem Punkt gibt es eine Menge Beispiele, die den offenbar unwissenden Leser (dazu später mehr) das Thema näher bringen soll.

Flags

Jetzt wirds auch für einen Online Marketer interessant. Bisher ging es lediglich darum die grundsätzliche Relevanz einer Webseite zu einer Suchanfrage zu klären. Dieser Punkt jedoch bezieht sich direkt auf die Webseiten und deren Richtlinien-Treue. Drei Hauptthemen werden hier behandelt: Spam, Porn und Malware.

In der „Kategorie“ Spam kann sich der geneigte Google Quality Rater entscheiden ob eine Webseite „not spam“, „maybe spam“ oder „spam“ ist. Nach welchen Richtlinien die er dies entscheiden soll wird näher in Part 4 beschrieben.

Part 2 & 3: Query Locations & Rating Examples

Das Kapitel Query Locations ist schnell erklärt. Welche Auswirkungen hat der Standort auf die Relevanz einer Webseite? Sucht jemand aus Frankfurt nach „Burger King“ ist die imaginäre Website www.burger-king.de/filialen/ffm.html sinnvoller als beispielsweise www.burger-king.de.

Ohne die ganzen Beispiele gezählt zu haben, schätze ich, dass es sich um Hunderte handelt. Jede Eventualität wurde von den Herausgebern beachtet. Das ist einerseits sehr gut, ich kam mir aber nach ein paar Seiten vor wie ein Kleinkind, dem jede Kleinigkeit erklärt werden muss, obwohl sie eigentlich auf der Hand liegt. Nun gut. Weltweit einheitliche Richtlinien bekommt man anders vermutlich nicht umgesetzt.

Part 4: Webspam Guidelines

Jetzt wirds richtig interessant. Wie erkennt der unwissende Google Quality Rater nun aber Spam? Zunächst einmal sollen bei jeder Webseite, die untersucht wird, folgende zwei Schritte durchgeführt werden:

STRG + A: Kein Scherz. So soll versteckter Text gefunden werden, der zum Beispiel die gleiche Farbe hat wie der Hintergrund. Ich dachte ja, dass man bei Google keinen Job bekommt, wenn man nicht wenigstens weiß, wie man Dinge markiert, aber gut.
Scrollen: Wieder kein Scherz. Ganz nach rechts und nach unten scrollen um Text zu finden, der außerhalb des normalen Sichtbereichs liegt.

Wenn der geneigte Quality Rater nichts findet, aber trotzdem der Meinung ist, dass da etwas nicht stimmt, soll er auch die anderen Techniken verwenden, die da folgen.

Technical Signals

Laut Google gibt es vier Merkmale, die besonders häufig von Spammern ausgenutzt werden und somit auch für den Quality Rater von Interesse sein sollten:

Hidden Text/Links
Keyword Stuffing
Sneaky Redirects (ja, sneaky)
Cloaking

Hidden Text/Links

Wie oben schon erwähnt gibt es standard Methoden um versteckten Text zu entdecken (STRG+A, Scrollen). Nun gibt es aber noch andere Varianten, wie man Text für den Benutzer (fast) unsichtbar darstellen kann. Schriftgöße 1, CSS, Javascript etc. Zu diesen Punkten stellt Google direkt weitere Techniken zur Verfügung damit auch dem unwissendsten Quality Rater nichts entgeht. Zum Beispiel: Quelltext angucken. Ernsthaft.

Interessante Randbemerkung: Es wird darauf hingewiesen, dass keyword stuffing in den Meta-Tags nicht als spam markiert werden soll.

Keyword Stuffing

Keywords werden unnötig oft wiederholt um den Suchmaschinen vermeintliche thematische Relevanz vorzugaukeln. Dazu gehören nicht nur die Wörter an sich sondern auch Falschschreibweisen und semantisch verwandte Begriffe. Der Quality Rater soll die Seite bitte nur dann als Spam markieren, wenn sie der Meinung sind, dass die große Menge an Keywords den normalen Besucher stört.

Beispiele aus dieser Richtung sind: Fake Feeds, Fake Blogs, Computer generated Text, URLs die mit Keywords vollgestopft wurden (http://schuhe-online-kaufen.schuhe-shop.tld/schuhe-kaufen.html) etc.

Sneaky Redirects

Benutzer werden weitergeleitet, während der Robot die „reguläre“ Webseite sieht. Oftmals wird der Nutzer über mehrere Domains geleitet um am Ende irgendwo rauszukommen, was wenig mit der Ausgangsdomain zu tun hat. Zum Beispiel sind das auch Webseiten bekannter merchants wie Amazon oder eBay.

Methoden zum Erkennen dieser Techniken sind für die Quality Rater sind das Vergleichen der Ausgangs- und Enddomain sowie der whois Eintrag der Webseiten.

Cloaking

Cloaking ist ein Ausdruck der im Allgemeinen verwendet wird, wenn der Benutzer und die Suchmaschine verschiedene Inhalte gezeigt bekommen. Das kann zum Beispiel durch Javascript Redirects oder Frames erreicht werden. Sieht man andere Inhalte, wenn Javascript deaktiviert ist, kann man davon ausgehen, dass es sich um Spam handelt. Frames werden dazu ausgenutzt, indem man einem davon die volle Fläche des Browsers bereitstellt. So sieht der Nutzer nur einen Frame, die Suchmaschine jedoch alle.

Thin Affiliates, Copied Content & Doorway Pages

Es gibt sehr viel, sehr gute Inhalte im Internet. Wenn man sich eine Affiliate Seite aufbaut, um damit Geld zu verdienen, könnte man also einfach die Texte von z.B. Wikipedia kopieren und sich die lästige Schreiberei ersparen. Dass das gegen die Richtlinien verstößt sollte klar sein. Ob ein Text einzigartig ist, prüft man am einfachsten durch eine Suche nach einem Satz aus dem Text.

Als Thin Affiliates bezeichnet Google Webseiten, die keinen Sinn außer der Anzeige von Werbung haben. Gibt es also keinen bemerkensweretn Content, dafür aber viele Banner und andere Werbemittel, soll die Seite ebenfalls als Spam markiert werden.

Doorway Pages sind Seiten, die viele Links beinhalten und deren Unterseiten im Großen und Ganzen identisch sind. Oftmals gibt es auf den Unterseiten dann Werbemittel, die dem Besucher die gewünschten Informationen versprechen, jedoch nur zum Geld verdienen gedacht sind.

Danach folgt eine Vielzahl von Beispielen, wie durch kopierte Inhalte und Werbung Geld verdient werden kann. Auch hier wird darauf hingewiesen, dass nicht alle Afiiliate Webseiten Spam sind. Versuchen die Webmaster dem Nutzer zu helfen, in welcher Form auch immer, ist die Werbung legitim und dient der Finanzierung der Webseite.

Parked (Expired) Domains

Auch Google hat den Wert von Expired Domains erkannt. Es wird erklärt, dass der Wert von Expired Domains an den bestehenden Links gemessen wird.

Hier wird es für den Quality Rater schwieriger eine solche Seite zu erkennen. Erster Tipp zum erkennen einer Expired Domain ist, dass sämtliche Links bezahlte Links sind und kein eigener Content vorhanden ist.
Darüber hinaus ist es offenbar so, dass die Inhalte auf diesen Domains wenig oder gar nichts mit dem Domainnamen zu tun haben.

Beide Tipps sind für den Rater nicht zu gebrauchen, wenn der Spammer sich nicht ganz doof anstellt.

Fazit:

Aus meiner Sicht gibt es wenig Neues, das aus diesem Dokument hervorgeht. Die Webspam Guidelines sind logisch, wenn man drüber nachdenkt, es ist aber schön, so etwas mal aus erster Hand zu erfahren. So weiß man genau, was Google nicht in den SERPs haben will und auf welche Details sie achten. Wenn man diese Punkte also beachtet, läuft man keine Gefahr – zumindest aus Quality Rater Sicht – geflagt zu werden.

Zwei weitere wirklich interessante Aspekte haben mit dem Inhalt an sich nichts zu tun, sagen aber einiges über das Unternehmen aus:

Den Formulierungen und Anweisungen nach zu urteilen denkt Google offenbar Ihre Quality Rater sind ihrem Job nicht gewachsen. Wenn man jemandem erklären muss wie man Texte markiert oder scrollt, hat er unter Umständen den falschen Beruf gewählt. Ausserdem ist es bemerkenswert, dass Google intern offenbar Firefox und nicht Chrome benutzt. Es werden jedenfalls Extensions für Firefox empfohlen, die es auch für Chrome gibt.

Verfasst von: Ferdinand v. Seggern