Duplicate Content mit kanonischen URLs in Drupal und WordPress vermeiden

Duplicate Content ist ein Begriff dessen bloße Erwähnung vielen Web-Workern Schweißperlen auf die Stirn treibt. Suchmaschinenbetreiber Google hat irgendwann die Duplicate Content Penalty eingeführt, eine Abstrafung im Ranking für Seiten, die inhaltsgleich zu anderen Seiten sind. Mit den sog. Kanonischen URLs stellt Google selbst nun ein eigenes Konzept zur Vorbeugung vor. In der Drupal Community geht vielfach die Angst für der DC Penalty um, da Inhalte gerade bei Einsatz von sog. suchmaschinenfreundlichen URLs (noch so ein hartnäckiger SEO Mythos) in Verbindung mit der mod_rewrite Erweiterung des Apache Webservers den Nebeneffekt haben, dass sie fortan über mehrere URLs erreichbar sind.

Für Drupal

Nehmen wir folgendes Beispiel einer imaginären Drupal Website http://diewebsite.tld , mit einem Inhaltstyp „News“. Der Entwickler hat mittels Pathauto Modul (dt.: Autopfad) festgelegt, dass alle Artikel des Typ News über eine URL http://diewebsite.tld/news/[nid] erreichbar sind. Ohne zusätzliche Maßnahmen ist eine solche News nun aber über wenigstens vier unterschiedliche URLs gleichermaßen erreichbar:

Vereinfachtes Beispiel einer News mit der Node ID 666:

  • http://diewebsite.tld/news/666
  • http://diewebsite.tld/node/666
  • http://diewebsite.tld/?q=news/666
  • http://diewebsite.tld/?q=node/666

Google selbst sieht darin nach eigenen Aussagen kein Problem und Sorgen, man könne in einem solchen Fall (mehrere URLs mit demselben Inhalt) bereits abgestraft werden sind unbegründet. Eher ängstliche Gemüter behalfen sich in Drupal bislang mit dem Modul Global Redirect, das für einen Redirect mittels HTTP Status Code 301 (moved permanently) sorgt.Obwohl es also laut Google eigentlich kein Problem gibt, hat man nun mit den Canonical URLs  ein Konzept eingeführt, das auch den letzten Zweifel ausräumen soll. Dahinter steckt nichts weiter als eine zusätzliche Angabe im HTML Head Bereich einer jeden Seite über die bevorzugte URL für diese Seite. In unserem Beispiel würde der Eintrag so aussehen, der egal über welche URL ich den Inhalt erreiche, im HTML Quelltext stehen würde:

[sourcecode language=“html“]

[/sourcecode]

In Drupal erreicht man diese Angabe ganz einfach über ein klein wenig Code an entsprechender Stelle der page.tpl.php :

[sourcecode language=“php“]

< ?php if ($node) : ?> XML Sitemap Modul erzeugte sitemap.xml geworfen und fand, dass für eine Reihe von Nodes nicht der Alias-Pfad erscheint, sondern der reine Pfad über node/[nid] . Gibt Google diesen einmal in seinen Suchergebnissen an, kann es natürlich vorkommen, dass irgendwer extern einen Link auf einen solchen unerwünschten Pfad setzt. Dann könnte man sich wirklich fragen, ob oder ob nicht Google in der Vergangenheit hier Duplicate Content angenommen hat.

Doch mit den kanonischen URLs sollte sich auch dieser letzte Restzweifel ausräumen lassen, denn die hierdurch empfohlene Darstellungsweise der URLs wird von Google auch mit in SERPs übernommen.

Für WordPress

Eine ebenso einfache und schnelle Möglichkeit canonical URLs für WordPress zu nutzen, stellt WordPress Experte Frank Bültge in seinem Blog vor. Ab WordPress Version 1.5 liefert folgender PHP Schnipsel im Header des Themes die Lösung:

[sourcecode language=“php“]

< ?php if ( is_singular() ) echo '‚; ?>

[/sourcecode]

Kommentar (1)

  1. Der Tipp ist wirklich Gold Wert, denn ich denke das ist die Ursache meines Penaltys.

Kommentare sind geschlossen.