Duplicate Content - Inhalte finden & vermeiden

Was ist Duplicate Content?

Unter Duplicate Content (kurz DC) versteht man Inhaltsdopplungen auf unterschiedlichen URLs. In der Suchmaschinenoptimierung unterscheidet man in diesem Zusammenhang zwischen dem internen und dem externen Duplicate Content.

Was versteht man unter internem Duplicate Content?

Interner Duplicate Content tritt auf, wenn auf verschiedenen Unterseiten einer Domain der gleiche Inhalt zu finden ist. Häufig sind Onlineshops mit Shopsystemen und Redaktions-CMS von dieser Problematik betroffen. Beispiele für interne Duplicate-Content-Quellen sind unter anderem:

Tag-Übersichtsseiten
Filter-Übersichtsseiten
interne Suchergebnisseiten
Kategorie-Seiten
Produktdetailseiten, wenn sie in unterschiedlichen Kategorien zu finden sind
Blogbeiträge, wenn sie unterschiedlichen Kategorien/Rubriken zugeordnet sind
paginierte Seiten

Was versteht man unter externem Duplicate Content?

Externer Duplicate Content tritt auf, wenn ähnliche oder identische Inhalte auf mehreren Domains zu finden sind. Diese Art des Duplicate Contents ist für den Crawler ein größeres Problem, da ihm hierbei die Relevanzbestimmung der einzelnen Seiten erschwert wird und er somit schwieriger Rankings ausspielen kann. Beispiele für externe Duplicate-Content-Quellen sind unter anderem:

Übernahme von Hersteller-Artikel-Beschreibungen
Content-Diebstahl
Content-Scraping
Content-Einspielung über RSS-Feeds
Verbreitung von Pressemitteilungen
Nutzung von Inhalten über Affiliate-Seiten

Warum stellt Duplicate Content ein Problem für Google da?

Google ist sehr darum bemüht seinen Nutzern einzigartigen Content – bzw. das bestmögliche Suchergebnis zur Verfügung zu stellen. Wenn nun mehrere URLs mit identischem Inhalt indexiert werden, macht man es dem Algorithmus von Google nicht einfacher die thematische Nähe zum eingegebenen Keyword herzustellen. Wenn Besuchern im Grunde derselbe Content in einer Reihe von Suchergebnissen angezeigt wird, kann dies wiederum zu einer negativen Nutzererfahrung führen.

Ein weiterer Grund, wieso Google ein Problem mit Duplicate Content hat, liegt im Zusammenhang mit der Einsparung von zeitlichen Crawling-Kapazitäten. Für das Crawlen der zigmillionen neuen URLs und Domains steht Google nur eine begrenzte zeitliche Kapazität zur Verfügung. Bietet man Google in diesem Zusammenhang zu viel Duplicate Content an kann dies dazu führen, dass das Crawling vorzeitig abgebrochen wird und somit wichtige URLs nicht gecrawlt und indexiert werden.

Der letzte Grund wieso Google ein Problem mit Duplicate Content hat liegt in der Einsparung von Speicherkapazitäten. Obwohl Googles Speicherkapazitäten überdimensional groß sind, kommen diese auch mal an ihre Grenzen – aus diesem Grund hat Google kein Interesse Speicher durch irrelevante Informationen wie doppelte Inhalte zu belegen.

Hat Duplicate Content Auswirkungen auf die Rankings?

Das Vorhandensein von Duplicate Content kann zu einer Abstrafung seitens Google führen und sollte deshalb von Ihnen ernst genommen werden. Mit einer Abstrafung ist vor allem dann zu rechnen, wenn Google den Duplicate Content für ein Täuschungsmanöver hält. In diesem Fall kann es sogar passieren, dass die entsprechende Webseite aus den Suchergebnissen entfernt wird. Sie müssen also vor allem bei Ihrem internen Duplicate Content selbst handeln und entscheiden welche dieser doppelten Seiten am relevantesten zu einer Suchanfrage ist – überlassen Sie in diesem Fall nicht Google die Interpretation, ob Ihr Duplicate Content unbeabsichtigt oder bewusst verursacht wurde.

Duplicate Content identifizieren

Der wohl einfachste Weg um Duplicate Content identifizieren zu können ist, dass Sie Ihre eigenen Textbausteine selbst googeln. Fügen Sie hierfür ganz einfach den kopierten Textbaustein in das Google-Suchfeld ein und setzen Sie diesen in Anführungszeichen. Nachdem Sie dies getan haben müssen Sie sich nur noch die herausgefilterten doppelten Seiten anzeigen lassen. Hierzu müssen Sie auf den angezeigten Textlink klicken welcher Ihnen in diesem Text: „Damit du nur die relevantesten Ergebnisse erhältst, wurden einige Einträge ausgelassen, die den angezeigten Treffern sehr ähnlich sind.
Du kannst bei Bedarf die Suche unter Einbeziehung der übersprungenen Ergebnisse wiederholen“ angezeigt wird.

Eine weitere Möglichkeit welche Ihnen Google für die Identifizierung von Duplicate Content zur Verfügung stellt ist die Search Console. In der neuen Search Console finden Sie unter dem Menüpunkt „Abdeckung“ einen Report welcher Ihnen wertvolle Informationen für diese Problematik zur Verfügung stellt. Hierfür müssen Sie in dem angezeigten Diagramm auf die „Ausgeschlossenen“ URLs klicken. Anschließend finden Sie in den Details unter dem angezeigten Diagramm unter anderen den Status: „Duplikat – Google hat eine andere Seite als der Nutzer als kanonische Seite bestimmt“, wenn Ihre Seite von einem Duplicate Content Problem betroffen ist. Mit einem Klick auf die betroffene URL lassen sich anschließend weitere Details anzeigen welche Ihnen dabei helfen das Problem genauer zu untersuchen.

Tipps und Lösungen für die Vermeidung von Duplicate Content

Es gibt verschiedene Lösungsansätze um Duplicate Content zu vermeiden. Hier finden Sie eine kurze Checkliste, welche Ihnen mögliche Lösungen zur Vermeidung von Duplicate Content aufzeigt:

Nutzen Sie nur eine URL pro Inhalt
Nutzen Sie einen Canonical Tag um Google zu signalisieren welche bevorzugte URL Sie indexieren möchten
Nutzen Sie den Meta Robots Tag „noindex nofollow“ um unlösbaren Duplicate Content zu beheben
Nutzen Sie Geotargeting und die hreflang – Auszeichnung um eine genaue Sprach- bzw. Länderzuordnung zu gewährleisten
Minimieren Sie wiederkehrende Textbausteine – beispielsweise auf Produktdetailseiten