- 28. September 2022
- Online Marketing
Was ist überhaupt ein Crawler?
Crawler, oft auch als Spider oder Bots bezeichnet, sind die Detektive des digitalen Raums. Sie navigieren durch das Netz, Seite um Seite, folgen den Verbindungen und sammeln dabei Daten. Ihr Weg wird durch die Anweisungen in der Datei robots.txt vorgezeichnet, welche als eine Art Landkarte für die Crawler dient.
Ihre Hauptmission? Sie sind die Vorhut der Suchmaschinen, die das Terrain erkunden, um die Suchergebnisse zu verbessern. Doch ihre Reise ist nicht nur auf die Optimierung der Suchmaschinen beschränkt. Eine Analyse-Software, die Dir Einblicke in die Performance Deiner Website gibt, setzt ebenso auf die Fähigkeiten der Crawler. Dabei handelt es sich oft um spezielle SEO-Tools, die einen Blick unter die Haube Deiner Website werfen. Doch nicht alle Crawler sind gutartige Helfer. Einige von ihnen haben es auf persönliche Daten abgesehen und sammeln E-Mail-Adressen und andere sensible Informationen, um diese ohne Zustimmung für Spam-Mails und andere unerwünschte Aktivitäten zu nutzen.
Die Kontrolle über das, was Crawler auf Deiner Website tun können, liegt jedoch in deinen Händen. Mit der robots.txt-Datei schreibst Du eine Art Drehbuch für die Bots, legst fest, welche Bereiche sie erkunden dürfen und welche tabu sind. Auch wenn die robots.txt mehr eine freundliche Einladung als ein striktes Regelwerk ist, halten sich die meisten Crawler daran. Um allerdings die unerwünschten Gäste effektiv fernzuhalten, kommt die .htaccess-Datei ins Spiel.
Crawling: Der erste Schritt zur Sichtbarkeit in Suchmaschinen
In der digitalen Welt geht es beim Crawling darum, dass der Googlebot (oder andere Suchmaschinen-Crawler) Deine Website unter die Lupe nimmt — es sei denn, die robots.txt hat etwas dagegen. Hierbei sind die Crawler darauf aus, die Architektur und das Kernangebot Deiner Website zu entschlüsseln und den technischen Puls deiner Seite zu fühlen.
Was folgt, ist die nutzbare Verwertung der gesammelten Schätze durch die Suchmaschinen: Die frisch geernteten Inhalte werden indexiert, gemäß der auf den einzelnen Seiten angegebenen Indexierungsrichtlinien und ihre Relevanz für verschiedene Suchanfragen wird bewertet (Ranking). Das Crawling ist somit das Ticket für die Indexierung und das Ranking, passend zu den Suchbegriffen, die Dein Publikum in die Suchleiste tippt. Ohne diesen ersten Schritt wäre Deine Website ein verstecktes Juwel in der unendlichen Weite des Internets.
So funktioniert der Crawling-Prozess
Crawling: Die Crawler nehmen eine Expedition über Deine Website vor. Dabei kartografieren sie die Struktur und Inhalte, es sei denn, die robots.txt hat andere Direktiven erteilt. Die Crawler sind auch Detektive, die herausfinden, ob seit dem letzten Besuch neue Inhalte hinzugefügt oder vorhandene aktualisiert wurden.
Indexierung: Nach dem Crawling nehmen die Suchmaschinen die gesammelten Erkenntnisse unter die Lupe. Sie entscheiden, welche der entdeckten Inhalte in den elitären Kreis des Suchmaschinenindex aufgenommen werden dürfen. Aus dem Rennen geworfen werden beispielsweise Inhalte, die das No-Index-Tag tragen oder die von der Suchmaschine als irrelevant abgestempelt werden.
Ranking: Die auserwählten Seiten, die es bis zur Indexierung geschafft haben, werden nun den Suchanfragen (Keywords) zugeordnet. In den Suchergebnissen werden die Inhalte nach ihrer Relevanz in absteigender Reihenfolge präsentiert. Den Spitzenplatz erlebt die Seite mit den ‚besten‘ Antworten auf eine Suchanfrage, indem sie auf den Thron der Position 1 der organischen Suchergebnisse gehoben wird.
Suchergebnisse: Der User gibt seine Suchanfrage in die Suchmaschine ein. Basierend auf vorher festgelegten Ranking-Kriterien werden die Positionen der einzelnen Seiten in den organischen Suchergebnisseiten (SERPs) bestimmt und dem User in einer geordneten Liste angezeigt.
Das Crawling legt also den Grundstein für die Indexierung und schließlich für das glanzvolle Ranking Deiner Inhalte. Auch wenn die Suchmaschinenoptimierung (SEO) sich vorwiegend auf das Ranking fokussiert, ist es unerlässlich, dass du als SEO-Akrobat die Choreografie des Crawlings beherrschst.
Darum solltest Du das Ruder beim Crawling Deiner Seite in die Hand nehmen
- Schirme Daten ab, die nicht für die Augen der Öffentlichkeit bestimmt sind. Überlege sorgfältig, welche Bereiche oder Inhalte vor den neugierigen Blicken der Crawler verborgen bleiben sollen, etwa weil sie sensiblen Dritten gehören (Member Areas, Kundenkonten). Halte unerwünschte Inhalte fern vom Rampenlicht des Index.
- Blockiere das überflüssige Crawling von Inhalten, die nicht im Rampenlicht des Index glänzen sollen. Suchmaschinen gewähren jeder Website ein tägliches Ticket für das Crawling-Event. Verschwende es nicht für Seiten, die keinen Eintritt in den Index erlangen sollen und leite es stattdessen zu den Seiten um, die Deine Rankings zum Funkeln bringen.
Eigne Dir auch die Kunst des Umgangs mit der robots.txt an, um das Crawling Deiner Website souverän zu dirigieren. Und wir klären Dich zudem rundum über die Optimierung des Crawl Budgets auf.
Die technischen Aspekte des Crawlings
Robots.txt: Diese Datei gibt an, welche Teile einer Webseite von Suchmaschinen-Crawlern besucht oder ignoriert werden sollen. Eine korrekte Konfiguration ist entscheidend, um sicherzustellen, dass wichtige Inhalte erfasst werden und irrelevante Seiten außen vor bleiben.
Sitemap: Eine Sitemap listet alle Unterseiten einer Website auf und hilft den Suchmaschinen, die Struktur der Website besser zu verstehen. Dies kann besonders bei großen oder komplexen Websites von Vorteil sein.
HTTP-Statuscodes: Diese Codes informieren den Crawler über den Status einer Seite. Beispielsweise zeigt der Code „200“ an, dass alles in Ordnung ist, während „404“ bedeutet, dass die Seite nicht gefunden wurde.
Ladezeiten: Schnelle Ladezeiten sind nicht nur für die User Experience wichtig, sondern auch für Crawler. Langsame Seiten können weniger häufig gecrawlt werden, was die Sichtbarkeit in den Suchergebnissen beeinträchtigen kann.
Mobile Optimierung: Da immer mehr Suchanfragen von mobilen Geräten kommen, legen Suchmaschinen großen Wert auf mobile Optimierung. Eine mobile-freundliche Seite wird daher bevorzugt gecrawlt.
Best Practices für ein effizientes Crawling
Klare Struktur: Eine logisch aufgebaute und einfach zu navigierende Webseite erleichtert es den Crawlern, alle Inhalte zu erfassen.
Regelmäßige Überprüfungen: Nutze Tools wie die Google Search Console, um Crawling-Fehler zu identifizieren und zu beheben.
Vermeiden von Duplicate Content: Doppelte Inhalte können für Suchmaschinen verwirrend sein. Stelle also sicher, dass jede Seite einen eindeutigen Inhalt hat.
Häufige Probleme und Lösungen beim Crawling
Beim Crawling von Webseiten durch Suchmaschinen können verschiedene Probleme auftreten, die die Sichtbarkeit und das Ranking einer Website beeinträchtigen können. Hier sind einige der häufigsten Herausforderungen und wie man sie angeht:
Doppelte Inhalte
- Problem: Doppelte Inhalte können dazu führen, dass Suchmaschinen nicht erkennen, welche Version einer Seite indexiert werden soll. Dies kann zu Verwirrung führen und die Sichtbarkeit Deiner Website in den Suchergebnissen beeinträchtigen.
- Lösung: Verwende kanonische Tags, um den Suchmaschinen mitzuteilen, welche Version Deiner Seite als die Hauptversion betrachtet werden soll. Stelle außerdem sicher, dass Du keine identischen Inhalte auf verschiedenen URLs haben.
Orphaned Pages
- Problem: Orphaned Pages sind Seiten, die nicht von anderen Seiten auf Deiner Website verlinkt sind. Das bedeutet, dass Suchmaschinen-Crawler sie möglicherweise nicht finden und indexieren können.
- Lösung: Überprüfe Deine Website regelmäßig auf verwaiste Seiten. Stelle sicher, dass jede relevante Seite von mindestens einer anderen Seite auf Deiner Website verlinkt ist. Tools wie Screaming Frog oder Sitebulb können dabei helfen, solche Seiten zu identifizieren.
Fehlende oder falsche Weiterleitungen
- Problem: Wenn eine Seite verschoben oder gelöscht wird und keine korrekte Weiterleitung eingerichtet ist, kann dies zu „toten Links“ führen. Dies kann nicht nur die User Experience beeinträchtigen, sondern auch das Ranking in den Suchergebnissen.
- Lösung: Verwende 301-Weiterleitungen, um User und Suchmaschinen von der alten URL zur neuen zu leiten. Überprüfe auch regelmäßig alle Weiterleitungen, um sicherzustellen, dass sie korrekt funktionieren.
Fazit
Crawling ist ein fundamentaler Prozess im Bereich der Suchmaschinenoptimierung. Durch das Verständnis der Rolle von Crawlern und ihrer Funktionsweise kannst Du Deine Website optimal für Suchmaschinen vorbereiten. Während viele technische Aspekte zu berücksichtigen sind, von der robots.txt bis zur mobilen Optimierung, ist es entscheidend, die Kontrolle über das Crawling zu behalten, um die Sichtbarkeit und das Ranking in den Suchergebnissen zu maximieren. Mit den richtigen Tools und Strategien kann man sicherstellen, dass die Website nicht nur effizient gecrawlt, sondern auch korrekt indexiert und gerankt wird.
Du brauchst Hilfe bei der Ausarbeitung oder Optimierung Deiner SEO-Strategie? Dann kontaktiere uns gerne!
- Entwicklung
- Online Marketing
- SEO