Crawler

Aus Online Marketing Wiki
Wechseln zu: Navigation, Suche


Ein Crawler, auch Spider genannt, ist ein Programm, dass selbstständig das World Wide Web durchsucht. Crawler klassifiziert HTML-Seiten nach Suchkriterien und sortiert Links auf die Webseite gemäß der Klassifizierung in eine Datenbank. Diese klassifizierte Einordnung bildet die Grundlage für Suchmaschinen. Außerdem werden Crawler von Suchmaschinen, zur Durchsuchung von indexierten Webseiten nach neuen Informationen, eingesetzt. Die Crawler führen somit dazu, dass Suchmaschinen ihren Index pflegen z.B indem ihm neue Webseiten hinzugefügt werden, alte und leere Seiten gelöscht werden und geänderte Inhalte auf Webseiten erkannt und aktualisiert werden.

Funktionsweise und Anwendungsgebiet

Die Crawler-Programme funktionieren so gut wie selbstständig und laufen kontinuierlich ab. Die Vorgehensweise kann mit dem normalen Internetsurfen verglichen werden, indem er automatisch durch Hyperlinks auf Webseite zu Webseite wechselt.Das Crawler-Programm kann die gefundenen Webseiten im Nachhinein nach definierten Regeln in den Index integrieren. Diese Einbindung der Webseiten in den Index der Suchmaschine führt dazu, dass die Webseiten bei bestimmten Suchbegriffen (Keywords) in den SERP´s aufgelistet werden.

Neben der Index-Pflege von Suchmaschinen werden Crawler auch noch anders eingesetzt:

  • Data Mining: Speichern von E-Mail-Adressen
  • Preisvergleichsportale im Internet: Crawler suchen nach Informationen zu bestimmten Produkten, so können Preise und Daten genau verglichen werden
  • Webanalyse Tools: Crawler sammeln Daten zur Seitenaufrufen, eingehenden - und ausgehenden Links
  • Informationshubs: Crawler suchen nach Informationen im Web und versorgen z.B. Nachrichtenseiten mit Daten

Crawler ausschalten

Webseiteninhaber können entscheiden, ob Crawler die Webseite durchsuchen dürfen. Wenn dies nicht erwünscht ist, kann der Crawler gesperrt werden, indem der Webseitenbesitzer deren User-Agents über die robots.txt ausschließt. Dadurch sind die Webseiten jedoch nicht für die Suchmaschinen gesperrt, hierfür muss zusätzlich der Noindex -Metatag oder der Canonical Tag eingesetzt werden.